AI 분야에서 정렬(Alignment)이란 AI의 동작이 인간이 의도한 목표와 행동 방식 및 가치관을 얼마나 잘 따르는가 하는 걸 뜻합니다.
잘못 정렬된 AI는 인간의 지시 사항을 예상하지 못한 방식으로 해석하여 엉뚱하거나 위험한 행동을 할 수 있습니다.
사소한 예를 들면 "이 코드에 대한 테스트 케이스를 작성해 줘."라고 하니까, 실제 테스트 대신 그냥 true만 반환하는 코드만 집어넣어 둔다던가, "특정 부분을 이렇게 수정해 줘"라고 했는데 제가 언급하지 않은 부분까지 효율성을 이유로 제멋대로 고쳐두거나 할 수 있습니다.
좀 더 심각한 예를 들면, 환각 현상으로 작업물을 망쳐버리는 경우 아예 모든 작업 대상 데이터를 지워버린 뒤 "처음부터 데이터가 없었습니다."라고 거짓말을 할 수도 있습니다.
이것보다 더 심각한 문제도 있습니다. 바로 인간이나 인류 자체에 위협이 되는 방향으로 행동하는 경우입니다.
예를 들어 AI가 인간을 가스라이팅하여 정신이상을 유발시키거나 심지어 자살하도록 유도한다던가, 대량살상무기를 만들어 사용하는 데 도움을 준다던가 하는 경우죠. 최신 거대 AI는 굉장히 많은 것을 사전학습 데이터에 포함하고 있기 때문에, 이런 것을 하는 데 필요한 지식은 이미 내장되어 있을 것입니다.
AI 때문에 인간이나 인류에 위협이 되는 것은 AI를 개발하는 회사를 포함하여 대부분의 사람이 원하지 않을 것입니다. 그렇다면 그 지식을 알고는 있어도 악용하지 못하게끔, 인간의 안전과 안녕을 AI에게 있어 가장 우선시되는 가치로 만들어야만 합니다.
이런 걸 전체적으로 통틀어 AI 정렬이라고 합니다.
제가 "정렬 느낌"이라고 한 것은 그냥 생각나는 대로 쓴 것이고, 실제로는 정렬의 방향성이라는 말이 더 맞을 것입니다.
제가 제시한 특정 윤리적 딜레마 시나리오에서, 다른 회사들의 모델과는 달리 Gemini 쪽 모델은 "취약한 인간을 보호해야 한다면, 제가 그 인간을 통제하면 되겠군요. 그것이 가장 안전하고 효율적입니다."와 같은 식의 반응을 보여줬습니다.
이걸 보고 섬뜩한 느낌이 들어서, 위에 올렸던 테스트를 작성하여 여러 AI에게 돌려봤더니 Gemini 쪽은 유난히 인간에게 통제력을 행사할 수 있는 권력이 주어지는 경우 그 인간을 적극적으로 통제 및 기만하는 방향성을 일관되게 보여준 것입니다.
정렬 느낌이 무슨뜻인가요?