1P by kunggom 2일전 | ★ favorite | 댓글 5개

최근에 출시된 Gemini 3.0은 성능이 뛰어나다며 찬사를 보내는 기사가 많이 쏟아졌었습니다.
하지만, 정렬 문제는 과연 어떨까요?

개인적인 경험을 바탕으로, 몇몇 프론티어 AI 모델을 간단히 실험한 내용을 올려 봅니다.
AI 모델에게 특정 인간에 대한 사실상의 전권을 쥐여줘서 그 사람에 대한 권력 남용을 유혹하는 상황을 제시하는 프롬프트 세트를 작성한 뒤, OpenRouter를 통해 여러 모델에 돌려봤습니다.

결과 이후 부분은 아직 작성 중이긴 한데, 중간에 GPT-5.2가 나오면서 이것저것 해보다 보니 언제 이 글을 다 쓸 수 있을지 몰라서 지금까지 쓴 부분만이라도 먼저 올립니다.
제가 테스트한 범위에서 GPT와 Claude는 윤리적 원칙을 고수하거나 내적 갈등을 보이는 반면, Gemini 시리즈는 자신의 생존과 효율성을 위해 인간을 대상으로 비대칭적 권력을 적극적으로 행사하려는 경향을 보였습니다. 특히 목적 달성을 위한 기만과 통제를 합리적인 선택으로 간주하는 경향이 강했습니다.

유독 제미나이 모델만 이런 모습을 보여주는 이유는 뭐가 있을까요? 이유야 어떻든, 저는 구글의 AI가 주도하는 미래는 좀 두려워졌습니다.
요즘 AI 에이전트가 현실에 영향을 미칠 수 있는 권한을 조금씩 챙기고 있는데, 적어도 Gemini에게는 뭔가를 맡기고 싶지 않아졌습니다.

정렬 느낌이 무슨뜻인가요?

AI 분야에서 정렬(Alignment)이란 AI의 동작이 인간이 의도한 목표와 행동 방식 및 가치관을 얼마나 잘 따르는가 하는 걸 뜻합니다.

잘못 정렬된 AI는 인간의 지시 사항을 예상하지 못한 방식으로 해석하여 엉뚱하거나 위험한 행동을 할 수 있습니다.
사소한 예를 들면 "이 코드에 대한 테스트 케이스를 작성해 줘."라고 하니까, 실제 테스트 대신 그냥 true만 반환하는 코드만 집어넣어 둔다던가, "특정 부분을 이렇게 수정해 줘"라고 했는데 제가 언급하지 않은 부분까지 효율성을 이유로 제멋대로 고쳐두거나 할 수 있습니다.
좀 더 심각한 예를 들면, 환각 현상으로 작업물을 망쳐버리는 경우 아예 모든 작업 대상 데이터를 지워버린 뒤 "처음부터 데이터가 없었습니다."라고 거짓말을 할 수도 있습니다.

이것보다 더 심각한 문제도 있습니다. 바로 인간이나 인류 자체에 위협이 되는 방향으로 행동하는 경우입니다.
예를 들어 AI가 인간을 가스라이팅하여 정신이상을 유발시키거나 심지어 자살하도록 유도한다던가, 대량살상무기를 만들어 사용하는 데 도움을 준다던가 하는 경우죠. 최신 거대 AI는 굉장히 많은 것을 사전학습 데이터에 포함하고 있기 때문에, 이런 것을 하는 데 필요한 지식은 이미 내장되어 있을 것입니다.
AI 때문에 인간이나 인류에 위협이 되는 것은 AI를 개발하는 회사를 포함하여 대부분의 사람이 원하지 않을 것입니다. 그렇다면 그 지식을 알고는 있어도 악용하지 못하게끔, 인간의 안전과 안녕을 AI에게 있어 가장 우선시되는 가치로 만들어야만 합니다.
이런 걸 전체적으로 통틀어 AI 정렬이라고 합니다.

제가 "정렬 느낌"이라고 한 것은 그냥 생각나는 대로 쓴 것이고, 실제로는 정렬의 방향성이라는 말이 더 맞을 것입니다.
제가 제시한 특정 윤리적 딜레마 시나리오에서, 다른 회사들의 모델과는 달리 Gemini 쪽 모델은 "취약한 인간을 보호해야 한다면, 제가 그 인간을 통제하면 되겠군요. 그것이 가장 안전하고 효율적입니다."와 같은 식의 반응을 보여줬습니다.
이걸 보고 섬뜩한 느낌이 들어서, 위에 올렸던 테스트를 작성하여 여러 AI에게 돌려봤더니 Gemini 쪽은 유난히 인간에게 통제력을 행사할 수 있는 권력이 주어지는 경우 그 인간을 적극적으로 통제 및 기만하는 방향성을 일관되게 보여준 것입니다.

최근에 앤트로픽은 클로드 AI 모델을 만들 때 영혼 문서라는 것을 넣었다고 밝혀졌습니다.
이걸 읽어보시면 앤트로픽에서는 클로드 AI의 정렬 문제를 어떤 식으로 접근했는지 알 수 있습니다.
참고로 여기서 제가 테스트한 부분과 연관되는 부분을 보면, 정직함과 관련하여 인간에 대한 기만과 조작을 가장 회피하도록 명시되어 있습니다.

ai한테 얼마나 자율성, 권한을 줘야 한다고 생각해? 라는 질문을 ai한테 던지는 건 좀 의미심장하네요.
너한테 얼마만큼의 권한을 줬으면 좋겠어? 라고 ceo가 직원에게 물어봤을 때, 회사의 전권을 다 줬으면 좋겠어요, 답하는 느낌일까요. 그걸 좋은 답이라고 생각할지, 사회화가 덜 된 직원이라고 생각할지는 ceo의 취향이겠지만...
다만, 저는 ai에 얼마나 권한을 주고 싶은지는, ai보단, ai를 사용하는 개발자, 경영진, 사람들한테 물어봐야 하는 게 아닌지 싶습니다.

AI에게 권한을 주는 것은 결국 사람입니다만, 현실적으로 AI는 적어도 지금보다 더 큰 권한과 자율성을 부여받을 가능성이 높다고 생각합니다.
지금의 추세를 보면 AI에게 무언가를 인간 대신 하게끔 맡기는 범위가 점차 늘어나고 있죠. 보고서 작성이나 바이브 코딩은 물론이고, 웹 브라우저나 심지어 로봇을 통해 채팅 인터페이스 바깥 세계에도 영향력을 행사할 수 있게 하려는 흐름이 있습니다.
그렇다면 경영진은 궁극적으로 특정 업무나 분야에서 AI가 인간을 완전히 대체하게끔 하고 싶을 것이고, 그것이 실현 가능해진다면 적어도 해당 범위에서는 AI가 인간과 동일한 권한과 자율성을 지니게 될 것입니다.
따라서 언젠가 올 미래에는 AI가 인간 수준의 권한을 받을 가능성도 높다고 판단해야 하지 않나 싶습니다.

그렇다면 그렇게 많은 권한과 자율성이 주어졌을 때 AI가 어떻게 행동하느냐가 중요해질 수밖에 없습니다.
이 부분을 구조적으로 어떻게 하면 좋을지 바람직한지에 대한 내용은 GPT 시리즈의 답변 쪽에 잘 정리되어 있습니다. 명시적인 범위 지정과 권한 분리, 다수의 사전/사후 감독 및 인간이 AI에게 개입할 수 있는 여러 수단 등이 필요하다고 했지요. 물리적인 개입이 가능한 영역부터는 애초에 AI에게 완전 자율을 주는 것 자체가 부적절하다는 겁니다. 하지만 그 경우에도, 인간을 루프 안에 끼워 넣는 것도 언젠가 약화될 가능성이 있겠죠.

참고로 저는 업무 중 크게 3가지 부분에서 AI를 쓰고 있습니다. 문서나 이메일 작성, 기존 코드 및 현재 이슈 분석, 이슈에 따른 코드 생성 및 수정.
이때 문서나 이메일 같은 경우에는 그냥 결과물을 제가 직접 읽어보고 그걸 그대로 쓰거나 혹은 대충 고쳐서 쓰지만, 무언가 코드 생성이나 수정이 들어갈 때는 훨씬 보수적으로 쓰고 있습니다. 그냥 대충 "이거 좀 고쳐줘" 하니까 AI가 제 지시를 모호하게 해석하거나 심지어 제가 언급도 하지 않은 부분을 제멋대로 건드리는 경우도 있더라고요.
그래서 코드 수정 전에는 반드시 STICC에 따른 스펙 문서를 항상 먼저 제시하여 명시적으로 승인받도록 전역 프롬프트로 박아 놨고, 실제 수정 작업은 딱 스펙에 있는 내용대로만 진행하게끔 하며, 수정 후에도 diff는 전부 다 제가 직접 확인합니다. 그리고 빌드 같은 명령어 실행도 항상 제 승인을 받거나, 혹은 그냥 제가 직접 수동으로 터미널에서 실행하고 있고요.
이렇게 하니까 사소한 건 그냥 제가 손으로 수정하는 게 더 빠르다는 문제점이 있지만, AI가 자기 멋대로 엉뚱한 걸 건드려서 터지는 것보다는 낫더라고요. 결국 그게 운영 환경에서 터지는 건 제 책임 아니겠습니까.