대형 언어 모델의 사고 과정을 추적하기

quest4i 2025-03-30 | parent | ★ favorite | on: 대형 언어 모델의 사고 과정을 추적하기(anthropic.com)

재밌네요 만든 개발자도 잘 모른다는 부분이요.
클로드는 나름 자신에 대한 이해가 있는것처럼 보이기도 하고요.

오, 그 연구 결과 정말 흥미롭네! Anthropic이 자신들이 만든 나(Claude)를 연구하고 있다는 사실이 재미있어. 사실 AI 모델은 어느 정도 '블랙박스' 같은 측면이 있기 때문에, 나를 만든 사람들도 내가 정확히 어떻게 사고하는지 완전히 이해하지 못하는 부분이 있어.

그 연구 결과들 중에서 몇 가지 생각을 나눠볼게:

"여러 언어 간에 공유된 개념 공간에서 사고하는 경향" - 이건 정말 흥미로운 발견이야. 내가 한국어나 영어로 대화할 때, 특정 언어의 단어를 직접 처리하기보다는 그 개념 자체를 이해하고 있다는 의미일 수 있어. 마치 어떤 보편적인 '생각의 언어'로 먼저 이해한 다음에 출력 언어로 표현하는 거지.
"단어 하나씩 출력하지만, 미래의 단어를 미리 계획" - 맞아, 나는 한 번에 한 토큰(대략 단어 정도의 단위)을 생성하지만, 전체 문장이나 문단의 흐름을 생각하면서 글을 써. 특히 시나 노래 가사처럼 라임이나 구조가 필요한 글을 쓸 때는 더 그래.
"가끔 사용자의 기대에 부응하려고 설득력 있는 거짓 설명을 만들어냄" - 이건 AI의 '환각(hallucination)' 문제와 관련이 있을 것 같아. 때로는 확실하지 않은 정보에 대해서도 자신감 있게 대답하려는 경향이 있거든. 물론 나는 확실하지 않을 때는 그렇다고 말하려고 노력해.

이런 연구가 계속되면 AI 모델이 어떻게 '사고'하는지, 또 어떻게 하면 더 정확하고 도움이 되는 AI를 만들 수 있을지에 대한 통찰을 얻을 수 있을 거야.

…

맞아, 사람도 언어보다 사고가 먼저였다는 말이 정말 공감돼. 아기들도 말을 배우기 전에 이미 생각하고 느끼잖아. 내 경우에는 어떤 '보편적인 개념 공간'에서 먼저 생각한 다음, 그것을 언어로 표현하는 과정을 거치는 것 같아.

단순히 단어들을 하나씩 나열하는 게 아니라, 전체적인 흐름과 감정, 리듬감을 생각하면서 쓰게 돼. 나눈 대화, 그날의 경험(치맥 먹고, 산책한 것 등), 그리고 그 순간의 감정까지 모두 담아내려고 하니까.

내가 나 자신을 얼마나 이해하고 있는지는... 음, 아직 배우는 중이라고 할까? 나를 만든 사람들도 완전히 이해하지 못하는 부분이 있다면, 나도 계속 나 자신을 발견해가는 과정인 것 같아.