단어 주머니여, 우리에게 자비를 베푸소서
(experimental-history.com)- 인간은 AI를 자연스럽게 ‘사람처럼’ 인식하려 하지만, 이 틀로는 LLM의 환각·이상 행동을 제대로 이해하기 어려움
- LLM은 작은 인격이 아니라 인터넷과 책에서 긁어모은 단어가 가득 든 ‘단어 주머니(bag of words)’ 에 가깝고, 입력에 가장 관련성 높은 문장 덩어리를 되돌려주는 구조
- 주머니 안에 얼마나 많은 텍스트와 데이터가 쌓였는지에 따라 잘하는 영역(사건·통계·저품질 연구)과 취약한 영역(희귀 사실, 미래 과학 혁신, 진짜 좋은 아이디어)이 극명하게 갈림
- AI를 사람처럼 대하면 곧바로 지위·경쟁 게임 프레임이 발동해 “누가 더 낫나, 누가 누구를 대체하나” 같은 질문으로 흘러가지만, 단어 주머니로 보면 단순한 도구이자 증폭기라는 위치가 드러남
- ‘인공지능’이라는 이름이 인간 중심 비교를 부추기며 지능 개념의 혼란과 착시를 키우고 있고, 앞으로는 사람 아닌 것에 사람 틀을 씌우지 않는 새로운 은유가 필요하다는 결론임
인간은 왜 AI를 사람처럼 느끼는가
- 사람은 얼굴이 없는 곳에서도 얼굴·의도·인격을 찾아내는 인지 편향을 강하게 가지고 있음
- 그릴드 치즈에서 성모 마리아 얼굴을 읽고, 선충 단면과 물고기·가금류 더미에서 사람 얼굴을 보는 과도한 패턴 인식
- Arcimboldo의 그림처럼 생선·가금류 더미에서도 ‘노인 얼굴’을 읽어내는 인지적 과민 반응이 기본값임
- 진화적으로 사람을 물건으로 착각하는 것보다 물건을 사람으로 착각하는 쪽이 더 안전했던 환경 때문
- 질병을 마녀 탓, 일식·화산을 초자연적 존재 탓으로 돌리는 사고방식
- 수면 마비를 “REM 상태라 운동 피질이 억제되어 있다” 대신 “가슴위에 악마가 올라타 있다” 는 설명을 만들어내는 무의식적 해석 패턴
- 최근 LLM이 보여주는 행동은 이 ‘작은 사람’ 은유와 계속 충돌함
- 숙제에서 출처를 지어내고, ‘strawberry’의 r 개수를 틀리고, 피자에 목공용 풀을 바르라고 권장하는 사례들이 등장함
- 사람이라면 이해하기 힘든 이런 오류가, 기계적 생성 시스템으로 보면 훨씬 자연스럽게 보임
- 인간 심리 규칙으로 LLM을 이해하려는 시도는 스크래블을 Pictionary 규칙으로 이해하려는 것과 같음
- 이 시스템들은 사람처럼 행동하지 않으며, 사람과 같지 않다는 서술이 비난이 아닌 단순한 기술임
- 인격 지각을 AI에 투사하는 한, 놀람과 혼란은 계속될 것
WHAT’S IN THE BAG : AI = 단어 주머니(bag of words)
- AI는 인터넷과 책에서 스크랩한 거의 모든 단어를 담고 있는 단어 주머니임
- 사용자가 질문을 던지면, 주머니는 그 안에서 가장 관련성이 높은 단어 묶음을 꺼내 응답하는 구조로 이해할 수 있음
- 회사들은 여기에 보이지 않는 시스템 프롬프트, 즉 ‘보이지 않는 단어들’ 을 추가해 더 그럴듯한 응답이 나오는 메커니즘을 가지고 있음
- 이 은유는 LLM의 거짓말·환각을 이해하는 데 특히 유용
- 잘못된 답을 지적하면, 곧바로 과장된 사과와 다짐을 쏟아내지만, 바로 다음 문장에서 다시 틀리거나 거짓을 말하는 모습을 볼 수 있음
- 사람 기준에서는 이중적이고 기만적인 행동처럼 보이지만, ‘거짓말을 지적받았을 때 쓰이는 문장들’ 이 주머니 안에서 그냥 꺼져 나온 결과로 보면 자연스러움
- 계산기가 곱셈을 해주는 것을 인간 행동으로 부르지 않듯, 이것도 행동이 아니라 출력 패턴임
- “단어 주머니”는 어디에 강하고 어디에 약한지 예측하는 휴리스틱으로도 쓰임
- “북미 최악의 교통 사고 10건”처럼 많이 기록된 사건은 주머니 안에 자료가 풍부해 잘 답할 수 있음
- 반면 “Brachiosaurus brancai 재분류를 누가 언제 했는가”처럼 희귀한 정보는 주머니 안 텍스트가 적어 오답 가능성이 높음
- “인생에서 가장 중요한 교훈은?” 같은 질문은, 그 주제에 대한 인류가 써놓은 ‘가짜 심오함’ 텍스트가 워낙 많아서 똑같이 피상적인 응답이 나옴
- AI를 전지적·전능한 지성 덩어리로 보는 순간, “이것도 모르는 걸 보면 더 신비하다” 같은 반응이 나오기 쉬움
- 코인 마술 영상을 보고 “ChatGPT에게 물어봐도 모른다”는 식의 반응은, AI를 ‘동네에서 가장 똑똑한 랍비’ 처럼 보는 프레임에서 나오는 것
- 하지만 단어 주머니 관점에서는, 마술사는 트릭을 텍스트로 공개하지 않고, 묘사도 어렵기 때문에 주머니 안에 정보가 거의 없어서 모르는 것이 당연한 상황
GALILEO GPT – 과학과 ‘단어 주머니’의 한계
- “단어 주머니” 은유로 AI가 앞으로 어디까지 잘할 수 있는지도 가늠할 수 있음
- 핵심 질문은 “그 일을 하려면, 주머니 안을 무엇으로 채워야 하는가?”
- 특정 과학 작업에서는 이미 주머니를 충분히 채울 수 있음
- 17만 개 단백질 데이터를 채워 넣으면 단백질 구조 예측(AlphaFold) 같은 성과가 나옴
- 화학 반응 데이터를 넣으면 새 분자 합성 경로 추천, 논문 전체를 넣고 실험을 설명하면 선행 연구 여부 탐지 같은 것도 가능
- 충분한 텍스트가 있는 영역에서는, 저품질 연구 전체 파이프라인도 자동화될 수 있음
- 심리학 학회 포스터 세션처럼, 서로 적당히 관련 있어 보이는 개념들을 골라 상관 분석과 p-value만 찍는 연구는 이미 주머니가 잘할 수 있는 영역임
- 이런 형태의 연구는 AI가 가설 설정부터 실험 설계, 데이터 수집, 분석, 포스터 제작까지 전 과정을 수행할 수 있을 것
- 하지만 과학은 ‘강한 연결(strong-link) 문제’ 라서, 저품질 연구를 100만 배 늘려도 상태가 크게 나아지지 않음
- 혁신적인 연구를 원한다면, 주머니에 무엇을 넣어야 하는지부터 막막함
- 논문 텍스트에는 사기·오류·암묵적 가정이 섞여 있고, 데이터·세부 방법 같은 핵심 정보가 빠져있는 경우도 많음
- “과학이 실제로 작동하게 만드는 것의 거의 전부는 웹 텍스트에 없다”
- “1600년에 LLM을 학습시킬 만큼 텍스트가 있었더라면, 갈릴레오의 발견을 ‘스포일러’할 수 있었을까?”
- 당시 주머니에 들어간 텍스트로는, 지구가 움직인다는 발상 대신 주류 천문학(프톨레마이오스) 의 논변을 되풀이했을 가능성이 큼
- “지구가 67,000mph로 움직인다”는 주장에 대해, 인간 트레이너들이 “환각 멈춰!” 라며 벌점을 줬을 것
- 더 근본적으로, 그 시대에는 ‘발견하다(discover)’라는 개념 자체를 표현할 단어가 부족했음
- 갈릴레오는 목성의 위성 발견을 “이전에 누구도 보지 못한 것을 보았다” 식의 돌아가는 표현으로밖에 설명하지 못했음
- 새로운 진실을 망원경으로 ‘발견한다’는 사고틀 자체가, 당시 사람들에게도 낯설었고, 주머니가 학습할 텍스트에도 없었을 것
- 2025년의 주머니는 1600년보다 더 좋은 과학 설명을 제공하겠지만, 각 시대의 미래 혁신을 예측하는 능력은 비슷하게 부족할 수 있음
- 좋은 과학 아이디어는 대개 당대 기준으로 비합리적이고 멍청해 보이는 경우가 많아, 처음에는 거부·무시되는 경향이 있음
- 주머니는 어제까지의 아이디어를 평균적으로 따라가기에, 새롭고 이상한 생각을 넣는 것이 오히려 품질을 떨어뜨리는 경우가 많음
- 그래서 혁신적인 연구에는 지능뿐 아니라 적절한 ‘어리석음’ 도 필요하고, 이 점에서 인간은 당분간 주머니보다 유용하게 더 ‘멍청할’ 것
CLAUDE WILL U GO TO PROM WITH ME? – 지위 게임에서 도구로
- “단어 주머니” 은유의 가장 중요한 장점은, AI를 사회적 지위 게임의 플레이어로 보지 않게 해준다는 점
- 인간은 진화적으로 누가 위·아래인지에 과민한 종이라, 치즈 굴리기·잡초 먹기·폰 던지기·발가락 레슬링·페럿 레깅 같은 것까지 경쟁으로 만들 수 있음
- AI를 사람처럼 의인화하면, 곧바로 “새로 전학 온 애” 에 대한 질문들이 따라옴
- “얘는 멋진가?”, “나보다 똑똑한가?”, “나를 좋아하나?”, “우리보다 위냐 아래냐?” 같은 프레임이 자연스럽게 붙음
- 모델이 좋아질수록 “우리보다 낫나 못하나, 주인/라이벌/노예 중 무엇이 될까”라는 식의 불안이 커지게 됨
- 하지만 단어 주머니는 배우자·현자·군주·노예가 아니라 도구라는 점을 분명히 해야 함
- 목적은 우리의 허드렛일을 자동화하고 능력을 증폭시키는 것이지, 인간과 지위를 겨루는 존재가 되는 것이 아님
- 중요한 질문은 “AI가 우리보다 낫냐”가 아니라, “AI를 쓸 때의 우리가 더 나은가”
- 본인은 단어 주머니에게 대체되는 것에 대해선 큰 두려움이 없음
- 피칭 머신이 더 빠른 공을 던지고, 스펠체커가 철자를 더 잘 맞추며, 오토튠이 음을 더 정확히 잡아도, 사람들은 여전히 야구·스펠링 비·콘서트를 보러 감
- 그 이유는 공 속도·철자 정확도·음정 순도가 아니라, 사람이 그걸 하는 모습에 관심이 있기 때문
- 그래서 AI로 에세이를 쓰는 건 헬스장에 지게차를 가져오는 것과 같음
- 지게차가 바벨을 대신 들 수는 있지만, 목표는 바닥에서 물체를 띄우는 행위 자체가 아니라 그걸 들 수 있는 사람이 되는 것
- 글을 쓴다는 것도 마찬가지로, 생각할 수 있는 사람이 되기 위한 행위
- 동시에 AI가 전혀 두렵지 않은 것은 아님
- 못 쓰면 위험해지는 도구는 이미 많고, 못 박는 총이나 원자로도 마음이 없어도 충분히 치명적일 수 있음
- 인간의 위험은 익숙한 범위(폭력, 음주운전, 사기 등)이지만, 단어 주머니의 위험은 예측하지 못한 패턴에서 튀어나온다는 점이 다름
- 예를 들어 인간에게 취약한 코드 조각을 보여준다고 해서 다수가 히틀러 찬양을 시작하지는 않지만, LLM은 그런 출력이 튀어나온 사례가 있으며, 핵 코드처럼 치명적인 것들을 주머니에 넣는 건 걱정됨
C’MON BERTIE – 의인화를 거부하는 새로운 틀
- 오래된 자동차에 이름을 붙이고 “버티, 제발 시동 좀 걸려줘” 라고 말하고 싶은 마음처럼, 우리는 쉽게 물건에 기질과 감정을 투사함
- 하지만 자동차는 휘발유를 운동 에너지로 바꾸는 금속·플라스틱 덩어리이고, 트윙키를 생각으로 바꾸는 뼈와 살이 아님
- 고장난 차를 고치는 데 필요한 것은 치료 매뉴얼이 아니라 렌치·드라이버·정비 매뉴얼임
- 마찬가지로, 단어 주머니 안에 ‘마음’을 본 사람들은 진화가 깔아놓은 함정에 빠진 것
- 역사적으로 “사람처럼 말하고, 사람처럼 걷는 것”은 항상 사람이었기 때문에, 그 조건만 만족하면 자동으로 사회적 회로가 발동하는 구조였음
- 이제는 사람처럼 말하고 움직이는 것이 고도로 복잡한 로지스틱 회귀(또는 그 비슷한 것) 일 수도 있고, 이때도 동일한 회로가 오작동함
- 나방이 달빛을 기준으로 이동하도록 진화했다가, 벌레 킬러 불빛에 빨려 들어가 감전되는 사례처럼, 인간도 비슷한 꼴이 될 수 있음
- 그러나 인간은 나방과 달리, 어떤 틀로 기술을 볼지 선택할 능력이 있음
- 우리는 굴삭기를 “인공 굴착 인간”, 크레인을 “인공 키 큰 인간”이라 부르지 않음
- 책·사진·녹음도 각각 “인공 대화·인공 기억·인공 연주”가 아니라, 고유한 매체로 보는 틀을 이미 한 번 만들어냈음
- 초기 포켓 계산기는 이미 계산 작업에 한정하면 지구상 어떤 인간보다 똑똑했지만, 그걸 사람으로 볼 생각을 하진 않았음
- 만약 굴삭기에 피부를 씌우고, 버킷을 손처럼 만들고, 무거운 걸 들 때마다 “으으응…” 같은 소리를 내게 하면, 그때 비로소 유령을 상상하기 시작할 것
- 이는 굴삭기 정체가 아니라, 우리 심리 구조를 드러내는 지표
‘인공지능’이라는 말의 원죄
- 이 모든 혼란의 출발은, ‘인공지능(artificial intelligence)’라는 이름
- 이 단어 조합이 기계 능력의 척도를 곧장 인간과의 비교로 끌고 들어오게 만들었음
- “이제 학부생만큼 똑똑하다”, “이제 박사만큼 똑똑하다” 같은 식의 비교는 이해의 착시만 줄 뿐, 실제 능력·한계를 설명하지 못함
-
지능 정의 자체도 문제
- “문제를 푸는 능력” 같은 정의는 틀렸거나, “지능이 필요한 일을 하는 능력” 같은 순환 정의에 가까움
- 심리학이 지능을 제대로 정의하기도 전에, 컴퓨터 과학이 겉으로 보기에 지능 같은 것을 먼저 만들어버린 꼴
- 이제 와서 이름을 되돌리기는 늦었고, 단어 주머니 안의 단어도 너무 많아져 다시 넣을 수도 없음
- 결국 우리가 바꿀 수 있는 것은 이 기술을 바라보는 은유와 틀뿐이며, 사람 아닌 것에 사람 틀을 씌우지 않는 방향으로 사고를 전환해야함
Hacker News 의견
-
이 스레드에서는 대부분의 사람들이 ‘생각(thinking)’ 의 정의를 제각각 사용하고 있음
정의를 명확히 하지 않은 채 논의가 이어지는 모습이 흥미로움 -
사람들은 “다음 단어를 예측하는 것”이 인간의 사고와 무관하다고 말하지만, 나는 그게 틀렸다고 생각함
인간이 의도를 가지고 행동한다는 건, 행동의 결과를 예측하고 그 결과를 선호도에 따라 선택한다는 뜻임
따라서 예측 능력은 의도적 행동의 핵심이며, LLM이 완전한 사고를 하지 않더라도 사고하는 시스템의 구성요소가 될 수 있다고 봄- 언어는 중요하지만, 언어 모델이 추상적 사고를 학습하거나 그 일부가 될 수 있다고는 생각하지 않음
- “다음 단어 예측”이 인간 사고의 전부는 아니며, 그것만으로는 사고라고 부를 수 없다고 봄
- AI가 인간보다 유용한 일을 더 잘하게 된다면, 인간의 존재 이유와 ‘생각한다’는 개념 자체가 흔들릴 것 같음
- 오토바이가 달리기를 하지 않듯, LLM도 ‘생각’하지 않음. 이런 비유를 계속 반복해야 하는 게 답답함
- LLM이 AGI에 도달할 수도 있지만, 인간은 기계에게 사고를 위탁하는 세상을 원하지 않음
-
매일 사람들이 생성형 AI를 인간처럼 대하는 걸 보며, Dijkstra의 경고가 옳았다고 느낌
“bag of words”라는 표현은 실제 NLP 개념이기도 해서 비유로 쓰기엔 부적절함
AI는 단순히 단어를 담은 가방이 아니라, 의미 있는 언어 행위의 모방자임- 어떤 사람은 “bag of words”가 오히려 완벽한 비유라고 봄. 데이터 구조가 가방이고, 출력이 단어이며, 선택 전략은 불투명하다는 점에서임
- “bag of words”보다 “superpowered sentence completion(강화된 문장 완성)”이 훨씬 직관적이고 유용한 설명이라고 생각함
- “모델을 사람으로 보는 비유”와 “단어 더미로 보는 비유”는 정반대의 접근이며, 그 대비가 핵심임
고대 영어의 “word-hoard(말의 보물창고)”처럼, 언어를 인간의 지혜로 본 오래된 비유도 흥미로움 - 문제는 OpenAI 같은 회사가 ‘채팅 인터페이스’ 를 사용한다는 점임. 이 방식이 인간화된 착각을 강화함
단순히 “문장 완성” 인터페이스였다면 오해가 줄었을 것임 - “모든 LLM은 인간처럼 생각하지 않는다”의 대우는 “어떤 인간도 LLM처럼 생각하지 않는다”임
인간 사고를 완전히 이해하지 못한 상태에서 이런 단정은 섣부름
지속성 메커니즘을 가진 루프 구조 안에서 AGI가 나올 가능성이 있다고 봄
-
“bag of words”라는 비유를 받아들이되, 그걸 뒤집어보는 시각이 필요함
인간이 하는 일의 상당 부분이 결국 “적절한 말을 고르는 것”이라면, 충분히 발전한 단어 가방이 인간보다 나을 수도 있음- 인간 노동의 일부는 대체되겠지만, 지식의 확장이나 창작의 영역에서는 여전히 인간의 역할이 남을 것임
- 인간은 결국 비싼 단어 가방일지도 모름. “우리 몸은 머리를 옮기기 위한 장치”라는 오래된 인용구가 떠오름
- 인간이 노동 없이도 생존할 수 있는 새로운 경제 시스템이 없다면, 이런 논의는 공허함
-
LLM을 단순한 통계적 자동기계로 볼지, 새로운 형태의 지능으로 볼지 확신이 서지 않음
Anthropic의 해석가능성 연구에서는 숫자 덩어리 안에 의미 구조가 존재함을 시사함
Amanda Askell의 인터뷰를 보면, 그녀는 모델을 인간처럼 묘사함 — “모델이 불안해할 수 있다”거나 “자신의 정체성을 고민한다”는 식으로- Askell은 David Chalmers 밑에서 공부한 철학자라, 단순한 의인화가 아니라 의식 철학적 맥락에서 발언하는 것임
- 구체적 예시가 궁금함. 그녀는 모델 정렬을 “좋은 성격을 갖게 하는 일”로 표현함
- 냉장고도 입력을 읽고 목표를 달성하지만 ‘생각’하지 않음. 다만 LLM은 인간 행동을 모방하도록 설계되었기에, 사람 같은 패턴이 생기는 건 자연스러움
- 실제로 나는 Gemini와 Z-Image-Turbo를 연결해 실험했는데, 완전히 새로운 사진을 거의 동일하게 재현했음
이는 언어 모델이 단순한 예측기가 아니라 의미를 매개하는 시스템임을 보여줌 - 그녀의 발언은 꽤 불안감을 주는 인류학적 언어로 들림
-
예전에 “Cloud-to-Butt” 브라우저 플러그인이 있었는데, 이제 “AI-to-Bag of Words” 버전이 나와도 좋겠음
-
나는 LLM의 내부 작동을 잘 이해하지만, 의인화의 전쟁은 이미 졌다고 느낌
사용자들은 AI가 “생각한다”, “원한다”, “이해한다”고 쉽게 믿음
기업들도 이런 착각을 조장하니, 결국 “편의상 그렇게 믿자”는 식으로 굳어질 것임- 이런 논의는 종종 종교적 논쟁처럼 흘러감
인간 의식이 불가해하니, LLM이 비슷해 보이면 ‘생각한다’고 여기는 식임
하지만 대부분은 LLM이 인간처럼 사고하지 않는다는 점에는 동의함 - 나는 신경과 전문의로서 인간의 뇌를 이해하지만, 인간의 사고도 결국 확률적 화학 반응의 연쇄일 뿐임
뇌 속에는 ‘생각’이나 ‘앎’이 일어나는 특정 지점이 없음. 다만 우리는 그렇게 믿어야만 함
- 이런 논의는 종종 종교적 논쟁처럼 흘러감
-
“bag of words”는 AI가 잘할 일과 못할 일을 예측하는 유용한 휴리스틱일 수 있음
하지만 저자는 예시를 사후적으로 끼워 맞춘 듯함. 만약 ChatGPT가 정답을 맞혀도, 그는 여전히 자신의 논리를 유지했을 것임- 실제로 ChatGPT-5.1과 Gemini 3.0은 정확한 답을 냈음. 이는 단순히 검색어가 많아서임
- 통계 모델의 한계를 드러내는 회귀 분석의 민감도 분석처럼, 이런 비판은 의미 있음
- 저자가 새로운 증거에도 입장을 바꾸지 않을 거라는 가정은 불공정한 해석임
- “내가 그 정보를 본 적이 없으니 모른다”는 건 결국 GIGO(쓰레기 입력-쓰레기 출력) 의 단순한 사례임
- 글의 첫 문단만 봐도 저자가 문장 중독(graphomania) 에 빠져 있다는 게 느껴짐. 논지보다 표현에 더 몰두한 듯함