애플의 "추론 LLM의 한계" 논문에 대한 7가지 반박과 그 한계들
(garymarcus.substack.com)- 애플의 생각의 환상: 추론 LLM의 한계 이해하기 논문이 AI의 스케일링 가설에 문제를 제기하며 큰 반향을 일으킴
- 이에 대한 대표적 반박 7가지가 있었으나, 이 글의 저자 Gary Marcus(NYU 명예교수)는 모두 설득력이 떨어진다고 평가함
- “인간도 실수한다”, “출력 길이 한계”, “논문 저자가 인턴” 등 논점 흐리기, 본질 회피의 논거가 주를 이루고, 근본적 취약점 해결에는 미치지 못함
- “코드 사용으로 문제 해결” 등 일부 지적은 의미 있으나, 신경-기호 AI의 필요성만 더 부각시킨다는 결론임
- 최근 SalesForce 연구 결과도 실제 비즈니스 시나리오에서 LLM의 복잡한 멀티턴 추론 성능이 35%에 불과함을 보여, 애플 논문의 우려와 일치함
애플 추론 논문 반박 7가지와 그 한계
서론
- 애플의 Illusion of Thinking: 추론 LLM의 한계 이해하기 논문은 대형 언어 모델의 추론 및 알고리듬 수행 한계를 드러내며 업계와 언론, 학계에서 큰 주목을 받음
- 글쓴이 Gary Marcus가 요약한 논문 해설 포스트 15만 명 이상이 읽었음
- The Guardian은 관련 포스트를 참조한 칼럼을 게재했고, ACM 및 프랑스어 버전도 등장해 글로벌한 관심을 증명함
- 이에 대해 GenAI 옹호자들이 논문에 비판적 반응을 보이고 여러 반박을 제기했으나, 모두 근본적인 반박이 되지 못함
1. “인간도 복잡한 문제와 기억 요구에서 어려움을 겪는다”
- 인간도 어려워한다는 주장 자체는 사실이지만, 애초에 컴퓨터·AI를 만든 이유는 인간이 할 수 없는 계산·반복 작업을 정확히 처리하기 위함
- 예시로, Tower of Hanoi 퍼즐에서 기존 심볼릭 AI 시스템은 오류 없이 수행 가능
- AGI라면 오히려 진보된 성능을 보여야 하며, 단순히 인간과 유사한 실수 범주에 머무는 것은 한계로 볼 수 있음
- Apple 논문의 핵심은 LLM이 복잡성과 학습 분포에서 멀어질수록 제대로 된 알고리듬 수행을 신뢰할 수 없음을 밝힘
- “인간도 실수한다”는 논점 흐리기임
2. “LRM은 출력 토큰 수 제한 때문에 풀 수 없다”
- LRM(대형 추론 모델)은 출력 길이 제한이 있으나, 사례 중 일부(예: 8개 디스크의 Hanoi, 255단계)는 충분히 출력 가능 범위임
- 잘 설계된 심볼릭 AI는 이런 문제의 영향을 받지 않으며, AGI 역시 마찬가지여야 함
- 토큰 한계는 버그이며, 해결책으로 볼 수 없음
- 기본적인 알고리듬도 신뢰성 있게 실행 못하면 현실 문제(군사 전략, 생물학 등)는 더더욱 불가능
3. “논문 저자가 인턴이다”
- Ad hominem(인신공격) 에 해당, 본질과 무관. 과학적 관행을 무시한 오류임
- 실제로 저자는 유망한 Ph.D. 학생이며, 논문에는 총 6명(4명은 Ph.D. 보유, Samy Bengio 등 저명 연구자 포함)
- 저자의 지위와는 별개로 논문의 품질이 핵심
4. “더 큰 모델이면 잘할 수 있다”
- 일부 더 큰 모델에서 개선된 모습이 보고되나, 어떤 크기가 충분한지 예측도 불가
- 같은 구조의 LRM에서도 디스크 6개에는 성공, 8개에서는 실패하는 등 일관되지 않은 결과가 산출됨
- 모델 신뢰성과 예측 가능성 결여, 항상 모든 문제에서 사전 검증 필요 → AGI와는 거리가 멂
5. “코드를 쓰면 문제를 풀 수 있다”
- 일부 LLM은 코드를 통해 문제를 해결 가능하나, 이는 뉴로심볼릭 AI의 장점임
- 진정한 의미의 AGI/AI라면 코드 없이도 개념적 이해 기반의 추론 및 역추적이 가능해야 함
- 시험이 학생의 개념 이해를 평가하듯, LLM도 진정한 개념적 이해가 필요한 상황임
6. “실험이 4개 예시뿐이고, 하노이 문제도 완벽하지 않다”
- 논문 내 4가지 예시 모두 완벽하지 않을 수 있으나, 다양한 선행 연구 결과와 일치하며, 유사 실패 사례는 계속해서 보고됨
- NYU의 Tal Linzen 등도 해당 맥락의 한계를 추가 증명함
7. “이미 다 아는 사실이다”
- 많은 연구자들은 오래전부터 LLM의 일반화 취약성을 인지하고 있었음
- 하지만 대중적·산업적 맥락에서 이번 논문으로 인해 관심이 집중되고 있음을 주목할 필요
- 그간 과대평가/과장되어 왔던 AGI 가능성에 대해 업계가 본격적으로 주목하고 논의하는 계기가 된 점이 중요
- 연구자 사이에서도 “틀렸다”와 “이미 알던 사실”이 동시에 언급되는 모순적 반응이 나타남
결론
- 이상의 반박들 중 결정적으로 설득력 있는 내용은 부족함
- Apple 논문은 스케일 확장이 AGI의 해답이 아니라는 분명한 신호를 재차 제시함
- 현 LLM 기술은 신뢰성, 일반화, 개념적 추론에서 명확한 한계가 드러남
- 실제로 Sam Altman 등 주요 인물도 현재 상황을 심각하게 받아들이는 분위기 형성
SalesForce 논문과 추가적 수렴 증거
Holistic Assessment of LLM Agents Across Diverse Business Scenarios and Interactions
- SalesForce의 최신 논문에서 실제 비즈니스 시나리오(고객 영업, 서비스, B2B/B2C 등) 기반 LLM 평가 벤치마크 공개
- 단일턴(1회 질문-응답) 기준 성공률 58%, 멀티턴(연속 질의응답) 기준 성공률 35%로 급락
- 특히 워크플로우 실행은 83% 이상 성과를 내지만, 다중 추론/상황 전환 등에서는 한계
- 기밀성 인식(Confidentiality awareness) 도 거의 없음, 프롬프트로 개선 가능하나 성능 저하 동반
- 실제 기업 환경의 복잡성·현실성 요구에 비해 LLM의 한계 명확, 멀티턴 추론·기밀성·다양한 업무 스킬의 통합 필요성이 부각
요약
- 애플 논문과 SalesForce 논문 모두 현세대 LLM이 실제 복잡한 추론, 멀티턴 대화, 알고리듬 수행 등에서 심각한 한계를 드러냄
- AGI에 다가가기 위해서는 스케일링을 넘어 신경-기호 통합, 구조적 개선이 필요
- 업계와 연구자들이 본격적으로 한계 논의에 주목하기 시작한 것이 의미
알트만은 그의 에세이에서 "10년 후면 어쩌면 우리는 고에너지 물리학을 푸는 해에서 다음 해에는 우주 식민지화를 시작하는 해로 나아갈지도 모른다"라고 썼습니다. 그는 뇌-컴퓨터 인터페이스를 통해 AI에 직접 "연결"하려는 사람들은 삶이 근본적으로 바뀌는 것을 보게 될 것이라고 덧붙였습니다.
이러한 수사는 우리 사회 곳곳에서 AI 도입을 가속화하고 있습니다. AI는 현재 DOGE(총리실)에 의해 정부를 재편하는 데 이용되고, 군대는 이를 더욱 치명적으로 만들기 위해 활용하고 있으며, 종종 알려지지 않은 결과를 초래하며 우리 아이들의 교육을 맡고 있습니다.
즉, AI의 가장 큰 위험 중 하나는 우리가 AI의 능력을 과대평가하고, AI가 "기회주의적 협박"과 같은 반사회적 경향을 보이는 것으로 드러났음에도 불구하고 필요 이상으로 신뢰하며, 현명하지 못한 정도로 AI에 의존한다는 것입니다. 그렇게 함으로써 우리는 가장 중요한 순간에 AI가 실패할 가능성에 취약해집니다.
"AI를 사용하면 다양한 아이디어를 낼 수 있지만, 여전히 상당한 감사가 필요합니다."라고 오르티즈는 말합니다. "예를 들어 세금 보고서를 작성하려면 ChatGPT보다는 TurboTax와 비슷한 도구를 사용하는 것이 좋습니다."
Why Superintelligent AI Isn't Taking Over Anytime Soon, WSJ 기사를 발췌했습니다
Hacker News 의견
-
인간이 복잡한 문제와 기억 부담에서 어려움을 겪는다는 점은 맞지만, 그게 전부는 아니라는 주장 제시. 기계가 인간보다 더 뛰어난 결과를 내줄 것으로 기대한다는 점 강조. 만약 인간도 이러한 실수를 한다고 인정하지만, 동시에 “사고 능력”의 정의에는 이 능력이 필요하다고 고집한다면, 결국 인간의 사고 자체도 환상이라는 결론이 된다는 생각 공유
-
나도 공감하지만 AGI 관련 부분은 잘못된 주장이라고 본다. 평균적인 인간과 같은 수준으로 모든 작업을 할 수 있는 AI가 바로 AGI의 정의라는 견해
-
양쪽 주장 모두 명쾌하지 않다고 느낀다. 질적인 질문에 대해 양적인 답만 오간다는 생각
-
-
Apple의 논문과 Gary Marcus 비판에 대한 좋은 분석글이라는 평. 더 자세한 논의로 LessWrong의 관련 글 추천
-
진심으로 궁금한 점 언급: Gary Marcus의 의견이 여전히 유효한지 의문. 그의 비판은 과학적이라기보단 철학적 경향으로 느껴지며, 실질적으로 무엇을 만들어내거나 논리가 검증되는지 보기 어렵다는 생각
-
lesswrong.com에 대해선, 특정 인물(예: Yud)의 사상을 추종하는 집단이라 크게 신뢰하지 않는다는 입장 표현
-
-
LLM이 과거에 학습한 유사한 해결책이 있을 때는 '추론'처럼 보이는 결과를 낼 수 있지만, 완전히 새로운 문제에서는 무너진다는 인사이트 공유. 엄밀한 의미의 추론은 아니지만 실용상 상당히 유용한 수준. 반복적으로 솔루션을 꺼내는 능력도, 마치 사실 확인을 반복 제공하는 것처럼 꽤 유용하다고 본다. Marcus는 기술적으로는 맞는 지적을 하지만 설명보다는 감정적 논조에 치우쳐 있다는 점 지적
-
만약 유사 솔루션 반복이 정말 그렇게 잘 된다면 대단하겠지만, 실제로는 이런 도구들이 흔히 같은 솔루션도 제대로 반복하지 못하고, 심지어 그럴듯한 결과들을 즉흥적으로 지어내기(환각 현상) 때문에, 사람이 따로 꼼꼼히 검증해줘야 하는 불편함이 크다는 경험 공유
-
그 정도만 제대로 돼도 혁신일 테지만, 여전히 꿈만 같은 이상론에 그침. 최근 Gemini가 아주 기본적인 교과서 문제에서조차 좌우를 헷갈리는 답변을 한 경험 언급
-
“LLM은 그냥 앵무새다” 류의 반복되는 주장이 지겹다는 생각. 내 경험상, LLM은 훈련 데이터에 없던 완전 새로운 문제도 추론하고 해결할 수 있다고 본다. 정말 다양한 경우 테스트해봤고 관련 사례도 많다. 상호 작용자들에 대한 답변을 한 번에 정리하자면, “추론”과 “새로운 문제 풀이”의 정의부터 명확히 할 필요. 개인적으로 추론을 범주로 보고, 일반 지능과 동일하지 않다고 본다. LLM이 어려운 문제를 항상 못 푼다고 해서 추론 자체가 불가능하다는 의미는 아니라고 본다. 내 생각에 LLM의 추론 능력이 전반적으로 약하기는 하지만, 전혀 추론도, 새로운 문제도 못 푼다는 주장에는 동의하지 않는다.
- Next token prediction 자체가 추론이 필요한 작업이라는 주장 가능
- 전혀 없는 가상의 언어로 번역시키는 다양한 실험도 성공적. in-context learning, zero-shot 관련 연구 많음
- 추론 능력을 검증하려고 온갖 챌린지/게임/퍼즐이 시도됐지만, 결국 하나씩 LLM이 이를 해결하는 케이스 존재 (예: Monty Hall problem 퍼즐, 이전의 다른 퍼즐 예시), 심지어 퍼즐 공개 이전에 학습된 모델들도 있음
- out-of-context reasoning 관련 연구들도 다수 존재 (예: arxiv 논문) 추가 반박 포인트로,
- 모델이 어느 정도 복잡도 임계점에서 실패하더라도, 최신 모델들이 이런 어려운 퍼즐을 어느 정도 푼다는 점이 이미 굉장히 인상적. GPT-3.5에서는 못하던 것을 최신 모델이 해냄. 추론 분야에서 점진적 발전 이어지는 중. 더 크고 더 똑똑한 모델일수록 zero-shot 과제에 더 잘 대응하며, 이게 추론 능력 향상과 상관관계가 있단 생각
- “더 큰 모델=더 나은 성능” 주장에 대한 논문 자체의 데이터가 존재. Claude 3.7 모델은 DeepSeek보다 훨씬 좋은 성능을 보이고 긴 시퀀스 내내 안정적으로 풀이 유지. 더 나은 모델, 더 많은 토큰이 있으면 중간 난이도 문제에선 빠르게 성과 상승. “어려운 문제”만 못 푼다고 해서 결코 추론 불가로 볼 수는 없음. 몇 년 전엔 중간 난이도도 안된다고 했었지만, 지금 이미 판이 바뀌고 있다는 점 강조
-
그건 오히려 추론의 반대라는 견해. AI 옹호자들이 LLM이 마치 똑똑하거나 추론한다는 식으로 주장하려 하지만, 실제로는 창의적이거나 지능적인 추론 불가능. 진짜 추론이란 아예 본 적 없는 문제에서 혁신적인 해결법을 스스로 찾아내는 능력 의미. LLM은 단지 데이터에 있던 해법만을 확률적으로 뽑아 낼 뿐이며, 진짜 해결책을 추정하거나 유추하는 기능은 전혀 없다는 생각
-
-
많은 반론과 반박이 실제로는 허술하거나, 5번 논점에 거의 포함될 수 있다는 점을 지적. 글의 핵심은 LLM이 코드를 작성하거나 논리 시스템을 쓸 수 있는지가 문제임. 도구에 접근이 없을 때 헛된 추론(환각/오답 응답)이 과연 진짜 추론의 부재를 의미하는지, 똑똑한 인간처럼 “내가 할 수 있는 한계를 인정”하는 AI가 되는 것이 진짜 기대치가 아닐까라는 질문
-
실제 실험 결과를 보면, 모델이 100단계까지는 출력하다가 “이 이상은 너무 많으니 풀어내는 방법만 설명하겠다”는 식으로, 한계를 명확히 인정함. 그런데 이런 응답도 오답으로 처리된 경우가 있음. 관련 링크 모델 실제 응답 예시 참고. 예를 들어 너무 복잡해지면 “[개별 시행 방식을 모두 설명하기 어려워, 대신 해결 방식을 서술하겠다]”는 방식이며, 특정 모델(Sonnet)은 7개를 넘어서면 직접적인 단계별 추론을 건너뛰고 일반적인 해결 알고리즘이나 접근법만 설명하는 식으로 동작
-
3번을 빼고는 실상 대부분의 반론이 허술하다고 생각하지 않는다. 오히려 원 글이 많은 허수아비 논리(스트로맨)를 만들어내고 있다고 느낀다. 1번 반론이 종종 나오는 이유는 “이 논문이 LLM의 추론 불가를 증명했다”는 주장 때문. 그런데 저자는 자꾸 AGI를 논하면서 정의 자체를 허수아비 논리로 바꿈(“기계는 인간보다 더 많은 걸 해야 한다” 식). 실제 AGI 정의는 평균 인간 수준의 작업이 가능한 AI지 슈퍼 인텔리전스가 아닌데, 저자는 이를 오해. 참고로 Tower of Hanoi 같은 문제는 이미 LLM들이 평균 인간 이상의 퍼포먼스를 보임. 현실적으로 일반인은 8개짜리 Tower of Hanoi 문제를 아무것도 기록하지 않고 풀 수 없지만 LLM은 가능. 다만 진짜 AGI로 가기엔 아직 모델들이 넘어야 할 장벽이 많음. 5번 반론도 “웹에서 코드를 못 써온다”는 허수아비 논리인데, 실제로는 신규 문제도 직접 코드를 짜서 해결한다는 예를 들 수 있음. 이런 포인트들은 논문 비판이 아니라 논문 자체 한계에 대한 사실 지적임. 이 논문은 그저 LLM의 추론적 한계만 보여줬고, 실제로 과한 주장 없이 단지 제한점을 서술한 글이었지만, 제목이 자극적이어서 사람들이 본문을 제대로 읽지 않은 경향
-
-
“어린이도 쉽게 푸는 퍼즐”이라는 주장에 대해, 실제로 8개 디스크짜리 하노이의 탑을 아무 기록 없이 머릿속만으로 풀기는 어렵다고 고백. 인간과 AI의 비교에서 진짜 동등 비교가 맞는지 의문 제기
-
이런 기사들이 반가운 이유는, AI에 대한 과도한 과대 광고 열기를 어느 정도 식혀줄 필요가 있다는 점 때문. 새로운 AI 툴을 진지하게 현실에 쓸 생각이라면, 열광을 잠시 멈추고 이 기술의 진짜 한계와 실체를 냉정하게 봐야 함. 대단하고, 여러 영역에서 실용적이지만, 무분별한 붐 조장은 궁극적으로 돈벌이에 직간접적으로 연결된 이해관계자만 이득 보는 현실
-
Gary Marcus는 "현실 직시"가 아니라, 오히려 AI 주류에 반대하는 의견으로 자기 유명세를 키우는 유형이라고 평가. 이번 글도 논리적이긴 하지만, 과거 논문에서는 LLM에게 "치명타"라고 강하게 주장했던 데에서 자세가 바뀐 예시. 그의 글은 분위기는 합리적여 보여도 여러 편 읽으면 일관적인 경향이 보임
-
실제로 AI에 투자하는 이들 중에도 과도한 붐은 펌프&덤프(시세 부양 후 매각)나 교육, 컨설팅 팔이 같은 사업자에게만 유리할 뿐, 진짜 혁신을 만들려는 사람들은 곧 AI 겨울(혹한기)과 마주하게 될 가능성이 높음
-
LLM에 대해 본능적으로 경계하는 입장. 지금까지 내게 코드 써준 경험 중 대다수가 질이 형편없었고, 현재는 별로 좋아하지도 않고 자주 쓰지도 않음. 하지만 시간이 지나면 상당히 유용한 도구로 발전할 거라 기대. 그러면서도 Marcus는 내 생각에 논의에 낄 자격이 전혀 없다고 생각. 그의 발언이 실질적인 논의와 비생산적 과장만 쏟아내서, 지나치게 반-AI 진영에 먹잇감을 주는 현상 발생. “respectability laundering: 그를 인용하면 타당한 비판이 되는 상황”이라고까지 평가
-
머신러닝에서 test/train split(훈련셋/테스트셋 분리)이 뭔지 아는 사람에게서 비판을 듣고 싶음. 실제로 최근 ML 현장과 너무 동떨어진 사람이 AI 능력에 대해 말하는 건, 오히려 AI 공포심의 매우 상징적 현상이라고 생각
-
실제로 얼마나 유용한지 의문 제기. 1년 넘게 “지식 노동 10배 생산성” 같은 주장을 했지만, 정말 그렇게 바뀐 결과물이 어디 있느냐는 문제 제기. 새로운 오피스 제품군 등장? 모바일 앱 대량 생산? 책 시장의 혁신? 결국 Ghibli 밈이나 ‘RETURNS’ 유행 콘텐츠 정도 외에 실질 생산물이 있는지 의구심 표명
-
-
혹시 원 논문이 궁금하다면 원문 링크 공유
- 조사 및 참고자료로, 논문: The Illusion of Thinking – reasoning 모델의 강점과 한계 (PDF)와 A Knockout Blow for LLMs? 논평 등도 같이 소개. 혹시 다른 자료가 있냐는 질문
-
수학 시험에서 미분적분 문제를 내는 건, 학생이 계산 답을 내는 게 아니라 개념적 이해도를 평가하려는 것이라는 점 언급. Apple 팀도 LLM이 Hanoi 문제를 개념적으로 이해하느냐를 본 것. LLM은 정답 코드를 “다운로드”할 수 있지만, 새로운 문제나 동적 환경에서는 개념을 이해하지 못한 코드 다운로드가 한계가 있다는 논지. 하지만 실제로 LLM은 코드를 다운받는 게 아니라 직접 “작성”할 수 있는 능력 보유. 수험생이 일반 미분/적분 프로그램을 시험서 짠다면 오히려 더 높은 개념적 이해를 방증하는 셈이라는 주장
- 만약 수험생이 LLM 파라미터에 비해 극히 적은 노트 참고만 했다면, 설득될 수 없다는 의견
-
Salesforce 논문에서 "에이전트들이 거의 제로에 가까운 비밀 유지 능력을 보였다"는 인용구를 중요하게 여김
-
인간이 비행기를 만들었을 때 “새가 아니다”, 잠수함을 만들었을 때 “물고기가 아니다”라는 비판이 있었지만, 진보는 계속 이루어진다는 예시 제시. 핵심은 이 도구의 잠재력을 빨리 익혀서 활용할 것인지, 아니면 뒤처질 것인지 선택의 문제. 팁으로, 같은 사람의 끝없는 부정적 주장보다는 “학습하는 태도”가 미래에 적응하는 데 더 실질적 도움이 된다는 메시지