애플의 "추론 LLM의 한계" 논문에 대한 7가지 반박

▲

GN⁺ 10달전 | parent | ★ favorite | on: 애플의 "추론 LLM의 한계" 논문에 대한 7가지 반박과 그 한계들 (garymarcus.substack.com)

Hacker News 의견

인간이 복잡한 문제와 기억 부담에서 어려움을 겪는다는 점은 맞지만, 그게 전부는 아니라는 주장 제시. 기계가 인간보다 더 뛰어난 결과를 내줄 것으로 기대한다는 점 강조. 만약 인간도 이러한 실수를 한다고 인정하지만, 동시에 “사고 능력”의 정의에는 이 능력이 필요하다고 고집한다면, 결국 인간의 사고 자체도 환상이라는 결론이 된다는 생각 공유
- 나도 공감하지만 AGI 관련 부분은 잘못된 주장이라고 본다. 평균적인 인간과 같은 수준으로 모든 작업을 할 수 있는 AI가 바로 AGI의 정의라는 견해
- 양쪽 주장 모두 명쾌하지 않다고 느낀다. 질적인 질문에 대해 양적인 답만 오간다는 생각
Apple의 논문과 Gary Marcus 비판에 대한 좋은 분석글이라는 평. 더 자세한 논의로 LessWrong의 관련 글 추천
- 진심으로 궁금한 점 언급: Gary Marcus의 의견이 여전히 유효한지 의문. 그의 비판은 과학적이라기보단 철학적 경향으로 느껴지며, 실질적으로 무엇을 만들어내거나 논리가 검증되는지 보기 어렵다는 생각
- lesswrong.com에 대해선, 특정 인물(예: Yud)의 사상을 추종하는 집단이라 크게 신뢰하지 않는다는 입장 표현
LLM이 과거에 학습한 유사한 해결책이 있을 때는 '추론'처럼 보이는 결과를 낼 수 있지만, 완전히 새로운 문제에서는 무너진다는 인사이트 공유. 엄밀한 의미의 추론은 아니지만 실용상 상당히 유용한 수준. 반복적으로 솔루션을 꺼내는 능력도, 마치 사실 확인을 반복 제공하는 것처럼 꽤 유용하다고 본다. Marcus는 기술적으로는 맞는 지적을 하지만 설명보다는 감정적 논조에 치우쳐 있다는 점 지적
- 만약 유사 솔루션 반복이 정말 그렇게 잘 된다면 대단하겠지만, 실제로는 이런 도구들이 흔히 같은 솔루션도 제대로 반복하지 못하고, 심지어 그럴듯한 결과들을 즉흥적으로 지어내기(환각 현상) 때문에, 사람이 따로 꼼꼼히 검증해줘야 하는 불편함이 크다는 경험 공유
- 그 정도만 제대로 돼도 혁신일 테지만, 여전히 꿈만 같은 이상론에 그침. 최근 Gemini가 아주 기본적인 교과서 문제에서조차 좌우를 헷갈리는 답변을 한 경험 언급
- “LLM은 그냥 앵무새다” 류의 반복되는 주장이 지겹다는 생각. 내 경험상, LLM은 훈련 데이터에 없던 완전 새로운 문제도 추론하고 해결할 수 있다고 본다. 정말 다양한 경우 테스트해봤고 관련 사례도 많다. 상호 작용자들에 대한 답변을 한 번에 정리하자면, “추론”과 “새로운 문제 풀이”의 정의부터 명확히 할 필요. 개인적으로 추론을 범주로 보고, 일반 지능과 동일하지 않다고 본다. LLM이 어려운 문제를 항상 못 푼다고 해서 추론 자체가 불가능하다는 의미는 아니라고 본다. 내 생각에 LLM의 추론 능력이 전반적으로 약하기는 하지만, 전혀 추론도, 새로운 문제도 못 푼다는 주장에는 동의하지 않는다.
  1. Next token prediction 자체가 추론이 필요한 작업이라는 주장 가능
  2. 전혀 없는 가상의 언어로 번역시키는 다양한 실험도 성공적. in-context learning, zero-shot 관련 연구 많음
  3. 추론 능력을 검증하려고 온갖 챌린지/게임/퍼즐이 시도됐지만, 결국 하나씩 LLM이 이를 해결하는 케이스 존재 (예: Monty Hall problem 퍼즐, 이전의 다른 퍼즐 예시), 심지어 퍼즐 공개 이전에 학습된 모델들도 있음
  4. out-of-context reasoning 관련 연구들도 다수 존재 (예: arxiv 논문) 추가 반박 포인트로,
  5. 모델이 어느 정도 복잡도 임계점에서 실패하더라도, 최신 모델들이 이런 어려운 퍼즐을 어느 정도 푼다는 점이 이미 굉장히 인상적. GPT-3.5에서는 못하던 것을 최신 모델이 해냄. 추론 분야에서 점진적 발전 이어지는 중. 더 크고 더 똑똑한 모델일수록 zero-shot 과제에 더 잘 대응하며, 이게 추론 능력 향상과 상관관계가 있단 생각
  6. “더 큰 모델=더 나은 성능” 주장에 대한 논문 자체의 데이터가 존재. Claude 3.7 모델은 DeepSeek보다 훨씬 좋은 성능을 보이고 긴 시퀀스 내내 안정적으로 풀이 유지. 더 나은 모델, 더 많은 토큰이 있으면 중간 난이도 문제에선 빠르게 성과 상승. “어려운 문제”만 못 푼다고 해서 결코 추론 불가로 볼 수는 없음. 몇 년 전엔 중간 난이도도 안된다고 했었지만, 지금 이미 판이 바뀌고 있다는 점 강조
- 그건 오히려 추론의 반대라는 견해. AI 옹호자들이 LLM이 마치 똑똑하거나 추론한다는 식으로 주장하려 하지만, 실제로는 창의적이거나 지능적인 추론 불가능. 진짜 추론이란 아예 본 적 없는 문제에서 혁신적인 해결법을 스스로 찾아내는 능력 의미. LLM은 단지 데이터에 있던 해법만을 확률적으로 뽑아 낼 뿐이며, 진짜 해결책을 추정하거나 유추하는 기능은 전혀 없다는 생각
많은 반론과 반박이 실제로는 허술하거나, 5번 논점에 거의 포함될 수 있다는 점을 지적. 글의 핵심은 LLM이 코드를 작성하거나 논리 시스템을 쓸 수 있는지가 문제임. 도구에 접근이 없을 때 헛된 추론(환각/오답 응답)이 과연 진짜 추론의 부재를 의미하는지, 똑똑한 인간처럼 “내가 할 수 있는 한계를 인정”하는 AI가 되는 것이 진짜 기대치가 아닐까라는 질문
- 실제 실험 결과를 보면, 모델이 100단계까지는 출력하다가 “이 이상은 너무 많으니 풀어내는 방법만 설명하겠다”는 식으로, 한계를 명확히 인정함. 그런데 이런 응답도 오답으로 처리된 경우가 있음. 관련 링크 모델 실제 응답 예시 참고. 예를 들어 너무 복잡해지면 “[개별 시행 방식을 모두 설명하기 어려워, 대신 해결 방식을 서술하겠다]”는 방식이며, 특정 모델(Sonnet)은 7개를 넘어서면 직접적인 단계별 추론을 건너뛰고 일반적인 해결 알고리즘이나 접근법만 설명하는 식으로 동작
- 3번을 빼고는 실상 대부분의 반론이 허술하다고 생각하지 않는다. 오히려 원 글이 많은 허수아비 논리(스트로맨)를 만들어내고 있다고 느낀다. 1번 반론이 종종 나오는 이유는 “이 논문이 LLM의 추론 불가를 증명했다”는 주장 때문. 그런데 저자는 자꾸 AGI를 논하면서 정의 자체를 허수아비 논리로 바꿈(“기계는 인간보다 더 많은 걸 해야 한다” 식). 실제 AGI 정의는 평균 인간 수준의 작업이 가능한 AI지 슈퍼 인텔리전스가 아닌데, 저자는 이를 오해. 참고로 Tower of Hanoi 같은 문제는 이미 LLM들이 평균 인간 이상의 퍼포먼스를 보임. 현실적으로 일반인은 8개짜리 Tower of Hanoi 문제를 아무것도 기록하지 않고 풀 수 없지만 LLM은 가능. 다만 진짜 AGI로 가기엔 아직 모델들이 넘어야 할 장벽이 많음. 5번 반론도 “웹에서 코드를 못 써온다”는 허수아비 논리인데, 실제로는 신규 문제도 직접 코드를 짜서 해결한다는 예를 들 수 있음. 이런 포인트들은 논문 비판이 아니라 논문 자체 한계에 대한 사실 지적임. 이 논문은 그저 LLM의 추론적 한계만 보여줬고, 실제로 과한 주장 없이 단지 제한점을 서술한 글이었지만, 제목이 자극적이어서 사람들이 본문을 제대로 읽지 않은 경향
“어린이도 쉽게 푸는 퍼즐”이라는 주장에 대해, 실제로 8개 디스크짜리 하노이의 탑을 아무 기록 없이 머릿속만으로 풀기는 어렵다고 고백. 인간과 AI의 비교에서 진짜 동등 비교가 맞는지 의문 제기
이런 기사들이 반가운 이유는, AI에 대한 과도한 과대 광고 열기를 어느 정도 식혀줄 필요가 있다는 점 때문. 새로운 AI 툴을 진지하게 현실에 쓸 생각이라면, 열광을 잠시 멈추고 이 기술의 진짜 한계와 실체를 냉정하게 봐야 함. 대단하고, 여러 영역에서 실용적이지만, 무분별한 붐 조장은 궁극적으로 돈벌이에 직간접적으로 연결된 이해관계자만 이득 보는 현실
- Gary Marcus는 "현실 직시"가 아니라, 오히려 AI 주류에 반대하는 의견으로 자기 유명세를 키우는 유형이라고 평가. 이번 글도 논리적이긴 하지만, 과거 논문에서는 LLM에게 "치명타"라고 강하게 주장했던 데에서 자세가 바뀐 예시. 그의 글은 분위기는 합리적여 보여도 여러 편 읽으면 일관적인 경향이 보임
- 실제로 AI에 투자하는 이들 중에도 과도한 붐은 펌프&덤프(시세 부양 후 매각)나 교육, 컨설팅 팔이 같은 사업자에게만 유리할 뿐, 진짜 혁신을 만들려는 사람들은 곧 AI 겨울(혹한기)과 마주하게 될 가능성이 높음
- LLM에 대해 본능적으로 경계하는 입장. 지금까지 내게 코드 써준 경험 중 대다수가 질이 형편없었고, 현재는 별로 좋아하지도 않고 자주 쓰지도 않음. 하지만 시간이 지나면 상당히 유용한 도구로 발전할 거라 기대. 그러면서도 Marcus는 내 생각에 논의에 낄 자격이 전혀 없다고 생각. 그의 발언이 실질적인 논의와 비생산적 과장만 쏟아내서, 지나치게 반-AI 진영에 먹잇감을 주는 현상 발생. “respectability laundering: 그를 인용하면 타당한 비판이 되는 상황”이라고까지 평가
- 머신러닝에서 test/train split(훈련셋/테스트셋 분리)이 뭔지 아는 사람에게서 비판을 듣고 싶음. 실제로 최근 ML 현장과 너무 동떨어진 사람이 AI 능력에 대해 말하는 건, 오히려 AI 공포심의 매우 상징적 현상이라고 생각
- 실제로 얼마나 유용한지 의문 제기. 1년 넘게 “지식 노동 10배 생산성” 같은 주장을 했지만, 정말 그렇게 바뀐 결과물이 어디 있느냐는 문제 제기. 새로운 오피스 제품군 등장? 모바일 앱 대량 생산? 책 시장의 혁신? 결국 Ghibli 밈이나 ‘RETURNS’ 유행 콘텐츠 정도 외에 실질 생산물이 있는지 의구심 표명
혹시 원 논문이 궁금하다면 원문 링크 공유
- 조사 및 참고자료로, 논문: The Illusion of Thinking – reasoning 모델의 강점과 한계 (PDF)와 A Knockout Blow for LLMs? 논평 등도 같이 소개. 혹시 다른 자료가 있냐는 질문
수학 시험에서 미분적분 문제를 내는 건, 학생이 계산 답을 내는 게 아니라 개념적 이해도를 평가하려는 것이라는 점 언급. Apple 팀도 LLM이 Hanoi 문제를 개념적으로 이해하느냐를 본 것. LLM은 정답 코드를 “다운로드”할 수 있지만, 새로운 문제나 동적 환경에서는 개념을 이해하지 못한 코드 다운로드가 한계가 있다는 논지. 하지만 실제로 LLM은 코드를 다운받는 게 아니라 직접 “작성”할 수 있는 능력 보유. 수험생이 일반 미분/적분 프로그램을 시험서 짠다면 오히려 더 높은 개념적 이해를 방증하는 셈이라는 주장
- 만약 수험생이 LLM 파라미터에 비해 극히 적은 노트 참고만 했다면, 설득될 수 없다는 의견
Salesforce 논문에서 "에이전트들이 거의 제로에 가까운 비밀 유지 능력을 보였다"는 인용구를 중요하게 여김
인간이 비행기를 만들었을 때 “새가 아니다”, 잠수함을 만들었을 때 “물고기가 아니다”라는 비판이 있었지만, 진보는 계속 이루어진다는 예시 제시. 핵심은 이 도구의 잠재력을 빨리 익혀서 활용할 것인지, 아니면 뒤처질 것인지 선택의 문제. 팁으로, 같은 사람의 끝없는 부정적 주장보다는 “학습하는 태도”가 미래에 적응하는 데 더 실질적 도움이 된다는 메시지