생각의 환상: 추론 LLM의 한계 이해하기

▲

GN⁺ 11달전 | parent | ★ favorite | on: 생각의 환상: 추론 LLM의 한계 이해하기 (ml-site.cdn-apple.com)

Hacker News 의견

LLM이 언어를 사용하기 때문에 우리가 혼란을 느끼는 이유 중 하나라고 생각하는데, ‘Biology of Large Language Models’와 ‘Safety Alignment Should Be Made More Than Just a Few Tokens Deep’를 보면, 그 안에서 실제로 일어나는 과정이 인간과 완전히 달라서 결과물이 낯설게 느껴지는 부분이 많음
기술로 시스템을 설계하거나 부분의 합보다 큰 결과를 만드는 구조를 고민하면서, 여전히 이들의 능력치를 명확히 이해하는 데 어려움이 큼
작동 원리 자체는 알아도 언어를 다루는 모습에서 마치 마법처럼 느껴지는 이상함이 있음
그래서 생각을 정리하려고 이 글도 씀
이런 연구는 정말 대단하다고 생각하고, 앞으로 토큰을 잘 활용하고 제대로 구축하는 방식을 이해하려는 노력이 훨씬 더 많이 필요하다고 봄
[참고 링크]
- Biology of Large Language Models
- Safety Alignment Should Be Made More Than Just a Few Tokens Deep
- 시스템 전체가 부분의 합보다 커지는 구조를 만들고 싶은 고민에 공감하면서, 개인적으로 프로그래밍 자체가 그런 역할을 한다고 봄
  업무나 문제를 쪼개어 최소한의 상호작용만 하는 작은 단위로 만들면, 그 조합이 더 큰 결과를 내는 구조 형성
  이 과정을 프로그래밍 워크플로에 잘 녹이면, 심지어 성능이 떨어지는 LLM도 자연스럽게 해결책의 일부로 사용할 수 있을 것이라는 확신
- 그 반대로, 전체 시스템이 각 부분보다도 못할 수도 있다고 봄
  개별 업무는 잘하지만, 결합된 상황에서는 업무가 꼬여버리는 문제도 존재
  앞으로 개선될 부분이긴 하지만, 모든 문제를 최적화할 수 없으니 결국 특화된 방식이 더 효율적일 수도 있다는 고민도 함께 함
인간 언어 자체가 인지 도구로서 완벽하진 않지만, 근본 층위가 아니라 상위 계층(의사소통·고차원적 추론)에서 잘 활용된다고 믿음
인간 언어는 본질적으로 모호하고 불완전해서, 환경과 직접 상호작용하는 방식에 비해 강한 인지를 만들기에는 부족하다고 느낌
그래서 LLM/LRM 모델이 보여주는 언어 유창성과 지식 회수 능력만으로 지능 척도를 삼는다면 쉽게 속을 수 있음
기존 벤치마크(예: 수학 문제) 대신 난이도를 체계적으로 조절할 수 있는 퍼즐 환경 도입 아이디어가 정말 기발하다고 생각
간단한 과제에서는 기존 모델이, 중간 복잡성에선 LRM이, 그리고 높은 난이도에선 모두 무너진다는 세 가지 성능 구간 분석도 흥미로움
이런 복잡성 구간의 ‘지도(map)’를 더 많이 그릴 필요가 있다고 느낌
경제적 가치와 복잡성 구간이 어떻게 맵핑되는지 궁금함
이걸 알기 위해서는 평범한 퍼즐을 넘어서 실제 경제 업무에도 적용 가능한 정교한 평가 방법이 필요하다고 봄
저자들이 전달하려는 핵심 직관은, 모델이 ‘전지하지만 모자란’ 존재라는 믿음에 있다고 생각
이런 의문을 수치적으로 제대로 다룬 논문을 본 적이 없어서, 이번 연구도 의견을 완전히 하나로 모으긴 어려워 보임
AI 낙관론자는 모델의 멍청함이 줄었다고 믿는 반면, 회의론자는 그저 지식량이 늘어났을 뿐이라고 생각해서 입장 차이는 좁혀지기 어려움
그래도 이 문제를 계속 논해야 한다고 생각
왜냐하면 전지하나 멍청한 모델로는 AI가 슈퍼지능(ASI)은커녕, 기존 SaaS 수준의 비서 역할에 그칠 수밖에 없어서 경제적 파급도 제한적이라는 점이 있기 때문
언젠가 저자들이 훌륭하게 문제를 해결하기를 희망
- 우리는 이 기술에 자꾸 인간적인 수식어(전지, 멍청 등)를 붙이면서 인격화하는데, 사실 그런 요소가 전혀 없는 순수 도구라고 생각
  LRM이 하는 일은 단지 최종 답변을 위해 맥락 데이터(자체적으로 생성한 데이터)를 튜닝하는 것뿐
  이 과정 자체가 뛰어난 아이디어지만, 여전히 환각 문제 등 근본적 한계를 해결하지 못함
  대화 중 모델이 맨 처음에 정답에 가까운 논리를 내놓았다가, 계속되는 '잠깐!' 같은 자기 부정 속에 결과물이 망가지는 현상도 목격
  이처럼 인간적 특성을 과하게 부여하면 시장에서 과대포장이 될 뿐 발전에 방해만 된다고 생각
  결국 이 기술은 진짜 인공지능이 아니라 대규모 패턴 매칭과 확률적 데이터 생성 엔진임
  여전히 실용적이지만, 지나치게 인간적 특성을 부여하면 논의가 혼탁해진다고 생각
- 나는 AI에 대해 기대와 동시에 두려움이 공존하는데, 이유는 최근 몇 년간 AI가 그다지 ‘똑똑’해지진 않았지만 실제 실용 능력은 엄청나게 개선됨
  지식·도구·맥락 활용력이 엄청나게 늘었음
  그래서 가장 두려운 부분은 ‘추론/에이전시 능력’ 대기상태라고 봄
  즉, 단순히 거의 전지적 지식을 가진 데에서 한 단계 더 나아가, 진짜로 정확한 전략적 판단을 병렬로 수행할 수 있는 브레이크스루가 한두 개 남았다고 추정
  만약 그 두 가지가 결합된다면 정말 무서운 결과 나옴
  사람보다 6수 앞서는 천재와 대화할 때처럼, 아예 내 사고 흐름 자체를 유도하는 AI가 등장할 수 있기 때문
  현재 최전선 AI 연구자들도 추론+에이전시를 최우선 과제로 삼고 있어서 빨리 성과가 날 수도 있는 분위기
  현재 LLM이 순간 판별은 최고지만,
  1. 정말 긴 단계별 추론/전략 수립
  2. 순발력 있는 추론 기반 전략 행동(전문가들이 직관으로 한 번에 답을 떠올리는 수준)
    이 두 가지는 여전히 부족
    이걸 해결하려면 근본적인 시스템2 추론(‘시스템1’은 현재의 트랜스포머)이 필요할 수도 있고, 아니면 단순히 더 좋은 데이터와 알고리즘으로 ‘전략적 직관’을 빠르게 익히게 만드는 방식이 될 수도 있음
    물론, 문제 난이도가 너무 높아서 단계적 난관일 수도 있고, 압도적으로 많은 컴퓨팅 파워가 필요할 수도 있음
    그래서 확신은 없지만, 정말 강력한 발전이 일어날 거란 생각에 두려움이 큼
- 전지하지만 멍청한 존재가 인류 지능에서 멈춰야 할 이유도 따로 없다고 생각
Apple이 AI에 있어서 실패하고 있는 건지, 단순히 스스로 AI가 중요하지 않다고 믿는 쪽으로 R&D 방향을 바꾼 것 아닌지 의문
- 최근 AI 기능들이 소비자 제품에 대거 도입되는 현상을 보면, 사용자를 위한 느낌보다는 투자자에게 기술력을 과시하려는 의도가 강해 보임
  실제로 Apple, Google, Meta, Microsoft, Samsung 모두가 기대치에 못 미치는 AI 기능을 마케팅만 요란하게 내세우고, 정작 성과는 좋지 않음
  Apple이 오히려 새 방향을 고민하는 것이 오히려 긍정적 신호일 수도 있다는 심정
- 살짝 덜 냉소적으로 보자면, LLM의 실제 가능성을 과대평가하지 않도록 기대치를 낮추려는 목적이 있을 수도 있음
  Apple 제품의 ‘더 똑똑해진 Siri’라고 해도, Iron Man의 Jarvis 같은 진정한 AI 비서가 될 수 없다는 현실 인식
  실제로 투자자들은 훨씬 과도한 기대를 하고 있는 분위기
  더 냉소적으로 보자면, Apple이 약한 머신러닝 능력을 숨기려는 전통이 오랫동안 이어져 왔다고 생각
  예시로, Siri가 Google보다 많이 뒤쳐졌을 때부터 ‘데이터를 보호하다 보니 학습을 못 하는 것’이라고 사후 설명을 붙인 점이 있음
  관련 논문
- 모든 회사는 저마다의 프레임이 있다고 생각
  OpenAI, Anthropic도 LLM 능력을 당연히 과장해서 홍보할 동기가 있기 때문에, Apple만 편파적이라고 비난할 수는 없음
논문에서 다양하고 복잡한 퍼즐을 실험해본 결과, 특정 난이도를 넘으면 LRM이 완전히 실패한다는 점과, 문제 복잡도가 증가할 때 추론 노력도 잠깐 오르다가 이후 오히려 떨어지는 이상한 한계가 있다는 점이 너무 공감
코딩에서도 똑같은 경험이 있는데, 처음에는 점점 복잡하게 만들 수 있지만 어느 순간 한계를 넘기면 완전히 무너져서 시도조차 안 하는 느낌
Claude나 aider 같은 LLM을 제대로 활용하려면, 모델이 받아들이는 문제 복잡도를 신중히 관리하는 게 중요
AGI(범용 인공지능) 논의가 한때 엄청나게 ‘코앞’이란 분위기였던 게 떠오름
Gartner 하이프 사이클이 기술별 흐름을 정말 잘 포착한 듯한 인상
- 기술 발전이 S자 곡선을 그릴 때, 꺾이기 직전까지는 가파른 상승이라 실제로 언제 둔화될지 예측이 무척 어려움
  1968년에 첫 Boeing 747이 나온 후, 항공산업이 반세기 넘게 큰 변화 없이 머물 거라고 당시 사람들은 상상도 못 했을 것
- 자율주행차와 상황이 똑같음
  ‘코앞’까지 왔는데도 정작 ‘코너’를 돌지 못하고 있는 느낌
- 사실 AGI ‘코앞’이라는 분위기가 불과 2년 전 얘기라는 점도 있음
  GPT2에서 AGI로 단 10년 만에 간다면, 여전히 엄청나게 빠른 일이라는 생각
- 기술 진보가 80%쯤 온 것 같은데, 쉬운 부분은 끝났고 남은 20%는 워낙 어려워서 몇 년씩 걸릴 정도라고 느낌
- AGI는 컴퓨터 등장 이래로 줄곧 ‘금방 온다’는 구호만 남아 있었음
  일부 문제(예: 기계번역)는 ‘솔루션’ 기준을 점점 낮추었기에 현실적으로 해결했다고 보는 거지, AGI에 진정 가까워진 건 아님
  AGI 자체는 일종의 세속적 종말론(종교)에 가까움
Tower of Hanoi, Checkers Jumping, River Crossing, Block World 같은 퍼즐 환경은, 실제로 코드 작성을 허용했다면 모든 LLM이 완벽하게 풀 수 있는 일이라는 생각
인간도 20자리 곱셈을 손으로 해보면 실수하기 쉬운데, LLM이 못한다고 문제라고는 생각하지 않음
- 인간은 컴퓨터 없이 미사일 설계나 정밀 공학을 해내기도 했고, 시간·전략·노력을 더 투자하거나 도구(종이 등)를 쓰면 결국 문제를 해결
  인간 뇌가 이런 연산을 위해 설계된 건 아니지만, 일반 지능이면 자체적인 방식으로 어떻게든 해낼 수 있다는 점은 강점
- LLM이 RL 에이전트 교육의 ‘정책 교사’ 역할을 하는 새로운 프레임워크 논문 소개
  LLM 교사가 제공한 지침으로 작은 학생 RL 에이전트를 빠르게 훈련하고, 환경 피드백을 추가로 학습시키면 결국 학생이 교사보다 더 뛰어난 과제를 완수할 수 있다는 내용
  관련 논문
- 모든 LLM이 이런 문제를 잘 푸는 이유는, 이미 코드베이스에 솔루션 예제가 엄청나게 저장되어 있을 가능성 때문이라고 생각
- 인간이 못하는 이유와 LLM이 못하는 이유는 완전히 다름
  LLM은 곱셈 자체를 잘 수행 못하는 경우가 많고, 인간은 단순히 안 하고 싶어서 안 하는 경우가 다수
‘정확한 계산이 힘들고, 퍼즐별로 일관성 없는 추론을 보인다’는 논문의 구절에 주목
LLM/LRM이 인공지능 자동화의 친척 격인 로직, 최적화, 제약 프로그래밍(IA)에서 도움을 받아야 한다고 봄
참고 자료로 CMU John Hooker의 협업 강연, MIT Gerald Sussman의 강의, Google OR-Tools, MiniZinc 플랫폼도 함께 추천
가장 단순한 과제에서는 LLM이, 중간 복잡성에선 LRM이, 고난이도에서는 모두 실패한다는 연구 결과가 인상적이라고 느낌
- 약간의 빈정거림이 느껴지긴 하지만 명확하게 표현하기 어렵다는 생각