GN⁺: LLM이 결코 할 수 없는 것
(strangeloopcanon.com)[ LLM의 한계 ]
- LLM의 목표 이탈과 낮은 신뢰도에 대하여, 또는 LLM이 왜 Conway's Game of Life를 못하는가
- 지난 몇 년 동안 LLM이 해결할 수 없다고 생각했던 문제들을 훌륭하게 해결했음에도 불구하고, 여전히 간단해 보이는 질문에 답하지 못하는 이유가 불분명함
- 지난 몇 주간 LLM의 실패 모드를 파악하려고 노력함. 이상한 내용이긴 하지만 흥미로운 주제로 생각됨. AI의 실패는 그 성공보다 더 많은 것을 가르쳐줌
- 근본적으로 LLM이 결국 수행하게 될 많은 작업을 위해서는 일일이 평가가 필요하다는 점에서 출발했지만, 추론 능력의 한계를 파악해서 학습 능력을 신뢰할 수 있는 방법을 찾는 데 집중함
- LLM의 추론 능력을 평가하는 것은 어려움
- 추론 능력을 학습 데이터와 분리하는 것이 어려움
- 반복적으로 추론하고 질문에 답할 수 있는 능력을 테스트할 방법을 찾고자 함
- 만족할 만한 기준을 충족하는 가장 간단한 버전으로 시작
- 3x3, 4x4, 5x5 크기의 단어 그리드를 연속적으로 만들 수 있는지 여부
- 평가는 쉽게 만들 수 있고, 쉽게 평가할 수 있으면서도 수행하기 어려워야 함
- 모든 최신 대형 언어 모델(Opus, GPT-4 포함)이 이 작업에 실패함
- 이 모델들은 경제학, 양자역학 등 난해한 질문에 답하고, 코딩, 그림, 음악, 비디오 제작, 전체 애플리케이션 생성, 심지어 높은 수준의 체스 게임도 가능함
- 그러나 스도쿠는 할 수 없음
Reversal Curse
- LLM에는 모델이 "A는 B다"라는 형식으로 학습하면, "B는 A다"라는 역방향으로 일반화하지 못한다는
Reversal Curse
가 있음- 예를 들어 모델이 "Valentina Tereshkova는 우주여행을 한 최초의 여성"이라고 학습하면, "우주여행을 한 최초의 여성은 누구인가?"라는 질문에 자동으로 대답하지 못함
- 게다가 정답("Valentina Tereshkova")의 가능성이 무작위 이름보다 높지 않음
- 모델은 사람들 사이의 관계를 이해하도록 잘 일반화하지 못함
- 최고 수준의 모델도 여전히 이 문제를 겪고 있음
학습 데이터 분포의 문제는 아닐까?
- 문제가 학습 데이터 분포의 이상함 때문인지 궁금해짐. 우리가 충분한 예제를 보여주지 않은 것 같아서 결정론적인 무언가를 시도해봄
- Cellular Automata를 예측하도록 transformer를 학습시키는 것으로 테스트해봄
- 번역 문제는 없어 보이지만 여전히 실패함!
- 최소한 두 가지 다른 문제가 있음
- LLM이 훈련 데이터에 정보가 없고 수행하도록 훈련되지 않아서 수행할 수 없는 문제
- LLM이 구축 방식 때문에 수행할 수 없는 문제
- 우리가 보는 거의 모든 것이 문제 1보다는 문제 2를 상기시킴
LLM이 근본적으로 할 수 없는 이유
- 모델이 목표 이탈(goal drift) 문제가 있어서, 한 토큰씩 만들도록 강제되기 때문에 프롬프트 내 문맥을 넘어 일반화하지 못하고 주의를 어디에 둬야할지 모른다고 생각함
- 이는 프롬프트 주입이 동작하는 이유이기도 함. 주의 메커니즘을 왜곡시키기 때문 ( _### Instruction: ...`과 같은 것을 말함으로써 모델을 탈옥 )
- LLM에서나 인간에서나 문맥은 부족한 자원임
- 요약하자면,
- LLM은 계산을 모방하는 확률적 모델이며, 때로는 임의로 밀접하게 모방함
- 더 큰 모델을 훈련할수록 데이터 내에서 더 많은 암시적 연관성을 학습하여 더 나은 추론에 도움이 될 것임
- 학습한 연관성이 항상 우리의 아이디어와 깨끗하게 맵핑되는 것은 아님
- 추론은 항상 단일 패스임
- LLM은 훈련 데이터에 해당 프로세스가 자세히 설명되어 있지 않는 한 멈추고, 월드 상태를 수집하고, 추론하고, 이전 답변을 다시 검토하거나 미래 답변을 예측할 수 없음
- 이전 프롬프트와 응답을 포함하더라도 다음 추론은 여전히 처음부터 단일 패스로 시작됨
- 이는 추론의 신뢰성이 떨어지는 일종의 '목표 표류'가 불가피하게 발생하는 문제를 만듦
- 프롬프트 주입이 작동하는 이유이기도 함 (주의 메커니즘을 왜곡시키기 때문)
- 이 '목표 표류'는 에이전트나 반복적으로 순차적으로 수행되는 작업의 신뢰성이 떨어진다는 것을 의미함
- 주의가 선택적이거나 동적이지 않기 때문에 어디에 집중해야 할지 '잊어버림'
- LLM은 컨텍스트를 동적으로 재설정할 수 없음
- 튜링 머신은 테이프를 메모리로 사용하는 반면, 트랜스포머는 내부 상태(self-attention을 통해 관리)를 사용하여 중간 계산을 추적함
- 이는 트랜스포머가 잘 수행하지 못하는 많은 유형의 계산이 있다는 것을 의미함
- 이는 사고의 연쇄(chain of thought)나 다른 LLM을 사용하여 출력을 검토하고 수정하는 등의 방법을 통해 부분적으로 해결할 수 있음
- 본질적으로 추론을 정상 궤도에 올려놓는 방법을 찾는 것
- 충분히 영리한 프롬프트와 단계별 반복을 통해 LLM은 훈련 데이터에 있는 거의 모든 것을 이끌어낼 수 있음
- 모델이 개선됨에 따라 각 추론도 개선되어 신뢰성이 높아지고 더 나은 에이전트를 가능하게 할 것임
- 많은 노력을 기울이면 연결된 GPT 시스템, 여러 내부 반복, 지속적인 오류 검사 및 수정, 외부화된 메모리 등 기능 구성 요소를 갖추게 될 것임
- 그러나 이것은 여러 영역에서 AGI에 접근하기 위해 무차별적으로 강행하더라도 훈련 데이터를 넘어 진정으로 일반화할 수는 없음
- 그럼에도 불구하고 여전히 기적적인 일임
[ 실험 - GPT가 Wordle을 학습할 수 없는 이유 ]
- LLM은 Wordle을 할 수 없음
- 스도쿠나 단어 그리드(가장 간단한 형태의 크로스워드)도 마찬가지
- 이는 놀라운 일인데, 이러한 문제들이 어려운 문제가 아니기 때문
- 초등학생도 시도할 수 있지만, 최고의 LLM조차도 이를 수행하는 데 실패함
- 첫 번째 가정은 훈련 데이터의 부족일 것
- 하지만 여기서는 그렇지 않을 것임
- 규칙은 분명히 데이터에 있기 때문
- Wordle이 현재 LLM의 훈련 데이터셋에서 어쩔 수 없이 누락된 것은 아님
- 또 다른 가정은 토큰화 문제 때문이라는 것
- 하지만 이것도 사실이 아님
- 여러 기회를 제공하고 이전 답변을 제공하여 반복할 수 있는 여지를 주더라도, 여전히 올바른 해결책을 생각해내는 데 어려움을 겪음
- 문자 사이에 공백을 주어도 운이 좋지 않음
- 이전 답변과 컨텍스트, 질문을 다시 제공하더라도 종종 [3,4] 셀에서 무언가를 편집하는 대신 전체 답변 시퀀스를 다시 시작함
- 대신 그 본질상 각 단계는 어떤 모델도 수행할 수 없는 것으로 보이는 서로 다른 수준의 반복적 계산을 필요로 하는 것 같음
- 어떤 면에서 이것은 이해가 되는데, 자동 회귀 모델은 한 번에 하나의 정방향 패스만 수행할 수 있기 때문
- 기존 토큰 저장소와 출력을 스크래치 패드로 사용하여 계속 생각을 말할 수 있지만, 너무 빨리 추적을 잃어버림
- 어떤 면에서 이것은 이해가 되는데, 자동 회귀 모델은 한 번에 하나의 정방향 패스만 수행할 수 있기 때문
- 여기서의 결론은 각 단계가 메모리와 계산을 모두 필요로 할 때, 그것은 트랜스포머가 현재 가지고 있는 레이어 수와 어텐션 헤드 내에서 해결할 수 없는 것으로 보인다는 것
- 심지어 조 단위 토큰의 GPT-4와 같은 매우 큰 모델에서도 마찬가지
- 아이러니하게도 어디에 주의를 집중해야 할지 파악하지 못함
- 현재 주의(attention)가 수행되는 방식이 정적이고 시퀀스의 모든 부분을 동시에 처리하기 때문
- 여러 휴리스틱을 사용하여 더 선택적이고 컨텍스트를 동적으로 재설정하여 대안을 시도하는 대신
- 이는 현재 측정되는 주의(attention)가 우리가 하는 방식처럼 실제로 다중 스레드 계층 분석이 아니기 때문
- 아니면 암시적으로 그럴 수 있지만, 그것이 만드는 확률적 평가는 그 컨텍스트를 개별 문제에 번역하지 않음
[ 실험 - LLM에 Cellular Automata 가르치기 ]
- 학습하면서 원하는 결과를 얻을 때까지 무한 데이터를 생성할 수 있어서 기본기는 가르칠 수 있을 거라 생각했음
- 토이 transformer를 만들어서 예측해보려 함
- 왼쪽은 CA, 오른쪽은 Transformer 출력인데 구별할 수 있는지 보라는 요청이 있음
- 결과를 예측하도록 학습시킬 수 없었고 이유를 알아내지 못함
- 토이 모델이긴 했지만 시도해본 여러 방정식을 학습할 정도로 동작했고 약간의 일반화도 했음
- 그리드 크기를 줄이고, 하이퍼파라미터 최적화를 해봤지만 여전히 안됨
- 물리적 레이아웃에 대한 정보가 더 필요해서 그런가 싶어 CNN 레이어를 추가하고 positional embedding이 X, Y 축을 명시적으로 다루도록 바꿔봄. 그래도 안됨
- 절망에 빠진 채 간단한 방정식 하나라도 가르쳐보려 함
- 처음엔 전혀 동작 안했는데 시작/종료 토큰을 추가하자 갑자기 되기 시작함. Transformer는 이상함
- 크기는 완벽하진 않지만 거의 학습하는 중이었음. 머리나 레이어가 거의 없고 max_iter가 1000이었음에도 불구하고 말이죠.
- 아이디어는 분명 여러 상태를 학습하고 이력을 유지해야한다는 거라 그 기능을 어떻게든 추가해야겠다 싶었음. 그래서 출력 이후에 다른 입력을 추가하도록 디코더를 바꿔봄. 이는 또 다른 RNN 레이어를 추가하거나 이전에 무슨 단계를 거쳤는지에 대한 메모리를 제공하는 것과 동일함
- 하지만 여전히 안됨. Cellular automata로 돌아가서 기초적인 것부터 해봐도 동작 안함. 1차원인데다가 정말 쉬운 규칙도 있는데 말이죠. 튜링 완전한 110 뿐 아니라 0 같은 것 말입니다.
- 일련의 문제에서 정확한 답을 내는 걸 학습했다고 해서, 근본 규칙을 학습했다는 뜻일까요? 아니면 그 규칙의 유사체를 학습해서 주어진 분포 내에서는 결과를 흉내낼 수 있게 된 걸까요? 잘못된 방식으로 틀리기 쉬운 상태로요?
- 토이 모델이나 GPT 3.5 뿐 아니라 GPT-4, Claude, Gemini 같은 더 큰 LLM에서도 동일한 문제를 보임. 최소한 챗 모드에서는요.
- fine-tuning을 하든 특수 학습을 하든, LLM은 Conway의 Game of Life를 할 수 없어 보임
- 누군가 이걸 해결한다면 굉장히 흥미로울 것임. 적어도 왜 이런 문제가 있는지 설명할 수 있다면
[ 지금까지 이 문제를 어떻게 해결해왔나 ]
- 이 시스템을 설계할 때 우리의 지능을 더 많이 반영할수록, 최종 출력물이 필요한 변환을 더 잘 모방할 수 있음
- 개별 퍼즐을 하나씩 가르치고 추론이 전이되기를 바랄 수 있지만, 일반화를 정말 학습했는지 어떻게 알 수 있을까? 최근까지만 해도 덧셈과 곱셈조차 이 모델에겐 어려웠음
- Victor Taelin은 "GPT는 A::B 문제를 절대 풀 수 없다"고 주장함. transformer 기반 모델이 학습 집합 밖의 새로운 문제를 진정으로 학습하거나 장기 추론을 수행할 수 없다는 예시였음
- 그는 "강력한 GPT는 기본적으로 가중치 안에 회로 설계자를 진화시킨 것"이라며 "하지만 계산 모델로서 attention의 경직성 때문에 그런 진화된 회로가 충분히 유연해질 수 없다"고 말함
- "AGI가 그 안에서 자라려 하지만, 부과된 계산 및 통신 제약 때문에 할 수 없는 것 같다. 인간 두뇌는 항상 시냅스 가소성을 겪는다는 걸 기억하라. 훨씬 작은 규모로 학습되더라도 AGI로 이어질 가능성이 더 높은 유연한 아키텍처가 존재한다. 하지만 우리는 아직 그걸 모른다."
- 그는 이 문제에 1만 달러의 현상금을 걸었고, 하루 만에 해결됨.
[ LLM은 정말 얼마나 학습 가능할까? ]
LLM의 학습 능력에 대한 의문점들
- LLM은 단순한 반복 상호작용이나 제약 조건 선택과 같은 아동용 게임에서조차 실패하는 경우가 많음
- 그러나 LLM은 어려운 수학 문제, 경쟁적인 경제학 추론, 페르미 추정, 심지어 명시적으로 학습하지 않은 언어로 된 물리학 문제도 해결할 수 있음
- LLM의 답변은 프롬프트 방식에 크게 의존함
- LLM은 뛰어난 직관을 보여주지만 제한된 지능을 가짐
- 추론 단계가 늘어날수록 LLM은 목표를 파악하고 집중하는 데 어려움을 겪음
외부 메모리를 추가한 신경망의 성능 향상
- RNN 유형의 연결을 추가하면 약간의 차이는 있지만 문제를 완전히 해결하기에는 충분하지 않음
- 신경망에 외부 메모리를 추가하면 다양한 불규칙한 패턴을 학습할 수 있음
- 구조화된 메모리(스택이나 메모리 테이프)를 추가한 네트워크만이 문맥 자유 및 문맥 민감 작업에 성공적으로 일반화할 수 있음
연쇄 사고 프롬프팅과 스크래치패드의 한계
- 연쇄 사고 프롬프팅, 스크래치패드 사용, 중간 생각을 종이에 적는 것 등은 모두 목표 표류를 줄이기 위한 사고 과정의 예시임
- 그러나 이러한 방법들은 여전히 원죄(original sin)에 의해 방해를 받음
- 이전 입력에 의존하는 출력, 특히 각 단계에서 계산이 필요한 경우에는 현재의 트랜스포머 기반 모델에는 너무 복잡하고 길어서 처리하기 어려움
자기회귀(autoregression)의 저주
- 모델의 규모가 커질수록 장기 연쇄 사고에서 더 나은 성능을 보이지만, 추론 체인의 임의의 지점에서 다른 능력과는 무관해 보이는 오류를 지속적으로 보임
- 동일한 작업을 여러 단계에 걸쳐 해결하더라도 단계 수가 길어질수록 실수를 하게 됨
- GPT-4는 GPT-3.5보다 환각과 오류가 적음
- 워들(Wordle) 게임에서 실패하는 GPT-4나 Opus와 같은 대규모 모델을 만드는 것이 정답일까?
인지의 본질에 대한 질문
- 초등학생도 쉽게 해결할 수 있지만 수조 토큰과 수십억 달러가 투입된 정교한 모델은 해결하지 못하는 문제 유형이 존재한다면, 이는 우리의 인지 본질에 대해 무엇을 말해주는가?
- AGI에서 G(일반화) 부분이 가장 어려운 부분이며, 이는 쉽게 분포를 넘어 일반화될 수 없음
- 우리가 가진 것은 바벨의 도서관 중 일부분에 더 가까우며, 이미 쓰여진 책뿐만 아니라 그 책들 사이의 간격에 존재하는 정보도 읽을 수 있음
인간과 LLM의 학습 데이터 차이
- 인간은 평생 3만~5만 권의 책을 읽을 수 있지만, 대부분의 사람들은 그 중 1%도 채 읽지 못함 (최대 1GB 데이터)
- 반면 LLM은 인터넷에 있는 모든 것과 그 외에도 많은 것을 흡수했으며, 모든 영역과 학문 분야에 걸쳐 수천억 단어를 학습함 (GPT-3는 45TB 데이터로 학습)
- 누군가 200만 권의 책을 읽는다면 어떤 모습일지, 단순한 패턴 인식기가 200만 권의 책을 읽는다면 무엇을 할 수 있을지에 대한 답은 쉽게 나오지 않음
- LLM은 학습 데이터의 패턴과 암시적 규칙을 학습하지만 이를 명시적으로 만들기는 쉽지 않음
- LLM이 패턴 일치와 관련된 방정식을 알 수 있는 방법이 없다면 일반화하는 법을 배울 수 없기 때문에 여전히 역전의 저주(Reversal Curse)가 존재함
[ LLM은 컨텍스트 재설정이 불가능함 ]
- LLM이 실체, 뉴런, 신피질의 일부와 같다는 것은 특정 시점에서는 유용한 비유이지만, 우리가 LLM에서 보는 행동을 완전히 포착하지는 못함
- 패턴을 학습할 수 있는 모델의 흥미로운 점은 데이터 세트에 명시적으로 포함되지 않았을 수 있는 패턴을 학습한다는 것
- LLM은 언어를 학습하는 과정에서 데이터에 내재된 여러 연결고리를 파악하여 폰 노이만과 찰스 디킨스를 연결하고 우리가 했을 만한 충분히 사실적인 모사물을 출력할 수 있음
데이터 세트의 복잡성과 모델 크기의 한계
- 데이터 세트가 인류의 모든 복잡성을 인코딩한다고 가정하더라도, 작은 데이터 세트 내에서조차 존재하는 그러한 패턴의 수는 모델의 크기를 빠르게 압도할 것임
- 이는 거의 수학적 필연성임
- 셀룰러 오토마타 문제에서 LLM이 진정으로 방법을 학습했는지, 얼마나 신뢰할 수 있는지는 불분명함
- LLM의 실수는 성공보다 그들이 모르는 것에 대한 더 나은 지표임
학습하는 법을 학습하는 LLM의 한계
- 더 큰 신경망은 데이터에서 학습할 뿐만 아니라 학습하는 법도 학습할 것임
- 이는 LLM이 몇 가지 예시를 제공받고 학습 세트에서 보지 못한 문제를 수행할 수 있는 이유임
- 그러나 LLM이 사용하는 방법은 충분히 일반화되지 않는 것 같으며, 특히 어디에 주의를 기울여야 하는지 학습하는 측면에서는 그러함
- 학습하는 법을 학습하는 것은 우리에게도 단일한 전역 알고리즘이 아님
- 어떤 것들에는 더 잘 작동하고 다른 것들에는 덜 작동함
- 다른 유형의 문제에 대해 다른 방식으로 작동함
- 이 모든 것은 동일한 수의 매개변수로 작성되어야 하므로, 이러한 가중치를 통해 수행될 수 있는 계산은 머펫에 대해 답할 수 있을 뿐만 아니라 현 이론을 파괴할 다음 최고의 물리학 발견에 대해서도 말해줄 수 있음
상호작용하는 기호 시퀀스의 복잡성
- 기호 시퀀스에서 한 기호의 존재나 위치가 다음 기호의 정보 내용에 영향을 미치는 방식으로 상호작용하면, 데이터 세트의 전체 섀넌 엔트로피가 개별 기호만 보고 제안되는 것보다 더 높을 수 있음
- 이는 콘웨이의 라이프 게임과 같이 상태에 의존하는 것들을 정말 어렵게 만듦
- 이것이 라이프 게임 데이터 세트에 대해 미세 조정되었음에도 불구하고 GPT가 실제로 패턴을 학습할 수 없는 것처럼 보이는 이유이기도 함
- 대신 GPT는 질문에 답할 수 있을 만큼 충분히 학습함 (일종의 굿하트 법칙)
간단한 테스트로 LLM을 정의하는 것의 어려움
- LLM에 대해 실행할 수 있는 간단한 테스트로 이들 중 하나를 정의하라는 고차 질문을 하는 것은 어리석은 행동임
- 이들 중 하나를 정의하는 것은 아마도 반세기 이상의 과학 연구 개요를 효과적으로 정의하는 것이기 때문
[ 더 많은 에이전트가 필요함 ]
- 현재 이론과 유사하게, LLM 모델에 더 많은 재귀를 추가하면 당연히 더 좋아질 것임
- 그러나 원래의 목표와 지금까지의 경로를 염두에 둘 수 있는 한에서만 단계별로 더 복잡한 계획 문제를 해결할 수 있을 것임
- LLM이 왜 신뢰할 수 없는지는 여전히 불분명함
- GPT-4가 GPT-3.5에 비해 더 신뢰할 수 있는데, 이는 단순히 학습에 더 능숙해졌기 때문인지 아니면 규모 확장으로 인해 신뢰성이 증가하고 환각이 감소하기 때문인지 알 수 없음
에이전트: 강력한 활용 사례
- 에이전트, 즉 우리를 위해 전체 작업을 수행할 수 있는 자율적인 실체가 LLM의 꿈의 사용 사례임
- 실제로 많은 작업에서 더 많은 에이전트가 필요함
- 일부 작업에서 조금 더 잘 작동한다면, 충분한 수의 에이전트가 있으면 모든 작업에서 더 잘 작동할까? 가능성은 있지만 현재로서는 그럴 것 같지 않음
- Cognition Labs의 Devin과 같은 옵션에서 우리는 그것이 얼마나 강력할 수 있는지 엿볼 수 있었음 (실제 사용 사례 제시)
향후 몇 년 동안 상당 부분의 일자리로 확장 가능성
- 이러한 행동이 향후 몇 년 동안 상당 부분의 일자리로 확장될 수 있을까? 그럴 수 있을 것 같음
- 일자리마다 개별적으로 접근해야 할 것이며, 이는 쉽게 확장되지 않는 전문 모델이 될 것임 (모든 것을 지배하는 하나의 모델이 아님)
- 오픈 소스 버전은 이미 핵심 요소의 일부를 알려주고 있음
- 정보가 기본 모델에 도달하는 순서와 양을 신중하게 검토하고, 이전에 본 것처럼 그들의 한계를 고려하여 번창할 수 있는 환경을 만드는 것
GPT의 한계와 해결책
- GPT가 라이프 게임과 같은 문제를 스스로 해결할 수 없거나 단계를 생각해 볼 때조차 해결할 수 없다는 것은 중요하지 않음
- 중요한 것은 GPT가 그것을 해결하기 위한 프로그램을 작성할 수 있다는 것임
- 즉, 모든 프로그램에서 프로그램을 작성하는 것이 타당한 상황을 인식하도록 GPT를 훈련시킬 수 있다면 AGI에 가까워질 수 있음 (내가 가진 견해)
모델 용량의 한계와 시각-언어 양식 간 경쟁 관계
- 적어도 작은 모델에서는 학습되는 내용에 대해 가중치 간에 경쟁이 존재함
- DeepSeek 논문에서 본 최고의 코멘트:
- DeepSeek-VL-7B는 수학(GSM8K)에서 어느 정도 감소를 보여줌
- 이는 시각과 언어 양식 간의 조화를 촉진하려는 노력에도 불구하고, 여전히 둘 사이에 경쟁 관계가 존재함을 시사함
- 이는 제한된 모델 용량(7B)에 기인할 수 있으며, 더 큰 모델이 이 문제를 상당히 완화시킬 수 있음
[ 결론 ]
- 앞의 사례를 통해 배운 것들
- LLM(Large Language Model)은 현재로서는 해결할 수 없는 특정 유형의 문제들이 존재함
- 특히 이전 상태에 의존하거나 미래 상태를 예측해야 하는 등 더 긴 추론 단계가 필요한 문제들이 이에 해당함
- Wordle 게임을 하는 것이나 CA(Cellular Automata)를 예측하는 것 등이 그 예시임
- 더 큰 LLM을 사용하면 문제에 대한 단계별 정보와 따라야 할 여러 예시를 제공함으로써 어느 정도 추론을 가르칠 수 있음
- 그러나 이는 실제 문제를 추상화하고 답을 생각하는 방식을 프롬프트에 넣는 것임
- 이는 다음과 같은 방법으로 개선될 수 있음
- 더 나은 프롬프팅
- 중간 단계에서 메모리, 계산, 도구에 대한 접근성 향상
- 그러나 인간과 관련하여 사용하는 일반화 가능한 의식 수준에는 도달하지 못할 것임
- LLM에 입력한 모든 정보는 아마도 적절한 프롬프트가 주어지면 이끌어낼 수 있을 것임
- 따라서 모델을 적절하게 사용하는 데 있어 엄청난 부분은 수행할 작업에 따라 적절하게 프롬프트를 만드는 것임
- 이는 외부 가드레일과 함께 적절하게 응답하도록 모델을 프라이밍하기 위해 계산 문제에 대한 정답과 오답의 긴 시퀀스를 신중하게 구성해야 할 수 있음
- '관심(Attention)'은 목표 편향(Goal Drift)의 영향을 받기 쉬우므로 상당한 외부 스캐폴딩 없이는 신뢰할 수 있게 만들기 매우 어려움
- LLM이 범하는 실수는 성공보다 **훨씬 더 유익한 정보를 제공**함
- LLM(Large Language Model)은 현재로서는 해결할 수 없는 특정 유형의 문제들이 존재함
- AGI(Artificial General Intelligence)에 도달하고 충분한 수준의 일반화를 달성하기 위해서는 근본적인 아키텍처 개선이 필요함
- 기존 모델의 규모를 확장하고 Jamba 등의 새로운 아키텍처를 추가하면 더 효율적이고 빠르고 안정적으로 작동하게 되겠지만, 일반화 부족이나 '목표 편향'과 같은 근본적인 문제를 해결하지는 못함
- 특화된 에이전트를 추가하여 "프롬프트 엔지니어링"을 수행하고 17개의 GPT가 서로 대화하도록 하는 것만으로는 충분하지 않음
- 그러나 충분한 임시방편을 사용하면 우리가 관심 있는 영역에서는 결과를 구분할 수 없을 수도 있음
- 초기 AI 시대에 체스 엔진이 처음 등장했을 때, 제한된 처리 능력과 거의 쓸모없는 검색 또는 평가 기능만 있었음
- 그래서 하드코딩된 오프닝이나 엔드게임, 더 나은 검색을 위한 반복 심화(Iterative Deepening), 알파-베타 가지치기(Alpha-Beta Pruning) 등과 같은 임시방편에 의존해야 했음
- 결국 점진적인 개선을 통해 극복되었지만, LLM에서도 마찬가지로 그렇게 함
- 저자가 선호하는 아이디어는 신뢰성이 다소 향상되면 서로 연결된 자체 하위 에이전트를 가진 다른 전문 에이전트를 지시할 수 있는 다양한 수준의 계층 구조에서 여러 계획 에이전트를 두는 것임
- 우리는 추론, 반복을 위한 모듈을 추가하고, 영구 및 무작위 액세스 메모리를 추가하며, 심지어 물리적 세계에 대한 이해를 제공할 수 있음
- 이 시점에서 동물에서 얻는 것과 같은 방식으로 LLM에서 의식의 근사치를 얻을 수 있을 것 같지만, 과연 그럴까?
- 분포를 벗어나면서 우리가 필요로 하는 것을 모방하는 매우 설득력 있는 통계 모델로 끝날 수도 있음
- 이것이 저자가 LLM을 퍼지 프로세서(Fuzzy Processor)라고 부르는 이유이며, "LLM이 되는 것이 어떤 것인가"와 같은 질문의 끝이 순환 대화로 끝나는 이유임
- 오늘날 우리가 가진 것이 기적적이지 않다는 어떤 징후로도 받아들여서는 안 됨
- 비터 레슨(Bitter Lesson)이 AGI까지 모두 외삽되지 않을 것이라고 생각한다고 해서 우리가 이미 가진 결실이 대단하지 않다는 의미는 아님
- 저자는 LLM이 보는 데이터에서 "학습"한다고 확신함
- 단순한 압축기도 앵무새도 아님
- 학습 데이터셋이나 프롬프트의 서로 다른 부분에서 뉘앙스 있는 데이터를 연결하고 지능적인 응답을 제공할 수 있음
- 토마스 네이글(Thomas Nagel)은 아마도 LLM이 되는 것이 어떤 것인지에 대한 질문을 했을 것임
- 포유류로서 박쥐는 LLM보다 우리에게 더 가까우며, 그들의 내부가 우리에게 흐릿하다면 새로운 모델의 내부 기능을 이해할 가능성은 얼마나 될까?
- 아니면 반대로, LLM에서는 모든 가중치와 회로를 자유롭게 검사할 수 있기 때문에 우리가 사용하는 이러한 모델에 대해 어떤 수준의 통찰력을 가질 수 있을까?
- 이것이 저자가 공식적으로 총알을 물 용의가 있는 이유임
- 충분히 확장된 통계는 학습 데이터의 분포 내에서 지능과 구별할 수 없음
- 모든 것에 대해서도, 모든 것을 할 만큼 충분하지도 않지만, 신기루도 아님
- 그렇기 때문에 성공보다는 테스트에서의 실수가 진단에 훨씬 더 유용함
- LLM이 무엇이든 할 수 있는 기계라면, 결국 대부분의 일을 할 수 있어야 함
- 많은 자극과 찌르기를 통해서 가능함
- 바흐나 폰 노이만의 천재성에 영감을 주지는 못하겠지만, 보다 평범하지만 중요성이 떨어지지 않는 혁신과 발견은 가능함
- 그리고 의식이나 도덕적 인격을 필요로 하지 않고도 그렇게 할 수 있음
- 쿤(Kuhn)이 말한 패러다임 내의 도약을 자동화하거나 빠르게 진행할 수 있다면, 패러다임 사이를 자유롭게 도약할 수 있게 됨
Hacker News 의견
요약:
- 현재 LLM(대형 언어 모델)은 Wordle이나 Rule 110과 같은 셀룰러 오토마타 예측 등 인간에게는 쉽지만 LLM에게는 어려운 (또는 불가능할 수도 있는) 문제들이 존재함. 그 이유는 아직 완전히 밝혀지지 않음.
- 프롬프트에 예시와 단계별 지침을 제공하는 것은 LLM 스스로 "추론 단계"를 파악하는 것이 아니라 사용자가 그것을 LLM에 건네주는 것임. 우리는 지능적이지만 근본적인 한계에 부딪히는 것 같은 "추론 기계"를 가지고 있음.
- 현재의 Attention 메커니즘을 사용하는 더 큰 모델과 더 나은 프롬프팅으로 AGI를 달성할 수 있을지는 불분명함. Attention은 매우 경직된 반면 인간의 뇌는 항상 시냅스 가소성을 겪고 있음. AGI가 가능한 더 유연한 아키텍처가 존재할 수 있지만, 우리는 아직 그것을 모름.
- 현재로서는 계산 문제에 대한 올바른 답과 잘못된 답을 신중하게 구성하고, 모델이 적절하게 응답하도록 프라이밍하며, 외부 가드레일을 많이 적용하는 등 현재 AI 모델을 사용하려면 긴 프롬프트를 신중하게 구성해야 함.
- Attention은 "목표 표류"로 고통받는 것 같아서 모든 외부 지지대 없이는 신뢰성을 확보하기 어려움.
- LLM의 한계를 이론적으로 정량화하려면 현재 할 수 없는 것들의 경험적 증거 목록이 아니라 이론적 결과에 의존해야 할 것임. 관련 문헌에서는 "expressibility"라는 용어를 찾아볼 수 있음.
- 숫자 표기 규칙 같은 간단한 규칙조차도 많은 예제에서 실패하고, 프롬프트를 어떻게 구성해도 제대로 동작하지 않는 경우가 많음. 놀랍지만 여전히 많은 제한이 있음.
- "흥미로운 사실을 언급하되 흥미롭다고 말하지 말라"는 지시를 제대로 따르지 못하는 등 특정 행동을 하지 말라고 지시받는 것이 서툰 편임. 오히려 하지 말라고 하면 할 가능성이 높아짐.
- LLM이 "추론"한다고 가정하더라도 세계에 대해서가 아니라 문서에 포함된 사실, 개체, 인과관계에 비추어 환각에 대처하는 Agentic AI를 구축함. 또한 매우 큰 토큰 거리로 교차 추론에 대처함.
- 사람 간의 관계, 원한, 동맹 등의 이차 복잡성을 잘 처리해야 하는 필요성이 더 높은 수준의 지능으로 이어졌다고 생각됨.
- Wordl/Sudoku 같은 일부 "절대 못하는" 것들은 텍스트 표현의 아티팩트일 뿐이며, 다른 도메인으로 변환하면 동일한 Transformer 아키텍처를 사용해도 성공률이 훨씬 높아질 것임.
- 모든 도메인에 맞춤형 AGI를 만들 필요는 없고, 문제를 분해하여 전문 도구에 할당한 다음 재조립하여 답을 만들 수 있을 만큼 잘 추론할 수 있는 에이전트와 모델/도구 카탈로그만 있으면 됨.