GN⁺: LLM이 결코 할 수 없는 것

(strangeloopcanon.com)

35P by neo 17일전 | favorite | 댓글 1개

[ LLM의 한계 ]

LLM의 목표 이탈과 낮은 신뢰도에 대하여, 또는 LLM이 왜 Conway's Game of Life를 못하는가
지난 몇 년 동안 LLM이 해결할 수 없다고 생각했던 문제들을 훌륭하게 해결했음에도 불구하고, 여전히 간단해 보이는 질문에 답하지 못하는 이유가 불분명함
지난 몇 주간 LLM의 실패 모드를 파악하려고 노력함. 이상한 내용이긴 하지만 흥미로운 주제로 생각됨. AI의 실패는 그 성공보다 더 많은 것을 가르쳐줌
근본적으로 LLM이 결국 수행하게 될 많은 작업을 위해서는 일일이 평가가 필요하다는 점에서 출발했지만, 추론 능력의 한계를 파악해서 학습 능력을 신뢰할 수 있는 방법을 찾는 데 집중함
LLM의 추론 능력을 평가하는 것은 어려움
- 추론 능력을 학습 데이터와 분리하는 것이 어려움
- 반복적으로 추론하고 질문에 답할 수 있는 능력을 테스트할 방법을 찾고자 함
만족할 만한 기준을 충족하는 가장 간단한 버전으로 시작
- 3x3, 4x4, 5x5 크기의 단어 그리드를 연속적으로 만들 수 있는지 여부
- 평가는 쉽게 만들 수 있고, 쉽게 평가할 수 있으면서도 수행하기 어려워야 함
모든 최신 대형 언어 모델(Opus, GPT-4 포함)이 이 작업에 실패함
- 이 모델들은 경제학, 양자역학 등 난해한 질문에 답하고, 코딩, 그림, 음악, 비디오 제작, 전체 애플리케이션 생성, 심지어 높은 수준의 체스 게임도 가능함
- 그러나 스도쿠는 할 수 없음

Reversal Curse

LLM에는 모델이 "A는 B다"라는 형식으로 학습하면, "B는 A다"라는 역방향으로 일반화하지 못한다는 Reversal Curse가 있음
- 예를 들어 모델이 "Valentina Tereshkova는 우주여행을 한 최초의 여성"이라고 학습하면, "우주여행을 한 최초의 여성은 누구인가?"라는 질문에 자동으로 대답하지 못함
- 게다가 정답("Valentina Tereshkova")의 가능성이 무작위 이름보다 높지 않음
모델은 사람들 사이의 관계를 이해하도록 잘 일반화하지 못함
최고 수준의 모델도 여전히 이 문제를 겪고 있음

학습 데이터 분포의 문제는 아닐까?

문제가 학습 데이터 분포의 이상함 때문인지 궁금해짐. 우리가 충분한 예제를 보여주지 않은 것 같아서 결정론적인 무언가를 시도해봄
Cellular Automata를 예측하도록 transformer를 학습시키는 것으로 테스트해봄
번역 문제는 없어 보이지만 여전히 실패함!
최소한 두 가지 다른 문제가 있음
1. LLM이 훈련 데이터에 정보가 없고 수행하도록 훈련되지 않아서 수행할 수 없는 문제
2. LLM이 구축 방식 때문에 수행할 수 없는 문제
우리가 보는 거의 모든 것이 문제 1보다는 문제 2를 상기시킴

LLM이 근본적으로 할 수 없는 이유

모델이 목표 이탈(goal drift) 문제가 있어서, 한 토큰씩 만들도록 강제되기 때문에 프롬프트 내 문맥을 넘어 일반화하지 못하고 주의를 어디에 둬야할지 모른다고 생각함
- 이는 프롬프트 주입이 동작하는 이유이기도 함. 주의 메커니즘을 왜곡시키기 때문 ( _### Instruction: ...`과 같은 것을 말함으로써 모델을 탈옥 )
LLM에서나 인간에서나 문맥은 부족한 자원임
요약하자면,
1. LLM은 계산을 모방하는 확률적 모델이며, 때로는 임의로 밀접하게 모방함
2. 더 큰 모델을 훈련할수록 데이터 내에서 더 많은 암시적 연관성을 학습하여 더 나은 추론에 도움이 될 것임
- 학습한 연관성이 항상 우리의 아이디어와 깨끗하게 맵핑되는 것은 아님
1. 추론은 항상 단일 패스임
- LLM은 훈련 데이터에 해당 프로세스가 자세히 설명되어 있지 않는 한 멈추고, 월드 상태를 수집하고, 추론하고, 이전 답변을 다시 검토하거나 미래 답변을 예측할 수 없음
- 이전 프롬프트와 응답을 포함하더라도 다음 추론은 여전히 처음부터 단일 패스로 시작됨
1. 이는 추론의 신뢰성이 떨어지는 일종의 '목표 표류'가 불가피하게 발생하는 문제를 만듦
- 프롬프트 주입이 작동하는 이유이기도 함 (주의 메커니즘을 왜곡시키기 때문)
- 이 '목표 표류'는 에이전트나 반복적으로 순차적으로 수행되는 작업의 신뢰성이 떨어진다는 것을 의미함
- 주의가 선택적이거나 동적이지 않기 때문에 어디에 집중해야 할지 '잊어버림'
1. LLM은 컨텍스트를 동적으로 재설정할 수 없음
- 튜링 머신은 테이프를 메모리로 사용하는 반면, 트랜스포머는 내부 상태(self-attention을 통해 관리)를 사용하여 중간 계산을 추적함
- 이는 트랜스포머가 잘 수행하지 못하는 많은 유형의 계산이 있다는 것을 의미함
1. 이는 사고의 연쇄(chain of thought)나 다른 LLM을 사용하여 출력을 검토하고 수정하는 등의 방법을 통해 부분적으로 해결할 수 있음
- 본질적으로 추론을 정상 궤도에 올려놓는 방법을 찾는 것
- 충분히 영리한 프롬프트와 단계별 반복을 통해 LLM은 훈련 데이터에 있는 거의 모든 것을 이끌어낼 수 있음
- 모델이 개선됨에 따라 각 추론도 개선되어 신뢰성이 높아지고 더 나은 에이전트를 가능하게 할 것임
1. 많은 노력을 기울이면 연결된 GPT 시스템, 여러 내부 반복, 지속적인 오류 검사 및 수정, 외부화된 메모리 등 기능 구성 요소를 갖추게 될 것임
- 그러나 이것은 여러 영역에서 AGI에 접근하기 위해 무차별적으로 강행하더라도 훈련 데이터를 넘어 진정으로 일반화할 수는 없음
- 그럼에도 불구하고 여전히 기적적인 일임

[ 실험 - GPT가 Wordle을 학습할 수 없는 이유 ]

LLM은 Wordle을 할 수 없음
- 스도쿠나 단어 그리드(가장 간단한 형태의 크로스워드)도 마찬가지
이는 놀라운 일인데, 이러한 문제들이 어려운 문제가 아니기 때문
- 초등학생도 시도할 수 있지만, 최고의 LLM조차도 이를 수행하는 데 실패함
첫 번째 가정은 훈련 데이터의 부족일 것
- 하지만 여기서는 그렇지 않을 것임
- 규칙은 분명히 데이터에 있기 때문
- Wordle이 현재 LLM의 훈련 데이터셋에서 어쩔 수 없이 누락된 것은 아님
또 다른 가정은 토큰화 문제 때문이라는 것
- 하지만 이것도 사실이 아님
- 여러 기회를 제공하고 이전 답변을 제공하여 반복할 수 있는 여지를 주더라도, 여전히 올바른 해결책을 생각해내는 데 어려움을 겪음
- 문자 사이에 공백을 주어도 운이 좋지 않음
이전 답변과 컨텍스트, 질문을 다시 제공하더라도 종종 [3,4] 셀에서 무언가를 편집하는 대신 전체 답변 시퀀스를 다시 시작함
대신 그 본질상 각 단계는 어떤 모델도 수행할 수 없는 것으로 보이는 서로 다른 수준의 반복적 계산을 필요로 하는 것 같음
- 어떤 면에서 이것은 이해가 되는데, 자동 회귀 모델은 한 번에 하나의 정방향 패스만 수행할 수 있기 때문
  - 기존 토큰 저장소와 출력을 스크래치 패드로 사용하여 계속 생각을 말할 수 있지만, 너무 빨리 추적을 잃어버림
여기서의 결론은 각 단계가 메모리와 계산을 모두 필요로 할 때, 그것은 트랜스포머가 현재 가지고 있는 레이어 수와 어텐션 헤드 내에서 해결할 수 없는 것으로 보인다는 것
- 심지어 조 단위 토큰의 GPT-4와 같은 매우 큰 모델에서도 마찬가지
아이러니하게도 어디에 주의를 집중해야 할지 파악하지 못함
- 현재 주의(attention)가 수행되는 방식이 정적이고 시퀀스의 모든 부분을 동시에 처리하기 때문
- 여러 휴리스틱을 사용하여 더 선택적이고 컨텍스트를 동적으로 재설정하여 대안을 시도하는 대신
이는 현재 측정되는 주의(attention)가 우리가 하는 방식처럼 실제로 다중 스레드 계층 분석이 아니기 때문
- 아니면 암시적으로 그럴 수 있지만, 그것이 만드는 확률적 평가는 그 컨텍스트를 개별 문제에 번역하지 않음

[ 실험 - LLM에 Cellular Automata 가르치기 ]

학습하면서 원하는 결과를 얻을 때까지 무한 데이터를 생성할 수 있어서 기본기는 가르칠 수 있을 거라 생각했음
토이 transformer를 만들어서 예측해보려 함
왼쪽은 CA, 오른쪽은 Transformer 출력인데 구별할 수 있는지 보라는 요청이 있음
결과를 예측하도록 학습시킬 수 없었고 이유를 알아내지 못함
토이 모델이긴 했지만 시도해본 여러 방정식을 학습할 정도로 동작했고 약간의 일반화도 했음
그리드 크기를 줄이고, 하이퍼파라미터 최적화를 해봤지만 여전히 안됨
물리적 레이아웃에 대한 정보가 더 필요해서 그런가 싶어 CNN 레이어를 추가하고 positional embedding이 X, Y 축을 명시적으로 다루도록 바꿔봄. 그래도 안됨
절망에 빠진 채 간단한 방정식 하나라도 가르쳐보려 함
처음엔 전혀 동작 안했는데 시작/종료 토큰을 추가하자 갑자기 되기 시작함. Transformer는 이상함
크기는 완벽하진 않지만 거의 학습하는 중이었음. 머리나 레이어가 거의 없고 max_iter가 1000이었음에도 불구하고 말이죠.
아이디어는 분명 여러 상태를 학습하고 이력을 유지해야한다는 거라 그 기능을 어떻게든 추가해야겠다 싶었음. 그래서 출력 이후에 다른 입력을 추가하도록 디코더를 바꿔봄. 이는 또 다른 RNN 레이어를 추가하거나 이전에 무슨 단계를 거쳤는지에 대한 메모리를 제공하는 것과 동일함
하지만 여전히 안됨. Cellular automata로 돌아가서 기초적인 것부터 해봐도 동작 안함. 1차원인데다가 정말 쉬운 규칙도 있는데 말이죠. 튜링 완전한 110 뿐 아니라 0 같은 것 말입니다.
일련의 문제에서 정확한 답을 내는 걸 학습했다고 해서, 근본 규칙을 학습했다는 뜻일까요? 아니면 그 규칙의 유사체를 학습해서 주어진 분포 내에서는 결과를 흉내낼 수 있게 된 걸까요? 잘못된 방식으로 틀리기 쉬운 상태로요?
토이 모델이나 GPT 3.5 뿐 아니라 GPT-4, Claude, Gemini 같은 더 큰 LLM에서도 동일한 문제를 보임. 최소한 챗 모드에서는요.
fine-tuning을 하든 특수 학습을 하든, LLM은 Conway의 Game of Life를 할 수 없어 보임
누군가 이걸 해결한다면 굉장히 흥미로울 것임. 적어도 왜 이런 문제가 있는지 설명할 수 있다면

[ 지금까지 이 문제를 어떻게 해결해왔나 ]

이 시스템을 설계할 때 우리의 지능을 더 많이 반영할수록, 최종 출력물이 필요한 변환을 더 잘 모방할 수 있음
개별 퍼즐을 하나씩 가르치고 추론이 전이되기를 바랄 수 있지만, 일반화를 정말 학습했는지 어떻게 알 수 있을까? 최근까지만 해도 덧셈과 곱셈조차 이 모델에겐 어려웠음
Victor Taelin은 "GPT는 A::B 문제를 절대 풀 수 없다"고 주장함. transformer 기반 모델이 학습 집합 밖의 새로운 문제를 진정으로 학습하거나 장기 추론을 수행할 수 없다는 예시였음
- 그는 "강력한 GPT는 기본적으로 가중치 안에 회로 설계자를 진화시킨 것"이라며 "하지만 계산 모델로서 attention의 경직성 때문에 그런 진화된 회로가 충분히 유연해질 수 없다"고 말함
- "AGI가 그 안에서 자라려 하지만, 부과된 계산 및 통신 제약 때문에 할 수 없는 것 같다. 인간 두뇌는 항상 시냅스 가소성을 겪는다는 걸 기억하라. 훨씬 작은 규모로 학습되더라도 AGI로 이어질 가능성이 더 높은 유연한 아키텍처가 존재한다. 하지만 우리는 아직 그걸 모른다."
그는 이 문제에 1만 달러의 현상금을 걸었고, 하루 만에 해결됨.

[ LLM은 정말 얼마나 학습 가능할까? ]

LLM의 학습 능력에 대한 의문점들

LLM은 단순한 반복 상호작용이나 제약 조건 선택과 같은 아동용 게임에서조차 실패하는 경우가 많음
그러나 LLM은 어려운 수학 문제, 경쟁적인 경제학 추론, 페르미 추정, 심지어 명시적으로 학습하지 않은 언어로 된 물리학 문제도 해결할 수 있음
LLM의 답변은 프롬프트 방식에 크게 의존함
LLM은 뛰어난 직관을 보여주지만 제한된 지능을 가짐
추론 단계가 늘어날수록 LLM은 목표를 파악하고 집중하는 데 어려움을 겪음

외부 메모리를 추가한 신경망의 성능 향상

RNN 유형의 연결을 추가하면 약간의 차이는 있지만 문제를 완전히 해결하기에는 충분하지 않음
신경망에 외부 메모리를 추가하면 다양한 불규칙한 패턴을 학습할 수 있음
구조화된 메모리(스택이나 메모리 테이프)를 추가한 네트워크만이 문맥 자유 및 문맥 민감 작업에 성공적으로 일반화할 수 있음

연쇄 사고 프롬프팅과 스크래치패드의 한계

연쇄 사고 프롬프팅, 스크래치패드 사용, 중간 생각을 종이에 적는 것 등은 모두 목표 표류를 줄이기 위한 사고 과정의 예시임
그러나 이러한 방법들은 여전히 원죄(original sin)에 의해 방해를 받음
이전 입력에 의존하는 출력, 특히 각 단계에서 계산이 필요한 경우에는 현재의 트랜스포머 기반 모델에는 너무 복잡하고 길어서 처리하기 어려움

자기회귀(autoregression)의 저주

모델의 규모가 커질수록 장기 연쇄 사고에서 더 나은 성능을 보이지만, 추론 체인의 임의의 지점에서 다른 능력과는 무관해 보이는 오류를 지속적으로 보임
동일한 작업을 여러 단계에 걸쳐 해결하더라도 단계 수가 길어질수록 실수를 하게 됨
GPT-4는 GPT-3.5보다 환각과 오류가 적음
워들(Wordle) 게임에서 실패하는 GPT-4나 Opus와 같은 대규모 모델을 만드는 것이 정답일까?

인지의 본질에 대한 질문

초등학생도 쉽게 해결할 수 있지만 수조 토큰과 수십억 달러가 투입된 정교한 모델은 해결하지 못하는 문제 유형이 존재한다면, 이는 우리의 인지 본질에 대해 무엇을 말해주는가?
AGI에서 G(일반화) 부분이 가장 어려운 부분이며, 이는 쉽게 분포를 넘어 일반화될 수 없음
우리가 가진 것은 바벨의 도서관 중 일부분에 더 가까우며, 이미 쓰여진 책뿐만 아니라 그 책들 사이의 간격에 존재하는 정보도 읽을 수 있음

인간과 LLM의 학습 데이터 차이

인간은 평생 3만~5만 권의 책을 읽을 수 있지만, 대부분의 사람들은 그 중 1%도 채 읽지 못함 (최대 1GB 데이터)
반면 LLM은 인터넷에 있는 모든 것과 그 외에도 많은 것을 흡수했으며, 모든 영역과 학문 분야에 걸쳐 수천억 단어를 학습함 (GPT-3는 45TB 데이터로 학습)
누군가 200만 권의 책을 읽는다면 어떤 모습일지, 단순한 패턴 인식기가 200만 권의 책을 읽는다면 무엇을 할 수 있을지에 대한 답은 쉽게 나오지 않음
LLM은 학습 데이터의 패턴과 암시적 규칙을 학습하지만 이를 명시적으로 만들기는 쉽지 않음
LLM이 패턴 일치와 관련된 방정식을 알 수 있는 방법이 없다면 일반화하는 법을 배울 수 없기 때문에 여전히 역전의 저주(Reversal Curse)가 존재함

[ LLM은 컨텍스트 재설정이 불가능함 ]

LLM이 실체, 뉴런, 신피질의 일부와 같다는 것은 특정 시점에서는 유용한 비유이지만, 우리가 LLM에서 보는 행동을 완전히 포착하지는 못함
패턴을 학습할 수 있는 모델의 흥미로운 점은 데이터 세트에 명시적으로 포함되지 않았을 수 있는 패턴을 학습한다는 것
LLM은 언어를 학습하는 과정에서 데이터에 내재된 여러 연결고리를 파악하여 폰 노이만과 찰스 디킨스를 연결하고 우리가 했을 만한 충분히 사실적인 모사물을 출력할 수 있음

데이터 세트의 복잡성과 모델 크기의 한계

데이터 세트가 인류의 모든 복잡성을 인코딩한다고 가정하더라도, 작은 데이터 세트 내에서조차 존재하는 그러한 패턴의 수는 모델의 크기를 빠르게 압도할 것임
이는 거의 수학적 필연성임
셀룰러 오토마타 문제에서 LLM이 진정으로 방법을 학습했는지, 얼마나 신뢰할 수 있는지는 불분명함
LLM의 실수는 성공보다 그들이 모르는 것에 대한 더 나은 지표임

학습하는 법을 학습하는 LLM의 한계

더 큰 신경망은 데이터에서 학습할 뿐만 아니라 학습하는 법도 학습할 것임
이는 LLM이 몇 가지 예시를 제공받고 학습 세트에서 보지 못한 문제를 수행할 수 있는 이유임
그러나 LLM이 사용하는 방법은 충분히 일반화되지 않는 것 같으며, 특히 어디에 주의를 기울여야 하는지 학습하는 측면에서는 그러함
학습하는 법을 학습하는 것은 우리에게도 단일한 전역 알고리즘이 아님
어떤 것들에는 더 잘 작동하고 다른 것들에는 덜 작동함
다른 유형의 문제에 대해 다른 방식으로 작동함
이 모든 것은 동일한 수의 매개변수로 작성되어야 하므로, 이러한 가중치를 통해 수행될 수 있는 계산은 머펫에 대해 답할 수 있을 뿐만 아니라 현 이론을 파괴할 다음 최고의 물리학 발견에 대해서도 말해줄 수 있음

상호작용하는 기호 시퀀스의 복잡성

기호 시퀀스에서 한 기호의 존재나 위치가 다음 기호의 정보 내용에 영향을 미치는 방식으로 상호작용하면, 데이터 세트의 전체 섀넌 엔트로피가 개별 기호만 보고 제안되는 것보다 더 높을 수 있음
이는 콘웨이의 라이프 게임과 같이 상태에 의존하는 것들을 정말 어렵게 만듦
이것이 라이프 게임 데이터 세트에 대해 미세 조정되었음에도 불구하고 GPT가 실제로 패턴을 학습할 수 없는 것처럼 보이는 이유이기도 함
대신 GPT는 질문에 답할 수 있을 만큼 충분히 학습함 (일종의 굿하트 법칙)

간단한 테스트로 LLM을 정의하는 것의 어려움

LLM에 대해 실행할 수 있는 간단한 테스트로 이들 중 하나를 정의하라는 고차 질문을 하는 것은 어리석은 행동임
이들 중 하나를 정의하는 것은 아마도 반세기 이상의 과학 연구 개요를 효과적으로 정의하는 것이기 때문

[ 더 많은 에이전트가 필요함 ]

현재 이론과 유사하게, LLM 모델에 더 많은 재귀를 추가하면 당연히 더 좋아질 것임
그러나 원래의 목표와 지금까지의 경로를 염두에 둘 수 있는 한에서만 단계별로 더 복잡한 계획 문제를 해결할 수 있을 것임
LLM이 왜 신뢰할 수 없는지는 여전히 불분명함
GPT-4가 GPT-3.5에 비해 더 신뢰할 수 있는데, 이는 단순히 학습에 더 능숙해졌기 때문인지 아니면 규모 확장으로 인해 신뢰성이 증가하고 환각이 감소하기 때문인지 알 수 없음

에이전트: 강력한 활용 사례

에이전트, 즉 우리를 위해 전체 작업을 수행할 수 있는 자율적인 실체가 LLM의 꿈의 사용 사례임
실제로 많은 작업에서 더 많은 에이전트가 필요함
일부 작업에서 조금 더 잘 작동한다면, 충분한 수의 에이전트가 있으면 모든 작업에서 더 잘 작동할까? 가능성은 있지만 현재로서는 그럴 것 같지 않음
Cognition Labs의 Devin과 같은 옵션에서 우리는 그것이 얼마나 강력할 수 있는지 엿볼 수 있었음 (실제 사용 사례 제시)

향후 몇 년 동안 상당 부분의 일자리로 확장 가능성

이러한 행동이 향후 몇 년 동안 상당 부분의 일자리로 확장될 수 있을까? 그럴 수 있을 것 같음
일자리마다 개별적으로 접근해야 할 것이며, 이는 쉽게 확장되지 않는 전문 모델이 될 것임 (모든 것을 지배하는 하나의 모델이 아님)
오픈 소스 버전은 이미 핵심 요소의 일부를 알려주고 있음
- 정보가 기본 모델에 도달하는 순서와 양을 신중하게 검토하고, 이전에 본 것처럼 그들의 한계를 고려하여 번창할 수 있는 환경을 만드는 것

GPT의 한계와 해결책

GPT가 라이프 게임과 같은 문제를 스스로 해결할 수 없거나 단계를 생각해 볼 때조차 해결할 수 없다는 것은 중요하지 않음
중요한 것은 GPT가 그것을 해결하기 위한 프로그램을 작성할 수 있다는 것임
즉, 모든 프로그램에서 프로그램을 작성하는 것이 타당한 상황을 인식하도록 GPT를 훈련시킬 수 있다면 AGI에 가까워질 수 있음 (내가 가진 견해)

모델 용량의 한계와 시각-언어 양식 간 경쟁 관계

적어도 작은 모델에서는 학습되는 내용에 대해 가중치 간에 경쟁이 존재함
DeepSeek 논문에서 본 최고의 코멘트:
- DeepSeek-VL-7B는 수학(GSM8K)에서 어느 정도 감소를 보여줌
- 이는 시각과 언어 양식 간의 조화를 촉진하려는 노력에도 불구하고, 여전히 둘 사이에 경쟁 관계가 존재함을 시사함
- 이는 제한된 모델 용량(7B)에 기인할 수 있으며, 더 큰 모델이 이 문제를 상당히 완화시킬 수 있음

[ 결론 ]

앞의 사례를 통해 배운 것들
- LLM(Large Language Model)은 현재로서는 해결할 수 없는 특정 유형의 문제들이 존재함
  - 특히 이전 상태에 의존하거나 미래 상태를 예측해야 하는 등 더 긴 추론 단계가 필요한 문제들이 이에 해당함
  - Wordle 게임을 하는 것이나 CA(Cellular Automata)를 예측하는 것 등이 그 예시임
- 더 큰 LLM을 사용하면 문제에 대한 단계별 정보와 따라야 할 여러 예시를 제공함으로써 어느 정도 추론을 가르칠 수 있음
  - 그러나 이는 실제 문제를 추상화하고 답을 생각하는 방식을 프롬프트에 넣는 것임
- 이는 다음과 같은 방법으로 개선될 수 있음
  1. 더 나은 프롬프팅
  2. 중간 단계에서 메모리, 계산, 도구에 대한 접근성 향상
  - 그러나 인간과 관련하여 사용하는 일반화 가능한 의식 수준에는 도달하지 못할 것임
  - LLM에 입력한 모든 정보는 아마도 적절한 프롬프트가 주어지면 이끌어낼 수 있을 것임
- 따라서 모델을 적절하게 사용하는 데 있어 엄청난 부분은 수행할 작업에 따라 적절하게 프롬프트를 만드는 것임
  - 이는 외부 가드레일과 함께 적절하게 응답하도록 모델을 프라이밍하기 위해 계산 문제에 대한 정답과 오답의 긴 시퀀스를 신중하게 구성해야 할 수 있음
- '관심(Attention)'은 목표 편향(Goal Drift)의 영향을 받기 쉬우므로 상당한 외부 스캐폴딩 없이는 신뢰할 수 있게 만들기 매우 어려움
  - LLM이 범하는 실수는 성공보다 **훨씬 더 유익한 정보를 제공**함
AGI(Artificial General Intelligence)에 도달하고 충분한 수준의 일반화를 달성하기 위해서는 근본적인 아키텍처 개선이 필요함
- 기존 모델의 규모를 확장하고 Jamba 등의 새로운 아키텍처를 추가하면 더 효율적이고 빠르고 안정적으로 작동하게 되겠지만, 일반화 부족이나 '목표 편향'과 같은 근본적인 문제를 해결하지는 못함
특화된 에이전트를 추가하여 "프롬프트 엔지니어링"을 수행하고 17개의 GPT가 서로 대화하도록 하는 것만으로는 충분하지 않음
- 그러나 충분한 임시방편을 사용하면 우리가 관심 있는 영역에서는 결과를 구분할 수 없을 수도 있음
초기 AI 시대에 체스 엔진이 처음 등장했을 때, 제한된 처리 능력과 거의 쓸모없는 검색 또는 평가 기능만 있었음
- 그래서 하드코딩된 오프닝이나 엔드게임, 더 나은 검색을 위한 반복 심화(Iterative Deepening), 알파-베타 가지치기(Alpha-Beta Pruning) 등과 같은 임시방편에 의존해야 했음
- 결국 점진적인 개선을 통해 극복되었지만, LLM에서도 마찬가지로 그렇게 함
저자가 선호하는 아이디어는 신뢰성이 다소 향상되면 서로 연결된 자체 하위 에이전트를 가진 다른 전문 에이전트를 지시할 수 있는 다양한 수준의 계층 구조에서 여러 계획 에이전트를 두는 것임
우리는 추론, 반복을 위한 모듈을 추가하고, 영구 및 무작위 액세스 메모리를 추가하며, 심지어 물리적 세계에 대한 이해를 제공할 수 있음
- 이 시점에서 동물에서 얻는 것과 같은 방식으로 LLM에서 의식의 근사치를 얻을 수 있을 것 같지만, 과연 그럴까?
- 분포를 벗어나면서 우리가 필요로 하는 것을 모방하는 매우 설득력 있는 통계 모델로 끝날 수도 있음
이것이 저자가 LLM을 퍼지 프로세서(Fuzzy Processor)라고 부르는 이유이며, "LLM이 되는 것이 어떤 것인가"와 같은 질문의 끝이 순환 대화로 끝나는 이유임
오늘날 우리가 가진 것이 기적적이지 않다는 어떤 징후로도 받아들여서는 안 됨
- 비터 레슨(Bitter Lesson)이 AGI까지 모두 외삽되지 않을 것이라고 생각한다고 해서 우리가 이미 가진 결실이 대단하지 않다는 의미는 아님
저자는 LLM이 보는 데이터에서 "학습"한다고 확신함
- 단순한 압축기도 앵무새도 아님
- 학습 데이터셋이나 프롬프트의 서로 다른 부분에서 뉘앙스 있는 데이터를 연결하고 지능적인 응답을 제공할 수 있음
토마스 네이글(Thomas Nagel)은 아마도 LLM이 되는 것이 어떤 것인지에 대한 질문을 했을 것임
- 포유류로서 박쥐는 LLM보다 우리에게 더 가까우며, 그들의 내부가 우리에게 흐릿하다면 새로운 모델의 내부 기능을 이해할 가능성은 얼마나 될까?
- 아니면 반대로, LLM에서는 모든 가중치와 회로를 자유롭게 검사할 수 있기 때문에 우리가 사용하는 이러한 모델에 대해 어떤 수준의 통찰력을 가질 수 있을까?
이것이 저자가 공식적으로 총알을 물 용의가 있는 이유임
- 충분히 확장된 통계는 학습 데이터의 분포 내에서 지능과 구별할 수 없음
- 모든 것에 대해서도, 모든 것을 할 만큼 충분하지도 않지만, 신기루도 아님
- 그렇기 때문에 성공보다는 테스트에서의 실수가 진단에 훨씬 더 유용함
LLM이 무엇이든 할 수 있는 기계라면, 결국 대부분의 일을 할 수 있어야 함
- 많은 자극과 찌르기를 통해서 가능함
- 바흐나 폰 노이만의 천재성에 영감을 주지는 못하겠지만, 보다 평범하지만 중요성이 떨어지지 않는 혁신과 발견은 가능함
- 그리고 의식이나 도덕적 인격을 필요로 하지 않고도 그렇게 할 수 있음
- 쿤(Kuhn)이 말한 패러다임 내의 도약을 자동화하거나 빠르게 진행할 수 있다면, 패러다임 사이를 자유롭게 도약할 수 있게 됨

▲

neo 17일전 [-]

Hacker News 의견

요약:

현재 LLM(대형 언어 모델)은 Wordle이나 Rule 110과 같은 셀룰러 오토마타 예측 등 인간에게는 쉽지만 LLM에게는 어려운 (또는 불가능할 수도 있는) 문제들이 존재함. 그 이유는 아직 완전히 밝혀지지 않음.
프롬프트에 예시와 단계별 지침을 제공하는 것은 LLM 스스로 "추론 단계"를 파악하는 것이 아니라 사용자가 그것을 LLM에 건네주는 것임. 우리는 지능적이지만 근본적인 한계에 부딪히는 것 같은 "추론 기계"를 가지고 있음.
현재의 Attention 메커니즘을 사용하는 더 큰 모델과 더 나은 프롬프팅으로 AGI를 달성할 수 있을지는 불분명함. Attention은 매우 경직된 반면 인간의 뇌는 항상 시냅스 가소성을 겪고 있음. AGI가 가능한 더 유연한 아키텍처가 존재할 수 있지만, 우리는 아직 그것을 모름.
현재로서는 계산 문제에 대한 올바른 답과 잘못된 답을 신중하게 구성하고, 모델이 적절하게 응답하도록 프라이밍하며, 외부 가드레일을 많이 적용하는 등 현재 AI 모델을 사용하려면 긴 프롬프트를 신중하게 구성해야 함.
Attention은 "목표 표류"로 고통받는 것 같아서 모든 외부 지지대 없이는 신뢰성을 확보하기 어려움.
LLM의 한계를 이론적으로 정량화하려면 현재 할 수 없는 것들의 경험적 증거 목록이 아니라 이론적 결과에 의존해야 할 것임. 관련 문헌에서는 "expressibility"라는 용어를 찾아볼 수 있음.
숫자 표기 규칙 같은 간단한 규칙조차도 많은 예제에서 실패하고, 프롬프트를 어떻게 구성해도 제대로 동작하지 않는 경우가 많음. 놀랍지만 여전히 많은 제한이 있음.
"흥미로운 사실을 언급하되 흥미롭다고 말하지 말라"는 지시를 제대로 따르지 못하는 등 특정 행동을 하지 말라고 지시받는 것이 서툰 편임. 오히려 하지 말라고 하면 할 가능성이 높아짐.
LLM이 "추론"한다고 가정하더라도 세계에 대해서가 아니라 문서에 포함된 사실, 개체, 인과관계에 비추어 환각에 대처하는 Agentic AI를 구축함. 또한 매우 큰 토큰 거리로 교차 추론에 대처함.
사람 간의 관계, 원한, 동맹 등의 이차 복잡성을 잘 처리해야 하는 필요성이 더 높은 수준의 지능으로 이어졌다고 생각됨.
Wordl/Sudoku 같은 일부 "절대 못하는" 것들은 텍스트 표현의 아티팩트일 뿐이며, 다른 도메인으로 변환하면 동일한 Transformer 아키텍처를 사용해도 성공률이 훨씬 높아질 것임.
모든 도메인에 맞춤형 AGI를 만들 필요는 없고, 문제를 분해하여 전문 도구에 할당한 다음 재조립하여 답을 만들 수 있을 만큼 잘 추론할 수 있는 에이전트와 모델/도구 카탈로그만 있으면 됨.

답변달기