GN⁺: 자기 주의를 넘어서: 소형 언어 모델이 다음 토큰을 예측하는 방법
(shyam.blog)소개
- 이 글은 소규모 언어 모델이 다음 토큰을 예측하는 방법에 대한 탐구를 다룸.
- 트랜스포머 모델의 자기 주의(self-attention) 메커니즘에 초점을 맞추는 대신, 주의 계산 결과가 어떻게 정확한 다음 토큰 예측으로 전환되는지에 대한 설명을 제공함.
- 저자는 작동하는 소규모 트랜스포머를 통해 내부 상태를 검토하고, 6개월에 걸친 깊은 탐구를 통해 가치 있는 결과를 공유함.
트랜스포머 블록 구조
- 트랜스포머 블록은 다중 헤드 자기 주의 계층과 피드포워드 네트워크로 구성됨.
- 피드포워드 네트워크의 출력이 블록이 입력을 출력으로 변환하는 방식을 결정하는 주요 요소임.
제안: 트랜스포머의 작동 방식
- 각 트랜스포머 블록은 주어진 프롬프트를 학습 데이터 내의 문자열 클래스와 연관 지어 가중치를 학습함.
- 이 문자열 클래스 뒤에 오는 토큰의 분포가 블록이 다음 토큰에 대한 예측으로 출력하는 내용과 대략 일치함.
구현: 피드포워드 네트워크 출력을 사용한 트랜스포머 출력 근사
- 저자는 트랜스포머의 출력을 근사하기 위해 피드포워드 네트워크 출력을 사용하는 구체적인 절차를 제시함.
- 이 절차는 모델을 통해 프롬프트를 실행하고 각 블록에 대한 피드포워드 네트워크 출력을 저장하는 것으로 시작함.
- 훈련 데이터 내에서 유사한 피드포워드 네트워크 출력을 생성하는 문자열을 찾고, 이 문자열 뒤에 오는 토큰의 빈도 분포를 구축함.
- 이러한 분포를 가중치를 적용하여 합산하고 정규화하여 최종 확률 분포를 얻음.
GN⁺의 의견
- 이 연구는 트랜스포머 모델의 내부 작동 원리에 대한 깊은 이해를 제공함. 특히 자기 주의 이후의 과정에 대한 통찰은 트랜스포머 모델의 예측 메커니즘을 이해하는 데 중요함.
- 저자의 접근 방식은 트랜스포머가 어떻게 학습 데이터의 패턴을 인식하고 이를 바탕으로 다음 토큰을 예측하는지에 대한 명확한 설명을 제공함.
- 이 글은 트랜스포머 모델을 연구하거나 개발하는 사람들에게 유용한 자료가 될 수 있으며, 인공지능 언어 처리 분야의 이해를 심화시키는 데 기여할 것임.
Hacker News 의견
-
새로운 현상에 대해 놀라지 말 것. 이미 정립된 이론을 읽지 않으면, 자연스럽게 발생하는 현상에 대해 혼란스러울 수 있음.
- 실험은 철저하게 보이며, 세부 사항에 대한 주의가 인상적임.
- 기존 이론을 배우는 것과 처음부터 이론을 재발견하는 것 사이의 균형이 중요함.
- 모델이 훈련 데이터에 기반하여 로그 가능도를 최대화하는 것은 당연한 결과임.
- 기초를 이해하는 것이 중요하며, 샤넌의 엔트로피 이론 등이 좋은 출발점이 될 수 있음.
-
구글이 ChatGPT에 같은 단어를 반복하게 하면 훈련 데이터를 그대로 내뱉는다는 점을 지적한 후, 이를 실제로 구현한 사람이 있다는 것에 대해 긍정적인 반응.
- 이로 인해 추가적인 질문이 제기됨:
- 'AI 없는 AI' 접근법이 기존의 모델 압축 방식보다 에너지 효율적인가?
- 이 결과가 OpenAI와 Stability AI에 대한 소송에 증거로 사용될 수 있는가?
- 이로 인해 추가적인 질문이 제기됨:
-
주의력(Attention)과 FF(Feed Forward) 네트워크가 같은 방향을 가리키는 현상에 대해 놀람을 표함.
- FF 네트워크가 임의의 회전을 할 수 있음에도 불구하고, 여러 계층에서 같은 잠재 공간에 있을 것이라고는 예상하지 못함.
-
Andrej Karpathy의 NanoGPT 튜토리얼을 따라 작은 모델을 훈련시켰을 때, 복잡한 러시아어 문법을 어느 정도 이해하는 것으로 보임.
- 모델은 완벽하지 않지만, 3분의 훈련만으로 복잡한 규칙을 유추할 수 있었음.
-
LLM이 마르코프 체인 텍스트 생성기인지에 대한 질문.
- 만약 그렇다면, 원본 훈련 데이터를 사용하여 유사한 성능의 마르코프 체인을 구축할 수 있을지에 대한 의문 제기.
-
연구된 모델은 실제로는 단순한 장난감 모델로, 더 간단한 모델로도 근사화할 수 있음.
- 그러나 이 모델이 더 큰 LLM의 작동 방식을 대표하지는 않을 수 있음.
-
저자가 주장하는 바를 정확히 이해하기 어려움.
- '근사화가 작동하는 이유' 섹션을 여러 번 읽었지만, 단지 트랜스포머의 단계적 설명처럼 느껴짐.
-
LLM 시스템의 3D 시각화가 유익하며, 최대한의 효과를 위해 함께 읽어야 함.
-
트랜스포머가 실제로 하는 일에 대한 이상한 게시물.
- 코드를 따라가면 트랜스포머가 무엇을 하는지 정확히 볼 수 있음.