자기 주의를 넘어서: 소형 언어 모델이 다음 토큰을 예측하는 방법

(shyam.blog)

2P by GN⁺ 2024-02-05 | ★ favorite | 댓글 1개

소개

이 글은 소규모 언어 모델이 다음 토큰을 예측하는 방법에 대한 탐구를 다룸.
트랜스포머 모델의 자기 주의(self-attention) 메커니즘에 초점을 맞추는 대신, 주의 계산 결과가 어떻게 정확한 다음 토큰 예측으로 전환되는지에 대한 설명을 제공함.
저자는 작동하는 소규모 트랜스포머를 통해 내부 상태를 검토하고, 6개월에 걸친 깊은 탐구를 통해 가치 있는 결과를 공유함.

트랜스포머 블록 구조

트랜스포머 블록은 다중 헤드 자기 주의 계층과 피드포워드 네트워크로 구성됨.
피드포워드 네트워크의 출력이 블록이 입력을 출력으로 변환하는 방식을 결정하는 주요 요소임.

제안: 트랜스포머의 작동 방식

각 트랜스포머 블록은 주어진 프롬프트를 학습 데이터 내의 문자열 클래스와 연관 지어 가중치를 학습함.
이 문자열 클래스 뒤에 오는 토큰의 분포가 블록이 다음 토큰에 대한 예측으로 출력하는 내용과 대략 일치함.

구현: 피드포워드 네트워크 출력을 사용한 트랜스포머 출력 근사

저자는 트랜스포머의 출력을 근사하기 위해 피드포워드 네트워크 출력을 사용하는 구체적인 절차를 제시함.
이 절차는 모델을 통해 프롬프트를 실행하고 각 블록에 대한 피드포워드 네트워크 출력을 저장하는 것으로 시작함.
훈련 데이터 내에서 유사한 피드포워드 네트워크 출력을 생성하는 문자열을 찾고, 이 문자열 뒤에 오는 토큰의 빈도 분포를 구축함.
이러한 분포를 가중치를 적용하여 합산하고 정규화하여 최종 확률 분포를 얻음.

GN⁺의 의견

이 연구는 트랜스포머 모델의 내부 작동 원리에 대한 깊은 이해를 제공함. 특히 자기 주의 이후의 과정에 대한 통찰은 트랜스포머 모델의 예측 메커니즘을 이해하는 데 중요함.
저자의 접근 방식은 트랜스포머가 어떻게 학습 데이터의 패턴을 인식하고 이를 바탕으로 다음 토큰을 예측하는지에 대한 명확한 설명을 제공함.
이 글은 트랜스포머 모델을 연구하거나 개발하는 사람들에게 유용한 자료가 될 수 있으며, 인공지능 언어 처리 분야의 이해를 심화시키는 데 기여할 것임.

▲

GN⁺ 2024-02-05 [-]

Hacker News 의견

새로운 현상에 대해 놀라지 말 것. 이미 정립된 이론을 읽지 않으면, 자연스럽게 발생하는 현상에 대해 혼란스러울 수 있음.
- 실험은 철저하게 보이며, 세부 사항에 대한 주의가 인상적임.
- 기존 이론을 배우는 것과 처음부터 이론을 재발견하는 것 사이의 균형이 중요함.
- 모델이 훈련 데이터에 기반하여 로그 가능도를 최대화하는 것은 당연한 결과임.
- 기초를 이해하는 것이 중요하며, 샤넌의 엔트로피 이론 등이 좋은 출발점이 될 수 있음.
구글이 ChatGPT에 같은 단어를 반복하게 하면 훈련 데이터를 그대로 내뱉는다는 점을 지적한 후, 이를 실제로 구현한 사람이 있다는 것에 대해 긍정적인 반응.
- 이로 인해 추가적인 질문이 제기됨:
  1. 'AI 없는 AI' 접근법이 기존의 모델 압축 방식보다 에너지 효율적인가?
  2. 이 결과가 OpenAI와 Stability AI에 대한 소송에 증거로 사용될 수 있는가?
주의력(Attention)과 FF(Feed Forward) 네트워크가 같은 방향을 가리키는 현상에 대해 놀람을 표함.
- FF 네트워크가 임의의 회전을 할 수 있음에도 불구하고, 여러 계층에서 같은 잠재 공간에 있을 것이라고는 예상하지 못함.
Andrej Karpathy의 NanoGPT 튜토리얼을 따라 작은 모델을 훈련시켰을 때, 복잡한 러시아어 문법을 어느 정도 이해하는 것으로 보임.
- 모델은 완벽하지 않지만, 3분의 훈련만으로 복잡한 규칙을 유추할 수 있었음.
LLM이 마르코프 체인 텍스트 생성기인지에 대한 질문.
- 만약 그렇다면, 원본 훈련 데이터를 사용하여 유사한 성능의 마르코프 체인을 구축할 수 있을지에 대한 의문 제기.
연구된 모델은 실제로는 단순한 장난감 모델로, 더 간단한 모델로도 근사화할 수 있음.
- 그러나 이 모델이 더 큰 LLM의 작동 방식을 대표하지는 않을 수 있음.
저자가 주장하는 바를 정확히 이해하기 어려움.
- '근사화가 작동하는 이유' 섹션을 여러 번 읽었지만, 단지 트랜스포머의 단계적 설명처럼 느껴짐.
LLM 시스템의 3D 시각화가 유익하며, 최대한의 효과를 위해 함께 읽어야 함.
트랜스포머가 실제로 하는 일에 대한 이상한 게시물.
- 코드를 따라가면 트랜스포머가 무엇을 하는지 정확히 볼 수 있음.

답변달기