자기 주의를 넘어서: 소형 언어 모델이 다음 토큰을 예

▲

GN⁺ 2024-02-05 | parent | ★ favorite | on: 자기 주의를 넘어서: 소형 언어 모델이 다음 토큰을 예측하는 방법(shyam.blog)

Hacker News 의견

새로운 현상에 대해 놀라지 말 것. 이미 정립된 이론을 읽지 않으면, 자연스럽게 발생하는 현상에 대해 혼란스러울 수 있음.
- 실험은 철저하게 보이며, 세부 사항에 대한 주의가 인상적임.
- 기존 이론을 배우는 것과 처음부터 이론을 재발견하는 것 사이의 균형이 중요함.
- 모델이 훈련 데이터에 기반하여 로그 가능도를 최대화하는 것은 당연한 결과임.
- 기초를 이해하는 것이 중요하며, 샤넌의 엔트로피 이론 등이 좋은 출발점이 될 수 있음.
구글이 ChatGPT에 같은 단어를 반복하게 하면 훈련 데이터를 그대로 내뱉는다는 점을 지적한 후, 이를 실제로 구현한 사람이 있다는 것에 대해 긍정적인 반응.
- 이로 인해 추가적인 질문이 제기됨:
  1. 'AI 없는 AI' 접근법이 기존의 모델 압축 방식보다 에너지 효율적인가?
  2. 이 결과가 OpenAI와 Stability AI에 대한 소송에 증거로 사용될 수 있는가?
주의력(Attention)과 FF(Feed Forward) 네트워크가 같은 방향을 가리키는 현상에 대해 놀람을 표함.
- FF 네트워크가 임의의 회전을 할 수 있음에도 불구하고, 여러 계층에서 같은 잠재 공간에 있을 것이라고는 예상하지 못함.
Andrej Karpathy의 NanoGPT 튜토리얼을 따라 작은 모델을 훈련시켰을 때, 복잡한 러시아어 문법을 어느 정도 이해하는 것으로 보임.
- 모델은 완벽하지 않지만, 3분의 훈련만으로 복잡한 규칙을 유추할 수 있었음.
LLM이 마르코프 체인 텍스트 생성기인지에 대한 질문.
- 만약 그렇다면, 원본 훈련 데이터를 사용하여 유사한 성능의 마르코프 체인을 구축할 수 있을지에 대한 의문 제기.
연구된 모델은 실제로는 단순한 장난감 모델로, 더 간단한 모델로도 근사화할 수 있음.
- 그러나 이 모델이 더 큰 LLM의 작동 방식을 대표하지는 않을 수 있음.
저자가 주장하는 바를 정확히 이해하기 어려움.
- '근사화가 작동하는 이유' 섹션을 여러 번 읽었지만, 단지 트랜스포머의 단계적 설명처럼 느껴짐.
LLM 시스템의 3D 시각화가 유익하며, 최대한의 효과를 위해 함께 읽어야 함.
트랜스포머가 실제로 하는 일에 대한 이상한 게시물.
- 코드를 따라가면 트랜스포머가 무엇을 하는지 정확히 볼 수 있음.