어텐션 시각화, Transformer의 심장부 [영상]

3Blue1Brown의 "But what is a GPT?" 동영상이 Transformer 모델의 Attention 메커니즘을 명확하게 설명함. 특히 Query와 Key의 행렬곱 연산이 어떻게 병목이 되는지 잘 보여줌.
Ring Attention이라는 새로운 아이디어가 이 병목 문제를 개선하는 좋은 방법임. 관련 자료로 "How to Build a 10M+ Token Context" 글이 추천됨.
3Blue1Brown의 신경망 관련 동영상들이 연속성을 가지고 있어서 함께 보면 좋음. Neural Networks 토픽 페이지에서 확인 가능.
Attention 메커니즘은 특정 함수라기보다는 일종의 메타 함수에 가까움. Attention과 학습된 가중치의 조합으로 Transformer가 유사-임의의 함수를 학습할 수 있게 해줌.
소설 끝부분의 "was" 토큰 예시가 non-technical한 사람들도 이해하기 쉬운 훌륭한 설명임. (동영상 3:58 - 4:28 부분)
Value 행렬의 low-rank 분해를 사용하는 것이 Value+Output 행렬을 사용하는 것보다 직관적임.
Grant Sanderson(3Blue1Brown)이 복잡한 주제를 항상 명료하고 이해하기 쉽게 설명하는 것이 놀라움. 이 동영상을 보기 전까지는 Transformer를 완전히 이해하지 못했음.