어텐션 시각화, Transformer의 심장부 [영상]

(3blue1brown.com)

뉴럴 네트워크

원본 비디오를 지원해준 아래 분들과 현재 프로젝트에 자금을 지원하고 있는 후원자들에게 특별한 감사를 전함.
이 강의가 가치 있다고 생각하면 참여를 고려해 보기 바람.
bruce obergg, regostras, Marco, Anthony Eufemio, Molly Mackinlay, Joshua Ouellette 등 다수

어텐션 메커니즘은 트랜스포머 모델의 핵심 기술로, NLP 분야 뿐 아니라 컴퓨터 비전 등 다양한 분야에서 혁신을 일으키고 있음. 이를 시각화해서 설명한다는 것은 어텐션의 작동 원리를 이해하는데 큰 도움이 될 것으로 보임.
트랜스포머 모델은 기존의 RNN 계열 모델의 한계를 극복하고 병렬 처리를 가능하게 해 성능을 크게 높였지만, 그 복잡도로 인해 해석이 어려운 블랙박스로 여겨지는 경향이 있음. 이를 시각화를 통해 설명하려는 시도는 트랜스포머에 대한 오해를 줄이고 응용 범위를 넓히는데 기여할 것임.
다만 시각화 자체가 직관적 이해에는 도움이 되겠지만 엄밀한 증명이 되기는 어려움. 시각화 결과를 해석할 때는 주의가 필요함. 또한 시각화를 위해 차원 축소 등 정보 손실이 발생할 수 있다는 점도 고려해야 함.
유사한 프로젝트로는 OpenAI의 미시적(Microscope)이 있는데, 이는 딥러닝 모델 내부의 뉴런 활성화를 시각화해주는 도구임. 3Blue1Brown과 같이 딥러닝 모델을 알기 쉽게 설명하려는 시도들이 더 많아졌으면 좋겠음.

3Blue1Brown의 "But what is a GPT?" 동영상이 Transformer 모델의 Attention 메커니즘을 명확하게 설명함. 특히 Query와 Key의 행렬곱 연산이 어떻게 병목이 되는지 잘 보여줌.
Ring Attention이라는 새로운 아이디어가 이 병목 문제를 개선하는 좋은 방법임. 관련 자료로 "How to Build a 10M+ Token Context" 글이 추천됨.
3Blue1Brown의 신경망 관련 동영상들이 연속성을 가지고 있어서 함께 보면 좋음. Neural Networks 토픽 페이지에서 확인 가능.
Attention 메커니즘은 특정 함수라기보다는 일종의 메타 함수에 가까움. Attention과 학습된 가중치의 조합으로 Transformer가 유사-임의의 함수를 학습할 수 있게 해줌.
소설 끝부분의 "was" 토큰 예시가 non-technical한 사람들도 이해하기 쉬운 훌륭한 설명임. (동영상 3:58 - 4:28 부분)
Value 행렬의 low-rank 분해를 사용하는 것이 Value+Output 행렬을 사용하는 것보다 직관적임.
Grant Sanderson(3Blue1Brown)이 복잡한 주제를 항상 명료하고 이해하기 쉽게 설명하는 것이 놀라움. 이 동영상을 보기 전까지는 Transformer를 완전히 이해하지 못했음.