GN⁺: 주목은 한 칸 차이로 잘못되었습니다.
(evanmiller.org)- 현대 AI의 주목 공식에는 Transformer 모델의 압축과 배포에 어려움을 초래하는 off-by-one 오류가 있습니다.
- 이 오류는 모델 내 이상치 가중치와 관련되어 있으며, 이 이상치는 동료들보다 훨씬 크기 때문에 성능 저하와 양자화에 어려움을 야기합니다.
- 버그는 어텐션 메커니즘에서 사용되는 소프트맥스 함수와 관련이 있으며, 이 함수는 이 작업에 적합하지 않습니다.
- 제안된 해결책은 소프트맥스 함수에 작은 수정을 가하는 것으로, 분모에 1을 더함으로써 어텐션 헤드가 정보를 추가할 수 없을 때 "아무 말도 하지 않도록" 합니다.
- 이 수정인 Softmax Super-Mod 또는 QuietAttention은 이상치 피드백 루프를 해결하고 양자화를 개선할 것으로 예상됩니다.
- 실험을 통해 이 해결책의 효과를 검증하기 위해 입력 컨텍스트에 0 벡터를 접두어로 추가하고 가중치 첨도와 활성화 무한 노름을 관찰할 수 있습니다.
- 저자는 이 해결책을 더 탐구하고 검증하기 위해 협력과 실험을 초대합니다.
Hacker News 의견
- 소프트맥스의 분모에 1을 더하는 것을 제안하는 저자
- 이 변경은 네트워크가 높은 또는 낮은 가중치를 제공하여 어떤 것에 대한 높은 신뢰도를 선택하지 않을 수 있게 합니다.
- 일부 댓글러들은 이 변경의 중요성을 의심하며 비슷한 기교가 이전에 사용되었다고 제안합니다.
- 다른 사람들은 이 기사의 비학문적인 톤과 새로운 아이디어를 탐구하는 의지를 칭찬합니다.
- 한 댓글러는 처음에 다른 사람들에 의해 무시되었던 인기 알고리즘의 오류를 발견한 개인적인 경험을 공유합니다.
- 다른 댓글러는 저자가 실제 문제를 파악하고 간단한 해결책을 제안한 점을 칭찬합니다.
- 그러나 그들은 이 해결책이 이상치 피드백 루프를 해결할 것이라는 주장에 대해 더 많은 증거와 설명을 제공할 것을 저자에게 요구합니다.
- 일부 댓글러들은 제안된 해결책을 검증하기 위해 추가 실험과 세부 조정이 필요하다고 제안합니다.
- 한 댓글러는 2020년 논문을 언급하며 양자화 문제를 해결할 수 있는 다른 어텐션 공식을 제안합니다.
- 분모에 1을 더하는 이 방법은 더미 토큰 사용이 흔해지기 전에 자주 사용되었다는 것이 언급되었습니다.
- 일부 댓글러들은 저자의 톤을 비판하며 연구 커뮤니티에서 이 기술에 대한 인식 부족에 놀라움을 표현합니다.