Differential Transformer

▲

GN⁺ 2024-10-09 | parent | ★ favorite | on: Differential Transformer(arxiv.org)

Hacker News 의견

일반적인 softmax 주의 메커니즘이 관련 없는 정보에 대해 0에 가까운 주의 가중치를 할당하는 데 어려움을 겪음. 새로운 방법은 이를 해결하지만 음의 주의 가중치가 생길 수 있는 가능성도 있음. 네트워크가 이를 어떻게 해결하는지 이해하기 어려움
이와 같은 세부적인 작업이 매우 흥미로움. 변화가 작아 다른 사람들이 쉽게 적용할 수 있음. 그러나 "2 Differential Transformer" 섹션의 마지막 문장이 명확하지 않아 비교에 영향을 줄 수 있음
머신러닝의 새로운 세계에서 왜 이런 방법이 효과적인지 혼란스러움. 소음 제거 헤드폰의 비유는 도움이 되지만, 여기서는 신호와 소음을 명확히 구분할 수 없음
Differential attention은 두 개의 softmax 주의 기능의 차이를 이용해 주의 소음을 제거함. 이 아키텍처는 더 높은 품질의 모델을 위해 두 배의 주의 메모리를 사용하거나 비슷한 품질에서 더 적은 파라미터를 사용함
- 6.8B 크기의 DIFF Transformer가 11B 크기의 Transformer와 비슷한 검증 손실을 달성하며, 파라미터는 62.2%만 필요함
- 파라미터가 60%만 있으면 전통적인 transformer와 비슷한 메모리 프로파일을 유지할 수 있는지 궁금함
- 훈련과 추론 사이에 이러한 트레이드오프가 눈에 띄게 변하는지 궁금함
두 그룹의 주의가 같은 것을 학습하면 주의 마스크가 서로 빼져서 주의가 0으로 떨어지고 손실이 높아짐. 손실을 줄이려면 다른 것을 학습해야 함. 한 그룹은 관련된 맥락에, 다른 그룹은 관련 없는 맥락에 집중하는 전략을 학습함
λᵢₙᵢₜ = 0.8 − 0.6 × exp(−0.3 · (l − 1)) 설정이 실험적으로 잘 작동함. 이 공식의 배경이 궁금함
위치 소음이 제거되는 것이 얼마나 가치가 있는지 궁금함. alibi 버전과 alibi 기준선의 비교표를 보고 싶음. 연구자들에게 축하를 보냄
여기서 무엇이 손실되는지 궁금함. 창의성이나 개념 간의 보간 능력에 어떤 영향이 있는지 궁금함. 환각과 창의성이 매우 관련이 있다고 느낌
문제 해결은 좋지만 접근 방식이 잘못되었다고 생각함. 계층적인 방식으로 전체 맥락을 파악해야 함. 주의 벡터와 동일한 입력으로 차이 벡터를 계산하면 주의 벡터를 올바르게 수정하는 방법을 알 수 없음
softmax가 값을 0으로 밀어낼 수 없지만, 두 개의 softmax 맵을 빼면 0을 출력할 수 있는 것인지 궁금함