Differential Transformer

(arxiv.org)

1P by GN⁺ 9달전 | ★ favorite | 댓글 1개

Transformer는 종종 관련 없는 문맥에 과도한 주의를 할당하는 경향이 있음.
Diff Transformer는 관련 문맥에 대한 주의를 증폭시키고 잡음을 제거하는 새로운 접근법을 제안함.
차별적 주의 메커니즘
- 두 개의 별도 소프트맥스 주의 맵의 차이를 통해 주의 점수를 계산함.
- 이 차감은 잡음을 제거하고 희소한 주의 패턴의 출현을 촉진함.
실험 결과
- 언어 모델링 실험에서 Diff Transformer는 다양한 모델 크기와 학습 토큰 설정에서 Transformer보다 우수한 성능을 보임.
- 실용적인 응용에서 장문맥 모델링, 핵심 정보 검색, 환각 완화, 문맥 내 학습, 활성화 이상치 감소 등에서 주목할 만한 이점을 제공함.
실용적 이점
- 관련 없는 문맥에 덜 방해받아 질문 응답 및 텍스트 요약에서 환각을 완화할 수 있음.
- 문맥 내 학습에서 정확도를 향상시킬 뿐만 아니라, 순서 변환에 대한 강건성도 높임.
결론
- Diff Transformer는 대형 언어 모델을 발전시키기 위한 매우 효과적이고 유망한 아키텍처로 자리매김함.

GN⁺의 정리

Diff Transformer는 Transformer의 한계를 극복하기 위해 제안된 새로운 아키텍처로, 관련 문맥에 대한 주의를 증폭시키고 불필요한 잡음을 제거하는 데 중점을 둠.
이 연구는 대형 언어 모델의 성능을 향상시키고, 특히 장문맥 모델링과 같은 실용적인 응용에서의 이점을 강조함.
관련 없는 문맥에 덜 방해받아 환각을 완화하고, 문맥 내 학습의 정확도와 강건성을 높이는 데 기여함.

▲

GN⁺ 9달전 [-]

Hacker News 의견

일반적인 softmax 주의 메커니즘이 관련 없는 정보에 대해 0에 가까운 주의 가중치를 할당하는 데 어려움을 겪음. 새로운 방법은 이를 해결하지만 음의 주의 가중치가 생길 수 있는 가능성도 있음. 네트워크가 이를 어떻게 해결하는지 이해하기 어려움
이와 같은 세부적인 작업이 매우 흥미로움. 변화가 작아 다른 사람들이 쉽게 적용할 수 있음. 그러나 "2 Differential Transformer" 섹션의 마지막 문장이 명확하지 않아 비교에 영향을 줄 수 있음
머신러닝의 새로운 세계에서 왜 이런 방법이 효과적인지 혼란스러움. 소음 제거 헤드폰의 비유는 도움이 되지만, 여기서는 신호와 소음을 명확히 구분할 수 없음
Differential attention은 두 개의 softmax 주의 기능의 차이를 이용해 주의 소음을 제거함. 이 아키텍처는 더 높은 품질의 모델을 위해 두 배의 주의 메모리를 사용하거나 비슷한 품질에서 더 적은 파라미터를 사용함
- 6.8B 크기의 DIFF Transformer가 11B 크기의 Transformer와 비슷한 검증 손실을 달성하며, 파라미터는 62.2%만 필요함
- 파라미터가 60%만 있으면 전통적인 transformer와 비슷한 메모리 프로파일을 유지할 수 있는지 궁금함
- 훈련과 추론 사이에 이러한 트레이드오프가 눈에 띄게 변하는지 궁금함
두 그룹의 주의가 같은 것을 학습하면 주의 마스크가 서로 빼져서 주의가 0으로 떨어지고 손실이 높아짐. 손실을 줄이려면 다른 것을 학습해야 함. 한 그룹은 관련된 맥락에, 다른 그룹은 관련 없는 맥락에 집중하는 전략을 학습함
λᵢₙᵢₜ = 0.8 − 0.6 × exp(−0.3 · (l − 1)) 설정이 실험적으로 잘 작동함. 이 공식의 배경이 궁금함
위치 소음이 제거되는 것이 얼마나 가치가 있는지 궁금함. alibi 버전과 alibi 기준선의 비교표를 보고 싶음. 연구자들에게 축하를 보냄
여기서 무엇이 손실되는지 궁금함. 창의성이나 개념 간의 보간 능력에 어떤 영향이 있는지 궁금함. 환각과 창의성이 매우 관련이 있다고 느낌
문제 해결은 좋지만 접근 방식이 잘못되었다고 생각함. 계층적인 방식으로 전체 맥락을 파악해야 함. 주의 벡터와 동일한 입력으로 차이 벡터를 계산하면 주의 벡터를 올바르게 수정하는 방법을 알 수 없음
softmax가 값을 0으로 밀어낼 수 없지만, 두 개의 softmax 맵을 빼면 0을 출력할 수 있는 것인지 궁금함

답변달기