1P by neo 1달전 | favorite | 댓글 1개
  • Transformer는 종종 관련 없는 문맥에 과도한 주의를 할당하는 경향이 있음.

  • Diff Transformer는 관련 문맥에 대한 주의를 증폭시키고 잡음을 제거하는 새로운 접근법을 제안함.

  • 차별적 주의 메커니즘

    • 두 개의 별도 소프트맥스 주의 맵의 차이를 통해 주의 점수를 계산함.
    • 이 차감은 잡음을 제거하고 희소한 주의 패턴의 출현을 촉진함.
  • 실험 결과

    • 언어 모델링 실험에서 Diff Transformer는 다양한 모델 크기와 학습 토큰 설정에서 Transformer보다 우수한 성능을 보임.
    • 실용적인 응용에서 장문맥 모델링, 핵심 정보 검색, 환각 완화, 문맥 내 학습, 활성화 이상치 감소 등에서 주목할 만한 이점을 제공함.
  • 실용적 이점

    • 관련 없는 문맥에 덜 방해받아 질문 응답 및 텍스트 요약에서 환각을 완화할 수 있음.
    • 문맥 내 학습에서 정확도를 향상시킬 뿐만 아니라, 순서 변환에 대한 강건성도 높임.
  • 결론

    • Diff Transformer는 대형 언어 모델을 발전시키기 위한 매우 효과적이고 유망한 아키텍처로 자리매김함.

GN⁺의 정리

  • Diff Transformer는 Transformer의 한계를 극복하기 위해 제안된 새로운 아키텍처로, 관련 문맥에 대한 주의를 증폭시키고 불필요한 잡음을 제거하는 데 중점을 둠.
  • 이 연구는 대형 언어 모델의 성능을 향상시키고, 특히 장문맥 모델링과 같은 실용적인 응용에서의 이점을 강조함.
  • 관련 없는 문맥에 덜 방해받아 환각을 완화하고, 문맥 내 학습의 정확도와 강건성을 높이는 데 기여함.
Hacker News 의견
  • 일반적인 softmax 주의 메커니즘이 관련 없는 정보에 대해 0에 가까운 주의 가중치를 할당하는 데 어려움을 겪음. 새로운 방법은 이를 해결하지만 음의 주의 가중치가 생길 수 있는 가능성도 있음. 네트워크가 이를 어떻게 해결하는지 이해하기 어려움

  • 이와 같은 세부적인 작업이 매우 흥미로움. 변화가 작아 다른 사람들이 쉽게 적용할 수 있음. 그러나 "2 Differential Transformer" 섹션의 마지막 문장이 명확하지 않아 비교에 영향을 줄 수 있음

  • 머신러닝의 새로운 세계에서 왜 이런 방법이 효과적인지 혼란스러움. 소음 제거 헤드폰의 비유는 도움이 되지만, 여기서는 신호와 소음을 명확히 구분할 수 없음

  • Differential attention은 두 개의 softmax 주의 기능의 차이를 이용해 주의 소음을 제거함. 이 아키텍처는 더 높은 품질의 모델을 위해 두 배의 주의 메모리를 사용하거나 비슷한 품질에서 더 적은 파라미터를 사용함

    • 6.8B 크기의 DIFF Transformer가 11B 크기의 Transformer와 비슷한 검증 손실을 달성하며, 파라미터는 62.2%만 필요함
    • 파라미터가 60%만 있으면 전통적인 transformer와 비슷한 메모리 프로파일을 유지할 수 있는지 궁금함
    • 훈련과 추론 사이에 이러한 트레이드오프가 눈에 띄게 변하는지 궁금함
  • 두 그룹의 주의가 같은 것을 학습하면 주의 마스크가 서로 빼져서 주의가 0으로 떨어지고 손실이 높아짐. 손실을 줄이려면 다른 것을 학습해야 함. 한 그룹은 관련된 맥락에, 다른 그룹은 관련 없는 맥락에 집중하는 전략을 학습함

  • λᵢₙᵢₜ = 0.8 − 0.6 × exp(−0.3 · (l − 1)) 설정이 실험적으로 잘 작동함. 이 공식의 배경이 궁금함

  • 위치 소음이 제거되는 것이 얼마나 가치가 있는지 궁금함. alibi 버전과 alibi 기준선의 비교표를 보고 싶음. 연구자들에게 축하를 보냄

  • 여기서 무엇이 손실되는지 궁금함. 창의성이나 개념 간의 보간 능력에 어떤 영향이 있는지 궁금함. 환각과 창의성이 매우 관련이 있다고 느낌

  • 문제 해결은 좋지만 접근 방식이 잘못되었다고 생각함. 계층적인 방식으로 전체 맥락을 파악해야 함. 주의 벡터와 동일한 입력으로 차이 벡터를 계산하면 주의 벡터를 올바르게 수정하는 방법을 알 수 없음

  • softmax가 값을 0으로 밀어낼 수 없지만, 두 개의 softmax 맵을 빼면 0을 출력할 수 있는 것인지 궁금함