GN⁺ 2024-10-09 | parent | ★ favorite | on: Differential Transformer(arxiv.org)
Hacker News 의견
  • 일반적인 softmax 주의 메커니즘이 관련 없는 정보에 대해 0에 가까운 주의 가중치를 할당하는 데 어려움을 겪음. 새로운 방법은 이를 해결하지만 음의 주의 가중치가 생길 수 있는 가능성도 있음. 네트워크가 이를 어떻게 해결하는지 이해하기 어려움

  • 이와 같은 세부적인 작업이 매우 흥미로움. 변화가 작아 다른 사람들이 쉽게 적용할 수 있음. 그러나 "2 Differential Transformer" 섹션의 마지막 문장이 명확하지 않아 비교에 영향을 줄 수 있음

  • 머신러닝의 새로운 세계에서 왜 이런 방법이 효과적인지 혼란스러움. 소음 제거 헤드폰의 비유는 도움이 되지만, 여기서는 신호와 소음을 명확히 구분할 수 없음

  • Differential attention은 두 개의 softmax 주의 기능의 차이를 이용해 주의 소음을 제거함. 이 아키텍처는 더 높은 품질의 모델을 위해 두 배의 주의 메모리를 사용하거나 비슷한 품질에서 더 적은 파라미터를 사용함

    • 6.8B 크기의 DIFF Transformer가 11B 크기의 Transformer와 비슷한 검증 손실을 달성하며, 파라미터는 62.2%만 필요함
    • 파라미터가 60%만 있으면 전통적인 transformer와 비슷한 메모리 프로파일을 유지할 수 있는지 궁금함
    • 훈련과 추론 사이에 이러한 트레이드오프가 눈에 띄게 변하는지 궁금함
  • 두 그룹의 주의가 같은 것을 학습하면 주의 마스크가 서로 빼져서 주의가 0으로 떨어지고 손실이 높아짐. 손실을 줄이려면 다른 것을 학습해야 함. 한 그룹은 관련된 맥락에, 다른 그룹은 관련 없는 맥락에 집중하는 전략을 학습함

  • λᵢₙᵢₜ = 0.8 − 0.6 × exp(−0.3 · (l − 1)) 설정이 실험적으로 잘 작동함. 이 공식의 배경이 궁금함

  • 위치 소음이 제거되는 것이 얼마나 가치가 있는지 궁금함. alibi 버전과 alibi 기준선의 비교표를 보고 싶음. 연구자들에게 축하를 보냄

  • 여기서 무엇이 손실되는지 궁금함. 창의성이나 개념 간의 보간 능력에 어떤 영향이 있는지 궁금함. 환각과 창의성이 매우 관련이 있다고 느낌

  • 문제 해결은 좋지만 접근 방식이 잘못되었다고 생각함. 계층적인 방식으로 전체 맥락을 파악해야 함. 주의 벡터와 동일한 입력으로 차이 벡터를 계산하면 주의 벡터를 올바르게 수정하는 방법을 알 수 없음

  • softmax가 값을 0으로 밀어낼 수 없지만, 두 개의 softmax 맵을 빼면 0을 출력할 수 있는 것인지 궁금함