FFT의 반격: Self-Attention에 대한 효율

▲

GN⁺ 2025-02-27 | parent | ★ favorite | on: FFT의 반격: Self-Attention에 대한 효율적인 대안(arxiv.org)

Hacker News 의견

기본적으로 컨볼루션 정리를 활용함: 직접 공간에서의 비싼 컨볼루션이 상호 공간에서는 간단한 곱셈이 됨
- 데이터에 컨볼루션 연산이 있을 때, 이를 곱셈으로 바꾸기 위해 켤레 도메인으로 변환함
- 즉, 데이터에 자연스러운 도메인에서 작업함
Google은 2022년에 "FNet: Mixing Tokens with Fourier Transforms"라는 아이디어를 소개함
- 나중에 그들의 TPU가 대부분의 시나리오에서 FFT보다 행렬 곱셈에서 더 빠르다는 것을 발견함
Fourier 변환은 "토큰" 차원에서 수행됨. 그러나 많은 응용에서 이 차원은 의미가 없음
- 그래서 변환기는 순열 불변 데이터를 처리하는 데 훌륭한 옵션임
- 덜 알려진 유한 그룹에 대한 Fourier 변환을 사용한 추가 실험을 보고 싶음
- 이것이 LLMs의 다음 큰 것이 된다면, 추론 엔진(vLLM, llama.cpp 등)이 이를 통합하기 얼마나 쉬울지 궁금함
수학이 너무 어려워서 이해하기 힘듦. 누군가 이게 주의 메커니즘과 어떻게 동등한지, 어떤 주파수를 말하는지, 토큰 간의 위치 관계를 어떻게 인코딩하는지 기본 영어로 설명해 줄 수 있는지 궁금함
이 프레임워크에 인과 마스킹을 어떻게 맞출 수 있을지 모르겠음. 위치 임베딩에 대한 언급도 없어서 비교되는 자기 주의 구현이 비인과적 NoPE인 것 같음
- 결과가 최첨단에 가까웠다면 아마 저자가 언급했을 것임
몇 년 전 이미 O(n log n) 전체 컨텍스트 혼합을 시연한 Hyena Operator에 대한 언급이 없음
텔레메트리 시대에 클라우드 텔레메트리에 FFT를 적용하여 드라마를 유발하기 전 에피사이클과 준안정 시스템을 찾아내지 않는 것은 큰 실수라고 생각함
- "SLA는 서비스 배포 후 23-25분 후에 가장 위반될 가능성이 높음. 왜 그런지 궁금함... 아, 안돼."
주파수 도메인에서 사물을 보는 것이 왜 도움이 되는지에 대한 직관을 가진 사람이 있는지 궁금함
- DC 항은 이해할 수 있지만 입력 데이터가 다른 주파수가 의미 있을 만큼 주기적이라고 기대하지 않음
빅 O 표기법을 어느 정도 이해하지만, 컴퓨터나 전기 공학과 관련된 대부분의 것처럼 이것도 이해하기 어려움
- 수학에 매우 약한 사람으로서 이런 것을 이해하거나 배울 수 있는 사람들을 부러워함
- FFT에 대해 아는 것은 신호를 변화시키고, 어떤 신호 처리에 사용되며, 과거에 핵 폭발을 감지하는 데 중요한 역할을 했다는 것임
주의가 왜 필요한지 이해하지 못함. 완전 연결 레이어도 모든 입력에 "주의"할 수 있음
- 매우 작은 데이터셋(0 - 500 토큰)에서는 주의가 훈련을 더 오래 걸리게 하고 결과를 나쁘게 만듦
- 더 큰 데이터셋에서 이점이 나타나는 것 같음
- AI 초보자로서 개인 AI 프로젝트를 하고 있어 정확한 참고 자료는 아님