"Attention is all you need" 논문

▲

GN⁺ 6달전 | parent | ★ favorite | on: "Attention is all you need" 논문의 공동 저자, 이제 트랜스포머에 "질렸다"고 밝혀(venturebeat.com)

Hacker News 의견

내가 보기엔 transformer는 최근 역사에서 가장 생산적인 발명 중 하나였음
2017년에 처음 등장한 이후 8년 만에 여러 분야를 완전히 바꿔놓았고, 심지어 노벨상 수상에도 일부 기여했음
본질적으로 중요한 아이디어는 확률 그래픽 모델(probabilistic graphical model) 이라 생각함. 확률을 시퀀스, 트리, 그래프와 결합하는 접근은 앞으로도 연구 가치가 높을 것이라 봄
- 솔직히 말해, 아키텍처 자체에서 큰 돌파구가 나올 거라 생각하진 않음
  transformer는 이미 매우 뛰어난 보편 근사자(universal approximator) 임. 약간의 개선은 가능하겠지만, 더 ‘보편적’인 걸 찾기란 현실적으로 어려움
  오히려 auto-regressive task, cross entropy loss, gradient descent 자체를 다시 생각해볼 필요가 있다고 봄
- 어떤 분야들이 완전히 변했다는 건지 궁금함
  내 분야에도 영향은 있었지만, 솔직히 말하면 그 영향은 거의 부정적이었음
- 예전에 확률 그래픽 모델을 많이 썼던 입장으로서, transformer 시대에 내 경험이 다시 가치 있게 쓰이길 바람
  하지만 아직은 그런 조짐이 안 보임. 그래도 희망은 있음
- 나도 개인적으로 확률적 하이퍼그래프 모델을 구상해둔 게 있음
  아직 논문으로 정리하진 않았지만, 이 아이디어로 수렴하는 움직임이 곳곳에서 보임
  하루에 시간이 더 많았으면 좋겠음
- 동의함. 인과 추론(causal inference) 과 상징적 추론(symbolic reasoning) 이야말로 transformer 이후의 진짜 과제라고 생각함
Sakana AI의 공동창업자이자 CTO인 Jones가 transformer에서 손을 떼고 “다음 큰 것”을 찾고 있다고 말했는데, 솔직히 투자 유치용 홍보처럼 들림
- “Attention is all he needs”라는 말이 딱 어울림
- 그래도 새로운 걸 하고 싶다면 자금이 필요하니, 둘 다 사실일 수도 있음
- 과학자라면 원래 새롭고 창의적인 것을 찾아 헤매는 법임
- 어쨌든 그의 말에 우리가 attention을 주긴 했음
- 그런데, 도대체 그들이 지금 무엇을 팔려는 건지 궁금함
농담처럼 말하자면, 2024년에 특이점(singularity) 이 올 줄 알았는데, “수익화”와 “자기 개선” 사이의 시간차 때문에 멈춰버린 느낌임
transformer 모델에서 모든 돈이 짜낼 때까지 20년은 더 머물 것 같음
- 지금 하드웨어와 에너지 인프라가 엄청나게 확장되고 있음
  transformer 전용은 아니니, 오히려 이 인프라를 최대한 활용할 새로운 아키텍처를 찾으려는 유인이 생길 것임
- 어쩌면 이미 자기 개선(recursive self-improvement) 이 진행 중일 수도 있음
  단지 인간이 인식할 만큼 빠르지 않을 뿐임
대부분의 사람에게 “AI”란 결국 눈에 보이는 소프트웨어 제품임
하지만 그중 핵심 모델은 일부일 뿐이고, 나머지는 수천 명의 저임금 인력이 휴먼 피드백으로 다듬는 과정임
실제로는 제품 개발이 90% , ML 연구는 10% 에 불과함
논문 대부분은 박사 학위를 따기 위한 커리어용 연구이고, 진짜 실험적 연구는 소수에 불과함
transformer가 GPU에 너무 잘 맞게 설계되어 있어서, 새로운 모델을 만들려면 하드웨어 제조사까지 설득해야 하는 상황임
결국 하드웨어와 소프트웨어의 동시적 진화가 필요함
근본적인 변화는 수십 년 단위로 일어날 것임
- 하지만 이건 거꾸로 생각한 것임
  병렬화 가능한 알고리즘이 본질적으로 우월하기 때문에 GPU가 그에 맞춰 발전한 것임
  RNN은 순차적이라 병렬화가 어렵지만, transformer는 그 병목을 제거했음
transformer 기반이 아닌 연구도 여전히 활발하다고 느낌
다만 챗봇형 CRM에 돈이 몰리다 보니 덜 보일 뿐임
새로운 아키텍처가 해답이라고는 생각하지 않음. 오히려 데이터 효율성을 높이는 방법이 중요함
Ilya Sutskever도 “인터넷 전체가 없어도 괜찮은 학습법”을 강조했음
- 기사에서 말한 건 “새 아키텍처가 해답”이 아니라, 탐색과 활용의 균형이 깨졌다는 지적임
- 새 아키텍처 논의는 사실 AGI를 위한 이야기임
  인간처럼 학습하려면 단순히 인터넷 데이터를 먹이는 방식과는 달라야 함
- 2017년 이전 연구자들 대부분이 이제 transformer에 집중하고 있음
  연구자 수는 늘었지만, 비-transformer 연구 비율은 오히려 줄었을 것임
마지막 부분의 em dash(—) 가 너무 많아서, 이 글은 transformer가 쓴 것 같다는 농담을 함
- 다음 AI 유행은 “disrupters”가 될지도 모름
transformer가 모든 관심과 자금을 빨아들였음
연구자들도 transformer 산업에 흡수된 상태임
큰 한계에 부딪히기 전까지는 이 상태가 계속될 것 같음
에너지 소비가 진짜 한계가 되어 연구 방향을 바꾸길 바람
- 실제로 에너지가 곧 병목이 될 수 있음
  xAI는 데이터센터 주변에 가스 터빈을 설치해 전력을 해결했지만, 지역 주민의 건강 문제를 일으켰음
  이런 방식은 곧 규제될 것이라 봄
사람들은 새로운 모델 아키텍처 혁신에 너무 집착하는 경향이 있음
모델은 결국 데이터 압축 표현을 만드는 도구일 뿐임
더 효율적인 압축을 해도 능력이 크게 달라지진 않음
오히려 훈련 효율성을 높이는 게 중요함. 요즘 강화학습(RL) 이 그 예임
- 하지만 훈련 효율성은 결국 아키텍처와 연결되어 있음
  새로운 구조를 탐색하는 건 과도한 집착이 아니라, 탐색과 활용의 균형을 맞추는 일임
transformer 중심의 산업 구조가 GPU/NPU의 계산 편의성에 의해 형성된 게 아닐까 생각함
더 나은 AI 기술이 존재할 수도 있지만, 기존 하드웨어로는 계산 비용이 너무 클 수 있음
우리의 뇌는 500와트를 쓰지 않는데, 그게 힌트일지도 모름