# "Attention is all you need" 논문의 공동 저자, 이제 트랜스포머에 "질렸다"고 밝혀

> Clean Markdown view of GeekNews topic #23899. Use the original source for factual precision when an external source URL is present.

## Metadata

- GeekNews HTML: [https://news.hada.io/topic?id=23899](https://news.hada.io/topic?id=23899)
- GeekNews Markdown: [https://news.hada.io/topic/23899.md](https://news.hada.io/topic/23899.md)
- Type: GN+
- Author: [xguru](https://news.hada.io/@xguru)
- Published: 2025-10-25T08:45:40+09:00
- Updated: 2025-10-25T08:45:40+09:00
- Original source: [venturebeat.com](https://venturebeat.com/ai/sakana-ais-cto-says-hes-absolutely-sick-of-transformers-the-tech-that-powers)
- Points: 11
- Comments: 1

## Summary

트랜스포머의 공동 창시자 **Llion Jones**가 “이제 트랜스포머에 질렸다”고 선언했습니다. 그는 **AI 연구가 단일 구조에 갇혀 창의성을 잃었다**며, 지금의 산업이 **탐색보다 활용에 치우친 상태**라고 진단합니다. Sakana AI에서 그는 다시 **자유로운 탐구 중심의 연구 문화**를 실험 중이며, 다음 혁신은 거대한 자본이 아니라 **탐색할 자유를 가진 소수의 연구자**에게서 나올 것이라 강조합니다. 트랜스포머의 성공이 오히려 혁신을 가로막고 있다는 이 자기비판은, 지금의 AI 업계가 어디로 가야 하는지 묻는 날카로운 거울처럼 느껴집니다.

## Topic Body

- **Transformers 아키텍처를 공동 개발**하고 그 이름을 명명한 Llion Jones가 “AI 연구가 지나치게 좁아졌다”며 **트랜스포머 중심의 패러다임을 떠날 것**이라고 발언함  
- ChatGPT, Claude 등 **주요 AI 시스템의 기반 기술**인 트랜스포머가 오히려 **차세대 혁신을 가로막고** 있다는 자기비판적 진단을 제시  
- **안전한 주제만 택하고 창의성이 사라졌으며**, “탐색(Exploration)보다 활용(Exploitation)에 치우친 상태”라며, **AI 산업이 더 큰 혁신을 놓치고 있을 가능성**을 경고함  
- 트랜스포머 논문이 탄생하던 시절엔 **자유로운 실험 환경**이 있었지만, 지금은 고액 연봉조차 연구 자유를 보장하지 못한다고 비판함  
- 그는 Sakana AI에서 **자유로운 탐구 중심의 연구 문화**를 재현하고자 하며, “다음 트랜스포머급 혁신은 바로 옆에 있을지도 모른다”고 강조함  
  
---  
  
### 트랜스포머 창시자의 자기 비판과 새로운 선언  
- 2017년 "Attention Is All You Need" 논문의 공동 저자이자 **트랜스포머라는 명칭을 직접 고안**한 Llion Jones가 샌프란시스코 TED AI 컨퍼런스에서 **AI 연구의 획일화 문제**를 강하게 비판  
- **10만 회 이상 인용**된 역사적 논문의 저자가 자신의 창조물에 대해 "진절머리가 난다"고 공개적으로 밝힌 이례적 발언  
- 그는 현재 도쿄 기반 Sakana AI의 CTO이자 공동 창립자  
  - “AI 연구가 단일 구조에 갇혀 있다”고 지적하며 **트랜스포머 연구에 시간을 줄이고 새로운 구조를 탐색 중**이라 밝힘  
  - “AI 분야에는 그 어느 때보다 많은 인재와 자금이 있지만, 연구는 오히려 좁아지고 있다”고 강조함  
  - 이 현상의 원인으로 **투자자 수익 압박과 경쟁 과열**을 들며, 연구자들이 창의성을 잃고 “논문을 서둘러 내는” 환경에 처했다고 설명함  
  
### 자원은 늘었지만 창의성은 줄었다는 역설  
  
- 현재 AI 연구자들은 **동일한 주제를 다루는 3~4개 그룹**이 동시에 작업한다고 가정해야 하며, 다른 연구팀에게 "선점당했는지" 끊임없이 확인하는 상황  
- 학계 연구자들은 위험하지만 혁신적인 프로젝트 대신 **안전하게 출판 가능한 주제**를 선택하는 경향이 강화됨  
  - 경쟁 압력으로 인해 논문을 서둘러 제출하면서 **과학적 엄밀성이 손상**되고 창의성이 감소  
  - 연구자들이 "exploitation(활용)"에 치우쳐 "exploration(탐색)"을 소홀히 하는 상황  
- AI 알고리듬의 **탐색-활용 트레이드오프** 개념을 적용하면, 현재 AI 업계는 **지나친 활용으로 인해 평범한 지역 최적해**에 갇혀 더 나은 대안을 놓치고 있을 가능성  
- 트랜스포머 등장 직전 연구자들이 **순환 신경망(RNN)의 점진적 개선**에 매달렸던 것처럼, 현재도 단일 아키텍처의 변형에만 집중하면서 **임박한 혁신을 놓칠 위험** 존재  
> “트랜스포머 이전 시대 연구자들이 다음 혁신이 곧 나올 걸 알았다면, 그 많은 시간을 낭비하지 않았을 것”  
  
### 트랜스포머의 탄생 배경: 자유가 만든 혁신  
- Jones는 트랜스포머 연구가 탄생할 당시, **위에서의 압박이 전혀 없는 자유로운 분위기** 속에서 시작됐다고 회상함  
  - “점심시간 토론이나 화이트보드 낙서에서 시작된 아이디어였다”고 밝힘  
- 연구팀은 명확한 아이디어가 없었지만 **충분한 시간과 자유**가 주어졌고, 특정 프로젝트나 성과 지표에 대한 **경영진의 압박이 전혀 없었음**  
  - 특정 논문 편수 출판 요구나 지표 개선 압력 없음  
  - 실험과 시행착오를 통한 자율적 탐색 가능  
- 오늘날 **연간 100만 달러 이상의 급여**로 영입된 연구자들조차 대담한 아이디어를 시도하기보다는 **자신의 가치를 증명해야 한다는 압박**을 느낄 가능성  
> “그들은 자신이 가치 있는 인재임을 증명하기 위해 **안전한 연구**를 택한다”  
  
### Sakana AI의 실험: 자유가 높은 보수를 이긴다  
- Jones는 Sakana AI에서 **트랜스포머 이전의 자유로운 연구 환경을 재현**하려는 시도를 진행 중  
  - 자연에서 영감받은 연구 추구  
  - 논문 출판이나 경쟁사와의 직접 경쟁에 대한 최소한의 압박  
- 엔지니어 Brian Cheung의 조언 공유: **"당신이 하지 않으면 일어나지 않을 연구만 해야 한다"**  
- 구체적 사례로 **"연속 사고 기계(continuous thought machine)"** 프로젝트 소개  
  - 뇌의 동기화 메커니즘을 신경망에 통합하는 연구  
  - 제안자가 이전 직장이나 학계에서는 회의적 반응과 시간 낭비 말라는 압박을 받았을 것이라고 언급  
  - Sakana에서는 1주일의 탐색 시간을 제공했고, 결과적으로 NeurIPS 주요 컨퍼런스에서 주목받는 성공 사례로 발전  
- 탐색적 환경 자체가 **인재 영입의 강력한 도구**가 될 수 있다고 주장  
  - 재능 있고 야심찬 사람들은 자연스럽게 이런 환경을 찾게 됨  
  
### 트랜스포머 성공의 역설: 혁신을 가로막는 완성도  
- 그는 트랜스포머의 성공이 “너무 강력하기 때문에 오히려 **새로운 혁신을 막고 있다**”고 말함  
- “현재 기술이 완벽할수록, 더 나은 것을 찾으려는 동기가 사라진다”고 분석함  
- 다만 그는 트랜스포머 연구 자체를 부정하지는 않으며, “아직도 실질적 가치 창출이 가능하다”고 덧붙임  
- 그러나 “현재의 막대한 자원과 인재를 생각하면, 우리는 훨씬 더 넓은 탐색을 할 수 있다”고 강조함  
- 그의 결론은 **협력과 개방적 탐색의 중요성**이었음  
  - “경쟁이 아니라 협력으로 탐색 다이얼을 올려야 한다. 그래야 진정한 발전이 가능하다”고 발언함  
  
### AI 산업의 ‘탐색 문제’가 던지는 함의  
- Jones의 경고는 **AI 확장 한계와 새로운 구조 탐색 필요성**을 논의하는 현 시점에 큰 울림을 주고 있음  
- 업계에서는 이미 **트랜스포머 확장만으로는 한계에 다다랐다는 인식**이 확산 중임  
- 주요 연구자들이 현재 패러다임의 근본적 한계에 대해 공개적으로 논의하기 시작  
  - 규모(scale)만이 아닌 **아키텍처 혁신**이 더 발전된 AI 시스템을 위해 필요하다는 인식 확산  
- **연간 수백억 달러가 AI 개발에 투입**되고 연구소 간 치열한 경쟁으로 비밀주의와 빠른 출판 사이클이 강화되면서, Jones가 묘사한 **자유로운 탐색형 연구는 점점 줄어드는 현실**  
- Jones의 내부자 관점이 특별한 무게를 지니는 이유  
  - 현재 분야를 지배하는 기술을 직접 창조한 사람으로서 **혁신적 발견에 필요한 조건**을 잘 이해  
  - 자신의 명성을 만든 트랜스포머에서 **스스로 물러나기로 한 결정**이 메시지에 신뢰성 부여  
- 차세대 트랜스포머급 혁신이 **탐색할 자유를 가진 연구자들에 의해 발견**될 수도, 수천 명의 연구자들이 점진적 개선 경쟁을 벌이는 동안 **미개척 상태로 남을 수도** 있는 중요한 기로  
- 결론적으로 Jones는 **트랜스포머를 가장 오래 연구한 사람 중 하나로서**, 이제 다음 단계로 나아갈 때라는 것을 누구보다 잘 알고 있음  
> “트랜스포머급 돌파구는 어쩌면 이미 우리 곁에 있지만, 경쟁에 가려져 있을 뿐”

## Comments


### Comment 45432

- Author: neo
- Created: 2025-10-25T08:45:41+09:00
- Points: 1

###### [Hacker News 의견](https://news.ycombinator.com/item?id=45690840) 
- 내가 보기엔 **transformer**는 최근 역사에서 가장 생산적인 발명 중 하나였음  
  2017년에 처음 등장한 이후 8년 만에 여러 분야를 완전히 바꿔놓았고, 심지어 노벨상 수상에도 일부 기여했음  
  본질적으로 중요한 아이디어는 **확률 그래픽 모델(probabilistic graphical model)** 이라 생각함. 확률을 시퀀스, 트리, 그래프와 결합하는 접근은 앞으로도 연구 가치가 높을 것이라 봄
  - 솔직히 말해, 아키텍처 자체에서 큰 **돌파구**가 나올 거라 생각하진 않음  
    transformer는 이미 매우 뛰어난 **보편 근사자(universal approximator)** 임. 약간의 개선은 가능하겠지만, 더 ‘보편적’인 걸 찾기란 현실적으로 어려움  
    오히려 **auto-regressive task**, **cross entropy loss**, **gradient descent** 자체를 다시 생각해볼 필요가 있다고 봄
  - 어떤 분야들이 완전히 변했다는 건지 궁금함  
    내 분야에도 영향은 있었지만, 솔직히 말하면 그 영향은 거의 **부정적**이었음
  - 예전에 **확률 그래픽 모델**을 많이 썼던 입장으로서, transformer 시대에 내 경험이 다시 가치 있게 쓰이길 바람  
    하지만 아직은 그런 조짐이 안 보임. 그래도 희망은 있음
  - 나도 개인적으로 **확률적 하이퍼그래프 모델**을 구상해둔 게 있음  
    아직 논문으로 정리하진 않았지만, 이 아이디어로 수렴하는 움직임이 곳곳에서 보임  
    하루에 시간이 더 많았으면 좋겠음
  - 동의함. **인과 추론(causal inference)** 과 **상징적 추론(symbolic reasoning)** 이야말로 transformer 이후의 진짜 과제라고 생각함  

- Sakana AI의 공동창업자이자 CTO인 Jones가 transformer에서 손을 떼고 “다음 큰 것”을 찾고 있다고 말했는데, 솔직히 **투자 유치용 홍보**처럼 들림  
  - “Attention is all he needs”라는 말이 딱 어울림  
  - 그래도 새로운 걸 하고 싶다면 자금이 필요하니, **둘 다 사실**일 수도 있음  
  - 과학자라면 원래 **새롭고 창의적인 것**을 찾아 헤매는 법임  
  - 어쨌든 그의 말에 우리가 **attention**을 주긴 했음  
  - 그런데, 도대체 그들이 지금 **무엇을 팔려는 건지** 궁금함  

- 농담처럼 말하자면, 2024년에 **특이점(singularity)** 이 올 줄 알았는데, “수익화”와 “자기 개선” 사이의 시간차 때문에 멈춰버린 느낌임  
  transformer 모델에서 모든 돈이 짜낼 때까지 20년은 더 머물 것 같음  
  - 지금 **하드웨어와 에너지 인프라**가 엄청나게 확장되고 있음  
    transformer 전용은 아니니, 오히려 이 인프라를 최대한 활용할 **새로운 아키텍처**를 찾으려는 유인이 생길 것임  
  - 어쩌면 이미 **자기 개선(recursive self-improvement)** 이 진행 중일 수도 있음  
    단지 인간이 인식할 만큼 빠르지 않을 뿐임  

- 대부분의 사람에게 “AI”란 결국 눈에 보이는 **소프트웨어 제품**임  
  하지만 그중 핵심 모델은 일부일 뿐이고, 나머지는 수천 명의 저임금 인력이 **휴먼 피드백**으로 다듬는 과정임  
  실제로는 **제품 개발이 90%** , **ML 연구는 10%** 에 불과함  
  논문 대부분은 박사 학위를 따기 위한 **커리어용 연구**이고, 진짜 실험적 연구는 소수에 불과함  

- transformer가 GPU에 너무 잘 맞게 설계되어 있어서, 새로운 모델을 만들려면 **하드웨어 제조사**까지 설득해야 하는 상황임  
  결국 **하드웨어와 소프트웨어의 동시적 진화**가 필요함  
  근본적인 변화는 **수십 년 단위**로 일어날 것임  
  - 하지만 이건 거꾸로 생각한 것임  
    **병렬화 가능한 알고리즘**이 본질적으로 우월하기 때문에 GPU가 그에 맞춰 발전한 것임  
    RNN은 순차적이라 병렬화가 어렵지만, transformer는 그 **병목을 제거**했음  

- transformer 기반이 아닌 연구도 여전히 활발하다고 느낌  
  다만 **챗봇형 CRM**에 돈이 몰리다 보니 덜 보일 뿐임  
  새로운 아키텍처가 해답이라고는 생각하지 않음. 오히려 **데이터 효율성**을 높이는 방법이 중요함  
  Ilya Sutskever도 “인터넷 전체가 없어도 괜찮은 학습법”을 강조했음  
  - 기사에서 말한 건 “새 아키텍처가 해답”이 아니라, **탐색과 활용의 균형**이 깨졌다는 지적임  
  - 새 아키텍처 논의는 사실 **AGI**를 위한 이야기임  
    인간처럼 학습하려면 단순히 인터넷 데이터를 먹이는 방식과는 달라야 함  
  - 2017년 이전 연구자들 대부분이 이제 transformer에 집중하고 있음  
    연구자 수는 늘었지만, **비-transformer 연구 비율**은 오히려 줄었을 것임  

- 마지막 부분의 **em dash(—)** 가 너무 많아서, 이 글은 transformer가 쓴 것 같다는 농담을 함  
  - 다음 AI 유행은 “**disrupters**”가 될지도 모름  

- transformer가 **모든 관심과 자금**을 빨아들였음  
  연구자들도 transformer 산업에 흡수된 상태임  
  큰 한계에 부딪히기 전까지는 이 상태가 계속될 것 같음  
  **에너지 소비**가 진짜 한계가 되어 연구 방향을 바꾸길 바람  
  - 실제로 에너지가 곧 **병목**이 될 수 있음  
    xAI는 데이터센터 주변에 **가스 터빈**을 설치해 전력을 해결했지만, 지역 주민의 건강 문제를 일으켰음  
    이런 방식은 곧 규제될 것이라 봄  

- 사람들은 새로운 모델 아키텍처 혁신에 너무 집착하는 경향이 있음  
  모델은 결국 **데이터 압축 표현**을 만드는 도구일 뿐임  
  더 효율적인 압축을 해도 능력이 크게 달라지진 않음  
  오히려 **훈련 효율성**을 높이는 게 중요함. 요즘 **강화학습(RL)** 이 그 예임  
  - 하지만 훈련 효율성은 결국 **아키텍처와 연결**되어 있음  
    새로운 구조를 탐색하는 건 과도한 집착이 아니라, **탐색과 활용의 균형**을 맞추는 일임  

- transformer 중심의 산업 구조가 **GPU/NPU의 계산 편의성**에 의해 형성된 게 아닐까 생각함  
  더 나은 AI 기술이 존재할 수도 있지만, 기존 하드웨어로는 **계산 비용**이 너무 클 수 있음  
  우리의 뇌는 500와트를 쓰지 않는데, 그게 힌트일지도 모름