1P by GN⁺ 1일전 | ★ favorite | 댓글 1개
  • Transformers 아키텍처를 공동 개발하고 그 이름을 명명한 Llion Jones가 “AI 연구가 지나치게 좁아졌다”며 트랜스포머 중심의 패러다임을 떠날 것이라고 발언함
  • ChatGPT, Claude 등 주요 AI 시스템의 기반 기술인 트랜스포머가 오히려 차세대 혁신을 가로막고 있다는 자기비판적 진단을 제시
  • 안전한 주제만 택하고 창의성이 사라졌으며, “탐색(Exploration)보다 활용(Exploitation)에 치우친 상태”라며, AI 산업이 더 큰 혁신을 놓치고 있을 가능성을 경고함
  • 트랜스포머 논문이 탄생하던 시절엔 자유로운 실험 환경이 있었지만, 지금은 고액 연봉조차 연구 자유를 보장하지 못한다고 비판함
  • 그는 Sakana AI에서 자유로운 탐구 중심의 연구 문화를 재현하고자 하며, “다음 트랜스포머급 혁신은 바로 옆에 있을지도 모른다”고 강조함

트랜스포머 창시자의 자기 비판과 새로운 선언

  • 2017년 "Attention Is All You Need" 논문의 공동 저자이자 트랜스포머라는 명칭을 직접 고안한 Llion Jones가 샌프란시스코 TED AI 컨퍼런스에서 AI 연구의 획일화 문제를 강하게 비판
  • 10만 회 이상 인용된 역사적 논문의 저자가 자신의 창조물에 대해 "진절머리가 난다"고 공개적으로 밝힌 이례적 발언
  • 그는 현재 도쿄 기반 Sakana AI의 CTO이자 공동 창립자
    • “AI 연구가 단일 구조에 갇혀 있다”고 지적하며 트랜스포머 연구에 시간을 줄이고 새로운 구조를 탐색 중이라 밝힘
    • “AI 분야에는 그 어느 때보다 많은 인재와 자금이 있지만, 연구는 오히려 좁아지고 있다”고 강조함
    • 이 현상의 원인으로 투자자 수익 압박과 경쟁 과열을 들며, 연구자들이 창의성을 잃고 “논문을 서둘러 내는” 환경에 처했다고 설명함

자원은 늘었지만 창의성은 줄었다는 역설

  • 현재 AI 연구자들은 동일한 주제를 다루는 3~4개 그룹이 동시에 작업한다고 가정해야 하며, 다른 연구팀에게 "선점당했는지" 끊임없이 확인하는 상황
  • 학계 연구자들은 위험하지만 혁신적인 프로젝트 대신 안전하게 출판 가능한 주제를 선택하는 경향이 강화됨
    • 경쟁 압력으로 인해 논문을 서둘러 제출하면서 과학적 엄밀성이 손상되고 창의성이 감소
    • 연구자들이 "exploitation(활용)"에 치우쳐 "exploration(탐색)"을 소홀히 하는 상황
  • AI 알고리듬의 탐색-활용 트레이드오프 개념을 적용하면, 현재 AI 업계는 지나친 활용으로 인해 평범한 지역 최적해에 갇혀 더 나은 대안을 놓치고 있을 가능성
  • 트랜스포머 등장 직전 연구자들이 순환 신경망(RNN)의 점진적 개선에 매달렸던 것처럼, 현재도 단일 아키텍처의 변형에만 집중하면서 임박한 혁신을 놓칠 위험 존재

“트랜스포머 이전 시대 연구자들이 다음 혁신이 곧 나올 걸 알았다면, 그 많은 시간을 낭비하지 않았을 것”

트랜스포머의 탄생 배경: 자유가 만든 혁신

  • Jones는 트랜스포머 연구가 탄생할 당시, 위에서의 압박이 전혀 없는 자유로운 분위기 속에서 시작됐다고 회상함
    • “점심시간 토론이나 화이트보드 낙서에서 시작된 아이디어였다”고 밝힘
  • 연구팀은 명확한 아이디어가 없었지만 충분한 시간과 자유가 주어졌고, 특정 프로젝트나 성과 지표에 대한 경영진의 압박이 전혀 없었음
    • 특정 논문 편수 출판 요구나 지표 개선 압력 없음
    • 실험과 시행착오를 통한 자율적 탐색 가능
  • 오늘날 연간 100만 달러 이상의 급여로 영입된 연구자들조차 대담한 아이디어를 시도하기보다는 자신의 가치를 증명해야 한다는 압박을 느낄 가능성

“그들은 자신이 가치 있는 인재임을 증명하기 위해 안전한 연구를 택한다”

Sakana AI의 실험: 자유가 높은 보수를 이긴다

  • Jones는 Sakana AI에서 트랜스포머 이전의 자유로운 연구 환경을 재현하려는 시도를 진행 중
    • 자연에서 영감받은 연구 추구
    • 논문 출판이나 경쟁사와의 직접 경쟁에 대한 최소한의 압박
  • 엔지니어 Brian Cheung의 조언 공유: "당신이 하지 않으면 일어나지 않을 연구만 해야 한다"
  • 구체적 사례로 "연속 사고 기계(continuous thought machine)" 프로젝트 소개
    • 뇌의 동기화 메커니즘을 신경망에 통합하는 연구
    • 제안자가 이전 직장이나 학계에서는 회의적 반응과 시간 낭비 말라는 압박을 받았을 것이라고 언급
    • Sakana에서는 1주일의 탐색 시간을 제공했고, 결과적으로 NeurIPS 주요 컨퍼런스에서 주목받는 성공 사례로 발전
  • 탐색적 환경 자체가 인재 영입의 강력한 도구가 될 수 있다고 주장
    • 재능 있고 야심찬 사람들은 자연스럽게 이런 환경을 찾게 됨

트랜스포머 성공의 역설: 혁신을 가로막는 완성도

  • 그는 트랜스포머의 성공이 “너무 강력하기 때문에 오히려 새로운 혁신을 막고 있다”고 말함
  • “현재 기술이 완벽할수록, 더 나은 것을 찾으려는 동기가 사라진다”고 분석함
  • 다만 그는 트랜스포머 연구 자체를 부정하지는 않으며, “아직도 실질적 가치 창출이 가능하다”고 덧붙임
  • 그러나 “현재의 막대한 자원과 인재를 생각하면, 우리는 훨씬 더 넓은 탐색을 할 수 있다”고 강조함
  • 그의 결론은 협력과 개방적 탐색의 중요성이었음
    • “경쟁이 아니라 협력으로 탐색 다이얼을 올려야 한다. 그래야 진정한 발전이 가능하다”고 발언함

AI 산업의 ‘탐색 문제’가 던지는 함의

  • Jones의 경고는 AI 확장 한계와 새로운 구조 탐색 필요성을 논의하는 현 시점에 큰 울림을 주고 있음
  • 업계에서는 이미 트랜스포머 확장만으로는 한계에 다다랐다는 인식이 확산 중임
  • 주요 연구자들이 현재 패러다임의 근본적 한계에 대해 공개적으로 논의하기 시작
    • 규모(scale)만이 아닌 아키텍처 혁신이 더 발전된 AI 시스템을 위해 필요하다는 인식 확산
  • 연간 수백억 달러가 AI 개발에 투입되고 연구소 간 치열한 경쟁으로 비밀주의와 빠른 출판 사이클이 강화되면서, Jones가 묘사한 자유로운 탐색형 연구는 점점 줄어드는 현실
  • Jones의 내부자 관점이 특별한 무게를 지니는 이유
    • 현재 분야를 지배하는 기술을 직접 창조한 사람으로서 혁신적 발견에 필요한 조건을 잘 이해
    • 자신의 명성을 만든 트랜스포머에서 스스로 물러나기로 한 결정이 메시지에 신뢰성 부여
  • 차세대 트랜스포머급 혁신이 탐색할 자유를 가진 연구자들에 의해 발견될 수도, 수천 명의 연구자들이 점진적 개선 경쟁을 벌이는 동안 미개척 상태로 남을 수도 있는 중요한 기로
  • 결론적으로 Jones는 트랜스포머를 가장 오래 연구한 사람 중 하나로서, 이제 다음 단계로 나아갈 때라는 것을 누구보다 잘 알고 있음

“트랜스포머급 돌파구는 어쩌면 이미 우리 곁에 있지만, 경쟁에 가려져 있을 뿐”

Hacker News 의견
  • 내가 보기엔 transformer는 최근 역사에서 가장 생산적인 발명 중 하나였음
    2017년에 처음 등장한 이후 8년 만에 여러 분야를 완전히 바꿔놓았고, 심지어 노벨상 수상에도 일부 기여했음
    본질적으로 중요한 아이디어는 확률 그래픽 모델(probabilistic graphical model) 이라 생각함. 확률을 시퀀스, 트리, 그래프와 결합하는 접근은 앞으로도 연구 가치가 높을 것이라 봄

    • 솔직히 말해, 아키텍처 자체에서 큰 돌파구가 나올 거라 생각하진 않음
      transformer는 이미 매우 뛰어난 보편 근사자(universal approximator) 임. 약간의 개선은 가능하겠지만, 더 ‘보편적’인 걸 찾기란 현실적으로 어려움
      오히려 auto-regressive task, cross entropy loss, gradient descent 자체를 다시 생각해볼 필요가 있다고 봄
    • 어떤 분야들이 완전히 변했다는 건지 궁금함
      내 분야에도 영향은 있었지만, 솔직히 말하면 그 영향은 거의 부정적이었음
    • 예전에 확률 그래픽 모델을 많이 썼던 입장으로서, transformer 시대에 내 경험이 다시 가치 있게 쓰이길 바람
      하지만 아직은 그런 조짐이 안 보임. 그래도 희망은 있음
    • 나도 개인적으로 확률적 하이퍼그래프 모델을 구상해둔 게 있음
      아직 논문으로 정리하진 않았지만, 이 아이디어로 수렴하는 움직임이 곳곳에서 보임
      하루에 시간이 더 많았으면 좋겠음
    • 동의함. 인과 추론(causal inference)상징적 추론(symbolic reasoning) 이야말로 transformer 이후의 진짜 과제라고 생각함
  • Sakana AI의 공동창업자이자 CTO인 Jones가 transformer에서 손을 떼고 “다음 큰 것”을 찾고 있다고 말했는데, 솔직히 투자 유치용 홍보처럼 들림

    • “Attention is all he needs”라는 말이 딱 어울림
    • 그래도 새로운 걸 하고 싶다면 자금이 필요하니, 둘 다 사실일 수도 있음
    • 과학자라면 원래 새롭고 창의적인 것을 찾아 헤매는 법임
    • 어쨌든 그의 말에 우리가 attention을 주긴 했음
    • 그런데, 도대체 그들이 지금 무엇을 팔려는 건지 궁금함
  • 농담처럼 말하자면, 2024년에 특이점(singularity) 이 올 줄 알았는데, “수익화”와 “자기 개선” 사이의 시간차 때문에 멈춰버린 느낌임
    transformer 모델에서 모든 돈이 짜낼 때까지 20년은 더 머물 것 같음

    • 지금 하드웨어와 에너지 인프라가 엄청나게 확장되고 있음
      transformer 전용은 아니니, 오히려 이 인프라를 최대한 활용할 새로운 아키텍처를 찾으려는 유인이 생길 것임
    • 어쩌면 이미 자기 개선(recursive self-improvement) 이 진행 중일 수도 있음
      단지 인간이 인식할 만큼 빠르지 않을 뿐임
  • 대부분의 사람에게 “AI”란 결국 눈에 보이는 소프트웨어 제품
    하지만 그중 핵심 모델은 일부일 뿐이고, 나머지는 수천 명의 저임금 인력이 휴먼 피드백으로 다듬는 과정임
    실제로는 제품 개발이 90% , ML 연구는 10% 에 불과함
    논문 대부분은 박사 학위를 따기 위한 커리어용 연구이고, 진짜 실험적 연구는 소수에 불과함

  • transformer가 GPU에 너무 잘 맞게 설계되어 있어서, 새로운 모델을 만들려면 하드웨어 제조사까지 설득해야 하는 상황임
    결국 하드웨어와 소프트웨어의 동시적 진화가 필요함
    근본적인 변화는 수십 년 단위로 일어날 것임

    • 하지만 이건 거꾸로 생각한 것임
      병렬화 가능한 알고리즘이 본질적으로 우월하기 때문에 GPU가 그에 맞춰 발전한 것임
      RNN은 순차적이라 병렬화가 어렵지만, transformer는 그 병목을 제거했음
  • transformer 기반이 아닌 연구도 여전히 활발하다고 느낌
    다만 챗봇형 CRM에 돈이 몰리다 보니 덜 보일 뿐임
    새로운 아키텍처가 해답이라고는 생각하지 않음. 오히려 데이터 효율성을 높이는 방법이 중요함
    Ilya Sutskever도 “인터넷 전체가 없어도 괜찮은 학습법”을 강조했음

    • 기사에서 말한 건 “새 아키텍처가 해답”이 아니라, 탐색과 활용의 균형이 깨졌다는 지적임
    • 새 아키텍처 논의는 사실 AGI를 위한 이야기임
      인간처럼 학습하려면 단순히 인터넷 데이터를 먹이는 방식과는 달라야 함
    • 2017년 이전 연구자들 대부분이 이제 transformer에 집중하고 있음
      연구자 수는 늘었지만, 비-transformer 연구 비율은 오히려 줄었을 것임
  • 마지막 부분의 em dash(—) 가 너무 많아서, 이 글은 transformer가 쓴 것 같다는 농담을 함

    • 다음 AI 유행은 “disrupters”가 될지도 모름
  • transformer가 모든 관심과 자금을 빨아들였음
    연구자들도 transformer 산업에 흡수된 상태임
    큰 한계에 부딪히기 전까지는 이 상태가 계속될 것 같음
    에너지 소비가 진짜 한계가 되어 연구 방향을 바꾸길 바람

    • 실제로 에너지가 곧 병목이 될 수 있음
      xAI는 데이터센터 주변에 가스 터빈을 설치해 전력을 해결했지만, 지역 주민의 건강 문제를 일으켰음
      이런 방식은 곧 규제될 것이라 봄
  • 사람들은 새로운 모델 아키텍처 혁신에 너무 집착하는 경향이 있음
    모델은 결국 데이터 압축 표현을 만드는 도구일 뿐임
    더 효율적인 압축을 해도 능력이 크게 달라지진 않음
    오히려 훈련 효율성을 높이는 게 중요함. 요즘 강화학습(RL) 이 그 예임

    • 하지만 훈련 효율성은 결국 아키텍처와 연결되어 있음
      새로운 구조를 탐색하는 건 과도한 집착이 아니라, 탐색과 활용의 균형을 맞추는 일임
  • transformer 중심의 산업 구조가 GPU/NPU의 계산 편의성에 의해 형성된 게 아닐까 생각함
    더 나은 AI 기술이 존재할 수도 있지만, 기존 하드웨어로는 계산 비용이 너무 클 수 있음
    우리의 뇌는 500와트를 쓰지 않는데, 그게 힌트일지도 모름