6P by GN⁺ 1일전 | ★ favorite | 댓글 1개
  • 최근 AI 발전은 새로운 아이디어보다 새로운 데이터셋의 도입이 핵심임
  • 대형 돌파구 대부분은 이미 존재하던 기술을 새로운 데이터 소스에 적용하면서 나타났음
  • AI 기술의 혁신보다 데이터 변화가 모델 성능에 더 큰 영향을 미침
  • 앞으로의 패러다임 전환도 유튜브, 로봇 등 새로운 데이터 원천을 활용할 때 가능할 전망임
  • 연구자 대부분이 새로운 방법론에 집중하지만 실제로는 데이터가 발전의 핵심임

AI 발전의 현황과 패턴

  • AI는 지난 15년간, 특히 최근 5년간 비약적인 발전을 이루었음
  • 일부 연구자들은 AI가 특정 과업 수행 능력에서 'AI를 위한 무어의 법칙'처럼 지수적으로 발전한다고 주장함
  • 그러나 실제로는 대형 돌파구가 자주 일어나지 않으며, 느리지만 꾸준한 진보가 이어지는 구조임

혁신은 어디서 오는가

  • 많은 사람들이 AI 발전이 MIT, Stanford, Google 등 학계·산업계의 아이디어에서 나온다고 생각함
  • 연구를 통해 모델 학습 비용을 줄이고, 효율을 개선하는 시스템 혁신은 분명히 이어지고 있음
    • 2022년 Stanford의 FlashAttention 개발로 메모리 활용 최적화
    • 2023년 Google의 speculative decoding으로 추론 속도 향상
    • 2024년 Muon 프로젝트는 새로운 옵티마이저 방식 제시
    • 2025년 DeepSeek-R1은 오픈소스로 주요 AI 연구소 수준의 모델 제공
  • 연구자들이 arXiv, 학회, 소셜미디어 등을 통해 빠르게 공개적으로 성과를 공유하며 글로벌 분산 과학 실험이 활발하게 진행 중임

왜 AI 혁신이 더뎌졌다고 느끼는가

  • 최근 Grok 3, GPT-4.5 등 최신 모델의 성능 향상폭이 줄어듦
  • 수학 올림피아드 등 실전 평가에서 성적이 낮아 과장된 발표라는 지적도 있음
  • 대형 패러다임 변화(딥러닝, 트랜스포머, RLHF, Reasoning)는 10년 단위로 드물게 등장

대형 돌파구의 공통점: 새로운 데이터셋

  • 4가지 주요 돌파구는 새로운 데이터 소스를 대규모로 처음 활용한 시점과 일치함
    • AlexNet: ImageNet(라벨링된 대형 이미지 데이터)
    • Transformers: 웹 전체 텍스트 데이터(Internet)
    • RLHF: 인간이 피드백한 '좋은 텍스트' 데이터
    • Reasoning: 계산기·컴파일러 등 외부 검증 도구의 결과
  • 각 데이터셋이 처음 대규모로 도입된 후, 남아있는 데이터 확보 경쟁효율적 활용 기술 개발이 이어짐

새로운 아이디어 vs 데이터의 역할

  • 특정 모델 아키텍처가 아니더라도, 동일한 데이터만 주어진다면 비슷한 수준의 모델이 개발될 수 있음
  • 실제로 기술적 혁신보다 학습되는 데이터셋 교체가 성능에 더 큰 영향을 미침
    • AlexNet 대신 다른 구조가 등장해도 ImageNet이 있었기에 발전이 가능
    • Transformer가 아니더라도 LSTM, SSM 등이 동일 데이터로 비슷한 성능을 보임
  • 데이터셋이 학습 결과의 상한선을 결정하며, 모델·알고리듬 개선만으로는 극복이 불가능함
  • The Bitter Lesson에서 강조된 바처럼, 새로운 방법보다는 진짜 중요한 건 결국 데이터임

다음 AI 패러다임 전환의 후보

  • AI의 다음 큰 도약은 새로운 network, RL 방식이 아닌 지금까지 미활용된 신규 데이터 소스를 이용할 때 일어날 가능성이 높음
  • 즉, 새로운 데이터셋을 대규모로 확보할 때 패러다임 전환이 일어날 가능성이 높음
    • 가장 주목받는 후보: YouTube 등 동영상 데이터
      • 유튜브에 매분 500시간의 영상이 업로드되는 수준
      • 텍스트보다 수십 배 이상 방대한 정보를 담고 있고, 언어적 뉘앙스, 물리적·문화적 맥락까지 학습 가능
      • Google 등 빅테크가 이 데이터셋 학습에 곧 본격적으로 나설 가능성 큼
    • 또 다른 가능성: 로봇(embodied system)을 통한 물리적 세계 데이터 수집
      • 카메라, 센서 데이터를 GPU에서 대규모 처리·학습 가능 인프라가 갖춰지면, 이 데이터 역시 AI 혁신의 근원이 될 확률 높음
  • 텍스트 데이터는 한계에 도달해가고 있어, 비디오·로봇 등 새로운 데이터 소스가 AI의 미래를 결정할 가능성이 높음

결론

  • AI의 다음 발전은 새로운 아이디어나 알고리듬이 아니라, 새로운 데이터 원천에서 나옴
  • 연구자의 95%가 새로운 방법론에 집중하지만, 실제 혁신은 데이터셋 변화에서 발생함
  • AI 발전을 원한다면, 새로운 아이디어가 아니라 새로운 데이터 확보에 집중해야 함
Hacker News 의견
  • John Carmack가 탐구하는 방법이 꽤 흥미로운 내용임을 이야기함
    2D 비디오 게임을 초월적으로 잘 플레이하는 모델을 훈련시킨 다음, 이전에 본 적 없는 2D 게임이거나 새로운 레벨에서 잘 할 수 있는지 시험해본 경험을 나눔
    이전 경험이 없는 게임에서 모델의 성능이 오히려 하락하는 결과를 들며 이는 인공지능이 아니라 특정 과업에 대한 숙련 일뿐임을 강조
    초인공지능(ASI) 공포 조장보다는, 새로운 2D 게임을 인간보다 빨리 배우는 일반지능을 만드는 일이 훨씬 어렵다고 밝힘

    • John Carmack가 실제로 이 결론에 사용한 모델이 최신 기술이 아니며, 비싼 foundational model을 쓰지 않은 재미 위주의 프로젝트라는 점을 지적
      심도 깊은 비디오/비전 AI 연구라면 게임 전반에 적용 가능한 확률 기반 latent space를 조작하는 방식이 더 적합하다고 언급
      veo3가 프롬프트 제약 하에서 영상을 생성하는 기능을 들어, AI가 2D·3D 게임을 일반화할 수 있다는 예시로 설명
      veo3는 실제로 특정 게임에 대한 fine-tuning 없이도 어떤 게임이든 합리적으로 플레이하는 듯한 결과를 보여줄 수 있다고 주장

    • 사람들이 왜 굳이 이런 방식으로 논의를 이끌어가는지 이해하기 어렵다고 말함
      주어진 목표를 달성할 방법은 분명 여러가지이며, John Carmack이 AI 전문가도 아닌데 왜 그의 실험이 표준으로 받아들여지는지 의문을 제기

    • 모델 규모를 너무 키워서 오버피팅(특정 데이터셋에만 맞추는 현상)이 일어난 것이 아닐까라고 생각
      모델에 제약 조건을 주면 더 일반적인 휴리스틱(경험적 규칙)을 학습하게 유도할 수 있지 않을지 궁금
      제약 없는 AI라면 결국 최적의 스피드런 기록을 재생하기만 하는 식일 텐데, 새로운 콘텐츠를 만났을 때는 다양한 휴리스틱이 훨씬 중요하다고 강조

    • 언급된 주제가 Meta-Reinforcement Learning(메타 강화학습) 분야임을 밝힘
      John Carmack이 이 분야를 탐구하는 건 의미 있지만, 전혀 새로운 연구 주제가 아니라고 알림
      Meta-Reinforcement Learning 간단 소개

    • 모델이 ‘진짜 지능’을 가졌는지의 문제는 AGI(범용 인공지능)를 고민하는 학계 입장에선 재미있는 주제이지만, 실제로 LLM을 유용하게 쓰는 다양한 사용자는 그리 중요하지 않다고 밝힘
      지금의 발전이 AGI로 이어지는지 신경 안 쓴다는 입장
      만약 Claude 4에서 멈춘다 해도 계속 유용하게 쓸 것이라 공유
      AGI 논쟁 대신 사람들이 요즘 실제로 AI를 어떻게 활용하는지가 훨씬 더 흥미로운 주제라고 강조

  • 지금 우리가 AI 초창기 시대를 살고 있다 자신 있게 이야기
    언어(LLM: GPT-4, Claude)와 시각(CLIP, DALL·E) 두 분야에서 AI가 경이적 진전을 보였음을 예시로 설명
    컴퓨터가 시와 코드 생성, 사진 설명, 인간 수준 대화까지 하지만, 사실 텍스트와 이미지 두 가지 모달리티만 확장했을 뿐임을 지적
    인간 지성은 촉각, 미각, 후각, 움직임, 감정 등 다양한 감각이 풍부하게 얽힌 다중모달 특성을 지님
    LLM이나 Vision Transformer가 이런 요소를 거의 구현하지 못함
    진짜 AI의 프론티어는 일상 삶 속의 복잡하고 풍부한 감각 세계임을 강조
    이를 위해 새로운 센서, 토큰을 넘어서는 데이터 표현법, 경험 기반으로 학습하는 새로운 모델 훈련법이 필요함을 설명

    • 언어나 시각 분야가 인공지능 본질의 시작점일 뿐이라는 의견에 정중히 반박
      촉각이 흥미롭긴 하지만, 온라인상 모든 상호작용에 충분한 것은 오디오와 비디오, 언어라고 주장
      인간과 동물의 결정적 차이는 '남은 감각'이 아니라 음성, 이미지, 언어에 있다고 설명
      현실 세계 행동을 위해 촉각·자세감각·후각 통합이 중요하지만, 지능 자체의 핵심은 언어와 시각이라는 관점

    • 유기적 적응성 및 기억의 지속성이 가장 진보해야 할 두 가지라고 생각
      인간 두뇌는 동적으로 구조가 변하는데, LLM은 고정되어 있고, 주어진 정보를 반복 학습해야 비로소 '배우는' 구조임을 지적
      인텔리전트 머신을 만들려면 스스로 실시간 학습하고 정보를 기억할 수 있어야 한다고 강조

    • 우리가 현재 가진 AI 아키텍처에서는 언어와 시각이 끝일 수도 있다는 관점
      최근 몇 년 LLM에 대한 뉴스가 많았지만, 그 밖의 AI 분야에서 두드러진 돌파구는 거의 없는 상황임을 제시

    • 진짜 AI 발전의 미래는 인간처럼 감각이 풍부하고, 물리적 세계에 얽힌 삶 그 자체임을 강조
      이미 닥터후(Dr. Who)에서 다렉(Dalek)이 두뇌를 가진 기계가 아니라 아예 기계 그 자체라고 말한 것처럼, 인간 역시 몸 전체가 곧 자신임을 비유로 설명

    • ‘믿기 어려울 정도의 발전’을 언급한 내용에 대해, 1970년대 사장됐던 기술을 100만 배 강력한 컴퓨터에 적용한 것뿐이라는 냉소적 시각
      앞으로 성능이 기하급수적으로 상승할 만한 모델 구조나 계산 방식의 근본적 혁신이 특별히 보이지 않는다고 밝힘

  • 과학적 진보와 기술적 진보의 혼동에 대해 언급
    과학이 진보할 때 S-커브 식으로 급격히 발전하다가 이후에는 점점 수익 감소 구간에 진입한다고 설명
    빠른 최적화 구간과 둔화기 구간을 구분하지 못하는 현상을 지적

    • 단순한 과장이나 기대감을 ‘기술적 진보’라고 부르는 건 너무 관대하다고 꼬집음

    • S-커브와 지수함수의 차이를 사람들이 잘 모른다는 생각을 덧붙임
      특정 구간에서는 거의 똑같이 보일 수도 있음을 설명

  • DeepSeek가 특별히 언급되는 이유에 의문

  • 모델 아키텍처 관련 연구와 논문을 읽는 입장에서는, 수많은 새로운 아이디어가 쏟아지는 중이라는 점을 지적
    다만 정말 흥미로운 결과를 내는 것은 일부에 한정됨
    PyTorch와 같은 라이브러리가 실험적 개발을 저해하는 영향도 있을 것으로 추측
    기본적인 구성 요소를 그냥 가져다 쓰는 일이 너무 당연해진 결과, 각 요소에 대해 깊이 고민하지 않게 된 부분도 있다고 판단
    ‘모델 카드’에 체크하기 위해 타인이 만든 토크나이저나 비전 모델을 무조건 덧붙이는 경향에 의구심을 가짐

    • 이런 흐름은 인간 세계에서도 너무나 흔하고 자연스러운 패턴임을 설명
      현재 기반 기술에서 지적 탐구의 ROI가 떨어지면 잠시 인적 자원이 다른 곳으로 쏠리기 마련
      하지만 한계에 다다르면 결국 혁신적 인재들이 다시 근본적인 영역에서 큰 진보를 만들어낼 것이라 전망
      PyTorch와 같은 foundational tech의 다음 세대 역시 이런 식으로 진화할 것이라고 봄

    • 실제 최근 2~3년 동안 정말 많은 사람들이 알고 일상적으로 쓰게 된 대규모 아키텍처 개선이 있었던 건 드물지만, 3년이라는 짧은 시간적 관점 자체를 간과하는 경향도 있다고 지적
      LLM 외에도 여전히 다양한 재미있고 유용한 연구가 진행 중이고, 자신은 그 분야 전문가도 아니지만 엄청나게 다양한 새로운 시도가 쏟아진다고 느낌

    • PyTorch가 없었더라도 새롭게 실험할 생각이 없는 사람은 여전히 그런 성향을 보였을 것이라고 이야기

  • 인간 수준의 지성을 복제한 시스템을 상상하면, 모델 차이의 핵심이 '데이터셋 변화'에 있다고 볼 수 있다는 시각
    실제로 인간의 기억, 교육, 배경 등이 문제해결 능력의 큰 부분을 차지하므로 유사점이 있음

  • 모델이 능동적으로 데이터를 얻는 방식, 즉 스스로 데이터를 찾아 학습하는 가능성에 대해 궁금
    인간 아기처럼 다양한 행위를 하며 직접 경험을 통해 배우는 방식이 필요함을 제안
    현재는 데이터만 계속 주입하는 상태에서 벗어나, 예를 들어 3D 오브젝트를 만들 수 있으니 물리 시뮬레이터와 결합하는 것도 좋은 방향이라고 언급
    Cursor를 예로 들며, 규칙설정 뒤 reasoning model로 해당 이유를 추론하고 학습 데이터에 반영하면 데이터의 가치를 한층 더 높일 수 있다고 제안
    사용자 행동 선택의 이유를 돌이켜보고 훈련 데이터화하면 더 깊은 통찰력 확보 가능성

    • 시뮬레이션 및 로봇암, 자동차 같은 ‘embodied AI’(체화된 인공지능)가 활발히 연구 중임을 알림

    • 그 방식이 곧 강화학습에 해당하며, 실제로 쉽지 않은 분야임을 언급

  • 새로운 아이디어란 대부분 과거 아이디어로부터 출발한다는 의견을 제시
    AI는 오래된 아이디어에 더 빠르고 새로운 시각으로 접근하는 도구
    혁신은 오래된 아이디어 속 빈틈이나 교차점에서 비롯된다는 점, 그리고 혁신이란 결국 선인들의 업적 위에서 일어나는 것임을 강조
    AI를 거인의 어깨로 바로 데려다주는 엘리베이터로 볼 수 있으며, 결국 도구의 활용 여부에 달려 있음을 설명

    • 옛 아이디어를 접근하는 데 동의하지만, 새로운 시각 자체로 접근하는 데는 한계가 있다고 논함
      LLM이 데이터 해석에 일부 보탬은 되지만, 기존 연구 대비 완전히 새로운 아이디어를 창출해내는 데는 아직 부족
      LLM 활용이 연구의 일부 특수 영역은 가속화할 수 있지만 그 외 영역은 한계가 있다고 설명

    • 모든 지식을 섭렵한 인간이 완전히 새로운 아이디어를 내지 못하는 상황을 상상하기 어려운 예시로 말함

    • 글의 논점이 AI 혁신 자체와 데이터의 양·품질 향상에 관한 논의임을 강조
      근본적 혁신이 있긴 했으나, 가장 좋은 성능 개선 방법은 여전히 더 많고 품질 높은 데이터라고 주장
      ‘더 많은 데이터 → 더 깊은 모델 → 다시 반복’이라는 AI 발전의 순환을 예로 듦
      자신의 의견이 이런 관점과 어떻게 연결되는지 의아함

    • 모든 새로운 아이디어가 옛 것에서만 비롯된다는 주장에 벤젠고리의 발견 일화를 들어 반박
      벤젠고리 구조는 꿈속에서 뱀이 자신의 꼬리를 무는 형상(‘우로보로스’)으로 처음 아이디어를 얻는 등, 전에 없던 상상력이 종종 혁신의 원천임을 예시

  • 최신 LLM은 결국 숫자를 더하고 곱하는 행위임을 이야기
    바빌로니아인들이 4000년 전부터 해오던 방식이라고 극단적으로 표현

    • 인간 역시 파동의 상호작용 결과일 뿐이며, 모든 의미는 결국 부여되는 것임을 설명
      개념 공간에 인덱스를 다는 방법만 있다면 의외성을 탐색할 수 있다는 점에서, 가능성은 무한함을 밝힘

    • 바빌로니아인들은 점토판에서 했고, 현대는 원자 두께 벽을 가진 반도체 안에서 처리한다는 점을 비교
      방법에 있어서는 큰 차이가 있다는 의견을 제시

  • 현재 AI 훈련이란 실제로 데이터셋을 암기시키는 과정에 가깝다는 생각
    데이터에 대해 스스로 사고하고 결론을 유도·기억하는 방식이 아니라는 점을 강조
    주어진 주제의 ‘사실’만큼은 PhD보다 더 많이 알 수 있겠지만, 그 내용을 사고하는 데는 인간이 여전히 뛰어나다고 평가

    • 그래서 박사도 교과서를 가까이 두는 것이 아닐지 추측
      굳이 AI 모델이 이미 기록된 사실까지 모두 기억할 필요가 있겠냐고 반문

    • 실제로는 조금 더 복잡한 과정임을 설명
      입력에 적절한 대응을 할 수 있도록 데이터를 휴리스틱 형태로 내재화하는 것이라 평가
      이 휴리스틱이 인간에게 놀라움을 주기도 하고, 때론 참신한 문제 해결을 보여주기도 함
      ‘사고’란 개념 자체가 너무 넓어 판단이 어렵지만, AGI에는 아직 멀었다고 진단

    • ‘주어진 주제에서 PhD보다 더 많은 사실을 기억한다’는 설명을 노트북과 비교
      노트북도 사실을 더 많이 담을 수 있지 않냐고 짚음