1P by GN⁺ 12시간전 | ★ favorite | 댓글 1개
  • MacBook Pro에서 5분 만에 약 1.8M 파라미터의 GPT 스타일 트랜스포머 모델을 약 20M TinyStories 토큰으로 학습하여, 약 9.6 퍼플렉시티 달성
  • 5분 내 학습의 주요 제약은 모델 크기와 처리 가능한 토큰 수로, 모델 크기가 크면 느린 수렴과 적은 데이터로 효과 감소
  • 성능 최적화에서는 MPS 사용, 컴파일/양자화/그래디언트 누적 및 PyTorch 대체보다는 작은 모델 선택이 효과적임
  • TinyStories 같은 단순하고 일관된 데이터셋이, 백과사전식 데이터보다 작은 모델 성능에 더 긍정적 영향 제공
  • 트랜스포머 아키텍처가 작은 사이즈와 짧은 학습 시간 조건에서 LSTM이나 diffusion 방식보다 뛰어난 결과 보여줌

개요

이 글은 노트북(MacBook Pro)에서 5분 만에 학습 가능한 최대 성능 AI 언어 모델을 실험한 결과와, 최적의 트레이닝 전략 및 데이터셋 선정, 모델 아키텍처에 대한 인사이트를 제공함

실험 결과 요약

  • 1.8M 파라미터의 GPT 스타일 트랜스포머 모델을 약 20M TinyStories 데이터로 학습, 9.6 퍼플렉시티 기록
  • 생성 예시는 짧지만 일관된 이야기 형태로, 영어 문법이 대체로 올바르게 유지되는 수준
  • 5분 내 실용적인 수준의 모델 결과는 기대 이상인 점을 강조

실험 배경 및 한계

  • 노트북 환경에서 강력한 모델을 빠르게 학습하는 것은 현실적이지 않은 호기심에서 출발한 실험
  • 실제로는 클라우드에서 고성능 GPU(H100 등) 로 더 강력한 모델을 학습할 수 있으나, 실험의 한계 조건은 시간(5분)임
  • 모델 크기가 커질수록 토큰 처리 속도가 느려져 5분 내 좋은 결과를 내기 어려움
    • 너무 작은 모델(예: 10K 파라미터)은 충분한 복잡도를 학습하지 못함
    • 실용적인 범위는 약 1M~2M 파라미터 모델임

처리량 최적화

  • MPS(Apple의 Metal Performance Shaders) 사용이 가장 효과적임
  • torch.compile, float16, MLX 등 다양한 수학적 최적화는 기대보다 성능 개선 효과 미미하거나 오히려 저하
  • 그래디언트 누적은 메모리 관리 목적이 있으나, 실제로는 속도 저하 심각
  • 모델이 내부 메모리에서 빠르게 weight update 할 수 있어야 효율적

데이터셋 선택

  • 제한된 토큰 수(약 10~20M)로 Simple English Wikipedia 등 단순 영문 위키 데이터를 먼저 사용한 결과, 문법적 일관성은 잡았으나 의미 일관성 부족
    • 고유명사 중심, 억지로 만든 듯한 사실 나열로 유의미한 내용 생성에 한계
  • TinyStories 데이터셋 사용 시, 이야기 구조가 명확하고 언어가 단순하여 결과가 훨씬 더 일관적이고 의미 있음
    • 4세 수준 스토리로, 작은 모델에도 학습이 잘 이루어짐

토크나이저 및 토큰화

  • 토크나이저 트레이닝은 5분 내 포함되지 않으며, 데이터 규모가 작으므로 최적화 필요성 낮음
  • 멀티바이트 토큰 학습이 모델 학습에 더 쉬움

모델 아키텍처 실험

  • 트랜스포머(GPT-2 스타일) 아키텍처 사용

    • 2~3 레이어, SwiGLU 등 활성화 함수, positional embedding 등 하이퍼파라미터 조정
    • LSTM은 성능이 근접하지만 트랜스포머가 퍼플렉시티 측면에서 더 우수
    • Dropout, mixture-of-experts 등은 크기가 작아 비효율적
    • Curriculum learning은 학습 시간이 너무 짧아 효과 미비
  • Diffusion 모델(D3PM) 시도

    • 자연어는 이산 토큰이므로 확산 과정에서 무의미한 랜덤 토큰만 생성되어 실패
    • 트랜스포머나 LSTM 대비 빠른 문장 구조 형성이 어려움

모델 크기와 토큰/초 처리량 관계

  • 1M~2M 파라미터 모델이 가장 이상적인 sweet spot
    • 너무 크면 5분 내 수렴 불가, 너무 작으면 학습 즉시 성능 한계 도달
  • Chinchilla scaling law와 실험 결과가 대체로 일치함
    • 전체 훈련 토큰/20이 이상적인 모델 크기로, 해당 실험에서도 확인됨

결론 및 시사점

  • 매우 짧은 시간, 작은 하드웨어로도 일관된 스토리텔링 모델 학습이 가능
  • 5분 학습은 강력한 모델 개발에는 적합하지 않지만, 소규모·초경량 모델 설계와 하드웨어·아키텍처 최적화 실험에는 의의가 있음
  • 향후 노트북 GPU 및 모델 구조 발전 시, 단 몇 분 내 훈련 가능한 모델 성능의 발전 가능성 있음
Hacker News 의견
  • 그의 양자 암호화 관련 강연을 보고 싶음, 영상 초반에 언급된 그 강연 링크 아는 사람 있냐고 궁금증 표현함

  • 작은 모델의 최적화된 학습은 접근성뿐 아니라 LLM의 과학적 연구에도 중요함, 생물학 연구에서 효모 같은 단순 유기체를 쓰는 것처럼, 이해와 제어를 위해 대형 모델의 흥미로운 행동을 보이는 가장 단순한 트랜스포머를 연구할 필요가 있음

    • 최근 인상 깊게 들은 팟캐스트 중 하나가 Tiny Stories 논문과 데이터셋에 대한 것이었음, 이 데이터셋은 유아용 동화 같은 단순한 단어와 개념만 포함하는데, 이걸로 작은 모델도 문법, 다양성, 추론을 갖춘 영어 생성이 가능해짐, 저자와의 팟캐스트 자체도 LLM의 능력을 작고 통제된 연구 예제로 멋지게 설명해줌, 생물학적 비유에서 데이터셋은 아마도 아주 단순하고 통제된 환경인 한천 배지라고 생각함, 관련 링크는 팟캐스트 에피소드, TinyStories 논문

    • 많은 기업이 사용자 구매 이력 같은 사설 데이터셋을 이용해 작은 모델로 실제 비즈니스 문제를 해결할 수 있음, 대형 언어 모델에서 나온 진보도 입력 시퀀스를 특화 언어로 표현 가능하다면 작은 문제에 그대로 적용 가능함

    • 작은 모델에서 나온 행동과 최적화가 대형 모델에서는 재현이 잘 안된다는 점이 널리 알려져 있음

    • 여기서 저자가 하는 일은 프리트레이닝임, 보통 Google이나 Meta 등 모델 제작자들이 하는 일이고, 비즈니스라면 파인튜닝이나(혹은 좀 적게는) 추가 프리트레이닝이 훨씬 실용적임, 저자가 학문적 이유로 이걸 시도함을 강조함

    • 노트북에서 빠르게 동작하는 모델에 관심 있는데, 학습 과정만큼은 며칠 혹은 그 이상까지 걸릴 수 있음

  • 시간 대신 에너지를 기준으로 삼으면 좋겠다는 생각임, 즉 joule 단위로 주어진 에너지 예산 안에서 최고의 모델을 학습하는 게 진짜 비교가 될 거고, 그럼 MBP와 H100 간의 비교도 더 공정해질 것임

    • 여기서 핵심은 효율성이 아닌 ‘접근성’임, H100은 일상용 제품이 아니지만 노트북은 그렇기 때문임

    • 이해하고 있는 바로는 Mac이 전력 소비 측면에선 더 경쟁력이 있음, Nvidia GPU처럼 전력을 끌어쓰지 않으니까, 참고로 H100을 시간당 10달러 미만으로 임대할 수 있으니, 1시간 이내에 학습할 수 있는 모델의 성능을 겨루는 것도 흥미로울 것 같음

    • 어떤 기준이든 괜찮다고 생각함, 약간 임의적이어도 나쁘지 않다고 봄

    • 노트북 기반이냐, MacBook Pro 기반이냐로 실질 지표를 표현하자는 취지라면 목적을 명확히 해줬으면 좋겠다고 생각함

  • 이제 AI 효율성 올림픽 개최하자는 느낌임, 노트북이든 데스크톱이든, 폰이든, 5분이든, 1시간이든, 하루든, 일주일이든, 배 위에서든 염소와 함께든 장소 불문 가능하다고 유쾌하게 표현함

    • 염소와 함께라니, 아마 Llama를 말한 것 같음, 운율 맞추기는 제한적이지만 보스턴 악센트라면 더 재밌을 듯함

    • Vernor Vinge 소설 중 인간이 휴대용 체스 컴퓨터를 제작해 경기 중 조수로 쓰는 이야기가 있음, 대회에서 체스 시계 외에 전원도 제공되면 참가자들이 자신의 AI에 유리한 수를 고민할 수 있어 독특할 거라 생각함

    • Mac Studio M3 Ultra 512GB로 극한 성능 내서 표현한 문장, 그 배라면 염소도 띄울 수 있을 거라는 식의 농담

    • 염소는 파라미터 수가 너무 많아서 거의 GPT-4급이라는 농담

    • GoatLM이 나오면 결제 의향 있음

  • "Paris, France is a city in North Carolina..."라는 헛소리 예시에 공식적으로 중요한 사람(officially major people)이라는 표현이 마음에 듦, 일상 회화에서 어떻게 쓸 수 있을지 궁금하다고 함

  • 최근 몇 년 전 “cramming” 논문을 연상시킨다는 의견임, 저자가 하루 동안 현대 노트북으로 최적의 모델을 학습하려 시도한 내용을 담고 있다고 논문 링크 공유함

  • GPT-2 speedrun 시도에서 가져온 몇 가지 트릭(Muon, 더 나은 가중치 초기화, 세심한 학습률 조정)만 적용해도 훨씬 더 나아질 수 있을 거라 생각함, 관련 자료는 여기

  • AI에는 demoscene(90년대 그래픽 데모쇼처럼 작은 자원에서 기술 뽐내기 문화)이 부족하다고 생각함

  • 작은, 더 전문화된 모델을 만들고 싶고 필요에 따라 바로 만드는 것도 가치 있다고 느낌, 모든 걸 아는 대형 모델이 필요한 게 아니라 내가 일하는 도메인에만 레이저로 초점을 맞춰서 매우 빠르게 동작하는 모델이 더 필요함, 나는 대형 LLM에게 “<필요 작업>에 최적화된 모델을 학습시키는 스크립트 작성해 줘”라고 요청하고 그 모델로 돌릴 수 있길 원함, 그런데 댓글 쓰는 사이에 Google이 Gemma 3 270M을 출시함

    • 실제론 머신러닝 분야에서 전문가보다 범용 모델이 그 전문가의 태스크에서도 더 좋은 성능을 내는 것이 하나의 트렌드임
  • "Paris, France is a city in North Carolina..." 같은 헛소리가 나오는 예시를 들어, “모른다(I don't know)”고 할 수 있는 기술만 있으면 작은 모델이 훨씬 더 쓸모있어질 것임, 엄청 큰 LLM이 필요한 건 범위가 워낙 넓어서 지어내지 않게 하기 때문임, 고객상담 챗봇을 노트북에서 적당한 시간 내에 학습시키는 게 가능해지면 좋겠지만, 해당 도메인 밖에선 심각하게 엉뚱한 대답을 할 확률이 높음

    • 노트북에서 단 5분만에 학습한 AI로 작은 모델의 한계를 따지는 것은 무리가 있다고 생각함, 물론 환각 문제가 여전히 크지만 해당 기사에서 그런 면에서의 인사이트를 더 얻은 것 같지는 않음