5분 만에 노트북에서 학습할 수 있는 가장 강력한 AI

▲

GN⁺ 8달전 | parent | ★ favorite | on: 5분 만에 노트북에서 학습할 수 있는 가장 강력한 AI 모델은 무엇일까?(seangoedecke.com)

Hacker News 의견

그의 양자 암호화 관련 강연을 보고 싶음, 영상 초반에 언급된 그 강연 링크 아는 사람 있냐고 궁금증 표현함
작은 모델의 최적화된 학습은 접근성뿐 아니라 LLM의 과학적 연구에도 중요함, 생물학 연구에서 효모 같은 단순 유기체를 쓰는 것처럼, 이해와 제어를 위해 대형 모델의 흥미로운 행동을 보이는 가장 단순한 트랜스포머를 연구할 필요가 있음
- 최근 인상 깊게 들은 팟캐스트 중 하나가 Tiny Stories 논문과 데이터셋에 대한 것이었음, 이 데이터셋은 유아용 동화 같은 단순한 단어와 개념만 포함하는데, 이걸로 작은 모델도 문법, 다양성, 추론을 갖춘 영어 생성이 가능해짐, 저자와의 팟캐스트 자체도 LLM의 능력을 작고 통제된 연구 예제로 멋지게 설명해줌, 생물학적 비유에서 데이터셋은 아마도 아주 단순하고 통제된 환경인 한천 배지라고 생각함, 관련 링크는 팟캐스트 에피소드, TinyStories 논문임
- 많은 기업이 사용자 구매 이력 같은 사설 데이터셋을 이용해 작은 모델로 실제 비즈니스 문제를 해결할 수 있음, 대형 언어 모델에서 나온 진보도 입력 시퀀스를 특화 언어로 표현 가능하다면 작은 문제에 그대로 적용 가능함
- 작은 모델에서 나온 행동과 최적화가 대형 모델에서는 재현이 잘 안된다는 점이 널리 알려져 있음
- 여기서 저자가 하는 일은 프리트레이닝임, 보통 Google이나 Meta 등 모델 제작자들이 하는 일이고, 비즈니스라면 파인튜닝이나(혹은 좀 적게는) 추가 프리트레이닝이 훨씬 실용적임, 저자가 학문적 이유로 이걸 시도함을 강조함
- 노트북에서 빠르게 동작하는 모델에 관심 있는데, 학습 과정만큼은 며칠 혹은 그 이상까지 걸릴 수 있음
시간 대신 에너지를 기준으로 삼으면 좋겠다는 생각임, 즉 joule 단위로 주어진 에너지 예산 안에서 최고의 모델을 학습하는 게 진짜 비교가 될 거고, 그럼 MBP와 H100 간의 비교도 더 공정해질 것임
- 여기서 핵심은 효율성이 아닌 ‘접근성’임, H100은 일상용 제품이 아니지만 노트북은 그렇기 때문임
- 이해하고 있는 바로는 Mac이 전력 소비 측면에선 더 경쟁력이 있음, Nvidia GPU처럼 전력을 끌어쓰지 않으니까, 참고로 H100을 시간당 10달러 미만으로 임대할 수 있으니, 1시간 이내에 학습할 수 있는 모델의 성능을 겨루는 것도 흥미로울 것 같음
- 어떤 기준이든 괜찮다고 생각함, 약간 임의적이어도 나쁘지 않다고 봄
- 노트북 기반이냐, MacBook Pro 기반이냐로 실질 지표를 표현하자는 취지라면 목적을 명확히 해줬으면 좋겠다고 생각함
이제 AI 효율성 올림픽 개최하자는 느낌임, 노트북이든 데스크톱이든, 폰이든, 5분이든, 1시간이든, 하루든, 일주일이든, 배 위에서든 염소와 함께든 장소 불문 가능하다고 유쾌하게 표현함
- 염소와 함께라니, 아마 Llama를 말한 것 같음, 운율 맞추기는 제한적이지만 보스턴 악센트라면 더 재밌을 듯함
- Vernor Vinge 소설 중 인간이 휴대용 체스 컴퓨터를 제작해 경기 중 조수로 쓰는 이야기가 있음, 대회에서 체스 시계 외에 전원도 제공되면 참가자들이 자신의 AI에 유리한 수를 고민할 수 있어 독특할 거라 생각함
- Mac Studio M3 Ultra 512GB로 극한 성능 내서 표현한 문장, 그 배라면 염소도 띄울 수 있을 거라는 식의 농담
- 염소는 파라미터 수가 너무 많아서 거의 GPT-4급이라는 농담
- GoatLM이 나오면 결제 의향 있음
"Paris, France is a city in North Carolina..."라는 헛소리 예시에 공식적으로 중요한 사람(officially major people)이라는 표현이 마음에 듦, 일상 회화에서 어떻게 쓸 수 있을지 궁금하다고 함
최근 몇 년 전 “cramming” 논문을 연상시킨다는 의견임, 저자가 하루 동안 현대 노트북으로 최적의 모델을 학습하려 시도한 내용을 담고 있다고 논문 링크 공유함
GPT-2 speedrun 시도에서 가져온 몇 가지 트릭(Muon, 더 나은 가중치 초기화, 세심한 학습률 조정)만 적용해도 훨씬 더 나아질 수 있을 거라 생각함, 관련 자료는 여기임
AI에는 demoscene(90년대 그래픽 데모쇼처럼 작은 자원에서 기술 뽐내기 문화)이 부족하다고 생각함
작은, 더 전문화된 모델을 만들고 싶고 필요에 따라 바로 만드는 것도 가치 있다고 느낌, 모든 걸 아는 대형 모델이 필요한 게 아니라 내가 일하는 도메인에만 레이저로 초점을 맞춰서 매우 빠르게 동작하는 모델이 더 필요함, 나는 대형 LLM에게 “<필요 작업>에 최적화된 모델을 학습시키는 스크립트 작성해 줘”라고 요청하고 그 모델로 돌릴 수 있길 원함, 그런데 댓글 쓰는 사이에 Google이 Gemma 3 270M을 출시함
- 실제론 머신러닝 분야에서 전문가보다 범용 모델이 그 전문가의 태스크에서도 더 좋은 성능을 내는 것이 하나의 트렌드임
"Paris, France is a city in North Carolina..." 같은 헛소리가 나오는 예시를 들어, “모른다(I don't know)”고 할 수 있는 기술만 있으면 작은 모델이 훨씬 더 쓸모있어질 것임, 엄청 큰 LLM이 필요한 건 범위가 워낙 넓어서 지어내지 않게 하기 때문임, 고객상담 챗봇을 노트북에서 적당한 시간 내에 학습시키는 게 가능해지면 좋겠지만, 해당 도메인 밖에선 심각하게 엉뚱한 대답을 할 확률이 높음
- 노트북에서 단 5분만에 학습한 AI로 작은 모델의 한계를 따지는 것은 무리가 있다고 생각함, 물론 환각 문제가 여전히 크지만 해당 기사에서 그런 면에서의 인사이트를 더 얻은 것 같지는 않음