Smollm3 - 작고, 다국어를 지원하는 긴 컨텍스트

▲

GN⁺ 10달전 | parent | ★ favorite | on: Smollm3 - 작고, 다국어를 지원하는 긴 컨텍스트 추론 LLM(huggingface.co)

Hacker News 의견

대부분의 SOTA 성능을 3B 크기에서 달성한 모습, 완전 공개와 코드, 재현 레시피까지 모두 공개한 드문 모델 클럽에 당당히 추가된 느낌. 직접 훈련하려면 약 백만 달러 상당의 GPU 시간이 필요할 것 같음 (4000 GPU/24일 기준), 공유가 풍부한 문서도 인상적, 업계에 긍정적이고 탄탄한 기여라는 평가
- 실상은 384대의 H100을 24일간 돌려야 하니, 비용이 백만 달러의 절반도 안됨
- 아침에 Phi-4-mini 벤치마크와 10분 정도 교차검증했는데, 벤치마크에서 해당 모델이 빠진 게 이상했고 전반적으로 항상 뒤처지는 걸로 나옴. 참고로 나는 LLM 클라이언트 개발 중이고, 로컬과 클라우드의 격차를 최소화하는 게 핵심 목표임 (llama.cpp 활용). 현재 마이크로소프트 외엔 로컬 AI를 지속적으로 진지하게 보는 회사가 거의 없음. 평소엔 이런 얘기 덮어두지만, HF가 정말 훌륭한 시민임에도, 슈퍼스타를 언급하지 않은 채 다른 모델의 우수성만 강조하는 건, 이 분야에서 오래된 소타(local SoTA)를 외면하는 결과라 생각, 그래서 이번엔 나서서 이야기하는 것에 의미를 둠
이 모델은 작고 (3B), 벤치마크에서 훌륭한 성능을 보여줌. 엣지/모바일 배포에 잘 어울리기 때문에 gemma3-4b 대비 이득이 큼. 추론/비추론 듀얼 모드 지원, 그리고 전체 훈련 방식을 완전히 공개함> SmolLM3를 엔지니어링 블루프린트와 함께 공개. 세부 구조, 도메인별 성능을 점진적으로 끌어올리는 3단계 프리트레이닝 전략, 하이브리드 추론 모델 구축 방법론까지 포함. 이런 결과 얻으려면 보통 몇 달간 역공학 하는 게 필요하지만, 우리는 전체 방법론을 공개함
llama.cpp와 기타 추론 엔진용 챗 템플릿 문제 수정을 직접 했음, 실행하려면 다음 명령어 입력 ./llama.cpp/llama-cli -hf unsloth/SmolLM3-3B-GGUF:Q4_K_XL --jinja -ngl 99
Qwen3 distill에 거의 근접한 성능이지만 모델 크기는 75%밖에 안됨, 이건 대단한 일. smollm 베이스 모델은 이미 고품질이라 미세조정에도 꾸준히 써왔고, 가까운 미래에는 로컬 에이전트나 코드 완성에도 쓸 계획. RL 알고리즘도 흥미롭게 보임. 지금까지는 OpenAI 알고리즘 중심으로 작업했는데, 최신 SOTA를 점검할 때가 된 것 같음 (진짜 이쪽 속도는 미친 듯이 빨라서 따라가기 힘듦)
다양한 엔터프라이즈 데이터셋에 파인튜닝하기 좋은 소형 모델 추천이 궁금, 우리 사업부에서 브라우저와 모바일에서 돌릴 수 있는 소형 모델을 찾고 있는데, RAG와 클라우드 리소스 고생 없이 해결하고 싶음
- 소형 모델은 지식 축적에 약점. 지식을 심으려고 파인튜닝하는 방식은 별로 권장하고 싶지 않음. 대신 오프라인 배포 가능한 내장형 RAG 시스템을 wasm으로 구현하는 게 나아보임, 이 방식으로 성공하는 사례들도 존재
- 직접 여러 모델을 다 시험해보고 제대로 된 벤치마크를 갖추는 게 중요. 머신러닝이 전문 분야는 아니지만 Mistral 7B 공식 가이드와 툴로 파인튜닝 했을 때도 결과가 기대에 미치지 못함. 데이터 셋에서 아주 특정한 질문을 넣었는데 파인튜닝 변형을 아무리 해도 제대로 답하지 못함. 정보 학습을 기대하는 것보단 벡터 검색+키워드 검색 혼합이 문맥 추출에 훨씬 효과적. 사전 훈련 데이터셋 접근법을 썼고, 데이터 기반으로 Q&A를 합성해서 훈련하는 접근이 더 나을 수 있겠지만, 그 방법까지 실험할 시간은 부족했음
- Gemma 3N 2B로 파인튜닝해 봤는데 성능 좋음, 다만 S23U에서 로딩이 느림. 일단 띄우면 잘 돌아감. SmolVLM 256M, 500M도 써봤는데 훨씬 빠르게 뜨고 앱에 자산 형태로 포함시킬 수 있음, 어느 정도 노하우 있으면 쓸 만함. 다만 작은 모델들은 파라미터 한계로 성능이 제한적. 그리고 안드로이드에선 2GB 이상 파일은 압축 이슈로 배포가 안 되니까 모델은 따로 받아야 하고, 또 다운로드 폴더에선 바로 로딩이 안 되기 때문에 앱 전용 폴더로 복사해야 함. Gemma 3N 2B가 3.14GB인데 최소 7GB 여유 공간 필요
- 이런 식으로 파인튜닝해서 얻고자 하는 목적이 궁금
영국 코미디 스케치 소재 같은 부분"이거, 소형이라면서도 대형 언어모델이라고요?""네, 정말 작아요.""근데 어떻게 크면서도 작죠?""대형 언어모델 기준으로 보면… 작아요.""즉, 크단 말이죠?""맞아요, 꽤 커요.""뭐랑 비교해서 큰 거죠?""소형 언어모델이랑요.""그럼 ChatGPT 같은 건 뭐죠? 대형 중에서도 대형?""정확해요. LLLM이죠."
- 호주풍 코미디 느낌, Clarke and Dawe/Utopia 스타일을 연상
- 기준 자체가 계속 변함. GPT-2는 한때 "대형"이었지만, 지금은 이 모델 크기의 절반 수준. 게다가 Sam Altman은 그때 GPT-2조차도 위험해서 공개 못 한다고 했음. 내 기준에선 소비자용 기기에서 못 돌리면 "대형"이고, 정의를 놓고 논쟁하는 건 의미가 약함
- 미니어처 거대 우주 햄스터는 건드리지 않겠음 (BG 게임 유머)
- big little planet이냐, small big planet이냐 헷갈림
듣기로 llama3 모델들은 꽤 파인튜닝이 쉽다고 알고 있음 (혹시 틀렸거나, 여기 더 괜찮은 모델이 있다면 지적 부탁). smollm3의 파인튜닝 난이도는 어느 정도인지 궁금, MoE LLM들은 그 부분에서 유난히 변덕을 부리는 느낌
흥미로운 점은, RL을 자체적으로 적용하지 않고, 대형 데이터셋에서 추론 흔적(reasoning trace)만으로 파인튜닝을 했다는 부분
- 실제론 Anchored Preference Optimization 같은 오프라인 방법을 사용함, Open R1 프로젝트에서 봤듯 소형 모델에 멀티태스크 RL 적용하는 건 꽤 만만치 않은 일. 오프라인 방법은 데이터셋 큐레이션/생성이 핵심이라 반복 속도가 훨씬 빠름. 우리가 다루는 모델 스케일에 적합한 방식임
멋진 작업, anton 및 관계자들에게 존경 전함. 50~100M 파라미터 크기의 모델들도 계속 이어지길 바람. Solve by LLM 테스트 케이스처럼 CPU에서 신속하게 끝나는 모델도 충분히 의미 있다고 생각