Olmo 3: 오픈소스 AI를 선도하기 위한 모델 플로우의 새로운 경로

(allenai.org)

1P by GN⁺ 3시간전 | ★ favorite | 댓글 1개

Olmo 3는 모델의 최종 결과뿐 아니라 전체 개발 과정(model flow) 을 공개해, 데이터·코드·체크포인트까지 완전한 추적 가능성을 제공
7B와 32B 파라미터 규모의 Base, Think, Instruct, RL Zero 네 가지 모델로 구성되어, 추론·대화·강화학습 등 다양한 연구 목적에 맞게 활용 가능
Dolma 3와 Dolci 데이터셋을 기반으로, 웹·코드·수학·과학 등 약 9.3조 토큰 규모의 투명한 학습 데이터 공개
OlmoTrace 도구를 통해 모델의 출력이 어떤 학습 데이터에서 비롯되었는지 실시간으로 추적 가능, 투명성과 신뢰성 강화
완전한 오픈소스 공개로 누구나 모델의 특정 단계에서 개입·수정·재학습이 가능하며, 검증 가능한 AI 연구 생태계 구축

Olmo 3 개요

Olmo 3는 Allen Institute for AI(Ai2) 가 공개한 차세대 오픈소스 언어 모델 패밀리로, 모델의 전체 개발 흐름(model flow) 을 공개하는 것이 핵심
- 모델 플로우는 데이터 수집, 전처리, 학습, 미세조정, 강화학습 등 모든 단계를 포함
- 이를 통해 연구자와 개발자가 모델의 내부 작동 원리를 분석하고 수정 가능
Olmo 3는 7B와 32B 파라미터 버전으로 제공되며, 노트북부터 연구 클러스터까지 다양한 환경에서 실행 가능

주요 모델 구성

Olmo 3-Base (7B, 32B)
- 완전 공개된 베이스 모델로, 코드·수학·독해 등 다양한 영역에서 최상급 성능
- Qwen 2.5, Gemma 3 등 동급 모델과 경쟁하며, 65K 토큰의 확장 컨텍스트 지원
Olmo 3-Think (7B, 32B)
- 다단계 추론 문제를 학습한 추론 특화 모델, RL 연구 및 장기적 사고 실험에 적합
- 32B 모델은 MATH, OMEGA, BigBenchHard 등에서 동급 최고 수준 성능
Olmo 3-Instruct (7B)
- 대화·명령 수행·도구 사용에 최적화된 모델로, Qwen 2.5·Gemma 3·Llama 3.1을 동급 혹은 상회
Olmo 3-RL Zero (7B)
- 강화학습 알고리듬 평가용 완전 공개 경로 제공, 수학·코드·지시 따르기 등 4가지 도메인 체크포인트 포함

성능 및 벤치마크

Olmo 3-Base 32B는 Marin 32B, Apertus 70B 등 완전 공개 모델을 능가
- GSM8k(수학) 80.5점, HumanEval(코드) 66.5점 등 주요 벤치마크에서 우수한 결과
Olmo 3-Think 32B는 Qwen 3 32B와 비슷하거나 근접한 성능을 보이며, HumanEvalPlus·IFEval 등에서 최고 점수 기록
Olmo 3-Instruct 7B는 안전성(Safety) 항목에서 87.3점으로 비교 모델 중 최고

아키텍처와 학습 과정

디코더 전용 트랜스포머 구조 사용, 3단계 사전학습(기초→중간→장문)과 3단계 후학습(SFT→DPO→RLVR)으로 구성
각 단계별 체크포인트 공개, 연구자가 원하는 시점에서 모델을 포크하거나 실험 가능
Dolma 3(약 9.3조 토큰)과 Dolci 데이터셋을 통해 학습 전 과정의 데이터 투명성 확보
- Dolma 3 Mix(6조 토큰), Dolmino(100B 토큰), Longmino(50B 토큰) 등 세부 구성
- Dolci는 SFT·DPO·RLVR 각 단계별로 별도 데이터 믹스 제공

효율적 학습 인프라

최대 1,024개의 H100 GPU로 학습, 7B 모델 기준 7.7K 토큰/초 처리 속도
in-flight weight updates, continuous batching, 스레딩 개선 등으로 RL 학습 효율 4배 향상
Olmo 3의 32B 모델은 성능과 접근성의 균형점으로 설정되어, 연구자들이 직접 미세조정 가능

투명성과 도구 생태계

OlmoTrace를 통해 모델 출력과 학습 데이터 간의 연결을 시각적으로 추적 가능
모든 데이터셋과 툴체인은 오픈소스로 공개
- Olmo-core(분산 학습 프레임워크), Open Instruct(후학습 파이프라인), datamap-rs(데이터 정제), duplodocus(중복 제거), OLMES(평가 툴킷) 등 포함
연구자는 모델의 중간 추론 단계와 실패 지점을 분석해 모델 행동의 원인 파악 가능

활용 및 의의

Olmo 3는 연구·교육·응용 개발 등에서 신뢰 가능한 AI 시스템 구축을 지원
모델의 모든 단계가 공개되어 있어, 재현성·검증 가능성·협업 연구 촉진
Ai2는 “진정한 오픈소스 AI는 단순한 접근이 아니라 신뢰와 책임, 공동 발전을 의미한다”고 명시
Olmo 3는 완전한 투명성을 통해 누구나 AI의 내부를 이해하고 개선할 수 있는 새로운 개방형 연구 패러다임 제시

▲

GN⁺ 3시간전 [-]

Hacker News 의견

내가 생각하는 AI의 미래는 완전히 추적 가능한 추론 단계가 있는 시스템임
이런 투명성이 없으면 일반 대중이 대형 LLM 기반 시스템을 이해하거나 통제할 방법이 없을 것 같음
결국 Big Tech나 권위주의자, 혹은 AI 자체가 마음대로 행동하게 될 위험이 있음
- 그래서 많은 사람들이 이런 접근 자체를 없애고 싶어 한다는 점이 흥미로움
- 최소한 각 AI 모델이 어떤 훈련 데이터를 사용했는지는 알아야 함
  제3의 기관이 감사를 하고 투명성 보고서를 제공하는 구조가 필요하다고 생각함
- 투명성은 좋지만, 응답을 조정 가능하게 만드는 건 큰 UI/UX 과제임
  이런 시도가 계속 반복되길 바람
“오픈소스 AI”라는 용어는 이미 마케팅에 의해 왜곡된 느낌임
단순히 가중치 공개만으로 오픈소스라 부르는 건 잘못된 관행임
진짜 오픈소스 모델은 “투명 모델” 같은 새로운 이름이 필요함
기린이 코셔(kosher) 음식인지 물어봤더니, 모델이 “아니다”라고 답했음
하지만 내 해석과 탈무드 법에 따르면 기린은 되는데, GPT5.1은 내 쪽 해석에 동의했음
- 모델이 이런 종교적 세부 정보를 암기하고 있는 건 이상함
  이런 정보는 RAG 같은 검색 기반으로 가져와야 함
  “모르겠다”고 답하는 모델이 더 유용할 것 같음
- 혹시 몇 번 재시도했는지, temperature나 top_p 값은 어떻게 설정했는지 궁금함
- 사실 이런 질문은 더 이상 공공재의 기준이 될 수 없다는 점이 흥미로움
최근 내 주요 워크플로를 OpenAI에서 로컬 모델로 옮기고 있음
작은 모델들은 엣지 케이스를 무리하게 처리하려는 경향이 있음
그래서 “edge_case”라는 출구를 만들어주면 훨씬 잘 작동함
이런 프롬프트 해킹 팁들을 모아두는 중앙 저장소가 있었으면 함
- “edge_case”가 구조화된 출력 스키마의 키(key) 인지 궁금함
- 혹시 Open WebUI나 LibreChat 같은 프론트엔드를 쓰는지, 아니면 직접 호출하는지 궁금함
AllenAI Playground에서 “Show OlmoTrace”를 눌러봤는데
모델 응답과 일치하는 훈련 데이터 문서를 보여준다고 함
하지만 실제로는 단순히 N-gram 일치만 찾는 수준이라 추적성이라 보기 어려움
결과가 질문과 무관한 문서에서 나온 경우도 있었음
N-gram 설명
- Olmo 연구자로서 말하자면, OlmoTrace의 목적은 응답을 특정 문서에 귀속시키는 게 아님
  대신 모델이 어떤 훈련 데이터 조각에 영향을 받았는지를 보여주는 것임
  예를 들어, 여러 모델이 같은 농담이나 숫자를 반복하는 이유를 추적할 수 있음
모델 크기는 7B, 20B, 32B 세 가지 라인업이 이상적이라 생각함
7B는 8GB GPU, 32B는 24GB GPU에 맞고, 20B급 모델은 16GB GPU에 딱 맞음
- 물론 아키텍처에 따라 다름
  여전히 최적 크기를 찾는 실험이 진행 중임
  개인적으로는 GPU에 확장 가능한 VRAM이 생기길 바람
7B 모델에게 “hi, who are u”라고 물었더니, 내부적으로 문장을 분석하다가 멈췄음
아마 OpenWebUI 버그로 보임
- 새 모델이 나올 때마다 지원하지 않는 소프트웨어에서 테스트하는 사례가 많음
  GPT-OSS 때도 그랬고, 이번 OLMo도 비슷한 상황이 반복될 듯함
- 내가 직접 플레이그라운드에서 해보니
  7B는 “Hi! I'm Olmo 3…”라고, 32B는 “Hi! I'm Olmo…”라고 답함
- Ai2의 포스트트레이닝 팀 연구자인데, 혹시 어디서 테스트했는지 궁금함
- “good morning”을 과하게 분석하는 농담이 떠오름
  결국 단순한 인사도 철학적 해석으로 끝나는 느낌임
- 혹시 completion token 제한이 걸린 건 아닌지 확인해보길 권함
Dolma3 데이터셋을 Hugging Face에서 봤는데
첫 줄부터 성인 사이트 텍스트가 포함돼 있어서 놀랐음
- 아직 큐레이션 전 단계일 가능성이 높음
  전체 파이프라인을 공개하려면 이런 데이터도 포함해야 함
  다만 미리보기에서 이런 부분이 바로 보이지 않게 조정했으면 좋았을 듯함
- 어차피 에로틱 픽션은 이런 모델의 주요 사용 사례 중 하나이기도 함
작은 모델의 실제 활용처가 궁금함
대부분은 온디바이스 추론용으로 보이는데, 다른 사례가 있을까?
- Ai2의 연구자로서 말하자면, 7B는 소비자 GPU용 로컬 모델, 32B는 더 다양한 응용 가능
  많은 기업들이 Qwen 3 파인튜닝 모델을 쓰다가 Olmo 32B로 전환할 수도 있음
- 우리 팀은 도메인 특화 분류기로 7B 모델을 파인튜닝함
  작은 비LLM보다 성능이 더 좋았음
- 나는 Qwen3-30B-VL을 VRAM에 상시 띄워두고 있음
  단순한 구글 검색보다 빠르고, 터미널 명령어나 파일 탐색, 노트 정리까지 처리함
  속도(90tok/s)와 저지연 덕분에 자잘한 작업을 훨씬 효율적으로 처리할 수 있음
  반면 Sonnet 4.5는 느리고 미묘하게 틀려서 실사용엔 비효율적임
Qwen3-30B-VL은 일상용으로 거의 완벽함
속도도 빠르고(90tok/s), 대부분의 작업을 커버함
이런 연구가 중요하지만, 밀집형(dense) 모델이 이 속도를 따라잡긴 어려움
- Olmo 개발자로서 말하자면, Qwen 모델이 빠른 이유는 MoE 구조 덕분임
  다음 Olmo 버전에서도 MoE를 도입할 예정임
- 새 맥북에서 돌려보니 느렸지만, 대신 Qwen2.5:14B는 즉각적인 피드백을 줌
  심지어 에스페란토어로도 자연스럽게 대화 가능했음
- Qwen3-30B-VL이 더 “똑똑한” 이유가 단순히 크기보다 아키텍처 차이 때문인지 궁금함

답변달기