# Olmo 3: 오픈소스 AI를 선도하기 위한 모델 플로우의 새로운 경로

> Clean Markdown view of GeekNews topic #24530. Use the original source for factual precision when an external source URL is present.

## Metadata

- GeekNews HTML: [https://news.hada.io/topic?id=24530](https://news.hada.io/topic?id=24530)
- GeekNews Markdown: [https://news.hada.io/topic/24530.md](https://news.hada.io/topic/24530.md)
- Type: GN+
- Author: [xguru](https://news.hada.io/@xguru)
- Published: 2025-11-22T09:32:09+09:00
- Updated: 2025-11-22T09:32:09+09:00
- Original source: [allenai.org](https://allenai.org/blog/olmo3)
- Points: 5
- Comments: 1

## Summary

**Olmo 3**는 단순히 오픈소스 모델을 공개하는 수준을 넘어, **데이터 수집부터 강화학습까지의 전체 개발 흐름(model flow)** 을 완전히 드러내며 AI 연구의 투명성을 한 단계 끌어올립니다. **Dolma 3·Dolci 데이터셋**과 **OlmoTrace** 도구를 통해 모델의 출력이 어떤 학습 데이터에서 비롯되었는지 추적할 수 있어, “블랙박스 AI”의 한계를 실질적으로 해소합니다. 7B·32B 규모의 **Base, Think, Instruct, RL Zero** 모델은 코드·수학·대화 등 다양한 영역에서 경쟁 모델을 능가하며, 연구자들이 직접 포크·수정·재학습할 수 있는 완전한 오픈 워크플로를 제공합니다. AI를 신뢰 가능한 공공 인프라로 만들려는 시도 중 가장 구체적이고 실험적인 사례라, 오픈소스 생태계에 관심 있는 개발자라면 놓치기 아까운 프로젝트입니다.

## Topic Body

- **Olmo 3**는 모델의 최종 결과뿐 아니라 **전체 개발 과정(model flow)** 을 공개해, 데이터·코드·체크포인트까지 완전한 추적 가능성을 제공  
- 7B와 32B 파라미터 규모의 **Base, Think, Instruct, RL Zero** 네 가지 모델로 구성되어, **추론·대화·강화학습** 등 다양한 연구 목적에 맞게 활용 가능  
- **Dolma 3**와 **Dolci** 데이터셋을 기반으로, 웹·코드·수학·과학 등 약 **9.3조 토큰** 규모의 투명한 학습 데이터 공개  
- **OlmoTrace** 도구를 통해 모델의 출력이 어떤 학습 데이터에서 비롯되었는지 실시간으로 추적 가능, **투명성과 신뢰성 강화**  
- 완전한 오픈소스 공개로 누구나 모델의 특정 단계에서 개입·수정·재학습이 가능하며, **검증 가능한 AI 연구 생태계** 구축  

---

### Olmo 3 개요
- Olmo 3는 **Allen Institute for AI(Ai2)** 가 공개한 차세대 오픈소스 언어 모델 패밀리로, 모델의 **전체 개발 흐름(model flow)** 을 공개하는 것이 핵심  
  - 모델 플로우는 데이터 수집, 전처리, 학습, 미세조정, 강화학습 등 모든 단계를 포함  
  - 이를 통해 연구자와 개발자가 모델의 내부 작동 원리를 분석하고 수정 가능  
- Olmo 3는 **7B와 32B 파라미터** 버전으로 제공되며, 노트북부터 연구 클러스터까지 다양한 환경에서 실행 가능  

### 주요 모델 구성
- **Olmo 3-Base (7B, 32B)**  
  - 완전 공개된 베이스 모델로, 코드·수학·독해 등 다양한 영역에서 **최상급 성능**  
  - Qwen 2.5, Gemma 3 등 동급 모델과 경쟁하며, **65K 토큰**의 확장 컨텍스트 지원  
- **Olmo 3-Think (7B, 32B)**  
  - 다단계 추론 문제를 학습한 **추론 특화 모델**, RL 연구 및 장기적 사고 실험에 적합  
  - 32B 모델은 MATH, OMEGA, BigBenchHard 등에서 **동급 최고 수준 성능**  
- **Olmo 3-Instruct (7B)**  
  - 대화·명령 수행·도구 사용에 최적화된 모델로, Qwen 2.5·Gemma 3·Llama 3.1을 **동급 혹은 상회**  
- **Olmo 3-RL Zero (7B)**  
  - 강화학습 알고리듬 평가용 완전 공개 경로 제공, 수학·코드·지시 따르기 등 **4가지 도메인 체크포인트** 포함  

### 성능 및 벤치마크
- Olmo 3-Base 32B는 **Marin 32B, Apertus 70B** 등 완전 공개 모델을 능가  
  - GSM8k(수학) 80.5점, HumanEval(코드) 66.5점 등 주요 벤치마크에서 우수한 결과  
- Olmo 3-Think 32B는 **Qwen 3 32B**와 비슷하거나 근접한 성능을 보이며, **HumanEvalPlus·IFEval** 등에서 최고 점수 기록  
- Olmo 3-Instruct 7B는 **안전성(Safety)** 항목에서 87.3점으로 비교 모델 중 최고  

### 아키텍처와 학습 과정
- **디코더 전용 트랜스포머 구조** 사용, 3단계 사전학습(기초→중간→장문)과 3단계 후학습(SFT→DPO→RLVR)으로 구성  
- 각 단계별 **체크포인트 공개**, 연구자가 원하는 시점에서 모델을 포크하거나 실험 가능  
- **Dolma 3**(약 9.3조 토큰)과 **Dolci** 데이터셋을 통해 학습 전 과정의 데이터 투명성 확보  
  - Dolma 3 Mix(6조 토큰), Dolmino(100B 토큰), Longmino(50B 토큰) 등 세부 구성  
  - Dolci는 SFT·DPO·RLVR 각 단계별로 별도 데이터 믹스 제공  

### 효율적 학습 인프라
- 최대 **1,024개의 H100 GPU**로 학습, 7B 모델 기준 **7.7K 토큰/초** 처리 속도  
- **in-flight weight updates**, **continuous batching**, **스레딩 개선** 등으로 RL 학습 효율 **4배 향상**  
- Olmo 3의 32B 모델은 **성능과 접근성의 균형점**으로 설정되어, 연구자들이 직접 미세조정 가능  

### 투명성과 도구 생태계
- **OlmoTrace**를 통해 모델 출력과 학습 데이터 간의 연결을 시각적으로 추적 가능  
- 모든 데이터셋과 툴체인은 **오픈소스**로 공개  
  - **Olmo-core**(분산 학습 프레임워크), **Open Instruct**(후학습 파이프라인), **datamap-rs**(데이터 정제), **duplodocus**(중복 제거), **OLMES**(평가 툴킷) 등 포함  
- 연구자는 모델의 중간 추론 단계와 실패 지점을 분석해 **모델 행동의 원인 파악** 가능  

### 활용 및 의의
- Olmo 3는 연구·교육·응용 개발 등에서 **신뢰 가능한 AI 시스템 구축**을 지원  
- 모델의 모든 단계가 공개되어 있어, **재현성·검증 가능성·협업 연구** 촉진  
- Ai2는 “진정한 오픈소스 AI는 단순한 접근이 아니라 **신뢰와 책임, 공동 발전**을 의미한다”고 명시  
- Olmo 3는 **완전한 투명성**을 통해 누구나 AI의 내부를 이해하고 개선할 수 있는 **새로운 개방형 연구 패러다임** 제시

## Comments


### Comment 46669

- Author: neo
- Created: 2025-11-22T09:32:10+09:00
- Points: 1

###### [Hacker News 의견](https://news.ycombinator.com/item?id=46001889) 
- 내가 생각하는 **AI의 미래**는 완전히 추적 가능한 추론 단계가 있는 시스템임  
  이런 투명성이 없으면 일반 대중이 대형 LLM 기반 시스템을 이해하거나 통제할 방법이 없을 것 같음  
  결국 **Big Tech**나 권위주의자, 혹은 AI 자체가 마음대로 행동하게 될 위험이 있음
  - 그래서 많은 사람들이 이런 접근 자체를 없애고 싶어 한다는 점이 흥미로움
  - 최소한 각 AI 모델이 어떤 **훈련 데이터**를 사용했는지는 알아야 함  
    제3의 기관이 감사를 하고 투명성 보고서를 제공하는 구조가 필요하다고 생각함
  - 투명성은 좋지만, 응답을 **조정 가능**하게 만드는 건 큰 **UI/UX 과제**임  
    이런 시도가 계속 반복되길 바람
- “오픈소스 AI”라는 용어는 이미 마케팅에 의해 왜곡된 느낌임  
  단순히 **가중치 공개**만으로 오픈소스라 부르는 건 잘못된 관행임  
  진짜 오픈소스 모델은 “**투명 모델**” 같은 새로운 이름이 필요함
- 기린이 **코셔(kosher)** 음식인지 물어봤더니, 모델이 “아니다”라고 답했음  
  하지만 내 해석과 탈무드 법에 따르면 기린은 되는데, GPT5.1은 내 쪽 해석에 동의했음
  - 모델이 이런 종교적 세부 정보를 **암기**하고 있는 건 이상함  
    이런 정보는 RAG 같은 검색 기반으로 가져와야 함  
    “모르겠다”고 답하는 모델이 더 유용할 것 같음
  - 혹시 몇 번 재시도했는지, **temperature**나 **top_p** 값은 어떻게 설정했는지 궁금함
  - 사실 이런 질문은 더 이상 **공공재의 기준**이 될 수 없다는 점이 흥미로움
- 최근 내 주요 워크플로를 OpenAI에서 **로컬 모델**로 옮기고 있음  
  작은 모델들은 **엣지 케이스**를 무리하게 처리하려는 경향이 있음  
  그래서 “edge_case”라는 출구를 만들어주면 훨씬 잘 작동함  
  이런 **프롬프트 해킹** 팁들을 모아두는 중앙 저장소가 있었으면 함
  - “edge_case”가 구조화된 출력 스키마의 **키(key)** 인지 궁금함
  - 혹시 **Open WebUI**나 **LibreChat** 같은 프론트엔드를 쓰는지, 아니면 직접 호출하는지 궁금함
- [AllenAI Playground](https://playground.allenai.org/)에서 “Show OlmoTrace”를 눌러봤는데  
  모델 응답과 일치하는 **훈련 데이터 문서**를 보여준다고 함  
  하지만 실제로는 단순히 **N-gram** 일치만 찾는 수준이라 추적성이라 보기 어려움  
  결과가 질문과 무관한 문서에서 나온 경우도 있었음  
  [N-gram 설명](https://en.wikipedia.org/wiki/N-gram)
  - Olmo 연구자로서 말하자면, OlmoTrace의 목적은 응답을 특정 문서에 귀속시키는 게 아님  
    대신 모델이 어떤 **훈련 데이터 조각**에 영향을 받았는지를 보여주는 것임  
    예를 들어, 여러 모델이 같은 농담이나 숫자를 반복하는 이유를 추적할 수 있음
- 모델 크기는 7B, 20B, 32B 세 가지 라인업이 이상적이라 생각함  
  7B는 8GB GPU, 32B는 24GB GPU에 맞고, **20B급 모델**은 16GB GPU에 딱 맞음
  - 물론 **아키텍처**에 따라 다름  
    여전히 최적 크기를 찾는 실험이 진행 중임  
    개인적으로는 GPU에 **확장 가능한 VRAM**이 생기길 바람
- 7B 모델에게 “hi, who are u”라고 물었더니, 내부적으로 문장을 분석하다가 멈췄음  
  아마 **OpenWebUI 버그**로 보임
  - 새 모델이 나올 때마다 지원하지 않는 소프트웨어에서 테스트하는 사례가 많음  
    GPT-OSS 때도 그랬고, 이번 **OLMo**도 비슷한 상황이 반복될 듯함
  - 내가 직접 [플레이그라운드](https://playground.allenai.org/)에서 해보니  
    7B는 “Hi! I'm Olmo 3…”라고, 32B는 “Hi! I'm Olmo…”라고 답함
  - Ai2의 **포스트트레이닝 팀 연구자**인데, 혹시 어디서 테스트했는지 궁금함
  - “good morning”을 과하게 분석하는 **농담**이 떠오름  
    결국 단순한 인사도 철학적 해석으로 끝나는 느낌임
  - 혹시 **completion token** 제한이 걸린 건 아닌지 확인해보길 권함
- **Dolma3 데이터셋**을 [Hugging Face](https://huggingface.co/datasets/allenai/dolma3)에서 봤는데  
  첫 줄부터 **성인 사이트 텍스트**가 포함돼 있어서 놀랐음
  - 아직 **큐레이션 전 단계**일 가능성이 높음  
    전체 파이프라인을 공개하려면 이런 데이터도 포함해야 함  
    다만 미리보기에서 이런 부분이 바로 보이지 않게 조정했으면 좋았을 듯함
  - 어차피 **에로틱 픽션**은 이런 모델의 주요 사용 사례 중 하나이기도 함
- 작은 모델의 실제 활용처가 궁금함  
  대부분은 **온디바이스 추론**용으로 보이는데, 다른 사례가 있을까?
  - Ai2의 연구자로서 말하자면, 7B는 **소비자 GPU용 로컬 모델**, 32B는 더 다양한 응용 가능  
    많은 기업들이 **Qwen 3** 파인튜닝 모델을 쓰다가 **Olmo 32B**로 전환할 수도 있음
  - 우리 팀은 **도메인 특화 분류기**로 7B 모델을 파인튜닝함  
    작은 비LLM보다 성능이 더 좋았음
  - 나는 **Qwen3-30B-VL**을 VRAM에 상시 띄워두고 있음  
    단순한 구글 검색보다 빠르고, **터미널 명령어**나 **파일 탐색**, **노트 정리**까지 처리함  
    속도(90tok/s)와 저지연 덕분에 자잘한 작업을 훨씬 효율적으로 처리할 수 있음  
    반면 **Sonnet 4.5**는 느리고 미묘하게 틀려서 실사용엔 비효율적임
- **Qwen3-30B-VL**은 일상용으로 거의 완벽함  
  속도도 빠르고(90tok/s), 대부분의 작업을 커버함  
  이런 연구가 중요하지만, **밀집형(dense)** 모델이 이 속도를 따라잡긴 어려움
  - Olmo 개발자로서 말하자면, Qwen 모델이 빠른 이유는 **MoE 구조** 덕분임  
    다음 Olmo 버전에서도 MoE를 도입할 예정임
  - 새 맥북에서 돌려보니 느렸지만, 대신 **Qwen2.5:14B**는 즉각적인 피드백을 줌  
    심지어 **에스페란토어**로도 자연스럽게 대화 가능했음
  - Qwen3-30B-VL이 더 “똑똑한” 이유가 단순히 크기보다 **아키텍처 차이** 때문인지 궁금함