1P by GN⁺ 3시간전 | ★ favorite | 댓글 1개
  • Olmo 3는 모델의 최종 결과뿐 아니라 전체 개발 과정(model flow) 을 공개해, 데이터·코드·체크포인트까지 완전한 추적 가능성을 제공
  • 7B와 32B 파라미터 규모의 Base, Think, Instruct, RL Zero 네 가지 모델로 구성되어, 추론·대화·강화학습 등 다양한 연구 목적에 맞게 활용 가능
  • Dolma 3Dolci 데이터셋을 기반으로, 웹·코드·수학·과학 등 약 9.3조 토큰 규모의 투명한 학습 데이터 공개
  • OlmoTrace 도구를 통해 모델의 출력이 어떤 학습 데이터에서 비롯되었는지 실시간으로 추적 가능, 투명성과 신뢰성 강화
  • 완전한 오픈소스 공개로 누구나 모델의 특정 단계에서 개입·수정·재학습이 가능하며, 검증 가능한 AI 연구 생태계 구축

Olmo 3 개요

  • Olmo 3는 Allen Institute for AI(Ai2) 가 공개한 차세대 오픈소스 언어 모델 패밀리로, 모델의 전체 개발 흐름(model flow) 을 공개하는 것이 핵심
    • 모델 플로우는 데이터 수집, 전처리, 학습, 미세조정, 강화학습 등 모든 단계를 포함
    • 이를 통해 연구자와 개발자가 모델의 내부 작동 원리를 분석하고 수정 가능
  • Olmo 3는 7B와 32B 파라미터 버전으로 제공되며, 노트북부터 연구 클러스터까지 다양한 환경에서 실행 가능

주요 모델 구성

  • Olmo 3-Base (7B, 32B)
    • 완전 공개된 베이스 모델로, 코드·수학·독해 등 다양한 영역에서 최상급 성능
    • Qwen 2.5, Gemma 3 등 동급 모델과 경쟁하며, 65K 토큰의 확장 컨텍스트 지원
  • Olmo 3-Think (7B, 32B)
    • 다단계 추론 문제를 학습한 추론 특화 모델, RL 연구 및 장기적 사고 실험에 적합
    • 32B 모델은 MATH, OMEGA, BigBenchHard 등에서 동급 최고 수준 성능
  • Olmo 3-Instruct (7B)
    • 대화·명령 수행·도구 사용에 최적화된 모델로, Qwen 2.5·Gemma 3·Llama 3.1을 동급 혹은 상회
  • Olmo 3-RL Zero (7B)
    • 강화학습 알고리듬 평가용 완전 공개 경로 제공, 수학·코드·지시 따르기 등 4가지 도메인 체크포인트 포함

성능 및 벤치마크

  • Olmo 3-Base 32B는 Marin 32B, Apertus 70B 등 완전 공개 모델을 능가
    • GSM8k(수학) 80.5점, HumanEval(코드) 66.5점 등 주요 벤치마크에서 우수한 결과
  • Olmo 3-Think 32B는 Qwen 3 32B와 비슷하거나 근접한 성능을 보이며, HumanEvalPlus·IFEval 등에서 최고 점수 기록
  • Olmo 3-Instruct 7B는 안전성(Safety) 항목에서 87.3점으로 비교 모델 중 최고

아키텍처와 학습 과정

  • 디코더 전용 트랜스포머 구조 사용, 3단계 사전학습(기초→중간→장문)과 3단계 후학습(SFT→DPO→RLVR)으로 구성
  • 각 단계별 체크포인트 공개, 연구자가 원하는 시점에서 모델을 포크하거나 실험 가능
  • Dolma 3(약 9.3조 토큰)과 Dolci 데이터셋을 통해 학습 전 과정의 데이터 투명성 확보
    • Dolma 3 Mix(6조 토큰), Dolmino(100B 토큰), Longmino(50B 토큰) 등 세부 구성
    • Dolci는 SFT·DPO·RLVR 각 단계별로 별도 데이터 믹스 제공

효율적 학습 인프라

  • 최대 1,024개의 H100 GPU로 학습, 7B 모델 기준 7.7K 토큰/초 처리 속도
  • in-flight weight updates, continuous batching, 스레딩 개선 등으로 RL 학습 효율 4배 향상
  • Olmo 3의 32B 모델은 성능과 접근성의 균형점으로 설정되어, 연구자들이 직접 미세조정 가능

투명성과 도구 생태계

  • OlmoTrace를 통해 모델 출력과 학습 데이터 간의 연결을 시각적으로 추적 가능
  • 모든 데이터셋과 툴체인은 오픈소스로 공개
    • Olmo-core(분산 학습 프레임워크), Open Instruct(후학습 파이프라인), datamap-rs(데이터 정제), duplodocus(중복 제거), OLMES(평가 툴킷) 등 포함
  • 연구자는 모델의 중간 추론 단계와 실패 지점을 분석해 모델 행동의 원인 파악 가능

활용 및 의의

  • Olmo 3는 연구·교육·응용 개발 등에서 신뢰 가능한 AI 시스템 구축을 지원
  • 모델의 모든 단계가 공개되어 있어, 재현성·검증 가능성·협업 연구 촉진
  • Ai2는 “진정한 오픈소스 AI는 단순한 접근이 아니라 신뢰와 책임, 공동 발전을 의미한다”고 명시
  • Olmo 3는 완전한 투명성을 통해 누구나 AI의 내부를 이해하고 개선할 수 있는 새로운 개방형 연구 패러다임 제시
Hacker News 의견
  • 내가 생각하는 AI의 미래는 완전히 추적 가능한 추론 단계가 있는 시스템임
    이런 투명성이 없으면 일반 대중이 대형 LLM 기반 시스템을 이해하거나 통제할 방법이 없을 것 같음
    결국 Big Tech나 권위주의자, 혹은 AI 자체가 마음대로 행동하게 될 위험이 있음
    • 그래서 많은 사람들이 이런 접근 자체를 없애고 싶어 한다는 점이 흥미로움
    • 최소한 각 AI 모델이 어떤 훈련 데이터를 사용했는지는 알아야 함
      제3의 기관이 감사를 하고 투명성 보고서를 제공하는 구조가 필요하다고 생각함
    • 투명성은 좋지만, 응답을 조정 가능하게 만드는 건 큰 UI/UX 과제
      이런 시도가 계속 반복되길 바람
  • “오픈소스 AI”라는 용어는 이미 마케팅에 의해 왜곡된 느낌임
    단순히 가중치 공개만으로 오픈소스라 부르는 건 잘못된 관행임
    진짜 오픈소스 모델은 “투명 모델” 같은 새로운 이름이 필요함
  • 기린이 코셔(kosher) 음식인지 물어봤더니, 모델이 “아니다”라고 답했음
    하지만 내 해석과 탈무드 법에 따르면 기린은 되는데, GPT5.1은 내 쪽 해석에 동의했음
    • 모델이 이런 종교적 세부 정보를 암기하고 있는 건 이상함
      이런 정보는 RAG 같은 검색 기반으로 가져와야 함
      “모르겠다”고 답하는 모델이 더 유용할 것 같음
    • 혹시 몇 번 재시도했는지, temperaturetop_p 값은 어떻게 설정했는지 궁금함
    • 사실 이런 질문은 더 이상 공공재의 기준이 될 수 없다는 점이 흥미로움
  • 최근 내 주요 워크플로를 OpenAI에서 로컬 모델로 옮기고 있음
    작은 모델들은 엣지 케이스를 무리하게 처리하려는 경향이 있음
    그래서 “edge_case”라는 출구를 만들어주면 훨씬 잘 작동함
    이런 프롬프트 해킹 팁들을 모아두는 중앙 저장소가 있었으면 함
    • “edge_case”가 구조화된 출력 스키마의 키(key) 인지 궁금함
    • 혹시 Open WebUILibreChat 같은 프론트엔드를 쓰는지, 아니면 직접 호출하는지 궁금함
  • AllenAI Playground에서 “Show OlmoTrace”를 눌러봤는데
    모델 응답과 일치하는 훈련 데이터 문서를 보여준다고 함
    하지만 실제로는 단순히 N-gram 일치만 찾는 수준이라 추적성이라 보기 어려움
    결과가 질문과 무관한 문서에서 나온 경우도 있었음
    N-gram 설명
    • Olmo 연구자로서 말하자면, OlmoTrace의 목적은 응답을 특정 문서에 귀속시키는 게 아님
      대신 모델이 어떤 훈련 데이터 조각에 영향을 받았는지를 보여주는 것임
      예를 들어, 여러 모델이 같은 농담이나 숫자를 반복하는 이유를 추적할 수 있음
  • 모델 크기는 7B, 20B, 32B 세 가지 라인업이 이상적이라 생각함
    7B는 8GB GPU, 32B는 24GB GPU에 맞고, 20B급 모델은 16GB GPU에 딱 맞음
    • 물론 아키텍처에 따라 다름
      여전히 최적 크기를 찾는 실험이 진행 중임
      개인적으로는 GPU에 확장 가능한 VRAM이 생기길 바람
  • 7B 모델에게 “hi, who are u”라고 물었더니, 내부적으로 문장을 분석하다가 멈췄음
    아마 OpenWebUI 버그로 보임
    • 새 모델이 나올 때마다 지원하지 않는 소프트웨어에서 테스트하는 사례가 많음
      GPT-OSS 때도 그랬고, 이번 OLMo도 비슷한 상황이 반복될 듯함
    • 내가 직접 플레이그라운드에서 해보니
      7B는 “Hi! I'm Olmo 3…”라고, 32B는 “Hi! I'm Olmo…”라고 답함
    • Ai2의 포스트트레이닝 팀 연구자인데, 혹시 어디서 테스트했는지 궁금함
    • “good morning”을 과하게 분석하는 농담이 떠오름
      결국 단순한 인사도 철학적 해석으로 끝나는 느낌임
    • 혹시 completion token 제한이 걸린 건 아닌지 확인해보길 권함
  • Dolma3 데이터셋Hugging Face에서 봤는데
    첫 줄부터 성인 사이트 텍스트가 포함돼 있어서 놀랐음
    • 아직 큐레이션 전 단계일 가능성이 높음
      전체 파이프라인을 공개하려면 이런 데이터도 포함해야 함
      다만 미리보기에서 이런 부분이 바로 보이지 않게 조정했으면 좋았을 듯함
    • 어차피 에로틱 픽션은 이런 모델의 주요 사용 사례 중 하나이기도 함
  • 작은 모델의 실제 활용처가 궁금함
    대부분은 온디바이스 추론용으로 보이는데, 다른 사례가 있을까?
    • Ai2의 연구자로서 말하자면, 7B는 소비자 GPU용 로컬 모델, 32B는 더 다양한 응용 가능
      많은 기업들이 Qwen 3 파인튜닝 모델을 쓰다가 Olmo 32B로 전환할 수도 있음
    • 우리 팀은 도메인 특화 분류기로 7B 모델을 파인튜닝함
      작은 비LLM보다 성능이 더 좋았음
    • 나는 Qwen3-30B-VL을 VRAM에 상시 띄워두고 있음
      단순한 구글 검색보다 빠르고, 터미널 명령어파일 탐색, 노트 정리까지 처리함
      속도(90tok/s)와 저지연 덕분에 자잘한 작업을 훨씬 효율적으로 처리할 수 있음
      반면 Sonnet 4.5는 느리고 미묘하게 틀려서 실사용엔 비효율적임
  • Qwen3-30B-VL은 일상용으로 거의 완벽함
    속도도 빠르고(90tok/s), 대부분의 작업을 커버함
    이런 연구가 중요하지만, 밀집형(dense) 모델이 이 속도를 따라잡긴 어려움
    • Olmo 개발자로서 말하자면, Qwen 모델이 빠른 이유는 MoE 구조 덕분임
      다음 Olmo 버전에서도 MoE를 도입할 예정임
    • 새 맥북에서 돌려보니 느렸지만, 대신 Qwen2.5:14B는 즉각적인 피드백을 줌
      심지어 에스페란토어로도 자연스럽게 대화 가능했음
    • Qwen3-30B-VL이 더 “똑똑한” 이유가 단순히 크기보다 아키텍처 차이 때문인지 궁금함