# OpenAI o3-Mini 출시

> Clean Markdown view of GeekNews topic #18996. Use the original source for factual precision when an external source URL is present.

## Metadata

- GeekNews HTML: [https://news.hada.io/topic?id=18996](https://news.hada.io/topic?id=18996)
- GeekNews Markdown: [https://news.hada.io/topic/18996.md](https://news.hada.io/topic/18996.md)
- Type: GN+
- Author: [neo](https://news.hada.io/@neo)
- Published: 2025-02-01T09:40:10+09:00
- Updated: 2025-02-01T09:40:10+09:00
- Original source: [openai.com](https://openai.com/index/openai-o3-mini/)
- Points: 13
- Comments: 1

## Summary

OpenAI o3-mini는 STEM 분야에서 뛰어난 성능을 보이며, 이전 모델인 o1-mini보다 낮은 비용과 지연 시간을 유지합니다. 이 모델은 함수 호출, 구조화 출력, 개발자 메시지를 지원하며, 다양한 API에서 사용 가능하고, 무료 사용자에게도 접근성을 제공합니다. 또한, o3-mini는 더 빠른 응답 속도와 향상된 안전성을 제공하며, AI의 대중적 채택을 위해 비용 효율적인 발전을 목표로 하고 있습니다.

## Topic Body

- OpenAI o3-mini는 비용 효율적인 추론 모델 시리즈 중 가장 최신 모델임  
- 2024년 12월 미리보기 이후 공식 출시되었으며, ChatGPT와 API에서 사용 가능함  
- 과학, 수학, 코딩 등 STEM 분야에서 뛰어난 성능을 보이며, OpenAI o1-mini보다 낮은 비용과 지연 시간 유지  
  
#### 주요 기능 및 개선 사항  
- OpenAI o3-mini는 처음으로 **함수 호출, 구조화 출력, 개발자 메시지**를 지원하는 작은 추론 모델임  
- 스트리밍 기능을 지원하며, **낮음, 중간, 높음**의 세 가지 추론 노력 옵션을 제공하여 상황에 맞게 최적화 가능  
- 비전(이미지) 기능은 지원하지 않으며, 시각적 추론이 필요한 경우 OpenAI o1 사용 권장  
- Chat Completions API, Assistants API, Batch API에서 사용 가능하며, API 사용 티어 3~5 개발자에게 제공됨  
- ChatGPT Plus, Team, Pro 사용자들은 오늘부터 사용 가능하며, Enterprise 사용자는 2월부터 지원 예정  
- OpenAI o1-mini를 대체하며, 더 높은 속도와 향상된 추론 능력을 제공  
- Plus 및 Team 사용자의 메시지 제한이 기존 o1-mini의 **50개에서 150개**로 증가  
- 검색 기능이 추가되어, 최신 정보를 웹 링크와 함께 제공하는 기능 실험 중  
  
#### 무료 사용자 접근성 확대  
- 무료 사용자도 메시지 작성 창에서 **‘Reason’** 선택 또는 응답 재생성을 통해 o3-mini를 사용 가능  
- ChatGPT에서 reasoning 모델이 무료 사용자에게 제공되는 것은 이번이 처음임  
  
#### STEM 최적화 및 성능 향상  
- **STEM 분야에 최적화된 성능**을 제공하며, o1-mini 대비 더 빠르고 정확한 응답 생성  
- 전문 테스터 평가 결과, o3-mini는 **56%의 경우 o1-mini보다 선호**되었으며, 어려운 문제에서 **39%의 주요 오류 감소** 확인됨  
- **AIME, GPQA 등 난이도 높은 추론 및 지능 평가에서 o1과 유사한 성능**을 보이며, 더 빠른 응답 속도 제공  
  
##### 주요 성능 비교  
- **수학(AIME 2024)**:   
  - 낮은 추론 노력에서는 o1-mini와 비슷한 성능, 중간 추론 노력에서는 o1과 유사한 성능  
  - 높은 추론 노력에서는 o1 및 o1-mini보다 뛰어난 성능을 보임  
- **박사 수준 과학 질문(GPQA Diamond)**:  
  - 생물학, 화학, 물리학 문제에서 낮은 추론 노력으로도 o1-mini보다 뛰어난 성능  
  - 높은 추론 노력에서는 o1과 유사한 성능  
- **고급 수학(FrontierMath)**:  
  - Python 도구를 활용하면 첫 시도에서 32% 이상의 문제를 해결하며, 난이도 높은 문제(T3)도 28% 이상 해결  
- **경쟁 프로그래밍(Codeforces)**:  
  - 추론 노력이 증가할수록 더 높은 Elo 점수를 기록하며, o1-mini보다 우수한 성능  
  - 중간 추론 노력에서 o1과 비슷한 성능  
- **소프트웨어 엔지니어링(SWE-bench Verified)**:  
  - SWEbench-verified에서 지금까지 출시된 모델 중 최고의 성능을 기록  
- **실제 코딩 테스트(LiveBench Coding)**:  
  - o1-high보다 뛰어난 성능을 보이며, 높은 추론 노력에서는 더욱 압도적인 성능을 발휘  
- **일반 지식 평가**:  
  - 전반적인 지식 평가에서 o1-mini보다 뛰어난 결과를 보임  
- **사용자 선호도 평가**:  
  - 전문가 테스트 결과, o3-mini가 o1-mini보다 56% 더 선호되었으며, 어려운 문제에서 39%의 오류 감소 확인  
  
#### 속도 및 성능 개선  
- **o1과 유사한 지능을 유지하면서도, 더 빠른 성능과 향상된 효율성 제공**  
- 수학 및 사실성 평가에서 중간 추론 노력으로도 향상된 결과 도출  
- **A/B 테스트 결과**, o3-mini는 o1-mini보다 **응답 속도가 24% 더 빠름**  
  - 평균 응답 시간: **o3-mini(7.7초) vs o1-mini(10.16초)**  
  - 첫 번째 토큰 출력 속도: **o3-mini가 o1-mini보다 평균 2500ms 더 빠름**  
  
#### 안전성 및 대응 조치  
- OpenAI o3-mini는 **‘숙고적 정렬(deliberative alignment)’ 기법**을 활용해 보다 안전한 응답을 생성하도록 학습됨  
- OpenAI o1과 비교했을 때, **GPT-4o보다도 높은 수준의 안전성과 탈옥(jailbreak) 방어 능력**을 보여줌  
- 출시 전, **준비 평가, 외부 레드팀 테스트, 안전성 평가**를 통해 철저하게 검증됨  
- o3-mini의 **허용되지 않은 콘텐츠 응답 평가 및 탈옥 평가 결과**는 시스템 카드에서 제공됨  
  
#### 향후 계획 및 전망  
- OpenAI o3-mini는 **비용 효율적인 AI 지능 발전의 새로운 단계**를 의미함  
- STEM 최적화 및 저비용 모델 개발을 통해 **고품질 AI를 더 많은 사용자에게 제공**하는 목표 지속  
- **GPT-4 출시 이후 토큰당 가격을 95% 절감**하면서도, 최상급 추론 능력을 유지하는 방향으로 발전  
- AI의 대중적 채택이 확대되는 가운데, **지능, 효율성, 안전성의 균형을 맞춘 모델 개발**에 집중할 계획

## Comments


### Comment 33999

- Author: neo
- Created: 2025-02-01T09:40:11+09:00
- Points: 1

###### [Hacker News 의견](https://news.ycombinator.com/item?id=42890627) 
- Claude-3.5-sonnet 모델은 일관성이 뛰어나며, 다른 모델들은 ADHD와 같은 문제를 겪고 있음
  - NextJS 앱에서 shadcn 컴포넌트를 사용하려고 할 때, sonnet은 거의 완벽하게 수행하지만 다른 모델들은 radix-ui를 사용하려고 함
  - o3-mini 모델도 동일한 문제를 겪고 있음
  - cursor의 지시 세트가 문제일 가능성이 있음
  - sonnet이 유일한 실행 가능한 코딩 옵션으로 남아 있음

- o3-mini의 응답이 o1-mini보다 56% 더 선호됨
  - 두 응답이 2,000 단어일 때, 질문에 대한 답변을 빨리 한 쪽을 선택하는 경향이 있음
  - 이 설문은 무의미하며, 50% 응답률은 동전 던지기와 같음

- o3-mini를 사용하여 스레드를 요약한 결과를 공유함
  - 18,936 입력, 2,905 출력에 3.3612 센트가 소요됨

- AI 코딩에서 o3-mini는 o1과 비슷한 점수를 얻었으며, 비용은 10배 저렴함
  - o3-mini는 중간 노력으로 R1과 Sonnet 사이의 점수를 얻음

- 새로운 모델과 reasoning_effort 옵션을 지원하는 LLM CLI 도구의 새 릴리스를 발표함
  - 예시 사용법을 공유함

- o3-mini의 SWE 벤치 점수가 61%에서 49.3%로 떨어졌음을 지적함
  - o3-mini가 실제 코딩 작업에서 Claude와 비슷한 성능을 보임

- o3-mini-high가 seg fault의 근본 원인을 성공적으로 찾았음을 언급함
  - 이전에 o1이 놓친 문제를 해결함

- SWE-Bench에서 상당한 증가를 보였으며, 이전에 o1-mini가 처리하지 못한 작업을 처리할 수 있는지 다시 시도할 가치가 있음
  - $4/백만 출력 토큰 대 $60의 비용 차이가 있음

- AI 환경이 빠르게 변화하고 있으며, 새로운 AI 모델들이 등장하고 있음
  - AI의 변화가 이번 릴리스와 향후 릴리스에 어떤 영향을 미칠지 궁금해 함