# OpenAI, o3 와 o4-mini 모델 공개

> Clean Markdown view of GeekNews topic #20370. Use the original source for factual precision when an external source URL is present.

## Metadata

- GeekNews HTML: [https://news.hada.io/topic?id=20370](https://news.hada.io/topic?id=20370)
- GeekNews Markdown: [https://news.hada.io/topic/20370.md](https://news.hada.io/topic/20370.md)
- Type: GN+
- Author: [neo](https://news.hada.io/@neo)
- Published: 2025-04-17T09:43:47+09:00
- Updated: 2025-04-17T09:43:47+09:00
- Original source: [openai.com](https://openai.com/index/introducing-o3-and-o4-mini/)
- Points: 5
- Comments: 1

## Summary

OpenAI는 **o3와 o4-mini** 모델을 통해 ChatGPT의 추론 능력을 크게 향상시켰습니다. 이 모델들은 **도구 조합 사용**, **시각 자료 분석**, **이미지 생성**, **Python 코드 실행** 등 복잡한 작업을 수행할 수 있으며, **스스로 판단하고 실행**하는 능력을 갖추고 있습니다. **o3는 복잡한 문제 해결**, **o4-mini는 빠르고 효율적인 추론**에 최적화되어 있으며, **멀티모달 추론 능력**과 **에이전트형 도구 사용 능력**을 보유하고 있습니다.

## Topic Body

- **o3와 o4-mini** 모델은 ChatGPT의 추론 능력을 대폭 향상시킴  
- 이 두 모델은 단순한 질문 답변을 넘어서, **도구 조합 사용**, **시각 자료 분석**, **이미지 생성**, **Python 코드 실행** 등 복잡한 작업도 수행 가능  
- 특히 사용자가 질문할 때, 어떤 도구를 언제 사용할지 **스스로 판단하고 실행**할 수 있는 능력을 갖춤  
- 복잡한 문제 해결, 시각적 추론, 멀티스텝 분석 등에 강하며, **보다 인간적인 대화 스타일**을 추구함  
- **o3는 복잡한 문제 해결, o4-mini는 빠르고 효율적인 추론용 모델**로, 각각 고성능과 고효율을 동시에 추구함  
- 이미지와 텍스트를 함께 사고하는 **멀티모달 추론 능력**과 고도화된 **에이전트형 도구 사용 능력**을 보유함  
  
### 핵심 기능 변화  
  
#### OpenAI o3  
  
- 지금까지 가장 강력한 **추론 중심 모델**  
- **코딩, 수학, 과학, 시각 분석** 등 여러 영역에서 최첨단 성능 달성  
- Codeforces, SWE-bench, MMMU 등의 벤치마크에서 최고 성능 기록  
- 외부 전문가 평가에 따르면, o1보다 **20% 적은 심각한 오류율**  
- **프로그래밍, 컨설팅, 생물학, 공학** 등의 분야에서 아이디어 생성 및 비판적 평가에 탁월함  
  
#### OpenAI o4-mini  
  
- **속도와 비용 효율성에 최적화된 소형 모델**  
- 특히 **수학, 코딩, 시각 문제 해결 능력**이 뛰어남  
- AIME 2024, 2025 벤치마크에서 동급 최강 성능  
- o3-mini보다 **STEM 외의 분야**에서도 뛰어난 성능  
- **높은 사용량과 빠른 응답을 요구하는 환경**에 적합  
  
* 두 모델 모두 **명령 이해도, 응답 유용성, 신뢰성**에서 기존 모델보다 개선됨  
* 대화 기억 및 개인화된 응답 제공 능력도 강화됨  
  
### 멀티모달 기능  
  
- 이미지도 단순 인식이 아닌 **추론의 일부로 활용** 가능  
- 사용자는 **화이트보드 사진, 책 속 도식, 손그림 등**을 올릴 수 있음  
- 모델은 흐릿하거나 왜곡된 이미지도 인식 및 분석 가능  
- 회전, 확대, 변환 등 **이미지 처리도 도구를 통해 자동 수행** 가능  
- 텍스트와 시각 정보를 융합한 **복합 문제 해결 능력** 향상  
  
### 도구 활용 중심의 추론 방식  
  
- o3와 o4-mini는 ChatGPT의 모든 도구에 접근 가능  
- 사용자가 질문하면 필요한 도구(웹 검색, 파일 분석, 코드 실행 등)를 자동 판단 및 사용  
- 예시: "캘리포니아 여름 전력 사용량 예측" 요청 시, **웹 검색 → Python 코드 생성 → 그래프 작성**을 모두 연속 수행  
- **실시간 정보 활용**, **멀티스텝 추론**, **모달리티 통합 응답**이 가능  
  
### 효율적인 추론 성능  
  
#### 비용 대비 성능 비교  
  
- o3는 o1보다, o4-mini는 o3-mini보다 **엄청난 비용 효율 개선**을 달성  
- AIME 2025 수학 대회 결과 기준으로 o3와 o4-mini 모두 **전작보다 더 저렴하고 더 똑똑함**  
- 실제 사용 환경에서도 **더 똑똑하고 더 저렴한 선택지**가 될 것으로 기대됨  
  
### 안전성 개선  
  
- 생물학적 위협, 악성코드, 탈옥 프롬프트 등의 거부 능력을 위한 **새로운 학습 데이터로 재훈련**  
- 모델 응답의 위험성 자동 탐지하는 **LLM 기반 안전 모니터링 시스템** 도입  
- 내부 테스트 결과, **위험 대화 99% 이상 탐지 성공**  
- 생물/화학, 사이버보안, AI 자기개선 등 위험 영역에서 **고위험 수준 미달**로 평가됨  
- 최신 **Preparedness Framework 기준**에 따라 안정성 검증 완료  
  
### Codex CLI: 터미널에서 사용하는 고급 추론 에이전트  
  
- o3와 o4-mini의 추론 능력을 **터미널에서도 사용 가능**하게 하는 도구  
- 사용자는 **코드, 이미지, 스크린샷 등**을 CLI를 통해 직접 모델에 제공 가능  
- 모델은 로컬 환경 코드와 연동되어 **멀티모달 추론** 가능  
- 오픈소스로 공개됨: [github.com/openai/codex](https://github.com/openai/codex)  
- OpenAI는 Codex CLI 기반 프로젝트를 위한 **100만 달러 지원 프로그램**도 시작함  
  
### 접근 방법  
  
- ChatGPT Plus, Pro, Team 사용자: o3, o4-mini, o4-mini-high 모델 즉시 사용 가능  
- Enterprise 및 Education 사용자: **1주일 후부터** 접근 가능  
- 무료 사용자도 ‘Think’ 옵션을 선택하면 **o4-mini 사용 가능**  
- API 사용자도 오늘부터 사용 가능 (조직 인증 필요할 수 있음)  
- Responses API에서는 **추론 요약, 함수 호출 주변 추론 보존, 웹 검색 도구 등** 다양한 기능 제공 예정  
  
### 향후 방향  
  
- o 시리즈의 **전문 추론 능력**과 GPT 시리즈의 **자연스러운 대화 능력**을 융합 예정  
- 앞으로는 **도구를 능동적으로 활용하면서 자연스러운 대화를 이어갈 수 있는 모델**로 발전할 예정

## Comments


### Comment 37258

- Author: neo
- Created: 2025-04-17T09:43:47+09:00
- Points: 1

###### [Hacker News 의견](https://news.ycombinator.com/item?id=43707719) 
- Final Fantasy VII 역공학에 대한 기술적 질문을 했으나 AI가 잘못된 정보를 제공함
  - AI가 포럼과 사이트에서 정보를 찾았지만, 잘못된 세부사항을 상상하여 결과가 부정확했음
  - AI가 답을 모른다는 것을 인지하고 있었으나, 자신 있게 잘못된 값을 제시함
  - AI가 정답을 찾지 못하면 솔직하게 말해주길 기대함

- NixOS에서 최신 Webstorm 설치를 위해 o3를 사용했는데, NixOS VM을 실행하고 패키지를 다운로드하여 설치 지침을 제공함
  - GUI 테스트까지 수행한 것으로 보이며, 매우 인상적임

- Claude 3.7이 SWE-bench에서 여전히 최고의 성능을 보임
  - OpenAI 모델도 유사한 성능을 보일 가능성이 있음

- C#에서 base 62 변환기를 작성하는 간단한 "튜링 테스트"를 o4-mini-high로 성공적으로 수행함

- 2025년 8월의 신월 날짜를 여러 AI에게 물어봤으나, 대부분 잘못된 답변을 받음
  - Claude는 특정 검색 엔진을 차단하는 방법에 대해 답변을 거부함

- o3와 o4는 웹 검색 도구가 없을 때 이를 인지하고 답변을 거부함
  - 4o와 4.1은 잘못된 정보를 제공함
  - 새로운 웹 검색 기능이 유용하며, 불필요한 파이썬 스크립트를 삭제할 수 있게 됨

- Codex CLI가 오픈 소스로 제공됨

- Sonnet 3.7이나 Gemini Pro 2.5와의 비교가 없었음

- 대규모 강화 학습이 더 많은 컴퓨팅 자원을 사용할수록 성능이 향상되는 경향을 보임
  - 이러한 경향이 얼마나 지속될지 의문임

- 소비자로서 어떤 모델을 사용해야 할지 따라가는 것이 피곤함