OpenAI, o3 와 o4-mini 모델 공개

(openai.com)

5P by GN⁺ 2025-04-17 | ★ favorite | 댓글 1개

o3와 o4-mini 모델은 ChatGPT의 추론 능력을 대폭 향상시킴
이 두 모델은 단순한 질문 답변을 넘어서, 도구 조합 사용, 시각 자료 분석, 이미지 생성, Python 코드 실행 등 복잡한 작업도 수행 가능
특히 사용자가 질문할 때, 어떤 도구를 언제 사용할지 스스로 판단하고 실행할 수 있는 능력을 갖춤
복잡한 문제 해결, 시각적 추론, 멀티스텝 분석 등에 강하며, 보다 인간적인 대화 스타일을 추구함
o3는 복잡한 문제 해결, o4-mini는 빠르고 효율적인 추론용 모델로, 각각 고성능과 고효율을 동시에 추구함
이미지와 텍스트를 함께 사고하는 멀티모달 추론 능력과 고도화된 에이전트형 도구 사용 능력을 보유함

핵심 기능 변화

OpenAI o3

지금까지 가장 강력한 추론 중심 모델
코딩, 수학, 과학, 시각 분석 등 여러 영역에서 최첨단 성능 달성
Codeforces, SWE-bench, MMMU 등의 벤치마크에서 최고 성능 기록
외부 전문가 평가에 따르면, o1보다 20% 적은 심각한 오류율
프로그래밍, 컨설팅, 생물학, 공학 등의 분야에서 아이디어 생성 및 비판적 평가에 탁월함

OpenAI o4-mini

속도와 비용 효율성에 최적화된 소형 모델
특히 수학, 코딩, 시각 문제 해결 능력이 뛰어남
AIME 2024, 2025 벤치마크에서 동급 최강 성능
o3-mini보다 STEM 외의 분야에서도 뛰어난 성능
높은 사용량과 빠른 응답을 요구하는 환경에 적합

두 모델 모두 명령 이해도, 응답 유용성, 신뢰성에서 기존 모델보다 개선됨
대화 기억 및 개인화된 응답 제공 능력도 강화됨

멀티모달 기능

이미지도 단순 인식이 아닌 추론의 일부로 활용 가능
사용자는 화이트보드 사진, 책 속 도식, 손그림 등을 올릴 수 있음
모델은 흐릿하거나 왜곡된 이미지도 인식 및 분석 가능
회전, 확대, 변환 등 이미지 처리도 도구를 통해 자동 수행 가능
텍스트와 시각 정보를 융합한 복합 문제 해결 능력 향상

도구 활용 중심의 추론 방식

o3와 o4-mini는 ChatGPT의 모든 도구에 접근 가능
사용자가 질문하면 필요한 도구(웹 검색, 파일 분석, 코드 실행 등)를 자동 판단 및 사용
예시: "캘리포니아 여름 전력 사용량 예측" 요청 시, 웹 검색 → Python 코드 생성 → 그래프 작성을 모두 연속 수행
실시간 정보 활용, 멀티스텝 추론, 모달리티 통합 응답이 가능

효율적인 추론 성능

비용 대비 성능 비교

o3는 o1보다, o4-mini는 o3-mini보다 엄청난 비용 효율 개선을 달성
AIME 2025 수학 대회 결과 기준으로 o3와 o4-mini 모두 전작보다 더 저렴하고 더 똑똑함
실제 사용 환경에서도 더 똑똑하고 더 저렴한 선택지가 될 것으로 기대됨

안전성 개선

생물학적 위협, 악성코드, 탈옥 프롬프트 등의 거부 능력을 위한 새로운 학습 데이터로 재훈련
모델 응답의 위험성 자동 탐지하는 LLM 기반 안전 모니터링 시스템 도입
내부 테스트 결과, 위험 대화 99% 이상 탐지 성공
생물/화학, 사이버보안, AI 자기개선 등 위험 영역에서 고위험 수준 미달로 평가됨
최신 Preparedness Framework 기준에 따라 안정성 검증 완료

Codex CLI: 터미널에서 사용하는 고급 추론 에이전트

o3와 o4-mini의 추론 능력을 터미널에서도 사용 가능하게 하는 도구
사용자는 코드, 이미지, 스크린샷 등을 CLI를 통해 직접 모델에 제공 가능
모델은 로컬 환경 코드와 연동되어 멀티모달 추론 가능
오픈소스로 공개됨: github.com/openai/codex
OpenAI는 Codex CLI 기반 프로젝트를 위한 100만 달러 지원 프로그램도 시작함

접근 방법

ChatGPT Plus, Pro, Team 사용자: o3, o4-mini, o4-mini-high 모델 즉시 사용 가능
Enterprise 및 Education 사용자: 1주일 후부터 접근 가능
무료 사용자도 ‘Think’ 옵션을 선택하면 o4-mini 사용 가능
API 사용자도 오늘부터 사용 가능 (조직 인증 필요할 수 있음)
Responses API에서는 추론 요약, 함수 호출 주변 추론 보존, 웹 검색 도구 등 다양한 기능 제공 예정

향후 방향

o 시리즈의 전문 추론 능력과 GPT 시리즈의 자연스러운 대화 능력을 융합 예정
앞으로는 도구를 능동적으로 활용하면서 자연스러운 대화를 이어갈 수 있는 모델로 발전할 예정

GeekNews Weekly에 포함된 글입니다. 에디터 코멘트 보기

GN⁺ 2025-04-17 [-]

Hacker News 의견

Final Fantasy VII 역공학에 대한 기술적 질문을 했으나 AI가 잘못된 정보를 제공함
- AI가 포럼과 사이트에서 정보를 찾았지만, 잘못된 세부사항을 상상하여 결과가 부정확했음
- AI가 답을 모른다는 것을 인지하고 있었으나, 자신 있게 잘못된 값을 제시함
- AI가 정답을 찾지 못하면 솔직하게 말해주길 기대함
NixOS에서 최신 Webstorm 설치를 위해 o3를 사용했는데, NixOS VM을 실행하고 패키지를 다운로드하여 설치 지침을 제공함
- GUI 테스트까지 수행한 것으로 보이며, 매우 인상적임
Claude 3.7이 SWE-bench에서 여전히 최고의 성능을 보임
- OpenAI 모델도 유사한 성능을 보일 가능성이 있음
C#에서 base 62 변환기를 작성하는 간단한 "튜링 테스트"를 o4-mini-high로 성공적으로 수행함
2025년 8월의 신월 날짜를 여러 AI에게 물어봤으나, 대부분 잘못된 답변을 받음
- Claude는 특정 검색 엔진을 차단하는 방법에 대해 답변을 거부함
o3와 o4는 웹 검색 도구가 없을 때 이를 인지하고 답변을 거부함
- 4o와 4.1은 잘못된 정보를 제공함
- 새로운 웹 검색 기능이 유용하며, 불필요한 파이썬 스크립트를 삭제할 수 있게 됨
Codex CLI가 오픈 소스로 제공됨
Sonnet 3.7이나 Gemini Pro 2.5와의 비교가 없었음
대규모 강화 학습이 더 많은 컴퓨팅 자원을 사용할수록 성능이 향상되는 경향을 보임
- 이러한 경향이 얼마나 지속될지 의문임
소비자로서 어떤 모델을 사용해야 할지 따라가는 것이 피곤함

답변달기

OpenAI, o3 와 o4-mini 모델 공개

핵심 기능 변화

OpenAI o3

OpenAI o4-mini

멀티모달 기능

도구 활용 중심의 추론 방식

효율적인 추론 성능

비용 대비 성능 비교

안전성 개선

Codex CLI: 터미널에서 사용하는 고급 추론 에이전트

접근 방법

향후 방향

함께 보면 좋은 글 β

댓글과 토론

Hacker News 의견