OpenAI, o3 와 o4-mini 모델 공개
(openai.com)- o3와 o4-mini 모델은 ChatGPT의 추론 능력을 대폭 향상시킴
- 이 두 모델은 단순한 질문 답변을 넘어서, 도구 조합 사용, 시각 자료 분석, 이미지 생성, Python 코드 실행 등 복잡한 작업도 수행 가능
- 특히 사용자가 질문할 때, 어떤 도구를 언제 사용할지 스스로 판단하고 실행할 수 있는 능력을 갖춤
- 복잡한 문제 해결, 시각적 추론, 멀티스텝 분석 등에 강하며, 보다 인간적인 대화 스타일을 추구함
- o3는 복잡한 문제 해결, o4-mini는 빠르고 효율적인 추론용 모델로, 각각 고성능과 고효율을 동시에 추구함
- 이미지와 텍스트를 함께 사고하는 멀티모달 추론 능력과 고도화된 에이전트형 도구 사용 능력을 보유함
핵심 기능 변화
OpenAI o3
- 지금까지 가장 강력한 추론 중심 모델
- 코딩, 수학, 과학, 시각 분석 등 여러 영역에서 최첨단 성능 달성
- Codeforces, SWE-bench, MMMU 등의 벤치마크에서 최고 성능 기록
- 외부 전문가 평가에 따르면, o1보다 20% 적은 심각한 오류율
- 프로그래밍, 컨설팅, 생물학, 공학 등의 분야에서 아이디어 생성 및 비판적 평가에 탁월함
OpenAI o4-mini
- 속도와 비용 효율성에 최적화된 소형 모델
- 특히 수학, 코딩, 시각 문제 해결 능력이 뛰어남
- AIME 2024, 2025 벤치마크에서 동급 최강 성능
- o3-mini보다 STEM 외의 분야에서도 뛰어난 성능
- 높은 사용량과 빠른 응답을 요구하는 환경에 적합
- 두 모델 모두 명령 이해도, 응답 유용성, 신뢰성에서 기존 모델보다 개선됨
- 대화 기억 및 개인화된 응답 제공 능력도 강화됨
멀티모달 기능
- 이미지도 단순 인식이 아닌 추론의 일부로 활용 가능
- 사용자는 화이트보드 사진, 책 속 도식, 손그림 등을 올릴 수 있음
- 모델은 흐릿하거나 왜곡된 이미지도 인식 및 분석 가능
- 회전, 확대, 변환 등 이미지 처리도 도구를 통해 자동 수행 가능
- 텍스트와 시각 정보를 융합한 복합 문제 해결 능력 향상
도구 활용 중심의 추론 방식
- o3와 o4-mini는 ChatGPT의 모든 도구에 접근 가능
- 사용자가 질문하면 필요한 도구(웹 검색, 파일 분석, 코드 실행 등)를 자동 판단 및 사용
- 예시: "캘리포니아 여름 전력 사용량 예측" 요청 시, 웹 검색 → Python 코드 생성 → 그래프 작성을 모두 연속 수행
- 실시간 정보 활용, 멀티스텝 추론, 모달리티 통합 응답이 가능
효율적인 추론 성능
비용 대비 성능 비교
- o3는 o1보다, o4-mini는 o3-mini보다 엄청난 비용 효율 개선을 달성
- AIME 2025 수학 대회 결과 기준으로 o3와 o4-mini 모두 전작보다 더 저렴하고 더 똑똑함
- 실제 사용 환경에서도 더 똑똑하고 더 저렴한 선택지가 될 것으로 기대됨
안전성 개선
- 생물학적 위협, 악성코드, 탈옥 프롬프트 등의 거부 능력을 위한 새로운 학습 데이터로 재훈련
- 모델 응답의 위험성 자동 탐지하는 LLM 기반 안전 모니터링 시스템 도입
- 내부 테스트 결과, 위험 대화 99% 이상 탐지 성공
- 생물/화학, 사이버보안, AI 자기개선 등 위험 영역에서 고위험 수준 미달로 평가됨
- 최신 Preparedness Framework 기준에 따라 안정성 검증 완료
Codex CLI: 터미널에서 사용하는 고급 추론 에이전트
- o3와 o4-mini의 추론 능력을 터미널에서도 사용 가능하게 하는 도구
- 사용자는 코드, 이미지, 스크린샷 등을 CLI를 통해 직접 모델에 제공 가능
- 모델은 로컬 환경 코드와 연동되어 멀티모달 추론 가능
- 오픈소스로 공개됨: github.com/openai/codex
- OpenAI는 Codex CLI 기반 프로젝트를 위한 100만 달러 지원 프로그램도 시작함
접근 방법
- ChatGPT Plus, Pro, Team 사용자: o3, o4-mini, o4-mini-high 모델 즉시 사용 가능
- Enterprise 및 Education 사용자: 1주일 후부터 접근 가능
- 무료 사용자도 ‘Think’ 옵션을 선택하면 o4-mini 사용 가능
- API 사용자도 오늘부터 사용 가능 (조직 인증 필요할 수 있음)
- Responses API에서는 추론 요약, 함수 호출 주변 추론 보존, 웹 검색 도구 등 다양한 기능 제공 예정
향후 방향
- o 시리즈의 전문 추론 능력과 GPT 시리즈의 자연스러운 대화 능력을 융합 예정
- 앞으로는 도구를 능동적으로 활용하면서 자연스러운 대화를 이어갈 수 있는 모델로 발전할 예정
Hacker News 의견
-
Final Fantasy VII 역공학에 대한 기술적 질문을 했으나 AI가 잘못된 정보를 제공함
- AI가 포럼과 사이트에서 정보를 찾았지만, 잘못된 세부사항을 상상하여 결과가 부정확했음
- AI가 답을 모른다는 것을 인지하고 있었으나, 자신 있게 잘못된 값을 제시함
- AI가 정답을 찾지 못하면 솔직하게 말해주길 기대함
-
NixOS에서 최신 Webstorm 설치를 위해 o3를 사용했는데, NixOS VM을 실행하고 패키지를 다운로드하여 설치 지침을 제공함
- GUI 테스트까지 수행한 것으로 보이며, 매우 인상적임
-
Claude 3.7이 SWE-bench에서 여전히 최고의 성능을 보임
- OpenAI 모델도 유사한 성능을 보일 가능성이 있음
-
C#에서 base 62 변환기를 작성하는 간단한 "튜링 테스트"를 o4-mini-high로 성공적으로 수행함
-
2025년 8월의 신월 날짜를 여러 AI에게 물어봤으나, 대부분 잘못된 답변을 받음
- Claude는 특정 검색 엔진을 차단하는 방법에 대해 답변을 거부함
-
o3와 o4는 웹 검색 도구가 없을 때 이를 인지하고 답변을 거부함
- 4o와 4.1은 잘못된 정보를 제공함
- 새로운 웹 검색 기능이 유용하며, 불필요한 파이썬 스크립트를 삭제할 수 있게 됨
-
Codex CLI가 오픈 소스로 제공됨
-
Sonnet 3.7이나 Gemini Pro 2.5와의 비교가 없었음
-
대규모 강화 학습이 더 많은 컴퓨팅 자원을 사용할수록 성능이 향상되는 경향을 보임
- 이러한 경향이 얼마나 지속될지 의문임
-
소비자로서 어떤 모델을 사용해야 할지 따라가는 것이 피곤함