5P by GN⁺ 3일전 | ★ favorite | 댓글 1개
  • o3와 o4-mini 모델은 ChatGPT의 추론 능력을 대폭 향상시킴
  • 이 두 모델은 단순한 질문 답변을 넘어서, 도구 조합 사용, 시각 자료 분석, 이미지 생성, Python 코드 실행 등 복잡한 작업도 수행 가능
  • 특히 사용자가 질문할 때, 어떤 도구를 언제 사용할지 스스로 판단하고 실행할 수 있는 능력을 갖춤
  • 복잡한 문제 해결, 시각적 추론, 멀티스텝 분석 등에 강하며, 보다 인간적인 대화 스타일을 추구함
  • o3는 복잡한 문제 해결, o4-mini는 빠르고 효율적인 추론용 모델로, 각각 고성능과 고효율을 동시에 추구함
  • 이미지와 텍스트를 함께 사고하는 멀티모달 추론 능력과 고도화된 에이전트형 도구 사용 능력을 보유함

핵심 기능 변화

OpenAI o3

  • 지금까지 가장 강력한 추론 중심 모델
  • 코딩, 수학, 과학, 시각 분석 등 여러 영역에서 최첨단 성능 달성
  • Codeforces, SWE-bench, MMMU 등의 벤치마크에서 최고 성능 기록
  • 외부 전문가 평가에 따르면, o1보다 20% 적은 심각한 오류율
  • 프로그래밍, 컨설팅, 생물학, 공학 등의 분야에서 아이디어 생성 및 비판적 평가에 탁월함

OpenAI o4-mini

  • 속도와 비용 효율성에 최적화된 소형 모델
  • 특히 수학, 코딩, 시각 문제 해결 능력이 뛰어남
  • AIME 2024, 2025 벤치마크에서 동급 최강 성능
  • o3-mini보다 STEM 외의 분야에서도 뛰어난 성능
  • 높은 사용량과 빠른 응답을 요구하는 환경에 적합
  • 두 모델 모두 명령 이해도, 응답 유용성, 신뢰성에서 기존 모델보다 개선됨
  • 대화 기억 및 개인화된 응답 제공 능력도 강화됨

멀티모달 기능

  • 이미지도 단순 인식이 아닌 추론의 일부로 활용 가능
  • 사용자는 화이트보드 사진, 책 속 도식, 손그림 등을 올릴 수 있음
  • 모델은 흐릿하거나 왜곡된 이미지도 인식 및 분석 가능
  • 회전, 확대, 변환 등 이미지 처리도 도구를 통해 자동 수행 가능
  • 텍스트와 시각 정보를 융합한 복합 문제 해결 능력 향상

도구 활용 중심의 추론 방식

  • o3와 o4-mini는 ChatGPT의 모든 도구에 접근 가능
  • 사용자가 질문하면 필요한 도구(웹 검색, 파일 분석, 코드 실행 등)를 자동 판단 및 사용
  • 예시: "캘리포니아 여름 전력 사용량 예측" 요청 시, 웹 검색 → Python 코드 생성 → 그래프 작성을 모두 연속 수행
  • 실시간 정보 활용, 멀티스텝 추론, 모달리티 통합 응답이 가능

효율적인 추론 성능

비용 대비 성능 비교

  • o3는 o1보다, o4-mini는 o3-mini보다 엄청난 비용 효율 개선을 달성
  • AIME 2025 수학 대회 결과 기준으로 o3와 o4-mini 모두 전작보다 더 저렴하고 더 똑똑함
  • 실제 사용 환경에서도 더 똑똑하고 더 저렴한 선택지가 될 것으로 기대됨

안전성 개선

  • 생물학적 위협, 악성코드, 탈옥 프롬프트 등의 거부 능력을 위한 새로운 학습 데이터로 재훈련
  • 모델 응답의 위험성 자동 탐지하는 LLM 기반 안전 모니터링 시스템 도입
  • 내부 테스트 결과, 위험 대화 99% 이상 탐지 성공
  • 생물/화학, 사이버보안, AI 자기개선 등 위험 영역에서 고위험 수준 미달로 평가됨
  • 최신 Preparedness Framework 기준에 따라 안정성 검증 완료

Codex CLI: 터미널에서 사용하는 고급 추론 에이전트

  • o3와 o4-mini의 추론 능력을 터미널에서도 사용 가능하게 하는 도구
  • 사용자는 코드, 이미지, 스크린샷 등을 CLI를 통해 직접 모델에 제공 가능
  • 모델은 로컬 환경 코드와 연동되어 멀티모달 추론 가능
  • 오픈소스로 공개됨: github.com/openai/codex
  • OpenAI는 Codex CLI 기반 프로젝트를 위한 100만 달러 지원 프로그램도 시작함

접근 방법

  • ChatGPT Plus, Pro, Team 사용자: o3, o4-mini, o4-mini-high 모델 즉시 사용 가능
  • Enterprise 및 Education 사용자: 1주일 후부터 접근 가능
  • 무료 사용자도 ‘Think’ 옵션을 선택하면 o4-mini 사용 가능
  • API 사용자도 오늘부터 사용 가능 (조직 인증 필요할 수 있음)
  • Responses API에서는 추론 요약, 함수 호출 주변 추론 보존, 웹 검색 도구 등 다양한 기능 제공 예정

향후 방향

  • o 시리즈의 전문 추론 능력과 GPT 시리즈의 자연스러운 대화 능력을 융합 예정
  • 앞으로는 도구를 능동적으로 활용하면서 자연스러운 대화를 이어갈 수 있는 모델로 발전할 예정
Hacker News 의견
  • Final Fantasy VII 역공학에 대한 기술적 질문을 했으나 AI가 잘못된 정보를 제공함

    • AI가 포럼과 사이트에서 정보를 찾았지만, 잘못된 세부사항을 상상하여 결과가 부정확했음
    • AI가 답을 모른다는 것을 인지하고 있었으나, 자신 있게 잘못된 값을 제시함
    • AI가 정답을 찾지 못하면 솔직하게 말해주길 기대함
  • NixOS에서 최신 Webstorm 설치를 위해 o3를 사용했는데, NixOS VM을 실행하고 패키지를 다운로드하여 설치 지침을 제공함

    • GUI 테스트까지 수행한 것으로 보이며, 매우 인상적임
  • Claude 3.7이 SWE-bench에서 여전히 최고의 성능을 보임

    • OpenAI 모델도 유사한 성능을 보일 가능성이 있음
  • C#에서 base 62 변환기를 작성하는 간단한 "튜링 테스트"를 o4-mini-high로 성공적으로 수행함

  • 2025년 8월의 신월 날짜를 여러 AI에게 물어봤으나, 대부분 잘못된 답변을 받음

    • Claude는 특정 검색 엔진을 차단하는 방법에 대해 답변을 거부함
  • o3와 o4는 웹 검색 도구가 없을 때 이를 인지하고 답변을 거부함

    • 4o와 4.1은 잘못된 정보를 제공함
    • 새로운 웹 검색 기능이 유용하며, 불필요한 파이썬 스크립트를 삭제할 수 있게 됨
  • Codex CLI가 오픈 소스로 제공됨

  • Sonnet 3.7이나 Gemini Pro 2.5와의 비교가 없었음

  • 대규모 강화 학습이 더 많은 컴퓨팅 자원을 사용할수록 성능이 향상되는 경향을 보임

    • 이러한 경향이 얼마나 지속될지 의문임
  • 소비자로서 어떤 모델을 사용해야 할지 따라가는 것이 피곤함