GN⁺: OpenAI o3-Mini 출시
(openai.com)- OpenAI o3-mini는 비용 효율적인 추론 모델 시리즈 중 가장 최신 모델임
- 2024년 12월 미리보기 이후 공식 출시되었으며, ChatGPT와 API에서 사용 가능함
- 과학, 수학, 코딩 등 STEM 분야에서 뛰어난 성능을 보이며, OpenAI o1-mini보다 낮은 비용과 지연 시간 유지
주요 기능 및 개선 사항
- OpenAI o3-mini는 처음으로 함수 호출, 구조화 출력, 개발자 메시지를 지원하는 작은 추론 모델임
- 스트리밍 기능을 지원하며, 낮음, 중간, 높음의 세 가지 추론 노력 옵션을 제공하여 상황에 맞게 최적화 가능
- 비전(이미지) 기능은 지원하지 않으며, 시각적 추론이 필요한 경우 OpenAI o1 사용 권장
- Chat Completions API, Assistants API, Batch API에서 사용 가능하며, API 사용 티어 3~5 개발자에게 제공됨
- ChatGPT Plus, Team, Pro 사용자들은 오늘부터 사용 가능하며, Enterprise 사용자는 2월부터 지원 예정
- OpenAI o1-mini를 대체하며, 더 높은 속도와 향상된 추론 능력을 제공
- Plus 및 Team 사용자의 메시지 제한이 기존 o1-mini의 50개에서 150개로 증가
- 검색 기능이 추가되어, 최신 정보를 웹 링크와 함께 제공하는 기능 실험 중
무료 사용자 접근성 확대
- 무료 사용자도 메시지 작성 창에서 ‘Reason’ 선택 또는 응답 재생성을 통해 o3-mini를 사용 가능
- ChatGPT에서 reasoning 모델이 무료 사용자에게 제공되는 것은 이번이 처음임
STEM 최적화 및 성능 향상
- STEM 분야에 최적화된 성능을 제공하며, o1-mini 대비 더 빠르고 정확한 응답 생성
- 전문 테스터 평가 결과, o3-mini는 56%의 경우 o1-mini보다 선호되었으며, 어려운 문제에서 39%의 주요 오류 감소 확인됨
- AIME, GPQA 등 난이도 높은 추론 및 지능 평가에서 o1과 유사한 성능을 보이며, 더 빠른 응답 속도 제공
주요 성능 비교
-
수학(AIME 2024):
- 낮은 추론 노력에서는 o1-mini와 비슷한 성능, 중간 추론 노력에서는 o1과 유사한 성능
- 높은 추론 노력에서는 o1 및 o1-mini보다 뛰어난 성능을 보임
-
박사 수준 과학 질문(GPQA Diamond):
- 생물학, 화학, 물리학 문제에서 낮은 추론 노력으로도 o1-mini보다 뛰어난 성능
- 높은 추론 노력에서는 o1과 유사한 성능
-
고급 수학(FrontierMath):
- Python 도구를 활용하면 첫 시도에서 32% 이상의 문제를 해결하며, 난이도 높은 문제(T3)도 28% 이상 해결
-
경쟁 프로그래밍(Codeforces):
- 추론 노력이 증가할수록 더 높은 Elo 점수를 기록하며, o1-mini보다 우수한 성능
- 중간 추론 노력에서 o1과 비슷한 성능
-
소프트웨어 엔지니어링(SWE-bench Verified):
- SWEbench-verified에서 지금까지 출시된 모델 중 최고의 성능을 기록
-
실제 코딩 테스트(LiveBench Coding):
- o1-high보다 뛰어난 성능을 보이며, 높은 추론 노력에서는 더욱 압도적인 성능을 발휘
-
일반 지식 평가:
- 전반적인 지식 평가에서 o1-mini보다 뛰어난 결과를 보임
-
사용자 선호도 평가:
- 전문가 테스트 결과, o3-mini가 o1-mini보다 56% 더 선호되었으며, 어려운 문제에서 39%의 오류 감소 확인
속도 및 성능 개선
- o1과 유사한 지능을 유지하면서도, 더 빠른 성능과 향상된 효율성 제공
- 수학 및 사실성 평가에서 중간 추론 노력으로도 향상된 결과 도출
-
A/B 테스트 결과, o3-mini는 o1-mini보다 응답 속도가 24% 더 빠름
- 평균 응답 시간: o3-mini(7.7초) vs o1-mini(10.16초)
- 첫 번째 토큰 출력 속도: o3-mini가 o1-mini보다 평균 2500ms 더 빠름
안전성 및 대응 조치
- OpenAI o3-mini는 ‘숙고적 정렬(deliberative alignment)’ 기법을 활용해 보다 안전한 응답을 생성하도록 학습됨
- OpenAI o1과 비교했을 때, GPT-4o보다도 높은 수준의 안전성과 탈옥(jailbreak) 방어 능력을 보여줌
- 출시 전, 준비 평가, 외부 레드팀 테스트, 안전성 평가를 통해 철저하게 검증됨
- o3-mini의 허용되지 않은 콘텐츠 응답 평가 및 탈옥 평가 결과는 시스템 카드에서 제공됨
향후 계획 및 전망
- OpenAI o3-mini는 비용 효율적인 AI 지능 발전의 새로운 단계를 의미함
- STEM 최적화 및 저비용 모델 개발을 통해 고품질 AI를 더 많은 사용자에게 제공하는 목표 지속
- GPT-4 출시 이후 토큰당 가격을 95% 절감하면서도, 최상급 추론 능력을 유지하는 방향으로 발전
- AI의 대중적 채택이 확대되는 가운데, 지능, 효율성, 안전성의 균형을 맞춘 모델 개발에 집중할 계획
Hacker News 의견
-
Claude-3.5-sonnet 모델은 일관성이 뛰어나며, 다른 모델들은 ADHD와 같은 문제를 겪고 있음
- NextJS 앱에서 shadcn 컴포넌트를 사용하려고 할 때, sonnet은 거의 완벽하게 수행하지만 다른 모델들은 radix-ui를 사용하려고 함
- o3-mini 모델도 동일한 문제를 겪고 있음
- cursor의 지시 세트가 문제일 가능성이 있음
- sonnet이 유일한 실행 가능한 코딩 옵션으로 남아 있음
-
o3-mini의 응답이 o1-mini보다 56% 더 선호됨
- 두 응답이 2,000 단어일 때, 질문에 대한 답변을 빨리 한 쪽을 선택하는 경향이 있음
- 이 설문은 무의미하며, 50% 응답률은 동전 던지기와 같음
-
o3-mini를 사용하여 스레드를 요약한 결과를 공유함
- 18,936 입력, 2,905 출력에 3.3612 센트가 소요됨
-
AI 코딩에서 o3-mini는 o1과 비슷한 점수를 얻었으며, 비용은 10배 저렴함
- o3-mini는 중간 노력으로 R1과 Sonnet 사이의 점수를 얻음
-
새로운 모델과 reasoning_effort 옵션을 지원하는 LLM CLI 도구의 새 릴리스를 발표함
- 예시 사용법을 공유함
-
o3-mini의 SWE 벤치 점수가 61%에서 49.3%로 떨어졌음을 지적함
- o3-mini가 실제 코딩 작업에서 Claude와 비슷한 성능을 보임
-
o3-mini-high가 seg fault의 근본 원인을 성공적으로 찾았음을 언급함
- 이전에 o1이 놓친 문제를 해결함
-
SWE-Bench에서 상당한 증가를 보였으며, 이전에 o1-mini가 처리하지 못한 작업을 처리할 수 있는지 다시 시도할 가치가 있음
- $4/백만 출력 토큰 대 $60의 비용 차이가 있음
-
AI 환경이 빠르게 변화하고 있으며, 새로운 AI 모델들이 등장하고 있음
- AI의 변화가 이번 릴리스와 향후 릴리스에 어떤 영향을 미칠지 궁금해 함