14P by xguru 19일전 | ★ favorite | 댓글 1개
  • OpenAI의 o3-mini 모델이 새로 공개되었고, 다른 o 시리즈 모델과 마찬가지로 평가하기가 약간 어려움
    • 이제 기존 GPT-4o, o1, o1 Pro 등에 이어 사용 목적에 따라 어떤 모델을 선택할지 결정해야 하는 상황
  • o3-mini System Card (PDF)에 따르면 일부 평가 지표에서 o3-mini가 GPT-4o, o1보다 우수하지만, 모든 항목에서 일관적으로 높은 것은 아님
    • Codeforces ELO 같은 경쟁 프로그래밍 성능 관련 벤치마크 지표에서 특히 좋은 성능을 보임
  • OpenAI는 o3-mini를 이용해 인터넷 검색 후 ChatGPT에서 결과를 요약하도록 허용할 예정
    • 기존 o1 모델은 웹 검색 툴을 ChatGPT에서 사용하지 않았기 때문에, 이번 기능 추가의 활용성이 주목됨
  • 또한 o3-mini는 비전(이미지) 기능을 지원하지 않지만, 차기 mini 모델에서는 비전을 포함할 가능성이 있음
  • 내가 작성한 CLI 도구인 LLM 0.21에서 o3-mini 지원이 추가되었음
    • -o reasoning_effort 옵션으로 high, medium, low 지정 가능
  • 현재 o3-mini는 Tier 3 이상 사용자만 사용 가능함
    • 최소 API 이용액이 $100 이상이어야 해당 티어에 속함
  • o3-mini의 비용은
    • 입력 토큰 100만 개당 $1.10
    • 출력 토큰 100만 개당 $4.40
    • GPT-4o($2.50/$10) 대비 절반 이하의 저렴한 가격이며, o1($15/$60) 대비해서는 1/10 이하의 가격
  • Hacker News 게시물(42890627)을 요약하기 위해 hn-summary.sh 스크립트를 o3-mini로 돌려봄
    • hn-summary.sh 42890627 -o o3-mini
    • 18,936개의 입력 토큰과 2,905개의 출력 토큰 사용, 총 비용은 약 0.033612달러(3.3612 센트)였음
  • o3-mini의 최대 출력 토큰 제한은 100,000개임
    • GPT-4o(16,000개), DeepSeek R1(8,000개), Claude 3.5(8,000개)보다 훨씬 큼
    • 내부 추론에 쓰이는 토큰도 이 한도 내에서 소모되므로 실제 출력이 100,000개에 다다르긴 어려울 수 있음
  • 입력 토큰은 최대 200,000개가 가능하며, GPT-4o의 128,000개보다 확장된 용량
  • 장문의 번역 작업 등에 활용 가능성이 높아 보임
    • 가격이 저렴하고 장문 입력·출력 처리에 유리하기 때문
  • Hacker News에서 전문 번역가 Tom Gally의 코멘트가 흥미로움
    • DeepSeek R1, o3-mini 모두 긴 텍스트 번역 시 후반 품질 저하를 보였다는 언급
    • 처음에는 R1도 나쁘지 않은 것 같았지만, o3-mini가 더 부드럽고 자연스러운 영어로 요구한 글쓰기 스타일에 더 근접한 결과물을 만들어냄
    • 하지만 출력 길이가 R1은 5,855자, o3-mini는 9,052자, 직접 다듬은 버전은 11,021자
    • R1은 후반 일부 문단을 생략했고, o3-mini는 특이한 축약형 문체를 사용했음(명사들 사이에 and 대신 / 를 사용)
    • 이전에 ChatGPT, Claude, Gemini 등은 같은 텍스트 번역에서는 이런 문제를 보이지 않았다는 의견