10P by xguru 3일전 | favorite | 댓글과 토론

주요 발표

  • ChatGPT의 고급 음성 모드와 유사한 기능을 구현할 수 있게 해주는 Realtime API
  • o1 모델의 Rate Limit을 GPT-4o와 같도록 상향(분당 1만회)
  • 자동 프롬프트 캐싱으로 GPT-4o API의 가격 인하. 반복된 호출에 대해서 추가 개발없이 50% 저렴
  • 멀티 모달 파인튜닝 API
  • 작년부터 올해까지 OpenAI 플랫폼에서 활동 중인 앱 수는 3배 증가했으며, 활동 중인 개발자 수는 300만 명에 달함

o1 모델에 대한 개요

  • OpenAI는 새로운 추론 모델인 o1을 출시하였음
  • o1은 기존의 GPT-4o와는 다른 새로운 모델 군으로 분류됨
  • OpenAI는 다양한 사용 사례에 맞는 여러 모델을 개발하는 것이 미래의 방향이 될 것이라고 봄
  • o1은 체인 사고 형태로 생각할 수 있는 능력이 뛰어나 프로그래밍 작업에 적합하지만 속도가 느리고 비용이 많이 듦
  • 대부분의 프롬프트는 o1의 고급 추론 능력을 필요로 하지 않기 때문에 o1은 기본 모델이 되지는 않을 것임
  • OpenAI의 개발자 관계 책임자인 Romain Huet은 o1을 사용하여 단일 프롬프트로 30초 만에 iPhone 앱을 처음부터 끝까지 제작하는 시연을 선보임
  • 또한 무대에 드론을 가지고 나와 웹 앱을 제작하여 청중들 앞에서 드론을 조종하는 시연도 보여줌
  • 이전 GPT 모델로도 이러한 시연이 가능했겠지만, o1을 사용하면 훨씬 빠르게 제작할 수 있음
  • o1은 아이디어에서 앱까지 1~2분 안에 만들 수 있는 미래를 보여줌

음성 대화형 실시간 API

  • OpenAI가 출시한 가장 인상적인 기능은 실시간 API로, 개발자가 자신의 앱에 ChatGPT의 고급 음성 모드와 유사한 기능을 구현할 수 있게 해줌
  • 개발자는 녹음된 오디오를 OpenAI 서버로 전송하고 실시간으로 녹음된 응답, 녹취록, 함수 호출을 받을 수 있음
  • 실시간 API는 오늘부터 공개 베타로 출시되며, 향후 비디오와 같은 더 많은 양식도 지원할 예정임
  • 실시간 API는 분당 오디오 입력 0.06달러, 오디오 출력 0.24달러로 총 0.15달러의 비용이 듦 (오디오 입출력이 동일하다고 가정)
  • 이는 분당 약 0.11달러인 ElevenLabs의 음성 대 음성 서비스보다 비싸지만 사용량에 따라 비용을 지불하는 것은 아니고 매월 일정량의 시간을 구매해야 함
  • 실시간 음성은 더 나은 독서 도우미, 더 몰입감 있는 언어 교습 등 많은 새로운 사용 사례를 열어줌

파인튜닝 도구

  • OpenAI는 여러 모델을 사용하는 것이 하나의 큰 모델을 사용하는 것보다 낫다는 아이디어를 진지하게 받아들이고 있음
  • 기업이 자신의 사용 사례에 맞게 GPT-4o의 맞춤형 버전을 만들 수 있도록 지원함
  • OpenAI는 모든 기업이 자신의 데이터에 접근할 수 있는 미세 조정된 모델을 보유하게 될 미래를 그리고 있음

이미지 파인튜닝 API

  • 누구나 자신의 이미지 데이터를 사용하여 GPT-4o를 파인튜닝할 수 있음
  • 예를 들어 의료 분야에서 일하면서 GPT-4o가 MRI를 읽고 레이블을 지정하는 능력을 미세 조정하고 싶다면 이 API를 사용할 수 있음

모델 증류 도구

  • OpenAI는 특정 사용 사례에 맞게 구축된 더 작고 빠르고 저렴한 버전의 파운데이션 모델을 만드는 과정인 모델 증류를 더 잘할 수 있도록 두 가지 도구를 출시함
  • 개발자 플레이그라운드에서 이전 API 상호 작용을 기록하고 이를 미세 조정을 위한 데이터로 사용할 수 있는 기능을 추가하여 증류를 더 쉽게 만듦
  • 또한 개발자가 미세 조정된 모델의 성능을 평가할 수 있도록 플레이그라운드에 Evals 도구를 추가함

프롬프트 캐싱으로 반복 API 호출 비용 50% 절감

  • OpenAI는 반복되는 API 호출을 감지하고 이전에 생성된 응답을 반환하는 새로운 프롬프트 캐싱 기능을 출시함
  • 이 기능은 오늘부터 자동으로 작동하며 개발자가 추가 작업 없이도 많은 API 호출 비용을 50% 절감할 수 있음
  • 이 기능은 OpenAI가 API 사용 비용을 점점 더 저렴하게 만들기 위해 경쟁하는 추세의 연장선임
  • 개발자에게는 좋은 소식이지만 OpenAI의 가장 큰 파트너인 마이크로소프트와는 흥미로운 역학 관계를 만들어냄
  • 마이크로소프트는 대기업들이 용량을 보장받기 위해 GPT-4 API 호출을 일정 금액 이상 사전 구매하도록 압박해 왔음
  • 이미 구매 약정을 한 마이크로소프트와 고객들이 이러한 가격 인하를 어떻게 생각할지 궁금해짐

OpenAI의 전략

1. 다양한 사용 사례에 맞는 여러 모델 개발에 주력

  • OpenAI는 하나의 모델로 모든 것을 처리하기보다는 여러 모델을 함께 사용하는 것이 가장 효과적인 애플리케이션이 될 것이라고 믿음
  • 개발자는 o1과 같이 추론에 강한 모델과 GPT-4o와 같이 긴 맥락이나 이미지 프롬프트 처리에 강한 모델을 함께 사용하여 사용자에게 일관된 경험을 제공할 수 있음

2. o1은 자율적으로 작업할 수 있는 에이전트로 가는 중요한 단계

  • 에이전트는 오랫동안 가장 섹시한 AI 애플리케이션 중 하나였지만, 이전 GPT 모델은 작업을 스스로 해결하려고 하면 제대로 작동하지 않을 가능성이 높았음
  • o1은 자신의 사고 과정을 성찰하고 다음 단계를 계획할 수 있는 능력 덕분에 진정으로 자율적인 에이전트를 만드는 데 핵심 역할을 할 것으로 기대됨

3. 개발자가 사용자를 위해 놀라운 경험을 만들 수 있는 기술이 엄청나게 많아짐

  • 단 몇 년 전만 해도 오늘 시연된 것들 중 어느 것도 불가능했거나 관심 밖이었다는 것을 잊기 쉬움
  • 오늘날 여가 시간에 앱을 만드는 단일 개발자조차도 이전에는 전체 개발팀도 할 수 없었던 일을 해낼 수 있음