OpenAI, 더 많이 생각하고 대답하는 o1 모델 프리뷰 공개

xguru · 2024-09-13T08:50:46+09:00

복잡한 문제를 해결하기 위한 새로운 추론 모델 모델이 응답하기 전에 문제를 더 오래 생각하도록 훈련됨 훈련을 통해 사고 과정을 개선하고, 다양한 전략을 시도하며, 실수를 인식하는 법을 배움 물리학, 화학, 생물학의 도전적인 벤치마크 작업에서 박사과정 학생과 유사한 성능을 보임 수학과 코딩에서도 뛰어난 성적을 보임 국제수학올림피아드(IMO) 예선 시험에서 GPT-4o는 13%만 맞춘 반면, 추론 모델은 83%를 맞춤 Codeforces 대회에서 코딩 능력이 89백분위수에 도달 안전성 새로운 안전 교육 접근 방식을 고안하여 모델이 안전 및 정렬 지침을 준수하도록 함 가장 어려운 탈옥 테스트 중 하나에서 GPT-4o는 22점(100점 만점)을 받은 반면, o1-preview 모델은 84점을 받음 안전 작업, 내부 거버넌스, 연방 정부 협력을 강화함 Preparedness Framework를 사용한 엄격한 테스트 및 평가 최고 수준의 레드 팀 운영 Safety & Security Committee를 포함한 이사회 수준의 검토 프로세스 미국 및 영국 AI 안전 연구소와 협약을 체결하고 운영을 시작함 누구를 위한 모델인가 과학, 코딩, 수학 등의 분야에서 복잡한 문제를 다루는 경우 특히 유용할 수 있음 예를 들어 헬스케어 연구원은 세포 시퀀싱 데이터에 주석을 달고, 물리학자는 양자 광학에 필요한 복잡한 수학 공식을 생성하고, 개발자는 다단계 워크플로를 구축하고 실행하는 데 사용할 수 있음 OpenAI o1-mini o1 시리즈는 복잡한 코드를 정확하게 생성하고 디버깅하는 데 뛰어남 개발자에게 보다 효율적인 솔루션을 제공하기 위해 o1-mini라는 더 빠르고 저렴한 추론 모델도 출시함 o1-mini는 o1-preview보다 80% 저렴 추론은 필요하지만 광범위한 세계 지식은 필요하지 않은 애플리케이션에 강력하고 비용 효율적인 모델 OpenAI o1 사용 방법 ChatGPT Plus 및 Team 사용자는 오늘부터 ChatGPT에서 o1 모델에 액세스할 수 있음 o1-preview와 o1-mini 모두 수동으로 선택할 수 있음 출시 시 o1-preview는 주당 30개, o1-mini는 주당 50개의 메시지 제한이 있음 ChatGPT Enterprise 및 Edu 사용자는 다음 주부터 두 모델에 액세스할 수 있음 API 사용 등급 5에 해당하는 개발자는 오늘부터 20 RPM의 속도 제한으로 API에서 두 모델로 프로토타이핑을 시작할 수 있음 이 모델들의 API에는 현재 함수 호출, 스트리밍, 시스템 메시지 지원 등의 기능이 포함되어 있지 않음 o1-mini 액세스를 모든 ChatGPT Free 사용자에게 제공할 계획임 향후 계획 이것은 ChatGPT 및 API를 위한 추론 모델의 초기 프리뷰임 모델 업데이트 외에도 브라우징, 파일 및 이미지 업로드 등의 기능을 추가하여 모든 사람에게 더 유용하게 만들 계획 새로운 OpenAI o1 시리즈와 함께 GPT 시리즈의 모델 개발 및 출시를 계속할 계획임

(openai.com)

8P by xguru 2024-09-13 | ★ favorite | 댓글 4개

복잡한 문제를 해결하기 위한 새로운 추론 모델
모델이 응답하기 전에 문제를 더 오래 생각하도록 훈련됨
훈련을 통해 사고 과정을 개선하고, 다양한 전략을 시도하며, 실수를 인식하는 법을 배움
물리학, 화학, 생물학의 도전적인 벤치마크 작업에서 박사과정 학생과 유사한 성능을 보임
수학과 코딩에서도 뛰어난 성적을 보임
- 국제수학올림피아드(IMO) 예선 시험에서 GPT-4o는 13%만 맞춘 반면, 추론 모델은 83%를 맞춤
- Codeforces 대회에서 코딩 능력이 89백분위수에 도달

안전성

새로운 안전 교육 접근 방식을 고안하여 모델이 안전 및 정렬 지침을 준수하도록 함
가장 어려운 탈옥 테스트 중 하나에서 GPT-4o는 22점(100점 만점)을 받은 반면, o1-preview 모델은 84점을 받음
안전 작업, 내부 거버넌스, 연방 정부 협력을 강화함
- Preparedness Framework를 사용한 엄격한 테스트 및 평가
- 최고 수준의 레드 팀 운영
- Safety & Security Committee를 포함한 이사회 수준의 검토 프로세스
미국 및 영국 AI 안전 연구소와 협약을 체결하고 운영을 시작함

누구를 위한 모델인가

과학, 코딩, 수학 등의 분야에서 복잡한 문제를 다루는 경우 특히 유용할 수 있음
예를 들어
- 헬스케어 연구원은 세포 시퀀싱 데이터에 주석을 달고,
- 물리학자는 양자 광학에 필요한 복잡한 수학 공식을 생성하고,
- 개발자는 다단계 워크플로를 구축하고 실행하는 데 사용할 수 있음

OpenAI o1-mini

o1 시리즈는 복잡한 코드를 정확하게 생성하고 디버깅하는 데 뛰어남
개발자에게 보다 효율적인 솔루션을 제공하기 위해 o1-mini라는 더 빠르고 저렴한 추론 모델도 출시함
o1-mini는 o1-preview보다 80% 저렴
- 추론은 필요하지만 광범위한 세계 지식은 필요하지 않은 애플리케이션에 강력하고 비용 효율적인 모델