OpenAI, GPT-4.5 공개
(openai.com)- GPT-4.5는 OpenAI의 최신 모델로, 사전 훈련(pre-training)과 후속 훈련(post-training)에서 확장성을 개선한 버전임
- 비지도 학습(unsupervised learning)의 규모를 확장하여 패턴 인식과 창의적 통찰력 강화
- 보다 자연스러운 대화가 가능하며, 사용자 의도를 더 잘 이해하고 감성 지능(EQ)이 향상
- 글쓰기, 프로그래밍, 문제 해결 등 다양한 작업에서 유용하게 활용 가능
- 환각(hallucination) 발생률이 줄어들 것으로 예상
- 연구 프리뷰 형태로 제공되어, 모델의 강점과 한계를 탐구하고 다양한 사용 사례를 수집하는 것이 목표
비지도 학습의 확장
- AI의 발전을 위해 비지도 학습과 추론(reasoning) 의 두 가지 축을 확장함
-
추론 강화: 복잡한 STEM 문제 해결을 위해 모델이 체계적인 사고를 할 수 있도록 훈련됨
- OpenAI o1, OpenAI o3-mini 같은 모델이 이 접근법을 발전시킴
- 비지도 학습 확장: 더 많은 데이터를 통해 모델의 직관과 세계 지식 정확도를 높임
-
추론 강화: 복잡한 STEM 문제 해결을 위해 모델이 체계적인 사고를 할 수 있도록 훈련됨
- GPT-4.5는 Microsoft Azure AI 슈퍼컴퓨터에서 훈련되었으며, 더 넓은 지식과 깊은 이해력을 갖춤
- 이로 인해 환각 발생이 줄고 다양한 주제에서 더욱 신뢰할 수 있는 결과를 제공
GPT 패러다임의 확장
- GPT-4.5는 이전 모델보다 뛰어난 지식을 보유함
- 언어의 기원과 같은 역사적 질문에 대해 더 깊은 통찰을 제공
- "최초의 언어가 무엇인가?" 같은 질문에 대해:
- 단일한 최초의 언어는 존재하지 않았을 가능성이 높음
- 아프리카에서 10만 년 이상 전에 언어가 출현했을 것으로 추정됨
- 원시 언어(proto-languages)는 제스처, 소리, 신호 등에서 발전했을 가능성이 큼
- 언어는 기록이 없기 때문에 정확한 기원을 알 수 없음
- 이처럼 GPT-4.5는 언어학 및 역사 분야에서도 깊이 있는 답변을 제공할 수 있음
더 깊은 세계 지식
-
SimpleQA 평가 결과에서 GPT-4.5는 다른 모델보다 높은 정확도를 기록함
-
정확도(Accuracy) 비교:
- GPT-4.5: 62.5%
- GPT-4o: 38.2%
- OpenAI o1: 47%
- OpenAI o3-mini: 15%
-
환각률(Hallucination Rate) 비교 (낮을수록 좋음):
- GPT-4.5: 37.1%
- GPT-4o: 61.8%
- OpenAI o1: 44%
- OpenAI o3-mini: 80.3%
-
정확도(Accuracy) 비교:
- GPT-4.5는 사실 확인이 필요한 질문에서 더 높은 정확도를 유지하고 환각률을 낮춤
인간과의 협업을 위한 훈련
- GPT-4.5는 인간의 요구와 의도를 더 잘 이해하도록 훈련됨
- 사용자 의도를 더 정교하게 해석하고 자연스러운 대화가 가능함
- 기존 모델보다 감성 지능(EQ)이 향상되어 미묘한 뉘앙스를 더 잘 이해함
- 글쓰기, 디자인 작업에서 창의적 직관과 미적 감각이 뛰어남
-
비교 평가(Win-rate vs GPT-4o)
- 창의적 작업: 56.8%
- 전문적 질문: 63.2%
- 일상적 질문: 57.0%
- GPT-4.5는 인간과의 협업을 자연스럽게 수행하며, 대화 속에서 사용자 의도를 보다 정확하게 파악함
향후 전망: 더 강력한 추론 능력
- GPT-4.5는 응답 전에 논리적으로 사고하는 모델이 아님
- OpenAI o1 및 OpenAI o3-mini 같은 추론 중심 모델과는 다른 접근 방식임
- 미래 모델에서는 사전 훈련(pre-training)과 추론(reasoning)의 결합이 핵심이 될 것으로 전망됨
안전성 강화
- GPT-4.5는 기존의 SFT(지도 학습 미세 조정)와 RLHF(인간 피드백 강화 학습) 를 포함한 새로운 감독 기법으로 훈련됨
- 모델 배포 전 안전성 테스트를 수행하여 잠재적 위험을 평가함
- 평가 결과를 담은 시스템 카드(system card) 를 공개하여 연구 및 피드백을 유도함
ChatGPT에서 GPT-4.5 사용 방법
- 오늘부터 ChatGPT Pro 사용자는 웹, 모바일, 데스크톱에서 GPT-4.5 선택 가능
- 다음 주 Plus 및 Team 사용자에게 제공 예정
- 그다음 주 Enterprise 및 Edu 사용자에게 제공 예정
- 주요 기능:
- 최신 정보 검색 가능
- 파일 및 이미지 업로드 지원
- 캔버스를 활용한 글쓰기 및 코딩 작업 가능
- 다만, 음성 모드, 동영상, 화면 공유 기능은 미지원
API에서 GPT-4.5 사용 방법
- Chat Completions API, Assistants API, Batch API를 통해 개발자에게 제공됨
- 주요 기능:
- 함수 호출(Function Calling)
- 구조화된 출력(Structured Outputs)
- 스트리밍(Streaming)
- 시스템 메시지(System Messages)
- 이미지 입력을 통한 비전 기능 지원
- 개발자 활용 사례:
- 감성 지능과 창의성이 중요한 애플리케이션 (예: 글쓰기 도우미, 학습 코칭, 브레인스토밍)
- 복잡한 코드 작업 (예: 다단계 코딩 워크플로우, 자동화)
- API 제공 관련 고려 사항:
- GPT-4.5는 연산량이 많고 비용이 높은 모델이므로 GPT-4o를 대체하지 않음
- 장기적으로 API에서 계속 제공할지 검토 중이며, 사용자 피드백이 중요함
결론
- GPT-4.5는 비지도 학습의 한계를 확장하는 모델로, 창의적이고 새로운 기능을 탐색할 수 있음
- AI 기술의 새로운 가능성을 탐험하며, 사용자의 혁신적인 활용 사례를 기대함.
GPT-4.5의 가격 (1M 토큰당)
- 입력당 $75
- 캐시된 입력 $37.50
- 출력당 $150
4o 랑 가격 비교해보면 입력은 30배, 출력은 15배 비싸네요
하지만 성능은 그정도로 좋아지지는 않아서 불만이 많은듯
Cursor 에서 GPT-4.5를 사용해보면 다른 모델이 실패하는 케이스에서도 효율적으로 작동한다고 합니다.
물론 너무 비싸서 사용량 기반으로 돈을 내야 합니다. "복잡한 코딩 시키다 파산하겠네" 라는 반응이..
https://x.com/cursor_ai/status/1895210110714290302
Hacker News 댓글
-
GPT 4.5의 가격이 매우 높음
- 입력: 1백만 토큰당 $75.00
- 캐시된 입력: 1백만 토큰당 $37.50
- 출력: 1백만 토큰당 $150.00
- GPT 4o와 비교 시 가격 차이가 큼
- GPT-4.5는 매우 크고 계산 집약적인 모델로, 장기적으로 API에서 제공할지 평가 중임
- 사용자 피드백이 중요함
-
GPT-4.5 사용 소감
- 매우 느림, 실시간 상호작용에는 적합하지 않음
- 글쓰기 스타일이 개선됨, 더 캐주얼하고 접근 가능함
- 책 초안 비교에서 GPT4o와 GPT4.5의 차이가 눈에 띔
-
감정 지능(EQ)에 집중
- "친절한 AI 친구"로 변모하는 경향이 보임
- Anthropic과 Grok도 이 방향으로 움직이고 있음
- API 응답에 이러한 행동이 스며들지 않기를 바람
-
블로그 게시물과 라이브 스트림 데모에 실망
- 새로운 모델이 인상적이지 않음
- OpenAI가 경쟁자들보다 앞서 나가기 어려워 보임
- 가격이 매우 높아 놀라움
-
OpenAI와 Anthropic의 다른 접근
- Anthropic은 단일 패러다임(추론)이 모든 사용 사례에 적합할 수 있다고 믿음
- OpenAI는 다양한 기능을 가진 모델의 앙상블이 필요하다고 믿음
- GPT 4.5는 크기가 커서 더 많은 사실 데이터를 저장할 수 있음
-
Kagi LLM 벤치마크에서 GPT-4.5의 성능
- 높은 가격과 속도에도 불구하고 성능이 뛰어남
- 일부 작업에서는 여전히 부족함
-
API를 통한 GPT-4.5 사용 방법
- uvx 도구를 사용하여 실행 가능
- API 키 설정 필요
-
코딩 성능 비교
- ChatGPT 4.5가 ChatGPT 4o보다 코딩에서 약간 더 나음
- Anthropic Claude 3.7이 더 나은 성능을 보임
-
OpenAI의 시도에 대한 이해
- GPT 4.5는 사전 훈련 확장 법칙을 탐구하기 위한 중요한 시도였음
- 과학에 기여하는 선물임