Andrej Karpathy의 GPT-4.5 리뷰

xguru · 2025-02-28T10:00:02+09:00

오늘 OpenAI에서 GPT-4.5가 출시됨 GPT-4 출시 이후 약 2년 동안 기다려온 이유는, 이번 릴리스가 단순히 더 큰 모델을 훈련할 때 얻을 수 있는 개선 효과를 정량적으로 측정할 기회를 제공하기 때문 각 버전의 "0.5"는 대략 10배 더 많은 사전 훈련 컴퓨팅을 의미함 GPT 모델의 발전 과정 GPT-1 → 거의 의미 있는 문장을 생성하지 못함 GPT-2 → 어설픈 장난감 수준 GPT-2.5 → 사실상 건너뛰고 바로 GPT-3으로 전환됨 GPT-3 → 흥미로운 발전을 보여줌 GPT-3.5 → 실제 제품으로 출시될 만큼 발전하여 ChatGPT 붐을 일으킴 GPT-4 → 더 개선되었지만, 뚜렷한 "와우" 포인트를 찾기는 어려웠음 특히 GPT-4 vs GPT-3.5 를 비교해보면: 어휘 선택이 더 창의적이고, 프롬프트의 뉘앙스를 더 잘 이해함 비유(analogy)가 좀 더 적절하고, 유머 감각이 조금 나아짐 드문 지식 영역에서도 이해도가 향상되고, 환각 발생 빈도가 약간 줄어듦 전반적으로 모든 것이 20%씩 좋아진 느낌이었음 이는 마치 물이 차오르면서 모든 배가 떠오르는 것과 같은 개선이었음 GPT-4.5 테스트 느낌 GPT-4.5는 GPT-4보다 10배 더 많은 사전 훈련을 거쳤음 그리고 테스트를 해본 결과, 다시 앞의 20%와 같은 패턴이 반복됨 모든 것이 조금 더 나아졌음 하지만 딱 꼬집어 말할 수 있는 "명확한 혁신 포인트"는 없음 그래도 일반적인 모델 개선 방향의 기울기를 측정하는 데 있어 흥미롭고 중요한 지표가 됨 GPT-4.5는 아직 "추론(reasoning)" 모델이 아님 GPT-4.5는 사전 훈련, 지도 학습(SFT), RLHF만 적용됨 따라서 수학, 코딩 등 논리적 추론이 필요한 문제에서는 개선되지 않음 이러한 영역에서는 강화 학습(RL)과 체계적 사고 훈련이 필요하며, 현재로서는 OpenAI o1 모델이 최고 성능을 보임 아마도 OpenAI는 GPT-4.5를 기반으로 강화 학습을 적용해 "사고하는" 모델로 발전시킬 가능성이 큼 이를 통해 수학, 논리, 코딩 능력을 향상시키려 할 것임 GPT-4.5의 강점: EQ 논리적 추론이 아닌 세계 지식, 창의력, 유추, 유머 감각 등 감성 지능(EQ)이 중요한 작업에서 개선됨 그래서 인터랙티브한 실험을 진행하려고 함: "GPT-4 vs GPT-4.5 비교 투표" 5가지 유머 감각을 평가하는 프롬프트를 선택 각 프롬프트에 대해 GPT-4와 GPT-4.5의 응답을 비교 X(트위터)에서 이미지(프롬프트 및 응답) + 투표 기능을 활용하여 실험 진행 8시간 후 어느 모델의 응답인지 공개할 예정

(x.com)

3P by xguru 2025-02-28 | ★ favorite | 댓글과 토론

오늘 OpenAI에서 GPT-4.5가 출시됨
GPT-4 출시 이후 약 2년 동안 기다려온 이유는, 이번 릴리스가 단순히 더 큰 모델을 훈련할 때 얻을 수 있는 개선 효과를 정량적으로 측정할 기회를 제공하기 때문
- 각 버전의 "0.5"는 대략 10배 더 많은 사전 훈련 컴퓨팅을 의미함
GPT 모델의 발전 과정
- GPT-1 → 거의 의미 있는 문장을 생성하지 못함
- GPT-2 → 어설픈 장난감 수준
- GPT-2.5 → 사실상 건너뛰고 바로 GPT-3으로 전환됨
- GPT-3 → 흥미로운 발전을 보여줌
- GPT-3.5 → 실제 제품으로 출시될 만큼 발전하여 ChatGPT 붐을 일으킴
- GPT-4 → 더 개선되었지만, 뚜렷한 "와우" 포인트를 찾기는 어려웠음
특히 GPT-4 vs GPT-3.5 를 비교해보면:
- 어휘 선택이 더 창의적이고, 프롬프트의 뉘앙스를 더 잘 이해함
- 비유(analogy)가 좀 더 적절하고, 유머 감각이 조금 나아짐
- 드문 지식 영역에서도 이해도가 향상되고, 환각 발생 빈도가 약간 줄어듦
- 전반적으로 모든 것이 20%씩 좋아진 느낌이었음
- 이는 마치 물이 차오르면서 모든 배가 떠오르는 것과 같은 개선이었음

GPT-4.5 테스트 느낌

GPT-4.5는 GPT-4보다 10배 더 많은 사전 훈련을 거쳤음
그리고 테스트를 해본 결과, 다시 앞의 20%와 같은 패턴이 반복됨
모든 것이 조금 더 나아졌음
- 하지만 딱 꼬집어 말할 수 있는 "명확한 혁신 포인트"는 없음
- 그래도 일반적인 모델 개선 방향의 기울기를 측정하는 데 있어 흥미롭고 중요한 지표가 됨

GPT-4.5는 아직 "추론(reasoning)" 모델이 아님

GPT-4.5는 사전 훈련, 지도 학습(SFT), RLHF만 적용됨
따라서 수학, 코딩 등 논리적 추론이 필요한 문제에서는 개선되지 않음
이러한 영역에서는 강화 학습(RL)과 체계적 사고 훈련이 필요하며, 현재로서는 OpenAI o1 모델이 최고 성능을 보임
아마도 OpenAI는 GPT-4.5를 기반으로 강화 학습을 적용해 "사고하는" 모델로 발전시킬 가능성이 큼
이를 통해 수학, 논리, 코딩 능력을 향상시키려 할 것임

GPT-4.5의 강점: EQ

논리적 추론이 아닌 세계 지식, 창의력, 유추, 유머 감각 등 감성 지능(EQ)이 중요한 작업에서 개선됨

그래서 인터랙티브한 실험을 진행하려고 함: "GPT-4 vs GPT-4.5 비교 투표"

5가지 유머 감각을 평가하는 프롬프트를 선택
각 프롬프트에 대해 GPT-4와 GPT-4.5의 응답을 비교
X(트위터)에서 이미지(프롬프트 및 응답) + 투표 기능을 활용하여 실험 진행
8시간 후 어느 모델의 응답인지 공개할 예정

GeekNews Weekly에 포함된 글입니다. 에디터 코멘트 보기