# GPT-4.5: "프론티어 모델이 아니다"?

> Clean Markdown view of GeekNews topic #19536. Use the original source for factual precision when an external source URL is present.

## Metadata

- GeekNews HTML: [https://news.hada.io/topic?id=19536](https://news.hada.io/topic?id=19536)
- GeekNews Markdown: [https://news.hada.io/topic/19536.md](https://news.hada.io/topic/19536.md)
- Type: GN+
- Author: [xguru](https://news.hada.io/@xguru)
- Published: 2025-03-03T10:22:05+09:00
- Updated: 2025-03-03T10:22:05+09:00
- Original source: [interconnects.ai](https://www.interconnects.ai/p/gpt-45-not-a-frontier-model)
- Points: 2
- Comments: 2

## Topic Body

- GPT-4.5의 공개와 함께 OpenAI는 모델의 **시스템 카드**를 먼저 공개함  
- 초기 시스템 카드에는 **"GPT-4.5 is not a frontier model"**(GPT-4.5는 최첨단 모델이 아님)라는 문구가 포함됨  
   - 이후 공식 블로그 게시물과 업데이트된 시스템 카드에서는 이 문구가 삭제  
- OpenAI의 누군가는 그 문구를 넣어야 할 필요성을 느낀듯. 근데 **"왜 OpenAI는 이걸 릴리즈 했을까?"**  
- 프론티어 모델이 아니라는 주장에 대한 주요 모순은 **GPT-4.5가 일반 대중이 테스트할 수 있는 가장 큰 모델**이라는 것  
   - 이 정도 크기의 모델로 확장한다고 해서 우리가 측정하는 기능에서 뚜렷한 도약이 일어나지는 않음  
   - **GPT-3.5 → GPT-4** 전환은 **보통(Okay)** 에서 **좋음(Good)** 이었음   
   - **GPT-4o → GPT-4.5** 변화는 **훌륭함(Great)** 에서 **매우 훌륭함(Really Great)**   
- 최신 모델의 차이점을 알아내는 것은 매우 어렵기 때문에, AI에 투자하고 발전을 기대하는 사람들은 실제보다 더 나은 것으로 착각할 가능성이 있음  
- 기대했던 만큼의 큰 성능 향상 없이 **스케일링의 경제적 한계가 명확해지는 시점**임  
  - Anthropic도 비슷한 문제를 겪으며, Claude 3.7 이후 **훨씬 더 큰 모델을 훈련할 것**이라고 확인됨  
- GPT-4.5는 **점진적인 발전을 보여주는 모델**로, 기존의 혁신적인 도약과는 다름  
  - AI 연구에서 "단순한 사전 훈련 확장은 더 이상 기존 수준의 혁신을 만들지 못한다"는 사실을 보여줌  
  - OpenAI 내부적으로는 GPT-4.5를 오랫동안 활용했으며, **GPT-4.5를 기반으로 다른 모델을 훈련하는 용도로 사용**했을 가능성이 큼(Cutdate가 2023년인것으로 보아)  
  
### GPT-4.5는 뭐가 좋은가  
- (GPT-4.5와 GPT-4o의 매개변수 수에 대한 몇 가지 추정치이고, 유출된 정보를 기반으로 한 것이 아니므로 오차 범위가 크므로 주의해야 함)  
- GPT-4.5는 **매우 큰 모델**이며, Grok 3보다 클 가능성이 큼  
  - GPT-4는 **1조(1T) 이상의 전체 파라미터**를 가진 혼합 전문가(MoE) 모델이었으며, 활성 파라미터는 약 **200B**으로 추정됨  
  - 소문에 의하면 GPT-4o 또는 Gemini Pro와 같은 모델의 활성 매개변수가 60B까지 작아짐   
  - 즉, 최근 모델들은 **활성 파라미터를 줄이고 인프라를 최적화하여 속도와 비용을 개선하는 방식**으로 발전 중    
- GPT-4.5는 **GPT-4 대비 약 10배 더 많은 연산량(10X compute)** 이 필요할 것으로 추정됨   
  - **5배 더 많은 파라미터 + 2배 더 큰 데이터셋 = 10배의 연산량 증가**  
  - 전체 파라미터가 **5-7조(5T-7T)** 에 달할 수 있으며, 활성 파라미터는 약 **600B**일 것으로 예상  
- 하지만, **이만큼 확장해도 성능 향상이 체감되기는 어려움.**  
- 여기서부터 상황이 매우 이상해짐. OpenAI가 이번 발표에서 강조한 2가지   
  - **환각(Hallucination) 감소** : 모델이 사실이 아닌 정보를 생성하는 빈도를 줄임  
  - **감성 지능(Emotional Intelligence) 향상** : 문맥과 감정을 더 잘 이해하고 표현 가능  
  - 하지만, 이 2가지는 객관적으로 평가하기 어려운 특성임  
- 벤치마크 성능 (OpenAI 제공 데이터 기준)  
  - **SimpleQA**: AI 모델의 세계 지식 평가에서 GPT-4.5가 큰 성능 향상을 보임  
  - **PersonQA**: 개별 인물 관련 질문 평가에서도 최고 성능  
  - **GPQA (Google-proof QA)**: 정보 검색 없이 논리적 추론을 평가하는 지표에서도 우수한 성과  
- 출시 직후 AI 전문가들 사이에서 **GPT-4.5가 사용하기 편하고 글을 더 잘 쓴다**는 의견이 나옴  
  - 하지만, 코드 및 기술적 성능 평가에서는 **Claude 3.7, R1 등의 경쟁 모델과 비교해 중간 수준**으로 평가됨  
- **글쓰기 스타일 비교**(Karpathy의 X(트위터) 설문조사 결과)  
  - **GPT-4.5 vs. GPT-4o-latest**: 다수의 사용자들이 **GPT-4o-latest의 글쓰기 스타일을 더 선호**함  
  - **이유?** GPT-4o-latest가 이전에 Orion1이라고 불렸던 이 새로운 모델에서 **증류된(distilled) 모델**일 가능성이 높고, 크기가 훨씬 작아 반복 속도에서 밤낮으로 차이가 나기 때문에 사후 훈련이 더 잘 될 수 있을 것  
- 이 모든 것은 OpenAI가 **ChatBotArena 랭킹에서 다시 1위를 차지하기 위해 지불해야할 대가**  
  - GPT 4.5가 이를 달성할 것으로 기대하지만 결과는 아직 미확정  
- 필자가 미리 직접 사용해본 결과, **속도가 느려 처음에는 불편했으나, 신뢰성이 높아 계속 사용할 가치가 있음**  
  - 그러나 **추가 비용을 내면서까지 GPT-4.5를 선택할 필요는 없으며, OpenAI의 o1 Pro 및 다른 유료 서비스가 더 높은 가성비를 제공함**  
  
### GPT-4.5의 가격이 비싼 이유   
- GPT-4 출시 당시 가격도 상당히 높았고, 실제로 GPT-4.5와 비슷했음   
- GPT-4.5의 초기 가격은 다음과 같음:   
  - **입력 (Input)**: $75.00 / 1M 토큰  
  - **캐시된 입력 (Cached Input)**: $37.50 / 1M 토큰  
  - **출력 (Output)**: $150.00 / 1M 토큰  
  - 즉, 이전 모델들보다 **훨씬 높은 가격**으로 시작되었음  
- OpenAI의 이전 모델들도 처음에는 가격이 비쌌지만, 점진적으로 **크게 인하**된 사례가 있음  
  - **GPT-4 (2023년 3월 출시)**  
    - 처음에는 **입력 100만 개당 $30, 출력 100만 개당 $60**으로 시작  
    - 32K 컨텍스트 버전은 더 비싸서 **입력 $60, 출력 $120**이었음  
  - **GPT-4 Turbo (2023년 11월 출시)**  
    - 훨씬 저렴해져서 **입력 $10, 출력 $30**으로 가격이 내려감  
  - **GPT-4o (2024년 5월 출시)**  
    - 가격이 더 내려가 **입력 $2.5, 출력 $10**이 되어 **GPT-4 대비 10배 이상 저렴해짐**  
  - 이처럼, OpenAI는 새로운 모델이 나올 때마다 가격을 크게 낮추는 패턴을 보임  
- 현재 GPT-4.5의 가격이 비싸게 책정된 이유는 **출시 초기라서 높은 마진을 설정했기 때문**으로 보임  
  - OpenAI는 모델이 **API에 계속 남을지 보장하지 않으며, 사용자 반응을 보고 결정하겠다고 언급**함   
- 많은 전문가들은 Nvidia의 차세대 GPU **Blackwell**이 출시되면, 더 큰 모델을 효율적으로 운영할 수 있어 비용이 낮아질 것으로 예상  
- GPT-4에서 GPT-4 Turbo, GPT-4o로 가면서 가격이 점점 낮아졌듯이, **GPT-4.5도 향후 GPT-4.5 Turbo 같은 버전이 나오면서 가격이 인하될 가능성이 높음**  
  
### 스케일링의 미래  
- 언어 모델의 스케일링은 아직 죽지 않았음   
  - 하지만, 이번 발표가 왜 그렇게 이상하게 느껴졌는지 되돌아 보는 것은 AI의 발전속에서 냉정함을 유지하는데 매우 중요함   
  - 우리는 **다양한 스케일링 유형간의 장단점이 존재하는 시대에 접어들었음**  
- 짧게 요약하자면, **"GPT-4.5는, 이상하지만, 시대를 앞서 나가고 있음"**  
  - GPT-4.5는 단순한 모델 확장이 아니라 **새로운 스케일링 방식이 필요하다는 신호**  
  - 이는 AI의 발전이 단순한 모델 크기 확장(Scaling Up)만으로는 충분하지 않고 다른 방식을 취해야 한다는 것을 의미하지만, 우리는 이미 추론 모델의 빠른 발전을 통해 이를 알고 있었음   
  - GPT-4.5의 진정한 영향력은 **여러 라인**의 빠른 발전과 통합될 때 발휘됨   
- DeepSeek의 R1 논문과 후속 RL 연구에서 **더 큰 모델일수록 RL 트레이닝이 더 효과적**이라는 결론이 나옴  
  - OpenAI의 **o4 모델도 GPT-4.5 기반의 추론 모델을 활용해 훈련될 가능성이 높음**   
  - OpenAI의 현재 모델은 **GPT-4.5가 없었다면 그다지 훌륭하지 않았을 것**  
- 빠르면 **1년 이내에 대부분의 모델이 GPT-4.5 규모로 발전하고, 속도도 훨씬 빨라질 것**  
  - "균형 잡힌" 개선 사항은 더 많은 애플리케이션을 더욱 견고하게 만드는 데 도움이 될 것  
  - OpenAI와 AI 연구소들의 다른 연구자들은 **기존 인프라 한계를 넘어서는 수준까지 모델을 확장하려 하고 있음**  
- 프론티어 랩이 모든 확장 방향의 한계를 뛰어넘지 않는다면 충분한 위험을 감수하지 않는 것  
  - 모델을 공개할 필요는 없지만, OpenAI가 실제로 왜 이렇게 하려고 했는지 추측해볼 필요가 있음   
  - 현재 다른 내부 시스템과 곧 다른 외부 제품에도 GPT-4.5가 사용될 가능성이 높기 때문에 이 모델을 출시하는 것은 우회로가 아니라 **다음 단계로 나아가는 자연스러운 과정**  
- GPT-4.5는 프론티어 모델이지만, 그 출시가 흥미진진한 것은 아님   
  - AI의 발전은 공짜가 아니며 많은 노력이 필요함   
  - GPT-4.5 자체가 중요한 것이 아니라, **이 모델이 다른 기술과 결합될 때 진짜 가치가 드러날 것**

## Comments


### Comment 35363

- Author: doolayer
- Created: 2025-03-03T14:36:25+09:00
- Points: 1

이미 많은 벤치가 포화된 상태에서 사용성이나 환각등에 집중하는 것 당연한 흐름이라고 보입니다.

### Comment 35339

- Author: neo
- Created: 2025-03-03T10:22:05+09:00
- Points: 1

###### [Hacker News 의견](https://news.ycombinator.com/item?id=43230965) 
* GPT 4.5도 2023년 10월까지의 지식 컷오프를 가짐
  - 이 모델은 최소 1년 전에 사전 훈련이 완료되었을 가능성이 있음
  - OpenAI는 Q-star/strawberry와 같은 다른 프로젝트에 집중했을 수 있음

* OpenAI의 추론 모델이 기대만큼 강력하지 않을 수 있음
  - Gemini 2.0 Flash, Grok 3, Sonnet 3.7과 같은 강력한 비추론 모델들이 등장함
  - OpenAI는 외관상 무언가를 출시할 필요성을 느꼈을 수 있음

* 가격은 다소 미스터리임
  - 최신 효율성 트릭이 없는 오래된 모델의 반영일 수 있음
  - GPT-4.5는 OpenAI가 얼마나 많은 비용을 지불할지 알아내는 방법일 수 있음

* GPT-4o에서 4.5로의 도약은 큰 도약이 아님
  - 사치품처럼 가격이 매겨졌지만 사치스러운 보상은 없음

* GPT-4.5는 복잡하고 미묘한 생각을 매우 빠르게 처리할 수 있음
  - 다른 AI보다 훨씬 뛰어남

* GPT-4.5는 이상한 방향으로 가지 않고 현실에 기반을 둠
  - 톤 선호에 잘 반응하고 미묘한 차이를 잘 이해함

* 장기적으로 인프라를 수익화하기 어려울 수 있음
  - 코딩 API는 Claude 3.5/3.7이 더 많이 사용될 가능성이 큼
  - 비코딩 API는 Gemini 2.0 Flash가 더 저렴하고 성능이 좋음
  - 구독 앱은 ChatGPT가 여전히 최고지만 Grok이 경쟁 중임

* GPT-4.5는 "창의적 글쓰기"에 약간 더 나음
  - Anthropic은 더 실용적인 문제를 해결하는 새로운 모델을 출시함

* 기술의 한계에 도달하고 있는 것 같음

* 두 문장이 모순적이지 않나 하는 의견이 있음
  - 모델 크기를 확장해도 명확한 능력 향상이 없었음
  - GPT-4o에서 GPT-4.5로의 도약은 모델을 훌륭하게 만듦

* 벤치마크의 마지막 퍼센티지를 실제로 보는 사람이 있는지 의문임
  - 벤치마크가 100% 정확하다고 가정하는 것이 실수일 수 있음

* Azure의 모든 GPT4o 모델이 5월에 사용 중단 예정임
  - Anthropic으로 이동해야 할지 고민 중임
  - 새로운 "o" 모델 출시 시기에 대한 정보가 필요함