2P by neo 12일전 | ★ favorite | 댓글 2개
  • GPT-4.5의 공개와 함께 OpenAI는 모델의 시스템 카드를 먼저 공개함
  • 초기 시스템 카드에는 "GPT-4.5 is not a frontier model"(GPT-4.5는 최첨단 모델이 아님)라는 문구가 포함됨
    • 이후 공식 블로그 게시물과 업데이트된 시스템 카드에서는 이 문구가 삭제
  • OpenAI의 누군가는 그 문구를 넣어야 할 필요성을 느낀듯. 근데 "왜 OpenAI는 이걸 릴리즈 했을까?"
  • 프론티어 모델이 아니라는 주장에 대한 주요 모순은 GPT-4.5가 일반 대중이 테스트할 수 있는 가장 큰 모델이라는 것
    • 이 정도 크기의 모델로 확장한다고 해서 우리가 측정하는 기능에서 뚜렷한 도약이 일어나지는 않음
    • GPT-3.5 → GPT-4 전환은 보통(Okay) 에서 좋음(Good) 이었음
    • GPT-4o → GPT-4.5 변화는 훌륭함(Great) 에서 매우 훌륭함(Really Great)
  • 최신 모델의 차이점을 알아내는 것은 매우 어렵기 때문에, AI에 투자하고 발전을 기대하는 사람들은 실제보다 더 나은 것으로 착각할 가능성이 있음
  • 기대했던 만큼의 큰 성능 향상 없이 스케일링의 경제적 한계가 명확해지는 시점
    • Anthropic도 비슷한 문제를 겪으며, Claude 3.7 이후 훨씬 더 큰 모델을 훈련할 것이라고 확인됨
  • GPT-4.5는 점진적인 발전을 보여주는 모델로, 기존의 혁신적인 도약과는 다름
    • AI 연구에서 "단순한 사전 훈련 확장은 더 이상 기존 수준의 혁신을 만들지 못한다"는 사실을 보여줌
    • OpenAI 내부적으로는 GPT-4.5를 오랫동안 활용했으며, GPT-4.5를 기반으로 다른 모델을 훈련하는 용도로 사용했을 가능성이 큼(Cutdate가 2023년인것으로 보아)

GPT-4.5는 뭐가 좋은가

  • (GPT-4.5와 GPT-4o의 매개변수 수에 대한 몇 가지 추정치이고, 유출된 정보를 기반으로 한 것이 아니므로 오차 범위가 크므로 주의해야 함)
  • GPT-4.5는 매우 큰 모델이며, Grok 3보다 클 가능성이 큼
    • GPT-4는 1조(1T) 이상의 전체 파라미터를 가진 혼합 전문가(MoE) 모델이었으며, 활성 파라미터는 약 200B으로 추정됨
    • 소문에 의하면 GPT-4o 또는 Gemini Pro와 같은 모델의 활성 매개변수가 60B까지 작아짐
    • 즉, 최근 모델들은 활성 파라미터를 줄이고 인프라를 최적화하여 속도와 비용을 개선하는 방식으로 발전 중
  • GPT-4.5는 GPT-4 대비 약 10배 더 많은 연산량(10X compute) 이 필요할 것으로 추정됨
    • 5배 더 많은 파라미터 + 2배 더 큰 데이터셋 = 10배의 연산량 증가
    • 전체 파라미터가 5-7조(5T-7T) 에 달할 수 있으며, 활성 파라미터는 약 600B일 것으로 예상
  • 하지만, 이만큼 확장해도 성능 향상이 체감되기는 어려움.
  • 여기서부터 상황이 매우 이상해짐. OpenAI가 이번 발표에서 강조한 2가지
    • 환각(Hallucination) 감소 : 모델이 사실이 아닌 정보를 생성하는 빈도를 줄임
    • 감성 지능(Emotional Intelligence) 향상 : 문맥과 감정을 더 잘 이해하고 표현 가능
    • 하지만, 이 2가지는 객관적으로 평가하기 어려운 특성임
  • 벤치마크 성능 (OpenAI 제공 데이터 기준)
    • SimpleQA: AI 모델의 세계 지식 평가에서 GPT-4.5가 큰 성능 향상을 보임
    • PersonQA: 개별 인물 관련 질문 평가에서도 최고 성능
    • GPQA (Google-proof QA): 정보 검색 없이 논리적 추론을 평가하는 지표에서도 우수한 성과
  • 출시 직후 AI 전문가들 사이에서 GPT-4.5가 사용하기 편하고 글을 더 잘 쓴다는 의견이 나옴
    • 하지만, 코드 및 기술적 성능 평가에서는 Claude 3.7, R1 등의 경쟁 모델과 비교해 중간 수준으로 평가됨
  • 글쓰기 스타일 비교(Karpathy의 X(트위터) 설문조사 결과)
    • GPT-4.5 vs. GPT-4o-latest: 다수의 사용자들이 GPT-4o-latest의 글쓰기 스타일을 더 선호
    • 이유? GPT-4o-latest가 이전에 Orion1이라고 불렸던 이 새로운 모델에서 증류된(distilled) 모델일 가능성이 높고, 크기가 훨씬 작아 반복 속도에서 밤낮으로 차이가 나기 때문에 사후 훈련이 더 잘 될 수 있을 것
  • 이 모든 것은 OpenAI가 ChatBotArena 랭킹에서 다시 1위를 차지하기 위해 지불해야할 대가
    • GPT 4.5가 이를 달성할 것으로 기대하지만 결과는 아직 미확정
  • 필자가 미리 직접 사용해본 결과, 속도가 느려 처음에는 불편했으나, 신뢰성이 높아 계속 사용할 가치가 있음
    • 그러나 추가 비용을 내면서까지 GPT-4.5를 선택할 필요는 없으며, OpenAI의 o1 Pro 및 다른 유료 서비스가 더 높은 가성비를 제공함

GPT-4.5의 가격이 비싼 이유

  • GPT-4 출시 당시 가격도 상당히 높았고, 실제로 GPT-4.5와 비슷했음
  • GPT-4.5의 초기 가격은 다음과 같음:
    • 입력 (Input): $75.00 / 1M 토큰
    • 캐시된 입력 (Cached Input): $37.50 / 1M 토큰
    • 출력 (Output): $150.00 / 1M 토큰
    • 즉, 이전 모델들보다 훨씬 높은 가격으로 시작되었음
  • OpenAI의 이전 모델들도 처음에는 가격이 비쌌지만, 점진적으로 크게 인하된 사례가 있음
    • GPT-4 (2023년 3월 출시)
      • 처음에는 입력 100만 개당 $30, 출력 100만 개당 $60으로 시작
      • 32K 컨텍스트 버전은 더 비싸서 입력 $60, 출력 $120이었음
    • GPT-4 Turbo (2023년 11월 출시)
      • 훨씬 저렴해져서 입력 $10, 출력 $30으로 가격이 내려감
    • GPT-4o (2024년 5월 출시)
      • 가격이 더 내려가 입력 $2.5, 출력 $10이 되어 GPT-4 대비 10배 이상 저렴해짐
    • 이처럼, OpenAI는 새로운 모델이 나올 때마다 가격을 크게 낮추는 패턴을 보임
  • 현재 GPT-4.5의 가격이 비싸게 책정된 이유는 출시 초기라서 높은 마진을 설정했기 때문으로 보임
    • OpenAI는 모델이 API에 계속 남을지 보장하지 않으며, 사용자 반응을 보고 결정하겠다고 언급
  • 많은 전문가들은 Nvidia의 차세대 GPU Blackwell이 출시되면, 더 큰 모델을 효율적으로 운영할 수 있어 비용이 낮아질 것으로 예상
  • GPT-4에서 GPT-4 Turbo, GPT-4o로 가면서 가격이 점점 낮아졌듯이, GPT-4.5도 향후 GPT-4.5 Turbo 같은 버전이 나오면서 가격이 인하될 가능성이 높음

스케일링의 미래

  • 언어 모델의 스케일링은 아직 죽지 않았음
    • 하지만, 이번 발표가 왜 그렇게 이상하게 느껴졌는지 되돌아 보는 것은 AI의 발전속에서 냉정함을 유지하는데 매우 중요함
    • 우리는 다양한 스케일링 유형간의 장단점이 존재하는 시대에 접어들었음
  • 짧게 요약하자면, "GPT-4.5는, 이상하지만, 시대를 앞서 나가고 있음"
    • GPT-4.5는 단순한 모델 확장이 아니라 새로운 스케일링 방식이 필요하다는 신호
    • 이는 AI의 발전이 단순한 모델 크기 확장(Scaling Up)만으로는 충분하지 않고 다른 방식을 취해야 한다는 것을 의미하지만, 우리는 이미 추론 모델의 빠른 발전을 통해 이를 알고 있었음
    • GPT-4.5의 진정한 영향력은 여러 라인의 빠른 발전과 통합될 때 발휘됨
  • DeepSeek의 R1 논문과 후속 RL 연구에서 더 큰 모델일수록 RL 트레이닝이 더 효과적이라는 결론이 나옴
    • OpenAI의 o4 모델도 GPT-4.5 기반의 추론 모델을 활용해 훈련될 가능성이 높음
    • OpenAI의 현재 모델은 GPT-4.5가 없었다면 그다지 훌륭하지 않았을 것
  • 빠르면 1년 이내에 대부분의 모델이 GPT-4.5 규모로 발전하고, 속도도 훨씬 빨라질 것
    • "균형 잡힌" 개선 사항은 더 많은 애플리케이션을 더욱 견고하게 만드는 데 도움이 될 것
    • OpenAI와 AI 연구소들의 다른 연구자들은 기존 인프라 한계를 넘어서는 수준까지 모델을 확장하려 하고 있음
  • 프론티어 랩이 모든 확장 방향의 한계를 뛰어넘지 않는다면 충분한 위험을 감수하지 않는 것
    • 모델을 공개할 필요는 없지만, OpenAI가 실제로 왜 이렇게 하려고 했는지 추측해볼 필요가 있음
    • 현재 다른 내부 시스템과 곧 다른 외부 제품에도 GPT-4.5가 사용될 가능성이 높기 때문에 이 모델을 출시하는 것은 우회로가 아니라 다음 단계로 나아가는 자연스러운 과정
  • GPT-4.5는 프론티어 모델이지만, 그 출시가 흥미진진한 것은 아님
    • AI의 발전은 공짜가 아니며 많은 노력이 필요함
    • GPT-4.5 자체가 중요한 것이 아니라, 이 모델이 다른 기술과 결합될 때 진짜 가치가 드러날 것

이미 많은 벤치가 포화된 상태에서 사용성이나 환각등에 집중하는 것 당연한 흐름이라고 보입니다.

Hacker News 의견
  • GPT 4.5도 2023년 10월까지의 지식 컷오프를 가짐

    • 이 모델은 최소 1년 전에 사전 훈련이 완료되었을 가능성이 있음
    • OpenAI는 Q-star/strawberry와 같은 다른 프로젝트에 집중했을 수 있음
  • OpenAI의 추론 모델이 기대만큼 강력하지 않을 수 있음

    • Gemini 2.0 Flash, Grok 3, Sonnet 3.7과 같은 강력한 비추론 모델들이 등장함
    • OpenAI는 외관상 무언가를 출시할 필요성을 느꼈을 수 있음
  • 가격은 다소 미스터리임

    • 최신 효율성 트릭이 없는 오래된 모델의 반영일 수 있음
    • GPT-4.5는 OpenAI가 얼마나 많은 비용을 지불할지 알아내는 방법일 수 있음
  • GPT-4o에서 4.5로의 도약은 큰 도약이 아님

    • 사치품처럼 가격이 매겨졌지만 사치스러운 보상은 없음
  • GPT-4.5는 복잡하고 미묘한 생각을 매우 빠르게 처리할 수 있음

    • 다른 AI보다 훨씬 뛰어남
  • GPT-4.5는 이상한 방향으로 가지 않고 현실에 기반을 둠

    • 톤 선호에 잘 반응하고 미묘한 차이를 잘 이해함
  • 장기적으로 인프라를 수익화하기 어려울 수 있음

    • 코딩 API는 Claude 3.5/3.7이 더 많이 사용될 가능성이 큼
    • 비코딩 API는 Gemini 2.0 Flash가 더 저렴하고 성능이 좋음
    • 구독 앱은 ChatGPT가 여전히 최고지만 Grok이 경쟁 중임
  • GPT-4.5는 "창의적 글쓰기"에 약간 더 나음

    • Anthropic은 더 실용적인 문제를 해결하는 새로운 모델을 출시함
  • 기술의 한계에 도달하고 있는 것 같음

  • 두 문장이 모순적이지 않나 하는 의견이 있음

    • 모델 크기를 확장해도 명확한 능력 향상이 없었음
    • GPT-4o에서 GPT-4.5로의 도약은 모델을 훌륭하게 만듦
  • 벤치마크의 마지막 퍼센티지를 실제로 보는 사람이 있는지 의문임

    • 벤치마크가 100% 정확하다고 가정하는 것이 실수일 수 있음
  • Azure의 모든 GPT4o 모델이 5월에 사용 중단 예정임

    • Anthropic으로 이동해야 할지 고민 중임
    • 새로운 "o" 모델 출시 시기에 대한 정보가 필요함