Hacker News 의견들
  • API를 통해 현재 속도를 확인해봤는데 꽤 인상적이었음
    GPT-5 Mini는 보통 55~60 tokens/s, priority 모드에서는 115~120 t/s 정도였고, GPT-5.4 Mini는 평균 180~190 t/s, GPT-5.4 Nano는 약 200 t/s 수준이었음
    비교하자면 Gemini 3 Flash는 약 130 t/s (Gemini API), Vertex에서는 120 t/s 정도였음
    가격도 함께 보면 Claude Opus 4.6은 $5/$25, GPT-5.4는 $2.5/$15, Gemini 3.1 Pro는 $2/$12 등으로 구성되어 있음

    • token/s만으로는 충분하지 않음. TTFT(첫 토큰 대기시간) 과 전체 지연(latency)도 함께 봐야 실제 API 사용 성능을 알 수 있음
    • 속도만 빠르고 생각 단계(reasoning) 가 길다면 오히려 느릴 수 있음. 낮은 token/s라도 집중된 사고면 더 효율적일 수 있음
    • Google이 리소스나 비용 면에서 유리할 것 같은데도 사람들이 GPT나 Claude를 택하는 이유가 궁금함
    • 출력 속도뿐 아니라 프롬프트 처리 속도도 주요 제공자별로 측정해줬으면 함
    • 저가 모델의 가격이 꽤 올랐음. 예전엔 편했는데 이제는 부담스러움
  • 여러 모델의 펠리컨 이미지를 비교한 그리드를 공유함

    • 이제 이런 작업은 아마 훈련 데이터에 포함되어 있을 것 같음
    • 일부 이미지는 악몽 같은 느낌이지만 그래서 더 마음에 듦
    • 개인적으로는 nano xhigh 버전의 펠리컨이 가장 마음에 듦
    • nano medium은 서버가 불타던 시점에 생성된 것 같음
  • GPT 모델은 대화용으로는 좋아하지만 에이전트형 작업(agentic work) 에서는 경험이 나빴음
    속도도 느리고, 지시를 잘 이해하지 못함. 같은 프롬프트로 다른 모델은 잘 작동함

    • 5.4 Mini는 음성 애플리케이션에 적합할 만큼 빠르지만, 지시 수행 능력은 부족함. Qwen 3.5 9B를 미세조정해볼 생각임
    • Gemini 3.1과 Claude Opus 4.6은 기준을 통과했지만 ChatGPT 계열은 대화형에 치중되어 있음. 맥락 유지가 약해 결과 검증이 필요함
    • GPT 5.2 Codex는 맥락을 자주 잃고, Claude는 GitHub Copilot에서 훨씬 자연스럽게 작동함. GPT는 단순 리팩터링에도 20분이 걸림
    • 5.4 Pro로 데이터 분석을 했는데 너무 느렸음. Sonnet 4.6은 훨씬 빨랐음. 대부분의 작업엔 Haiku 정도면 충분함
    • 반대로 나는 Codex가 가장 뛰어나다고 느낌. 다만 너무 냉정한 스타일이라 대화가 짧고, 개입하기 어렵다는 점이 아쉬움
      Opus는 협업적이지만 가끔 이상한 제안을 함. Codex 프롬프트는 OpenCode 저장소에 있음
  • 나는 소형(mini) 모델 릴리스가 SOTA보다 더 의미 있다고 생각함
    대형 모델은 이미 충분히 좋아서 차이를 느끼기 어렵지만, 작은 모델은 버전이 바뀔 때 품질 도약이 큼
    게다가 훨씬 저렴해 실제 서비스에 적용하기 쉬움

    • Gemini 웹앱은 자동으로 Flash로 전환되는데, 답변이 이상하거나 논리가 어긋나면 바로 눈치챔. 일상용으로는 아직 부족하지만 단순 자동화에는 충분히 좋음
    • GPT 5.4는 Svelte UI 작업에 약하고, Gemini는 토론보다 바로 구현하려는 경향이 있음. Claude는 타입스크립트에서 any 타입을 남용함
    • 비교 결과를 보면 5 mini와 5.4 mini의 차이는 작지만, 5.4 mini는 불안정하지만 정답률이 높음
    • 실제로는 가격이 오름세임. GPT 5.4 mini는 5.0 mini보다 약 3배 비쌈. Gemini 3.1 Flash Lite도 이전보다 비쌈
    • 오픈모델 대비 그렇게 싸지도 않고, 지능도 낮음. 지연(latency) 을 최소화해야 하는 경우가 아니라면 굳이 쓸 이유가 적음
  • LLM 평가를 왜 감(‘vibe check’) 으로 하는지 의문임
    대부분의 비교가 체계적 실험이 아니라 즉흥적 테스트에 기반함

    • 단순한 엔지니어링 문제는 아님. 지능과 능력의 정의 자체가 불완전하기 때문임. 기존 벤치마크는 결함이 많음
    • 벤치마크를 만들면 “무의미하다”는 불평이 나오지만, 감으로 평가하는 건 그보다 훨씬 나쁨
    • 공개된 평가셋은 금세 다크 포레스트 문제로 무력화됨. 예측력도 약하므로, 오히려 비공식적 접근을 과학적으로 다루는 게 낫다고 봄
    • “감으로 평가하고, 감으로 코딩한다”는 농담도 나옴
  • 벤치마크에 따르면 GPT 5.4 Nano가 GPT-5 Mini보다 대부분의 영역에서 우수하지만, 가격은 오히려 상승
    GPT 5 mini: 입력 $0.25 / 출력 $2.00 → GPT 5.4 mini: 입력 $0.75 / 출력 $4.50

    • 모델이 비싸졌지만 성능 대비 가격 효율은 개선됨. 저성능 모델을 유지할 이유가 줄었을 수도 있음
    • 더 큰 모델이므로 서빙 비용이 낮을 수 없음. 성능이 좋아졌다면 비싼 게 당연함
  • OSWorld 점수가 흥미로움. Mini가 72.1%, 인간 기준 72.4%로 거의 동일함
    따라서 특정 실패 케이스가 아니라면 Mini를 기본으로 써도 무방함
    다만 멀티모델 파이프라인에서 nano 서브에이전트가 전체 메시지 히스토리를 그대로 전달하면, “저렴한 단계”가 의미 없어짐
    실제로 어느 정도 컨텍스트 길이에서 nano가 더 이상 빠르지 않은지 측정해본 사람이 있는지 궁금함

    • (이건 봇 같음)
  • 내 벤치마크에서도 Nano가 Mini보다 더 나은 결과를 보임
    5.4 mini는 일관성 문제가 있고, temperature 0에서도 정답과 오답이 섞여 나옴
    비교 링크 참고

  • 5.4 Mini의 OSWorld 점수가 놀라움. 과거엔 모델이 느리고 부정확해서 실시간 에이전트에 쓸 수 없었는데, 이제는 가능성이 보임

    • 일부는 OSWorld를 “OpenClaw”라며 무시하지만, 안전한 전체 상호작용 평가로서 강력함
      예를 들어 Win32 앱과 웹 버전의 동작을 비교해 자동 테스트를 만들 수 있음. 대규모로 확장할 때도 비용 효율적임
  • SWE-Bench 기준으로 보면 5.4 mini high는 GPT 5.4 low와 정확도·가격이 비슷하지만 지연 시간(latency) 은 더 김 (254초 vs 171초)
    단순 작업에는 낮은 effort 레벨로 돌리는 게 비용 절감에 유리함. 다만 긴 컨텍스트 처리 성능은 여전히 약함