API를 통해 현재 속도를 확인해봤는데 꽤 인상적이었음
GPT-5 Mini는 보통 55~60 tokens/s, priority 모드에서는 115~120 t/s 정도였고, GPT-5.4 Mini는 평균 180~190 t/s, GPT-5.4 Nano는 약 200 t/s 수준이었음
비교하자면 Gemini 3 Flash는 약 130 t/s (Gemini API), Vertex에서는 120 t/s 정도였음
가격도 함께 보면 Claude Opus 4.6은 $5/$25, GPT-5.4는 $2.5/$15, Gemini 3.1 Pro는 $2/$12 등으로 구성되어 있음
token/s만으로는 충분하지 않음. TTFT(첫 토큰 대기시간) 과 전체 지연(latency)도 함께 봐야 실제 API 사용 성능을 알 수 있음
속도만 빠르고 생각 단계(reasoning) 가 길다면 오히려 느릴 수 있음. 낮은 token/s라도 집중된 사고면 더 효율적일 수 있음
Google이 리소스나 비용 면에서 유리할 것 같은데도 사람들이 GPT나 Claude를 택하는 이유가 궁금함
GPT 모델은 대화용으로는 좋아하지만 에이전트형 작업(agentic work) 에서는 경험이 나빴음
속도도 느리고, 지시를 잘 이해하지 못함. 같은 프롬프트로 다른 모델은 잘 작동함
5.4 Mini는 음성 애플리케이션에 적합할 만큼 빠르지만, 지시 수행 능력은 부족함. Qwen 3.5 9B를 미세조정해볼 생각임
Gemini 3.1과 Claude Opus 4.6은 기준을 통과했지만 ChatGPT 계열은 대화형에 치중되어 있음. 맥락 유지가 약해 결과 검증이 필요함
GPT 5.2 Codex는 맥락을 자주 잃고, Claude는 GitHub Copilot에서 훨씬 자연스럽게 작동함. GPT는 단순 리팩터링에도 20분이 걸림
5.4 Pro로 데이터 분석을 했는데 너무 느렸음. Sonnet 4.6은 훨씬 빨랐음. 대부분의 작업엔 Haiku 정도면 충분함
반대로 나는 Codex가 가장 뛰어나다고 느낌. 다만 너무 냉정한 스타일이라 대화가 짧고, 개입하기 어렵다는 점이 아쉬움
Opus는 협업적이지만 가끔 이상한 제안을 함. Codex 프롬프트는 OpenCode 저장소에 있음
나는 소형(mini) 모델 릴리스가 SOTA보다 더 의미 있다고 생각함
대형 모델은 이미 충분히 좋아서 차이를 느끼기 어렵지만, 작은 모델은 버전이 바뀔 때 품질 도약이 큼
게다가 훨씬 저렴해 실제 서비스에 적용하기 쉬움
Gemini 웹앱은 자동으로 Flash로 전환되는데, 답변이 이상하거나 논리가 어긋나면 바로 눈치챔. 일상용으로는 아직 부족하지만 단순 자동화에는 충분히 좋음
GPT 5.4는 Svelte UI 작업에 약하고, Gemini는 토론보다 바로 구현하려는 경향이 있음. Claude는 타입스크립트에서 any 타입을 남용함
비교 결과를 보면 5 mini와 5.4 mini의 차이는 작지만, 5.4 mini는 불안정하지만 정답률이 높음
실제로는 가격이 오름세임. GPT 5.4 mini는 5.0 mini보다 약 3배 비쌈. Gemini 3.1 Flash Lite도 이전보다 비쌈
오픈모델 대비 그렇게 싸지도 않고, 지능도 낮음. 지연(latency) 을 최소화해야 하는 경우가 아니라면 굳이 쓸 이유가 적음
LLM 평가를 왜 감(‘vibe check’) 으로 하는지 의문임
대부분의 비교가 체계적 실험이 아니라 즉흥적 테스트에 기반함
단순한 엔지니어링 문제는 아님. 지능과 능력의 정의 자체가 불완전하기 때문임. 기존 벤치마크는 결함이 많음
벤치마크를 만들면 “무의미하다”는 불평이 나오지만, 감으로 평가하는 건 그보다 훨씬 나쁨
공개된 평가셋은 금세 다크 포레스트 문제로 무력화됨. 예측력도 약하므로, 오히려 비공식적 접근을 과학적으로 다루는 게 낫다고 봄
“감으로 평가하고, 감으로 코딩한다”는 농담도 나옴
벤치마크에 따르면 GPT 5.4 Nano가 GPT-5 Mini보다 대부분의 영역에서 우수하지만, 가격은 오히려 상승함
GPT 5 mini: 입력 $0.25 / 출력 $2.00 → GPT 5.4 mini: 입력 $0.75 / 출력 $4.50
모델이 비싸졌지만 성능 대비 가격 효율은 개선됨. 저성능 모델을 유지할 이유가 줄었을 수도 있음
더 큰 모델이므로 서빙 비용이 낮을 수 없음. 성능이 좋아졌다면 비싼 게 당연함
OSWorld 점수가 흥미로움. Mini가 72.1%, 인간 기준 72.4%로 거의 동일함
따라서 특정 실패 케이스가 아니라면 Mini를 기본으로 써도 무방함
다만 멀티모델 파이프라인에서 nano 서브에이전트가 전체 메시지 히스토리를 그대로 전달하면, “저렴한 단계”가 의미 없어짐
실제로 어느 정도 컨텍스트 길이에서 nano가 더 이상 빠르지 않은지 측정해본 사람이 있는지 궁금함
(이건 봇 같음)
내 벤치마크에서도 Nano가 Mini보다 더 나은 결과를 보임
5.4 mini는 일관성 문제가 있고, temperature 0에서도 정답과 오답이 섞여 나옴 비교 링크 참고
5.4 Mini의 OSWorld 점수가 놀라움. 과거엔 모델이 느리고 부정확해서 실시간 에이전트에 쓸 수 없었는데, 이제는 가능성이 보임
일부는 OSWorld를 “OpenClaw”라며 무시하지만, 안전한 전체 상호작용 평가로서 강력함
예를 들어 Win32 앱과 웹 버전의 동작을 비교해 자동 테스트를 만들 수 있음. 대규모로 확장할 때도 비용 효율적임
SWE-Bench 기준으로 보면 5.4 mini high는 GPT 5.4 low와 정확도·가격이 비슷하지만 지연 시간(latency) 은 더 김 (254초 vs 171초)
단순 작업에는 낮은 effort 레벨로 돌리는 게 비용 절감에 유리함. 다만 긴 컨텍스트 처리 성능은 여전히 약함
Hacker News 의견들
API를 통해 현재 속도를 확인해봤는데 꽤 인상적이었음
GPT-5 Mini는 보통 55~60 tokens/s, priority 모드에서는 115~120 t/s 정도였고, GPT-5.4 Mini는 평균 180~190 t/s, GPT-5.4 Nano는 약 200 t/s 수준이었음
비교하자면 Gemini 3 Flash는 약 130 t/s (Gemini API), Vertex에서는 120 t/s 정도였음
가격도 함께 보면 Claude Opus 4.6은 $5/$25, GPT-5.4는 $2.5/$15, Gemini 3.1 Pro는 $2/$12 등으로 구성되어 있음
여러 모델의 펠리컨 이미지를 비교한 그리드를 공유함
GPT 모델은 대화용으로는 좋아하지만 에이전트형 작업(agentic work) 에서는 경험이 나빴음
속도도 느리고, 지시를 잘 이해하지 못함. 같은 프롬프트로 다른 모델은 잘 작동함
Opus는 협업적이지만 가끔 이상한 제안을 함. Codex 프롬프트는 OpenCode 저장소에 있음
나는 소형(mini) 모델 릴리스가 SOTA보다 더 의미 있다고 생각함
대형 모델은 이미 충분히 좋아서 차이를 느끼기 어렵지만, 작은 모델은 버전이 바뀔 때 품질 도약이 큼
게다가 훨씬 저렴해 실제 서비스에 적용하기 쉬움
LLM 평가를 왜 감(‘vibe check’) 으로 하는지 의문임
대부분의 비교가 체계적 실험이 아니라 즉흥적 테스트에 기반함
벤치마크에 따르면 GPT 5.4 Nano가 GPT-5 Mini보다 대부분의 영역에서 우수하지만, 가격은 오히려 상승함
GPT 5 mini: 입력 $0.25 / 출력 $2.00 → GPT 5.4 mini: 입력 $0.75 / 출력 $4.50
OSWorld 점수가 흥미로움. Mini가 72.1%, 인간 기준 72.4%로 거의 동일함
따라서 특정 실패 케이스가 아니라면 Mini를 기본으로 써도 무방함
다만 멀티모델 파이프라인에서 nano 서브에이전트가 전체 메시지 히스토리를 그대로 전달하면, “저렴한 단계”가 의미 없어짐
실제로 어느 정도 컨텍스트 길이에서 nano가 더 이상 빠르지 않은지 측정해본 사람이 있는지 궁금함
내 벤치마크에서도 Nano가 Mini보다 더 나은 결과를 보임
5.4 mini는 일관성 문제가 있고, temperature 0에서도 정답과 오답이 섞여 나옴
비교 링크 참고
5.4 Mini의 OSWorld 점수가 놀라움. 과거엔 모델이 느리고 부정확해서 실시간 에이전트에 쓸 수 없었는데, 이제는 가능성이 보임
예를 들어 Win32 앱과 웹 버전의 동작을 비교해 자동 테스트를 만들 수 있음. 대규모로 확장할 때도 비용 효율적임
SWE-Bench 기준으로 보면 5.4 mini high는 GPT 5.4 low와 정확도·가격이 비슷하지만 지연 시간(latency) 은 더 김 (254초 vs 171초)
단순 작업에는 낮은 effort 레벨로 돌리는 게 비용 절감에 유리함. 다만 긴 컨텍스트 처리 성능은 여전히 약함