Grok 4 Fast
(x.ai)- xAI가 발표한 Grok 4 Fast는 기존 Grok 4의 학습 성과를 기반으로, 비용 효율성과 속도를 극대화한 차세대 추론 모델
- 이 모델은 2M 토큰 컨텍스트 윈도우, 웹 및 X 검색 기능, 그리고 reasoning / non-reasoning 통합 아키텍처를 갖춰 실시간 활용에 적합
- 벤치마크에서 Grok 4와 유사한 성능을 내면서도 평균 40% 적은 토큰을 사용해, 같은 성능을 훨씬 낮은 비용으로 달성할 수 있음
- 또한 도구 사용 강화 학습을 통해 코드 실행, 웹 탐색 등에서 높은 성능을 발휘하며, LMArena Search Arena에서 1위를 기록
비용 효율적 지능의 진보
- Grok 4 Fast는 Grok 3 Mini보다 우수한 성능을 보이면서도 토큰 비용을 크게 절감함
- 평균적으로 Grok 4 대비 40% 더 적은 'Thinking Tokens' 사용으로 유사한 성능 달성
- 벤치마크 점수 예시 (pass@1):
- Grok 4 Fast: 85.7%, 92.0%, 93.3%, 20.0%, 80.0%
- 경쟁 모델(GPT-5 등) 대비 동급 또는 우수한 결과
- GPQA, AIME, HMMT, LiveCodeBench 등 다양한 추론 벤치마크에서 Grok 4에 근접한 성과를 보여줌
- Grok 4 Fast의 토큰 효율성 40% 개선과 함께, 토큰당 가격을 크게 낮춤
- 동일 성능 달성 시 가격이 Grok 4 대비 98% 절감되어, 공개된 모델 중 '최고 가격-지능비(SOTA Price-to-Intelligence Ratio)' 기록
- 독립기관인 Artificial Analysis Intelligence Index 외부 평가에서 우수 성적을 검증받음
네이티브 도구 활용과 SOTA 검색
- 도구 사용 강화 학습(RL) 로 훈련되어, 필요 시 코드 실행이나 웹 브라우징을 자동으로 수행할 수 있음
- 웹과 X를 실시간으로 탐색해 다중 홉 검색과 미디어(이미지, 동영상)까지 소화하는 에이전틱 검색 능력을 갖춤
- BrowseComp, SimpleQA, X Bench Deepsearch(zh) 등 다양한 벤치마크에서 Grok 4를 초월하는 성능을 달성함
일반 도메인 포스트 트레이닝 성과
- LMArena의 Search Arena에서 Grok 4 Fast(
menlo
)는 Elo 1163으로 1위를 기록, 경쟁 모델 대비 17점 차로 앞섬 -
Text Arena에서는
grok-4-fast
(코드네임 tahoe)가 8위로, 동급 타 모델(18위 이하)과 비교 압도적으로 우수 - 실제 검색 및 텍스트 작업에서 대형 모델 이상의 효율성을 보임
Reasoning과 Non-Reasoning 통합 모델
- 기존에는 별도 모델이 필요했던 reasoning / non-reasoning 모드를 단일 아키텍처로 통합함
- 시스템 프롬프트 만으로 reasoning(심층사고) 및 non-reasoning(신속 답변) 모드를 전환
- 엔드 투 엔드 지연시간과 토큰 비용 감소로 실시간 어플리케이션에 적합함
- xAI API에서는 개발자가 속도/깊이를 세밀하게 조절 가능
배포 및 가격 정책
- Grok 4 Fast는 바로 이용 가능하며, OpenRouter와 Vercel AI Gateway에서 한시적 무료 제공됨
- xAI API에서도
grok-4-fast-reasoning
과grok-4-fast-non-reasoning
두 가지 버전으로 제공되며, 2M 토큰 컨텍스트 윈도우 지원 - 가격은 입력 토큰 $0.20/1M, 출력 토큰 $0.50/1M부터 시작, 128k 토큰 초과 시 2배 요금 적용
- 캐시 입력 토큰은 $0.05/1M으로 제공되어 비용 절감에 도움
향후 계획
- 사용자 피드백을 반영해 지속적으로 모델 개선 예정
- 멀티모달 기능과 에이전틱 특성 강화가 차기 업데이트의 핵심 목표임
- 모델 카드와 추가 세부 정보는 Grok 4 Fast 모델카드 (PDF)를 통해 확인 가능함
Hacker News 의견
- Musk 제품은 아무리 돈을 준다고 해도 사용하고 싶지 않음, 특히 정보를 필터링·변환·종합하는 역할이라면 더욱 그렇다는 생각임, 쓸모가 있을 순 있겠지만 신뢰가 가지 않고 Musk에게 더 부를 쌓아주고 싶지 않음
- Musk 본인에 대해 악감정을 갖지 않더라도, Grok의 작동 방식에 직접 개입해 본인의 이념에 맞는 결과를 내놓게 한다는 걸 여러 번 봤음, 이런 식이라면 해당 제품을 사용할 수 없다고 생각함, Musk의 생각을 공유하는 이들도 있겠지만, AI 제품의 가치란 다양한 데이터와 알고리즘을 활용해 답을 산출한다는 데에 있음, 개개인의 의견만 재현하는 건 의미가 없다고 봄
- Grok이 답을 내놓기 전에 Twitter에서 Musk 의견을 검색한다는 얘기가 들렸는데, 이게 모든 Grok 버전인가 아니면 Twitter 임베드 버전에서만 그런 건가 궁금함
- 대안이 정말 많아서 Grok을 사용할 이유가 전혀 없다는 생각임
- Musk가 Kirk 암살 관련 Fox News 선전이 나오지 않는다며 Grok을 직접 건드린 사례가 있음 사례1 그리고 이런 일은 여러 번 있어 왔음 NYT 기사 Grok은 선전 논란이 있는 기술임, 마치 일반적인 기술 서비스인 양 논의하는 것 자체가 말이 안 됨
- "Fast"라는 모델명인데 토큰 처리 속도를 공개하지 않는 이유가 뭔지 궁금함, 속도 의미가 아닌 다른 걸 뜻하는 건지, 아니면 변동이 심한 건지 궁금함
- 사실상 “grok 4 mini”에 불과하다고 생각함, ‘mini’라고 하면 사람들이 잘 안 쓰니까 ‘fast’라고 이름 붙인 것 같음, 그 편이 선택할 이유가 생기니까
- 오픈라우터 기준 현재 초당 약 160토큰 수준임 출처
- ‘토큰 효율’에 초점을 두면서 빠르다고 포지셔닝하는 것 같음, 적은 토큰을 써서 더 빨리 결과를 내놓는다는 식임
- Grok 4가 NYT Connections 익스텐디드 리더보드 상위에 있음 링크
- 최근 오픈라우터에서 피드백을 받은 Sonoma sky Alpha가 이 모델일 수도 있겠다는 생각이 들었음, 무료여서 많이 써봤는데 기존 grok 4보다 별로여서 아닐 수도 있다는 의견임
- grok-code-fast-1 모델을 요즘 즐겨 쓰고 있는데, 이번에 나온 신제품에는 언급이 없어 아쉬움, 혹시 더 나은 버전이 아닐까 기대함, grok-code-fast-1이 Gemini 2.5 Pro보단 약간 부족해도 반복 속도면에서는 최고임
- 다소 단순한 모델이긴 해도 내가 쓰기엔 somnet보다 괜찮았던 경험임
- 더 빠르면서 더 느린 버전보다 여러 벤치마크에서 성능이 뛰어나다는 게 이해가 가지 않음, 단순히 벤치마크 시험만 계속해서 학습한 건지 궁금함
- 모든 벤치마크에서 다 뛰어난 건 아님, Grok 4 Fast는 GPQA Diamond, HLE 등 대량의 사실 기반 영역에선 Grok 4보다 약함, 큰(=느린) 모델이 이런 영역에선 더 좋음, 반면 추론이나 도구 활용이 중점인 벤치마크에선 토큰 전환 능력 위주라 작으면서도 빠른 모델도 경쟁력이 있음, 아마 훈련 데이터 자체를 특정 태스크에 더 치중하도록 조정했을 것임, 실제 결과도 그런 벤치마크를 골라 홍보하는 듯함, 반대로 사실 기억 벤치마크만 뽑아 성능이 낮다고 강조하는 ‘반대 홍보자료’도 만들 수 있을 거라 생각함
- 기술적으로는 다양한 구조 변화, 더 많은 데이터, RL 등 뭘 썼는지 다를 수 있음, 최근엔 RL 활용에 있어 공개모델들과 비교해 월등하게 앞서나가는 추세임
- 실은 그냥 이름만 비슷한 두 모델임, Grok 4 Fast가 Grok 4의 더 빠른 버전이라는 식의 관계는 아님, gpt-4와 gpt-4o 관계처럼 완전히 다름
- Grok 4 Fast는 Grok 4 모델에서 실제 생산 환경에서 거의 쓰이지 않는 부분을 줄여서 더 가볍고 집중력 있게 만들어낸 버전일 가능성이 높음, 그래서 실제 논리 구조는 같지만 더욱 특정 목적에 집중해 효율을 높인 결과임
- 요즘 대형모델들은 비슷한 크기 기준에, 유사한 데이터로 훈련하고 있음, 가격 정책만 다를 뿐임… grok은 필터나 보호장치를 빼는 게 특징인 듯함, 그리고 벤치마크 자체도 쉽게 조작될 수 있는 flawed한 부분이 많음, 관련 업계 사람들끼린 다 아는 얘기임
- 가격 대비 벤치마크 성능이 좋아 보임, 실제 사용자 테스트에선 어떨지 궁금함
- 만약 이게 예전에 openrouter에서 미리보기로 제공됐던 sonoma-dusk라면 꽤 쓸만했음, 코드를 리버스 엔지니어링 과제로 테스트 해봤는데, 속도나 성능이 gpt5-mini와 비슷하거나 더 뛰어남, 11만~13만 토큰까지는 잘 버티고, 그 이상부터는 조건 불충분 상황에서도 일단 완성을 주장하는 경향이 있었음(예: 400개 중 xx 개 테스트 통과, 나머진 나중에 가능하단 식)
- 우리 모두 빠르고 정확한 모델을 원하는데, 정말 ‘정확함’까지 가능한 모델인지 궁금함, 아주 정확하다면 몇 초 더 기다릴 의향도 있음
- 이걸 확실하게 달성하는 방법은 툴을 활용하는 것뿐임
- 대형 모델 비교표 참고 링크
- 개인적으로 커스텀 프론트엔드를 사용하기 때문에 Qwen3 coder와 달리 grok4 fast는 무료 API 테스트가 없다는 점이 아쉬움, 파트너십을 맺은 툴들도 내가 주로 쓰는 게 아님