Grok 4 Fast

(x.ai)

4P by GN⁺ 2달전 | ★ favorite | 댓글 2개

xAI가 발표한 Grok 4 Fast는 기존 Grok 4의 학습 성과를 기반으로, 비용 효율성과 속도를 극대화한 차세대 추론 모델
이 모델은 2M 토큰 컨텍스트 윈도우, 웹 및 X 검색 기능, 그리고 reasoning / non-reasoning 통합 아키텍처를 갖춰 실시간 활용에 적합
벤치마크에서 Grok 4와 유사한 성능을 내면서도 평균 40% 적은 토큰을 사용해, 같은 성능을 훨씬 낮은 비용으로 달성할 수 있음
또한 도구 사용 강화 학습을 통해 코드 실행, 웹 탐색 등에서 높은 성능을 발휘하며, LMArena Search Arena에서 1위를 기록

비용 효율적 지능의 진보

Grok 4 Fast는 Grok 3 Mini보다 우수한 성능을 보이면서도 토큰 비용을 크게 절감함
- 평균적으로 Grok 4 대비 40% 더 적은 'Thinking Tokens' 사용으로 유사한 성능 달성
- 벤치마크 점수 예시 (pass@1):
  - Grok 4 Fast: 85.7%, 92.0%, 93.3%, 20.0%, 80.0%
  - 경쟁 모델(GPT-5 등) 대비 동급 또는 우수한 결과
GPQA, AIME, HMMT, LiveCodeBench 등 다양한 추론 벤치마크에서 Grok 4에 근접한 성과를 보여줌
Grok 4 Fast의 토큰 효율성 40% 개선과 함께, 토큰당 가격을 크게 낮춤
동일 성능 달성 시 가격이 Grok 4 대비 98% 절감되어, 공개된 모델 중 '최고 가격-지능비(SOTA Price-to-Intelligence Ratio)' 기록
- 독립기관인 Artificial Analysis Intelligence Index 외부 평가에서 우수 성적을 검증받음

네이티브 도구 활용과 SOTA 검색

도구 사용 강화 학습(RL) 로 훈련되어, 필요 시 코드 실행이나 웹 브라우징을 자동으로 수행할 수 있음
웹과 X를 실시간으로 탐색해 다중 홉 검색과 미디어(이미지, 동영상)까지 소화하는 에이전틱 검색 능력을 갖춤
BrowseComp, SimpleQA, X Bench Deepsearch(zh) 등 다양한 벤치마크에서 Grok 4를 초월하는 성능을 달성함

일반 도메인 포스트 트레이닝 성과

LMArena의 Search Arena에서 Grok 4 Fast(menlo)는 Elo 1163으로 1위를 기록, 경쟁 모델 대비 17점 차로 앞섬
Text Arena에서는 grok-4-fast(코드네임 tahoe)가 8위로, 동급 타 모델(18위 이하)과 비교 압도적으로 우수
실제 검색 및 텍스트 작업에서 대형 모델 이상의 효율성을 보임

Reasoning과 Non-Reasoning 통합 모델

기존에는 별도 모델이 필요했던 reasoning / non-reasoning 모드를 단일 아키텍처로 통합함
- 시스템 프롬프트 만으로 reasoning(심층사고) 및 non-reasoning(신속 답변) 모드를 전환
- 엔드 투 엔드 지연시간과 토큰 비용 감소로 실시간 어플리케이션에 적합함
xAI API에서는 개발자가 속도/깊이를 세밀하게 조절 가능

배포 및 가격 정책

Grok 4 Fast는 바로 이용 가능하며, OpenRouter와 Vercel AI Gateway에서 한시적 무료 제공됨
xAI API에서도 grok-4-fast-reasoning과 grok-4-fast-non-reasoning 두 가지 버전으로 제공되며, 2M 토큰 컨텍스트 윈도우 지원
가격은 입력 토큰 $0.20/1M, 출력 토큰 $0.50/1M부터 시작, 128k 토큰 초과 시 2배 요금 적용
캐시 입력 토큰은 $0.05/1M으로 제공되어 비용 절감에 도움

향후 계획

사용자 피드백을 반영해 지속적으로 모델 개선 예정
멀티모달 기능과 에이전틱 특성 강화가 차기 업데이트의 핵심 목표임
모델 카드와 추가 세부 정보는 Grok 4 Fast 모델카드 (PDF)를 통해 확인 가능함

▲

kuber 2달전 [-]

gpt-oss 보다 비싸고 느리던데, 사람들이 왜 이렇게 많이쓰는지 궁금해요..

답변달기

▲

GN⁺ 2달전 [-]

Hacker News 의견

Musk 제품은 아무리 돈을 준다고 해도 사용하고 싶지 않음, 특히 정보를 필터링·변환·종합하는 역할이라면 더욱 그렇다는 생각임, 쓸모가 있을 순 있겠지만 신뢰가 가지 않고 Musk에게 더 부를 쌓아주고 싶지 않음
- Musk 본인에 대해 악감정을 갖지 않더라도, Grok의 작동 방식에 직접 개입해 본인의 이념에 맞는 결과를 내놓게 한다는 걸 여러 번 봤음, 이런 식이라면 해당 제품을 사용할 수 없다고 생각함, Musk의 생각을 공유하는 이들도 있겠지만, AI 제품의 가치란 다양한 데이터와 알고리즘을 활용해 답을 산출한다는 데에 있음, 개개인의 의견만 재현하는 건 의미가 없다고 봄
- Grok이 답을 내놓기 전에 Twitter에서 Musk 의견을 검색한다는 얘기가 들렸는데, 이게 모든 Grok 버전인가 아니면 Twitter 임베드 버전에서만 그런 건가 궁금함
- 대안이 정말 많아서 Grok을 사용할 이유가 전혀 없다는 생각임
- Musk가 Kirk 암살 관련 Fox News 선전이 나오지 않는다며 Grok을 직접 건드린 사례가 있음 사례1 그리고 이런 일은 여러 번 있어 왔음 NYT 기사 Grok은 선전 논란이 있는 기술임, 마치 일반적인 기술 서비스인 양 논의하는 것 자체가 말이 안 됨
"Fast"라는 모델명인데 토큰 처리 속도를 공개하지 않는 이유가 뭔지 궁금함, 속도 의미가 아닌 다른 걸 뜻하는 건지, 아니면 변동이 심한 건지 궁금함
- 사실상 “grok 4 mini”에 불과하다고 생각함, ‘mini’라고 하면 사람들이 잘 안 쓰니까 ‘fast’라고 이름 붙인 것 같음, 그 편이 선택할 이유가 생기니까
- 오픈라우터 기준 현재 초당 약 160토큰 수준임 출처
- ‘토큰 효율’에 초점을 두면서 빠르다고 포지셔닝하는 것 같음, 적은 토큰을 써서 더 빨리 결과를 내놓는다는 식임
Grok 4가 NYT Connections 익스텐디드 리더보드 상위에 있음 링크
- 최근 오픈라우터에서 피드백을 받은 Sonoma sky Alpha가 이 모델일 수도 있겠다는 생각이 들었음, 무료여서 많이 써봤는데 기존 grok 4보다 별로여서 아닐 수도 있다는 의견임
grok-code-fast-1 모델을 요즘 즐겨 쓰고 있는데, 이번에 나온 신제품에는 언급이 없어 아쉬움, 혹시 더 나은 버전이 아닐까 기대함, grok-code-fast-1이 Gemini 2.5 Pro보단 약간 부족해도 반복 속도면에서는 최고임
- 다소 단순한 모델이긴 해도 내가 쓰기엔 somnet보다 괜찮았던 경험임
더 빠르면서 더 느린 버전보다 여러 벤치마크에서 성능이 뛰어나다는 게 이해가 가지 않음, 단순히 벤치마크 시험만 계속해서 학습한 건지 궁금함
- 모든 벤치마크에서 다 뛰어난 건 아님, Grok 4 Fast는 GPQA Diamond, HLE 등 대량의 사실 기반 영역에선 Grok 4보다 약함, 큰(=느린) 모델이 이런 영역에선 더 좋음, 반면 추론이나 도구 활용이 중점인 벤치마크에선 토큰 전환 능력 위주라 작으면서도 빠른 모델도 경쟁력이 있음, 아마 훈련 데이터 자체를 특정 태스크에 더 치중하도록 조정했을 것임, 실제 결과도 그런 벤치마크를 골라 홍보하는 듯함, 반대로 사실 기억 벤치마크만 뽑아 성능이 낮다고 강조하는 ‘반대 홍보자료’도 만들 수 있을 거라 생각함
- 기술적으로는 다양한 구조 변화, 더 많은 데이터, RL 등 뭘 썼는지 다를 수 있음, 최근엔 RL 활용에 있어 공개모델들과 비교해 월등하게 앞서나가는 추세임
- 실은 그냥 이름만 비슷한 두 모델임, Grok 4 Fast가 Grok 4의 더 빠른 버전이라는 식의 관계는 아님, gpt-4와 gpt-4o 관계처럼 완전히 다름
- Grok 4 Fast는 Grok 4 모델에서 실제 생산 환경에서 거의 쓰이지 않는 부분을 줄여서 더 가볍고 집중력 있게 만들어낸 버전일 가능성이 높음, 그래서 실제 논리 구조는 같지만 더욱 특정 목적에 집중해 효율을 높인 결과임
요즘 대형모델들은 비슷한 크기 기준에, 유사한 데이터로 훈련하고 있음, 가격 정책만 다를 뿐임… grok은 필터나 보호장치를 빼는 게 특징인 듯함, 그리고 벤치마크 자체도 쉽게 조작될 수 있는 flawed한 부분이 많음, 관련 업계 사람들끼린 다 아는 얘기임
가격 대비 벤치마크 성능이 좋아 보임, 실제 사용자 테스트에선 어떨지 궁금함
- 만약 이게 예전에 openrouter에서 미리보기로 제공됐던 sonoma-dusk라면 꽤 쓸만했음, 코드를 리버스 엔지니어링 과제로 테스트 해봤는데, 속도나 성능이 gpt5-mini와 비슷하거나 더 뛰어남, 11만~13만 토큰까지는 잘 버티고, 그 이상부터는 조건 불충분 상황에서도 일단 완성을 주장하는 경향이 있었음(예: 400개 중 xx 개 테스트 통과, 나머진 나중에 가능하단 식)
우리 모두 빠르고 정확한 모델을 원하는데, 정말 ‘정확함’까지 가능한 모델인지 궁금함, 아주 정확하다면 몇 초 더 기다릴 의향도 있음
- 이걸 확실하게 달성하는 방법은 툴을 활용하는 것뿐임
대형 모델 비교표 참고 링크
개인적으로 커스텀 프론트엔드를 사용하기 때문에 Qwen3 coder와 달리 grok4 fast는 무료 API 테스트가 없다는 점이 아쉬움, 파트너십을 맺은 툴들도 내가 주로 쓰는 게 아님
- grok-4-fast 무료 체험 링크

답변달기