# Grok 4 Fast

> Clean Markdown view of GeekNews topic #23192. Use the original source for factual precision when an external source URL is present.

## Metadata

- GeekNews HTML: [https://news.hada.io/topic?id=23192](https://news.hada.io/topic?id=23192)
- GeekNews Markdown: [https://news.hada.io/topic/23192.md](https://news.hada.io/topic/23192.md)
- Type: GN+
- Author: [xguru](https://news.hada.io/@xguru)
- Published: 2025-09-21T09:27:46+09:00
- Updated: 2025-09-21T09:27:46+09:00
- Original source: [x.ai](https://x.ai/news/grok-4-fast)
- Points: 4
- Comments: 2

## Topic Body

- xAI가 발표한 **Grok 4 Fast**는 기존 Grok 4의 학습 성과를 기반으로, **비용 효율성과 속도**를 극대화한 차세대 추론 모델  
- 이 모델은 **2M 토큰 컨텍스트 윈도우**, **웹 및 X 검색 기능**, 그리고 **reasoning / non-reasoning 통합 아키텍처**를 갖춰 실시간 활용에 적합  
- 벤치마크에서 Grok 4와 유사한 성능을 내면서도 평균 **40% 적은 토큰**을 사용해, 같은 성능을 훨씬 낮은 비용으로 달성할 수 있음  
- 또한 **도구 사용 강화 학습**을 통해 코드 실행, 웹 탐색 등에서 높은 성능을 발휘하며, LMArena Search Arena에서 1위를 기록  
  
---  
### 비용 효율적 지능의 진보  
- Grok 4 Fast는 **Grok 3 Mini**보다 우수한 성능을 보이면서도 토큰 비용을 크게 절감함  
  - 평균적으로 Grok 4 대비 **40%** 더 적은 'Thinking Tokens' 사용으로 유사한 성능 달성  
  - 벤치마크 점수 예시 (pass@1):  
    - Grok 4 Fast: 85.7%, 92.0%, 93.3%, 20.0%, 80.0%  
    - 경쟁 모델(GPT-5 등) 대비 동급 또는 우수한 결과  
- GPQA, AIME, HMMT, LiveCodeBench 등 다양한 **추론 벤치마크**에서 Grok 4에 근접한 성과를 보여줌  
- Grok 4 Fast의 토큰 효율성 40% 개선과 함께, 토큰당 가격을 크게 낮춤  
- 동일 성능 달성 시 가격이 Grok 4 대비 **98% 절감**되어, 공개된 모델 중 '최고 가격-지능비(SOTA Price-to-Intelligence Ratio)' 기록  
  - 독립기관인 Artificial Analysis Intelligence Index 외부 평가에서 **우수 성적**을 검증받음  
  
### 네이티브 도구 활용과 SOTA 검색  
- **도구 사용 강화 학습(RL)** 로 훈련되어, 필요 시 코드 실행이나 웹 브라우징을 자동으로 수행할 수 있음  
- 웹과 X를 실시간으로 탐색해 다중 홉 검색과 미디어(이미지, 동영상)까지 소화하는 **에이전틱 검색 능력**을 갖춤  
- BrowseComp, SimpleQA, X Bench Deepsearch(zh) 등 다양한 벤치마크에서 Grok 4를 초월하는 성능을 달성함  
  
### 일반 도메인 포스트 트레이닝 성과  
- LMArena의 **Search Arena**에서 Grok 4 Fast(`menlo`)는 **Elo 1163**으로 1위를 기록, 경쟁 모델 대비 17점 차로 앞섬  
- **Text Arena**에서는 `grok-4-fast`(코드네임 tahoe)가 8위로, 동급 타 모델(18위 이하)과 비교 압도적으로 우수  
- 실제 검색 및 텍스트 작업에서 대형 모델 이상의 효율성을 보임  
  
### Reasoning과 Non-Reasoning 통합 모델  
- 기존에는 별도 모델이 필요했던 reasoning / non-reasoning 모드를 **단일 아키텍처**로 통합함  
  - 시스템 프롬프트 만으로 reasoning(심층사고) 및 non-reasoning(신속 답변) 모드를 전환  
  - 엔드 투 엔드 지연시간과 토큰 비용 감소로 **실시간 어플리케이션**에 적합함  
- xAI API에서는 개발자가 속도/깊이를 세밀하게 조절 가능  
  
### 배포 및 가격 정책  
- Grok 4 Fast는 바로 이용 가능하며, OpenRouter와 Vercel AI Gateway에서 **한시적 무료 제공**됨  
- xAI API에서도 `grok-4-fast-reasoning`과 `grok-4-fast-non-reasoning` 두 가지 버전으로 제공되며, **2M 토큰 컨텍스트 윈도우** 지원  
- 가격은 입력 토큰 **$0.20/1M**, 출력 토큰 **$0.50/1M**부터 시작, **128k 토큰 초과 시 2배 요금** 적용  
- 캐시 입력 토큰은 **$0.05/1M**으로 제공되어 비용 절감에 도움  
  
### 향후 계획  
- 사용자 피드백을 반영해 지속적으로 모델 개선 예정  
- **멀티모달 기능**과 **에이전틱 특성 강화**가 차기 업데이트의 핵심 목표임  
- 모델 카드와 추가 세부 정보는 [Grok 4 Fast 모델카드 (PDF)](https://data.x.ai/2025-09-19-grok-4-fast-model-card.pdf)를 통해 확인 가능함

## Comments


### Comment 44131

- Author: kuber
- Created: 2025-09-21T14:14:05+09:00
- Points: 2

gpt-oss 보다 비싸고 느리던데, 사람들이 왜 이렇게 많이쓰는지 궁금해요..

### Comment 44123

- Author: neo
- Created: 2025-09-21T09:27:47+09:00
- Points: 1

###### [Hacker News 의견](https://news.ycombinator.com/item?id=45309355) 
- Musk 제품은 아무리 돈을 준다고 해도 사용하고 싶지 않음, 특히 정보를 필터링·변환·종합하는 역할이라면 더욱 그렇다는 생각임, 쓸모가 있을 순 있겠지만 신뢰가 가지 않고 Musk에게 더 부를 쌓아주고 싶지 않음
  - Musk 본인에 대해 악감정을 갖지 않더라도, Grok의 작동 방식에 직접 개입해 본인의 이념에 맞는 결과를 내놓게 한다는 걸 여러 번 봤음, 이런 식이라면 해당 제품을 사용할 수 없다고 생각함, Musk의 생각을 공유하는 이들도 있겠지만, AI 제품의 가치란 다양한 데이터와 알고리즘을 활용해 답을 산출한다는 데에 있음, 개개인의 의견만 재현하는 건 의미가 없다고 봄
  - Grok이 답을 내놓기 전에 Twitter에서 Musk 의견을 검색한다는 얘기가 들렸는데, 이게 모든 Grok 버전인가 아니면 Twitter 임베드 버전에서만 그런 건가 궁금함
  - 대안이 정말 많아서 Grok을 사용할 이유가 전혀 없다는 생각임
  - Musk가 Kirk 암살 관련 Fox News 선전이 나오지 않는다며 Grok을 직접 건드린 사례가 있음 [사례1](https://bsky.app/profile/chriso-wiki.bsky.social/post/3lysuyqda2c2j) 그리고 이런 일은 여러 번 있어 왔음 [NYT 기사](https://www.nytimes.com/2025/09/02/technology/elon-musk-grok-conservative-chatbot.html) Grok은 선전 논란이 있는 기술임, 마치 일반적인 기술 서비스인 양 논의하는 것 자체가 말이 안 됨
- "Fast"라는 모델명인데 토큰 처리 속도를 공개하지 않는 이유가 뭔지 궁금함, 속도 의미가 아닌 다른 걸 뜻하는 건지, 아니면 변동이 심한 건지 궁금함
  - 사실상 “grok 4 mini”에 불과하다고 생각함, ‘mini’라고 하면 사람들이 잘 안 쓰니까 ‘fast’라고 이름 붙인 것 같음, 그 편이 선택할 이유가 생기니까
  - 오픈라우터 기준 현재 초당 약 160토큰 수준임 [출처](https://openrouter.ai/x-ai/grok-4-fast:free)
  - ‘토큰 효율’에 초점을 두면서 빠르다고 포지셔닝하는 것 같음, 적은 토큰을 써서 더 빨리 결과를 내놓는다는 식임
- Grok 4가 NYT Connections 익스텐디드 리더보드 상위에 있음 [링크](https://github.com/lechmazur/nyt-connections/)
  - 최근 오픈라우터에서 피드백을 받은 Sonoma sky Alpha가 이 모델일 수도 있겠다는 생각이 들었음, 무료여서 많이 써봤는데 기존 grok 4보다 별로여서 아닐 수도 있다는 의견임
- grok-code-fast-1 모델을 요즘 즐겨 쓰고 있는데, 이번에 나온 신제품에는 언급이 없어 아쉬움, 혹시 더 나은 버전이 아닐까 기대함, grok-code-fast-1이 Gemini 2.5 Pro보단 약간 부족해도 반복 속도면에서는 최고임
  - 다소 단순한 모델이긴 해도 내가 쓰기엔 somnet보다 괜찮았던 경험임
- 더 빠르면서 더 느린 버전보다 여러 벤치마크에서 성능이 뛰어나다는 게 이해가 가지 않음, 단순히 벤치마크 시험만 계속해서 학습한 건지 궁금함
  - 모든 벤치마크에서 다 뛰어난 건 아님, Grok 4 Fast는 GPQA Diamond, HLE 등 대량의 사실 기반 영역에선 Grok 4보다 약함, 큰(=느린) 모델이 이런 영역에선 더 좋음, 반면 추론이나 도구 활용이 중점인 벤치마크에선 토큰 전환 능력 위주라 작으면서도 빠른 모델도 경쟁력이 있음, 아마 훈련 데이터 자체를 특정 태스크에 더 치중하도록 조정했을 것임, 실제 결과도 그런 벤치마크를 골라 홍보하는 듯함, 반대로 사실 기억 벤치마크만 뽑아 성능이 낮다고 강조하는 ‘반대 홍보자료’도 만들 수 있을 거라 생각함
  - 기술적으로는 다양한 구조 변화, 더 많은 데이터, RL 등 뭘 썼는지 다를 수 있음, 최근엔 RL 활용에 있어 공개모델들과 비교해 월등하게 앞서나가는 추세임
  - 실은 그냥 이름만 비슷한 두 모델임, Grok 4 Fast가 Grok 4의 더 빠른 버전이라는 식의 관계는 아님, gpt-4와 gpt-4o 관계처럼 완전히 다름
  - Grok 4 Fast는 Grok 4 모델에서 실제 생산 환경에서 거의 쓰이지 않는 부분을 줄여서 더 가볍고 집중력 있게 만들어낸 버전일 가능성이 높음, 그래서 실제 논리 구조는 같지만 더욱 특정 목적에 집중해 효율을 높인 결과임
- 요즘 대형모델들은 비슷한 크기 기준에, 유사한 데이터로 훈련하고 있음, 가격 정책만 다를 뿐임… grok은 필터나 보호장치를 빼는 게 특징인 듯함, 그리고 벤치마크 자체도 쉽게 조작될 수 있는 flawed한 부분이 많음, 관련 업계 사람들끼린 다 아는 얘기임
- 가격 대비 벤치마크 성능이 좋아 보임, 실제 사용자 테스트에선 어떨지 궁금함
  - 만약 이게 예전에 openrouter에서 미리보기로 제공됐던 sonoma-dusk라면 꽤 쓸만했음, 코드를 리버스 엔지니어링 과제로 테스트 해봤는데, 속도나 성능이 gpt5-mini와 비슷하거나 더 뛰어남, 11만~13만 토큰까지는 잘 버티고, 그 이상부터는 조건 불충분 상황에서도 일단 완성을 주장하는 경향이 있었음(예: 400개 중 xx 개 테스트 통과, 나머진 나중에 가능하단 식)
- 우리 모두 빠르고 정확한 모델을 원하는데, 정말 ‘정확함’까지 가능한 모델인지 궁금함, 아주 정확하다면 몇 초 더 기다릴 의향도 있음
  - 이걸 확실하게 달성하는 방법은 툴을 활용하는 것뿐임
- [대형 모델 비교표 참고 링크](https://lifearchitect.ai/models-table/)
- 개인적으로 커스텀 프론트엔드를 사용하기 때문에 Qwen3 coder와 달리 grok4 fast는 무료 API 테스트가 없다는 점이 아쉬움, 파트너십을 맺은 툴들도 내가 주로 쓰는 게 아님
  - [grok-4-fast 무료 체험 링크](https://openrouter.ai/x-ai/grok-4-fast:free)