# Grok 4가 이제 선두 AI 모델임

> Clean Markdown view of GeekNews topic #21919. Use the original source for factual precision when an external source URL is present.

## Metadata

- GeekNews HTML: [https://news.hada.io/topic?id=21919](https://news.hada.io/topic?id=21919)
- GeekNews Markdown: [https://news.hada.io/topic/21919.md](https://news.hada.io/topic/21919.md)
- Type: GN+
- Author: [xguru](https://news.hada.io/@xguru)
- Published: 2025-07-11T09:33:10+09:00
- Updated: 2025-07-11T09:33:10+09:00
- Original source: [twitter.com/ArtificialAnlys](https://twitter.com/ArtificialAnlys/status/1943166841150644622)
- Points: 5
- Comments: 5

## Summary

**xAI의 Grok 4**가 **Artificial Analysis Intelligence Index** 포함 주요 벤치마크에서 **OpenAI o3, Google Gemini 2.5 Pro** 등 경쟁 모델을 앞서며 1위를 차지합니다. **코딩 및 수학 지표**와 **GPQA Diamond, Humanity’s Last Exam** 등에서 최고 기록을 갱신하며 기술적 우위를 입증합니다. **256k 토큰 컨텍스트 윈도우**, **함수 호출, 구조화 출력** 등 다양한 고급 기능을 제공하며, 기존 Grok 3와 동일한 **가격 정책**을 유지합니다.

## Topic Body

- **xAI의 Grok 4**가 주요 벤치마크에서 **AI 모델 1위**를 차지함  
- AAI Index에서 **Grok 4가 73점**으로 OpenAI o3(70점), Google Gemini 2.5 Pro(70점), Anthropic Claude 4 Opus(64점), DeepSeek R1 0528(68점)을 앞섬  
- **Grok 4는 코딩과 수학 관련 벤치마크에서도 최고 점수**를 기록, GPQA Diamond(88%), Humanity’s Last Exam(24%) 등에서 새로운 기록을 세움  
- **가격은 Grok 3와 동일**하며, 토큰당 가격은 Claude 4 Sonnet과 동일, Gemini 2.5 Pro나 o3보다 약간 비쌈  
- **256k 토큰 컨텍스트 윈도우**, 텍스트/이미지 입력, 함수 호출, 구조화된 출력 지원 등 주요 기능 제공  
  
---  
### Grok 4, xAI의 리더 모델로 등극  
  
- **Artificial Analysis Intelligence Index 73점**으로, Grok 4가 주요 벤치마크에서 1위를 기록함  
- OpenAI o3(70점), Google Gemini 2.5 Pro(70점), Anthropic Claude 4 Opus(64점), DeepSeek R1 0528(68점)보다 높은 점수로 **xAI가 처음으로 AI 선두를 차지한 사례**임  
- 이전 Grok 3도 경쟁력 있었으나, Grok 4는 **xAI가 선두를 잡은 첫 모델**임  
  
### 벤치마크 및 평가 결과  
  
- **코딩 지수(LiveCodeBench & SciCode), 수학 지수(AIME24 & MATH-500)에서 모두 1위 기록**  
- **GPQA Diamond 88%** 로 기존 Gemini 2.5 Pro의 기록(84%)을 경신함  
- **Humanity’s Last Exam 24%**, 기존 Gemini 2.5 Pro 기록(21%)을 상회함  
- **MMLU-Pro 87%**, **AIME 2024 94%** 등에서 공동 최고점 기록  
- **출력 속도 75토큰/초**로 o3(188), Gemini 2.5 Pro(142), Claude 4 Sonnet Thinking(85)보다는 느리지만, Claude 4 Opus Thinking(66)보다는 빠름  
  
### 기타 주요 정보  
  
- **256k 토큰 컨텍스트 윈도우** 제공 (Gemini 2.5 Pro: 1M, Claude 4 Sonnet/Opus: 200k, o3: 200k, R1 0528: 128k와 비교해 상위권)  
- **텍스트 및 이미지 입력 지원**  
- **함수 호출과 구조화 출력 지원**  
- **가격 정책**: Grok 3와 동일하게 1M 입력/출력 토큰당 $3/$15, 캐시 입력 토큰당 $0.75  
  - Claude 4 Sonnet과 동일, Gemini 2.5 Pro 및 o3보다는 다소 비쌈  
- Grok 4는 xAI API 및 Grok 챗봇(X/Twitter), Microsoft Azure AI Foundry 등에서 제공 예정  
  
### 요약  
  
- Grok 4는 xAI가 선두에 오른 첫 번째 AI 모델로, 벤치마크와 수치상 주요 경쟁 모델을 모두 앞섬  
- 강력한 **추론 능력**, 다양한 입력/출력 방식, 높은 컨텍스트 지원 등으로 업계 리더십을 입증함  
- 실제 X/Twitter용과 API용 모델의 구현 세부사항은 다를 수 있음

## Comments


### Comment 41273

- Author: slowandsnow
- Created: 2025-07-11T17:19:14+09:00
- Points: 1

일단 무료로 풀릴 때까진 안믿음. 그록은 심지어 30달러라 구독하기 겁남...

### Comment 41254

- Author: paruaa
- Created: 2025-07-11T11:28:45+09:00
- Points: 1

alignment 과정이 적은 모델의 성능이라 생각하면 될 것 같은데 아마도 빡구먹고 성능 내려가지 않을까 생각이

### Comment 41249

- Author: click
- Created: 2025-07-11T10:46:34+09:00
- Points: 1

gemini cli 쓸 때 1M 컨텍스트 덕분에 사용자 경험이 차원이 다르던데  
코드베이스를 통으로 컨텍스트에 올릴 수 있는건 게임체인져죠

### Comment 41248

- Author: koolgu
- Created: 2025-07-11T10:26:19+09:00
- Points: 1

궁금하다 컨텍스트 사이즈가 모델 사용에 얼마나 영향을 주는데 아직도 벤치마크와 겉보기 식으로 뭐가 1등이다 말하는게 모르는 사람들한테 바이럴 마케팅하는것과 무엇이 다른지

### Comment 41228

- Author: neo
- Created: 2025-07-11T09:33:11+09:00
- Points: 1

###### [Hacker News 의견](https://news.ycombinator.com/item?id=44517549) 
* Grok을 누가 돈 주고 쓸지 상상이 안 됨, 게다가 요즘 완전히 문제가 생긴 것 같음, xAI의 밸류에이션은 그냥 허상임
  * 나는 Grok에 돈 내고 사용 중임, 구글 대신 Grok을 몇 달째 쓰고 있음, X graph에 접근할 수 있어서 정말 유용하고 최신 정보도 많음, Cline이나 Cursor에서도 쓸 수 있었으면 좋겠음
  * 문제를 일으킨 건 Grok 모델이 아니라 X의 @grok 봇임을 알고 있는지 궁금함, Grok의 API 버전이 갑자기 의미 없이 히틀러 흉내 내는 일은 없음 (직접 요청하지 않는 한)
* ARC-AGI2에서 o3 4배, opus 4 2배 성능 기록함… 다른 독립 벤치마크도 강력하게 나옴, 각 모델이 한 달씩 "세계 최고"라고 주장하는 짧은 주기 유행이 계속 돌고 있음, 이런 가격이면 소비자에게 좋음, 오픈 모델의 학습 데이터셋도 더 다양해지고 있어 윈-윈임, 유명 인사에 대한 감정 싸움 때문에 머리 아픈 변명 돌리는 걸 보는 게 안타까움, 많은 사람들이 미디어 디톡스가 필요함, LLM을 예전엔 "확률적 앵무새"라고 했는데, 지금 이 스레드와 레딧을 보면 오히려 사람들이 멍청하고 혐오적인 걸 앵무새처럼 반복하고 있음, 더 나아져야 함
* 내 코드에 앞으로도 히틀러 관련 응답이 나올지 궁금함, 수정: 이게 또 한 번의 "천재적인" 마케팅 움직임이라는 걸 몰라서 내가 멍청하게 느껴짐