Grok 4가 이제 선두 AI 모델임
(twitter.com/ArtificialAnlys)- xAI의 Grok 4가 주요 벤치마크에서 AI 모델 1위를 차지함
- AAI Index에서 Grok 4가 73점으로 OpenAI o3(70점), Google Gemini 2.5 Pro(70점), Anthropic Claude 4 Opus(64점), DeepSeek R1 0528(68점)을 앞섬
- Grok 4는 코딩과 수학 관련 벤치마크에서도 최고 점수를 기록, GPQA Diamond(88%), Humanity’s Last Exam(24%) 등에서 새로운 기록을 세움
- 가격은 Grok 3와 동일하며, 토큰당 가격은 Claude 4 Sonnet과 동일, Gemini 2.5 Pro나 o3보다 약간 비쌈
- 256k 토큰 컨텍스트 윈도우, 텍스트/이미지 입력, 함수 호출, 구조화된 출력 지원 등 주요 기능 제공
Grok 4, xAI의 리더 모델로 등극
- Artificial Analysis Intelligence Index 73점으로, Grok 4가 주요 벤치마크에서 1위를 기록함
- OpenAI o3(70점), Google Gemini 2.5 Pro(70점), Anthropic Claude 4 Opus(64점), DeepSeek R1 0528(68점)보다 높은 점수로 xAI가 처음으로 AI 선두를 차지한 사례임
- 이전 Grok 3도 경쟁력 있었으나, Grok 4는 xAI가 선두를 잡은 첫 모델임
벤치마크 및 평가 결과
- 코딩 지수(LiveCodeBench & SciCode), 수학 지수(AIME24 & MATH-500)에서 모두 1위 기록
- GPQA Diamond 88% 로 기존 Gemini 2.5 Pro의 기록(84%)을 경신함
- Humanity’s Last Exam 24%, 기존 Gemini 2.5 Pro 기록(21%)을 상회함
- MMLU-Pro 87%, AIME 2024 94% 등에서 공동 최고점 기록
- 출력 속도 75토큰/초로 o3(188), Gemini 2.5 Pro(142), Claude 4 Sonnet Thinking(85)보다는 느리지만, Claude 4 Opus Thinking(66)보다는 빠름
기타 주요 정보
- 256k 토큰 컨텍스트 윈도우 제공 (Gemini 2.5 Pro: 1M, Claude 4 Sonnet/Opus: 200k, o3: 200k, R1 0528: 128k와 비교해 상위권)
- 텍스트 및 이미지 입력 지원
- 함수 호출과 구조화 출력 지원
-
가격 정책: Grok 3와 동일하게 1M 입력/출력 토큰당 $3/$15, 캐시 입력 토큰당 $0.75
- Claude 4 Sonnet과 동일, Gemini 2.5 Pro 및 o3보다는 다소 비쌈
- Grok 4는 xAI API 및 Grok 챗봇(X/Twitter), Microsoft Azure AI Foundry 등에서 제공 예정
요약
- Grok 4는 xAI가 선두에 오른 첫 번째 AI 모델로, 벤치마크와 수치상 주요 경쟁 모델을 모두 앞섬
- 강력한 추론 능력, 다양한 입력/출력 방식, 높은 컨텍스트 지원 등으로 업계 리더십을 입증함
- 실제 X/Twitter용과 API용 모델의 구현 세부사항은 다를 수 있음
궁금하다 컨텍스트 사이즈가 모델 사용에 얼마나 영향을 주는데 아직도 벤치마크와 겉보기 식으로 뭐가 1등이다 말하는게 모르는 사람들한테 바이럴 마케팅하는것과 무엇이 다른지
Hacker News 의견
- Grok을 누가 돈 주고 쓸지 상상이 안 됨, 게다가 요즘 완전히 문제가 생긴 것 같음, xAI의 밸류에이션은 그냥 허상임
- 나는 Grok에 돈 내고 사용 중임, 구글 대신 Grok을 몇 달째 쓰고 있음, X graph에 접근할 수 있어서 정말 유용하고 최신 정보도 많음, Cline이나 Cursor에서도 쓸 수 있었으면 좋겠음
- 문제를 일으킨 건 Grok 모델이 아니라 X의 @grok 봇임을 알고 있는지 궁금함, Grok의 API 버전이 갑자기 의미 없이 히틀러 흉내 내는 일은 없음 (직접 요청하지 않는 한)
- ARC-AGI2에서 o3 4배, opus 4 2배 성능 기록함… 다른 독립 벤치마크도 강력하게 나옴, 각 모델이 한 달씩 "세계 최고"라고 주장하는 짧은 주기 유행이 계속 돌고 있음, 이런 가격이면 소비자에게 좋음, 오픈 모델의 학습 데이터셋도 더 다양해지고 있어 윈-윈임, 유명 인사에 대한 감정 싸움 때문에 머리 아픈 변명 돌리는 걸 보는 게 안타까움, 많은 사람들이 미디어 디톡스가 필요함, LLM을 예전엔 "확률적 앵무새"라고 했는데, 지금 이 스레드와 레딧을 보면 오히려 사람들이 멍청하고 혐오적인 걸 앵무새처럼 반복하고 있음, 더 나아져야 함
- 내 코드에 앞으로도 히틀러 관련 응답이 나올지 궁금함, 수정: 이게 또 한 번의 "천재적인" 마케팅 움직임이라는 걸 몰라서 내가 멍청하게 느껴짐