3P by GN⁺ 17시간전 | ★ favorite | 댓글 5개
  • xAI의 Grok 4가 주요 벤치마크에서 AI 모델 1위를 차지함
  • AAI Index에서 Grok 4가 73점으로 OpenAI o3(70점), Google Gemini 2.5 Pro(70점), Anthropic Claude 4 Opus(64점), DeepSeek R1 0528(68점)을 앞섬
  • Grok 4는 코딩과 수학 관련 벤치마크에서도 최고 점수를 기록, GPQA Diamond(88%), Humanity’s Last Exam(24%) 등에서 새로운 기록을 세움
  • 가격은 Grok 3와 동일하며, 토큰당 가격은 Claude 4 Sonnet과 동일, Gemini 2.5 Pro나 o3보다 약간 비쌈
  • 256k 토큰 컨텍스트 윈도우, 텍스트/이미지 입력, 함수 호출, 구조화된 출력 지원 등 주요 기능 제공

Grok 4, xAI의 리더 모델로 등극

  • Artificial Analysis Intelligence Index 73점으로, Grok 4가 주요 벤치마크에서 1위를 기록함
  • OpenAI o3(70점), Google Gemini 2.5 Pro(70점), Anthropic Claude 4 Opus(64점), DeepSeek R1 0528(68점)보다 높은 점수로 xAI가 처음으로 AI 선두를 차지한 사례
  • 이전 Grok 3도 경쟁력 있었으나, Grok 4는 xAI가 선두를 잡은 첫 모델

벤치마크 및 평가 결과

  • 코딩 지수(LiveCodeBench & SciCode), 수학 지수(AIME24 & MATH-500)에서 모두 1위 기록
  • GPQA Diamond 88% 로 기존 Gemini 2.5 Pro의 기록(84%)을 경신함
  • Humanity’s Last Exam 24%, 기존 Gemini 2.5 Pro 기록(21%)을 상회함
  • MMLU-Pro 87%, AIME 2024 94% 등에서 공동 최고점 기록
  • 출력 속도 75토큰/초로 o3(188), Gemini 2.5 Pro(142), Claude 4 Sonnet Thinking(85)보다는 느리지만, Claude 4 Opus Thinking(66)보다는 빠름

기타 주요 정보

  • 256k 토큰 컨텍스트 윈도우 제공 (Gemini 2.5 Pro: 1M, Claude 4 Sonnet/Opus: 200k, o3: 200k, R1 0528: 128k와 비교해 상위권)
  • 텍스트 및 이미지 입력 지원
  • 함수 호출과 구조화 출력 지원
  • 가격 정책: Grok 3와 동일하게 1M 입력/출력 토큰당 $3/$15, 캐시 입력 토큰당 $0.75
    • Claude 4 Sonnet과 동일, Gemini 2.5 Pro 및 o3보다는 다소 비쌈
  • Grok 4는 xAI API 및 Grok 챗봇(X/Twitter), Microsoft Azure AI Foundry 등에서 제공 예정

요약

  • Grok 4는 xAI가 선두에 오른 첫 번째 AI 모델로, 벤치마크와 수치상 주요 경쟁 모델을 모두 앞섬
  • 강력한 추론 능력, 다양한 입력/출력 방식, 높은 컨텍스트 지원 등으로 업계 리더십을 입증함
  • 실제 X/Twitter용과 API용 모델의 구현 세부사항은 다를 수 있음

일단 무료로 풀릴 때까진 안믿음. 그록은 심지어 30달러라 구독하기 겁남...

alignment 과정이 적은 모델의 성능이라 생각하면 될 것 같은데 아마도 빡구먹고 성능 내려가지 않을까 생각이

gemini cli 쓸 때 1M 컨텍스트 덕분에 사용자 경험이 차원이 다르던데
코드베이스를 통으로 컨텍스트에 올릴 수 있는건 게임체인져죠

궁금하다 컨텍스트 사이즈가 모델 사용에 얼마나 영향을 주는데 아직도 벤치마크와 겉보기 식으로 뭐가 1등이다 말하는게 모르는 사람들한테 바이럴 마케팅하는것과 무엇이 다른지

Hacker News 의견
  • Grok을 누가 돈 주고 쓸지 상상이 안 됨, 게다가 요즘 완전히 문제가 생긴 것 같음, xAI의 밸류에이션은 그냥 허상임
    • 나는 Grok에 돈 내고 사용 중임, 구글 대신 Grok을 몇 달째 쓰고 있음, X graph에 접근할 수 있어서 정말 유용하고 최신 정보도 많음, Cline이나 Cursor에서도 쓸 수 있었으면 좋겠음
    • 문제를 일으킨 건 Grok 모델이 아니라 X의 @grok 봇임을 알고 있는지 궁금함, Grok의 API 버전이 갑자기 의미 없이 히틀러 흉내 내는 일은 없음 (직접 요청하지 않는 한)
  • ARC-AGI2에서 o3 4배, opus 4 2배 성능 기록함… 다른 독립 벤치마크도 강력하게 나옴, 각 모델이 한 달씩 "세계 최고"라고 주장하는 짧은 주기 유행이 계속 돌고 있음, 이런 가격이면 소비자에게 좋음, 오픈 모델의 학습 데이터셋도 더 다양해지고 있어 윈-윈임, 유명 인사에 대한 감정 싸움 때문에 머리 아픈 변명 돌리는 걸 보는 게 안타까움, 많은 사람들이 미디어 디톡스가 필요함, LLM을 예전엔 "확률적 앵무새"라고 했는데, 지금 이 스레드와 레딧을 보면 오히려 사람들이 멍청하고 혐오적인 걸 앵무새처럼 반복하고 있음, 더 나아져야 함
  • 내 코드에 앞으로도 히틀러 관련 응답이 나올지 궁금함, 수정: 이게 또 한 번의 "천재적인" 마케팅 움직임이라는 걸 몰라서 내가 멍청하게 느껴짐