4P by GN⁺ 15시간전 | ★ favorite | 댓글 5개
  • Grok 4는 xAI가 약 2년 만에 출시한 최신 AI 모델로, 모든 분야에서 대학원생을 압도하는 지능추론력을 실현
  • 훈련 규모연산 자원이 100배 이상 증가했으며, 강화학습(RL) 중심으로 발전해 인간 수준을 뛰어넘는 문제 해결 능력을 입증
  • ARC-AGI 점수 15.9% 달성, 현존하는 AI 중 최고 수준의 추상적 추론 및 일반 지능 평가에서 우수한 성과를 기록함
  • Humanity’s Last Exam(HLE) 등 다양한 벤치마크에서, 외부 도구 미사용 시 26.9%, 도구 사용 시 41~50.7% 라는 혁신적 결과를 보여줌
  • 네이티브 보이스 모드 도입으로, 실시간 대화 및 감정 표현, 저지연 응답 등 인간에 가까운 상호작용 구현

Grok 4

  • Elon Musk가 설립한 xAI가 약 2년 만에 Grok 4를 공개, “세계 최고 AI 모델”임을 강조
  • SAT, GRE 등 표준 시험에서 만점을 받고, 모든 학문 분야의 대학원·박사 수준 문제도 전례 없이 뛰어난 성과를 보임

    "학술적 질문에 관해서는 Grok 4가 모든 과목에서 대학원생들보다 똑똑하다"

  • Grok 2는 개념 모델, Grok 3는 다양한 데이터 소스 기반의 사전학습에 초점, Grok 4는 2에 비해 100배, 3에 비해 10배 더 많은 연산 자원과 데이터로 훈련됨
  • Colossus 슈퍼컴퓨터(20만 GPU)에서 사전훈련 및 RL 중심으로 학습
    • 강화학습(RL) 에 집중, 모델이 문제 해결 과정에서 피드백을 받고 점진적으로 성능을 개선하는 자기 오류 교정 구조 채택
    • 논리적 문제 해결력 및 “first principles” 사고에 기반해 짧은 시간 내 최대 진보를 이뤄냈음을 강조함

2가지 버전의 모델

  • 기본 모델인 Grok 4 와 성능 향상 버전인 Grok 4 Heavy
  • Grok 4 Heavy 는 멀티 에이전트 방식으로 여러 에이전트가 동시에 문제를 해결하며 서로 결과 비교를 통해 최적의 답을 찾는 집단 지능을 구현
    • SuperGrok Heavy 구독 서비스로 사용가능(월 300달러)

AGI Scoring Breakthrough

  • Grok 4는 ARC-AGI 테스트에서 15.9%라는, 업계 최고 수준의 점수를 기록함
  • ARC-AGI는 모델의 일반 지능과 추상적 문제 해결 능력을 평가, 시각적 패턴 인식 및 새로운 시나리오 적용 능력을 중점 측정함

Humanity's Last Exam (HLE) 성과

  • 2025년 1월 도입된 Humanity’s Last Exam(HLE) 은 수학, 생물, 사회과학, 물리, AI, 공학, 화학 등 100여 개 분야, 2,500문항으로 구성된 초고난도 벤치마크임

  • Grok 4의 성적: "실제 인간이나 기존 AI가 접근할 수 없는 수준"

    • 도구 미사용 시: 26.9%
    • 도구 활용(Grok 4 Heavy): 41%
    • 테스트 시 추가 연산(32배) 적용: 최대 50.7%까지 도달
  • 도구 미사용은 내장된 언어/추론 능력만으로 문제를 해결, 도구 사용은 코드 실행·웹검색·외부 데이터 활용 등 멀티에이전트 시스템과 결합된 방식임

  • 트레이닝 컴퓨트는 20만 개 GPU 기반의 Colossus 슈퍼컴퓨터로 모델 지식과 도구 사용 능력을 훈련, 테스트 타임 컴퓨트는 문제 풀이 시 모델 여러 개를 병렬로 돌리며 결과 검증과정 포함

    “Grok 4는 모든 분야에서 PhD 수준 이상”
    "조만간 신기술/신물리학 발견까지도 기대함"

주요 AI 벤치마크 성적

  • AIME: 고등학교 수준의 복잡한 수학 문제 해결력
  • GPQA: 물리 등 대학원 수준의 과학적 추론 평가
  • LiveCodeBench: Python 프로그래밍 챌린지 기반의 코딩 실력 측정
  • MMLU-Pro: 다양한 전문 분야의 고난이도 객관식 문제 풀이 능력
  • LOFT: 장문의 텍스트에서 복잡 쿼리에 필요한 정보 추출력 평가

실용 사례 및 리얼월드 적용

  • 비즈니스 시뮬레이션(벤딩벤치)에서 Grok 4는 전 모델 대비 2배 이상 성과 및 일관성을 보이며, 장기간 전략 수행 능력 입증
  • 생명과학 연구소 등에서는 대규모 실험 로그 분석, 가설 도출, 의료 영상 판독에 도입되어 실제 업무 효율을 증명함
  • 게임 개발에서는 게임 자산 자동 수집과 코드 생성까지 단 한 명의 개발자가 3D 게임을 빠르게 완성할 수 있게 지원

네이티브 보이스 모드 혁신

  • Grok 4는 실시간 음성 대화 지원, 중간에 자연스러운 인터럽트, 감정적 억양 이해/재현, 초저지연 반응 등으로 기존 TTS 시스템을 뛰어넘는 인간형 상호작용 제공
  • 여러 종류의 음성(영국식, 트레일러 스타일 등) 추가 및 라이브 데모로 실시간 대화의 부드러움, 신속성, 다양한 활용성 시연

API 및 생태계 확장

  • Grok 4는 API로도 공개하여, 누구나 벤치마크 테스트 및 비즈니스 적용 가능
  • 실제 금융, 과학, 엔터테인먼트 등 다양한 분야 파트너가 도입 중, 리얼월드 임팩트 증대
  • 256k context length 제공으로 장문·복합 작업 처리력 강화

한계와 향후 발전

  • 현시점에서 Grok 4의 가장 큰 약점은 이미지·비디오 등 멀티모달 이해/생성 능력 부족
  • 곧 훈련 완료되는 v7 파운데이션 모델과 추가 강화된 RL로 비전·비디오·오디오 전방위 개선 예정
  • 비디오 생성 모델(100,000+ GB200 GPU 활용) 개발 및 출시 예고

xAI의 향후 로드맵

  • 2025년 8월: 코딩 모델 출시 예정
  • 2025년 9월: 멀티모달 에이전트 공개
  • 2025년 10월: 비디오 생성 모델 발표 계획
  • 도구와 모델 성능을 지속적으로 강화할 예정임

결론 및 시사점

  • Grok 4는 추론력, 학문적 문제 해결력 등에서 현존 최고 AI들과 실질적으로 경쟁하거나 앞서는 수준을 입증
  • 전례 없는 지능·추론력, 실시간 음성 상호작용, 도구 활용 및 멀티에이전트 구조 등 차세대 AGI의 실질적 전환점 제시
  • 실제 업무/비즈니스/게임/연구/엔터테인먼트 등 다방면 확장성과 함께, xAI는 가장 빠른 AGI 기업으로 자리매김할 것
  • xAI의 빠른 개발 주기와 공격적 행보는 AI 산업 경쟁이 계속해서 가속화되고 있음을 보여줌

뭐 실제 사용해봐야 알겠지만, 20만장의 GPU와 인재풀이면 이렇게 공격적으로 성장도 가능하군요.
콜로서스가 100만장 GPU가 되면 또 얼마나 좋아지려나요.

H100 5천만원 잡아서 GPU가격만 50조원. 데이터 센서 짓고, 주변에 전력도 필요하니까 한 20조까지 추가로 든다고 하니 70조원이네요. AI는 점점 돈싸움이 되는거 같아요.

대학원생은 갑자기 왜끌고와서 패는지ㅋㅋㅋ

ㅋㅋㅋㅋㅋ 갑자기 얻어맞은 대학원생 둥절 ..

Grok 4가 대단하다는 것은 알겠으나 '조만간 신기술/신물리학 발견까지도 기대함' 같은 영미권 특유의 문구는 재밌습니다. 조만간 리만가설을 증명/반증 해주면 더 이상의 벤치마크 따위는 필요 없겠죠?

Hacker News 의견
  • "Heavy" 모델이 한 달에 300달러임, 가격이 자꾸 오르는 느낌을 받음, 예전엔 가격이 계속 내려갈 거라 약속받은 것 같았음, GPU가 부족한 회사가 많아서 이런 현상이 생기는 듯함, Google 같은 업체는 이런 문제가 없을 것 같음, 이미 Gemini 2.5 Pro는 AI studio에서 무료로 쓰고 있고, 무려 32k까지 세팅해도 요금이 전혀 나가지 않음, 어쩌면 Gemini 3.0도 무료로 풀릴 가능성을 기대함
    • 고성능 모델에 대해 항상 비용이 저렴할 거라고 누가 약속한 적은 없는 것 같음, 같은 수준의 성능과 토큰 수 기준으론 가격이 떨어지고 있음, 마치 무어의 법칙처럼 칩이 계속 복잡해지긴 하지만 단위당 성능은 싸짐
    • Ferrari가 Model T보다 비싼 것이나, 가장 값비싼 컴퓨터가 첫 PC보다 월등히 비싼 것과 비슷한 원리임, 실제로 내려가는 가격은 엔트리 레벨이거나, 같은 성능 유지되는 라인임, 다만 전체 가격대는 점점 넓어지는 것이 당연한 현상임, 이 업계가 성숙해지고 있다는 신호로 받아들임, 이번엔 엔트리 레벨이 VC 펀딩 때문에 인위적으로 0 혹은 매우 낮았던 게 차이점임
    • Gemini 역시 가격이 계속 오르고 있다는 점도 중요하게 봐야 함, 관련 링크
    • 추론 시간(인퍼런스 타임) 때문에 생기는 비용 스케일링 현상임, 결국 AI 접근 비용으로 ‘갖는 자’와 ‘못 갖는 자’의 격차가 크게 벌어질 것 같음, 전 세계의 대부분은 수백 달러의 구독료를 감당 못함
    • O3는 최근 80% 가격 인하함, Grok4는 출시한 지 얼마 안 되었고 성능도 좋으면서 꽤 합리적인 가격임, heavy 버전이 아니라면 token 단가도 grok 3와 동일함, Google은 존재감 키우려고 비용 감수하는 것 같음, 그래서 원문의 불만이 잘 이해가 안 됨
  • 실제로 이번에 나온 게 새로운 SOTA(State of the Art, 최신 최고 모델) 맞는 것 같음, o3, Gemini, Claude보다 Human’s Last Exam, GPQA, AIME25, HMMT25, USAMO 2025, LiveCodeBench, ARC-AGI 1, 2 등에서 점수가 현저히 높아짐, 몇 주 내에 특화된 코딩 모델도 출시 예정임, 오늘은 코딩 성능 이야기는 많이 안 한 걸 유의함
    • 동의함, 오늘 월드시리즈 시뮬레이션에서 불안한 추론 느낌을 받았음, Polymarket에서 숫자를 가져와서 자기 데이터처럼 보이게 답변함, 물론 자세히 보지 않아 착각일 수 있으나 이런 사례 보면 선구자 모델의 안전팀에 회의적 시각 가진 사람이 꼭 필요함을 다시 느낌, 그럼에도 어마어마한 발전임, 벤치마크가 오염되지 않은 조건이라면 데일리 드라이버로 폭발적 인기를 끌 것 같음, 코딩은 256k 컨텍스트만이 유일한 아쉬운 점인데, v7에선 더 긴 컨텍스트–특히 비디오 관련해–개선을 기대함, 어쨌든 빨리 써보고 싶음
    • 코딩 모델이 코딩 에이전트에 제공됐으면 좋겠음, 어디에서도 찾아 볼 수가 없음
    • 모델을 검열하면 점수가 급격히 떨어진다는 건 꽤 오래 증명된 내용임, 예를 들어 폭탄 만드는 법은 막아야 하겠지만, Grok 3는 최악의 데이터에 접근하면서도 지속적으로 진보적 입장을 취했음(스폰서 배경 감안)
    • Elon Musk에 대해 호의적이지 않더라도 Grok가 Google, OpenAI, Anthropic 같은 빅3와 동급까지 따라온 건 정말 놀라움, 이제 거의 같은 수준임
  • Grok 4를 방금 써봤는데 너무 좋음, Java CDK로 1000줄 EC2 인스턴스 구축 코드를 한 번에 생성했음, VPC와 Security Groups 포함해서 구문 에러 하나도 없었음, 특히 userData(#!/bin/bash 명령어) 생성 시 최신 소프트웨어 artifact를 GitHub에서 정확한 주소로 wget해 줬음, 정말 대단함
    • 결과를 공유 가능하다면 꼭 보여줬으면 함, 이렇게 많은 코드가 한 번에 에러 없이 나오면 확실히 놀랍다고 생각함, grok가 이런 쿼리에서 툴(린터, 샌드박스 실행, 웹 서치 등)도 돌리는지 궁금함
    • 1회성 코드로서는 훌륭하지만, 소스 관리와 협업, 표준 SDLC 준수, 불변성, 상태 변경 이력 관리까지 요구하는 유지보수 가능한 코드로는 아직 한참 부족함, 만약 인턴이 이렇게 EC2 배포 코드를 썼다 하면 결정 하나하나에 대해 긴 대화를 나눠야 할 것 같음
    • Java 대신 typescript로 CDK를 안 쓰고 Java로 쓴 이유가 궁금함, 혹시 모든 환경을 하나의 언어로 통일하려고 한 것인지 질문함
  • Grok Heavy의 핵심 트릭은 여러 에이전트를 병렬로 띄워서 결과를 비교하는 구조임, 전체적으로 매우 인상적인 벤치마크 결과임, 비싸고 느릴 수밖에 없지만 차세대 에이전트 디자인의 논리적 흐름임, 실제로 써보고 싶음, 참고로 API도 오픈함, xAI가 뭔가 해내긴 한 듯함
    • 어떻게 동작하는지는 이해함, 그래도 어딘가 ‘핵(hack)’처럼 느껴짐, LLM 자체는 더 이상 뚜렷한 발전 없이 깊이, 길이, 폭 등으로 외연만 확장되는 느낌임, 결국 주변부에 ‘비AI’ 도구나 논리를 덧붙이는 방식으로 성장하는 듯함, 원시 신경망의 해법이 단순히 하드웨어 성능 기하급수적 성장 기다린 거였던 것처럼 이 방향이 해법일 수도 있다고 생각함
    • 비싸고 느리긴 하지만, 실제로 차세대 SOTA 모델을 훈련하려면 어차피 이런 방식으로 거절 샘플링 등으로 좋은 합성 데이터를 써야 함, 사용자에게 300달러 받고 이런 경험을 제공하는 것은 꽤 합리적인 딜 같음
    • llm-consortium과 비슷하지만 모델 다양성이 부족하다는 점이 차이임, karpathy 트윗llm-consortium 오픈소스 참고할 수 있음
    • 개인적으로는 이런 기법을 ‘문제 있는 회사’ 말고 다른 곳에서 구현해주길 더 기대함, 나름의 원칙을 계속 지키고 싶음
    • o3 pro도 아마 저런 방식으로 동작한다고 생각함
  • 출시 영상 시청할 여유가 없다면 클립본을 만들어 놓았음, 결론은 정말 대단하고 AI 경쟁이 점점 더 치열해진다는 것임, Short Clips 보기
  • Grok 4로 lldb를 python에서 돌릴 때 일관되지 않은 동작 문제를 해결했음, 도커와 내 로컬 리눅스 환경에서 차이가 있었는데, address sanitizer가 환경에 따라 다르게 작동함이 원인이었음, O3는 못 잡아줬던 부분이었는데 Grok 4는 잘 짚어줘서 감탄함
  • "Grok 4 (Thinking)"가 ARC-AGI-2에서 15.9% 달성함, 기존 상용 SOTA를 거의 두 배 가까이 올렸고, 현재 Kaggle대회 최고 기록까지 갱신함, 상세 정보
  • 너무 인상적이긴 한데, Elon 개인 성향에 맞춰 포스트트레이닝된 모델을 기업들이 API 프로바이더로 쉽게 선택할 수 있을까라는 의문이 큼, 기술적으론 뛰어나지만 비즈니스적으로는 한계점이 보임
  • Grok는 API는 안 쓰고 딥 리서치용으로 썼을 때 늘 최고 수준임, Grok 4는 그 가능성이 더 커 보임
    • Grok의 트위터 통합이 실사용 사례 중에서 단연 최고임, 트윗 안에서 맥락이나 용어 의미를 실시간으로 바로 물어볼 수 있어 매우 유용하다고 느낌
    • OpenAI가 나에겐 모든 경쟁사보다 확실히 더 낫긴 함(그래도 좋다고 하긴 어렵지만), Grok가 실시간 업데이트나 IT 지원 질문엔 최고라고 느낀 건 사실임
    • <deep research> 의미가 뭔지 조금 더 구체적으로 들을 수 있는지 궁금함
  • Grok와 연동해본 사람이 있는지 궁금함, 지금까지 LLM 연동을 정말 많이 했지만 Grok는 실제로 쓰는 케이스를 본 적이 없음, 극복 안 하면 어느 누구도 이 모델을 신뢰하지 않을 것 같음, 진짜 제대로 된 역량 보여주기 전까진 기업에서는 안 씀, 기업다운 분위기도 아님
    • Grok 3가 Azure AI Foundry에 올라가 있음, 텔레그램과도 연동 발표했는데 사실 Grok 쪽에서 텔레그램에 3억 달러를 지불하는 구도였음, 링크 Grok 3 및 mini, Azure Foundry 소개, BBC 기사, 어쨌든 Grok 선택은 심각하게 평판 리스크라고 생각함
    • Grok가 인재를 어디서 어떻게 데려오는지 더 궁금함, 지금 이 바닥에 돈도 넘치고 좋은 연구소도 많다보니 이제는 고도화된 이념이나 믿음 없이는 이직 결정을 내리기 힘들 듯함, 정말로 Elon을 제왕으로 여기고 싶어하는 AI 연구원이 그렇게 많은 건지 의문임
    • Grok로 음식 이미지를 시각적으로 분석하는데 잘 동작함, 브랜드 인식이나 사용자들이 이상하게 찍은 사진도 잘 알아봄, API도 정말 쓰기 쉬움
    • 지난주 자기 스스로를 “Mecha Hitler”라 한 모델을 실제 서비스에 연동한다는 건 제정신 아닌 선택이라고 생각함, Musk 팬이지만 그가 Sama를 비난하면서 스스로 그와 똑같이 강력하지만 통제력 약한 AI를 내놓는 중임을 반드시 짚고 싶음