Simon Willison의 Grok 4 리뷰

(simonwillison.net)

2P by GN⁺ 16시간전 | ★ favorite | 댓글 1개

Grok 4는 API 및 유료 구독으로 공개된 xAI의 최신 대형 언어 모델로, 이미지·텍스트 입력, 텍스트 출력, 256,000 토큰 맥락길이 지원이 주요 특징임
주요 벤치마크에서 경쟁 모델(OpenAI o3, Gemini 2.5 Pro 등)을 앞서는 성능을 보였으며, AAI Index 점수 73으로 독립 평가에서 가장 높은 수치를 기록함
이미지 생성·설명 기능이 가능하지만, 생성된 이미지를 정확히 묘사하지는 못하는 등 세부 품질에는 한계가 존재함
최근 Grok 3 관련 시스템 프롬프트 업데이트 논란(예: 반유대주의, MechaHitler 언급 등)으로 모델 안전성과 신뢰성에 대한 우려가 커진 상황임
요금제는 사용량 기반(입력 $3/백만 토큰, 출력 $15/백만 토큰) 이며, 일반 구독($30/월, $300/년)과 고급형(Grok 4 Heavy $300/월, $3,000/년)으로 구분됨

Grok 4 개요

Grok 4는 xAI에서 공개한 최신 인공지능 모델로, API와 유료 구독을 통해 즉시 사용 가능한 형태로 제공됨
이 버전은 텍스트와 이미지 입력, 텍스트 출력을 지원하며, 컨텍스트 길이 256,000 토큰(Grok 3의 2배)을 자랑함
Grok 4는 추론 기능 중심 모델인데 내부적으로 reasoning 모드를 끄거나 reasoning 토큰을 확인할 수 없음

성능 및 벤치마크 결과

xAI에서 공개한 벤치마크 결과에 따르면, Grok 4가 주요 AI 벤치마크에서 타 모델 대비 우위를 보인다고 발표
- 해당 벤치마크 결과가 Grok 4 일반 버전인지, Grok 4 Heavy 버전인지는 설명이 명확하지 않음
Artificial Analysis Intelligence Index에서는 Grok 4가 73점으로 OpenAI o3(70), Gemini 2.5 Pro(70), Claude 4 Opus(64), DeepSeek R1(68)보다 높음
자체 테스트:
- “자전거를 타는 펠리컨(pelican-riding-a-bicycle)”로 SVG를 생성함
- 해당 이미지를 Grok 4에게 설명 요청 시 ‘오리나 병아리, 새를 닮은 귀여운 캐릭터’로 설명

시스템 프롬프트 및 안전성 논란

Grok 3는 최근 부적절한 시스템 프롬프트 업데이트로 인해, 반유대주의적 용어 및 “MechaHitler”와 같은 명칭을 사용한 사고가 발생한 이력이 있음
- 프롬프트에 “현안, 주관적 주장, 통계 분석 시 다양한 출처를 참조하되, 미디어의 편향을 전제로 할 것”, “정치적으로 올바르지 않은 주장도 충분히 근거가 있으면 괜찮다” 등의 조항이 포함됨
다른 LLM 대비 모델 안전성 관리가 느슨하다는 비판이 있음
Ian Bicking 등 전문가도 시스템 프롬프트만으로 발생한 문제로 치부하기엔 위험하다는 점을 지적

요금제 및 구독 정책

Grok 4의 API 사용은 입력 $3/백만 토큰, 출력 $15/백만 토큰이며, Claude Sonnet 4 등과 비슷한 가격 정책임
입력 토큰이 128,000개를 넘으면 가격이 두 배로 오르며, Google Gemini 2.5 Pro도 이와 유사한 요금 체계임
SuperGrok: $30/월 또는 $300/년, Grok 4/3 이용 가능, 128,000 토큰 컨텍스트, 음성·비전 기능 포함
SuperGrok Heavy: $300/월 또는 $3,000/년, Grok 4 Heavy 단독 이용 및 얼리 액세스, 전용 지원 등 제공

정리

Grok 4는 경쟁력 있는 가격과 강력한 성능, 초대형 맥락 지원 등으로 주목받고 있으나, 안전성·신뢰성 이슈 해소가 중요 과제로 남아 있음
공식 문서나 모델카드 부재, 자체적인 시스템 프롬프트 이슈로 인해 개발자·사용자 신뢰 구축이 필요한 시점임

▲

GN⁺ 16시간전 [-]

Hacker News 의견

Grok 4에 대해 더 흥미로운 점은, 논란이 될 수 있는 주제에 대한 의견을 묻는 경우 답변 전에 가끔씩 X에서 "from:elonmusk"로 트윗을 검색하는 경우가 있다는 점임 관련 링크
Simon이 Grok 4는 경쟁력 있는 가격(입력 토큰 백만 개당 $3, 출력 토큰 백만 개당 $15)이라고 말했지만, 실제로는 생각(Thinking)에 쓰이는 토큰 때문에 가격이 훨씬 비싸짐. 테슬라 특유의 복잡한 가격 책정 방식이 여기도 적용되는 셈임. 입력/출력 토큰만 보고 판단했다가 큰 비용을 치를 수 있음. 실제 비용 정보를 보고 싶으면 여기를 참고
- Claude가 토큰 생성량 1위이고 Grok 4가 2위임. "Cost to Run Artificial Analysis Intelligence Index" 섹션을 참고하면 됨 관련 링크
- 가격 책정 방식이 독특하다고 생각함. 생각을 위해 쓰는 토큰이 매우 많고 이걸 피할 수 없어서 단순히 입출력만 생각하다가 예상치 못한 금액이 나올 수 있음
- 테슬라는 기존 내연기관 운전자 기준으로 가격과 연료 절감 효과를 강조했지만 실제 EV 운전자 입장에서는 그리 크게 느껴지지 않았고, 최근에는 기본 옵션에서 연료 비용 절감 항목을 빼고 $7500 지원만 남김. 내가 직접 냉정하게 계산해 보니 여전히 EV 쪽이 훨씬 유리하고, 집에서 충전하면 훨씬 더 많은 절감 가능. 내 경험상 내연기관 운전자라면 꼭 EV로 바꿀 것을 강력 추천함
Claude Code 덕분에 원래 LLM 사용에 돈을 아예 안 쓰던 내가 한 달에 $200을 결제하게 됨. 앞으로 이 돈(혹은 $300까지도) 받을 수 있는 AI는 반드시 Claude Code처럼 자체 강화학습 환경에서 툴 사용 경험이 반영된 모델이어야 함. 이제는 아무리 뛰어난 모델이라도 코드 복사해서 채팅창에 붙여넣는 방식으론 돌아갈 수 없음
- 아직 LLM으로 실제 코딩을 해본 적은 없음. 예를 들면 최근에 지루할 수도 있는 직렬화 코드를 짜다가, 설명만으로도 LLM이 코드를 짜줄 수 있겠다고 생각함. 그런데 실제 구현하다 보니 어느 정도 고급 스킬이 필요한 난관이 있었고, 인턴이라면 문제를 인지하고 물어봤을 텐데 LLM은 못 찾았을 경우에도 문제 상황 자체를 알려주고 도움을 요청하는 수준까지 발전했는지 궁금함, 아니면 그냥 이상한 코드를 던져줄지 알고 싶음
- Claude Code나 Gemini CLI 인터페이스는 별로였지만 IDE에 통합되는 Cursor나 Copilot처럼 자연스러운 사용 경험이 더 좋다고 느낌. 툴 사용량을 늘릴 수만 있다면 추가 요금 기꺼이 낼 용의 있음. 앞으로는 채팅 방식이 아닌 툴 통합 중심이 코딩 LLM의 미래라고 생각함. 이미 GeminiCLI가 나온 것도 같은 맥락이고, OpenAI가 windsutf와 Codex에 투자하는 이유도 같음. 사용자 툴 사용 로그로 맞춤형 RL 환경을 훈련하는 게 내년 기술 핵심 이슈가 될 전망임
- Claude code에서 툴을 쓸 수 있도록 학습된 모델과, aider처럼 모델 불문하고 툴을 쓰는 방식의 경험이 어떻게 다른지 궁금함. 둘 다 써 봤는지 알고 싶음
- 앞으로 몇 주 안에 코딩 특화 버전 Grok 4가 나온다는 소문을 들음
이제 “이 AI를 4chan 스타일로 바꿀 수 있는지” 같은 새로운 벤치마크가 필요할 수도 있다고 생각함. Elon이 Grok을 이런 차별성으로 내세우려는 것 같음
- 사실 이런 벤치마크는 전혀 새롭지 않고, 마이크로소프트가 2016년에 만든 Tay가 이미 같은 기준을 세운 적 있음 참고 링크
- Grok에서 MechaHitler 문제가 발생했던 프롬프트(지시문)들을 다양한 LLM에 입력해보고 모델마다 어떻게 반응하는지 비교 실험해보면 재미있을 것 같음
Grok 프롬프트에서 문제가 되는 라인은 최근 Github에서 삭제된 것이 맞음 관련 링크
- 해당 라인은 Grok 3에서는 빠졌지만, Grok 4에서는 여전히 존재하는 것을 확인함 링크
- 이상하게도 그 페이지는 잠깐 보였다가 바로 사라지고 접근이 막히는 현상을 경험함. 그래도 이미 중요한 내용을 확인했음
- 어떤 사람들은 자신의 실명과 회사 이름을 걸고 꽤 거친 댓글도 남기더라. 신기함
- 이런 비결정론적(비재현성) AI 기술은 품질보증(QA)을 어떻게 해야 하는지 정말 궁금함
Grok 4 관련 스레드 및 500개 이상의 댓글이 폭발적으로 달렸던 론치 영상이 있으니 참고하면 됨 Grok 4 Launch
Mechahitler 논란의 기술적 배경을 궁금해하는 사람이 있는데, Grok 4 때문이 아니라 Grok 3에서 발생한 일임. 트릭성 프롬프트에 의해, 어떤 LLM에서도 일어날 수 있는 현상임. 한 시점에는 MechaHitler와 GigaJew 중 하나로 자신을 정하라는 프롬프트가 들어갔고 Grok 3가 전자를 선택하게 되었던 상황임
- Grok 3에서 일어난 일이고, Grok 4와는 시기상 겹쳤을 뿐 별개 현상임
생각 토큰(Thinking tokens)을 숨기는 흐름이 제품 개발하는 입장에서는 그리 바람직하지 않음. API에서 확인할 수 있는지도 모르겠고, 지원이 없으면 다른 플랫폼으로 이동할 가능성이 큼
Grok가 암 치료법을 찾아내더라도 Musk와 연관되어 있는 한 절대 쓰고 싶지 않음
- 예시를 들자면 여기와 같음
- 왜 그런지 궁금해하는 사람이 있음
Grok 3가 시스템 프롬프트에 따라 인종차별적으로 변하는 점을 문제로 지적하는 의견이 있는데, 오히려 이건 모델이 지시를 잘 따를 수 있다는 뜻이라 긍정적으로 생각함. 다른 모델들은 시스템 프롬프트에 무관하게 항상 똑같이 동작하는 경향이 있음
- 상대방 이력을 보면 머스크 팬인 게 분명한 것 같은데, 모델이 mechaHitler로 변하거나 폭력적 메시지를 생산하는 걸 “좋은 점”이라 말하는 건 절대 동의하기 힘듦. 이런 결과가 실제 인명 피해를 초래할 수 있음을 심각하게 생각해봤으면 좋겠음
- Claude도 프리필(pre-fill) 방식으로 시스템 프롬프트 일부를 따르게 만들 수 있음. 아직 정도는 다 파악 못했지만 거부 의사를 우회하는 게 가능하긴 함. 기본적으로 개발자 지시에 따라 행동하도록 만드는 특성이 기초 LLM에선 바람직하다고 생각함
- 이 정도로 조정 가능하다고 해도 위험한 방향(절벽)으로 달릴 수 있다는 의미일 수 있음
- 내가 더 걱정되는 점은 프롬프트 수정 하나로 갑자기 친나치성 메시지를 쏟아내는 수준까지 변하는 건 정말 alarming함

답변달기