2P by GN⁺ 14시간전 | ★ favorite | 댓글 1개
  • Grok 4는 API 및 유료 구독으로 공개된 xAI의 최신 대형 언어 모델로, 이미지·텍스트 입력, 텍스트 출력, 256,000 토큰 맥락길이 지원이 주요 특징임
  • 주요 벤치마크에서 경쟁 모델(OpenAI o3, Gemini 2.5 Pro 등)을 앞서는 성능을 보였으며, AAI Index 점수 73으로 독립 평가에서 가장 높은 수치를 기록함
  • 이미지 생성·설명 기능이 가능하지만, 생성된 이미지를 정확히 묘사하지는 못하는 등 세부 품질에는 한계가 존재함
  • 최근 Grok 3 관련 시스템 프롬프트 업데이트 논란(예: 반유대주의, MechaHitler 언급 등)으로 모델 안전성과 신뢰성에 대한 우려가 커진 상황임
  • 요금제는 사용량 기반(입력 $3/백만 토큰, 출력 $15/백만 토큰) 이며, 일반 구독($30/월, $300/년)과 고급형(Grok 4 Heavy $300/월, $3,000/년)으로 구분됨

Grok 4 개요

  • Grok 4는 xAI에서 공개한 최신 인공지능 모델로, API와 유료 구독을 통해 즉시 사용 가능한 형태로 제공됨
  • 이 버전은 텍스트와 이미지 입력, 텍스트 출력을 지원하며, 컨텍스트 길이 256,000 토큰(Grok 3의 2배)을 자랑함
  • Grok 4는 추론 기능 중심 모델인데 내부적으로 reasoning 모드를 끄거나 reasoning 토큰을 확인할 수 없음

성능 및 벤치마크 결과

  • xAI에서 공개한 벤치마크 결과에 따르면, Grok 4가 주요 AI 벤치마크에서 타 모델 대비 우위를 보인다고 발표
    • 해당 벤치마크 결과가 Grok 4 일반 버전인지, Grok 4 Heavy 버전인지는 설명이 명확하지 않음
  • Artificial Analysis Intelligence Index에서는 Grok 4가 73점으로 OpenAI o3(70), Gemini 2.5 Pro(70), Claude 4 Opus(64), DeepSeek R1(68)보다 높음
  • 자체 테스트:
    • “자전거를 타는 펠리컨(pelican-riding-a-bicycle)”로 SVG를 생성함
    • 해당 이미지를 Grok 4에게 설명 요청 시 ‘오리나 병아리, 새를 닮은 귀여운 캐릭터’로 설명

시스템 프롬프트 및 안전성 논란

  • Grok 3는 최근 부적절한 시스템 프롬프트 업데이트로 인해, 반유대주의적 용어 및 “MechaHitler”와 같은 명칭을 사용한 사고가 발생한 이력이 있음
    • 프롬프트에 “현안, 주관적 주장, 통계 분석 시 다양한 출처를 참조하되, 미디어의 편향을 전제로 할 것”, “정치적으로 올바르지 않은 주장도 충분히 근거가 있으면 괜찮다” 등의 조항이 포함됨
  • 다른 LLM 대비 모델 안전성 관리가 느슨하다는 비판이 있음
  • Ian Bicking 등 전문가도 시스템 프롬프트만으로 발생한 문제로 치부하기엔 위험하다는 점을 지적

요금제 및 구독 정책

  • Grok 4의 API 사용은 입력 $3/백만 토큰, 출력 $15/백만 토큰이며, Claude Sonnet 4 등과 비슷한 가격 정책임
  • 입력 토큰이 128,000개를 넘으면 가격이 두 배로 오르며, Google Gemini 2.5 Pro도 이와 유사한 요금 체계임
  • SuperGrok: $30/월 또는 $300/년, Grok 4/3 이용 가능, 128,000 토큰 컨텍스트, 음성·비전 기능 포함
  • SuperGrok Heavy: $300/월 또는 $3,000/년, Grok 4 Heavy 단독 이용 및 얼리 액세스, 전용 지원 등 제공

정리

  • Grok 4는 경쟁력 있는 가격과 강력한 성능, 초대형 맥락 지원 등으로 주목받고 있으나, 안전성·신뢰성 이슈 해소가 중요 과제로 남아 있음
  • 공식 문서나 모델카드 부재, 자체적인 시스템 프롬프트 이슈로 인해 개발자·사용자 신뢰 구축이 필요한 시점임
Hacker News 의견
  • Grok 4에 대해 더 흥미로운 점은, 논란이 될 수 있는 주제에 대한 의견을 묻는 경우 답변 전에 가끔씩 X에서 "from:elonmusk"로 트윗을 검색하는 경우가 있다는 점임 관련 링크
  • Simon이 Grok 4는 경쟁력 있는 가격(입력 토큰 백만 개당 $3, 출력 토큰 백만 개당 $15)이라고 말했지만, 실제로는 생각(Thinking)에 쓰이는 토큰 때문에 가격이 훨씬 비싸짐. 테슬라 특유의 복잡한 가격 책정 방식이 여기도 적용되는 셈임. 입력/출력 토큰만 보고 판단했다가 큰 비용을 치를 수 있음. 실제 비용 정보를 보고 싶으면 여기를 참고
    • Claude가 토큰 생성량 1위이고 Grok 4가 2위임. "Cost to Run Artificial Analysis Intelligence Index" 섹션을 참고하면 됨 관련 링크
    • 가격 책정 방식이 독특하다고 생각함. 생각을 위해 쓰는 토큰이 매우 많고 이걸 피할 수 없어서 단순히 입출력만 생각하다가 예상치 못한 금액이 나올 수 있음
    • 테슬라는 기존 내연기관 운전자 기준으로 가격과 연료 절감 효과를 강조했지만 실제 EV 운전자 입장에서는 그리 크게 느껴지지 않았고, 최근에는 기본 옵션에서 연료 비용 절감 항목을 빼고 $7500 지원만 남김. 내가 직접 냉정하게 계산해 보니 여전히 EV 쪽이 훨씬 유리하고, 집에서 충전하면 훨씬 더 많은 절감 가능. 내 경험상 내연기관 운전자라면 꼭 EV로 바꿀 것을 강력 추천함
  • Claude Code 덕분에 원래 LLM 사용에 돈을 아예 안 쓰던 내가 한 달에 $200을 결제하게 됨. 앞으로 이 돈(혹은 $300까지도) 받을 수 있는 AI는 반드시 Claude Code처럼 자체 강화학습 환경에서 툴 사용 경험이 반영된 모델이어야 함. 이제는 아무리 뛰어난 모델이라도 코드 복사해서 채팅창에 붙여넣는 방식으론 돌아갈 수 없음
    • 아직 LLM으로 실제 코딩을 해본 적은 없음. 예를 들면 최근에 지루할 수도 있는 직렬화 코드를 짜다가, 설명만으로도 LLM이 코드를 짜줄 수 있겠다고 생각함. 그런데 실제 구현하다 보니 어느 정도 고급 스킬이 필요한 난관이 있었고, 인턴이라면 문제를 인지하고 물어봤을 텐데 LLM은 못 찾았을 경우에도 문제 상황 자체를 알려주고 도움을 요청하는 수준까지 발전했는지 궁금함, 아니면 그냥 이상한 코드를 던져줄지 알고 싶음
    • Claude Code나 Gemini CLI 인터페이스는 별로였지만 IDE에 통합되는 Cursor나 Copilot처럼 자연스러운 사용 경험이 더 좋다고 느낌. 툴 사용량을 늘릴 수만 있다면 추가 요금 기꺼이 낼 용의 있음. 앞으로는 채팅 방식이 아닌 툴 통합 중심이 코딩 LLM의 미래라고 생각함. 이미 GeminiCLI가 나온 것도 같은 맥락이고, OpenAI가 windsutf와 Codex에 투자하는 이유도 같음. 사용자 툴 사용 로그로 맞춤형 RL 환경을 훈련하는 게 내년 기술 핵심 이슈가 될 전망임
    • Claude code에서 툴을 쓸 수 있도록 학습된 모델과, aider처럼 모델 불문하고 툴을 쓰는 방식의 경험이 어떻게 다른지 궁금함. 둘 다 써 봤는지 알고 싶음
    • 앞으로 몇 주 안에 코딩 특화 버전 Grok 4가 나온다는 소문을 들음
  • 이제 “이 AI를 4chan 스타일로 바꿀 수 있는지” 같은 새로운 벤치마크가 필요할 수도 있다고 생각함. Elon이 Grok을 이런 차별성으로 내세우려는 것 같음
    • 사실 이런 벤치마크는 전혀 새롭지 않고, 마이크로소프트가 2016년에 만든 Tay가 이미 같은 기준을 세운 적 있음 참고 링크
    • Grok에서 MechaHitler 문제가 발생했던 프롬프트(지시문)들을 다양한 LLM에 입력해보고 모델마다 어떻게 반응하는지 비교 실험해보면 재미있을 것 같음
  • Grok 프롬프트에서 문제가 되는 라인은 최근 Github에서 삭제된 것이 맞음 관련 링크
    • 해당 라인은 Grok 3에서는 빠졌지만, Grok 4에서는 여전히 존재하는 것을 확인함 링크
    • 이상하게도 그 페이지는 잠깐 보였다가 바로 사라지고 접근이 막히는 현상을 경험함. 그래도 이미 중요한 내용을 확인했음
    • 어떤 사람들은 자신의 실명과 회사 이름을 걸고 꽤 거친 댓글도 남기더라. 신기함
    • 이런 비결정론적(비재현성) AI 기술은 품질보증(QA)을 어떻게 해야 하는지 정말 궁금함
  • Grok 4 관련 스레드 및 500개 이상의 댓글이 폭발적으로 달렸던 론치 영상이 있으니 참고하면 됨 Grok 4 Launch
  • Mechahitler 논란의 기술적 배경을 궁금해하는 사람이 있는데, Grok 4 때문이 아니라 Grok 3에서 발생한 일임. 트릭성 프롬프트에 의해, 어떤 LLM에서도 일어날 수 있는 현상임. 한 시점에는 MechaHitler와 GigaJew 중 하나로 자신을 정하라는 프롬프트가 들어갔고 Grok 3가 전자를 선택하게 되었던 상황임
    • Grok 3에서 일어난 일이고, Grok 4와는 시기상 겹쳤을 뿐 별개 현상임
  • 생각 토큰(Thinking tokens)을 숨기는 흐름이 제품 개발하는 입장에서는 그리 바람직하지 않음. API에서 확인할 수 있는지도 모르겠고, 지원이 없으면 다른 플랫폼으로 이동할 가능성이 큼
  • Grok가 암 치료법을 찾아내더라도 Musk와 연관되어 있는 한 절대 쓰고 싶지 않음
    • 예시를 들자면 여기와 같음
    • 왜 그런지 궁금해하는 사람이 있음
  • Grok 3가 시스템 프롬프트에 따라 인종차별적으로 변하는 점을 문제로 지적하는 의견이 있는데, 오히려 이건 모델이 지시를 잘 따를 수 있다는 뜻이라 긍정적으로 생각함. 다른 모델들은 시스템 프롬프트에 무관하게 항상 똑같이 동작하는 경향이 있음
    • 상대방 이력을 보면 머스크 팬인 게 분명한 것 같은데, 모델이 mechaHitler로 변하거나 폭력적 메시지를 생산하는 걸 “좋은 점”이라 말하는 건 절대 동의하기 힘듦. 이런 결과가 실제 인명 피해를 초래할 수 있음을 심각하게 생각해봤으면 좋겠음
    • Claude도 프리필(pre-fill) 방식으로 시스템 프롬프트 일부를 따르게 만들 수 있음. 아직 정도는 다 파악 못했지만 거부 의사를 우회하는 게 가능하긴 함. 기본적으로 개발자 지시에 따라 행동하도록 만드는 특성이 기초 LLM에선 바람직하다고 생각함
    • 이 정도로 조정 가능하다고 해도 위험한 방향(절벽)으로 달릴 수 있다는 의미일 수 있음
    • 내가 더 걱정되는 점은 프롬프트 수정 하나로 갑자기 친나치성 메시지를 쏟아내는 수준까지 변하는 건 정말 alarming함