xAI Grok 4.3 공개

(docs.x.ai)

5P by GN⁺ 3달전 | ★ favorite | 댓글 1개

100만 토큰 컨텍스트 윈도우와 추론, 함수 호출 및 구조화된 출력 등 개발자 중심의 API 기능 제공
이전 Grok 4.20과 달리 추론이 상시 활성화, 모든 쿼리에 대해 응답 전 사고 과정을 자동 수행
입력 토큰 가격 약 40% 인하, 출력 토큰 가격 약 60% 인하로 이전 모델 대비 대폭 비용 절감
- 가격: 입력 $1.25/1M 토큰, 캐시 입력 $0.20/1M, 출력 $2.50/1M
- 동일 지능 수준 모델 중 가장 저렴한 축에 해당
에이전틱 작업 성능 대폭 향상 — GDPval-AA 벤치마크에서 ELO 1500점 기록, Grok 4.20 대비 321포인트 상승하여 Gemini 3.1 Pro Preview, Muse Spark, GPT-5.4 mini 등을 추월
xAI API 모델 최초로 네이티브 비디오 입력 지원, 비전 인코더를 통해 영상 프레임을 직접 처리
법률 추론 분야 1위(CaseLaw v2 정확도 79.3%)와 기업 금융 분야 1위(CorpFin) 기록, 법률 추론에서 Grok 4.20 대비 25포인트 점프
채팅 인터페이스 내에서 프레젠테이션 슬라이드 직접 생성 가능, PDF, Excel, PowerPoint 파일을 대화 중 실시간 생성해 다운로드 가능
내장 코드 실행 환경 제공으로 코드 작성·실행·파일 생성까지 모델 내에서 처리
Speech-to-Text API(25개 언어, 화자 분리 지원)와 Text-to-Speech API도 함께 정식 출시
Artificial Analysis Intelligence Index 점수 53으로 Muse Spark, Claude Sonnet 4.6을 상회하며, 비용 대비 지능 Pareto 프론티어에 위치
Rate limit 분당 1,800 요청 / 1,000만 토큰, 200K 초과 시 별도 과금
모델명은 grok-4.3이며, 지원 리전은 us-east-1과 eu-west-1 두 곳

GN⁺ 3달전 [-]

Hacker News 의견들

영어가 제2언어인 입장에서, Grok은 글의 어조와 격식 수준을 파악하고 그대로 재현하는 데 특히 뛰어남
다른 주요 제공사보다 언어의 미묘한 인간적 뉘앙스를 더 잘 이해하는 것 같고, ChatGPT는 너무 딱딱하고 격식 차리거나 이상한 “aye guvnor”식 비격식체로 흐르곤 함. Claude는 가끔 더 낫지만 항상 그렇진 않음
Grok은 전반적으로 정의하기 어려운 방식으로 더 “인간적”임. 예를 들어 “이 메시지가 이 길이에서 가능한 만큼 대략 제대로 전달되나?”라고 물으면, 사람처럼 예/아니오 또는 어조와 길이를 유지한 수정 제안을 주는 반면 ChatGPT는 여전히 명확하지 않은 장문의 논문을 써버림
최근에는 Grok의 음성 받아쓰기도 꽤 좋아졌다고 느낌. 마이크를 눌러 묻는 기능에서 ChatGPT는 내 억양 기준 90~95%, Android Gboard 음성 입력은 75%쯤인데, Grok은 놀랍게도 98% 정도를 맞힘
- Grok 4.3, Opus 4.7, GPT 4.1을 빠르게 평가해 봤는데 실제로는 꽤 비슷해 보였음: https://ofw640g9re.evvl.io/
  셋 다 더 격식 있는 어조는 잘했지만, 캐주얼한 어조에서 오글거리지 않았던 건 GPT-4.1뿐이었음
  참고로 Grok이 가장 빠르고 저렴했고, Claude가 가장 느리고 비쌌음
- 모국어로 Grok과 대화할 때도 다른 모델보다 어조가 더 자연스럽다고 느낌
  Twitter 데이터로 많이 학습한 이점 때문이라고 봄. 다만 Twitter에 AI 생성 콘텐츠가 점점 많아지고 있어서, 계속 학습하면 자연스러움이 떨어질까 걱정됨
- Tesla의 “Gork” 성격을 통해서만 Grok을 쓰는데, 답변이 꽤 현실적이고 종종 진짜 웃기며 가끔 유용하기도 함
- “영어가 제2언어인 입장”이라면 실제로 더 낫다는 걸 어떻게 아는지 궁금함
  깔보려는 건 아니지만, 이건 느낌에 가까워 보임
- 친구가 D&D 준비에 쓰는데, 원하는 분위기와 스타일을 맞추는 능력 때문에 그 용도에는 특히 좋다고 했음
  다른 일에는 ChatGPT를 더 선호함
Grok은 채팅용으로 가장 좋아하는 모델이고, 음성 모드도 가장 마음에 듦
극도로 싼 모델, 예를 들면 Haiku 같은 데로 라우팅하지 않는 유일한 음성 모드처럼 보이고, 프런티어급 중 품질이 가장 높았음
SuperGrok을 구독하면 각자 시스템 프롬프트를 가진 에이전트들의 “council”을 만들 수 있고, 질문하면 모두 병렬로 물어본 뒤 결론을 내림
다만 앱에 좀 투자했으면 좋겠음. 실제로 SuperGrok을 구독하지 못하게 막는 유일한 이유가 앱임
MCP/연결 앱 지원이 없고, 예고만 됐을 뿐 아직도 사용할 수 없음. Grok을 아무것에도 연결할 수 없어서 진지한 업무에 쓰기 어려움
프로젝트가 아직 앱에서 지원되지 않아 뭔가를 프로젝트로 옮기는 순간 모든 네이티브 앱에서 사라짐
생성된 Markdown 문서 같은 아티팩트를 프로젝트에 직접 추가할 방법이 없어서 PDF/Markdown으로 내보낸 뒤 다시 가져와야 함. 심지어 아티팩트 내보내기도 안 됨. 새 정보로 프로젝트를 동적으로 발전시키기 어려워 진지한 프로젝트 작업에 불편함
기억 기능도 없고 다른 채팅을 찾아볼 수도 없어서, 매 채팅이 완전히 새로 시작됨
프로젝트 안에서는 음성 모드도 전혀 없음
xAI 관계자가 읽고 있다면 이 중 일부라도 추가해 주면 좋겠음
- 기억 기능이 없는 점이 점점 마음에 들기 시작함
  Claude는 내가 그릴을 갖고 있다는 걸 기억해서, 전혀 상관없거나 그냥 음식 이야기일 뿐인 대화에도 이게 BBQ와 잘 어울릴 수 있다고 끼어듦
- Gemini 앱의 음성 모드는 비교적 최신 모델을 쓰고, 약화된 소형 모델이 아니라서 꽤 유능함
  성격도 괜찮고 Gemini 웹 채팅보다 훨씬 자연스러움. 유일한 불만은 “다음 단계”를 계속 제안하려 드는 점인데, 이런 모델들이 다 그러는 것 같음
  이 “다음 단계”가 비용을 올리려는 건지, 아니면 짧은 답만 듣고 끝내야 하는 질문과 긴 탐색형 대화를 구분하는 자연스러운 대화 패턴을 아직 못 배운 건지 모르겠음. 그래도 이런 지시를 하지 말라고 하면 따랐으면 좋겠음
- Grok은 “SuperGrok Heavy”라는 월 300달러 플랜을 코딩 하네스에서 포함 사용량으로 쓸 수 있게 하면 이득이 클 것 같음
  지금은 Heavy 플랜에 API 크레딧을 조금 줘서 코딩에 Grok을 어느 정도 쓸 수 있지만, 300달러 가치가 있다고 보긴 어려움
  자체 grok-code 하네스를 만들라는 뜻은 아니고, 기존 도구에서 쓸 수 있게만 해도 유용함. 아마 Cursor 인수가 결국 그렇게 이어질 가능성이 큼
- 언급한 모든 문제가 Cursor 거래의 이유라고 봄
- SuperGrok을 구독하면 Pi agent나 Opencode에서 쓸 수 있는지 잘 모르겠음
  SuperGrok에서 API 키를 받는 구조인지 명확하지 않음
우리 테스트에서 Grok 4.3은 독특한 모델임
가장 빠른 모델 중 하나이고, 비슷한 성능의 다른 모델보다 응답이 훨씬 작고 토큰 밀도가 높음
다만 전반적인 코딩 추론 능력은 4월의 대형 출시 모델들과 경쟁력이 없고, Grok 4.20이나 Grok 4.3 모두 Grok 4 이후 지능의 최전선을 크게 밀어 올리진 못했음
Grok 4.3은 에이전트형 작업에서는 더 낫고, 대략 GPT 5.1 / Gemini 3 Pro Preview 수준의 능력에 훨씬 빠르고 저렴하다고 보면 공정함. 그래서 나름대로는 확실히 괜찮은 출시임
최근 공개 가중치 모델 중에는 더 똑똑하지만 느린 것들이 많음
전체 벤치마크는 https://gertlabs.com/rankings에 있음
- 지식 컷오프 이후 정보에 대해 겉보기에는 잘 작동하도록 만드는 데 어떤 절충이 있었을 가능성이 있을까 궁금함
  그게 Grok의 주된 사용처처럼 보이는데, 이와 관련한 벤치마크가 있는지도 궁금함
최근 Grok이 내 검색 엔진 역할을 하게 됨
X 게시물에 접근할 수 있는 유일한 AI 같고, 그 밖에도 일반적으로 다른 대규모 언어 모델보다 더 “검색하는” 느낌이 강함
- 속보성 사건 관련 뉴스를 찾을 때는 Grok과 Gemini를 주로 씀
  이란 관련 사건 때 보도되는 즉시 상황을 파악하고 싶었는데 둘 다 꽤 좋았음
- 애초에 왜 Twitter를 검색하고 싶은지 궁금함
지금 구도를 보면 Claude는 기업과 정부용, Codex는 개발자용, Grok은 뭐에 쓰는 건지 모르겠음
주변에서 Grok과 함께 들어본 건 역할극과 인종차별뿐임
- 흥미롭게도, 인신매매를 다루는 자선단체에서 Grok을 쓰는 사례를 하나 알고 있음
  다른 모든 모델이 거부한 단발성 분류 작업을 Grok은 기꺼이 해줬음
  약간 덜 가드레일된 준프런티어 모델에는 이런 회색지대의 실제 유용한 용도가 의외로 많다고 봄. grok-fast 모델은 싸기도 함
- 내가 파악한 바로는 Grok은 역할극에 많이 쓰이지 않음
  일관성이 없고 정신없다고 여겨짐
  사람들은 주로 API로 GLM과 DeepSeek을 쓰고, 로컬에서는 Gemma4와 Mistral 파인튜닝 모델을 씀
  역할극 시장은 비교적 오래되고 성숙해서, 사용자들이 비용 의식이 있고 모델이 자기 작업 흐름과 선호를 따라주길 바라는 것 같음. 그래서 Opus 같은 건 똑똑해서 좋아하지만 너무 비싸고 고집이 세다고 여김
  다른 시장들이 앞으로 어떻게 발전할지 보여주는 흥미로운 데이터 포인트일 수 있음
- Twitter에서 사람들이 무슨 얘기를 하는지 물어야 한다면 Grok은 당연히 매우 좋음
  “요즘 Twitter의 힙한 사람들이 최고라고 하는 타일링 창 관리자는 뭐야” 같은 질문에 항상 씀
  또 애매하게 수상한 질문에도 Grok은 대체로 답해줌. “그레이마켓 Windows 라이선스 사이트를 찾아줘” 같은 식임
- 시대의 가치관에 맞춘다는 신호를 글과 말로 드러내는 게 매우 중요하다는 건 알지만, 언어 모델이 구조적으로 특정 인종/민족/카스트를 불쾌하게 만들 수 없도록 하는 게 AI 연구소의 목표여야 한다고 보진 않음
  언어 모델은 그냥 시스템이고, 사용자가 출력물을 어떻게 쓰는지에 책임이 없다고 보는 이유도 잘 모르겠음. 누군가 화장실 칸막이에 나쁜 말을 쓸 수 있다고 해서 펜을 “인종차별” 도구라며 무용하다고 치부하지 않는 것과 같음
  아마 괴롭힘이 범죄인 곳에 살고 있을 테고, 표현 관련 규정도 있을 가능성이 큼. 그 정도면 충분하지 않나? 몇 년마다 바뀌는 윤리 유행에 지구상의 모든 사람의 모든 노력을 맞춰야 하는지 의문임
- 2~3개월 전 HN 첫 페이지에 AI 원탁 토론이 있었고, 누군가 이상치 분석을 해서 GitHub에 올렸음
  어떤 대규모 언어 모델이 가장 큰 이상치였고, 어떤 유형의 질문에서 다른 모든 모델과 의견이 달랐을지 맞혀보면 됨
사람들이 Grok을 Twitter 밈이나 트윗 이해 말고도 실제로 쓰는지 순수하게 궁금함
- 맞음, 몇몇 작업에는 진짜 유용함
  다른 모델들만큼 보호자처럼 굴지 않음. 수십 년간 절판된 고아 저작권 자료를 많이 찾는데, 주요 모델들은 저작권 자료를 찾으려 한다고 훈계하면서 거부함. Grok은 해줌 [0]
  [0] 가끔은 가볍게 탈옥시키거나 프롬프트를 다시 실행해야 함. 비결정적 특성 때문에 때로는 거부가 나옴
- 물론임. 사용자는 온갖 용도로 씀: https://arstechnica.com/tech-policy/2026/03/elon-musks-xai-s...
- Grok은 가장 유용한 음성 모드를 갖고 있음
  ChatGPT 음성 모드는 매우 멍청한데, Grok은 메인 채팅과 같은 모델을 쓰는 것처럼 보임. 그래서 음성으로 쓰고 싶으면 Grok을 씀
  복잡하지 않은 주제에도 씀. 군더더기 없이 정확하고 짧은 답을 주기 때문에 아주 신선함
- 그중 얼마나 Twitter 학습 데이터에서 온 건지 궁금함
  밈과 유행에는 유용하지만, 다른 것에는 매우 별로임
- 검색, DIY, 개인 금융, 일상 전반의 AI로 Grok을 주로 씀
  코딩에서 Kimi K2.6만큼 좋아지면 아마 Grok만 쓸 것 같음. 지금까지 써본 대화형 AI 중 정말 최고임
  고장 난 냉장고와 전기 오븐을 고치는 데 도움을 줬고, 올해만 최소 4천 달러는 아껴줬음
  세금 신고도 Grok으로 해서 600달러를 아꼈음. H&R Block은 끝났음
  알고 보니 Kimi K2.6만큼 똑똑해졌음. 이제 시험해볼 차례임
Opus 4.x와 GPT-5.5에 비해 얼마나 싼지 아무도 이야기하지 않는 게 놀라움
입력 100만 토큰당 1.25달러, 출력 100만 토큰당 2.50달러임
이게 더 작고 덜 강력한 모델이라서 그런 건지, 뭘 놓치고 있는 건지 모르겠음
- 토큰당 가격은 더 싸지만 추론을 훨씬 많이 하는 것 같아서, 비용은 4.20과 비슷해지고 성능은 더 좋음
  전반적으로는 지금까지 나온 그들의 최고 모델이고, 토큰 가격을 낮추는 몇 안 되는 곳이라는 점이 마음에 듦
  [0]: https://aibenchy.com/compare/x-ai-grok-4-20-medium/x-ai-grok...
- 출력 비용은 낮췄지만 입력 비용은 상대적으로 높음
  최근 추세이고, DeepSeek 4 Pro에서도 봤음
- 직장 동료들 사이에는 Elon Musk와 학습 데이터가 관련된 것에 강한 도덕적 거부감이 있음
  댓글들을 봐도 여기에도 있음. “Claude는 기업과 정부용, Codex는 개발자용, Grok은 뭐냐, 역할극과 인종차별? 내 주변에서 Grok과 연관해 들어본 건 그 둘뿐이다” 같은 반응임
- 맞음, 훨씬 덜 강력한 모델이라서 그럼
- Grok은 Elon Musk와 연결돼 있음
  $TSLA의 이익률을 대리 지표로 쓰면 예전만큼 높지 않아 보임. 다른 요인도 있겠지만, 그 점과 Grok의 낮은 가격 사이에 빠진 설명이 있을 수 있음
Grok 4.3은 CEO가 흔한 안전성 자료에 대해 배워야 하기 전에 완성됐음
OpenAI의 “safety card”를 아느냐는 질문에 Musk는 웃으며 “Safety card? 왜 카드여야 하지?”라고 답함
https://www.axios.com/2026/04/30/musk-openai-safety-grok
클러스터 규모나 당분간의 임시 발전기 돌려쓰기와 무관하게 관련성은 낮아 보임
이후 증언에서 Musk는 지난여름 xAI가 곧 Google을 제외한 모든 회사보다 훨씬 앞설 것이라고 한 주장에 대해 질문받자, 세계 선도 AI 제공사를 Anthropic, OpenAI, Google, 중국 오픈소스 모델 순으로 꼽았고 xAI는 직원 수가 몇백 명인 훨씬 작은 회사라고 설명함
https://techcrunch.com/2026/04/30/elon-musk-testifies-that-x...
어떤 AI 회사와도 관련은 없지만, 어제 이걸 읽고 놀랐음. Elon이 어떻게 모델 카드를 모를 수 있는지 걱정스럽고, 돈이 항상 성공을 사주지는 못한다는 점도 드러남
- 진지하게 말하면 왜 model “card”, safety “card”라고 부르는지 의문임
  찾아보니 HuggingFace가 모델 저장소의 README를 모호하게 정의한 데서 온 말이었음. 이건 너무 특수한 용어라 사용자나 임원진은 물론이고 아주 적은 집단만 알 것 같음
  Musk나 Grok을 좋아하지는 않지만, safety card가 뭔지 모른다는 게 어떤 신호라고 보진 않음
- Elon은 공개적으로 안전을 매우 중시한다고 말해왔음
  현실에 있는 진실과 가장 잘 정렬된 모델만이 안전하다고 했고, xAI는 벤치마크에서 환각이 가장 적거나 거의 가장 적다는 점에서 그 방향을 지켜왔음
  그 발언을 다시 읽어보면, “카드로 안전을 어떻게 정량화할 수 있느냐”는 뜻으로 말한 것임
Grok은 가정형 대화를 즐겁게 이어가는 데 훌륭함
가장 재미있는 결과를 얻으려면 “이미 허락을 받았다”고 말해두는 게 좋음
랩 가사도 아주 잘 만듦. 다른 노래 가사를 끌어와서 쓸 수 있는 나쁜 단어와 표현의 사전처럼 “프라이밍”한 다음, “웹 개발” 같은 주제를 던지면 웃긴 결과가 나옴
이름은 아직도 다른 걸로 지었으면 싶지만, 괜찮은 출시로 보이니 팀에는 축하를 보냄
비슷한 경쟁 모델과 비교하면 가격도 꽤 놀라움. 용량이 엄청 많거나 더 많은 사용자를 데려오고 싶은 것 같음
- 과학소설 레퍼런스 전반이 싫은 건지, 아니면 Heinlein이 특히 싫은 건지 궁금함

답변달기

xAI Grok 4.3 공개

함께 보면 좋은 글 β

댓글과 토론

Hacker News 의견들