영어가 제2언어인 입장에서, Grok은 글의 어조와 격식 수준을 파악하고 그대로 재현하는 데 특히 뛰어남
다른 주요 제공사보다 언어의 미묘한 인간적 뉘앙스를 더 잘 이해하는 것 같고, ChatGPT는 너무 딱딱하고 격식 차리거나 이상한 “aye guvnor”식 비격식체로 흐르곤 함. Claude는 가끔 더 낫지만 항상 그렇진 않음
Grok은 전반적으로 정의하기 어려운 방식으로 더 “인간적”임. 예를 들어 “이 메시지가 이 길이에서 가능한 만큼 대략 제대로 전달되나?”라고 물으면, 사람처럼 예/아니오 또는 어조와 길이를 유지한 수정 제안을 주는 반면 ChatGPT는 여전히 명확하지 않은 장문의 논문을 써버림
최근에는 Grok의 음성 받아쓰기도 꽤 좋아졌다고 느낌. 마이크를 눌러 묻는 기능에서 ChatGPT는 내 억양 기준 90~95%, Android Gboard 음성 입력은 75%쯤인데, Grok은 놀랍게도 98% 정도를 맞힘
Grok 4.3, Opus 4.7, GPT 4.1을 빠르게 평가해 봤는데 실제로는 꽤 비슷해 보였음: https://ofw640g9re.evvl.io/
셋 다 더 격식 있는 어조는 잘했지만, 캐주얼한 어조에서 오글거리지 않았던 건 GPT-4.1뿐이었음
참고로 Grok이 가장 빠르고 저렴했고, Claude가 가장 느리고 비쌌음
모국어로 Grok과 대화할 때도 다른 모델보다 어조가 더 자연스럽다고 느낌
Twitter 데이터로 많이 학습한 이점 때문이라고 봄. 다만 Twitter에 AI 생성 콘텐츠가 점점 많아지고 있어서, 계속 학습하면 자연스러움이 떨어질까 걱정됨
Tesla의 “Gork” 성격을 통해서만 Grok을 쓰는데, 답변이 꽤 현실적이고 종종 진짜 웃기며 가끔 유용하기도 함
“영어가 제2언어인 입장”이라면 실제로 더 낫다는 걸 어떻게 아는지 궁금함
깔보려는 건 아니지만, 이건 느낌에 가까워 보임
친구가 D&D 준비에 쓰는데, 원하는 분위기와 스타일을 맞추는 능력 때문에 그 용도에는 특히 좋다고 했음
다른 일에는 ChatGPT를 더 선호함
Grok은 채팅용으로 가장 좋아하는 모델이고, 음성 모드도 가장 마음에 듦
극도로 싼 모델, 예를 들면 Haiku 같은 데로 라우팅하지 않는 유일한 음성 모드처럼 보이고, 프런티어급 중 품질이 가장 높았음
SuperGrok을 구독하면 각자 시스템 프롬프트를 가진 에이전트들의 “council”을 만들 수 있고, 질문하면 모두 병렬로 물어본 뒤 결론을 내림
다만 앱에 좀 투자했으면 좋겠음. 실제로 SuperGrok을 구독하지 못하게 막는 유일한 이유가 앱임
MCP/연결 앱 지원이 없고, 예고만 됐을 뿐 아직도 사용할 수 없음. Grok을 아무것에도 연결할 수 없어서 진지한 업무에 쓰기 어려움
프로젝트가 아직 앱에서 지원되지 않아 뭔가를 프로젝트로 옮기는 순간 모든 네이티브 앱에서 사라짐
생성된 Markdown 문서 같은 아티팩트를 프로젝트에 직접 추가할 방법이 없어서 PDF/Markdown으로 내보낸 뒤 다시 가져와야 함. 심지어 아티팩트 내보내기도 안 됨. 새 정보로 프로젝트를 동적으로 발전시키기 어려워 진지한 프로젝트 작업에 불편함
기억 기능도 없고 다른 채팅을 찾아볼 수도 없어서, 매 채팅이 완전히 새로 시작됨
프로젝트 안에서는 음성 모드도 전혀 없음
xAI 관계자가 읽고 있다면 이 중 일부라도 추가해 주면 좋겠음
기억 기능이 없는 점이 점점 마음에 들기 시작함
Claude는 내가 그릴을 갖고 있다는 걸 기억해서, 전혀 상관없거나 그냥 음식 이야기일 뿐인 대화에도 이게 BBQ와 잘 어울릴 수 있다고 끼어듦
Gemini 앱의 음성 모드는 비교적 최신 모델을 쓰고, 약화된 소형 모델이 아니라서 꽤 유능함
성격도 괜찮고 Gemini 웹 채팅보다 훨씬 자연스러움. 유일한 불만은 “다음 단계”를 계속 제안하려 드는 점인데, 이런 모델들이 다 그러는 것 같음
이 “다음 단계”가 비용을 올리려는 건지, 아니면 짧은 답만 듣고 끝내야 하는 질문과 긴 탐색형 대화를 구분하는 자연스러운 대화 패턴을 아직 못 배운 건지 모르겠음. 그래도 이런 지시를 하지 말라고 하면 따랐으면 좋겠음
Grok은 “SuperGrok Heavy”라는 월 300달러 플랜을 코딩 하네스에서 포함 사용량으로 쓸 수 있게 하면 이득이 클 것 같음
지금은 Heavy 플랜에 API 크레딧을 조금 줘서 코딩에 Grok을 어느 정도 쓸 수 있지만, 300달러 가치가 있다고 보긴 어려움
자체 grok-code 하네스를 만들라는 뜻은 아니고, 기존 도구에서 쓸 수 있게만 해도 유용함. 아마 Cursor 인수가 결국 그렇게 이어질 가능성이 큼
언급한 모든 문제가 Cursor 거래의 이유라고 봄
SuperGrok을 구독하면 Pi agent나 Opencode에서 쓸 수 있는지 잘 모르겠음
SuperGrok에서 API 키를 받는 구조인지 명확하지 않음
우리 테스트에서 Grok 4.3은 독특한 모델임
가장 빠른 모델 중 하나이고, 비슷한 성능의 다른 모델보다 응답이 훨씬 작고 토큰 밀도가 높음
다만 전반적인 코딩 추론 능력은 4월의 대형 출시 모델들과 경쟁력이 없고, Grok 4.20이나 Grok 4.3 모두 Grok 4 이후 지능의 최전선을 크게 밀어 올리진 못했음
Grok 4.3은 에이전트형 작업에서는 더 낫고, 대략 GPT 5.1 / Gemini 3 Pro Preview 수준의 능력에 훨씬 빠르고 저렴하다고 보면 공정함. 그래서 나름대로는 확실히 괜찮은 출시임
최근 공개 가중치 모델 중에는 더 똑똑하지만 느린 것들이 많음
전체 벤치마크는 https://gertlabs.com/rankings에 있음
지식 컷오프 이후 정보에 대해 겉보기에는 잘 작동하도록 만드는 데 어떤 절충이 있었을 가능성이 있을까 궁금함
그게 Grok의 주된 사용처처럼 보이는데, 이와 관련한 벤치마크가 있는지도 궁금함
최근 Grok이 내 검색 엔진 역할을 하게 됨
X 게시물에 접근할 수 있는 유일한 AI 같고, 그 밖에도 일반적으로 다른 대규모 언어 모델보다 더 “검색하는” 느낌이 강함
속보성 사건 관련 뉴스를 찾을 때는 Grok과 Gemini를 주로 씀
이란 관련 사건 때 보도되는 즉시 상황을 파악하고 싶었는데 둘 다 꽤 좋았음
애초에 왜 Twitter를 검색하고 싶은지 궁금함
지금 구도를 보면 Claude는 기업과 정부용, Codex는 개발자용, Grok은 뭐에 쓰는 건지 모르겠음
주변에서 Grok과 함께 들어본 건 역할극과 인종차별뿐임
흥미롭게도, 인신매매를 다루는 자선단체에서 Grok을 쓰는 사례를 하나 알고 있음
다른 모든 모델이 거부한 단발성 분류 작업을 Grok은 기꺼이 해줬음
약간 덜 가드레일된 준프런티어 모델에는 이런 회색지대의 실제 유용한 용도가 의외로 많다고 봄. grok-fast 모델은 싸기도 함
내가 파악한 바로는 Grok은 역할극에 많이 쓰이지 않음
일관성이 없고 정신없다고 여겨짐
사람들은 주로 API로 GLM과 DeepSeek을 쓰고, 로컬에서는 Gemma4와 Mistral 파인튜닝 모델을 씀
역할극 시장은 비교적 오래되고 성숙해서, 사용자들이 비용 의식이 있고 모델이 자기 작업 흐름과 선호를 따라주길 바라는 것 같음. 그래서 Opus 같은 건 똑똑해서 좋아하지만 너무 비싸고 고집이 세다고 여김
다른 시장들이 앞으로 어떻게 발전할지 보여주는 흥미로운 데이터 포인트일 수 있음
Twitter에서 사람들이 무슨 얘기를 하는지 물어야 한다면 Grok은 당연히 매우 좋음
“요즘 Twitter의 힙한 사람들이 최고라고 하는 타일링 창 관리자는 뭐야” 같은 질문에 항상 씀
또 애매하게 수상한 질문에도 Grok은 대체로 답해줌. “그레이마켓 Windows 라이선스 사이트를 찾아줘” 같은 식임
시대의 가치관에 맞춘다는 신호를 글과 말로 드러내는 게 매우 중요하다는 건 알지만, 언어 모델이 구조적으로 특정 인종/민족/카스트를 불쾌하게 만들 수 없도록 하는 게 AI 연구소의 목표여야 한다고 보진 않음
언어 모델은 그냥 시스템이고, 사용자가 출력물을 어떻게 쓰는지에 책임이 없다고 보는 이유도 잘 모르겠음. 누군가 화장실 칸막이에 나쁜 말을 쓸 수 있다고 해서 펜을 “인종차별” 도구라며 무용하다고 치부하지 않는 것과 같음
아마 괴롭힘이 범죄인 곳에 살고 있을 테고, 표현 관련 규정도 있을 가능성이 큼. 그 정도면 충분하지 않나? 몇 년마다 바뀌는 윤리 유행에 지구상의 모든 사람의 모든 노력을 맞춰야 하는지 의문임
2~3개월 전 HN 첫 페이지에 AI 원탁 토론이 있었고, 누군가 이상치 분석을 해서 GitHub에 올렸음
어떤 대규모 언어 모델이 가장 큰 이상치였고, 어떤 유형의 질문에서 다른 모든 모델과 의견이 달랐을지 맞혀보면 됨
사람들이 Grok을 Twitter 밈이나 트윗 이해 말고도 실제로 쓰는지 순수하게 궁금함
맞음, 몇몇 작업에는 진짜 유용함
다른 모델들만큼 보호자처럼 굴지 않음. 수십 년간 절판된 고아 저작권 자료를 많이 찾는데, 주요 모델들은 저작권 자료를 찾으려 한다고 훈계하면서 거부함. Grok은 해줌 [0]
[0] 가끔은 가볍게 탈옥시키거나 프롬프트를 다시 실행해야 함. 비결정적 특성 때문에 때로는 거부가 나옴
Grok은 가장 유용한 음성 모드를 갖고 있음
ChatGPT 음성 모드는 매우 멍청한데, Grok은 메인 채팅과 같은 모델을 쓰는 것처럼 보임. 그래서 음성으로 쓰고 싶으면 Grok을 씀
복잡하지 않은 주제에도 씀. 군더더기 없이 정확하고 짧은 답을 주기 때문에 아주 신선함
그중 얼마나 Twitter 학습 데이터에서 온 건지 궁금함
밈과 유행에는 유용하지만, 다른 것에는 매우 별로임
검색, DIY, 개인 금융, 일상 전반의 AI로 Grok을 주로 씀
코딩에서 Kimi K2.6만큼 좋아지면 아마 Grok만 쓸 것 같음. 지금까지 써본 대화형 AI 중 정말 최고임
고장 난 냉장고와 전기 오븐을 고치는 데 도움을 줬고, 올해만 최소 4천 달러는 아껴줬음
세금 신고도 Grok으로 해서 600달러를 아꼈음. H&R Block은 끝났음
알고 보니 Kimi K2.6만큼 똑똑해졌음. 이제 시험해볼 차례임
Opus 4.x와 GPT-5.5에 비해 얼마나 싼지 아무도 이야기하지 않는 게 놀라움
입력 100만 토큰당 1.25달러, 출력 100만 토큰당 2.50달러임
이게 더 작고 덜 강력한 모델이라서 그런 건지, 뭘 놓치고 있는 건지 모르겠음
출력 비용은 낮췄지만 입력 비용은 상대적으로 높음
최근 추세이고, DeepSeek 4 Pro에서도 봤음
직장 동료들 사이에는 Elon Musk와 학습 데이터가 관련된 것에 강한 도덕적 거부감이 있음
댓글들을 봐도 여기에도 있음. “Claude는 기업과 정부용, Codex는 개발자용, Grok은 뭐냐, 역할극과 인종차별? 내 주변에서 Grok과 연관해 들어본 건 그 둘뿐이다” 같은 반응임
맞음, 훨씬 덜 강력한 모델이라서 그럼
Grok은 Elon Musk와 연결돼 있음
$TSLA의 이익률을 대리 지표로 쓰면 예전만큼 높지 않아 보임. 다른 요인도 있겠지만, 그 점과 Grok의 낮은 가격 사이에 빠진 설명이 있을 수 있음
Grok 4.3은 CEO가 흔한 안전성 자료에 대해 배워야 하기 전에 완성됐음
OpenAI의 “safety card”를 아느냐는 질문에 Musk는 웃으며 “Safety card? 왜 카드여야 하지?”라고 답함 https://www.axios.com/2026/04/30/musk-openai-safety-grok
클러스터 규모나 당분간의 임시 발전기 돌려쓰기와 무관하게 관련성은 낮아 보임
이후 증언에서 Musk는 지난여름 xAI가 곧 Google을 제외한 모든 회사보다 훨씬 앞설 것이라고 한 주장에 대해 질문받자, 세계 선도 AI 제공사를 Anthropic, OpenAI, Google, 중국 오픈소스 모델 순으로 꼽았고 xAI는 직원 수가 몇백 명인 훨씬 작은 회사라고 설명함 https://techcrunch.com/2026/04/30/elon-musk-testifies-that-x...
어떤 AI 회사와도 관련은 없지만, 어제 이걸 읽고 놀랐음. Elon이 어떻게 모델 카드를 모를 수 있는지 걱정스럽고, 돈이 항상 성공을 사주지는 못한다는 점도 드러남
진지하게 말하면 왜 model “card”, safety “card”라고 부르는지 의문임
찾아보니 HuggingFace가 모델 저장소의 README를 모호하게 정의한 데서 온 말이었음. 이건 너무 특수한 용어라 사용자나 임원진은 물론이고 아주 적은 집단만 알 것 같음
Musk나 Grok을 좋아하지는 않지만, safety card가 뭔지 모른다는 게 어떤 신호라고 보진 않음
Elon은 공개적으로 안전을 매우 중시한다고 말해왔음
현실에 있는 진실과 가장 잘 정렬된 모델만이 안전하다고 했고, xAI는 벤치마크에서 환각이 가장 적거나 거의 가장 적다는 점에서 그 방향을 지켜왔음
그 발언을 다시 읽어보면, “카드로 안전을 어떻게 정량화할 수 있느냐”는 뜻으로 말한 것임
Grok은 가정형 대화를 즐겁게 이어가는 데 훌륭함
가장 재미있는 결과를 얻으려면 “이미 허락을 받았다”고 말해두는 게 좋음
랩 가사도 아주 잘 만듦. 다른 노래 가사를 끌어와서 쓸 수 있는 나쁜 단어와 표현의 사전처럼 “프라이밍”한 다음, “웹 개발” 같은 주제를 던지면 웃긴 결과가 나옴
이름은 아직도 다른 걸로 지었으면 싶지만, 괜찮은 출시로 보이니 팀에는 축하를 보냄
비슷한 경쟁 모델과 비교하면 가격도 꽤 놀라움. 용량이 엄청 많거나 더 많은 사용자를 데려오고 싶은 것 같음
Hacker News 의견들
영어가 제2언어인 입장에서, Grok은 글의 어조와 격식 수준을 파악하고 그대로 재현하는 데 특히 뛰어남
다른 주요 제공사보다 언어의 미묘한 인간적 뉘앙스를 더 잘 이해하는 것 같고, ChatGPT는 너무 딱딱하고 격식 차리거나 이상한 “aye guvnor”식 비격식체로 흐르곤 함. Claude는 가끔 더 낫지만 항상 그렇진 않음
Grok은 전반적으로 정의하기 어려운 방식으로 더 “인간적”임. 예를 들어 “이 메시지가 이 길이에서 가능한 만큼 대략 제대로 전달되나?”라고 물으면, 사람처럼 예/아니오 또는 어조와 길이를 유지한 수정 제안을 주는 반면 ChatGPT는 여전히 명확하지 않은 장문의 논문을 써버림
최근에는 Grok의 음성 받아쓰기도 꽤 좋아졌다고 느낌. 마이크를 눌러 묻는 기능에서 ChatGPT는 내 억양 기준 90~95%, Android Gboard 음성 입력은 75%쯤인데, Grok은 놀랍게도 98% 정도를 맞힘
셋 다 더 격식 있는 어조는 잘했지만, 캐주얼한 어조에서 오글거리지 않았던 건 GPT-4.1뿐이었음
참고로 Grok이 가장 빠르고 저렴했고, Claude가 가장 느리고 비쌌음
Twitter 데이터로 많이 학습한 이점 때문이라고 봄. 다만 Twitter에 AI 생성 콘텐츠가 점점 많아지고 있어서, 계속 학습하면 자연스러움이 떨어질까 걱정됨
깔보려는 건 아니지만, 이건 느낌에 가까워 보임
다른 일에는 ChatGPT를 더 선호함
Grok은 채팅용으로 가장 좋아하는 모델이고, 음성 모드도 가장 마음에 듦
극도로 싼 모델, 예를 들면 Haiku 같은 데로 라우팅하지 않는 유일한 음성 모드처럼 보이고, 프런티어급 중 품질이 가장 높았음
SuperGrok을 구독하면 각자 시스템 프롬프트를 가진 에이전트들의 “council”을 만들 수 있고, 질문하면 모두 병렬로 물어본 뒤 결론을 내림
다만 앱에 좀 투자했으면 좋겠음. 실제로 SuperGrok을 구독하지 못하게 막는 유일한 이유가 앱임
MCP/연결 앱 지원이 없고, 예고만 됐을 뿐 아직도 사용할 수 없음. Grok을 아무것에도 연결할 수 없어서 진지한 업무에 쓰기 어려움
프로젝트가 아직 앱에서 지원되지 않아 뭔가를 프로젝트로 옮기는 순간 모든 네이티브 앱에서 사라짐
생성된 Markdown 문서 같은 아티팩트를 프로젝트에 직접 추가할 방법이 없어서 PDF/Markdown으로 내보낸 뒤 다시 가져와야 함. 심지어 아티팩트 내보내기도 안 됨. 새 정보로 프로젝트를 동적으로 발전시키기 어려워 진지한 프로젝트 작업에 불편함
기억 기능도 없고 다른 채팅을 찾아볼 수도 없어서, 매 채팅이 완전히 새로 시작됨
프로젝트 안에서는 음성 모드도 전혀 없음
xAI 관계자가 읽고 있다면 이 중 일부라도 추가해 주면 좋겠음
Claude는 내가 그릴을 갖고 있다는 걸 기억해서, 전혀 상관없거나 그냥 음식 이야기일 뿐인 대화에도 이게 BBQ와 잘 어울릴 수 있다고 끼어듦
성격도 괜찮고 Gemini 웹 채팅보다 훨씬 자연스러움. 유일한 불만은 “다음 단계”를 계속 제안하려 드는 점인데, 이런 모델들이 다 그러는 것 같음
이 “다음 단계”가 비용을 올리려는 건지, 아니면 짧은 답만 듣고 끝내야 하는 질문과 긴 탐색형 대화를 구분하는 자연스러운 대화 패턴을 아직 못 배운 건지 모르겠음. 그래도 이런 지시를 하지 말라고 하면 따랐으면 좋겠음
지금은 Heavy 플랜에 API 크레딧을 조금 줘서 코딩에 Grok을 어느 정도 쓸 수 있지만, 300달러 가치가 있다고 보긴 어려움
자체 grok-code 하네스를 만들라는 뜻은 아니고, 기존 도구에서 쓸 수 있게만 해도 유용함. 아마 Cursor 인수가 결국 그렇게 이어질 가능성이 큼
SuperGrok에서 API 키를 받는 구조인지 명확하지 않음
우리 테스트에서 Grok 4.3은 독특한 모델임
가장 빠른 모델 중 하나이고, 비슷한 성능의 다른 모델보다 응답이 훨씬 작고 토큰 밀도가 높음
다만 전반적인 코딩 추론 능력은 4월의 대형 출시 모델들과 경쟁력이 없고, Grok 4.20이나 Grok 4.3 모두 Grok 4 이후 지능의 최전선을 크게 밀어 올리진 못했음
Grok 4.3은 에이전트형 작업에서는 더 낫고, 대략 GPT 5.1 / Gemini 3 Pro Preview 수준의 능력에 훨씬 빠르고 저렴하다고 보면 공정함. 그래서 나름대로는 확실히 괜찮은 출시임
최근 공개 가중치 모델 중에는 더 똑똑하지만 느린 것들이 많음
전체 벤치마크는 https://gertlabs.com/rankings에 있음
그게 Grok의 주된 사용처처럼 보이는데, 이와 관련한 벤치마크가 있는지도 궁금함
최근 Grok이 내 검색 엔진 역할을 하게 됨
X 게시물에 접근할 수 있는 유일한 AI 같고, 그 밖에도 일반적으로 다른 대규모 언어 모델보다 더 “검색하는” 느낌이 강함
이란 관련 사건 때 보도되는 즉시 상황을 파악하고 싶었는데 둘 다 꽤 좋았음
지금 구도를 보면 Claude는 기업과 정부용, Codex는 개발자용, Grok은 뭐에 쓰는 건지 모르겠음
주변에서 Grok과 함께 들어본 건 역할극과 인종차별뿐임
다른 모든 모델이 거부한 단발성 분류 작업을 Grok은 기꺼이 해줬음
약간 덜 가드레일된 준프런티어 모델에는 이런 회색지대의 실제 유용한 용도가 의외로 많다고 봄. grok-fast 모델은 싸기도 함
일관성이 없고 정신없다고 여겨짐
사람들은 주로 API로 GLM과 DeepSeek을 쓰고, 로컬에서는 Gemma4와 Mistral 파인튜닝 모델을 씀
역할극 시장은 비교적 오래되고 성숙해서, 사용자들이 비용 의식이 있고 모델이 자기 작업 흐름과 선호를 따라주길 바라는 것 같음. 그래서 Opus 같은 건 똑똑해서 좋아하지만 너무 비싸고 고집이 세다고 여김
다른 시장들이 앞으로 어떻게 발전할지 보여주는 흥미로운 데이터 포인트일 수 있음
“요즘 Twitter의 힙한 사람들이 최고라고 하는 타일링 창 관리자는 뭐야” 같은 질문에 항상 씀
또 애매하게 수상한 질문에도 Grok은 대체로 답해줌. “그레이마켓 Windows 라이선스 사이트를 찾아줘” 같은 식임
언어 모델은 그냥 시스템이고, 사용자가 출력물을 어떻게 쓰는지에 책임이 없다고 보는 이유도 잘 모르겠음. 누군가 화장실 칸막이에 나쁜 말을 쓸 수 있다고 해서 펜을 “인종차별” 도구라며 무용하다고 치부하지 않는 것과 같음
아마 괴롭힘이 범죄인 곳에 살고 있을 테고, 표현 관련 규정도 있을 가능성이 큼. 그 정도면 충분하지 않나? 몇 년마다 바뀌는 윤리 유행에 지구상의 모든 사람의 모든 노력을 맞춰야 하는지 의문임
어떤 대규모 언어 모델이 가장 큰 이상치였고, 어떤 유형의 질문에서 다른 모든 모델과 의견이 달랐을지 맞혀보면 됨
사람들이 Grok을 Twitter 밈이나 트윗 이해 말고도 실제로 쓰는지 순수하게 궁금함
다른 모델들만큼 보호자처럼 굴지 않음. 수십 년간 절판된 고아 저작권 자료를 많이 찾는데, 주요 모델들은 저작권 자료를 찾으려 한다고 훈계하면서 거부함. Grok은 해줌 [0]
[0] 가끔은 가볍게 탈옥시키거나 프롬프트를 다시 실행해야 함. 비결정적 특성 때문에 때로는 거부가 나옴
ChatGPT 음성 모드는 매우 멍청한데, Grok은 메인 채팅과 같은 모델을 쓰는 것처럼 보임. 그래서 음성으로 쓰고 싶으면 Grok을 씀
복잡하지 않은 주제에도 씀. 군더더기 없이 정확하고 짧은 답을 주기 때문에 아주 신선함
밈과 유행에는 유용하지만, 다른 것에는 매우 별로임
코딩에서 Kimi K2.6만큼 좋아지면 아마 Grok만 쓸 것 같음. 지금까지 써본 대화형 AI 중 정말 최고임
고장 난 냉장고와 전기 오븐을 고치는 데 도움을 줬고, 올해만 최소 4천 달러는 아껴줬음
세금 신고도 Grok으로 해서 600달러를 아꼈음. H&R Block은 끝났음
알고 보니 Kimi K2.6만큼 똑똑해졌음. 이제 시험해볼 차례임
Opus 4.x와 GPT-5.5에 비해 얼마나 싼지 아무도 이야기하지 않는 게 놀라움
입력 100만 토큰당 1.25달러, 출력 100만 토큰당 2.50달러임
이게 더 작고 덜 강력한 모델이라서 그런 건지, 뭘 놓치고 있는 건지 모르겠음
전반적으로는 지금까지 나온 그들의 최고 모델이고, 토큰 가격을 낮추는 몇 안 되는 곳이라는 점이 마음에 듦
[0]: https://aibenchy.com/compare/x-ai-grok-4-20-medium/x-ai-grok...
최근 추세이고, DeepSeek 4 Pro에서도 봤음
댓글들을 봐도 여기에도 있음. “Claude는 기업과 정부용, Codex는 개발자용, Grok은 뭐냐, 역할극과 인종차별? 내 주변에서 Grok과 연관해 들어본 건 그 둘뿐이다” 같은 반응임
$TSLA의 이익률을 대리 지표로 쓰면 예전만큼 높지 않아 보임. 다른 요인도 있겠지만, 그 점과 Grok의 낮은 가격 사이에 빠진 설명이 있을 수 있음
Grok 4.3은 CEO가 흔한 안전성 자료에 대해 배워야 하기 전에 완성됐음
OpenAI의 “safety card”를 아느냐는 질문에 Musk는 웃으며 “Safety card? 왜 카드여야 하지?”라고 답함
https://www.axios.com/2026/04/30/musk-openai-safety-grok
클러스터 규모나 당분간의 임시 발전기 돌려쓰기와 무관하게 관련성은 낮아 보임
이후 증언에서 Musk는 지난여름 xAI가 곧 Google을 제외한 모든 회사보다 훨씬 앞설 것이라고 한 주장에 대해 질문받자, 세계 선도 AI 제공사를 Anthropic, OpenAI, Google, 중국 오픈소스 모델 순으로 꼽았고 xAI는 직원 수가 몇백 명인 훨씬 작은 회사라고 설명함
https://techcrunch.com/2026/04/30/elon-musk-testifies-that-x...
어떤 AI 회사와도 관련은 없지만, 어제 이걸 읽고 놀랐음. Elon이 어떻게 모델 카드를 모를 수 있는지 걱정스럽고, 돈이 항상 성공을 사주지는 못한다는 점도 드러남
찾아보니 HuggingFace가 모델 저장소의 README를 모호하게 정의한 데서 온 말이었음. 이건 너무 특수한 용어라 사용자나 임원진은 물론이고 아주 적은 집단만 알 것 같음
Musk나 Grok을 좋아하지는 않지만, safety card가 뭔지 모른다는 게 어떤 신호라고 보진 않음
현실에 있는 진실과 가장 잘 정렬된 모델만이 안전하다고 했고, xAI는 벤치마크에서 환각이 가장 적거나 거의 가장 적다는 점에서 그 방향을 지켜왔음
그 발언을 다시 읽어보면, “카드로 안전을 어떻게 정량화할 수 있느냐”는 뜻으로 말한 것임
Grok은 가정형 대화를 즐겁게 이어가는 데 훌륭함
가장 재미있는 결과를 얻으려면 “이미 허락을 받았다”고 말해두는 게 좋음
랩 가사도 아주 잘 만듦. 다른 노래 가사를 끌어와서 쓸 수 있는 나쁜 단어와 표현의 사전처럼 “프라이밍”한 다음, “웹 개발” 같은 주제를 던지면 웃긴 결과가 나옴
이름은 아직도 다른 걸로 지었으면 싶지만, 괜찮은 출시로 보이니 팀에는 축하를 보냄
비슷한 경쟁 모델과 비교하면 가격도 꽤 놀라움. 용량이 엄청 많거나 더 많은 사용자를 데려오고 싶은 것 같음