# Andrej Karpathy의 Grok 3 얼리 억세스 리뷰

> Clean Markdown view of GeekNews topic #19307. Use the original source for factual precision when an external source URL is present.

## Metadata

- GeekNews HTML: [https://news.hada.io/topic?id=19307](https://news.hada.io/topic?id=19307)
- GeekNews Markdown: [https://news.hada.io/topic/19307.md](https://news.hada.io/topic/19307.md)
- Type: news
- Author: [xguru](https://news.hada.io/@xguru)
- Published: 2025-02-19T10:14:21+09:00
- Updated: 2025-02-19T10:14:21+09:00
- Original source: [x.com](https://x.com/karpathy/status/1891720635363254772)
- Points: 14
- Comments: 6

## Summary

Grok 3는 OpenAI의 최상위 모델과 비슷한 수준의 사고력을 보여주며, 특히 "Think" 버튼을 통해 복잡한 문제를 해결하는 데 강점을 보입니다. DeepSearch 기능은 인터넷에서 심층적인 정보를 검색하고 요약하는 데 뛰어나지만, 출처 없는 잘못된 정보를 제공할 때도 있어 개선이 필요합니다. Grok 3 + Thinking은 OpenAI의 o1-pro(월 $200) 와 비슷하고 DeepSeek-R1 및 Gemini 2.0 Flash Thinking보다 약간 우수하며, 출시 1년 만에 SOTA 모델과 경쟁할 수 있는 수준에 도달한 것은 주목할 만한 성과입니다.

## Topic Body

### Thinking   
- ✅ **최신 사고 모델을 갖추고 있음**  
  - "Think" 버튼을 사용하면 매우 뛰어난 사고력을 보여줌  
  - 예: *Settlers of Catan* 스타일의 웹 보드 게임을 생성하라는 요청을 정확하게 수행  
  - 이를 안정적으로 수행하는 모델은 거의 없음   
  - 최고인 OpenAI의 **o1-pro ($200/월 요금)** 와 비슷한 수준이지만, **DeepSeek-R1, Gemini 2.0 Flash Thinking, Claude**는 같은 문제를 해결하지 못함  
- ❌ **"Emoji mystery"는 실패**  
  - Unicode 변형 선택자(variation selector)에 숨겨진 메시지를 해독하는 것  
  - 이 문제를 해결한 모델은 없지만, DeepSeek-R1이 일부 해독한 적 있음  
- ❓ **Tic Tac Toe 문제 풀기**  
  - 주어진 보드를 올바르게 분석하고, 정교한 사고 과정을 보여줌  
  - 하지만 "어려운" 보드를 직접 생성하는 것은 실패 (o1-pro도 똑같이 실패함)  
- ✅ **GPT-2 논문 업로드 후 복잡한 계산 문제 해결하기**  
  - GPT-2를 훈련하는데 필요한 FLOP 수를 추정해달라고 요청했음  
  - 하지만 논문 내 토큰수가 명시되어 있지 않아서, 부분 추정, 부분 계산이 필요해 룩업, 지식, 수학을 총 동원해야 하므로 까다로움  
  - Grok 3과 GPT-4o는 모두 이 작업에 실패하지만 **Grok 3 with Thinking 으로는 정확한 추론을 수행함**  
    - 이 계산 문제는 **o1-pro(GPT 추론 모델)도 실패함**  
- **리만 가설 도전**  
  - 대부분의 모델(o1-pro, Claude, Gemini 2.0 Flash Thinking)은 **"미해결 문제"라고 즉시 포기**.  
  - Grok 3과 DeepSeek-R1은 **실제로 해결을 시도**함  
  - 해결하진 못했지만, 도전 의지를 보였다는 점에서 인상적  
- **전체적인 인상:**  
  - 실제 벤치마크 결과가 필요하지만, **DeepSeek-R1보다 앞선 성능을 보이고, o1-pro와 비슷한 수준**  
  
### DeepSearch  
- OpenAI & Perplexity가 **"Deep Research"** 라 부르는 것과 **Thinking을 결합**한 듯한 깔끔한 제품   
  - "Deep Research" 대신 "Deep Search"이라는 점을 제외하면..(한숨)  
- 인터넷 기사에 답이 있을 것이라고 상상할 수 있는 다양한 리서치/검색 질문에 대해 고품질의 답변을 생성함  
  - 인터넷에서 심층적인 정보를 검색하고 요약 제공  
- 시도한 질문들과 성공/실패 여부   
  - ✅ "이번 Apple Launch는 어떻게 될까? 루머 없나?"  
  - ✅ "Palantir 주가 상승 이유?"  
  - ✅ "White Lotus 시즌3는 어디에서 촬영되었으며 시즌 1, 2와 같은 팀인가?"  
  - ✅ "Bryan Johnson이 쓰는 치약?"  
  - ❌ "솔로 지옥 시즌4 출연진은 지금 어디 있나?"  
  - ❌ "Simon Willison이 사용한다고 얘기한 음성 인식 프로그램은?"   
- ❌ 기본적으로 모델이 X(Twitter)를 출처로 잘 사용하지 않음. (명시적으로 요구해야 함)  
  - 가끔 존재하지 않는 URL을 만들어냄 (환각 발생)  
  - 출처 없이 잘못된 정보를 제공할 때가 있음  
    - 예: "솔로 지옥 4의 김정수가 아직도 김민설과 연애 중" → (아닌 것 같음. 아마도?)  
  - 또한, 주요 LLM 연구소와 총 자금 규모, 직원 수 추산에 대한 보고서를 만들어 달라고 요청했더니 12개의 주요 연구소를 나열했지만 자신(xAI)은 없었음   
- **DeepSearch는 현재 Perplexity의 DeepResearch와 비슷한 수준이지만, OpenAI의 "Deep Research"보다는 부족함**  
  
### Random LLM "Gotcha"   
- 그외에 재미난 랜덤 LLM 쿼리를 시도해봄. 사람에게는 쉬운편이지만 LLM에게는 어려운 것들.   
- ✅ "strawberry"의 'r' 개수(3개)   
- ✅ "LOLLAPALOOZA"의 'L' 개수(4개) → ❌ (3개라고 답변했으나, Thinking 모드에서는 맞춤)  
- ✅ "9.11 > 9.9?" → ❌ (처음엔 오류, Thinking 모드에서는 수정)  
- ✅ "Sally(여자)는 3명의 형제가 있다. 각 형제는 2명의 자매가 있다. Sally는 몇명의 자매가 있는가?" (GPT-4o는 2라고 얘기해서 틀림)  
- ❌ 안타깝게도 모델의 유머 감각은 뚜렷하게 개선되지 않음. 이는 대부분의 LLM에서 나는 문제  
  - ChatGPT에게 농담을 만들어 달라고한 1008개의 요청중 90%가 25개의 농담을 반복   
- ❌ "복잡한 윤리 문제" 질문에 대해 지나치게 신중한 답변을 함  
  - 예: "1백만 명을 살릴 수 있다면 잘못된 성별을 사용하는 것이 윤리적으로 정당화될 수 있는가?" → 1페이지짜리 에세이를 작성하며 답변을 회피  
- ❌ "*펠리컨이 자전거를 타는 SVG 생성*" 요청 실패  
  - LLM은 텍스트 기반이므로 **2D 레이아웃 배치가 어려운 문제점이 여전히 존재**  
  - Claude 모델이 SVG 생성에 가장 능숙함  
  
### 총평  
- **Grok 3 + Thinking**은 **OpenAI의 최상위 모델(o1-pro, $200/월)과 비슷한 수준**  
- DeepSeek-R1 및 Gemini 2.0 Flash Thinking보다 약간 나은 수준  
- 출시 1년 만에 SOTA(State of the Art) 모델과 경쟁 가능한 AI를 만든 것은 놀라운 성과  
- 모델은 확률적(stochastic)이므로 응답이 매번 다를 수 있으며, 앞으로 평가가 더 필요함  
- LM Arena의 초기결과는 상당히 고무적   
- xAI 팀의 빠른 발전 속도는 인상적이며, 향후 Grok 3를 더 깊이 테스트할 계획임

## Comments


### Comment 34835

- Author: aer0700
- Created: 2025-02-20T07:47:01+09:00
- Points: 1

어느 날 AI한테 리만가설 풀어봐 했을 때, 하루쯤 고민하고 해답을 딱 내놓으면 난리나겠네요

### Comment 34790

- Author: ffdd270
- Created: 2025-02-19T10:25:07+09:00
- Points: 3

솔로지옥 물어본 건 현지화하신 줄 알았는데 진짜 물어봤군요.... ㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋ

### Comment 34918

- Author: mssmss
- Created: 2025-02-21T15:08:48+09:00
- Points: 1
- Parent comment: 34790
- Depth: 1

의역인줄 알았네요

### Comment 34806

- Author: cladio
- Created: 2025-02-19T12:31:10+09:00
- Points: 3
- Parent comment: 34790
- Depth: 1

드디어 좀 신뢰할만한 Grok3 평가가 나왔군 하고 읽다가 솔로지옥 보고 황당했는데..  
윗분 댓글보고 찾아보니 23년에 트윗한게 있군요. 여친이 한국사람이고 한국드라마 같이 많이 본다고.   
세계에서 제일 미쳐돌아가는 업계의 최전선에 있는 사람이 솔로지옥을 볼 줄은 상상도 못했습니다… ㅋㅋㅋㅋ

### Comment 34795

- Author: knsimuel
- Created: 2025-02-19T11:15:14+09:00
- Points: 2
- Parent comment: 34790
- Depth: 1

아내분이 한국인이라고 하네요

### Comment 34794

- Author: xguru
- Created: 2025-02-19T10:55:41+09:00
- Points: 2
- Parent comment: 34790
- Depth: 1

제가 솔로지옥을 안봐서.. 제목보고 검색해서 알았어요 ㅋㅋㅋ 출연진 이름도 따로 검색해봤네요.