Andrej Karpathy의 Grok 3 얼리 억세스 리뷰

(x.com)

14P by xguru 6달전 | ★ favorite | 댓글 6개

Thinking

✅ 최신 사고 모델을 갖추고 있음
- "Think" 버튼을 사용하면 매우 뛰어난 사고력을 보여줌
- 예: Settlers of Catan 스타일의 웹 보드 게임을 생성하라는 요청을 정확하게 수행
- 이를 안정적으로 수행하는 모델은 거의 없음
- 최고인 OpenAI의 o1-pro ($200/월 요금) 와 비슷한 수준이지만, DeepSeek-R1, Gemini 2.0 Flash Thinking, Claude는 같은 문제를 해결하지 못함
❌ "Emoji mystery"는 실패
- Unicode 변형 선택자(variation selector)에 숨겨진 메시지를 해독하는 것
- 이 문제를 해결한 모델은 없지만, DeepSeek-R1이 일부 해독한 적 있음
❓ Tic Tac Toe 문제 풀기
- 주어진 보드를 올바르게 분석하고, 정교한 사고 과정을 보여줌
- 하지만 "어려운" 보드를 직접 생성하는 것은 실패 (o1-pro도 똑같이 실패함)
✅ GPT-2 논문 업로드 후 복잡한 계산 문제 해결하기
- GPT-2를 훈련하는데 필요한 FLOP 수를 추정해달라고 요청했음
- 하지만 논문 내 토큰수가 명시되어 있지 않아서, 부분 추정, 부분 계산이 필요해 룩업, 지식, 수학을 총 동원해야 하므로 까다로움
- Grok 3과 GPT-4o는 모두 이 작업에 실패하지만 Grok 3 with Thinking 으로는 정확한 추론을 수행함
  - 이 계산 문제는 o1-pro(GPT 추론 모델)도 실패함
리만 가설 도전
- 대부분의 모델(o1-pro, Claude, Gemini 2.0 Flash Thinking)은 "미해결 문제"라고 즉시 포기.
- Grok 3과 DeepSeek-R1은 실제로 해결을 시도함
- 해결하진 못했지만, 도전 의지를 보였다는 점에서 인상적
전체적인 인상:
- 실제 벤치마크 결과가 필요하지만, DeepSeek-R1보다 앞선 성능을 보이고, o1-pro와 비슷한 수준

DeepSearch

OpenAI & Perplexity가 "Deep Research" 라 부르는 것과 Thinking을 결합한 듯한 깔끔한 제품
- "Deep Research" 대신 "Deep Search"이라는 점을 제외하면..(한숨)
인터넷 기사에 답이 있을 것이라고 상상할 수 있는 다양한 리서치/검색 질문에 대해 고품질의 답변을 생성함
- 인터넷에서 심층적인 정보를 검색하고 요약 제공
시도한 질문들과 성공/실패 여부
- ✅ "이번 Apple Launch는 어떻게 될까? 루머 없나?"
- ✅ "Palantir 주가 상승 이유?"
- ✅ "White Lotus 시즌3는 어디에서 촬영되었으며 시즌 1, 2와 같은 팀인가?"
- ✅ "Bryan Johnson이 쓰는 치약?"
- ❌ "솔로 지옥 시즌4 출연진은 지금 어디 있나?"
- ❌ "Simon Willison이 사용한다고 얘기한 음성 인식 프로그램은?"
❌ 기본적으로 모델이 X(Twitter)를 출처로 잘 사용하지 않음. (명시적으로 요구해야 함)
- 가끔 존재하지 않는 URL을 만들어냄 (환각 발생)
- 출처 없이 잘못된 정보를 제공할 때가 있음
  - 예: "솔로 지옥 4의 김정수가 아직도 김민설과 연애 중" → (아닌 것 같음. 아마도?)
- 또한, 주요 LLM 연구소와 총 자금 규모, 직원 수 추산에 대한 보고서를 만들어 달라고 요청했더니 12개의 주요 연구소를 나열했지만 자신(xAI)은 없었음
DeepSearch는 현재 Perplexity의 DeepResearch와 비슷한 수준이지만, OpenAI의 "Deep Research"보다는 부족함

Random LLM "Gotcha"

그외에 재미난 랜덤 LLM 쿼리를 시도해봄. 사람에게는 쉬운편이지만 LLM에게는 어려운 것들.
✅ "strawberry"의 'r' 개수(3개)
✅ "LOLLAPALOOZA"의 'L' 개수(4개) → ❌ (3개라고 답변했으나, Thinking 모드에서는 맞춤)
✅ "9.11 > 9.9?" → ❌ (처음엔 오류, Thinking 모드에서는 수정)
✅ "Sally(여자)는 3명의 형제가 있다. 각 형제는 2명의 자매가 있다. Sally는 몇명의 자매가 있는가?" (GPT-4o는 2라고 얘기해서 틀림)
❌ 안타깝게도 모델의 유머 감각은 뚜렷하게 개선되지 않음. 이는 대부분의 LLM에서 나는 문제
- ChatGPT에게 농담을 만들어 달라고한 1008개의 요청중 90%가 25개의 농담을 반복
❌ "복잡한 윤리 문제" 질문에 대해 지나치게 신중한 답변을 함
- 예: "1백만 명을 살릴 수 있다면 잘못된 성별을 사용하는 것이 윤리적으로 정당화될 수 있는가?" → 1페이지짜리 에세이를 작성하며 답변을 회피
❌ "펠리컨이 자전거를 타는 SVG 생성" 요청 실패
- LLM은 텍스트 기반이므로 2D 레이아웃 배치가 어려운 문제점이 여전히 존재
- Claude 모델이 SVG 생성에 가장 능숙함

총평

Grok 3 + Thinking은 OpenAI의 최상위 모델(o1-pro, $200/월)과 비슷한 수준
DeepSeek-R1 및 Gemini 2.0 Flash Thinking보다 약간 나은 수준
출시 1년 만에 SOTA(State of the Art) 모델과 경쟁 가능한 AI를 만든 것은 놀라운 성과
모델은 확률적(stochastic)이므로 응답이 매번 다를 수 있으며, 앞으로 평가가 더 필요함
LM Arena의 초기결과는 상당히 고무적
xAI 팀의 빠른 발전 속도는 인상적이며, 향후 Grok 3를 더 깊이 테스트할 계획임

▲

aer0700 6달전 [-]

어느 날 AI한테 리만가설 풀어봐 했을 때, 하루쯤 고민하고 해답을 딱 내놓으면 난리나겠네요

답변달기

▲

ffdd270 6달전 [-]

솔로지옥 물어본 건 현지화하신 줄 알았는데 진짜 물어봤군요.... ㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋ

답변달기

▲

mssmss 6달전 [-]

의역인줄 알았네요

답변달기

▲

cladio 6달전 [-]

드디어 좀 신뢰할만한 Grok3 평가가 나왔군 하고 읽다가 솔로지옥 보고 황당했는데..
윗분 댓글보고 찾아보니 23년에 트윗한게 있군요. 여친이 한국사람이고 한국드라마 같이 많이 본다고.
세계에서 제일 미쳐돌아가는 업계의 최전선에 있는 사람이 솔로지옥을 볼 줄은 상상도 못했습니다… ㅋㅋㅋㅋ

답변달기

▲

knsimuel 6달전 [-]

아내분이 한국인이라고 하네요

답변달기

▲

xguru 6달전 [-]

제가 솔로지옥을 안봐서.. 제목보고 검색해서 알았어요 ㅋㅋㅋ 출연진 이름도 따로 검색해봤네요.

답변달기