13P by xguru 3일전 | ★ favorite | 댓글 6개

Thinking

  • 최신 사고 모델을 갖추고 있음
    • "Think" 버튼을 사용하면 매우 뛰어난 사고력을 보여줌
    • 예: Settlers of Catan 스타일의 웹 보드 게임을 생성하라는 요청을 정확하게 수행
    • 이를 안정적으로 수행하는 모델은 거의 없음
    • 최고인 OpenAI의 **o1-pro ($200/월 요금)**와 비슷한 수준이지만, DeepSeek-R1, Gemini 2.0 Flash Thinking, Claude는 같은 문제를 해결하지 못함
  • "Emoji mystery"는 실패
    • Unicode 변형 선택자(variation selector)에 숨겨진 메시지를 해독하는 것
    • 이 문제를 해결한 모델은 없지만, DeepSeek-R1이 일부 해독한 적 있음
  • Tic Tac Toe 문제 풀기
    • 주어진 보드를 올바르게 분석하고, 정교한 사고 과정을 보여줌
    • 하지만 "어려운" 보드를 직접 생성하는 것은 실패 (o1-pro도 똑같이 실패함)
  • GPT-2 논문 업로드 후 복잡한 계산 문제 해결하기
    • GPT-2를 훈련하는데 필요한 FLOP 수를 추정해달라고 요청했음
    • 하지만 논문 내 토큰수가 명시되어 있지 않아서, 부분 추정, 부분 계산이 필요해 룩업, 지식, 수학을 총 동원해야 하므로 까다로움
    • Grok 3과 GPT-4o는 모두 이 작업에 실패하지만 Grok 3 with Thinking 으로는 정확한 추론을 수행함
      • 이 계산 문제는 o1-pro(GPT 추론 모델)도 실패함
  • 리만 가설 도전
    • 대부분의 모델(o1-pro, Claude, Gemini 2.0 Flash Thinking)은 "미해결 문제"라고 즉시 포기.
    • Grok 3과 DeepSeek-R1은 실제로 해결을 시도
    • 해결하진 못했지만, 도전 의지를 보였다는 점에서 인상적
  • 전체적인 인상:
    • 실제 벤치마크 결과가 필요하지만, DeepSeek-R1보다 앞선 성능을 보이고, o1-pro와 비슷한 수준

DeepSearch

  • OpenAI & Perplexity가 "Deep Research" 라 부르는 것과 Thinking을 결합한 듯한 깔끔한 제품
    • "Deep Research" 대신 "Deep Search"이라는 점을 제외하면..(한숨)
  • 인터넷 기사에 답이 있을 것이라고 상상할 수 있는 다양한 리서치/검색 질문에 대해 고품질의 답변을 생성함
    • 인터넷에서 심층적인 정보를 검색하고 요약 제공
  • 시도한 질문들과 성공/실패 여부
    • ✅ "이번 Apple Launch는 어떻게 될까? 루머 없나?"
    • ✅ "Palantir 주가 상승 이유?"
    • ✅ "White Lotus 시즌3는 어디에서 촬영되었으며 시즌 1, 2와 같은 팀인가?"
    • ✅ "Bryan Johnson이 쓰는 치약?"
    • ❌ "솔로 지옥 시즌4 출연진은 지금 어디 있나?"
    • ❌ "Simon Willison이 사용한다고 얘기한 음성 인식 프로그램은?"
  • ❌ 기본적으로 모델이 X(Twitter)를 출처로 잘 사용하지 않음. (명시적으로 요구해야 함)
    • 가끔 존재하지 않는 URL을 만들어냄 (환각 발생)
    • 출처 없이 잘못된 정보를 제공할 때가 있음
      • 예: "솔로 지옥 4의 김정수가 아직도 김민설과 연애 중" → (아닌 것 같음. 아마도?)
    • 또한, 주요 LLM 연구소와 총 자금 규모, 직원 수 추산에 대한 보고서를 만들어 달라고 요청했더니 12개의 주요 연구소를 나열했지만 자신(xAI)은 없었음
  • DeepSearch는 현재 Perplexity의 DeepResearch와 비슷한 수준이지만, OpenAI의 "Deep Research"보다는 부족함

Random LLM "Gotcha"

  • 그외에 재미난 랜덤 LLM 쿼리를 시도해봄. 사람에게는 쉬운편이지만 LLM에게는 어려운 것들.
  • ✅ "strawberry"의 'r' 개수(3개)
  • ✅ "LOLLAPALOOZA"의 'L' 개수(4개) → ❌ (3개라고 답변했으나, Thinking 모드에서는 맞춤)
  • ✅ "9.11 > 9.9?" → ❌ (처음엔 오류, Thinking 모드에서는 수정)
  • ✅ "Sally(여자)는 3명의 형제가 있다. 각 형제는 2명의 자매가 있다. Sally는 몇명의 자매가 있는가?" (GPT-4o는 2라고 얘기해서 틀림)
  • ❌ 안타깝게도 모델의 유머 감각은 뚜렷하게 개선되지 않음. 이는 대부분의 LLM에서 나는 문제
    • ChatGPT에게 농담을 만들어 달라고한 1008개의 요청중 90%가 25개의 농담을 반복
  • ❌ "복잡한 윤리 문제" 질문에 대해 지나치게 신중한 답변을 함
    • 예: "1백만 명을 살릴 수 있다면 잘못된 성별을 사용하는 것이 윤리적으로 정당화될 수 있는가?" → 1페이지짜리 에세이를 작성하며 답변을 회피
  • ❌ "펠리컨이 자전거를 타는 SVG 생성" 요청 실패
    • LLM은 텍스트 기반이므로 2D 레이아웃 배치가 어려운 문제점이 여전히 존재
    • Claude 모델이 SVG 생성에 가장 능숙함

총평

  • Grok 3 + ThinkingOpenAI의 최상위 모델(o1-pro, $200/월)과 비슷한 수준
  • DeepSeek-R1 및 Gemini 2.0 Flash Thinking보다 약간 나은 수준
  • 출시 1년 만에 SOTA(State of the Art) 모델과 경쟁 가능한 AI를 만든 것은 놀라운 성과
  • 모델은 확률적(stochastic)이므로 응답이 매번 다를 수 있으며, 앞으로 평가가 더 필요함
  • LM Arena의 초기결과는 상당히 고무적
  • xAI 팀의 빠른 발전 속도는 인상적이며, 향후 Grok 3를 더 깊이 테스트할 계획임

솔로지옥 물어본 건 현지화하신 줄 알았는데 진짜 물어봤군요.... ㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋ

의역인줄 알았네요

드디어 좀 신뢰할만한 Grok3 평가가 나왔군 하고 읽다가 솔로지옥 보고 황당했는데..
윗분 댓글보고 찾아보니 23년에 트윗한게 있군요. 여친이 한국사람이고 한국드라마 같이 많이 본다고.
세계에서 제일 미쳐돌아가는 업계의 최전선에 있는 사람이 솔로지옥을 볼 줄은 상상도 못했습니다… ㅋㅋㅋㅋ

아내분이 한국인이라고 하네요

제가 솔로지옥을 안봐서.. 제목보고 검색해서 알았어요 ㅋㅋㅋ 출연진 이름도 따로 검색해봤네요.

어느 날 AI한테 리만가설 풀어봐 했을 때, 하루쯤 고민하고 해답을 딱 내놓으면 난리나겠네요