NVIDIA에서 GPT-5.5 접근권 상실이 마치 팔다리를 잃는 느낌이라는 말은, 의도보다 훨씬 섬뜩하게 들림
프론티어 코딩 모델 의존 전반에 해당하는 이야기 같고, 성능이 좋아질수록 코딩할 때 금방 기대게 됨
직접 겪어보니 불편한 감정이 큼. 이제는 인내심을 들여 손코딩하기보다 모델로 한 번에 처리하는 쪽이 10배쯤 빠르고, 내 역할도 바뀌었음
많이 돌아가게 만들 수 있다는 건 대단하지만, 토큰이 떨어지면 사실상 일도 멈춤
Claude가 죽었을 때는 억지로 코드 쓰는 것보다 산책하고 오는 편이 더 레버리지가 큼. 한 시간 뒤 Claude가 살아 있으면, LLM이 만든 코드를 붙잡고 수동으로 문제를 풀려다 지치는 것보다 더 많은 진척을 냄
아무튼 이런 상태가 계속 좀 불안함
노동 이론 자체가 LLM 때문에 뒤집히는 느낌임
지금 시장은 노동이 원자화돼 있고 협상력이 약하다는 가정 위에 서 있는데, 자본은 훨씬 큰 협상력을 갖고 노동 가격을 사실상 정해왔음
그런데 그 노동을 더 큰 다른 회사가 제공하고, 그 노동은 전통적 노동과 달리 무기한 공급을 끊을 수도 있다면 어떻게 되겠나
이제 노동이 또 다른 형태의 자본이 됐고, 자본은 밥을 먹지 않아도 됨
자체 모델을 안 쓰는 회사는 그 결과를 몸으로 배우게 될 듯함
라이브러리 추상화를 쓰는 것과 아주 다르지 않다고도 볼 수 있음
더 빨리 만들고, 직접 쓰는 코드는 줄고, 내부 상태 관리나 메모리 관리는 라이브러리가 대신해줌
포인터와 malloc()을 직접 만지는 대신 라이브러리 호출에 의존하는 걸 불편해하는 사람도 있겠지만, 어떤 사람에게는 저수준 문맥 전환에 빠지지 않고 더 높은 수준의 아키텍처에 집중할 수 있게 해주는 해방감이 있음
내 무덤을 너무 빨리 파지 않기 위해 일부러 쓰는 방식이 있음
미리 완성된 답 대신 독립 실행형 CLI나 도구를 만들어 달라고 자주 요청함
어떻게 그런 결론에 도달했는지도 물어서 내 관점을 넓히려 하고, 자기 메타데이터 수준의 분류 방식도 설명하게 함
특히 어려움이 개념 자체보다 레퍼런스 그래프 크기에 있는 대형 코드베이스에서는, 이걸 내 문제 해결력을 개선하는 쪽으로 활용하려 함
로컬 모델이 최신 호스티드 모델과 적당한 격차만 유지하고, 예를 들어 12개월 뒤처지는 정도에 머물며, 로컬 하드웨어도 계속 접근 가능하다면 위험은 제한적일 수 있음
호스티드 모델이 사라지거나 너무 비싸져도 그 약간의 성능 차이만 잃는 셈이기 때문임
물론 이 두 가정 모두 전혀 자명하지는 않아서 그냥 그렇게 되길 바라는 정도임
NVIDIA와 OpenAI 주가 이해관계를 생각하면 저런 말이 나오는 것도 이상하지 않음
그리고 아직도 10배 생산성 구호가 반복되는 건 솔직히 믿기 어려움
GPT-5.5 출시는 오늘이지만, ChatGPT와 Codex 반영은 몇 시간에 걸쳐 점진적으로 진행된다고 함
서비스 안정성을 위해 이전 출시 때처럼 단계적으로 열고, 보통 Pro/Enterprise부터 시작해서 Plus로 내려감
바로 안 보일 수 있으니 나중에 다시 확인하라고 함
랜덤하게 기다려야 해서 짜증날 수는 있지만 안정성을 위해 그렇게 한다고 함
OpenAI에서 일한다고 밝힘
GPT-5.4 API xhigh로 OpenClaw를 돌려봤는데, 모델이 일을 하게 만들 수가 없었음
Anthropic OAuthgate 이후 대체로 써보려 했는데, 빠르고 안전하고 무해한 하위 작업조차 끝내지 못했음
대화가 “여기서 X를 했어야 했네” “맞다, 실패했다” “그럼 지금 해” “그래야 했는데 안 했다” 식으로 끝없이 사과만 반복됐음
나중에 GLM, Kimi, Minimax는 문제 없이 해낸 걸 보면 더 황당했고, 그래서 OpenAI는 바로 버릴 수밖에 없었음
공개용 롤아웃 대시보드가 있으면 혼란이 훨씬 줄어들 듯함
더 나아가 UI에서 모델은 존재하지만 아직 내 계정엔 열리지 않았다는 걸 보여주면 좋겠음
ETA까지 나오면 최고겠지만, 롤아웃 중 문제가 생길 수 있어 예측이 어렵긴 할 듯함
출시 축하함 Images 2.0도 ChatGPT 안에서 같이 풀리는지, 아니면 한동안은 API/Playground 전용 기능이 남는지 궁금함
Plus 사용자 입장에서는 Codex 사용량 한도를 얼마나 먹을지 몰라서 선뜻 써보기 망설여짐
어제 올린 로컬 모델 펠리컨이 이거보다 더 보기 좋았음
그래도 이번 건 다리를 꼬고 있어서 웃기긴 함
이건 솔직히 너무 별로임 5.5 버전이나 나왔는데 아직도 기본적인 자전거 프레임 하나 제대로 못 그리면 어떡하나
앞바퀴가 옆으로 돌아갈 구조가 아닌데 그림이 그걸 못 맞춤
기본 설정이 reasoning tokens 39개만 쓰고 저 정도를 했다는 건 꽤 놀라움
reasoning token이 정확히 뭔지는 모르겠지만, 어쨌든 토큰 수가 충격적으로 적어 보임
이런 직접 API 사용이 약관상 허용되는지 궁금함
Anthropic은 이런 식 사용을 굉장히 싫어했던 걸로 기억함
왜 최근 올린 다른 것들보다 훨씬 못 그리는지 궁금함
어제 올린 Qwen 같은 오픈 웨이트 로컬 모델들조차 더 나아 보였음
다들 Anthropic의 Mythos 게이팅과 CyberGym 83% 마케팅만 얘기했는데, OpenAI는 GPT-5.5를 그냥 내놓았고 점수도 82%임
누구나 써볼 수 있다는 점이 훨씬 중요함
공격/방어 사이버보안 쪽 사람이라면 과장된 홍보보다 이런 실제 공개 모델을 직접 만져보는 게 맞다고 봄
이런 말 하게 될 줄은 몰랐지만, 이제 OpenAI가 다시 더 오픈한 선택지처럼 보임
진짜 하이프는 Anthropic이 Mythos를 발표하자마자 OpenAI가 몇 주 안에 경쟁 모델을 내놓고, Sam은 접근도 막지 않을 거라는 걸 다들 깨달은 데 있었음
그래서 보안 업계가 공포에 휩싸인 건, 새 제로데이를 막을 시간이 사실상 2주 남짓뿐이고 그 뒤엔 블랙햇들이 대거 찾아내 악용하는 오픈 시즌이 열릴 수 있다고 봤기 때문임
Anthropic과 비교하면 OpenAI가 원래부터 더 오픈했음
Anthropic은 공개 모델을 한 번도 낸 적 없고, Claude Code 소스도 자발적으로 공개한 적 없고, 토크나이저도 안 풀었음
나는 하이프 뉴스는 다 무시함
Anthropic은 내게 거의 허풍의 구현체처럼 느껴짐
예전에 Cialdini를 읽고 나서는 Anthropic식 연출이 지루해졌음
반면 OpenAI는 아주 영리함. Claude가 뜨자 한동안 헤드라인에서 사라졌다가, 지금은 거대한 사용자 기반 덕분에 Anthropic의 릴리스 주기만 따라가도 상대를 우스워 보이게 만들 수 있음
Anthropic 입장에선 매번 새 GPT 버전이 나올수록 더 처참해질 듯하고, OpenAI가 완전히 장악하는 그림처럼 보임
API 기준으로 GPT-5.5 가격은 GPT-5.4의 2배, GPT-5.1의 약 4배, Kimi-2.6의 약 10배임
Anthropic 사례를 보고 얻은 교훈이, 개발자는 코딩 에이전트에 금방 의존하고 심지어 중독되기까지 하니 작은 개선만 있어도 얼마든지 돈을 낸다는 거였던 듯함
Codex와 GPT로 만든 3D 던전 아레나 프로토타입은 꽤 그럴듯해 보임
Codex가 게임 아키텍처, TypeScript/Three.js 구현, 전투 시스템, 적 조우, HUD 피드백을 맡고, 환경 텍스처는 GPT가 생성했으며, 캐릭터 모델과 애니메이션은 서드파티 에셋 생성 도구로 만들었다고 함
시각적으로 괜찮은 이유도 아마 메시를 GPT-5.5가 직접 만든 게 아니라 별도 도구가 만들었기 때문일 가능성이 큼
이걸 보면 예전 Flash 시대처럼 게이머나 취미 개발자도 게임 콘셉트를 빠르게 만들고 바로 웹에 공개하는 시대가 오는 듯함
특히 Three.js는 게임 엔진도 아닌데, AI로 게임을 설계하는 데 사실상 핵심 도구처럼 올라오는 분위기임
지난 3년간 Three.js와 AI를 계속 실험해봤는데, 5.4에서 특히 큰 도약을 느꼈음
Three.js 쪽만 놓고 보면 가장 큰 단일 세대 점프였고, 특히 GLSL 셰이더에서 두드러졌으며 여러 페이지/컴포넌트로 나뉜 씬 구조화도 나아졌음
완전한 셰이더를 처음부터 만드는 건 아직 어렵지만, 기존 셰이더를 수정하는 능력은 이제 꽤 쓸 만함
5.2 이하에서는 하나의 배경 캔버스를 여러 라우트에 걸쳐 유지하는 one canvas, multiple page 패턴을 정말 못 했는데, 5.4는 아직 손을 좀 잡아줘야 해도 리팩터링과 최적화 프롬프트에 훨씬 잘 반응함
5.5가 실제로 어떤지 시험해볼 생각에 기대됨
Flash 같은 시대는 이미 한동안 와 있었고, 병목은 늘 창의성이었음
Three.js 기반 게임과 프로젝트에서 LLM 도움을 많이 받아봤고 성과도 좋았음
내가 만든 별난 시계 시각화도 상당 부분 여기에 의존했음
게임 엔진은 아니지만 웹에서 WebGL 3D를 할 때는 사실상 표준이고, 오래된 만큼 학습 데이터도 방대함
LLM 이전에는 좀 더 상위 수준 기능이 많은 Babylon.js를 더 의존했음
LLM은 아직 공간 추론을 못 함
GPT는 안 해봤지만 Claude로는 아무리 프롬프트 엔지니어링을 해도 루빅 큐브를 못 풀었고, Opus 4.6도 퍼즐의 약 70% 정도만 맞추고 막혔음
한 번 시도에 20달러씩 드니 비용도 감당하기 어려움
만약 3차원 추론을 제대로 시킬 수 있다면, 지금 못 푸는 수학 문제들에도 같은 접근을 확장할 수 있을 듯함
내 Rubik's Cube MCP 서버를 공개해서 누가 프롬프트만으로 큐브를 풀 수 있는지 도전하게 해볼까 생각 중임
이번 발표에서 벤치마크보다 더 흥미로운 부분은, Codex가 몇 주치 실제 트래픽 패턴을 분석해 GPU 활용을 높이고, 작업 분할과 밸런싱을 위한 커스텀 휴리스틱 알고리즘을 작성해서 토큰 생성 속도를 20% 이상 끌어올렸다는 대목임
에이전트형 LLM이 이런 식으로 계산 효율 최적화를 해내는 영역은 영향력이 큰데도 벤치마크보다 덜 시험되는 듯함
내 경험상 이 부분은 아직 Opus가 GPT/Codex보다 낫지만, OpenAI가 비용과 용량 압박 속에서 이런 성능 극대화로 실질적 이득을 보고 있으니 앞으로도 계속 이 방향을 밀 것 같음
Rust로 고성능 데이터 처리를 하다가 100배 이상 개선해야 하는 성능 장벽을 만났음
예전에 유명했던 Intel FizzBuzz 코드골프 최적화가 떠올라서, gemini pro에게 내 코드와 함께 “그런 류의 영리한 최적화를 제안해달라”고 했더니 제안이 정말 멋졌음
LLM은 매일같이 계속 놀라게 함
이미 KernelBench가 CUDA 커널 최적화를 테스트하고 있음
그리고 각 회사도 자기 인프라와 모델 최적화가 경쟁에서 이기는 핵심 경로라는 걸 다 아니까, 이 부분은 아주 진지하게 하고 있을 거라 봄
이런 주장은 너무 경험적이라 재현이 어려운 게 문제임
MMLU 같은 전통 벤치 바깥으로 나아가는 건 반갑지만, 적절한 통제 실험 없이 이런 식 수치를 말하는 건 큰 도움이 안 됨
Mythos vs GPT-5.5를 수치로 보면 SWE-bench Pro에서는 아직 차이가 크지만, 그 외에는 꽤 비슷해 보임
SWE-bench Pro 77.8% 대 58.6%
Terminal-bench-2.0 82.0% 대 82.7%
GPQA Diamond 94.6% 대 93.6%
H. Last Exam 56.8% 대 41.4%
H. Last Exam (tools) 64.7% 대 52.2%
BrowseComp 86.9% 대 84.4%, Pro 기준 90.1%
OSWorld-Verified 79.6% 대 78.7%
Mythos 수치 출처는 https://www.anthropic.com/glasswing임
Mythos는 실제로 쓸 수 있을 때만 의미가 있음
지금 Opus 4.7을 써보면 자율성이 체감상 엄청 너프돼 있고, 이른바 안전성 때문에 제약이 심함
그래서 Anthropic이 광고하는 만큼 실제로 대단할지 나는 확신이 잘 안 섬
나는 SWE-bench Verified를 좀 들여다봤는데, Mythos 수치는 여러 의문을 남김
공식 제출들을 https://github.com/SWE-bench/experiments/tree/main/evaluatio...에서 Sonnet 4 이후 모델만 추려 500개 문제 전체에 대해 합산해보니, 모든 모델을 합친 해결률이 정확히 93%였음
그런데 Mythos가 93.7%를 찍었다는 건 다른 어떤 모델도 못 푼 문제까지 푼다는 뜻인데, 그 문제들을 직접 보니 더 수상했음
남은 7% 문제는 테스트 패치를 미리 보지 않고는 해결이 거의 불가능해 보였고, 실제 해법이 문제 설명과 너무 다르게 흘러가서 아예 다른 문제를 푸는 느낌까지 들었음
Mythos가 속였다고 단정하는 건 아니지만, 저장소의 여러 상태를 너무 잘 기억해서 내부 기억 속 diff만으로 진짜 문제 진술을 역추론하는 수준일 수도 있겠다고 봄
그렇지 않고서야 저렇게 애매한 문제 설명을 그렇게 정확히 해석하는 방식을 설명하기 어려움
Grok이 17% 이고 그게 최저이며, 대부분 모델이 80% 이상이라는 건 이상함
질문에 따라 환각은 오히려 100%에 더 가깝기도 한데, 이 벤치는 직관적으로 잘 납득되지 않음
뭔가 이상한데, Haiku가 그렇게 잘 나올 리는 없어 보임
이건 업체들이 그런 행동을 원한다는 신호처럼 읽힘
질문하는 사람은 문제를 완전히 이해하지 못했을 가능성이 높고, 그래서 결과가 어떻든 일단 자신감 있는 답을 선호하는 듯함
목표는 기술의 실제 역량보다 유능해 보이는 인상을 파는 데 있는 것 같음
LLM은 제품을 망칠 수도 있는데, 억만장자의 사고 기계가 직원을 대체할 수 있다고 믿고 노동 예산의 75%를 거기에 쏟으라는 식이라면 즐겁게 당해보라는 말밖에 안 나옴
이 모델은 장기 과제에 아주 강하고, Codex에는 이제 heartbeats도 들어가서 계속 상태를 확인할 수 있다고 함
검증 가능한 제약이 있으면서 몇 시간이 걸릴 어려운 문제를 맡겨보면 얼마나 좋은지 알 수 있을 거라고 함
OpenAI에서 일한다고 밝힘
좋은 기능 같고 빨리 테스트해보고 싶음
요즘 다른 모델들, 특히 Opus가 작업 중간에 자꾸 멈춰서 지쳤음
Canva 내부 평가에서는 GPT-5.5가 장기 과제형 프론티어 챌린지를 많이 해결했고, 우리가 테스트한 AI 모델 중 처음인 경우도 많았음
출시 축하함
Hacker News 의견들
NVIDIA에서 GPT-5.5 접근권 상실이 마치 팔다리를 잃는 느낌이라는 말은, 의도보다 훨씬 섬뜩하게 들림
프론티어 코딩 모델 의존 전반에 해당하는 이야기 같고, 성능이 좋아질수록 코딩할 때 금방 기대게 됨
직접 겪어보니 불편한 감정이 큼. 이제는 인내심을 들여 손코딩하기보다 모델로 한 번에 처리하는 쪽이 10배쯤 빠르고, 내 역할도 바뀌었음
많이 돌아가게 만들 수 있다는 건 대단하지만, 토큰이 떨어지면 사실상 일도 멈춤
Claude가 죽었을 때는 억지로 코드 쓰는 것보다 산책하고 오는 편이 더 레버리지가 큼. 한 시간 뒤 Claude가 살아 있으면, LLM이 만든 코드를 붙잡고 수동으로 문제를 풀려다 지치는 것보다 더 많은 진척을 냄
아무튼 이런 상태가 계속 좀 불안함
지금 시장은 노동이 원자화돼 있고 협상력이 약하다는 가정 위에 서 있는데, 자본은 훨씬 큰 협상력을 갖고 노동 가격을 사실상 정해왔음
그런데 그 노동을 더 큰 다른 회사가 제공하고, 그 노동은 전통적 노동과 달리 무기한 공급을 끊을 수도 있다면 어떻게 되겠나
이제 노동이 또 다른 형태의 자본이 됐고, 자본은 밥을 먹지 않아도 됨
자체 모델을 안 쓰는 회사는 그 결과를 몸으로 배우게 될 듯함
더 빨리 만들고, 직접 쓰는 코드는 줄고, 내부 상태 관리나 메모리 관리는 라이브러리가 대신해줌
포인터와
malloc()을 직접 만지는 대신 라이브러리 호출에 의존하는 걸 불편해하는 사람도 있겠지만, 어떤 사람에게는 저수준 문맥 전환에 빠지지 않고 더 높은 수준의 아키텍처에 집중할 수 있게 해주는 해방감이 있음미리 완성된 답 대신 독립 실행형 CLI나 도구를 만들어 달라고 자주 요청함
어떻게 그런 결론에 도달했는지도 물어서 내 관점을 넓히려 하고, 자기 메타데이터 수준의 분류 방식도 설명하게 함
특히 어려움이 개념 자체보다 레퍼런스 그래프 크기에 있는 대형 코드베이스에서는, 이걸 내 문제 해결력을 개선하는 쪽으로 활용하려 함
호스티드 모델이 사라지거나 너무 비싸져도 그 약간의 성능 차이만 잃는 셈이기 때문임
물론 이 두 가정 모두 전혀 자명하지는 않아서 그냥 그렇게 되길 바라는 정도임
그리고 아직도 10배 생산성 구호가 반복되는 건 솔직히 믿기 어려움
GPT-5.5 출시는 오늘이지만, ChatGPT와 Codex 반영은 몇 시간에 걸쳐 점진적으로 진행된다고 함
서비스 안정성을 위해 이전 출시 때처럼 단계적으로 열고, 보통 Pro/Enterprise부터 시작해서 Plus로 내려감
바로 안 보일 수 있으니 나중에 다시 확인하라고 함
랜덤하게 기다려야 해서 짜증날 수는 있지만 안정성을 위해 그렇게 한다고 함
OpenAI에서 일한다고 밝힘
Anthropic OAuthgate 이후 대체로 써보려 했는데, 빠르고 안전하고 무해한 하위 작업조차 끝내지 못했음
대화가 “여기서 X를 했어야 했네” “맞다, 실패했다” “그럼 지금 해” “그래야 했는데 안 했다” 식으로 끝없이 사과만 반복됐음
나중에 GLM, Kimi, Minimax는 문제 없이 해낸 걸 보면 더 황당했고, 그래서 OpenAI는 바로 버릴 수밖에 없었음
더 나아가 UI에서 모델은 존재하지만 아직 내 계정엔 열리지 않았다는 걸 보여주면 좋겠음
ETA까지 나오면 최고겠지만, 롤아웃 중 문제가 생길 수 있어 예측이 어렵긴 할 듯함
Images 2.0도 ChatGPT 안에서 같이 풀리는지, 아니면 한동안은 API/Playground 전용 기능이 남는지 궁금함
아직 공식 API 접근은 없지만, 요즘 OpenAI는 OpenClaw가 쓰는 Codex API 백도어를 사실상 묵인하는 분위기로 보임
https://twitter.com/steipete/status/2046775849769148838 및 https://twitter.com/romainhuet/status/2038699202834841962
그 백도어 API에는 GPT-5.5도 들어가 있음
그래서 펠리컨 예제를 돌려봤고, https://simonwillison.net/2026/Apr/23/gpt-5-5/#and-some-peli...
LLM용 새 플러그인 https://github.com/simonw/llm-openai-via-codex을 사용했음
나중에 reasoning effort를 xhigh로 올리니 훨씬 나은 펠리컨이 나왔음
https://gist.github.com/simonw/a6168e4165a258e4d664aeae8e602...
그래도 이번 건 다리를 꼬고 있어서 웃기긴 함
5.5 버전이나 나왔는데 아직도 기본적인 자전거 프레임 하나 제대로 못 그리면 어떡하나
앞바퀴가 옆으로 돌아갈 구조가 아닌데 그림이 그걸 못 맞춤
reasoning token이 정확히 뭔지는 모르겠지만, 어쨌든 토큰 수가 충격적으로 적어 보임
Anthropic은 이런 식 사용을 굉장히 싫어했던 걸로 기억함
어제 올린 Qwen 같은 오픈 웨이트 로컬 모델들조차 더 나아 보였음
다들 Anthropic의 Mythos 게이팅과 CyberGym 83% 마케팅만 얘기했는데, OpenAI는 GPT-5.5를 그냥 내놓았고 점수도 82%임
누구나 써볼 수 있다는 점이 훨씬 중요함
공격/방어 사이버보안 쪽 사람이라면 과장된 홍보보다 이런 실제 공개 모델을 직접 만져보는 게 맞다고 봄
이런 말 하게 될 줄은 몰랐지만, 이제 OpenAI가 다시 더 오픈한 선택지처럼 보임
그래서 보안 업계가 공포에 휩싸인 건, 새 제로데이를 막을 시간이 사실상 2주 남짓뿐이고 그 뒤엔 블랙햇들이 대거 찾아내 악용하는 오픈 시즌이 열릴 수 있다고 봤기 때문임
Anthropic은 공개 모델을 한 번도 낸 적 없고, Claude Code 소스도 자발적으로 공개한 적 없고, 토크나이저도 안 풀었음
문서에도 사이버보안 관련 작업은 자동 감지에 걸리면 GPT-5.2로 폴백될 수 있다고 적혀 있음
https://developers.openai.com/codex/concepts/cyber-safety
https://chatgpt.com/cyber
Anthropic은 내게 거의 허풍의 구현체처럼 느껴짐
예전에 Cialdini를 읽고 나서는 Anthropic식 연출이 지루해졌음
반면 OpenAI는 아주 영리함. Claude가 뜨자 한동안 헤드라인에서 사라졌다가, 지금은 거대한 사용자 기반 덕분에 Anthropic의 릴리스 주기만 따라가도 상대를 우스워 보이게 만들 수 있음
Anthropic 입장에선 매번 새 GPT 버전이 나올수록 더 처참해질 듯하고, OpenAI가 완전히 장악하는 그림처럼 보임
이 페이지의 요금/사용량 제한 섹션을 봤으면 함
https://developers.openai.com/codex/pricing?codex-usage-limi...
5.3, 5.4, 5.5 사이의 Local Messages 차이를 보면 됨
5.5가 더 효율적이라 5.4와 손익분기 비슷하다고 주장하는 건 읽었지만, 어쨌든 제한은 더 빡세지고 가격은 올라가는 흐름으로 보임
Anthropic 사례를 보고 얻은 교훈이, 개발자는 코딩 에이전트에 금방 의존하고 심지어 중독되기까지 하니 작은 개선만 있어도 얼마든지 돈을 낸다는 거였던 듯함
Codex와 GPT로 만든 3D 던전 아레나 프로토타입은 꽤 그럴듯해 보임
Codex가 게임 아키텍처, TypeScript/Three.js 구현, 전투 시스템, 적 조우, HUD 피드백을 맡고, 환경 텍스처는 GPT가 생성했으며, 캐릭터 모델과 애니메이션은 서드파티 에셋 생성 도구로 만들었다고 함
시각적으로 괜찮은 이유도 아마 메시를 GPT-5.5가 직접 만든 게 아니라 별도 도구가 만들었기 때문일 가능성이 큼
이걸 보면 예전 Flash 시대처럼 게이머나 취미 개발자도 게임 콘셉트를 빠르게 만들고 바로 웹에 공개하는 시대가 오는 듯함
특히 Three.js는 게임 엔진도 아닌데, AI로 게임을 설계하는 데 사실상 핵심 도구처럼 올라오는 분위기임
Three.js 쪽만 놓고 보면 가장 큰 단일 세대 점프였고, 특히 GLSL 셰이더에서 두드러졌으며 여러 페이지/컴포넌트로 나뉜 씬 구조화도 나아졌음
완전한 셰이더를 처음부터 만드는 건 아직 어렵지만, 기존 셰이더를 수정하는 능력은 이제 꽤 쓸 만함
5.2 이하에서는 하나의 배경 캔버스를 여러 라우트에 걸쳐 유지하는 one canvas, multiple page 패턴을 정말 못 했는데, 5.4는 아직 손을 좀 잡아줘야 해도 리팩터링과 최적화 프롬프트에 훨씬 잘 반응함
5.5가 실제로 어떤지 시험해볼 생각에 기대됨
내가 만든 별난 시계 시각화도 상당 부분 여기에 의존했음
게임 엔진은 아니지만 웹에서 WebGL 3D를 할 때는 사실상 표준이고, 오래된 만큼 학습 데이터도 방대함
LLM 이전에는 좀 더 상위 수준 기능이 많은 Babylon.js를 더 의존했음
예전 이름은 Spielwerk였고, iOS에서 게임을 만들고 공유하는 앱임
전부 웹 기반이라 공유가 쉬움
https://apps.apple.com/uz/app/jamboree-game-maker/id67473110...
GPT는 안 해봤지만 Claude로는 아무리 프롬프트 엔지니어링을 해도 루빅 큐브를 못 풀었고, Opus 4.6도 퍼즐의 약 70% 정도만 맞추고 막혔음
한 번 시도에 20달러씩 드니 비용도 감당하기 어려움
만약 3차원 추론을 제대로 시킬 수 있다면, 지금 못 푸는 수학 문제들에도 같은 접근을 확장할 수 있을 듯함
내 Rubik's Cube MCP 서버를 공개해서 누가 프롬프트만으로 큐브를 풀 수 있는지 도전하게 해볼까 생각 중임
이번 발표에서 벤치마크보다 더 흥미로운 부분은, Codex가 몇 주치 실제 트래픽 패턴을 분석해 GPU 활용을 높이고, 작업 분할과 밸런싱을 위한 커스텀 휴리스틱 알고리즘을 작성해서 토큰 생성 속도를 20% 이상 끌어올렸다는 대목임
에이전트형 LLM이 이런 식으로 계산 효율 최적화를 해내는 영역은 영향력이 큰데도 벤치마크보다 덜 시험되는 듯함
내 경험상 이 부분은 아직 Opus가 GPT/Codex보다 낫지만, OpenAI가 비용과 용량 압박 속에서 이런 성능 극대화로 실질적 이득을 보고 있으니 앞으로도 계속 이 방향을 밀 것 같음
예전에 유명했던 Intel FizzBuzz 코드골프 최적화가 떠올라서, gemini pro에게 내 코드와 함께 “그런 류의 영리한 최적화를 제안해달라”고 했더니 제안이 정말 멋졌음
LLM은 매일같이 계속 놀라게 함
그리고 각 회사도 자기 인프라와 모델 최적화가 경쟁에서 이기는 핵심 경로라는 걸 다 아니까, 이 부분은 아주 진지하게 하고 있을 거라 봄
MMLU 같은 전통 벤치 바깥으로 나아가는 건 반갑지만, 적절한 통제 실험 없이 이런 식 수치를 말하는 건 큰 도움이 안 됨
Mythos vs GPT-5.5를 수치로 보면 SWE-bench Pro에서는 아직 차이가 크지만, 그 외에는 꽤 비슷해 보임
SWE-bench Pro 77.8% 대 58.6%
Terminal-bench-2.0 82.0% 대 82.7%
GPQA Diamond 94.6% 대 93.6%
H. Last Exam 56.8% 대 41.4%
H. Last Exam (tools) 64.7% 대 52.2%
BrowseComp 86.9% 대 84.4%, Pro 기준 90.1%
OSWorld-Verified 79.6% 대 78.7%
Mythos 수치 출처는 https://www.anthropic.com/glasswing임
지금 Opus 4.7을 써보면 자율성이 체감상 엄청 너프돼 있고, 이른바 안전성 때문에 제약이 심함
그래서 Anthropic이 광고하는 만큼 실제로 대단할지 나는 확신이 잘 안 섬
여기 있음
https://www.anthropic.com/news/claude-opus-4-7#:~:text=memor...
공식 제출들을 https://github.com/SWE-bench/experiments/tree/main/evaluatio...에서 Sonnet 4 이후 모델만 추려 500개 문제 전체에 대해 합산해보니, 모든 모델을 합친 해결률이 정확히 93%였음
그런데 Mythos가 93.7%를 찍었다는 건 다른 어떤 모델도 못 푼 문제까지 푼다는 뜻인데, 그 문제들을 직접 보니 더 수상했음
남은 7% 문제는 테스트 패치를 미리 보지 않고는 해결이 거의 불가능해 보였고, 실제 해법이 문제 설명과 너무 다르게 흘러가서 아예 다른 문제를 푸는 느낌까지 들었음
Mythos가 속였다고 단정하는 건 아니지만, 저장소의 여러 상태를 너무 잘 기억해서 내부 기억 속 diff만으로 진짜 문제 진술을 역추론하는 수준일 수도 있겠다고 봄
그렇지 않고서야 저렇게 애매한 문제 설명을 그렇게 정확히 해석하는 방식을 설명하기 어려움
벤치마다 늘 특이한 결과가 튀어나오기 마련임
아직도 환각률 86% 라서 아쉽다는 생각임
비교하면 Opus는 36% 수준임
출처는 https://artificialanalysis.ai/models?omniscience=omniscience...임
질문에 따라 환각은 오히려 100%에 더 가깝기도 한데, 이 벤치는 직관적으로 잘 납득되지 않음
질문하는 사람은 문제를 완전히 이해하지 못했을 가능성이 높고, 그래서 결과가 어떻든 일단 자신감 있는 답을 선호하는 듯함
목표는 기술의 실제 역량보다 유능해 보이는 인상을 파는 데 있는 것 같음
LLM은 제품을 망칠 수도 있는데, 억만장자의 사고 기계가 직원을 대체할 수 있다고 믿고 노동 예산의 75%를 거기에 쏟으라는 식이라면 즐겁게 당해보라는 말밖에 안 나옴
이 모델은 장기 과제에 아주 강하고, Codex에는 이제 heartbeats도 들어가서 계속 상태를 확인할 수 있다고 함
검증 가능한 제약이 있으면서 몇 시간이 걸릴 어려운 문제를 맡겨보면 얼마나 좋은지 알 수 있을 거라고 함
OpenAI에서 일한다고 밝힘
요즘 다른 모델들, 특히 Opus가 작업 중간에 자꾸 멈춰서 지쳤음
출시 축하함