LLM의 지난 6개월을 5분 만에 보기

(simonwillison.net)

9P by GN⁺ 2달전 | ★ favorite | 댓글 1개

2025년 11월은 최근 LLM 변화의 기준점이 됐고, 코딩 에이전트의 실용화와 노트북 실행 모델의 약진이 핵심이었음
Claude Sonnet 4.5 이후 GPT-5.1, Gemini 3, Claude Opus 4.5가 빠르게 경쟁했고, Opus 4.5가 몇 달간 선두로 보였음
OpenAI와 Anthropic의 검증 가능한 보상 기반 강화학습은 Codex와 Claude Code 같은 하네스에서 코드 품질 향상으로 드러남
휴가철 실험은 micro-javascript 같은 흥미로운 결과를 낳았지만, 버그·속도·안전성 때문에 실제 필요성은 제한적이었음
Gemma 4, GLM-5.1, Qwen3.6-35B-A3B 같은 오픈 가중치 모델은 프런티어보다 약해도 기대를 크게 넘기 시작함

6개월을 가른 두 흐름

2025년 11월 변곡점은 최근 6개월 LLM 변화를 보기 좋은 기준점이며, 특히 코딩 영역에서 중요한 달이었음
지난 6개월의 핵심 변화는 두 가지로 압축됨
- 코딩 에이전트가 실제 일상 작업에 쓸 수 있을 만큼 좋아짐
- 노트북에서 실행 가능한 모델들이 프런티어 모델보다 약하지만 기대를 크게 뛰어넘기 시작함
모델 비교에는 자전거를 타는 펠리컨 SVG 생성 테스트가 쓰임
- 펠리컨은 그리기 어렵고, 자전거도 그리기 어렵고, 펠리컨은 자전거를 탈 수 없으며, 어떤 AI 연구소도 이런 과제를 위해 모델을 학습시켰을 가능성이 낮다는 점이 테스트의 배경임

11월의 프런티어 모델 경쟁

11월 초 널리 “최고”로 인정받던 모델은 9월 29일 공개된 Claude Sonnet 4.5였음
이후 “최고” 모델 자리는 세 대형 제공자 사이에서 빠르게 바뀜
Gemini 3가 이 비교군 중 가장 좋은 펠리컨 그림을 그렸지만, 펠리컨 테스트만으로 모델 전체를 평가할 수는 없음
Claude Opus 4.5는 그 뒤 몇 달 동안 선두를 유지한 모델로 보였음

코딩 에이전트의 품질 장벽 돌파

11월의 진짜 변화는 코딩 에이전트의 품질 향상이었음
OpenAI와 Anthropic은 2025년 대부분을 모델이 작성하는 코드 품질을 높이기 위한 검증 가능한 보상 기반 강화학습(Reinforcement Learning from Verifiable Rewards)에 투입함
이 개선은 Codex와 Claude Code 같은 에이전트 하네스(harness)와 결합될 때 특히 두드러짐
11월에는 코딩 에이전트가 “종종 작동”하는 수준에서 “대체로 작동”하는 수준으로 넘어감
사용자가 대부분의 시간을 어리석은 실수 수정에 쓰지 않아도 실제 작업을 맡길 수 있는 일상 도구 수준에 도달함

휴가철 실험과 과열

12월부터 1월까지 많은 사용자가 휴가 기간을 활용해 새 모델과 코딩 에이전트가 무엇을 할 수 있는지 실험함
모델과 에이전트는 많은 일을 해냈고, 일부 사용자는 야심 찬 프로젝트를 빠르게 만들기 시작함
micro-javascript는 MicroQuickJS를 느슨하게 Python으로 포팅한 JavaScript 구현체였음
브라우저 플레이그라운드는 JavaScript 코드가 micro-javascript 라이브러리로 실행되고, 그 Python 코드가 Pyodide 안에서, WebAssembly 안에서, JavaScript 안에서, 브라우저 안에서 실행되는 구조였음
결과물은 흥미롭지만 버그가 있고 느리고 안전하지 않은 반쯤 완성된 JavaScript의 Python 구현체를 실제로 필요로 하는 사람은 없었고, 같은 기간 만든 다른 프로젝트들도 조용히 은퇴함

OpenClaw와 개인 AI 비서 열풍

11월 말 첫 커밋이 올라온 당시 잘 알려지지 않았던 저장소 “Warelay”가 이후 빠르게 주목받음
12월과 1월 사이 여러 차례 이름이 바뀐 뒤, 2월에는 최종 이름 OpenClaw로 큰 관심을 받음
OpenClaw는 “개인 AI 비서”이며, NanoClaw와 ZeroClaw 같은 프로젝트를 포함하는 일반명으로 Claws라는 표현이 생김
Silicon Valley 주변에서 사람들이 Claw를 실행하기 위해 Mac Mini를 구매하면서 Mac Mini가 품절되기 시작함
Drew Breunig는 Claw를 새로운 디지털 반려동물에 비유하며, Mac Mini가 Claw를 위한 완벽한 수조라고 농담함
Claws의 비유로는 2004년 영화 Spider-Man 2에서 Alfred Molina가 연기한 Doc Ock가 제시됨
- 그의 클로는 AI로 구동되며 억제 칩이 손상되지 않는 한 안전했지만, 칩이 손상된 뒤 악해져 그를 장악함

Gemini 3.1 Pro와 펠리컨 테스트의 확장

2월에는 Gemini 3.1 Pro가 공개됐고, 자전거를 탄 펠리컨을 매우 잘 그렸음
결과물에는 바구니 속 물고기까지 포함돼 있었음
Google의 Jeff Dean은 자전거를 탄 애니메이션 펠리컨 영상을 올림
같은 영상에는 penny-farthing을 탄 개구리, 작은 차를 운전하는 기린, 롤러스케이트를 탄 타조, 스케이트보드를 킥플립하는 거북이, 스트레치 리무진을 운전하는 닥스훈트도 포함됨
이 결과는 AI 연구소들이 펠리컨 테스트 같은 이상한 과제에도 관심을 기울였을 가능성을 농담처럼 떠올리게 만듦

4월의 오픈 가중치 모델

Google은 Gemma 4 모델 시리즈를 공개함
Gemma 4는 미국 회사에서 본 오픈 가중치 모델 중 가장 능력 있는 모델로 평가됨
중국 AI 연구소 GLM은 GLM-5.1을 공개함
- GLM-5.1은 1.5TB 규모의 오픈 가중치 모델임
- 실행할 하드웨어를 감당할 수 있다면 매우 효과적인 모델임
GLM-5.1은 자전거를 탄 펠리컨을 꽤 능숙하게 그렸지만, 애니메이션 시도에서는 자전거가 위쪽으로 튀고 왜곡됨
Charles가 Bluesky에서 제안한 “전동 킥보드를 탄 North Virginia Opossum” 과제에서는 다른 모델들이 근접하지 못한 결과를 냄
- “Cruising the commonwealth since dusk”라는 문구가 결과에 포함됨
- 결과물은 애니메이션으로도 제공됨

노트북에서 실행되는 모델의 기대 초과

4월의 또 다른 주목할 만한 중국 오픈 가중치 모델은 Qwen에서 나옴
Qwen3.6-35B-A3B는 노트북에서 Claude Opus 4.7보다 나은 펠리컨을 그렸음
이 모델은 20.9GB 오픈 가중치 모델이며 노트북에서 실행 가능함
이 결과는 “자전거를 탄 펠리컨”이 유용한 벤치마크로서의 한계를 이미 넘어섰다는 점도 드러냄
노트북에서 실행 가능한 모델들은 프런티어 모델보다 훨씬 약하지만, 최근 6개월 동안 기대치를 크게 웃도는 결과를 내기 시작함

GeekNews Weekly에 포함된 글입니다. 에디터 코멘트 보기

GN⁺ 2달전 [-]

Hacker News 의견들

이 펠리컨 자전거 테스트가 터무니없는 지표라고들 하지만, 사실 약 3년 전 Microsoft의 초기 GPT 보고서인 "Sparks of Artificial General Intelligence: Early experiments with GPT-4" [1]에서 소개됐다는 점은 잘 기억하지 못하는 듯함
이후 곧바로 홍보 계정 네트워크가 따라 퍼뜨렸고, AI 과대광고를 하는 사람들이 모델을 “테스트”할 때마다 쓰는 것이 됐음
마케팅 100%, 과학 0% 임
[1] https://arxiv.org/pdf/2303.12712
- 궁금한 사람들을 위해 덧붙이면, Simon이 이걸 처음 공개적으로 쓴 건 2024년 10월 25일[0]로 보임
  논문에서 “자전거 타는 펠리컨” 프롬프트가 구체적으로 테스트된 사례[1]는 모르지만, GPT 논문에는 여러 SVG와 tikz 테스트가 있었고 실제 이미지는 꽤 임의적임
  특정 이미지 하나에 최적화하는 건 바람직하지 않지만, 훈련이 어느 정도 제대로 됐다면 자전거 타는 펠리컨 정도는 그렇게 어렵지 않아야 하고, [0]의 여러 페이지를 보면 꽤 좋은 예시도 여럿 있음
  [0] https://simonwillison.net/tags/pelican-riding-a-bicycle/?pag...
  [1] Simon의 유명세 때문에 분명 어딘가 있긴 할 것 같음
- 생성형 AI가 나왔을 때부터 개인적으로 쓰던 비공식 테스트는 “강 위에서 자전거를 타는 노인의 그림”이었음
  방금 ChatGPT의 기본 모델(5.5)로 돌려보니, 노인이 낡은 자전거를 타고 있고 자전거는 느슨한 줄 위에 있으며, 그 줄이 강 위로 이어지고 배경에는 중세 마을이 나옴
  핵심은 프롬프트에 미묘한 중의성이 있다는 것임. “노인이 어떻게 강을 건너는가?”라는 부분에서 대부분의 인간은 강을 가로지르는 도로가 놓인 일반적인 다리를 곧바로 떠올리고, 그런 다리가 있을 만큼 개발된 지역의 강 배경을 상상할 것 같음
  그래서 이런 모델들은 조건을 대략 만족하는 것을 찾아내거나 생성하는 능력은 좋아지고 있지만, 사람들이 자연스럽게 끌어낼 상식적 가정을 여전히 빠뜨리는 곳이 있다고 봄
“변곡점”이 실제 현상인지 마케팅인지 궁금함
모델이 어느 정도 좋아진 건 맞겠지만, 지금도 최신 모델들(Codex + gpt5.5, gpt5.3-codex 조합)로 게임을 바이브 코딩하려고 하면 꽤 고전함
뼈대 정도는 확실히 만들어 실행되게 하지만, 완성도 있는 애플리케이션과는 거리가 멂
- Opus 4.5 이전에는 손을 많이 잡아줘야 했고 직접 코딩도 많이 했는데, 그날 이후로는 거의 코드를 쓰지 않았다는 걸 아주 선명하게 기억함
  Enigma 암호기 작동 방식을 배우려고 직접 뭔가를 작성한 적은 있지만, 그건 학습 목적이었음
  업무적으로는 11월부터 코딩을 멈춘 셈임
- 역설적으로, 핵심 능력의 한계효용이 줄어들기 시작해도 여러 번의 변곡점은 생길 수 있다고 봄
  특정 용도에 “충분히 좋아지는” 임계값 통과가 일어나면 기능이 갑자기 열리기 때문임
  예전의 못총은 무겁고 굵은 전원 케이블이 필요했으며 매우 비쌌음
  더 가볍고 싸지고 배터리 팩을 쓰게 되면서 어느 순간 지붕공의 작업 흐름에 자연스럽게 녹아들었고, 할 수 있는 작업량을 극적으로 늘렸음
  그 이후의 한계 개선은 같은 수준의 “해금”을 만들지 못할 수 있음. 이미 임계값을 넘었기 때문임
- 최근 Codex 5.5와 Claude Code Opus 4.7을 조합해서 꽤 복잡한 것들도 “바이브”로 만들었음
  핵심은 초기에 전체 설계 문서에 시간을 꽤 들이는 것이었고, 이를 구체적이고 제한된 단계로 쪼갬
  그 문서를 두 모델 사이에서 오가며 모두 만족할 때까지 다듬음
  각 단계마다 구현 계획을 만들고, 끝나면 무엇이 전달됐고 무엇을 발견했는지 요약 문서를 남김. 이게 다음 단계의 입력이 됨
  문서와 실제 작업 내용은 확인하고, 테스트도 보며 일부는 더 꼼꼼히 봄. 코드 구조가 마음에 드는지도 부분 점검함
  주로 Claude를 코딩에, Codex를 설계와 단계별 코드 리뷰에 사용했고, 단계가 끝날 때마다 둘 다 테스트 커버리지를 확인하게 했음
  이런 방식으로 코드 한 줄 직접 쓰지 않고도 도구와 라이브러리를 구현했고, 실제로 꽤 유용했음
  비동기적으로 진행되기 때문에 모델들이 천천히 처리하는 동안 다른 일을 할 수 있음
  다만 보편적이지는 않다고 봄. 쉽게 테스트할 수 있고, 달성하려는 목표를 확실히 이해하지만 정확한 방법까지는 정해지지 않은 작업에서는 인상적이었음
- 시작선은 넘겨주지만 코드를 들여다보면 중복 코드, 뒤섞인 책임, 나쁜 구조, 토큰을 잡아먹는 1만 줄짜리 파일 같은 엉망진창이 보임
  웹사이트와 소셜에서 텍스트/이미지가 섞인 비정형 이벤트 데이터를 긁어오는 데 LLM을 쓰고 있는데, 합리적인 비용으로 100% 일관된 결과를 얻으려면 작업을 아주 작은 조각으로 나눠 오류 범위를 크게 줄이는 수밖에 없었음
  현재 적당히 복잡한 작업에서는 Codex/Claude가 기꺼이 사용자를 비싼 막다른 골목으로 코딩해 넣을 수 있음
- 2025년 11월의 Opus 4.5는 진짜로, 빈정거림 없이 변곡점이었고 현재의 광풍을 만든 유일한 이유라고 봄
  GPT 5.5는 GPT 5.4보다 상당히 개선됐지만, 변곡점이라고 부르지는 않겠음
“코딩 에이전트가 정말 좋아졌다”는 말에서, 2025년 11월 이른바 “변곡점” 이후에도 여전히 누구에게 정말 좋아졌다는 건지 궁금함
관찰한 바로는 도구 호출과 큰 코드베이스에 대한 질문 응답, 특히 찾을 패턴이 모호한 질문에는 더 좋아졌고 그 용도로는 매우 유용함
하지만 많은 지시와 돌봄을 붙여도 프로덕션 코드 생성은 전혀 아니고, 개인적 경험상 아직 근처에도 못 갔음
마케팅 과열 속에서 1과 0처럼 이야기하는 건 그만둬야 함. 에이전트의 능력은 연속적인 스펙트럼이고, 작업 중인 코드베이스의 복잡성에 크게 의존함
모두가 일상 업무에서 이 도구를 더 잘 적용하는 법을 아직 찾아가는 중이라고 봄
그런데 이는 현재의 서사와 충돌함. 그 서사는 우리의 일을 늘 똑같고 쉽게 자동화 가능한 것으로 납작하게 만들지만, 실제로는 그렇지 않음
그래서 논쟁이 이렇게 양극화된다고 봄. 공유된 경험이 없음
- 양극화는 서로 다른 사람들이 이 도구를 쓸 때 만나는 코딩 경험과 출력 품질이 크게 다르기 때문에 생김
  예를 들어 내 경험은 정반대였고, Claude로 매우 높은 품질의 작업을 만들었음(https://github.com/kstenerud/yoloai)
  사용 중인 기술들의 버그와 특이점을 다루는 과정에서, 에이전트는 구현 단계에서 계속 걸려 넘어지지 않도록 이를 발견하고 목록화하는 데 큰 도움이 됐음: https://github.com/kstenerud/yoloai/blob/main/docs/dev/backe...
  에이전트들은 계속 좋아지고 있음. 지난 한 달만 봐도 연구, 설계, 아키텍처, 계획 문서를 만들 때 문제를 예측하고 함의를 제대로 추론하는 능력이 꽤 뛰었음
  코딩 단계가 되면 대부분 기계적 과정이고, Sonnet에 넘겨도 결함률이 미미함
- 최신 모델이 지시와 돌봄을 붙여도 프로덕션 코드를 만들 만큼 좋지 않다고 느낀다니 놀랍다
  내 경험상 Claude Code, 주로 Opus 4.6은 이 작업에 환상적임. 최소한 JS, TS, Elixir, Ruby에서는 그렇다
  확실히 돌봄은 필요하고, 내 머릿속 모델은 “주니어 개발자”가 아니라 외골격에 가까움. 그런데 체감상 굉장히 강력한 외골격이라 대부분의 작업에서 속도를 쉽게 10배 올려줌
  특히 --dangerously-skip-permissions도 쓰지 않고 Claude Code의 자동 모드도 쓰지 않음. 작성되는 줄마다 가볍게 검토하며 세밀하게 관리하므로 동시에 생성하는 세션은 보통 2개를 넘지 않음
  실망은 사람들이 이걸 위임하고, 탈선하지 않을 거라고 믿으려 할 때 많이 생긴다고 의심함. 아직 내게 그런 신뢰를 얻지는 못했고, 아직 그럴 필요도 없었음
  다만 주로 테스트 포함 2만~3만 줄 정도의 중소형 코드베이스에서 작업함. 이게 긍정적 경험의 요인인지 궁금함
- 코딩에서의 좋음은 그냥 불균등하게 분포해 있음
  실제로는 (a) 사람들이 AI와 일하는 방식이 수많은 작은 섬처럼 제각각이고, (b) 병목은 개발자와 코드베이스/작업마다 엄청나게 다름
  또한 우리 시대에는 변화=진보, 생산성이라는 내재적 편향이 있다고 봄
  1990~2000년의 “네트워크 컴퓨팅 혁명”을 보면, 컴퓨터는 모든 책상과 주머니에 들어왔고 행정 작업에는 강력했음
  하지만 최종 결과는 “변화”였음. 편지보다 이메일을 훨씬 많이 보내고, 훨씬 많이 소통하게 됐고, 비서는 사라졌지만 “행정” 자체는 늘어났음
  대학 교수진에는 보통 더 많은 행정 직원이 있고, 회사는 회계, 인사, 프로젝트 매니저를 더 많이 고용함
  어쩌면 행정은 애초에 진짜 병목이 아니었을 수 있음
  코드도 이런 면이 많음. 누구에게나 로드맵과 위시리스트가 있고, “코드 생산 능력”이 병목처럼 보임
  하지만 대부분 회사는 소프트웨어를 더 많이 만든다고 더 많은 가치를 만들 수 없는지도 모름
  체감상 많은 중간급 회사들은 스택 이전이나 현대화 같은 작업을 하고 있음. 기능을 쏟아내고 가격이나 매출을 올린다는 얘기는 별로 못 들었음
  대부분의 병목은 또 다른 병목의 상류에 있을 뿐, 진짜 “댐”은 드묾
- 변곡점이 있었는지는 모르겠지만, 지난 1년 동안 자동완성 이상의 용도로는 확실히 유용해졌음
  최근 개인 프로젝트는 Wasm에서 Go로 변환하는 트랜스파일러인데, 최신 모델들(Sonnet, Opus, Gemini를 썼고 GPT보다 훨씬 성공적이었음)이 프로젝트를 집어 들고 여러 층위를 다룰 수 있다는 점이 매우 인상적임
  트랜스파일러를 구현하는 Go 코드(Wasm 파싱, AST 구축), AST를 .go 파일로 직렬화해 생성되는 Go 코드, AST를 조작해 최적화하는 Go 코드와 그것이 생성 코드에 미치는 영향, 더 고급 명령을 구현하기 위해 생성 코드에 접붙이는 Go 코드와 AST에서의 상호작용, C 코드가 Wasm으로 컴파일되고 Go로 번역된 뒤 Go에서 호출되는 흐름, C 표준 라이브러리를 구현하기 위해 그 C 코드에서 호출되는 Go 코드, Wasm 명세 테스트를 구현하는 WAT/WAST 파일까지 모두 다룸
  이 층위들을 전부 생각하려면 나도 꽤 머리를 써야 하고, 많은 프로그래머도 어려워할 거라고 느끼기 때문에 인상적임
  그리고 “이 코드를 생성하고 싶으니 그걸 하는 AST를 만들어줘”라고 쓰는 편이 Go 코드에서 괄호를 세는 것보다 훨씬 쉬울 때가 많음. LISP 경험이 좀 있어도 여전히 그쪽이 쉬움
  코드 검토나 비판은 환영함. 바이브 코딩은 아니지만 생성형 AI 도움은 많이 받았음
  https://github.com/ncruces/wasm2go
- 어제 Anthropic의 일반 20달러 구독 제한 덕분에 하루 종일 한도에 걸리지 않고 놀 수 있어서 정말 재미있었음
  작은 브라우저 게임이라 보안과 완벽성 요구는 아주 낮지만, “이걸 실제로 해보기”와 “재미”에 대한 요구는 높은 작업이라 일종의 프로덕션 코드라고 볼 수 있음
  생성된 코드는 컴파일 오류가 0개였고, 한 작업에 할 일 10개를 설명해도 전부 처리해 나갔음
  유용해지기 위해 훨씬 더 좋아질 필요는 없음. 이미 연구자처럼 수학은 어차피 검증해야 하지만 테스트 데이터 필터링, 변환, 실행 코드를 잘 못 쓰는 사람들에게 매우 유용함
  작은 웹사이트, 재미 프로젝트, 보조 도구 같은 용도에도 이미 좋음
  동시에 배경에서는 더 많은 연산량, 더 나은 알고리즘, 더 많은 강화학습 같은 일이 계속 일어나고 있음
  우리가 모르는 사이에 “AI가 코딩 일자리를 가져갈 것”의 95% 지점에 이미 와 있을 수도 있음. 남은 5%가 너무 중요하기 때문임
지금 어딘가의 인간 아티스트가 대형 AI 연구소의 훈련 데이터로 쓰일 자전거 타는 펠리컨 그림을 그리고 있을 것 같음
- 현대 이미지 생성 모델은 모두 자전거 위의 펠리컨을 쉽게 생성할 수 있음
  이 테스트의 핵심은 이미지를 나타내는 SVG 텍스트를 생성하는 것이고, 그게 더 복잡함
  래스터 이미지를 SVG로 변환해 훈련 데이터에 쓰는 방법도 있긴 하지만, 누구의 시간에도 좋은 사용처는 아님
- Gemini의 펠리컨 품질이 한 번의 반복에서 너무 큰 단계 변화를 보였고, 다른 벤치마크는 꽤 평평하게 남아 있어서 맞는 말일 수 있다고 봄
  다만 그들이 펠리컨을 특정해 겨냥했는지, 그냥 SVG를 겨냥했는지는 모르겠음
지난 6개월은 인류가 LLM에 대한 통제력을 잃은 기간처럼 보임
로컬 AI 도입을 완화할 수 있었던 훌륭한 오픈 모델들이 나왔음에도 메모리 시장 장악이 벌어졌고, 전 세계 기업에 지식재산 유출 도구가 빠르게 침투했음
개발자들은 읽을 수 있는 것보다 더 많은 코드를 만들고 있음
자율 에이전트는 관심 경제를 빨아들여 오픈소스를 죽이고, 온라인 커뮤니티(HN 포함)를 망가뜨렸으며, 전쟁(표적 지정, 선전 등)에도 쓰이고 있음
광범위한 취약점이 발견되고, 대규모 공급망 공격이 이어지고 있음
불평등 증가, 인식의 분열, 초록색 지표와 암울한 현실이 함께 나타남
- 나쁜 뉴스만 읽으면, 특히 요즘 대중 뉴스처럼 더 잘 팔리는 것만 보면 그런 그림이 될 수 있음
  하지만 개인적으로는 바이오테크에서 말도 안 되는 일들이 벌어지는 걸 봤음. 이런 미래에 살 가능성이 있다는 게 믿기지 않을 정도임
  이미 AlphaFold를 사용해 개발된 실제 치료제가 실제 임상시험에서 테스트되고 있고, 앞으로 3~5년 안에 임상에 들어갈 다음 세대는 엄청날 것임
  훗날 지금의 의학을 오늘날 중세를 보듯 돌아보게 될 듯함
- AI 과열은 항상 존재하던 소프트웨어 엔지니어링의 균열을 더 드러냈을 뿐이라고 봄
  이상적으로는 이 과열 사이클을 지나며 더 나은 실천법을 배워 나오게 되길 바람
- 광범위한 취약점이 발견되는 건 좋은 일임
- Metal Gear Solid 2는 2025년까지는 기묘하고 웃긴 작품이었음
- “메모리 시장 장악”이라니, 잠깐, 그게 뭔가?
  “전 세계 기업에 지식재산 유출 도구가 빠르게 침투”는 장점 쪽에 들어간다고 봄
  관심 경제에 관련된 것이 사라지는 건 내게는 전부 “잘 가라”에 가까움
비프로그래머 관점에서 지난 6개월이 어땠는지 궁금함
다른 분야 사람들은 어떤 협업 도구나 비슷한 최적화를 겪었을까?
- 견습 과정을 운영하는 강사인데, 새 상사는 업계에서 20년쯤 일했고 회사에서 가장 존경받는 사람 중 하나임
  최근 우리 팀에 합류해 가르치게 됐고 2주 과정에 참여 중인데, 첫날에 AI가 모든 수업 계획안을 쓰게 하고, 그 계획안을 다시 AI에 넣어 슬라이드를 만들라는 지시를 받았음
  이걸 단호히 거부하길 바라지만, 그러지 않으면 훈련생들은 그 사람의 경험, 인간적인 면, 전해줄 수 있는 것을 아무것도 얻지 못하게 됨
  강사로서 6개월마다 리뷰를 받는데, 매번 같은 말을 들음. “수업에 AI를 어떻게 쓸 수 있을까요?”
  왜 그게 바람직한지, 왜 필요한지 설명할 필요조차 느끼지 않음. 그냥 순수한 유행 편승임
  믿기 어렵게도 동료 대부분은 AI에 매우 긍정적이지만, 수업 준비 말고 어디에 쓰는지는 아무도 말하지 않았음. 생각하거나 준비하는 시간을 쓰지 않기 위해 쓰는 것뿐이고, 그게 직장에서 하는 유일하게 중요한 일인데도 말임
  내겐 전혀 말이 안 됨
- 순수수학에서는 GPT-5.4 이전에는 사용처가 매우 제한적이었음
  똑똑한 사람들은 모델에서 어느 정도 성과를 냈지만, 항상 진지한 작업과 매우 적합한 문제가 필요했음
  물론 숙제 문제는 풀 수 있었지만, 가르치는 입장에서는 그게 오히려 단점처럼 느껴졌음
  GPT-5.4(2026년 3월) 이후는 “와” 하는 출시였음. 이전에 전문가들을 막히게 했던 MathOverflow 수준 문제에 갑자기 답하기 시작했음
  여전히 환각은 있었지만, 가능할 때 작은 예제로 주장을 검증하려고 내장 Python 능력을 쓸 만큼 똑똑했음
  추상적이고 “철학적”인 수학보다는 공식이 많은 수학에 훨씬 강한 듯함
  GPT-5.5는 MO급 난제에 대해 매혹적이고 상당히 비자명하며 매우 교육적인 책에 나올 법한 증명을 줬고, 지금 그걸 글로 정리하는 중임
  운과 좋은 프롬프팅 덕분이었을 수도 있음. 5.4에서 질적 도약처럼 느껴지진 않았지만, 양적 개선도 언제든 환영함
  여전히 적합한 문제가 필요하지만, 처음부터 적합하지 않다고 배제하기는 훨씬 어려워졌음
  Claude와 Gemini는 계속 2군이었고 지금도 그렇음. Claude는 비서 같은 작업에 쓰고, 가끔 쉬운 증명도 찾지만 보통 내가 뻔한 걸 놓쳤기 때문임
  그리고 GPT, 덜하지만 Claude도 수학 오류를 찾는 데 훌륭함. 지금까지 프롬프트의 아마 90%는 내 글을 교정하는 데 썼음
- 기업에 AI를 배포하는 회사에서 일함
  평균적인 사무직 직원은 Copilot에 놀라워함. IDE 안의 Copilot이 아니라 Windows에 번들된 앱 말임
  주로 자료를 회사에서 제공한 ChatGPT/Gemini에 복사해 붙여넣고, Facebook/Instagram에서 “업무 생산성을 위한 최고의 프롬프트 5개” 같은 팁을 얻음
  대규모로 업무를 자동화하는 에이전트를 보여주면 거의 마법처럼 받아들임
- 주변의 비기술직 사람들에게는 Claude in Office가 전환점이었음
  이제 모두의 슬라이드 덱이 말끔하고, 재무팀은 BI 도움을 훨씬 덜 필요로 함. 꽤 인상적임
- 비즈니스에서는 협업 도구를 써서 이메일을 검토하고 보관 방식을 제안하게 하며, 파일과 폴더를 관리하고, 매일 인트라넷에서 흥미롭고 관련 있는 내용을 훑게 함
  개인적으로는 아내가 모국어가 아닌 초중고 학생들에게 자기 모국어를 가르치는데, 이제 아이들이 모두 이런 도구를 써서 학교 수업 계획에 맞춘 새로운 연습 콘텐츠를 생성함
  몇 달 전보다 아이들의 실력이 훨씬 빨리 좋아지고 있음
Simon의 블로그가 워낙 유명하다는 걸 생각하면, 어떤 AI 연구소도 그런 터무니없는 과제용으로 모델을 훈련하지 않았을 거라는 말은 이제 확신하기 어려움
- 글에서도 “AI 연구소들이 결국 주목했을지도 모른다”, “자전거 탄 펠리컨은 유용한 벤치마크로서의 한계를 확실히 넘어섰다는 걸 주로 보여준다”고 인정하고 있음
- Simon은 글의 뒤쪽에서 Jeff Dean이 자전거 타는 펠리컨 과제를 언급한 글과 현재 모델들이 얼마나 잘하는지를 감안하면, 이젠 좋은 벤치마크가 아니라고 말함
  이제는 전동 킥보드 타는 주머니쥐 차례임
- 그 부분은 발표에서는 더 잘 먹혔을 것 같음. 뒤에 나올 농담을 위한 빌드업이었음
- 사실상 벤치마크가 됐음. 몇몇 친구들은 “strawberry”에 들어 있는 R 개수를 세도록 모델을 구체적으로 훈련시키고 있음
이 스레드를 읽어보면 변곡점 논쟁의 상당 부분은 무엇이 좋아졌는지를 두고 서로 엇갈려 말하는 데서 나온 듯함
내 해석으로는 11월쯤 모델 자체의 능력이 크게 뛴 것은 아니고, 그 주변의 하네스가 훨씬 안정적이 됐으며, 2025년 초의 RLVR 작업이 모델을 그 하네스 안에서 잘 행동하도록 훈련해 왔음
그래서 둘이 만났을 때, 각각만 보면 극적이지 않았지만 합성 효과 때문에 단계 변화처럼 느껴졌을 가능성이 큼
그래서 이 스레드에서 경험이 이렇게 다른 것 같음. 모델에게 코드를 물어보고 붙여넣는 식의 흐름을 쓰던 사람은 개선이 완만했을 것이고, 왜 이렇게 호들갑인지 합리적으로 의아해할 수 있음
반대로 이미 에이전트를 20단계 루프로 돌리던 사람은 훨씬 큰 변화를 느꼈을 것임. 예전에는 12단계의 실패가 20단계쯤 쓰레기로 번지는 게 문제였는데, 그 부분이 크게 나아졌기 때문임
Simon이 살짝 넘긴 로컬 모델 이야기도 같은 이유로 흥미로움. 20GB 모델이 노트북에서 괜찮은 펠리컨을 그리는 건 단독으로는 귀여운 자료점에 불과함
주목할 점은 좋은 하네스 안의 유능한 로컬 모델이, 하네스 없이 최전선 모델을 돌리는 것보다 이제 최전선 성능에 더 가까워진다는 점임
Gemini에게 “Hyde Park에서 외발자전거 타는 펠리컨” 영상을 요청했는데, 결과물에 크게 놀랐음
https://gemini.google.com/share/55e250c99693
- 원문 작성자의 설명에 따르면 이 테스트를 쓰는 이유는 펠리컨은 그리기 어렵고, 자전거도 그리기 어렵고, 펠리컨은 자전거를 탈 수 없으며, 어떤 AI 연구소도 이런 터무니없는 작업용으로 모델을 훈련시킬 가능성이 없기 때문임
  이 시점에서는 경쟁 AI 연구소들이 이제 잘 알려진 이 “테스트”를 왜 훈련하지 않겠느냐는 생각이 듦
- 그래픽적으로는 완벽하지만 내용적으로는 말이 안 됨
  펠리컨의 무게중심이 분명히 바퀴 뒤에 있음. 바퀴 위나 아주 살짝 앞에 있어야 함
- Grok도 놀라웠음
  https://grok.com/imagine/post/8d1eab88-737f-4d46-ba92-9b6502...
  이미지 생성보다 영상 생성에서 펠리컨이 페달을 밟는 모습을 더 잘 만드는 점이 흥미로움
- Google/Gemini는 시청각 능력이 꽤 인상적임
  Claude에게 조경 사진에 멀치를 추가해 달라고 했더니 MS Paint의 주황색 스프레이 도구로 칠한 것처럼 보였음
  Nano Banana는 실제에 꽤 가까운 결과를 냈음
- 정말 인상적이고, 영화·애니메이션·모델링 쪽 창작자들에게는 약간 걱정스러움
“PyCon US 2026에서 한 5분 라이트닝 토크의 주석 달린 슬라이드를 만들었다”고 했는데, 이 발표의 영상이나 오디오가 있는지 궁금함

답변달기

LLM의 지난 6개월을 5분 만에 보기

6개월을 가른 두 흐름

11월의 프런티어 모델 경쟁

코딩 에이전트의 품질 장벽 돌파

휴가철 실험과 과열

OpenClaw와 개인 AI 비서 열풍

Gemini 3.1 Pro와 펠리컨 테스트의 확장

4월의 오픈 가중치 모델

노트북에서 실행되는 모델의 기대 초과

함께 보면 좋은 글 β

댓글과 토론

Hacker News 의견들