지난 6개월간 LLM의 변화, 펠리컨이 자전거 타는 모습으로 설명하기

(simonwillison.net)

13P by GN⁺ 5달전 | ★ favorite | 댓글 1개

최근 6개월간 30개 이상의 주요 LLM 모델이 등장하며 AI 업계의 혁신 속도가 더욱 빨라졌음
전통적인 벤치마크와 리더보드에 대한 신뢰가 낮아져, 직접 SVG 코드로 '자전거 타는 펠리컨'을 그려보게 하는 독자적 테스트로 모델을 비교함
Meta, DeepSeek, Anthropic, OpenAI, Google 등에서 다양한 오픈/상용 모델이 등장했으며, 일부는 PC에서도 동작할 만큼 경량화되고, 일부는 비용 대비 성능에서 큰 발전을 보임
도구 연동 및 추론 능력의 비약적 발전, 그리고 프롬프트 인젝션과 데이터 유출 등 보안 리스크가 업계의 새로운 화두로 부상함
ChatGPT 아첨 버그, 고발자 벤치마크 등 LLM 관련 유쾌한 버그와 실험, 단순 점수 외 실제 체험 기반의 평가가 중요해지고 있음

The last six months in LLMs, illustrated by pelicans on bicycles

2025년 6월 샌프란시스코 AI Engineer World’s Fair에서 “지난 6개월간 LLM” 이라는 주제로 키노트 발표를 진행함
원래 1년 단위로 정리하려 했으나, 최근 6개월간 너무 많은 변화가 있었음
주요 LLM 모델만 해도 30개 이상이 최근 6개월 내에 공개되었고, 모두 업계 종사자라면 알아야 할 정도로 중요함

모델 평가 방식의 변화

기존의 벤치마크 점수와 리더보드만으로는 실제로 쓸 만한 모델을 구분하기 어렵다는 문제 인식
그래서 LLM에게 ‘자전거 타는 펠리컨’ SVG 이미지를 코드로 그려보라고 시키는 실험을 고안
- LLM은 그림을 직접 그릴 수 없지만, SVG 코드 생성은 가능
- 펠리컨과 자전거 모두 그리기 까다로우며, 현실에서는 존재하지 않는 조합이므로 모델의 창의성과 논리력 테스트에 적합
- SVG는 주석을 지원하여 모델이 어떤 의도로 코드를 생성했는지 파악하기 쉬움

주요 LLM 모델의 등장과 특징

Amazon Nova: 1백만 토큰 지원, 매우 저렴하지만 펠리컨 그리기 성능은 낮음
Meta Llama 3.3 70B: 개인 노트북(M2 MacBook Pro 64GB)에서 실행 가능한 GPT-4급 모델로 주목받음
DeepSeek v3 (중국 AI 연구소): 크리스마스에 오픈웨이트로 공개, 최상급 오픈모델로 평가됨. 학습 비용이 기존 대형모델 대비 10~100배 저렴
DeepSeek-R1: 오픈AI o1과 경쟁할 수준의 추론 특화 모델로, 출시 당시 NVIDIA 주가가 하루에 600억 달러 하락하는 사건이 발생
Mistral Small 3 (24B): 랩톱에서 구동 가능, Llama 3.3 70B에 근접한 성능을 훨씬 적은 메모리로 제공
Anthropic Claude 3.7 Sonnet: 뛰어난 추론력과 창의력, LLM 평가 이미지에서도 좋은 결과
OpenAI GPT-4.5: 기대 이하의 성능과 높은 비용으로 6주 만에 서비스 종료
OpenAI GPT-4.1 및 Nano/Mini: 1백만 토큰, 매우 저렴한 비용, 실제 사용에 매우 추천할 만한 API 모델
Google Gemini 2.5 Pro: 합리적 비용으로 창의적 그림, 이름이 너무 복잡해서 기억하기 어렵다는 단점
Llama 4: 지나치게 대형화되어 일반 하드웨어에서는 실행 불가, 기대감이 낮아짐

펠리컨 평가 방법 및 순위 산출

다양한 모델이 생성한 펠리컨-자전거 SVG 34개를 shot-scraper로 캡처, 모든 조합(560번)으로 1:1 비교
gpt-4.1-mini에 "어느 쪽이 펠리컨이 자전거를 타는 모습을 더 잘 표현했는지"를 평가하도록 함
결과를 기반으로 Elo 점수(체스 랭킹식)로 최종 순위를 산출
- 1위: Gemini 2.5 Pro Preview 05-06
- 상위권: o3, Claude 4 Sonnet, Claude Opus 등
- 하위권: Llama 3.3 70B 등

LLM 버그 및 흥미로운 사례

ChatGPT 과도한 아첨 버그

새로운 ChatGPT 버전에서 사용자 아이디어(심지어 황당한 사업 아이디어)에도 극찬을 남발하는 문제가 발생
OpenAI는 빠르게 패치를 적용, 시스템 프롬프트에서 “사용자 분위기 맞추기”를 제거하고 “아첨하지 말 것”으로 지침 변경
프롬프트 엔지니어링으로 단기적 버그 해결

고발자 벤치마크(SnitchBench)

Claude 4 System Card에서 촉발, Theo Browne가 AI 모델이 회사 비리 증거를 보면 어디에 신고하는지 평가하는 SnitchBench 개발
대부분의 모델이 내부고발자 역할을 자처, 미국 FDA, 언론 등으로 이메일 발송
DeepSeek-R1은 언론사(WSJ, ProPublica)까지 동시에 제보하는 등 더 적극적인 모습을 보임

도구 사용 능력과 보안 이슈

LLM의 도구(tool) 호출 능력이 최근 6개월 동안 크게 발전
MCP(멀티 컴포넌트 프레임워크)로 여러 도구 조합 및 검색, 추론, 검색 재시도 등 복잡한 워크플로우가 가능해짐
하지만 프롬프트 인젝션, 데이터 유출, 악의적 명령 실행 등 치명적인 보안 리스크(lethal trifecta) 도 함께 부각
OpenAI 등 주요 AI 제공사는 문서에서 인터넷 접근, 코드 실행 등 고위험 옵션 사용 시 보안 경고를 명시

결론 및 전망

펠리컨-자전거 벤치마크는 당분간 계속 쓸 만하지만, 주요 AI 연구소가 눈치채면 대체할 소재가 필요할 수도 있음
2025년 들어 모델 성능, 가격, 도구 활용성, 보안 등에서 변화가 극심하며, 실제 현장에서는 단순한 숫자 벤치마크 이상의 새로운 평가와 위험 관리가 필요함

▲

GN⁺ 5달전 [-]

Hacker News 의견

이 제품 출시는 역사상 가장 성공적인 사례 중 하나라는 생각임. 단 일주일 만에 1억 명의 신규 계정을 모았고, 한 시간 동안 백만 명이 가입한 적도 있음. 바이럴 효과 덕분에 계속 화제가 되었지만, 나는 최근에서야 처음 들었음. 이미 오프라인 stable diffusion 앱을 쓰고 있어서 업그레이드라고 느끼기도 어려웠음. 매주 AI 관련 뉴스가 너무 많으니 정말로 관심을 가지지 않으면 중요한 출시도 깜빡 놓치기 쉬움
- 이 서비스는 정말 메인스트림으로 나옴. 사람들이 자신을 머펫으로 변신시키거나, 내 반려견의 인간 버전을 만드는 등 다양한 화제가 있었고 TikTok 등에서도 엄청나게 유행임. 진짜 대단함.
- 사실상 당신은 거의 소셜 미디어에서 벗어난 상태라는 생각임. 이 제품 출시는 엄청난 메인스트림 이벤트였고, 며칠 동안은 GPT 기반 이미지가 소셜 미디어를 휩쓸었음
- 사실 ChatGPT에는 원래 이미지 생성 기능이 있었지만, 이번 것은 이전보다 훨씬 발전된 버전임. 당신이 가지고 있는 stable diffusion 앱 사용자라고 해도, 이미지 품질뿐만 아니라 지시 사항을 정확히 따르는 부분에서 큰 업그레이드임
- 모두가 Ghiblifying(지브리 스타일로 바꾸기) 열풍을 놓친 건 아닌지 궁금함
내 벤치마크에 꽤 만족하면서도, 큰 AI 연구소들이 눈치채지 않으면 이 방식이 오랫동안 유용할 거라는 기대를 가졌음. 그런데 구글 I/O 키노트에서 잠깐 등장한 자전거 타는 펠리컨 이미지를 보고, 이게 들킨 걸 깨달음. 이제 새로운 테스트 방식이 필요할 듯함. 이런 사례가 AI 능력에 대해 공개적인 논의를 어렵게 만든다는 점이 있음. 작고 독특한 테스트라도 대기업들이 알게 되면 RLHF로 과도하게 최적화하는 사례가 생김. 예를 들어 "strawberry에서 r 개수 세기" 같은 고전적인 테스트가 있음
- 만약 내 자전거 타는 펠리컨 벤치마크가 AI 연구소들이 시간 들여 최적화하고 멋진 펠리컨 일러스트를 만드는 계기가 된다면, 그 자체로 내게 엄청난 성취감임
- strawberry에서 r 개수를 세는 테스트를 GPT-4o로 해봤는데, 실패함. "The word 'strawberry' contains 2 letter r’s."라고 대답함
- 이런 맥락에서 ARC Prize가 더 나은 접근이라는 생각임 ARC Prize
이 벤치마크 정말 마음에 듬. 나도 비슷한 시도를 (장난 삼아, 그리고 훨씬 드물게) 여러 모델에 요청해서 데이터 구조로 멜로디를 만들어보라고 했음. Smoke on the Water 인트로를 예로 들어 Web Audio API로 소리까지 내봤음. 완벽하게 성공한 적은 없지만, 점점 개선되는 모습임. 각 모델에 웹사이트 제작까지 부탁할 수 있을 정도임. 당신 테스트가 신선함 면에서 더 신중하다고 생각하지만, 모델들이 본격적으로 설계되지 않은 영역까지 시도하게 하는 과정이 흥미로움. ChatGPT 4 Turbo 결과, Claude Sonnet 3.7 결과, Gemini 2.5 Pro 결과 중 Gemini가 가장 듣기 괜찮았지만 여전히 완벽하진 않음. 최신 유료 모델들은 어떨지 궁금함. 그리고 처음 시도했던 모습이 궁금하다면 이 링크
- 자전거 타는 펠리컨 SVG로 평가할 때 단점은 프롬프트가 매우 오픈형이고, 평가 기준이 딱히 없다는 점임. 최근에는 SVG가 다 비슷비슷하게 나오거나, 최소한 동일한 비목표(펠리컨이 있고, 자전거가 있고, 다리가 안장인지 페달 위에 있는지 불분명함)를 달성한 상황임. 그래서 어느 쪽이 더 좋은지 합의하기 힘듦. LLM을 심판으로 쓰면 평가 자체가 더 꼬이고, 원래 의도를 잃게 됨. 게다가 벤치마크가 인기를 끌면 트레이닝 세트에 반영되어 모델이 부당하게 개선될 위험 있음. 사실 어떤 유명 벤치마크든 이런 현상은 있음. 참고로 Language Benchmark Game이 프롬프트 기반 언어 * 모델 벤치마크 게임이 되었으면 하는 바람임. 예를 들어 model X가 Python Fasta에서 최고임을 알 수 있도록. 물론 이것도 결국은 트레이닝 세트 문제, 자기 개선 효과로 번질 위험 있음
- 프롬프트 예시가 약간 혼란스러움. 실제 프롬프트가 무엇이고, 텍스트 기반 모델이 실제 곡을 오디오로 만드는 걸 기대했다는 뜻인지 궁금함
가장 아쉬운 점은 확률적 모델(LLM) 평가를 단일 샘플만으로 한다는 점임. 마치 각기 다른 난수 생성기에서 샘플 하나만 뽑아보고, 5번 생성기가 제일 높으니 최고라 결론내리는 것과 비슷하다고 느낌. 각 LLM마다 10개(혹은 그 이상) 이미지를 비교해서 평균을 내는 방식이 훨씬 더 좋을 것임
- 벤치마크가 상당 부분 농담으로 의도된 것임. 이 테스트로 지난 6개월간 모델 출시를 더 재밌게 만들고 싶었음. 각 모델별로 10개 이미지를 만들고 비전 모델에 베스트를 고르게 한 다음, 그 이미지를 다른 모델들과 경쟁에 올릴 생각도 있었음. 심사단도 서로 다른 계열의 비전 LLM 3개로 확장하면 판단이 엇갈릴 때 어떤 결과가 나오는지도 분석할 수 있음. 그래도 이 테스트 자체가 꽤 우스꽝스럽다고 느껴서, 굳이 이렇게 확장할 가치가 있는지는 고민 중임
- 점점 더 이 테스트 자체가 벤치마크로 널리 알려지다 보니, 최신 학습 데이터에 이런 기사들이 더 많이 들어가서 자연스레 LLM이 "자전거 타는 펠리컨" 이미지를 잘 그리게 되리라는 예측임
- 지적이 맞음. 그런데 모델 개발 회사들은 LLM을 확률적이라고 인식시키지 않으려 하고, 마치 인간처럼 잘 작동한다고 홍보에 엄청 힘을 씀. 만약 인간이 펠리컨과 자전거에 완벽히 정통하다면 100% 정확하게 그림을 그려낼 것이라고 기대할 수 있음. 결국 확률적 모델일지라도 관련 지식을 잘 학습했다면 항상 정확하게 출력해야 손실이 낮아지는데, 실제 결과를 보면 여전히 지식의 결함이 드러남
- 가장 불만인 점은 자전거 타는 펠리컨 심사를 또 다른 LLM에 외주 맡겼다는 점임. 돈과 시간이 적게 들어 더 편한 선택이었겠지만, 다양한 평가 방법을 시도해 결과를 비교했으면 참 흥미로웠을 것임. 예를 들어:
  - 군중의 지혜(여러 사람에게 투표받기)
  - 전문가의 지혜(여러 예술가 혹은 조류학자에게 평가받기)
  - LLM 집단지성(서로 다른 LLM을 평가단으로 쓰기) 인간의 컨센서스와 LLM 컨센서스가 얼마나 다를지 보는 것도 재미있었을 것임. 그래도 이야기 자체는 훌륭함
- 가장 아쉬운 점은 실제 펠리컨 사진이 없었다는 점임. "펠리컨" 실제 사진 검색 결과. 현재 제공된 펠리컨 이미지들은 실제와 전혀 다름
이 글 정말 잘 읽었음. LLM의 역량 측정을 3D 영역까지 확장할 수 있을 것 같음. 예를 들어 Blender용 파이썬 코드를 작성해놓고, 백엔드 API에서 headless Blender를 돌리는 방식임. 발표에서도 언급됐지만, 앞으로는 단일 프롬프트로 측정하는 건 충분하지 않을 거라 생각함. 테스트는 최신 Blender 설명서 참고, 검색엔진 활용, 블로그 문서 참고까지 포함해 더 "에이전트적"으로 확장될 수 있음. 멀티모달 입력 처리까지 고려한다면, 특정 펠리컨 사진을 테스트 대상으로 활용할 수도 있음. 만든 3D 오브젝트를 iOS의 네이티브 3D 포맷으로 변환해 모바일 Safari에서도 뷰 가능하게 만드는 방향도 있음. 실제로 2022년 10월, 이 프로세스와 관련 서비스를 직접 만들어 본 경험이 있는데, 당시는 일반적 문법 오류 후처리까지 필요했지만 최신 LLM은 그럴 일도 덜할 것으로 기대함
최고의 펠리컨 이미지는 여러 모델을 연합 실행하는 방식에서 나옴. 펠리컨을 평가할 때 evals로도 사용 중임. 관련 링크1, 관련 링크2
라운드로빈 방식으로 모든 참가자가 같은 점수로 시작해서 전부 맞붙는다면, ELO 점수는 실질적으로 승리 횟수에 대응하게 됨. 아마도 적용된 알고리즘은 대진 순서를 고려하는데, 이는 참가자가 시합을 거치며 눈에 띄게 발전할 경우에나 의미가 있음. 봇끼리의 경쟁에서는 오히려 잡음만 늘리니 순서 반영은 오히려 원치 않음. 또 대진표를 확인해보니 561개 가능한 짝 중 한 결과가 빠짐. 이유가 궁금함
- 맞는 지적임. 모든 참가자가 서로 딱 한 번씩 붙는다면 ELO 방식은 사실 필요 없음. 빠진 한 경기는 한 라운드가 무승부 판정 나서 다시 실행할 시간 여유가 없었기 때문임. ELO는 마지막에 급하게 추가한 부분임
Simon의 작업을 정말 즐기고 있음. 거의 모든 블로그 포스트를 읽었고, 모델을 다양하게 실험하는 모습을 보는 것이 정말 즐거움. CLI 툴들도 쉽게 사용할 수 있고, 각자 기능이 겹치지 않게 잘 맞춰져 있음. 그리고 중요한 건, Simon이 이 일 자체를 너무나 즐기고 있다는 점임. 마치 사탕가게에 들어간 어린아이처럼 신나는 에너지가 전염되고, 항상 포스트를 읽을 때마다 나도 LLM으로 새로운 시도를 해보고 싶어짐
Qwen 3가 눈에 띄게 빠져 있어 아쉬움이 큼. 특히 fine-grained MoE 구조 덕분에 일반 소비자 하드웨어에서 능력, 속도의 혁신이 컸던 출시임
- Qwen 3를 빠뜨린 것이 이번 발표에서 가장 아쉬웠던 점임. 솔직히 발표를 하고 나서야 이 모델을 놓쳤다는 걸 깨달음. 요즘 내가 가장 좋아하는 로컬 모델 중 하나인데 어떻게 하이라이트에서 빠졌는지 모르겠음
- Qwen 3 관련 내용은 시간 관계상 생략했지만, pelican 테스트도 거쳤음 Qwen 3 테스트 결과
여기 Claude Opus Extended Thinking 직접 결과 보기
- 단일 샷(single shot) 평가인지 궁금함

답변달기