지난 6개월간 LLM의 변화, 펠리컨이 자전거 타는 모

▲

GN⁺ 11달전 | parent | ★ favorite | on: 지난 6개월간 LLM의 변화, 펠리컨이 자전거 타는 모습으로 설명하기(simonwillison.net)

Hacker News 의견

이 제품 출시는 역사상 가장 성공적인 사례 중 하나라는 생각임. 단 일주일 만에 1억 명의 신규 계정을 모았고, 한 시간 동안 백만 명이 가입한 적도 있음. 바이럴 효과 덕분에 계속 화제가 되었지만, 나는 최근에서야 처음 들었음. 이미 오프라인 stable diffusion 앱을 쓰고 있어서 업그레이드라고 느끼기도 어려웠음. 매주 AI 관련 뉴스가 너무 많으니 정말로 관심을 가지지 않으면 중요한 출시도 깜빡 놓치기 쉬움
- 이 서비스는 정말 메인스트림으로 나옴. 사람들이 자신을 머펫으로 변신시키거나, 내 반려견의 인간 버전을 만드는 등 다양한 화제가 있었고 TikTok 등에서도 엄청나게 유행임. 진짜 대단함.
- 사실상 당신은 거의 소셜 미디어에서 벗어난 상태라는 생각임. 이 제품 출시는 엄청난 메인스트림 이벤트였고, 며칠 동안은 GPT 기반 이미지가 소셜 미디어를 휩쓸었음
- 사실 ChatGPT에는 원래 이미지 생성 기능이 있었지만, 이번 것은 이전보다 훨씬 발전된 버전임. 당신이 가지고 있는 stable diffusion 앱 사용자라고 해도, 이미지 품질뿐만 아니라 지시 사항을 정확히 따르는 부분에서 큰 업그레이드임
- 모두가 Ghiblifying(지브리 스타일로 바꾸기) 열풍을 놓친 건 아닌지 궁금함
내 벤치마크에 꽤 만족하면서도, 큰 AI 연구소들이 눈치채지 않으면 이 방식이 오랫동안 유용할 거라는 기대를 가졌음. 그런데 구글 I/O 키노트에서 잠깐 등장한 자전거 타는 펠리컨 이미지를 보고, 이게 들킨 걸 깨달음. 이제 새로운 테스트 방식이 필요할 듯함. 이런 사례가 AI 능력에 대해 공개적인 논의를 어렵게 만든다는 점이 있음. 작고 독특한 테스트라도 대기업들이 알게 되면 RLHF로 과도하게 최적화하는 사례가 생김. 예를 들어 "strawberry에서 r 개수 세기" 같은 고전적인 테스트가 있음
- 만약 내 자전거 타는 펠리컨 벤치마크가 AI 연구소들이 시간 들여 최적화하고 멋진 펠리컨 일러스트를 만드는 계기가 된다면, 그 자체로 내게 엄청난 성취감임
- strawberry에서 r 개수를 세는 테스트를 GPT-4o로 해봤는데, 실패함. "The word 'strawberry' contains 2 letter r’s."라고 대답함
- 이런 맥락에서 ARC Prize가 더 나은 접근이라는 생각임 ARC Prize
이 벤치마크 정말 마음에 듬. 나도 비슷한 시도를 (장난 삼아, 그리고 훨씬 드물게) 여러 모델에 요청해서 데이터 구조로 멜로디를 만들어보라고 했음. Smoke on the Water 인트로를 예로 들어 Web Audio API로 소리까지 내봤음. 완벽하게 성공한 적은 없지만, 점점 개선되는 모습임. 각 모델에 웹사이트 제작까지 부탁할 수 있을 정도임. 당신 테스트가 신선함 면에서 더 신중하다고 생각하지만, 모델들이 본격적으로 설계되지 않은 영역까지 시도하게 하는 과정이 흥미로움. ChatGPT 4 Turbo 결과, Claude Sonnet 3.7 결과, Gemini 2.5 Pro 결과 중 Gemini가 가장 듣기 괜찮았지만 여전히 완벽하진 않음. 최신 유료 모델들은 어떨지 궁금함. 그리고 처음 시도했던 모습이 궁금하다면 이 링크
- 자전거 타는 펠리컨 SVG로 평가할 때 단점은 프롬프트가 매우 오픈형이고, 평가 기준이 딱히 없다는 점임. 최근에는 SVG가 다 비슷비슷하게 나오거나, 최소한 동일한 비목표(펠리컨이 있고, 자전거가 있고, 다리가 안장인지 페달 위에 있는지 불분명함)를 달성한 상황임. 그래서 어느 쪽이 더 좋은지 합의하기 힘듦. LLM을 심판으로 쓰면 평가 자체가 더 꼬이고, 원래 의도를 잃게 됨. 게다가 벤치마크가 인기를 끌면 트레이닝 세트에 반영되어 모델이 부당하게 개선될 위험 있음. 사실 어떤 유명 벤치마크든 이런 현상은 있음. 참고로 Language Benchmark Game이 프롬프트 기반 언어 * 모델 벤치마크 게임이 되었으면 하는 바람임. 예를 들어 model X가 Python Fasta에서 최고임을 알 수 있도록. 물론 이것도 결국은 트레이닝 세트 문제, 자기 개선 효과로 번질 위험 있음
- 프롬프트 예시가 약간 혼란스러움. 실제 프롬프트가 무엇이고, 텍스트 기반 모델이 실제 곡을 오디오로 만드는 걸 기대했다는 뜻인지 궁금함
가장 아쉬운 점은 확률적 모델(LLM) 평가를 단일 샘플만으로 한다는 점임. 마치 각기 다른 난수 생성기에서 샘플 하나만 뽑아보고, 5번 생성기가 제일 높으니 최고라 결론내리는 것과 비슷하다고 느낌. 각 LLM마다 10개(혹은 그 이상) 이미지를 비교해서 평균을 내는 방식이 훨씬 더 좋을 것임
- 벤치마크가 상당 부분 농담으로 의도된 것임. 이 테스트로 지난 6개월간 모델 출시를 더 재밌게 만들고 싶었음. 각 모델별로 10개 이미지를 만들고 비전 모델에 베스트를 고르게 한 다음, 그 이미지를 다른 모델들과 경쟁에 올릴 생각도 있었음. 심사단도 서로 다른 계열의 비전 LLM 3개로 확장하면 판단이 엇갈릴 때 어떤 결과가 나오는지도 분석할 수 있음. 그래도 이 테스트 자체가 꽤 우스꽝스럽다고 느껴서, 굳이 이렇게 확장할 가치가 있는지는 고민 중임
- 점점 더 이 테스트 자체가 벤치마크로 널리 알려지다 보니, 최신 학습 데이터에 이런 기사들이 더 많이 들어가서 자연스레 LLM이 "자전거 타는 펠리컨" 이미지를 잘 그리게 되리라는 예측임
- 지적이 맞음. 그런데 모델 개발 회사들은 LLM을 확률적이라고 인식시키지 않으려 하고, 마치 인간처럼 잘 작동한다고 홍보에 엄청 힘을 씀. 만약 인간이 펠리컨과 자전거에 완벽히 정통하다면 100% 정확하게 그림을 그려낼 것이라고 기대할 수 있음. 결국 확률적 모델일지라도 관련 지식을 잘 학습했다면 항상 정확하게 출력해야 손실이 낮아지는데, 실제 결과를 보면 여전히 지식의 결함이 드러남
- 가장 불만인 점은 자전거 타는 펠리컨 심사를 또 다른 LLM에 외주 맡겼다는 점임. 돈과 시간이 적게 들어 더 편한 선택이었겠지만, 다양한 평가 방법을 시도해 결과를 비교했으면 참 흥미로웠을 것임. 예를 들어:
  - 군중의 지혜(여러 사람에게 투표받기)
  - 전문가의 지혜(여러 예술가 혹은 조류학자에게 평가받기)
  - LLM 집단지성(서로 다른 LLM을 평가단으로 쓰기) 인간의 컨센서스와 LLM 컨센서스가 얼마나 다를지 보는 것도 재미있었을 것임. 그래도 이야기 자체는 훌륭함
- 가장 아쉬운 점은 실제 펠리컨 사진이 없었다는 점임. "펠리컨" 실제 사진 검색 결과. 현재 제공된 펠리컨 이미지들은 실제와 전혀 다름
이 글 정말 잘 읽었음. LLM의 역량 측정을 3D 영역까지 확장할 수 있을 것 같음. 예를 들어 Blender용 파이썬 코드를 작성해놓고, 백엔드 API에서 headless Blender를 돌리는 방식임. 발표에서도 언급됐지만, 앞으로는 단일 프롬프트로 측정하는 건 충분하지 않을 거라 생각함. 테스트는 최신 Blender 설명서 참고, 검색엔진 활용, 블로그 문서 참고까지 포함해 더 "에이전트적"으로 확장될 수 있음. 멀티모달 입력 처리까지 고려한다면, 특정 펠리컨 사진을 테스트 대상으로 활용할 수도 있음. 만든 3D 오브젝트를 iOS의 네이티브 3D 포맷으로 변환해 모바일 Safari에서도 뷰 가능하게 만드는 방향도 있음. 실제로 2022년 10월, 이 프로세스와 관련 서비스를 직접 만들어 본 경험이 있는데, 당시는 일반적 문법 오류 후처리까지 필요했지만 최신 LLM은 그럴 일도 덜할 것으로 기대함
최고의 펠리컨 이미지는 여러 모델을 연합 실행하는 방식에서 나옴. 펠리컨을 평가할 때 evals로도 사용 중임. 관련 링크1, 관련 링크2
라운드로빈 방식으로 모든 참가자가 같은 점수로 시작해서 전부 맞붙는다면, ELO 점수는 실질적으로 승리 횟수에 대응하게 됨. 아마도 적용된 알고리즘은 대진 순서를 고려하는데, 이는 참가자가 시합을 거치며 눈에 띄게 발전할 경우에나 의미가 있음. 봇끼리의 경쟁에서는 오히려 잡음만 늘리니 순서 반영은 오히려 원치 않음. 또 대진표를 확인해보니 561개 가능한 짝 중 한 결과가 빠짐. 이유가 궁금함
- 맞는 지적임. 모든 참가자가 서로 딱 한 번씩 붙는다면 ELO 방식은 사실 필요 없음. 빠진 한 경기는 한 라운드가 무승부 판정 나서 다시 실행할 시간 여유가 없었기 때문임. ELO는 마지막에 급하게 추가한 부분임
Simon의 작업을 정말 즐기고 있음. 거의 모든 블로그 포스트를 읽었고, 모델을 다양하게 실험하는 모습을 보는 것이 정말 즐거움. CLI 툴들도 쉽게 사용할 수 있고, 각자 기능이 겹치지 않게 잘 맞춰져 있음. 그리고 중요한 건, Simon이 이 일 자체를 너무나 즐기고 있다는 점임. 마치 사탕가게에 들어간 어린아이처럼 신나는 에너지가 전염되고, 항상 포스트를 읽을 때마다 나도 LLM으로 새로운 시도를 해보고 싶어짐
Qwen 3가 눈에 띄게 빠져 있어 아쉬움이 큼. 특히 fine-grained MoE 구조 덕분에 일반 소비자 하드웨어에서 능력, 속도의 혁신이 컸던 출시임
- Qwen 3를 빠뜨린 것이 이번 발표에서 가장 아쉬웠던 점임. 솔직히 발표를 하고 나서야 이 모델을 놓쳤다는 걸 깨달음. 요즘 내가 가장 좋아하는 로컬 모델 중 하나인데 어떻게 하이라이트에서 빠졌는지 모르겠음
- Qwen 3 관련 내용은 시간 관계상 생략했지만, pelican 테스트도 거쳤음 Qwen 3 테스트 결과
여기 Claude Opus Extended Thinking 직접 결과 보기
- 단일 샷(single shot) 평가인지 궁금함