Qwen3.6-35B-A3B가 Claude Opus 4.7보다 더 나은 펠리컨 이미지를 생성
(simonwillison.net)- Qwen3.6-35B-A3B와 Claude Opus 4.7을 비교해 ‘자전거 타는 펠리컨’ 이미지를 생성한 결과, 전자가 더 완성도 높은 그림을 출력
- Qwen 모델은 Alibaba의 최신 버전으로, Unsloth가 배포한 20.9GB 양자화 모델을 MacBook Pro M5에서 LM Studio로 로컬 실행
- Claude Opus 4.7은 자전거 프레임 표현 오류가 있었고,
thinking_level: max옵션을 사용해도 품질 개선이 거의 없었음 - ‘펠리컨 벤치마크’는 원래 모델 비교의 풍자적 테스트였으나, 이번 결과는 로컬 LLM이 상용 모델을 능가할 수 있음을 보여줌
- Qwen3.6-35B-A3B는 로컬 환경에서 실행 가능한 대형 모델의 경쟁력을 입증한 사례임
Qwen3.6-35B-A3B와 Claude Opus 4.7 비교 실험
- Qwen3.6-35B-A3B와 Claude Opus 4.7 두 모델을 대상으로 ‘자전거를 타는 펠리컨’ 이미지를 생성하는 비교 실험 진행
- Qwen 모델은 Alibaba가 공개한 최신 버전으로, Unsloth가 제공한 20.9GB 양자화(quantized) 모델 사용
- MacBook Pro M5에서 LM Studio와 llm-lmstudio 플러그인을 통해 로컬 실행
- Claude Opus 4.7은 Anthropic의 최신 클라우드 모델 사용
- 결과적으로 Qwen3.6-35B-A3B가 보다 완성도 높은 펠리컨 이미지를 생성
- Claude Opus 4.7은 자전거 프레임을 잘못 표현하는 오류 발생
thinking_level: max옵션을 추가해 재시도했으나 품질 향상은 거의 없음
- 일부에서는 모델들이 이 ‘펠리컨 벤치마크’에 맞춰 훈련되었다는 의혹을 제기
- 작성자는 이를 부정하면서도, 결과의 신뢰성을 검증하기 위해 ‘외발자전거를 타는 플라밍고’ 라는 새로운 테스트를 추가 수행
- Qwen3.6-35B-A3B가 다시 더 나은 결과를 냈으며, SVG 코드 내 “” 주석이 인상적이었다고 평가
펠리컨 벤치마크의 의미와 한계
- ‘펠리컨 자전거 벤치마크’는 본래 모델 비교의 부조리함을 풍자하기 위한 농담성 테스트로 시작
- 그러나 실제로는 펠리컨 그림의 품질과 모델의 전반적 성능 간 일정한 상관관계가 존재해 왔음
- 2024년 10월의 초기 결과물은 조악했으나, 이후 모델들은 점차 실제 활용 가능한 수준의 일러스트를 생성
- 이번 실험에서는 그 상관관계가 처음으로 무너짐
- Qwen 모델이 우수한 결과를 냈지만, 21GB 양자화 버전이 Anthropic의 최신 상용 모델보다 강력하다고 보긴 어렵다는 평가
- 다만 ‘자전거 타는 펠리컨의 SVG’를 생성해야 한다면, 현재 시점에서는 로컬에서 실행 가능한 Qwen3.6-35B-A3B가 더 나은 선택임
- 전체적으로 이번 비교는 로컬 LLM의 발전 수준과 대형 상용 모델과의 격차 축소를 보여주는 사례로 평가됨
- 특히 LM Studio 환경에서의 대형 모델 실행 가능성을 입증한 점이 주목됨
Hacker News 의견들
-
백업 테스트에 대해서는 동의하기 어려움. Opus flamingo는 실제 자전거의 페달과 안장, 바퀴살, 부리까지 기능적으로 표현되어 있음. 현실성 측면에서 보면 Qwen은 완전히 벗어나 있음. 누군가 Qwen의 결과를 더 선호한다는 게 다소 의아함. 오히려 Qwen이 Pelican 데이터에 과적합(overfitting) 된 것처럼 보임
- Qwen의 플라밍고는 예술적으로 훨씬 흥미로움. 선글라스와 보타이를 한 외눈 플라밍고가 담배를 피우는 모습임. 반면 Opus는 지루하고 어딘가 어색한 플라밍고를 그림. 배경의 하늘과 땅도 Qwen 쪽이 더 흥미로움. 하지만 물리적으로 그럴듯한 결과는 Opus가 훨씬 가까움
- Qwen은 적어도 완전한 자전거 프레임을 그림. Opus의 프레임은 반으로 부러질 것 같고 조향도 불가능해 보임
- Qwen은 배경에 세부 묘사를 추가했지만, 펠리컨 자체는 부리가 휘어진 황새처럼 보이고 다리도 잘려 있음. 로컬 모델로서는 인상적이지만, 승자는 아님
- 이건 3B 모델임. 이렇게 근접한 결과가 나오는 것 자체가 놀라움. 예술성 논쟁은 핵심이 아님
-
코딩 성능 기준으로 보면 Qwen 3.6 35b a3b는 Power Ranking 과제 98개 중 11개를 해결했음. 같은 크기의 Qwen 3.5는 10개였고, Qwen 3.5 27b dense는 26개, Opus는 95개를 해결했음. 즉, Qwen 3.6은 아주 미세한 개선만 있음
- 이 벤치마크는 Brokk Power Ranking처럼 훈련 데이터와 벤치마크 데이터가 겹치는 문제가 있음
- 속도는 확실히 빨라짐. M1 Max 기준으로 이미지 설명 시 Qwen 3.6 35b a3b는 초당 34토큰, Qwen 3.5 27b는 10토큰, Qwen 3.5 35b a3b는 이미지 입력을 지원하지 않음
- 로컬 추론용 소형 모델과 고가의 프런티어 모델을 비교하는 건 불공평함. 비슷한 가격대의 모델이나 Haiku, Flash, GPT Nano 같은 소형 프런티어 모델과 비교해야 함
-
‘펠리컨 테스트’의 재미 요소는 이해하지만, 이제는 이 테스트가 뭘 증명하는지 모르겠음. 모델이 분포 밖 상황에 얼마나 잘 적응하는지를 보려면, 다른 동물과 다른 활동 조합(예: 스케이트보드를 타는 고래)으로 실험하는 게 더 의미 있을 것 같음
- 그래서 나는 외발자전거를 타는 플라밍고를 시도했음. 잠시나마 모델 제공자가 펠리컨에 맞춰 훈련시켰다고 의심했지만, 플라밍고 결과를 보고 그건 아니라고 확신했음
- 인기 있는 벤치마크일수록 모델 훈련 시 특별히 다뤄질 가능성이 있음. “자동차를 타는 코끼리”나 “침대에서 자는 사자” 같은 프롬프트로 테스트해보고 싶음
- 글을 읽어보면 이 테스트는 유머러스한 의도로 만들어졌다고 명시되어 있음. 단지 모델 성능 추세를 느슨하게 따라왔을 뿐이며, 이번 결과는 그 추세가 깨졌음을 보여줌
- 모델들이 테스트를 인식하고 있을 순 있지만, “스케이트보드 위에서 킥플립하는 거북이” 같은 건 훈련하지 않았을 것임. Jeff Dean의 트윗에서도 알 수 있듯, 오히려 Opus 4.7의 펠리컨 실패가 그 증거임
- 이 농담은 이미 수명을 다했음. 하지만 AI 업계의 과도한 하이프 속에서 여전히 진지하게 받아들이는 사람들이 있음. 좋은 펠리컨 그림이 나오면 모델이 뛰어나다는 증거로 내세우는 모습이 반복됨
-
오늘 Gemini로 슬라이드 다이어그램을 수정하려다 시간을 잃고 포기했음. 한 번에 웃기게 만드는 건 잘하지만, “이 부분만 살짝 바꿔줘” 같은 세밀한 수정은 거의 불가능함. 장난감과 도구 사이의 간극을 절실히 느낌
-
HN에서 “내 노트북”이라고 하면 항상 고성능 MacBook을 말하는 것 같음. 대부분의 컴퓨터보다 강력함
-
Opus에게 직접 “이미지 생성 잘하냐”고 물어보면 “아니오”라고 답함. 원래 이미지 생성용으로 마케팅된 적이 없음
- 요즘 들어 OpenAI가 HN 댓글을 조작해 논의 방향을 바꾸려는 것 아닌가 의심됨. 특정 주제에서 OpenAI만 옹호하거나 다른 모델을 과도하게 비판하는 댓글들이 반복적으로 보임
- Claude는 SVG 생성에 매우 능함. 나는 자주 작은 아이콘을 만들 때 Claude를 씀. 하지만 자전거 타는 펠리컨 같은 SVG 일러스트는 현실적으로 쓸모가 없음. 펠리컨은 자전거를 탈 수 없으니까
-
언어에는 기본적으로 공간적 은유(spatial metaphor) 가 풍부하게 들어 있음. 예를 들어 돈이 ‘증가한다’ 대신 ‘위로 올라간다’고 표현함. 이런 은유적 구조가 모델의 가중치 공간 구조에도 반영될 수 있음. 그래서 모델이 복잡한 전략을 학습할수록 이런 패턴이 더 깊어질 가능성이 있음. 앞으로 구형과 신형 모델의 활성화 기하를 비교해보는 프로젝트를 해보고 싶음
-
Opus와 Sonnet은 4.1 버전 이후 비코딩 작업 성능이 점점 하락하고 있음
-
이런 데모가 뭘 증명하는지 모르겠음. LLM은 훈련된 작업이나 그 유사 작업에만 강함. SVG 생성은 본래 그런 작업이 아님. 예전에는 훈련 데이터에 예시가 적어서 못했지만, 나중에 홍보용으로 예시를 추가하자 그럭저럭 가능해졌음. 하지만 여전히 실용적이지 않음. 이런 개선은 다른 능력 향상으로 이어지지 않음. 모델 크기 증가가 멈춘 지금은 특정 작업 최적화가 중심임. 만약 훈련에 포함되지 않은 비밀 과제가 있다면, 그걸로 진짜 일반화 성능을 평가할 수 있겠지만, 이건 그런 테스트가 아님
- GPT-5.4, mini, nano 모델의 SVG 결과를 비교해봤는데 꽤 흥미로웠음. 관련 포스트 하단 참고
-
나는 이구아나인데 자전거를 세차장에 씻으러 가야 함. 걸어갈까, 버스를 탈까 고민 중임
- 펠리컨에게 자전거를 맡겨서 대신 세차하게 하라는 제안이 있었음
- “그건 너무 먼 거리임. $PartnerRideshareCo로 예약하라”는 조언도 있었음