Antigravity 2.0, OpenSCAD 건축 3D LLM 벤치마크에서 1위

(modelrift.com)

OpenSCAD Pantheon 벤치마크는 참고 이미지 2장과 짧은 프롬프트만으로 AI 코딩 도구가 건축물을 파라메트릭 CAD 코드로 구현하는지 시험함
Google Antigravity 2.0 / Gemini 3.5 Flash High는 품질 4.5/5로 최고점을 받았고, 실제 Pantheon 치수·비문·내부 코퍼 천장 패턴까지 구현함
Codex 5.5 High는 디테일 밀도가 높았지만 PNG 미리보기와 최종 STL 불일치로 감점됐고, Sonnet은 기존 자율 실행 중 가장 깔끔한 모델을 냄
Cursor는 가장 빨랐지만 품질이 가장 낮았고, ModelRift/Gemini Flash 3.0은 시각 피드백을 더한 휴먼 인 더 루프 방식으로 3.8/5에 도달함
모든 시스템이 OpenSCAD CLI 렌더링까지 수행했지만, 병목은 도구 접근이 아니라 기하 판단과 최종 메시 검증이었음

벤치마크 목적과 과제

ModelRift는 모든 3D 모델에 대해 OpenSCAD 코드를 생성하므로, LLM의 공간 기하 처리 능력이 실제 모델 품질에 직접 연결됨
이번 테스트는 여러 AI 코딩 도구에 같은 과제를 주고, 참고 이미지와 짧은 프롬프트를 바탕으로 Pantheon을 OpenSCAD로 구현하게 한 소규모 실전 벤치마크였음
목표는 건축 참고 자료를 파라메트릭 CAD 코드로 바꾸고, OpenSCAD CLI로 PNG 미리보기를 렌더링하며 반복 개선하는 능력을 확인하는 데 있었음

프롬프트는 Pantheon의 로툰다, 돔, 포르티코, 기둥, 페디먼트, 전면 디테일을 포함하도록 요구함

see two ref images and build .scad file with openscad implementation of pantheon. use openscad CLI (available) to preview your work (by rendering openscad model to .png)  and iterate until you are happy with the result.

Pantheon과 OpenSCAD를 고른 이유

Pantheon은 단순한 difference(), cube(), cylinder() 문법 테스트를 넘어서는 과제이면서도, OpenSCAD가 다루기 어려운 유기적 조각이나 캐릭터형 기하는 아님
주요 구조는 원형 로툰다와 돔, 중앙 오큘러스, 직선형 포르티코, 기둥, 계단식 기단, 삼각 페디먼트로 구성돼 결과 차이를 비교하기 좋음
약한 결과도 돔이 있는 건물처럼 보일 수 있지만, 좋은 결과는 둥근 드럼, 직사각형 포르티코, 돔 링, 전면 파사드의 관계를 더 정확히 맞춰야 함
OpenSCAD는 모델이 평문 코드이고 어휘가 작아 LLM 생성 기하의 대상으로 적합함
“반지름 주변에 28개 기둥 반복”이나 “돔에서 오큘러스 빼기” 같은 지시를 소스 코드로 직접 표현할 수 있음
결과물이 검사 가능하고 재현 가능하며 수정하기 쉬워, 기둥 간격 오류도 숨겨진 장면 상태가 아니라 매개변수나 반복문 수정으로 고칠 수 있음
ModelRift가 OpenSCAD를 기반으로 만들어진 배경은 Why we built ModelRift on OpenSCAD에 정리돼 있음
단점은 OpenSCAD가 조각 도구가 아니라는 점이며, 구성형·파라메트릭·하드서피스 객체에 가장 잘 맞음

전체 결과

점수는 이 벤치마크 안에서의 상대 평가이며, 일반 모델 순위가 아님
시간 점수는 프로젝트 공개 시각이 아니라 관찰된 구현 시간을 반영함
품질 점수는 보수적으로 매겨졌고, 최고 결과도 완벽한 Pantheon 모델에 가깝지는 않음
도구와 모델별 결과:
- Cursor 3.5 / Composer 2.5: 시간 5/5, 품질 1.4/5. 가장 빨랐지만 가장 약했으며, 돔과 포르티코의 큰 형태 외에는 비례·색상 통제·건축 디테일이 부족했음
- Codex 5.5 High: 시간 4/5, 품질 3.0/5. 엔태블러처 비문까지 넣을 만큼 디테일 밀도가 높았지만, 최종 STL이 PNG 미리보기와 달라 감점됨
- Claude Code 2.1 / Opus 4.7: 시간 2/5, 품질 3.0/5. Cursor보다 구조와 포르티코, 계단식 기단이 명확했지만 색이 지나치게 균일했고 강한 결과보다 덜 설득력 있었음
- Claude Code 2.1 / Sonnet 4.6: 시간 1/5, 품질 3.4/5. 기존 자율 실행 중 가장 그럴듯한 전체 인상과 균형 잡힌 비례를 보였지만 구현 시간이 가장 길었음
- Google Antigravity 2.0 / Gemini 3.5 Flash High: 시간 1/5, 품질 4.5/5. 실제 Pantheon 치수와 비문을 사용했고, 자율 에이전트 중 유일하게 내부 코퍼 천장 패턴을 구현함
- ModelRift / Gemini Flash 3.0: 시간 1/5, 품질 3.8/5. ModelRift의 반복 주석 워크플로를 사용한 비자율 결과 중 최고였고 Claude Code 대비 약 2배 시간이 걸림

워크플로 관찰

클라이언트 워크플로는 모델 자체만큼 중요했음
Codex Desktop은 LLM이 컨텍스트에 불러온 이미지를 대화 안에 직접 보여줘, 시각적 CAD 작업에서 참고 자료 사용 여부를 확인하기 쉬웠음
Cursor Agent와 Claude Code CLI도 이미지를 사용할 수 있었지만, 처리 과정에서 시각 컨텍스트가 덜 명시적으로 보였음
테스트한 모든 시스템은 로컬 OpenSCAD 도구체인을 다룰 수 있었고, macOS PATH의 OpenSCAD를 호출해 PNG 미리보기를 렌더링함
병목은 도구 접근이 아니라 기하 판단, 카메라 설정, 미리보기 모델을 깨끗한 최종 메시로 내보낼 수 있는지였음
Codex는 참고 이미지, OpenSCAD 파일 편집, 생성된 미리보기를 같은 스레드에 노출해 반복 과정을 따라가기 쉬웠음
공개 벤치마크 이후 Codex는 지붕과 엔태블러처 내보내기 문제를 수정하려 했지만, 최종 비교는 원래 제출 모델을 기준으로 함
Cursor는 가장 빠른 상호작용 루프와 유용한 계획·OpenSCAD 코드 병렬 UI를 제공했지만, 출력 품질은 느린 실행들보다 뒤처짐
Claude Code는 터미널 중심으로 이미지를 읽고 OpenSCAD 명령을 반복했지만, 모델이 만들어지는 과정은 덜 시각적이었음

Google Antigravity 2.0 / Gemini 3.5 Flash High

Explore 3D result
이 실행은 Google이 I/O 2026에서 Antigravity 2.0을 출시하고 Gemini 3.5 Flash를 2026년 5월 19일 공개한 직후인 2026년 5월 22일 추가됨
결과는 이 벤치마크에서 가장 좋은 완전 자율 모델이었고, Flash 3.5에 대한 초기 신호도 긍정적이었음
Antigravity 2.0은 계획, 작업 실행, 미리보기를 갖춘 에이전트 우선 데스크톱 앱에 가까웠고, 이전 IDE 경험을 원한 사용자는 다운그레이드나 이전 앱 고정 외에 매끄러운 복귀 경로가 없어 출시 주간에 비판이 많았음
Flash 3.5 High는 참고 이미지를 눈대중으로만 보지 않고 실제 Pantheon 매개변수를 검색함
계획과 코드는 로툰다, 돔, 포르티코, 오큘러스에 대해 명시적 치수를 사용하고 이를 파라메트릭 OpenSCAD 값으로 변환함
```
Implement a detailed, visually stunning, and dimensionally accurate 3D model of the Pantheon in Rome using OpenSCAD.
```

Pantheon의 내부 구조도 반영하기 위해 컷어웨이 모드를 제안함

To showcase both the exterior (stepped rings, portico) and the interior (coffers, niches, perfect spherical proportion), I will include a toggle in the code `show_cutaway = false;`.

가장 강한 디테일은 천장이었음

The Pantheon dome interior has 5 rings of 28 coffers. Subtracting these mathematically in OpenSCAD is highly detailed and looks amazing.

Antigravity는 자율 에이전트 중 유일하게 오큘러스를 통해 보이는 반복 사각 코퍼 천장 패턴을 구현함
외부 결과에는 빠른 OpenSCAD 출력에서 자주 생략되는 요소도 포함됨
- 회색과 붉은색이 섞인 기둥 재질
- 읽을 수 있는 비문
- 계단식 지붕 링
- 로툰다, 중간 블록, 포르티코, 돔 사이의 넓은 관계
품질 점수는 4.5/5, 속도 점수는 1/5였음
빠르지는 않았지만, 이 벤치마크의 자율 생성 상한을 끌어올렸고 Flash 3.5가 계획·렌더링·검사·수정 도구와 결합될 때 공간 코드 생성에 유망해 보임

ModelRift / Gemini Flash 3.0

Explore 3D result
이 결과는 ModelRift와 Gemini Flash 3.0을 사용한 휴먼 인 더 루프 과정으로 만들어졌으며, 처음 네 개 실행처럼 자율 단일 패스 벤치마크가 아니었음
워크플로는 약 10분이 걸렸고 Claude Code 시간의 약 2배였기 때문에 같은 1/5 속도 점수를 받음
이 벤치마크는 Gemini 3.5 Flash 공개 직후인 2026년 5월 21일 실행됨
Antigravity 결과는 3.5 Flash가 강하다는 점을 보였지만, ModelRift의 기본 모델 선택에서는 품질과 비용·지연 시간을 함께 고려해야 함
Google의 Gemini API 가격은 Gemini 3.5 Flash 표준 가격을 입력 100만 토큰당 1.50달러, 출력 100만 토큰당 9.00달러로 제시하며, Gemini 3 Flash는 입력 0.50달러, 출력 3.00달러로 제시함
Gemini 3.5 Flash는 이전 Flash 세대 대비 3배 비용 증가이며, 더 오래된 Gemini 1.5 Flash 시대의 비용 기준보다 훨씬 높음
품질은 3.8/5로 기존 자율 실행 배치보다 좋았음
모델은 완벽하지 않았지만 포르티코, 기둥 배치, 지붕, 돔 리브, 전체 매스가 더 일관됐음
핵심 차이는 현재 렌더 위에 시각 피드백을 직접 붙일 수 있었다는 점이었음
ModelRift 워크플로는 모델 생성, 브라우저 검사, 렌더 위 시각 노트 작성, AI에 OpenSCAD 수정 요청을 반복하도록 설계돼 있음
공간 CAD 작업에서는 이 루프가 텍스트만으로 지시하는 방식보다 훨씬 정밀함

주요 자율 실행 결과

Codex 5.5 High
- Explore 3D result
- Codex 5.5 High는 가장 밀도 높은 모델을 생성함
- 포함 요소는 로툰다, 돔 리브, 오큘러스, 층층이 쌓인 석조 밴드, 전면 포르티코, 기둥, 주변 기단 디테일, 엔태블러처 텍스트였음
- 엔태블러처에는 M AGRIPPA L F COS TERTIVM FECIT가 들어감
- OpenSCAD에서 텍스트는 배치, 돌출, 방향 지정, 얇은 두께 유지가 필요해 모델링 관점에서 까다로운 요소임
- 반복 중 렌더 미리보기는 최종 내보낸 STL보다 좋아 보였음
- 최종 결과에서는 엔태블러처와 포르티코 지붕 영역에 문제가 있는 천장 같은 표면이 생겨 전면 조립부 인상이 달라짐
- Codex는 강한 공간 추론과 높은 디테일 시도를 보였지만, 미리보기 정확성이 최종 메시 정확성과 같지 않다는 내보내기 리스크도 드러냄
- 공개된 STL이 아니라 가장 좋은 PNG 미리보기를 기준으로 했다면 Antigravity 2.0 바로 아래에 놓일 정도의 구조와 디테일이 있었음
- 3.0/5 점수는 모델의 설계 의도보다 최종 내보내기·렌더링 불일치에 대한 벌점이 크게 작용함
Claude Sonnet
- Explore 3D result
- Claude Sonnet은 기존 자율 실행 배치 중 가장 깔끔한 모델을 생성함
- Codex만큼 미세 디테일을 시도하지는 않았지만, 실루엣이 더 깨끗하고 주요 건축 부품이 더 자연스럽게 맞물렸음
- 돔, 드럼, 포르티코, 기둥 배치가 인접한 프리미티브 묶음이 아니라 하나의 건물로 읽힘
- 비례도 더 절제되어 있었고, Antigravity 실행 이전에는 가장 강한 완전 자율 결과였음
- Claude Code는 이 벤치마크에서 Codex보다 약 2~3배 느렸고, Sonnet은 좋은 품질에도 불구하고 최저 시간 점수를 받음
- 품질 점수는 3.4/5로, 여전히 프로덕션 품질의 건축 복원이 아니라 근사 모델에 머무름
Cursor Composer
- Explore 3D result
- Cursor와 Composer 2.5 조합은 가장 빠른 실행이었지만 결과는 가장 약했음
- 로툰다, 돔, 포르티코, 기둥이라는 큰 제스처는 맞췄음
- Pantheon을 알아볼 수 있게 만드는 재질 절제와 건축적 뉘앙스는 놓침
- 출력은 완성 모델보다 단순화된 플레이스홀더에 가까웠고, 공개 전 재작업이 많이 필요한 수준이었음
Claude Opus
- Explore 3D result
- Claude Opus는 Cursor와 Sonnet 사이에 놓임
- Cursor보다 더 완성된 건물을 만들었고 포르티코와 계단식 기단이 더 명확했음
- 하지만 출력이 너무 균일하고 Sonnet보다 덜 설득력 있었음
- 구조는 있었지만 시각적 위계 판단이 부족했음
- 거의 모든 요소의 색과 무게가 같아 디테일이 시선을 안내하기보다 서로 경쟁함
- 갱신된 점수는 3.0/5로, 첫 표 버전보다 더 높게 평가받을 만했지만 Sonnet과 Antigravity 뒤에 남음

핵심 교훈

OpenSCAD는 대상 언어로 잘 버텼음
- 문법이 작고 출력이 결정적이며, CLI가 반복 루프에서 검사 가능한 미리보기를 렌더링함
- LLM들은 OpenSCAD 사용에 별도 손잡이가 필요하지 않았음
도구 사용은 병목이 아니었음
- 모든 에이전트가 macOS PATH의 OpenSCAD를 호출하고 PNG 미리보기를 렌더링함
- 어려운 부분은 배관이 아니라 기하 판단이었음
속도는 품질을 예측하지 못했음
- Cursor는 가장 빨랐지만 가장 약한 결과를 냄
- Sonnet은 기존 자율 실행 중 가장 오래 걸렸지만 가장 깨끗한 모델을 냄
- Antigravity도 느렸지만 Gemini 3.5 Flash High가 계획과 반복 시간을 가진 뒤 최고의 자율 결과를 냄
- ModelRift/Gemini Flash 3.0은 더 오래 걸렸지만, 시각 피드백 덕분에 기존 자율 배치보다 높은 품질에 도달함
미리보기와 내보내기는 같지 않음
- Codex는 렌더 루프에서는 강해 보였지만 최종 STL에서 포르티코 지붕 주변 기하 문제가 생김
- 프린트 대상 모델은 미리보기뿐 아니라 내보낸 메시를 별도로 검사해야 함
어떤 출력도 충실한 건축 모델로 통과할 수준은 아니었음
- Codex의 비문은 좋은 디테일이었음
- Sonnet의 비례는 일관적이었음
- Antigravity의 코퍼 천장은 가장 놀라운 디테일이었음
- ModelRift/Gemini Flash 3.0 결과는 사람이 시각적으로 조정할 때 품질이 어떻게 올라가는지 드러냄
두 장의 참고 이미지와 짧은 프롬프트만으로 모든 시스템이 직접 CAD 코드를 손으로 쓰지 않고도 유효하고 렌더 가능한 OpenSCAD에 도달함
도구 간 품질 차이는 컸지만, 출발선 자체는 예상보다 높았음
완전 자율 생성은 아직 이런 작업의 올바른 워크플로가 아님
- ModelRift에서는 반복 작업에 여전히 Annotation Mode를 사용함
- 3D 모델 스크린샷에 화살표와 노트를 직접 그려 AI에 되돌려주는 방식임
- 공간 기하에서는 최상위 모델을 쓰더라도 휴먼 인 더 루프 단계가 중요함
- 모델이 큰 매스는 맞춰도 기둥 위치나 돔 비례를 틀릴 수 있음
- 렌더 위에서 문제를 직접 가리키는 방식이 텍스트로 설명하는 것보다 빠르고 정확함

▲

GN⁺ 5시간전 [-]

Hacker News 의견들

지난주에 아내 자전거를 Marketplace에서 샀는데, 상태는 좋았지만 내부 케이블 라우팅 고무마개 하나가 빠져 있었음
알약 모양 구멍 사진을 단독으로, 또 디지털 캘리퍼스로 긴 방향과 짧은 방향을 잰 사진과 함께 Claude에 넣었더니, 짧은 프롬프트만으로 모든 치수가 매개변수화된 OpenSCAD 모델을 만들어 줬음
TPU로 수정 없이 출력했는데 첫 시도부터 거의 완벽했고, Claude가 x/y 치수에 0.3mm를 빼도록 해둔 것을 0.1mm로 낮추니 딱 맞았음. 고대 로마 건축보다 훨씬 쉬운 형태지만, 이렇게 쉽게 되는 건 여전히 멋짐
- CAD가 개인적으로 진입 장벽이 높아서 안 하던 기술의 예였는데, 이제는 그럭저럭 못하는 수준으로라도 간단한 일을 해낼 수 있게 됐다는 느낌임
  OpenSCAD와 LLM으로 3D 프린터용 간단한 기능 부품을 만든 경험이 비슷했고, 모델들이 React 코드 생성만큼 잘하지는 못한다는 점도 알고 있으며, 나도 숙련된 조종자와는 정반대임. 그래도 취미 수준에서 새 기술을 배우기 시작하게 만든 건 멋짐
- Claude는 모든 치수를 제공하면 잘하지만, 추측은 못하는 편임
  진짜 마법은 치수 하나나 자가 들어간 사진 하나만 주면 AI가 나머지를 알아내는 순간일 텐데, 적어도 지금 Claude는 추측에 꽤 약함
- 최근에 모델들로 3D 포춘 쿠키를 만들게 해봤는데, Claude는 three.js로, Gemini는 OpenSCAD로 시도했지만 둘 다 개념을 제대로 잡지 못했고 근접하지도 못했음. 의외로 복잡한 형태인 듯함
- 이런 작은 기능성 출력물이야말로 OpenSCAD와 LLM 생성이 빛나는 영역임
- 서포트가 필요 없도록 최적화해 주나?
“Antigravity가 Pantheon의 대표적인 내부 천장 패턴, 즉 오큘러스를 통해 보이는 반복 사각 코퍼 천장을 구현한 유일한 자율 에이전트였다”는 건 정말 인상적임
3D 모델을 봤는데도 이 문장을 읽기 전까지는 건물 내부를 볼 생각조차 못 했음
show_cutaway를 켠 3D 모델은 여기 있음: https://modelrift.com/models/pantheon-benchmark-antigravity-...
- 모델을 만들기 위해 프롬프트에 명확히 들어 있지 않은 외부 정보를 사용한 것이 좋은지 나쁜지 판단이 안 됨
  “Pantheon”을 원한다면 분명 맞는 행동이지만, 제도사나 엔지니어라면 이런 작업물을 받아들이기 어려울 것 같음
- 우연히 내부를 봤는데, 바깥보다 오히려 지능과 노력이 더 잘 느껴졌음
Antigravity가 어떤 벤치마크에서 1위를 했을지는 몰라도, Gemini CLI를 강제로 대체한 내 Antigravity는 쓸 때마다 브라우저 로그인을 요구하고, Antigravity IDE는 아예 업데이트가 안 됨
가능하다면 뭔가에서 1위를 걱정하기 전에 기본적으로 수용 가능한 배포 품질부터 맞춰줬으면 함
실제 제목은 “OpenSCAD LLM Benchmark: Building the Pantheon”임
- 동의함. Google AI 제품에서 가장 걱정되는 건 로그인, 결제, 업그레이드, 제품 종료를 둘러싼 끝없는 사용자 경험 고통임
  그래도 LLM 모델 자체는 좋고 Antigravity 2.0도 그렇게 나쁘지는 않음. 다만 많은 사람처럼 Antigravity 1.0 설정과 프로젝트를 잃었다면 이야기가 달라짐
- Google I/O를 보고 나서 Google의 실행력에 대한 확신이 오히려 줄었음
  Gemini 3.5 Flash는 이상함. 컷오프가 오래됐고, 어떤 면에서는 3.1 Pro보다 낫지만 다른 면에서는 못하며, 때로는 더 싸고 때로는 3.1 Pro보다 비쌈
  Antigravity는 버려진 것처럼 보였고 사람들이 종료를 추측했는데, 실제로 새 Antigravity로 모두를 옮기며 어느 정도 그렇게 됐음
  Google은 조직도를 그대로 제품으로 내보낸 느낌이고, AI 제품이 너무 많은데 어느 것도 동급 최고처럼 보이지 않음. 예를 들어 Google Docs의 Gemini 통합은 Claude보다 못함
  기대했던 건 “Haiku 비용의 Opus급 지능”이나 “Gemini 3.0 가격의 Sonnet급 성능” 모델이었음. 둘 중 하나만 나왔어도 주력 모델이자 Claude/Codex 경쟁자가 됐을 텐데, 어느 쪽도 받지 못했음
- Claude Code와 IntelliJ를 쓰고 있어서, Antigravity가 VS Code를 버렸다고 불평하는 사람이 왜 이렇게 많은지 잘 모르겠음
  Antigravity CLI + VS Code 또는 다른 IDE 조합으로 커버되지 않는 면이 무엇인지 궁금함
- 좋아했고 어떤 면에서는 Claude Code보다 낫다고 봤던 Gemini CLI에서 강제 업그레이드된 것도 나빴음
  그런데 수요일에 보낸 이메일이 “Google One AI Pro 구독 고마운데, 지금부터 계정에 제한을 추가한다. 어쩔 수 없다”는 식이라 정말 불쾌했음. 이전에는 AI Pro 구독이 가성비 좋다고 칭찬했었음
- 작업 흐름이 깨지는 게 Antigravity를 좋아했음에도 채택하지 않은 주된 이유임
  Google이 투자하고 있는 건 반갑지만, 나이가 들수록 내 작업 흐름을 더 지키게 됨
OpenSCAD용으로 온갖 모델과 설정에 대해 벤치마크를 많이 돌려봤는데, 깨달은 점은 이렇음
모델들은 들쭉날쭉해서 어떤 3D 모델 유형에서는 뛰어나도 다른 유형에서는 그렇지 않을 수 있음
내 경험상 Gemini 모델들이 가장 덜 들쭉날쭉하고 이미지 이해가 가장 좋았음
Gemini 모델들은 가장 창의적이기도 한데, 정밀한 CAD 부품을 원한다면 오히려 바람직하지 않을 수 있음
전반적으로 이 벤치마크는 많은 것을 증명하지 못함. 3D 모델 하나와 시도 한 번으로는 충분하지 않기 때문임. 보통 적어도 12개 모델을 각각 3번씩 생성해 테스트하지만, 사실 훨씬 더 많이 해야 함. 다만 개인 개발자에게는 비용이 너무 큼
그래도 공개해줘서 고맙고, Flash 3.5가 어떤 성능을 보이는지 곧 돌려볼 예정임
- OpenSCAD는 곡선을 못 다뤄서 쓸모없다고 봄. 왜 계속 이렇게 주목받는지 모르겠음
LLM이 유효한 3D CAD 모델을 생성하는 능력으로 평가하는 건 흥미로운 벤치마크임
OpenSCAD는 전적으로 코드에 의존하기 때문에 이런 평가에 특히 잘 맞음
직접 해보면 꽤 나쁜 경험이었음. 첫 시도에서는 어느 정도 괜찮은 초안이 나올 수 있지만, 그걸 “디버그”하기 시작하면 매우 답답한 세션 끝에 모델이 결과를 제대로 “볼” 수 없다는 걸 깨닫게 됨
즉, 전혀 반복 개선을 할 수 없음
대부분의 실행 도구나 하네스가 이미지를 처리하기 전에 크기를 줄이고, 그 과정에서 특히 와이어프레임 이미지에 대해 추론하기 어려울 만큼 세부 정보가 사라지는 것 같음
내가 잘못 쓰고 있는 걸 수도 있지만, 이 테스트는 그 부분을 실제로 검증하지 않았음. 그냥 일회성 시도였고, 그런 방식은 꽤 빨리 무너짐. 특히 만들려는 것의 참조 사진이 없으면 더 그렇음
현실 세계 객체 하나를 만들고 그걸 벤치마크라고 선언하는 건 견고한 도구 평가 방식이 아님
Iron Chef처럼 그리스 건축 테마를 주고, 심사위원단이 승자를 정하는 식이어야 함. 지금은 어떤 도구가 주관적으로 가장 그럴듯한 Pantheon을 만들었는지 보는 정도임
- 이건 벤치마크라기보다 “난 이게 마음에 들어!”에 가까움
  단일하고 제대로 정의되지 않은 예제를 두고, 최종 사용 사례도 없이 완전히 주관적인 채점 기준으로 평가하고 있음
Autodesk를 공매도하기엔 아직 갈 길이 멂
참고로 Autodesk는 12월에 Fusion용 에이전트형 어시스턴트를 냈는데, 6개월이 지난 지금도 꽤 별로임
- 거의 우스꽝스러울 정도로 별로임
  최근 몇 주 동안 3D 프린팅용 간단한 부품 몇 개를 설계해야 해서 써봤는데, 각각 타임라인에서 작업 4개 정도면 되는 수준이었음에도 Fusion 명칭에 맞춰 단계별로 자세히 써줘도 원하는 것에 가깝게 만들지 못했음
  지금은 단순한 기본 입체라도 제대로 만들 수 있는지 확신이 안 듦
- 지난달 출시된 Fusion MCP는 써봤나? https://aps.autodesk.com/blog/bringing-fusion-claude-creativ...
- 아직 갈 길은 멀지만, 결국에는 도달할 거라고 봄
납득이 잘 안 됨. Pantheon은 가장 상징적인 역사 건축물 중 하나라 관련 서적도 많고, 학습에 쓰였을 기존 사진과 공개 모델도 많음
제공된 참조만 바탕으로 익명의 구조물을 모델링하는 벤치마크가 더 흥미로울 것 같음. LLM이 할 일 앱을 한 번에 만들어내는 걸 보는 얕은 마술처럼 느껴짐
육아용 기술 기기를 만들고 있는데, 그 외장은 완전히 AI가 생성했음
3D 모델링을 어디서 시작해야 할지 전혀 몰랐는데, LLM이 이것도 다른 것처럼 코드라는 걸 알려줬음
이상하게도 Opus 4.5가 한 번에 완벽하게 만들어줬는데, 이건 성능 저하 논란 직전이었고 그 이후로는 외장을 아주 조금 수정하는 것조차 매우 어려워졌음
Opus가 전문적으로 형태를 머릿속에서 돌려보는 모델에서, 자기가 뭘 다루는지도 모르는 모델로 바뀐 것 같음
- 내 외장도 비슷했음: https://quill.lorehex.co/feather
  다만 4.7은 수정 작업에는 괜찮았음

답변달기

Antigravity 2.0, OpenSCAD 건축 3D LLM 벤치마크에서 1위

벤치마크 목적과 과제

Pantheon과 OpenSCAD를 고른 이유

전체 결과

워크플로 관찰

Google Antigravity 2.0 / Gemini 3.5 Flash High

ModelRift / Gemini Flash 3.0

주요 자율 실행 결과

Codex 5.5 High

Claude Sonnet

Cursor Composer

Claude Opus

핵심 교훈

함께 보면 좋은 글 β

댓글과 토론

Hacker News 의견들