WorldGen – 텍스트로 몰입형 3D 세계 생성
(meta.com)- Meta의 WorldGen은 단일 텍스트 프롬프트로 탐색 가능한 3D 세계를 자동 생성하는 엔드투엔드 생성 AI 시스템
- 절차적 추론, 확산 기반 3D 생성, 객체 인식 장면 분해를 결합해 기하학적으로 일관되고 시각적으로 풍부한 환경 구성
- 생성 과정은 계획(Planning) , 재구성(Reconstruction) , 분해(Decomposition) , 정제(Refinement) 의 4단계로 이루어짐
- 결과물은 Unity, Unreal 등 표준 게임 엔진과 호환되며, 별도의 변환 과정 없이 활용 가능
- 복잡하고 비용이 큰 3D 콘텐츠 제작을 누구나 가능하게 하고 효율화할 잠재력 보유
WorldGen 개요
- WorldGen은 “cartoon medieval village”나 “sci-fi base station on Mars” 같은 텍스트 입력만으로 상호작용 가능한 3D 세계를 수 분 내 생성
- 생성된 세계는 스타일과 주제의 일관성을 유지하며, 캐릭터가 자유롭게 이동 가능한 구조로 연결됨
- 생성형 AI 기술 발전을 기반으로, 단일 텍스트나 이미지 프롬프트에서 완전한 3D 환경을 구축 가능
기술 구조와 생성 단계
- WorldGen은 절차적 블록아웃 생성, Navmesh 추출, 참조 이미지 생성을 포함한 계획 단계로 시작
- 이후 이미지-3D 변환, Navmesh 기반 장면 생성, 기초 텍스처 생성을 수행하는 재구성 단계 진행
- AutoPartGen을 활용한 장면 분해 및 데이터 큐레이션으로 세부 요소를 분리
- 마지막으로 이미지 향상, 메시 정제, 텍스처링 모델을 통한 정제 단계 수행
기존 방식과의 차별점
- 기존 시스템은 단일 시점(viewpoint) 중심으로 생성해 중심부 외곽에서 품질이 급격히 저하됨
- WorldGen은 50×50미터 규모의 완전한 텍스처 장면을 생성하며, 스타일과 기하학적 일관성을 유지
- 향후 더 큰 세계 규모를 목표로 연구 진행 중
호환성과 활용 가능성
- 현재는 연구 단계로 개발자에게 공개되지 않았으나, 생성된 콘텐츠는 Unity, Unreal 등에서 바로 사용 가능
- 별도의 렌더링 파이프라인 변환이 필요 없음
한계와 향후 방향
- 현 모델은 공간 크기와 생성 지연(latency) 측면에서 개선 여지 존재
- 향후 버전은 더 큰 공간 생성과 속도 향상을 목표로 함
산업적 의의
- 3D 콘텐츠 제작의 복잡성과 비용 부담을 줄이고, 비전문가도 가상 세계를 구축할 수 있는 가능성 제시
- Meta가 Connect 행사에서 제시한 “코드 한 줄 없이 누구나 가상 세계를 만들 수 있는 미래” 비전과 일치
감사 명단
- 프로젝트는 Reality Labs 3D GenAI 팀이 수행
- 주요 기여자: Dilin Wang, Hyunyoung Jung, Tom Monnier, Kihyuk Sohn 등 (†표시는 프로젝트 리드)
Hacker News 의견
-
재미있는 데모이긴 하지만 건물 안으로 들어가지 못하고, 건물 크기나 마을 배치가 거의 같으며 시각적 불일치가 많음
결국 비슷한 상자들을 격자 위에 배치해놓고 그 사이를 돌아다니는 수준 같음
발전이 점진적으로 이루어진다는 건 알지만, 다른 월드 생성 데모에 비하면 너무 작은 걸음처럼 보임- AI가 만든 마을들이 마치 엄격한 도시계획 규제를 받은 것처럼 보임
모든 건물이 격자 위에 일정 간격으로 배치되어 있고, 높이 제한도 있는 듯함
현실적인 오픈월드 게임(GTA, Cyberpunk 등)은 일부러 막다른 길이나 잠긴 문 같은 ‘디자인된 혼잡함’ 이 존재함
모든 길이 흥미로운 곳으로 이어지면 오히려 탐험의 재미가 사라짐 - 이 데모는 World Labs 같은 다른 예시보다 콘텐츠 제작 파이프라인에서 더 유용할 수 있음
명시적 자산을 사용하는 방식이라면 게임 제작에 더 적합할 수도 있음
Meta가 이 분야의 핵심 논문들을 많이 내왔고 Hyperscape도 있으니, 다른 방향의 실험적 시도로 볼 수 있음 - 작동하는 실제 데모 링크가 보이지 않음
- 대부분의 게임도 건물 안에 못 들어감. Cyberpunk에서도 문이 열리는 경우는 극히 일부임
일반 사용자도 이런 worldgen 엔진을 직접 써볼 수 있는 날이 언제 올지 궁금함
Google, Meta, Tencent가 계속 시연만 하고 실제 공개는 안 하는 이유가 뭘까 싶음
- AI가 만든 마을들이 마치 엄격한 도시계획 규제를 받은 것처럼 보임
-
이건 기존 GenAI 기술을 조합한 엔지니어링 파이프라인처럼 보임
결과물도 SOTA 수준은 아니고, 진전이라기보단 막다른 접근법 같음
진짜 혁신은 텍스처가 포함된 메쉬를 엔드투엔드 학습 모델로 바로 생성하는 것일 텐데, 그걸 못 했다는 건 아직 핵심 기술이 부족하다는 뜻일 수도 있음
그래도 향후 모델 학습용 데이터셋을 부트스트랩하는 용도로는 쓸 수 있을 듯함- 현재 이 분야의 SOTA 기술이 무엇인지 궁금함
- 개발자들이 상부의 요구를 맞추느라 최선을 다했겠지만, 대기업의 혁신 한계를 보여주는 사례로 보임
-
이건 ‘월드 모델’이라기보다 3DAssetGen에 가까움
실제 세계를 생성하지 않고, 단순히 자산을 조합한 수준임
수작업으로 만든 월드가 훨씬 낫고, 심지어 RPG Maker로 만든 게임보다도 덜 매력적임- 실제로는 작은 정사각형 구역만 생성하는 듯함. 이런 격자형 월드는 플레이어에게 불편함을 줄 것임
그래도 첫 시도라는 점에서 의미가 있고, AI가 메타버스 월드 제작의 장벽을 낮출 수 있을 거라 기대함
GTA 같은 작은 섬 하나 만드는 데도 막대한 시간과 비용이 드는 현실을 생각하면 더 그렇음 - 페이지 어디에도 ‘월드 모델’이라는 표현은 없음
- 실제로는 작은 정사각형 구역만 생성하는 듯함. 이런 격자형 월드는 플레이어에게 불편함을 줄 것임
-
차라리 5달러짜리 에셋 스토어에서 건물 모델을 사는 게 낫겠음
굳이 수십억 달러를 들여 데이터센터를 세우고 환경을 파괴하면서 이런 걸 만들 이유가 있을까 싶음- 그 돈으로 Quaternius 같은 로우폴리 아티스트를 지원하는 게 낫다고 생각함
요즘 3D 아티스트들이 무료로 자산을 배포할 의지가 있는지도 궁금함
- 그 돈으로 Quaternius 같은 로우폴리 아티스트를 지원하는 게 낫다고 생각함
-
첫 번째 영상의 분위기가 Warcraft 3나 DotA를 떠올리게 함
단순한 맵 하나가 온라인 게임과 e스포츠를 완전히 바꿨던 시절이 있었음
지금은 훨씬 더 고품질의 온디맨드 월드를 만들 수 있는데, 그때의 단순한 맵이 오히려 더 위대하게 느껴짐 -
결국 우리가 원하는 건 더 나은 SimCity일 뿐인데, 왜 이렇게 많은 월드 생성 모델과 데이터센터가 필요한지 모르겠음
막대한 전력과 물을 쓰면서 가짜 마을을 만드는 게 아이러니함
나도 Red Dead 같은 게임에 빠질까봐 콘솔을 일부러 안 삼
이런 기술이 실제로 누구에게 이익이 되는지 의문임 -
링크를 눌렀더니 404 오류가 나서 검색해보니, 5월에 이미 같은 이름의 Worldgen 프로젝트가 있었음
그쪽이 훨씬 현실적인 3D 장면을 잘 구현한 듯함- 하지만 그건 사실상 2D 이미지를 3D처럼 보이게 한 트릭에 가까움
카메라를 조금만 움직여도 바로 깨짐
- 하지만 그건 사실상 2D 이미지를 3D처럼 보이게 한 트릭에 가까움
-
논문 자체는 꽤 괜찮았음
개별 메시 처리 방식에 대한 흥미로운 세부 내용이 있음
논문 링크 -
“인터랙티브”라는 단어를 여러 번 쓰길래 문을 열거나 물건을 집는 진짜 상호작용을 기대했는데,
실제로는 1인칭 시점으로 둘러볼 수 있다는 의미였음
그런 정의라면 모든 3D 모델이 다 인터랙티브라고 할 수 있음 -
2D 확산 기반 파노라마 생성 → 포인트 클라우드 변환 → 3D 리프팅 → 2D 인페인팅 → 3D 가우시안 스플래팅 최적화
이런 식으로 이미지를 이어붙여 3D로 만든 것임
개념적으로는 월드 모델이라 부르기 애매한 접근이라 용어의 모호함이 아쉬움