# Nvidia Cosmos 3

> Clean Markdown view of GeekNews topic #30105. Use the original source for factual precision when an external source URL is present.

## Metadata

- GeekNews HTML: [https://news.hada.io/topic?id=30105](https://news.hada.io/topic?id=30105)
- GeekNews Markdown: [https://news.hada.io/topic/30105.md](https://news.hada.io/topic/30105.md)
- Type: GN+
- Author: [xguru](https://news.hada.io/@xguru)
- Published: 2026-06-02T11:59:35+09:00
- Updated: 2026-06-02T11:59:35+09:00
- Original source: [developer.nvidia.com](https://developer.nvidia.com/blog/develop-physical-ai-reasoning-world-and-action-models-with-nvidia-cosmos-3/)
- Points: 1
- Comments: 1

## Topic Body

- **NVIDIA Cosmos 3**는 물리 AI를 위한 단일 오픈 기반 모델로, 물리 추론·월드 생성·행동 생성을 하나의 모델 안에서 결합함
- **Mixture-of-Transformers** 구조는 Reasoner tower와 Generator tower를 나눠 입력 이해와 물리 인식 생성 출력을 연결하며, 여러 모델과 추론 파이프라인을 조율할 필요를 줄임
- **Cosmos 3 Nano**는 16B 파라미터로 워크스테이션급 추론을 겨냥하고, **Cosmos 3 Super**는 64B 파라미터로 데이터센터 배포와 고품질 합성 데이터 생성을 겨냥함
- NVIDIA는 모델 체크포인트, 학습 스크립트, 배포 도구, 여섯 개 합성 데이터셋, NIM 마이크로서비스를 공개해 로보틱스·자율주행·창고 자동화 도메인 적응을 지원함
- **HUE**와 여러 공개 벤치마크에서 Cosmos 3는 물리 AI 추론·생성 품질·도메인 성능을 평가받으며, Super와 Nano가 VANTAGE-Bench의 32B·8B 티어에서 각각 선두를 보임

---

### Cosmos 3의 핵심 변화
- [NVIDIA Cosmos 3](https://www.nvidia.com/en-us/ai/cosmos/)는 로봇, 자율주행차, 스마트 공간 같은 물리 AI 시스템이 세계를 이해하고 다음 상황을 예측하며 특정 환경·형태·작업에 맞는 행동을 생성하도록 설계된 프런티어 기반 모델임
- 이전 Cosmos 릴리스는 월드 생성, 물리 이해, 제어된 장면 생성을 서로 다른 모델과 워크플로로 분리했지만, Cosmos 3는 이를 하나의 모델로 통합함
- 이번 릴리스는 [Hugging Face](https://huggingface.co/collections/nvidia/cosmos3)의 모델 체크포인트, [GitHub](https://github.com/nvidia/Cosmos)의 코드, 공개 데이터셋, 후속 학습 스크립트, NVIDIA GPU 배포용 Cosmos NIM 마이크로서비스를 제공함

### 두 타워 구조
- Cosmos 3는 두 개의 타워를 중심으로 한 [Mixture-of-Transformers](https://www.nvidia.com/en-us/glossary/mixture-of-transformers/) 구조를 사용함
- **Reasoner tower**는 이미지, 비디오, 텍스트 같은 멀티모달 관찰을 해석하는 비전-언어 모델(VLM)이며, 자기회귀 구조로 입력을 해석하고 움직임, 객체 상호작용, 물리적 맥락을 이해함
- **Generator tower**는 Reasoner tower의 이해를 조건으로 물리 인식 비디오와 행동 출력을 확산 기반 과정으로 생성함
- Reasoner는 독립적으로 호출할 수 있지만, Generator는 안내된 생성을 위해 항상 두 타워를 모두 활성화함
- 이 구조는 추론과 생성 작업을 단일 모델에서 처리해 여러 모델과 추론 파이프라인 사이의 오케스트레이션을 줄임

### 모델 크기 선택
- [**Cosmos 3 Nano**](http://huggingface.co/nvidia/Cosmos3-Nano)는 16B 파라미터의 컴팩트 모델이며, 효율적인 추론에 최적화돼 있음
- Nano는 NVIDIA RTX PRO 6000 GPU 같은 워크스테이션급 컴퓨트에서 실시간 로보틱스 추론과 물리 AI 애플리케이션을 실행하도록 설계됨
- [**Cosmos 3 Super**](https://huggingface.co/nvidia/Cosmos3-Super)는 64B 파라미터 모델이며, 최대 품질과 기능을 목표로 함
- Super는 가장 높은 벤치마크 점수를 제공하며 NVIDIA Hopper와 NVIDIA Blackwell GPU 기반 데이터센터 배포를 겨냥함
- Super는 대규모 합성 데이터 생성과 고급 물리 추론 워크로드에 적합함

### 공개 데이터셋
- NVIDIA는 Cosmos 3 릴리스와 함께 Hugging Face에 여섯 개 합성 데이터 생성(SDG) 데이터셋을 공개함
- 이 데이터셋들은 Cosmos 3와 다른 모델의 후속 학습에 사용할 수 있으며, 로보틱스, 물리 시뮬레이션, 공간 추론, 인간 동작, 주행, 창고 환경을 다룸
- 공개 데이터셋:
  - [Embodied robot scenes](http://huggingface.co/datasets/nvidia/PhysicalAI-SDG-RobotSim)
  - [Physical interaction scenes](http://huggingface.co/datasets/nvidia/PhysicalAI-SDG-PhysxSim)
  - [Spatial reasoning](https://huggingface.co/datasets/nvidia/PhysicalAI-WorldModel-Synthetic-Spatial-Reasoning)
  - [Digital human scenes](http://huggingface.co/datasets/nvidia/PhysicalAI-SDG-SynHuman)
  - [Autonomous driving scenarios](http://huggingface.co/datasets/nvidia/PhysicalAI-SDG-DriveSim)
  - [Warehouse operations scenes](http://huggingface.co/datasets/nvidia/PhysicalAI-SDG-WareHouse)

### HUE 평가 프레임워크
- NVIDIA Cosmos Human Evaluation(HUE)은 대표 도메인 작업에서 Cosmos 3 Generator의 품질을 평가함
- 최신 비디오 생성 모델들이 기존 자동 리더보드에서 포화되면서 릴리스 간 점수 차이가 의미 있는 비교에 충분하지 않은 경우가 많아짐
- HUE는 주관적 채점 대신 객관적 사실 검증으로 평가를 바꾸며, 상위 모델 사이의 세밀한 비교를 가능하게 함
- HUE는 생성 비디오를 네 가지 차원에 걸친 단일 사실 yes/no 질문으로 분해함
  - 의미 정렬
  - 물리 법칙
  - 기하 추론
  - 시각적 무결성
- 질문은 로보틱스, 자율주행차, 물리 등 일곱 개 Physical AI 도메인을 포괄함
- 질문은 VLM 파이프라인으로 생성되고 인간 전문가가 정제하며, [Hugging Face](https://huggingface.co/datasets/nvidia/Cosmos-HumanEval-v1)에 오픈소스로 공개됨

### 벤치마크 결과
- Cosmos 3는 물리 AI 추론, 생성 품질, 도메인별 성능을 다루는 여러 벤치마크 제품군에서 평가됨
- 추론 벤치마크에서 Cosmos 3 Super와 Cosmos 3 Nano는 [VANTAGE-Bench](https://huggingface.co/spaces/clemson-computing/VANTAGE-Bench-Leaderboard)의 32B 티어와 8B 티어에서 각각 선두를 기록함
- VANTAGE-Bench는 창고, 교통, 스마트 공간의 실제 고정 카메라 영상을 대상으로 비전-언어 모델을 평가하는 첫 공개 벤치마크임
- [Traffic Anomaly Reasoning](https://eval.aicitychallenge.org/aicity2026/submission/leaderboard?trackId=3&type=general)(TAR)은 교통 영상에서 이상 이벤트를 탐지하고 추론하는 새 리더보드이며 AI City Challenge 2026 Track 3의 공식 리더보드임
- 생성 벤치마크에서 Cosmos 3는 공개 리더보드 기준 오픈소스 SOTA이며 PAI-Bench, R-Bench Physics-IQ, RoboLab에서 선두를 보임
- [Artificial Analysis](https://artificialanalysis.ai/)에서는 Cosmos 3가 [Text to Image leaderboard](https://artificialanalysis.ai/image/leaderboard/text-to-image)와 [Image to Video (no audio) leaderboard](https://artificialanalysis.ai/video/leaderboard/image-to-video?audio-output=false)에서 선두 오픈소스 모델로 평가됨
- [R-Bench](https://github.com/DAGroup-PKU/ReVidgen/)는 로봇 비디오 생성에서 비디오 기반 월드 모델을 평가하며, 구조적 일관성, 물리적 타당성, 실행 완성도 같은 하위 지표를 사용함
- [PAI-Bench](https://github.com/SHI-Labs/physical-ai-bench)는 로보틱스, 자율주행차, 물리 상식 같은 도메인에서 비디오 이해와 비디오 생성을 평가함
- [Physics-IQ](https://physics-iq.github.io/)는 생성 비디오 모델이 시각적 사실성만 달성하는지, 실제 물리 원리를 이해하는지 테스트함
- [RoboLab](https://research.nvidia.com/labs/srl/projects/robolab/)은 작업 일반화 로봇 정책을 평가하는 시뮬레이션 벤치마크임

### 학습 레시피와 도메인 적응
- Cosmos 3 릴리스는 모델 체크포인트를 넘어 코드, 설정, 워크플로를 공개해 새 도메인, 형태, 데이터셋에 모델을 적응시킬 수 있게 함
- 지도 미세조정(SFT)은 개발자가 Cosmos 3 모델을 자체 데이터에 맞게 조정하도록 지원함
- 공개 레시피는 커스텀 비디오 데이터셋을 위한 비전 생성 후속 학습과 로보틱스·물리 AI 워크플로를 위한 행동 중심 레시피를 다룸
- 개발자는 로보틱스, 자율주행, 창고 자동화 목표 도메인에 맞게 Cosmos 3를 커스터마이즈할 수 있음
- [후속 학습 코드와 설정](https://github.com/NVIDIA/cosmos-framework/blob/main/docs/training.md)은 GitHub에서 제공됨
- 행동 후속 학습은 Cosmos 3를 forward dynamics, inverse dynamics, policy generation 같은 행동 인식 Physical AI 애플리케이션에 맞게 조정함
- 로보틱스에서는 로봇 행동을 조건으로 미래 관찰을 생성하고, 관찰된 시연 뒤의 행동을 추론하고, 현재 관찰과 작업 프롬프트에서 행동 시퀀스를 예측하는 워크플로를 지원함

### NIM 마이크로서비스 배포
- Cosmos 3 모델은 최적화된 프로덕션 배포를 위해 [NVIDIA NIM microservices](https://build.nvidia.com/)로도 제공됨
- NIM 마이크로서비스는 모델과 최적화된 추론 런타임을 패키징해 서빙 인프라를 직접 튜닝하지 않아도 높은 성능을 내도록 함
- 추론 워크플로에서는 NIM 마이크로서비스가 Cosmos 3 GitHub 저장소보다 사용하기 쉽고, GitHub 저장소는 후속 학습 워크플로에 더 적합함
- Cosmos 3 Reasoner NIM은 현재 Cosmos 3 모델의 추론 기능을 제공함
- NIM은 BF16, FP8, NVFP4 양자화 체크포인트 선택을 지원함
- NVFP4 양자화는 모델의 수치 정밀도를 BF16에서 4비트 부동소수점으로 낮춰 최대 2배 추론 속도 향상을 달성함
- Cosmos 3 Reasoner NIM 서빙 스택은 vLLM을 기반으로 하며, vLLM은 continuous batching, paged attention, tensor parallelism 같은 기법으로 LLM을 효율적으로 서빙하는 오픈소스 추론 엔진임
- Cosmos 3 Nano는 vLLM-omni와 NVIDIA Dynamo로 실행할 수 있음
- Efficient Video Sampling(EVS)은 추론 중 VLM에 입력되는 비디오 토큰 수를 줄여 Cosmos Reason NIM 속도를 높임
- EVS는 프레임마다 가장 고유한 청크를 유지하고 나머지를 가지치기하며, 작은 GPU일수록 이 기법의 이점이 더 큰 경향을 보임

### 실행 방법
- 컨테이너를 가져오고 NGC에서 Cosmos 3 모델을 다운로드하려면 NVIDIA NGC API 키가 필요함
- Cosmos 3 Nano Reasoner NIM 실행 예시는 다음과 같음
- Cosmos 3 Super Reasoner NIM을 사용하려면 `NIM_MODEL_SIZE=super`를 지정함

```bash
docker run --gpus=all \
  -e NGC_API_KEY=$NGC_API_KEY \
  -e NIM_MODEL_SIZE=nano \
  -p 8000:8000 \
  nvcr.io/nim/nvidia/cosmos3-reasoner:latest
```

- API 사용법과 추가 정보는 [문서](https://docs.nvidia.com/nim/vision-language-models/latest/introduction.html)에서 확인할 수 있음

### 시작 리소스
- Cosmos 3 Nano와 Super 체크포인트는 [Hugging Face](https://huggingface.co/collections/nvidia/cosmos3)에서 다운로드할 수 있음
- 예제와 코드는 [Cosmos 3 GitHub](https://github.com/nvidia/Cosmos)에서 확인할 수 있음
- [Cosmos 3 Nano Reasoner model experience](https://build.nvidia.com/nvidia/cosmos3-nano-reasoner)와 [Cosmos 3 Nano model experience](https://build.nvidia.com/nvidia/cosmos3-nano)를 체험할 수 있음
- GitHub와 [Discord](https://discord.com/invite/nvidiaomniverse)를 통해 Cosmos 생태계에 참여하고 이슈를 열고 기여할 수 있음

## Comments


### Comment 58799

- Author: neo
- Created: 2026-06-02T11:59:36+09:00
- Points: 1

###### [Hacker News 의견들](https://news.ycombinator.com/item?id=48356654) 
- 이미지·동영상 생성용 **최첨단 오픈소스 모델**임  
  다른 모델들을 앞서지만 **640억 매개변수**라서 대부분의 개인용 컴퓨터에서는 돌리기엔 너무 큼  
  그래도 인공적으로 생성한 학습 데이터셋을 썼다는 점을 감안하면 인상적임  
  Nano Banana 1은 이기지만, 아직 Nano Banana 2나 Seedance2, Grok Imagine 등과 경쟁할 수준은 아님
  - 대기업의 뻔한 제품 발표 글은 이제 클릭도 안 하고 바로 댓글로 가게 되는 게 씁쓸하게 아이러니함  
    기업 제품 발표는 첫 아홉 단어로 전달한 기본 사실조차 명확히 말하지 못하는 경우가 많음  
    다만 빠진 뉘앙스가 하나 있는데, 이건 로봇과 자율주행차 AI 학습에 유용하도록 겨냥한 **월드 모델**임  
    그래서 Nano Banana나 Seedance의 직접 경쟁자라기보다는, 이미지·동영상 생성도 가능하지만 핵심은 AI 학습 시나리오를 위한 물리 데이터와 하네스를 제공하는 데 있음
  - 이미지·동영상 생성 모델은 로컬 모델이 프런티어 모델에 얼마나 가까운지 가늠하기 좋은 **현실 점검 기준**으로 더 이해하기 쉬움

- “Cosmos 3 Nano는 160억 매개변수를 가진 소형 버전이며 효율적인 추론에 최적화돼 있다. NVIDIA RTX PRO 6000 GPU 같은 워크스테이션급 연산 환경에서 실시간 로보틱스 추론과 물리 AI 애플리케이션을 실행하도록 설계됐다.”  
  이걸 돌리려면 그만큼 비싼 세팅까지 필요한 **1만 달러 이상 워크스테이션급 GPU**에서 테스트해볼 날이 기대됨
  - GPU는 있는데 로봇이 없음. 이걸 가지고 놀려면 **최소 기능 로봇**이 어느 정도 필요할까?
  - 좋은 소식은 Nvidia가 이걸 돌릴 수 있는 새 **RTX Spark 노트북**을 기꺼이 팔아줄 거라는 점임

- 이번 릴리스는 두 개의 타워를 중심으로 한 **Mixture-of-Transformers(MoT)** 구조로 기능들을 통합함  
  추론 타워는 비전-언어 모델(VLM)로, 생성이 일어나기 전에 세계를 추론하는 “두뇌” 역할을 함  
  생성 타워는 미래 관측과 행동 시퀀스를 생성하며, 추론 타워의 이해를 조건으로 물리를 고려한 동영상과 행동 출력을 확산 기반 과정으로 만들어냄  
  이런 접근은 모델 구조 간 절충을 최적화하고 균형을 맞춰 두 가지의 장점을 합치려는 엔지니어 본능을 자극함  
  하지만 내가 이해한 **Bitter Lesson**([http://www.incompleteideas.net/IncIdeas/BitterLesson.html](<http://www.incompleteideas.net/IncIdeas/BitterLesson.html>))에 따르면 장기적으로는 정확히 잘못된 방향임  
  Bitter Lesson의 실제 글을 링크한 이유는 이 개념이 자주 오해된다고 보거나, 적어도 담론에서 쓰이는 방식에 동의하지 않기 때문임  
  핵심은 AI 연구자들이 에이전트에 지식을 심으려 했고, 단기적으로는 도움이 되며 연구자에게 만족감을 주지만, 장기적으로는 정체되고 발전을 막으며, 결국 탐색과 학습을 통한 연산 확장이라는 반대 접근이 돌파구를 만든다는 역사적 관찰임  
  이 구조는 단기적으로 도움 될 지식을 에이전트에 심는 방식처럼 느껴지고, 장기적으로는 **정체**될 가능성이 크다고 봄  
  물론 그 위에서 흥미로운 학습이나 산출물이 나올 수는 있겠지만, 이런 접근에서 짜낼 수 있는 여지가 많다고 보지는 않음
  - 내게는 오히려 반대로 느껴짐  
    MoT 구조는 Bitter Lesson이 암시하는 이상형처럼 보임. 오디오, 이미지, 텍스트, 행동, 동영상 같은 모든 형식의 데이터를 하나의 **공유 잠재 공간**에 넣고, 모델이 알아서 정리하게 두는 방식임  
    다만 시퀀스 모델링·예측에는 자기회귀적 처리를, 생성에는 확산 처리를 쓰는 식으로 서로 다른 요구사항과 출력 형식을 다룰 최소한의 구조만 둔 것에 가까움
  - 이건 대체로 **압축 해제**에 가까우며 요즘은 꽤 표준적인 방식임  
    내부의 압축된 표현에서 사람이 쓸 수 있는 형태로 데이터를 꺼내는 게 목적임  
    기술적으로는 픽셀이나 문자 수준 인코딩에서도 추론할 수 있지만 일반적으로 훨씬 비쌈  
    전체 기법을 컴퓨터를 더 빠르게 돌리기 위한 방법으로 보면 됨  
    Qwen talker나 대부분의 멀티모달 프로젝터 등에서도 볼 수 있음
  - 다만 이 모델은 텍스트 LLM보다 **도메인 범위**가 넓음  
    동영상 입력도 받기 때문에 예전의 옴니 모델보다도 더 넓음  
    구조는 특이하지만, 매일 공개되는 오픈 모델들보다 더 극단적인 튜닝이 들어갔다고 보이진 않음

- 창고 안전 동영상 예시는 정말 웃김. 사람들이 전혀 **반응하지 않음**
  - 자동차 동영상도 이상함. 교차하는 밴이 명백히 빨간불을 무시하고 지나감  
    교차로에 드리운 가로등 기둥의 큰 그림자도 전혀 말이 안 됨

- 두 타워짜리 **Mixture-of-Transformers** 설계, 즉 자기회귀 추론기가 확산 생성기에 입력을 주는 방식은 흥미로운 구조적 베팅임

- 이게 뭘 하는 건지 이해하기 어렵다  
  “미래 관측과 행동 시퀀스를 생성한다”는 말은 그냥 동영상 생성의 복잡한 표현인가?
  - 아님. 차이는 **행동** 부분에 있음  
    이 월드 모델은 예를 들어 로봇 행동을 조건으로 삼기 때문에, 단순 동영상 생성만으로는 못 하는 두 가지가 가능함  
    특정 행동 뒤에 이어질 미래 프레임을 예측할 수 있고, 같은 시작 프레임에서도 행동을 바꾸면 다른 미래가 나옴  
    또 역방향으로 실행해 관측된 프레임 뒤의 행동을 추론하거나 목표에 도달하는 데 필요한 행동을 출력할 수 있음  
    이때 출력은 동영상 프레임이 아니라 모터 명령임
  - 내가 이해하기로는 컴퓨터 비전과 동영상 생성을 모두 뜻하고, 이를 꽤 견고한 **월드 모델**로 연결함  
    호스팅된 예시 중 하나는 기존 동영상 분석만 수행하고, 다른 하나는 정적 이미지에서 동영상을 예측하는, 즉 동영상 생성을 수행하는 방식임
  - 이게 무엇이고 왜 그렇게 표현했는지 상상해보면, AI 로봇 분야에는 Unity나 Unreal식의 변형 불가능한 강체 물리보다 더 나은 물리를 가진 **초현실적 게임 엔진**이 필요함  
    동시에 공학용 유한요소법 시뮬레이션과 달리 1배속보다 훨씬 빨라야 하고, 이 모델은 그 수요를 겨냥한 것 같음
  - 지원 양식 표를 보면 됨. 이미지, 동영상, 텍스트, 행동을 입력으로 받고 이미지, 동영상, 텍스트, 행동을 출력할 수 있음
  - 로봇, 자동차, 드론 같은 **물리 AI**를 학습시키기 위한 합성 데이터를 생성하는 데 쓸 수 있음  
    로봇을 사람들 집에 보내지 않고도 1인칭 시점으로 세계를 시뮬레이션해 학습 데이터를 만들 수 있음

- 선택한 예시 대부분이 별로 좋아 보이지 않음  
  나쁜 게임 엔진과 **AI 잡동사니**가 이상하게 섞인 느낌임  
  이런 게 실제 응용을 위한 좋은 학습 데이터가 된다고 상상하기 어려움
  - 이 데모들은 솔직히 꽤 좋아 보임  
    그리고 이런 기술과 유사 기술이 모든 선도 자율주행차 제조사에서 대규모로 쓰인다는 건 객관적으로 사실이라, 귀납적으로 보면 그 사용처에는 충분히 좋다고 볼 수 있음  
    Cosmos에서 일하진 않지만, 현재 Nvidia에서 표면적으로 비슷한 비공개 기술을 작업 중이고 많은 선도 업체가 사용함  
    내 의견으로는 품질도 비슷함  
    관련 공개 연구 일부는 여기 있음  
    [https://github.com/nv-tlabs/3dgrut/](<https://github.com/nv-tlabs/3dgrut/>)  
    [https://github.com/NVIDIA/harmonizer](<https://github.com/NVIDIA/harmonizer>)  
    [https://github.com/NVIDIA/instant-nurec](<https://github.com/NVIDIA/instant-nurec>)  
    [https://github.com/nvidia/ncore](<https://github.com/nvidia/ncore>)  
    Nvidia는 내가 작업하는 것 중 적어도 일부에 **Gsplat**도 통합하고 있으며 업스트림에도 기여하고 있음  
    [https://github.com/nerfstudio-project/gsplat](<https://github.com/nerfstudio-project/gsplat>)

- 온갖 기술 발전을 이뤘는데도 사이트가 **높은 부하**를 버거워하고 있다는 게 웃김