안녕하세요, 서울대학교 AIDAS 연구실(https://aidas.snu.ac.kr/)에서 공개한 옴니모달 파운데이션 모델 Dynin-Omni(https://dynin.ai/omni/)를 소개드립니다. 텍스트, 이미지, 음성, 비디오를 하나의 모델에서 이해하고 생성까지 하는 통합 구조입니다.
요즘 멀티모달 통합 모델들 보면 LLM에 이미지 생성기 혹은 TTS 모델을 붙인 구조가 많은데, 실제로 사용해보면 파이프라인이 복잡해서 느리기도 하고 가끔 오케스트레이션이 꼬이는 경우도 있습니다.
또 모델이 외부 생성기 없이 네이티브하게 이해와 생성을 지원한다 하더라도 대부분 Autoregressive(AR) 기반이라 토큰을 순서대로 생성해야 하는데, 이미지나 영상은 사실 순차적인 데이터도 아니라서 이 방식이 좀 어색하다고 느꼈습니다.
그래서 아예 접근을 바꿔봤습니다.
토큰을 하나씩 생성하는 대신, 마스킹해놓고 한 번에 복원하는 masked diffusion 방식을 채택했습니다. 이렇게 하면, 작업 자체가 전부 “어떤 토큰을 가리고 복원할 것인가”로 통일됩니다.
예를 들어:
- 이미지 보고 설명 → 텍스트만 채우기
- 텍스트로 이미지 생성 → 이미지 토큰 채우기
- 음성 생성 → 음성 토큰 채우기
이런 식입니다.
그래서 별도로 이미지 생성 모델이나 TTS 모델을 붙이지 않고, 하나의 모델에서 이해랑 생성을 같이 처리할 수 있게 되었습니다. 성능은 단일 모델 기준으로 꽤 잘 나오는 편입니다.
텍스트 추론은 최근 LLM과 비교해 견줄만한 수준이고, 이미지 및 비디오 이해는 InternVL, Qwen2.5-VL 같은 비전 모델들과 경쟁 가능한 수준입니다. 이미지 생성은 FLUX 같은 전문 모델, 음성은 Qwen-TTS 계열 같은 전문 모델과 근접한 수준까지 나왔습니다.
속도 측면에서도 효율성을 확보했습니다. 텍스트 생성 속도는 Qwen2.5-Omni 및 MiniCPM-o4.5 대비 약 4~5배 빠르며, vLLM에서 최적화된 언어 모델인 Qwen3-8B 대비로도 약 2.5배 빠른 수준을 보입니다. 이미지 생성의 경우에도 기존 전문 생성 모델 대비 약 2배 적은 스텝으로 유사한 품질을 달성하고 있습니다.
최근 등장한 Qwen3.5-Omni와 같은 AR 기반 인지 중심 옴니모달 모델들은 주로 이해에 초점을 두는 반면, Dynin-Omni는 이해와 생성을 하나의 구조로 통합합니다. 토큰을 순차적으로 생성하는 대신 전체를 한 번에 복원하는 방식이기 때문에, 이미지나 비디오처럼 비순차적인 데이터에 더 빠르고 자연스럽게 대응할 수 있습니다.
이러한 구조는 에이전트나 로보틱스처럼 다양한 입력을 동시에 이해하고 실제 행동이나 결과를 생성해야 하는 도메인에서 더욱 중요합니다. 여러 모델을 조합하는 방식과 달리, 하나의 모델이 직접 처리함으로써 시스템 복잡도를 줄이고 비용과 속도 측면에서 이점을 제공합니다.
또한 이해와 생성을 하나의 프레임워크로 통합한 구조이기 때문에, 새로운 모달리티나 태스크가 추가되더라도 별도의 모델을 결합할 필요 없이 동일한 구조 내에서 다양한 도메인에 자연스럽게 확장할 수 있습니다.
이러한 구조를 실제 서비스 환경에서도 활용할 수 있도록, vLLM 및 dInfer, SGLang 기반의 서빙 인프라에 통합을 진행 중입니다. 멀티모달 입력과 생성을 하나의 모델로 처리하는 만큼, 효율적인 추론 인프라 역시 중요한 요소라고 보고 있습니다.
나아가, 본 모델을 기반으로 로보틱스 및 에이전트 환경을 포함한 physical AI 모델로 확장하는 Dynin-Robotics도 함께 연구 중입니다. 다양한 센서 입력을 통합적으로 이해하고 실제 행동으로 이어지는 end-to-end 구조를 목표로 하고 있습니다.
앞으로 중국 칭화대학교의 GLM 시리즈, 상하이 인공지능 실험실의 InternLM 처럼 계속적인 연구, 개발로 발전시켜 나갈 계획입니다. 혹시 보시고 개선 아이디어 있으면 편하게 말씀 주세요 👍