1P by GN⁺ 1일전 | ★ favorite | 댓글 1개
  • Qwen VLo는 통합 멀티모달 이해 및 생성 모델로, 이미지 이해뿐 아니라 고품질의 이미지 생성을 제공함
  • 사용자는 자연어로 창의적인 명령을 내릴 수 있으며, 스타일 변환, 배경 변경 등 다양한 이미지를 직접 생성 및 편집 가능함
  • 여러 언어를 지원하여 전 세계 사용자가 언어 장벽 없이 손쉽게 이용 가능함
  • 이미지를 계속적으로 개선 및 최적화하는 점진적 생성 방식을 채택하여, 향상된 시각적 품질과 높은 제어성을 제공함
  • 아직 미리보기 단계로 일부 기능의 불안정성이 있을 수 있지만, 지속적 개선 중임

소개

  • 멀티모달 대형 모델의 발전은 기술의 한계를 끊임없이 확장하는 중임
  • QwenVL에서 시작해 Qwen2.5 VL까지 이미지 콘텐츠 이해를 강화해왔으며, 이제 Qwen VLo는 이해와 생성 모두를 아우르는 새로운 멀티모달 모델로 등장함
  • Qwen VLo는 세상을 "이해"하는 데서 나아가, 그 이해를 바탕으로 디테일한 이미지 "생성"까지 할 수 있음
  • 이 모델은 지각과 창조의 경계를 실질적으로 연결함
  • 현재는 프리뷰 버전으로 Qwen Chat에서 사용 가능하며, "귀여운 고양이 그림 생성" 같은 명령으로 이미지를 만들 수 있고, 이미지 업로드 후 "고양이에 모자 씌우기"와 같은 수정도 수행 가능함.

창의적 생성 과정

  • Qwen VLo의 이미지 생성을 시연하는 영상에서 볼 수 있듯, 이 모델은 진행적 생성 방법을 사용함
  • 좌상단에서 우하단 방향으로 이미지를 점진적으로 구축하며, 계속해서 예측을 고도화하여 일관되고 조화로운 결과를 달성함
  • 이 생성 메커니즘은 시각적 품질을 높이고, 사용자가 창의적 과정을 더 유연하고 세밀하게 제어하도록 도움을 줌.

이해력에서 창조성으로: 향상된 멀티모달 생성 역량

Qwen VLo의 주요 강화점

  1. 정밀한 콘텐츠 이해 및 재현

    • 기존 멀티모달 모델은 생성 과정에서 의미 불일치(예: 자동차를 오인식하거나 구조를 잃는 현상)가 있었음
    • Qwen VLo는 디테일 포착 능력이 커졌으며, 높은 의미 일치성을 유지함
    • 예를 들어, 자동차 사진에 색상 변경을 요청하면 실제 차종과 구조는 유지하면서 자연스럽게 색상만 바꿔 현실감 있는 결과를 만듦
  2. 오픈엔디드 명령 기반 편집 지원

    • 사용자는 "이 그림을 Van Gogh 스타일로", "19세기 사진처럼", "맑은 하늘 추가"와 같은 자유로운 창의적 명령을 자연어로 입력 가능함
    • 스타일 변환, 장면 재구성, 세부 수정은 물론, 딥러닝 전통 비전 작업인 깊이맵, 세그멘테이션, 엣지 추정까지 단순 명령으로 가능함
    • 복합 명령(예: 오브젝트 수정+텍스트 편집+배경 변경)도 한 번에 수행 가능함
  3. 다국어 명령 지원

    • Qwen VLo는 중국어, 영어 등 다양한 언어의 조작을 지원함
    • 언어 장벽 없이 전 세계적 사용 편의성 제공

데모 활용 사례

Qwen VLo는 인간 아티스트처럼 이해력을 바탕으로 상상을 실현함. 배경 교체, 피사체 추가, 스타일 전환, 오픈엔디드 명령 기반 대규모 편집 및 탐지/분할 대응이 가능함.

특히, 이해 기반 재생성 기능으로 만화→실사, 특정 인물→풍선과 같이 폭 넓은 창작 스타일 변환을 지원함.

  • 모델의 고도화된 이미지 및 명령 해독력으로 복합적 커맨드를 한 번에 수행, 예를 들어 포스터 제작, 여러 오브젝트 결합여러 단계 작업을 한 번에 완수

또한, Qwen VLo는 탐지, 분할, 엣지 디텍션 등 기존 정보에 주석/표식 기능도 지원함.

  • 다중 이미지 입력 처리 기능도 준비 중(향후 공식 출시 예정)
  • 텍스트+이미지 입력뿐 아니라 텍스트→이미지 생성(일반 이미지, 중영혼합 포스터 등)도 지원함
  • 매우 긴 가로/세로 비율 포맷(최대 4:1, 1:3 등) 이미지 생성 지원(공식 출시 예정)
  • 모델이 직접 생성한 이미지를 다시 이해/분석해 강아지·고양이 품종 판별 등도 가능함

사용 방법

Qwen VLo는 동적 해상도 학습 및 생성으로, 입력·출력 이미지 해상도 및 비율을 자유롭게 사용할 수 있음. 고정 포맷에서 벗어나 원하는 사이즈 이미지(포스터, 일러스트, 웹배너, SNS커버 등) 제작 가능함.

  • 생성 메커니즘: 좌상→우하 진행적 생성(Progressive generation)
  • 긴 텍스트가 포함된 광고·만화 패널 등 세밀 제어가 필요한 작업에서 과정 실시간 미조정 가능함

한계

Qwen VLo는 프리뷰 단계로, 몇 가지 부족함이 있음. 생성 도중 정확성 부족, 원본 불일치, 명령 미준수, 이미지 이해 불안정성 등이 발생할 수 있음. 지속적 개선 및 안정화 업데이트 중임.

다음 단계

  • 멀티모달 대형 모델이 양방향 텍스트-비전 입출력을 지니게 되면서, 새로운 표현·상호작용 방식이 열리고 있음
  • 앞으로 모델들은 텍스트 답변뿐 아니라 다이어그램, 보조선, 강조 표시 등 시각적 콘텐츠로 아이디어를 전달할 수 있게 될 것임.
  • 발전된 생성 기능은 모델 자체의 이해도 검증 및 개선에도 활용될 것임
  • 예를 들어, 세그멘테이션맵, 디텍션맵 등 중간 결과를 직접 생성하며 자신의 이해를 증명·보완 가능함
  • 이러한 연구 방향을 지속적으로 탐구 중
Hacker News 의견
  • Qwen이 오픈 웨이트를 공개하지 않은 점이 아쉬움으로 느껴짐. 그 동안 Qwen의 가장 큰 강점 중 하나가 오픈 웨이트 전략이었기 때문. 4o의 이미지를 자동 생성하는 것과 경쟁할 수 있는 진정한 오픈 웨이트 모델이 있었으면 하는 바람. 웨이트에 직접 접근해야만 가능한 재밌는 연구 방향이 많음. 개발비 회수가 문제라면 BFL의 Flux Kontext Dev 출시 모델을 참고 추천. 연구자와 개인에게는 무료로 웨이트를 공개하고, 스타트업은 상업용 라이선스를 적당한 가격에 구매하도록 하는 방식도 있음

    • Qwen의 이미지는 확실히 OpenAI 결과물로 훈련된 게 드러남. 이미지에 주황색 빛이 도는 것만 봐도 알 수 있음 (예시1, 예시2, 예시3). 자가 데이터 확보 시도조차 했는지 궁금. 결국 OAI를 그대로 따라가면서도 API 뒤에 숨겨버림. OAI처럼 폐쇄적일 뿐 아니라 성능도 떨어짐. 이런 전략은 이해하기 어렵다고 느낌

    • 오픈 웨이트를 강조하면서도 연구자·개인을 위한 별도 웨이트, 스타트업은 상업 라이선스 구매 식을 제안한다면, 진짜 오픈 웨이트와 거리가 멀다는 느낌. '오픈 소스'처럼 원하는 대로 쓸 수 있는 자유가 있어야 진정한 의미의 오픈. 그렇지 않으면 오픈이라는 단어가 의미를 잃을 수 있음

    • 수천만 달러에 달하는 투자, GPU 비용, 엔지니어 인건비를 이미지 생성 요금만으로 회수할 수 있다고 생각하지 않음

    • 중국발 오픈 웨이트 시대가 갑자기 끝난 듯한 분위기. 알리바바는 Qwen 공개를 중단했고, Tencent도 Hunyuan 공개를 멈췄으며, Bytedance도 Seedream을 닫음. 명백히 서구 모델로 훈련되는 건 여전함. 오히려 100% 오픈 후 인프라·서비스로 수익화하는 전략이 더 현명하다고 생각함

  • 이미지가 언어 모델에 전달되기 전 256 토큰으로 압축됨. 예를 들어 모자 추가 요청 시 얼굴 전체를 다시 그림. 개별 오브젝트가 따로 저장되지 않고, 곰 캐릭터도 일시적으로 존재함. 하나의 융합된 잠재 공간에 저장되고, 새로운 조건에서 새로 샘플링됨. 프롬프트를 조금만 수정해도 이미지 전체가 바뀜. 즉, 매번 새롭게 씬을 만드는 방식으로, 다양한 활용처에는 좋게 느껴짐

    • Flux Kontext에서는 멀티모달 모델처럼 세부 내용이 잘 유지되는 편이라 마음에 듦. GPT-Image-1에서는 '지브리 스타일로 만들기' 같은 전체 스타일 변경에는 괜찮지만, 포토리얼리틱 이미지에 안경 추가처럼 세밀한 변경에는 세부정보를 잘 못 살림
  • 곰 이미지 편집 예시를 보면서, 요청한 것보다 더 많은 부분이 바뀌는 것을 발견함. 배경만 바꿔달라고 했는데 곰도 확 달라졌고, 곰을 풍선으로 바꿔달라 했더니 배경(보도블럭)이 사라지거나 수박씨가 없어지는 등 엉뚱한 변화까지 나옴. 이게 프롬프트를 더 잘 쓰면 해결되는 문제인지, 아니면 모델 구조의 한계인지 궁금함

    • 둘 다 해당. 프롬프트 최적화하면 결과가 좀 나아질 수 있지만, 근본 원인은 모델 구조와 훈련 방법, 즉 아키텍처와 방법론의 한계임
  • 펠리컨이 자전거 타는 이미지를 시도해봤고, 아코디언 이미지도 생성해봄. 손가락이나 건반의 검은색이 잘못 표현되는 등 세세한 면에 약함. 생성 속도는 꽤 빠름 예시 링크

    • Simon 테스트의 핵심이 SVG 포맷이라는 점을 놓친 듯함. 자전거 타는 펠리컨 이미지는 Stable Diffusion 2/3 이후로 쉽게 해결된 과제임. 픽셀 이미지가 아니라 SVG에서 논리적 추론과 정확도가 필요해서 도전적임
  • 편집, 스타일 전환 등 이미지 변경 예시에서 미묘한 노란색이 감도는 현상 발견. GPT Image 1에서도 나타나는데, Flux Kontext에는 없었음. 이유가 궁금함

  • 모든 이미지가 언캐니 밸리 느낌. 색상과 그림자가 모두 어색함

    • 결과물이 전체적으로 조잡함. 이런 이미지는 연구가 아니라면 실사용 사례 떠올리기 어려움
  • 머신러닝 연구자이자 물리학 학위를 가진 사람으로서, 이런 모델에 '이해', '설명'이라는 단어 사용하는 게 꺼려짐. 실제로는 도움이 안 되고 오히려 혼란만 만듦. 물리학에서 수학을 쓰는 이유는 정밀성 때문이고, 코딩 역시 매우 구체적임. 우리는 삶에서 수많은 디테일에 영향받는데, 모델은 그런 미묘함을 담아내지 못함. Asimov의 "Relativity of Wrong"(링크)을 꼭 읽어봤으면 함. 정말 '이해'했다 하고 싶으면, 모델이 발견/추론/개념 재정의처럼 들어보지 못한 결과를 생성해야 함. 인간은 반(反)사실적 사고(링크)가 자연스럽지만, 현대 ML 모델은 아님. OP 이미지에서 손가락 수 오류나, 키보드의 키 배열 오류 등이 대표적 사례. 겉보기엔 그럴듯해 보여도, 쳐다볼수록 점점 어색함이 드러나는 전형적인 언캐니 밸리 현상

    • 실제로 무언가 만드는 입장에서는 이런 논쟁이 피곤하게 느껴짐. 입력과 출력 개념을 이해하기 쉽게 설명했다는 것만으로도 충분히 가치 있음. 릴리즈 문서 읽으면 Qwen이 원래 VLM으로 '이해/식별/인지' 역할을 했고 이제 '생성/묘사/그리기' 등으로 능력이 확장됐음을 알 수 있음. 더 이상의 위기론이나 과도한 의미부여는 필요하지 않음
  • 자동 음성 읽기 기능을 어떻게 끄는지 궁금. 웹사이트 들어가면 그냥 대기상태로 있다가 내가 직접 조작할 때만 동작했으면 싶음. Firefox에서 영상을 전체화면 자동재생하더니 갑자기 읽기가 시작됨 (iOS 환경)

    • 설정 > 사이트 설정 > 오디오 및 비디오 자동재생 차단. Android Firefox에서는 해당 기능 가능. iOS나 데스크탑에도 비슷한 옵션 존재하며, 알림 권한 요청도 완전히 차단 가능
  • 4o 방식 이미지 생성 아키텍처 관련 기술 보고서가 있는지 궁금. 비슷한 방식으로 이미지를 생성하는 다른 모델에 대해서도 자세히 알고 싶음

  • 개인적으로 머신러닝이 '이해'보다 '묘사' 쪽에서 훨씬 더 발전했다고 생각함

    • 인간이 세상을 더 잘 이해한다고 생각하는 근거가 궁금. 인간은 세상에 대해 감정적인 반응을 많이 보이지만 감정 자체가 이해를 주진 않음. '이해한다'라는 말도 사실 매우 주관적인 기준에 불과함