- Qwen3-VL은 비전-언어 멀티모달 모델의 최신 세대로, 텍스트 이해와 생성, 영상 인식, 공간 추론, 긴 문맥 이해 등 전 영역에서 향상된 성능을 제공
- 대표 모델 Qwen3-VL-235B-A22B는 Instruct와 Thinking 버전으로 공개되며, 각각 시각적 인식과 멀티모달 추론에서 최첨단 성과를 기록함
- 모델은 에이전트 기능, 비주얼 코딩, 2D/3D 공간 추론, 장문 및 장시간 영상 이해 등 다양한 실제 활용 능력을 강화함
- 32개 언어 OCR, 복잡 문서 이해, 멀티 이미지·비디오 처리까지 지원 범위를 확대하여 실생활과 전문적 활용 모두에 적합함
- 이는 오픈소스 커뮤니티에 최고 수준의 멀티모달 기반을 제공하며, 앞으로의 실세계 문제 해결과 AI 에이전트 발전을 가속할 것으로 기대됨
Qwen3-VL 소개
- Qwen3-VL은 QwenTeam이 개발한 최신 멀티모달 AI 모델로, 이미지와 텍스트, 표, 문서, 수식, 그래프 등의 다양한 데이터 형태를 포괄적으로 처리하고 이해하는 특징을 가짐
주요 특징
- 비주얼 에이전트 기능: GUI 인식, 버튼 클릭, 도구 호출 등을 수행하여 컴퓨터·모바일 환경에서 자동화 작업 가능
- 강화된 텍스트 성능: 조기 단계부터 텍스트·비주얼 동시 학습으로, 단일 언어 모델 수준의 강력한 텍스트 처리력 확보
- 비주얼 코딩: 디자인 이미지를 HTML, CSS, JavaScript 코드로 변환, ‘보는 대로 코딩’ 실현
- 공간 이해: 2D 절대 좌표에서 상대 좌표로 확장, 3D 그라운딩까지 지원하며 로보틱스·자율주행 기반 마련
- 장문맥·장시간 영상 처리: 256K 토큰 기본 지원, 100만 토큰까지 확장 가능, 2시간 영상도 정확하게 기억 및 검색 가능
- 추론 최적화(Thinking 버전): 수학·STEM 문제 해결에 강하며, MathVision, MMMU, MathVista 등 벤치마크에서 최고 성과
성능 평가
- Instruct 버전: Gemini 2.5 Pro, GPT-5 등 주요 폐쇄형 모델을 능가하는 시각적 인식 성능 확보
- Thinking 버전: 수학 및 과학 멀티모달 추론에서 세계 최고 수준 성과 달성, 특히 MathVision에서 Gemini 2.5 Pro를 초월
- 텍스트 중심 작업: Qwen3-235B-A22B-2507과 동급 성능
- 장시간 영상 테스트: 100만 토큰 입력에서도 99.5% 정확도로 높은 안정성 입증
- 다국어 OCR: 39개 언어 중 32개 언어에서 70% 이상 정확도 달성
아키텍처 개선
- Interleaved-MRoPE: 시간·높이·너비 차원을 교차 분배하여 장시간 영상 이해 성능 강화
- DeepStack: ViT 다중 레이어 특징 융합으로 정밀한 텍스트-이미지 정렬 성능 향상
- 텍스트-타임스탬프 정렬: 프레임 단위 시간 정보와 시각 콘텐츠 정밀 매칭, 이벤트·행동 탐지 정확도 개선
모델 기능
- 스마트폰·PC 조작 에이전트: 앱 실행, 버튼 클릭, 양식 작성 자동화
- 이미지 기반 추론: 도구 호출과 결합한 복잡 분석 가능
- 프론트엔드 개발 지원: 스케치→웹 페이지 변환, UI 디버깅
- 2D/3D 객체 탐지: 수백 개 탐지 박스 생성 및 깊이 추정
- 보편 인식: 유명인, 브랜드, 식물, 동물, 애니메이션 캐릭터 인식
- 창작 지원: 이미지 기반 스토리텔링, 카피라이팅, 영상 스크립트 생성
- STEM 문제 해결: 단계별 추론, 인과관계 분석, 과학 문제 해결
- 복잡 지시 따르기: 다단계 조건 및 구조화된 요청도 처리
- 문서 이해: 긴 PDF, 웹 레이아웃 해석 및 QwenVL Markdown 포맷 지원
- 멀티이미지 대화: 여러 이미지를 비교·연계하며 맥락 유지
- 비디오 이해: 장시간 영상 내 이벤트 탐지 및 코드 생성까지 지원
결론
- Qwen3-VL은 폐쇄형 모델을 능가하는 오픈소스 멀티모달 모델로, 인식에서 추론, 실행까지 포괄적으로 발전함
- 단순한 시각 인식이 아니라 세계 이해·추론·행동으로 확장된 모델로 자리매김하며, 실제 환경에서의 에이전트 활용 기반을 제공함
반년도 되지 않은 gemini 홍보 영상에서 보여준 육상 경기의 승자가 누구고, 누굴 역전했는지 아는 것만으로도 대단하다고 생각했었는데
2시간 영상도 정확하게 기억 및 검색 가능
이게 정확히 뭘 기억하는 걸지 정말 궁금하네요
Hacker News 의견
-
어제도 언급했지만, 최근에 건설 프로젝트용 송장 저화질 이미지 수백 장을 처리할 일이 있었음. 원래는 PIL/opencv, pytesseract, OpenAI까지 사용하는 스크립트를 돌렸지만 실패가 너무 많았음. 오늘은 정말 엉망인 품질의 송장 몇 장을 Qwen으로 돌려봤더니 필요한 모든 정보를 무리 없이 추출해줬음. 더 놀라운 점은 tesseract 개선에 쓸 수 있는 bound box 정보까지 준다는 것임
- 비슷한 작업 필요하면 Microsoft의 Printed Text Recognition API도 추천함
- 왜 Qwen을 선택했는지 궁금함. Mistral에는 OCR 전용으로 홍보했던 특화 모델이 따로 있고 실제로 테스트해보니 영어 옛날 책(80·90년대)에서는 꽤 잘 동작했음
- 이런 모델을 80년대 Apple ][ 게임 스크린샷 읽기에 테스트해보는 걸 좋아함. 매우 저해상도·고밀도라 대부분의 오픈소스 모델이 힘들어하는 영역임
- 나는 위성 지도 이미지에서 VLLM 모델로 토지 경계의 bound box를 추정해 보려고 한 적이 있는데 성과가 없었음. 더 나은 결과를 내기 위한 팁이 있는지 궁금함
- 나도 스캔 레이아웃을 감지해서 OCR 성능을 높이려 했으나, 최종적으로는 fine-tune된 Qwen 2.5 VLM 7B가 더 나았음. 미세 조정(fine-tuning)이 답이라고 생각함
-
중국은 제조업에서 했던 것처럼 핵심 기술을 가져와서 비용/효율에서 10배 최적화를 반복하는 일을 하고 있음. 진짜 감탄스러움. 벤치마크에서 유명한 모델이지만 오늘만큼은 오픈소스 SOTA 후보라고 느껴질 정도. 심지어 오늘은 폐쇄형 1조 파라미터 모델도 공개해서 lm arena 3위에 올랐고, 80GB 모델도 17위, gpt-oss 120b는 52위임
관련 링크- 설명, 상품명, 버전 구분은 계속 불명확함. Qwen3-VL Plus(새 모델)과 Qwen3-VL 235B(다른 모델), 이름이 비슷해도 완전 다른 모델임을 알지만 어느 쪽이 더 뛰어난지 모르게끔 정보가 모호함. Qwen-Plus-2025-09-11, qwen3-235b-a22b-instruct-2507도 네이밍만 보면 어떤 차이인지 알 수 없음. OpenAI보다도 이름을 명확히 전달 못 하고 있음
Qwen3-VL Plus
Qwen3-VL-235B
qwen-plus-2025-09-11
qwen3-235b-a22b-instruct-2507 - ‘단순히 최적화만 한다’라는 표현은 사실과 다름. Qwen 팀은 DeepStack 같은 새로운 아이디어까지 내놓음
DeepStack 논문
그리고 ‘중국인’이라 뭉뚱그려 표현하기보다는 Qwen 팀 자체에 공로를 돌리는 게 맞다고 생각함. 전세계 각 국에서 뛰어난 연구실도, 평범한 연구실도 있음 - 재미있게도 Kimi K2 같은 모델은 미국계 모델보다 훨씬 자연스러운 텍스트를 생성하는 느낌임. 벤치마크 성적은 SOTA에는 못 미치지만 실제 사용 경험은 다름
- 미국도 예전에는 이런 식의 최적화에 집중했었는데, 최근 10~15년은 점점 리소스만 더 투입하고 최적화는 도외시하는 분위기임. 예를 들어 진보적 웹앱을 위해 램 추가, CPU도 고성능으로 바꾸고, 혹은 더 많은 전력 확보 등. 근본적으로는 대학 알고리즘 수업 때 배운 내용을 실무에 적용하지 않는 게 문제라고 느껴짐. 반면 중국은 실제로 이를 실천하고 있고 미국이 더 우스워 보이게 만듦
- 설명, 상품명, 버전 구분은 계속 불명확함. Qwen3-VL Plus(새 모델)과 Qwen3-VL 235B(다른 모델), 이름이 비슷해도 완전 다른 모델임을 알지만 어느 쪽이 더 뛰어난지 모르게끔 정보가 모호함. Qwen-Plus-2025-09-11, qwen3-235b-a22b-instruct-2507도 네이밍만 보면 어떤 차이인지 알 수 없음. OpenAI보다도 이름을 명확히 전달 못 하고 있음
-
샌프란시스코에 있다면 Qwen 팀 미국 첫 공식 행사 참여 기회를 놓치지 않길 바람. Qwen Lab 부대표가 SF teach week에서 직접 발표할 예정임
행사 링크
직접 Qwen 팀원들과 소통할 수 있는 드문 기회임- 이미 등록 인원이 꽉 찼음 ;-(
- 요즘 시대엔 비자 발급 문제로 미국 입국 자체가 50:50일 수도 있으니 무사히 오길 바라는 마음임
-
이번 Qwen의 핵심은 프로프라이어터리(폐쇄형) 모델보다 앞서는 멀티모달 성능을 SOTA로 찍고도 모델 가중치를 오픈했다는 점임. 내 초반 테스트에서는 실제로 이게 맞는 것 같음, 계속 시험해볼 예정임. 감탄스러움
- 대다수 멀티모달 입력 구현은 성능이 낮은 경우가 많음. Qwen도 기존 알려진 상용 솔루션과 비교해 아주 앞선다고 보긴 어렵지만, 이렇게라도 결과를 공개해주는 시도 자체가 반가움. 멀티모달 입력이 이 정도 잘 동작하는 모델 만들기는 결코 쉬운 일이 아님
- 사실 오픈소스 모델은 크기에 상관없이 항상 ‘상용 SOTA에 준한다’고 주장하는 경향이 있다고 느낌
-
현실적으로 Qwen3-VL 235B 파라미터 모델(FP16)은 최소 512GB RAM이 필요해 보임. 합리적인 context window까지 커버하려면 더 많을 수도 있다고 추정함. CPU로 안 돌린다고 가정할 때, 1만 달러 예산 이내로 집에서 돌릴 수 있는 방법이 궁금함. 만약 CPU만이 유일한 선택지라면 vLLM + 여러 대의 시스템 네트워크 연결(10/25/100Gbit) 방식이 최선인지, 그 밖에 최선의 선택이 있는지 알고 싶음
- 512GB 유니파이드 메모리의 Apple Mac Studio가 약 1만 달러임. 집에서 그 정도 파워가 필요하고, 돈에 여유가 있다면 이게 가장 간단함.
꼭 FP16으로 구동할 필요 없음. 대부분 q8까지 양자화하면 품질 저하 거의 없고, q4 이하로도 성능 저하 적게 돌릴 수 있음. q8만 해도 235GB 램이 필요하므로, RTX 5090(32GB VRAM) 기준론 8장은 필요하고 가격도 만만치 않음. 마더보드와 CPU, 8GPU 분급도 따로 고려해야 함. 구형 RTX 3090이나 P40으로 채굴서버 중고를 노릴 수도 있지만, 소비자용 GPU에선 1만 달러 미만에 구현은 현실적으로 힘듦.
NVLink 없이 여러 대 컴퓨터에 모델을 분산 돌리면 속도 저하가 엄청나서 실질적으로는 단일 머신을 권장함. CPU 성능도 나쁘지 않음. 메모리 대역폭이 중요하니 DDR5 메모리 채널 많은 서버용 or 워크스테이션용 CPU(예: AMD Ryzen Threadripper 7965WX, 8채널 DDR5, 5200 MT/s 지원, 약 2500달러)가 적합함.
마지막으로 진짜로 집에서 돌릴 필요가 있는지 다시 생각해보길 권장함. 어떤 목적이냐에 따라 다르겠지만, 하드웨어에 투자하는 1만 달러는 몇 년 내에 가치가 곤두박질할 수 있음. 클라우드에서 1만 달러 크레딧이면 오래 쓸 수 있음 - CPU 이외의 방식은 대개 전기 증설이 필요하고, 시스템을 각기 다른 전기 회로에 배치하는 식으로 2~3kW씩 먹는 머신 여러 대를 돌리려면 엄청난 추가 비용이 듦
- 512GB 유니파이드 메모리의 Apple Mac Studio가 약 1만 달러임. 집에서 그 정도 파워가 필요하고, 돈에 여유가 있다면 이게 가장 간단함.
-
멀티모달 SOTA를 오픈 가중치로 내놓은 Qwen 덕분에 개발자 마음이 Qwen 쪽으로 기울고 있음. 최소한 내 마음은 이미 넘어갔음
- 이미 승부는 끝났다고 봐도 될 듯함. 요즘 미국발 논문 톱 저자 명단을 보면 중국계 이름이 넘쳐남
- 이들이 수익을 목표로 하지 않으니 같은 규칙이 아닌 다른 게임을 한다는 점도 있음
- 이렇게까지 마음을 얻으려 노력하는 이유가 뭔지 본인도 궁금함
-
Qwen 팀의 관대함에 감사함. 이미 ‘Thinking’ 모델로 여러 사내 지루한 업무를 자동화하는 쿨한 워크플로우를 만들어 사용 중임
Qwen thinking 모델
이제 이번 릴리즈를 통해 식사 사진, 사용자 사진 등을 분류·캡션화하는 등의 새 워크플로우도 적용할 예정임. 아주 멋짐 -
Qwen팀 관련 모델들 참고
-
이번 발표에서 내가 본 것 중 가장 많은 벤치마크 수치를 등장시켰다고 본인 확신함. 치트키만 뽑아내는 발표가 아니라는 점에서 칭찬하고 싶음
- 벤치마크가 이미 포화된 영역에선 이제 더 이상 수치를 내세우는 게 의미 없어진 듯함
-
아쉽게도 Qwen3-VL도 여전히 ‘엑스트라 팔다리’ 테스트에 실패함. 포토샵으로 다리에 추가 팔다리가 달린 동물(예: 배에 다리 달린 개, 앞다리가 두 쌍인 고양이) 사진을 심어 넣었는데도, 다른 모든 모델과 마찬가지로 동물의 팔다리 갯수가 정상이라고 고집함. ‘배에 다리 달린 것 같다’고 말해도, 내가 착각하는 거라며 끝까지 정상이라고 주장함. Qwen은 심지어 이미지가 편집된 것까지 알려줘도 4개가 맞다고 답함
- 모든 VLM이 그렇듯 예외 케이스에는 취약함. 아날로그 시계 읽기는 과거에 수정된 인공 데이터 100만장을 넣어 특화시킨 경우가 유일하게 통과했을 정도임
시계 데이터셋
D20 주사위 예시
결론적으로, 추가 팔다리 같은 사례도 100만장 예시 데이터를 만들지 않는 한 정답을 못 맞추며, 다른 문제에도 계속 데이터셋을 새로 만들어야 하는 이슈가 반복됨 - 괴상한 종의 팔다리 갯수를 세는 데엔 확실히 부적합한 모델임. 대신 학습데이터에 다수 포함된 주제에서는 부족하지 않을 수 있음
- 혹시 Qwen 모델의 이미지 편집 명령 기능을 써서 팔다리 수를 건드리지 말고 다른 부분만 요청해도, 결과적으로 자꾸 팔다리 수를 ‘정상’으로 수정하려 들지 궁금함
- 모든 VLM이 그렇듯 예외 케이스에는 취약함. 아날로그 시계 읽기는 과거에 수정된 인공 데이터 100만장을 넣어 특화시킨 경우가 유일하게 통과했을 정도임