# PaddleOCR-VL - Baidu가 공개한 0.9B 초소형 비전-언어 모델 다국어 OCR

> Clean Markdown view of GeekNews topic #23795. Use the original source for factual precision when an external source URL is present.

## Metadata

- GeekNews HTML: [https://news.hada.io/topic?id=23795](https://news.hada.io/topic?id=23795)
- GeekNews Markdown: [https://news.hada.io/topic/23795.md](https://news.hada.io/topic/23795.md)
- Type: news
- Author: [xguru](https://news.hada.io/@xguru)
- Published: 2025-10-21T09:31:02+09:00
- Updated: 2025-10-21T09:31:02+09:00
- Original source: [huggingface.co](https://huggingface.co/PaddlePaddle/PaddleOCR-VL)
- Points: 43
- Comments: 6

## Summary

**한국어를 포함한 109개 언어**와 다양한 문자체계를 지원하는 0.9B 파라미터 규모의 **초소형 비전-언어 모델**로, 복잡한 **문서 파싱** 작업에서 높은 정확성과 빠른 추론 속도를 동시에 제공합니다. **NaViT 기반 비주얼 인코더**와 **ERNIE-4.5 언어 모델**을 결합해 대형 모델 수준의 정확도를 유지하면서도 빠른 추론과 낮은 GPU 사용량을 구현합니다. 수식,표,차트,손글씨 등 복잡한 요소를 정확히 인식할 수 있으며, 손쉬운 배포가 가능해 글로벌 서비스나 SaaS 문서 자동화에 즉시 적용 가능합니다.

## Topic Body

- **문서 파싱에 최적화된 초소형 비전-언어 모델(VLM)** 로, **한국어** 포함 109개 언어를 지원하며 수식,표,차트,손글씨 등 복잡한 요소를 정확히 인식함  
- 핵심 모델 **PaddleOCR-VL-0.9B**는 **NaViT 기반 동적 해상도 비주얼 인코더**와 **ERNIE-4.5-0.3B 언어 모델**을 결합해 고정밀 인식과 빠른 추론 속도를 동시에 달성  
- 작지만 강력한 **VLM 아키텍처**로 연산 효율성을 유지하면서 기존 대형 모델 수준의 인식 성능 확보  
- **OmniDocBench**등 에서 기존 파이프라인 기반 모델을 뛰어넘는 **SOTA(최고 수준 성능)** 를 기록  
- **한글·중국어·영어·일본어**는 물론, **러시아어·아랍어·힌디어·태국어** 등 다양한 문자체계 지원하여 전 세계 문서 처리 자동화에 활용 가능  
- 경량 구조로 GPU 자원 사용량이 적고, Docker·CLI·Python API를 통해 손쉽게 배포 및 통합 가능  
- 72B급 멀티모달 모델을 일부 항목에서 능가하며, **실제 환경에 즉시 적용 가능한 다국어 문서 처리 솔루션**

## Comments



### Comment 45244

- Author: helio
- Created: 2025-10-21T18:01:55+09:00
- Points: 1

PaddleOCR이면 상용으로 쓰는 곳도 있을걸요??

### Comment 45234

- Author: tsboard
- Created: 2025-10-21T13:04:12+09:00
- Points: 1

와우 세상에 ㄷㄷㄷㄷ 이걸로 복잡한 표 있는 문서들도 바로 인식 가능하겠네요

### Comment 45209

- Author: xguru
- Created: 2025-10-21T09:39:33+09:00
- Points: 1

들리는 얘기로는 일부 상용 OCR 엔진들보다도 훨씬 뛰어나다고 합니다.

### Comment 45231

- Author: yeorinhieut
- Created: 2025-10-21T12:50:09+09:00
- Points: 2

이번에 deepseek ocr도 나왔던데 성능 비교가 궁금하네요

### Comment 45230

- Author: yangeok
- Created: 2025-10-21T12:35:48+09:00
- Points: 2

다국어가 동시에 된다면 최고죠,,

### Comment 45223

- Author: forgotdonkey456
- Created: 2025-10-21T10:49:27+09:00
- Points: 2

대충 중국 민간기업이 이정도 모델 내놓을 정도면 NSA는 정보수집을 위해서 더 뛰어난(혹은 미친) OCR 모델을 갖고 있지 않을까 예상하는 댓글
