PaddleOCR-VL - Baidu가 공개한 0.9B 초소형 비전-언어 모델 다국어 OCR

xguru · 2025-10-21T09:31:02+09:00

문서 파싱에 최적화된 초소형 비전-언어 모델(VLM) 로, 한국어 포함 109개 언어를 지원하며 수식,표,차트,손글씨 등 복잡한 요소를 정확히 인식함 핵심 모델 PaddleOCR-VL-0.9B는 NaViT 기반 동적 해상도 비주얼 인코더와 ERNIE-4.5-0.3B 언어 모델을 결합해 고정밀 인식과 빠른 추론 속도를 동시에 달성 작지만 강력한 VLM 아키텍처로 연산 효율성을 유지하면서 기존 대형 모델 수준의 인식 성능 확보 OmniDocBench등 에서 기존 파이프라인 기반 모델을 뛰어넘는 SOTA(최고 수준 성능) 를 기록 한글·중국어·영어·일본어는 물론, 러시아어·아랍어·힌디어·태국어 등 다양한 문자체계 지원하여 전 세계 문서 처리 자동화에 활용 가능 경량 구조로 GPU 자원 사용량이 적고, Docker·CLI·Python API를 통해 손쉽게 배포 및 통합 가능 72B급 멀티모달 모델을 일부 항목에서 능가하며, 실제 환경에 즉시 적용 가능한 다국어 문서 처리 솔루션

(huggingface.co)

43P by xguru 9달전 | ★ favorite | 댓글 6개

문서 파싱에 최적화된 초소형 비전-언어 모델(VLM) 로, 한국어 포함 109개 언어를 지원하며 수식,표,차트,손글씨 등 복잡한 요소를 정확히 인식함
핵심 모델 PaddleOCR-VL-0.9B는 NaViT 기반 동적 해상도 비주얼 인코더와 ERNIE-4.5-0.3B 언어 모델을 결합해 고정밀 인식과 빠른 추론 속도를 동시에 달성
작지만 강력한 VLM 아키텍처로 연산 효율성을 유지하면서 기존 대형 모델 수준의 인식 성능 확보
OmniDocBench등 에서 기존 파이프라인 기반 모델을 뛰어넘는 SOTA(최고 수준 성능) 를 기록
한글·중국어·영어·일본어는 물론, 러시아어·아랍어·힌디어·태국어 등 다양한 문자체계 지원하여 전 세계 문서 처리 자동화에 활용 가능
경량 구조로 GPU 자원 사용량이 적고, Docker·CLI·Python API를 통해 손쉽게 배포 및 통합 가능
72B급 멀티모달 모델을 일부 항목에서 능가하며, 실제 환경에 즉시 적용 가능한 다국어 문서 처리 솔루션