PaddleOCR-VL - Baidu가 공개한 0.9B 초소형 비전-언어 모델 다국어 OCR
(huggingface.co)- 문서 파싱에 최적화된 초소형 비전-언어 모델(VLM) 로, 한국어 포함 109개 언어를 지원하며 수식,표,차트,손글씨 등 복잡한 요소를 정확히 인식함
- 핵심 모델 PaddleOCR-VL-0.9B는 NaViT 기반 동적 해상도 비주얼 인코더와 ERNIE-4.5-0.3B 언어 모델을 결합해 고정밀 인식과 빠른 추론 속도를 동시에 달성
- 작지만 강력한 VLM 아키텍처로 연산 효율성을 유지하면서 기존 대형 모델 수준의 인식 성능 확보
- OmniDocBench등 에서 기존 파이프라인 기반 모델을 뛰어넘는 SOTA(최고 수준 성능) 를 기록
- 한글·중국어·영어·일본어는 물론, 러시아어·아랍어·힌디어·태국어 등 다양한 문자체계 지원하여 전 세계 문서 처리 자동화에 활용 가능
- 경량 구조로 GPU 자원 사용량이 적고, Docker·CLI·Python API를 통해 손쉽게 배포 및 통합 가능
- 72B급 멀티모달 모델을 일부 항목에서 능가하며, 실제 환경에 즉시 적용 가능한 다국어 문서 처리 솔루션
대충 중국 민간기업이 이정도 모델 내놓을 정도면 NSA는 정보수집을 위해서 더 뛰어난(혹은 미친) OCR 모델을 갖고 있지 않을까 예상하는 댓글