43P by xguru 2달전 | ★ favorite | 댓글 6개
  • 문서 파싱에 최적화된 초소형 비전-언어 모델(VLM) 로, 한국어 포함 109개 언어를 지원하며 수식,표,차트,손글씨 등 복잡한 요소를 정확히 인식함
  • 핵심 모델 PaddleOCR-VL-0.9BNaViT 기반 동적 해상도 비주얼 인코더ERNIE-4.5-0.3B 언어 모델을 결합해 고정밀 인식과 빠른 추론 속도를 동시에 달성
  • 작지만 강력한 VLM 아키텍처로 연산 효율성을 유지하면서 기존 대형 모델 수준의 인식 성능 확보
  • OmniDocBench등 에서 기존 파이프라인 기반 모델을 뛰어넘는 SOTA(최고 수준 성능) 를 기록
  • 한글·중국어·영어·일본어는 물론, 러시아어·아랍어·힌디어·태국어 등 다양한 문자체계 지원하여 전 세계 문서 처리 자동화에 활용 가능
  • 경량 구조로 GPU 자원 사용량이 적고, Docker·CLI·Python API를 통해 손쉽게 배포 및 통합 가능
  • 72B급 멀티모달 모델을 일부 항목에서 능가하며, 실제 환경에 즉시 적용 가능한 다국어 문서 처리 솔루션

이번에 deepseek ocr도 나왔던데 성능 비교가 궁금하네요

다국어가 동시에 된다면 최고죠,,

대충 중국 민간기업이 이정도 모델 내놓을 정도면 NSA는 정보수집을 위해서 더 뛰어난(혹은 미친) OCR 모델을 갖고 있지 않을까 예상하는 댓글

PaddleOCR이면 상용으로 쓰는 곳도 있을걸요??

와우 세상에 ㄷㄷㄷㄷ 이걸로 복잡한 표 있는 문서들도 바로 인식 가능하겠네요

들리는 얘기로는 일부 상용 OCR 엔진들보다도 훨씬 뛰어나다고 합니다.