Nanonets-OCR-s – 문서를 구조화된 마크다운

▲

GN⁺ 10달전 | parent | ★ favorite | on: Nanonets-OCR-s – 문서를 구조화된 마크다운으로 변환하는 OCR 모델(huggingface.co)

Hacker News 의견

저는 Nanonets에서 일하고 있고, Nanonets-OCR-s라는 3B 규모의 VLM 모델을 공개하게 돼서 굉장히 기대감 가짐
이 모델은 문서를 깨끗하고 구조화된 마크다운으로 변환하는 데 최적화된 경량 모델임
문서의 구조와 맥락(테이블, 수식, 이미지, 도표, 워터마크, 체크박스 등)을 학습했기 때문임
주요 기능으로는 라텍스 수식 인식(인라인과 블록 수식을 제대로 구분해서 변환), 내장 이미지 설명(img 태그 이용, 차트/로고/도표 등 지원), 서명 탐지 및 분리(signature 블록 내 출력), 워터마크 추출(watermark 태그로 저장), 똑똑한 체크박스/라디오 버튼 처리(유니코드 변환으로 후처리 신뢰성 향상), 복잡한 테이블 구조 추출(다중 행/열 구성 테이블도 마크다운과 HTML로 잘 출력)이 있음
직접 사용해보고 싶으면 Huggingface나 Docext Colab 참고 가능
- Docext의 올바른 링크는 README.md임
- 사용 중인 LLM에서 환각(hallucination) 현상이 나타나는지 궁금함
- 이미지 자체 추출이 가능 여부, 아니면 여전히 별도 추출 과정이 필요한 것인지 궁금함
- 레스토랑 메뉴 사진이나 PDF를 JSON 스키마에 맞게 파싱하는 데(아마 후처리용 LLM의 도움과 함께) 활용 가능한지, 아니면 대형 멀티모달 LLM이 이런 용도에 더 적합한지 궁금함
나는 Shipibo(페루 원주민어)-스페인어 사전을 영어 사전으로 번역하려고 여러 LLM을 시도했지만, 두 컬럼이나 이상한 줄바꿈, 정의에 Shipibo와 스페인어가 혼합돼 있어서 이해가 어려움
게다가 스캔 품질도 좋지 않음
이 모델을 한 번 시도해봐야겠다는 생각
수십 년간 Word와 PowerPoint에 저장된 자료들을 모두 받아서, 각각의 요소를 다른 포맷으로 재사용할 수 있도록 표준화된 형태로 변환하는 솔루션을 계속 찾고 있었음
이건 그 시스템을 구축하는 데 꼭 필요한 핵심 빌딩 블록임
이제는 아카이브나 히스토리 기능이 필요함, 즉 각 요소를 쉽게 아카이빙하고 불러올 수 있으면 좋겠음
정말 멋진 작업임
- unoconv나 pandoc으로 기본 변환 후, LLM을 활용해 플레인 텍스트를 정제하는 접근으로 시작하는 게 더 간단하지 않을까 하는 의견
이런 모델들이 마크다운만을 목표로 한다는 게 아쉬움
실제로 마크다운은 버전이 다양하고, 각주나 참고문헌, 그림 등에 대한 지원이 부족
더 구조적이고 명확한 스펙을 가진 포맷이 필요함
- 실제로 우리는 마크다운으로 변환하면서 동시에 시맨틱 태깅까지 모델에 학습시킴
  예를 들어 식은 LaTeX로 추출하고, 이미지(도표, 그림 등)는 img 태그로 상세히 묘사함
  서명(signature), 워터마크(watermark), 페이지 번호 등도 태그 활용
  복잡한 테이블(다중 행/열)은 마크다운이 아닌 HTML 테이블로 뽑음
- "구조화 마크다운"이라는 개념이 LLM OCR 모델 자체보다 더 기대됐는데, 결국은 특정 요소에 태깅만 하는 수준이라 모델 외에서의 활용도는 조금 제한적이라는 느낌
docling(https://github.com/docling-project/docling)과 비교하면 어떤 장단점이 있는지 궁금함
Datalab/Marker(https://github.com/datalab-to/marker)와 어떤 차이가 있는지 궁금함
많은 PDF->MD 변환기를 비교했는데 Marker가 현재까지는 가장 좋았지만 완벽하지 않음
- 개인적인 경험 기준, 복잡한 수식과 코드가 뒤섞인 논문 변환에 Marker가 꽤 잘 맞음
  예를 들어 Fortran 역 라플라스 변환 논문 중 수식(인라인/디스플레이 혼합)과 모노스페이스 코드 블록이 한데 섞인 페이지를 Marker로 처리하면, 인라인 $\sigma_0$가 "<sup>s</sup> 0", $f(t)$가 "<i>f~</i>~t*!"처럼 망가짐
  지금 모델은 이런 부분을 정확히 내부적으로 출력함이 강점임
  참고 스크린샷(https://imgur.com/a/Q7UYIfW)
- 나만의 교차 비교를 막 시작했는데 혹시 후보 리스트를 알려 줄 수 있으면 정말 고맙겠다는 요청
직접 Powershell로 이 모델을 어디서나 PDF에 적용하는 스크립트를 만들었음
직접 해보니 GPU(1080 8GB)가 구식이라 실행 속도는 상당히 느림(페이지당 최소 5분 이상)
만약 Cloud Run(외부 GPU 지원)에서 작동하는 PDF to markdown 변환 유틸리티를 써보고 싶다면 알려 달라는 의견
완성되면 링크도 공유할 예정임
- 방금 Cloud Run에서 동작시키고 샘플 결과를 리포트함
  animate.pdf의 일부 결과를 보면, 타이틀, 저자, 출판사, 흑백 일러스트(img 태그로 설명), 구글 디지털화 태그가 잘 추출됨
  목차도 테이블 형태로 완벽하게 뽑히는 모습임
  속도만 느린 걸 빼면 기능과 정확도는 매우 만족스러움
- Cloud Run 이용 PDF to markdown 서비스에 매우 관심이 많음
다중 컬럼 또는 다중 행 테이블이 있는 문서(예시: 이 PDF의 1페이지 rowspan, 29페이지 colspan 등)를 어떻게 처리하는지 궁금함
비영어 텍스트 인식 성능이 어떤지 궁금함
기존 LLM 기반 OCR은 그 외국어 지원 성능이 전통적인 OCR에 훨씬 못 미친다고 알고 있음
- 이건 경험담인지 아니면 이해 기반인지 궁금함
  내 경험으론 구글 번역과 ChatGPT를 이미지에서 직접 사용할 경우, ChatGPT 성능이 항상 더 나음
  특히 일본어 손글씨 메뉴도 번역/설명까지 잘해줌
다국어 지원 언급 없는 모델은 현실에선 영어 아닌 PDF에서 성능 매우 떨어짐
- 실제로 영어 위주로 훈련하긴 했지만, 일부 훈련 데이터에 중국어 및 다양한 유럽어도 포함되어 있음
  게다가 기본 모델(Qwen-2.5-VL-3B)은 멀티링구얼임
  Reddit에서 중국어도 잘 된다는 글을 본 적 있음(링크)

▲

chakankim 10달전 [-]

한국어 카드 영수증 샘플 처리해봤는데 속도는 느리지만 완벽하게 읽어오는 오고 있음

답변달기