• PDF는 여전히 주류 문서 포맷 → LLM 검색 성능엔 제약
  • MS 오픈소스 markitdown으로 PDF→Markdown 변환 실험
  • 수식·레이아웃 깨짐 등 한계, LLM 보정으로 가독성 개선
  • 단일 열·텍스트 중심 PDF에 적합, 복잡 문서는 제약

docling 도 좋아요

markitdown은 pdf 파싱을 위해서https://github.com/pdfminer/pdfminer.six 이걸 사용하고, 텍스트나 임베디드 이미지는 파일에서 그대로 추출합니다. ocr이라니 어질어질 하네요...