• PDF는 여전히 주류 문서 포맷 → LLM 검색 성능엔 제약
  • MS 오픈소스 markitdown으로 PDF→Markdown 변환 실험
  • 수식·레이아웃 깨짐 등 한계, LLM 보정으로 가독성 개선
  • 단일 열·텍스트 중심 PDF에 적합, 복잡 문서는 제약

markitdown은 pdf 파싱을 위해서https://github.com/pdfminer/pdfminer.six 이걸 사용하고, 텍스트나 임베디드 이미지는 파일에서 그대로 추출합니다. ocr이라니 어질어질 하네요...

RAG 에서도 항상 이 pdf 문서 때문에 문제가 됩니다.

최악의 포맷,pdf

markitdown 이 포멧간 변환에는 편하지만 PDF 에선 절대 쓰면 안됩니다 ㄷ

이미 문서 추출에서 Gemini 같은 멀티모달 LLM 을 이용한 방법이 많이 나와있고, 벤치마크상에서도 꽤 좋게 나옵니다. 다만 비용이 문제죠.

docling 같은거도 좋습니다.

docling 도 좋아요