markitdown과 LLM을 이용해 pdf를 markdown으로 변환하기

computerphilosopher · 2025-09-20T18:57:27+09:00

PDF는 여전히 주류 문서 포맷 → LLM 검색 성능엔 제약 MS 오픈소스 markitdown으로 PDF→Markdown 변환 실험 수식·레이아웃 깨짐 등 한계, LLM 보정으로 가독성 개선 단일 열·텍스트 중심 PDF에 적합, 복잡 문서는 제약

(velog.io/@skynet)

RAG 에서도 항상 이 pdf 문서 때문에 문제가 됩니다.

최악의 포맷,pdf

markitdown 이 포멧간 변환에는 편하지만 PDF 에선 절대 쓰면 안됩니다 ㄷ

이미 문서 추출에서 Gemini 같은 멀티모달 LLM 을 이용한 방법이 많이 나와있고, 벤치마크상에서도 꽤 좋게 나옵니다. 다만 비용이 문제죠.

docling 같은거도 좋습니다.

docling 도 좋아요

markitdown은 pdf 파싱을 위해서https://github.com/pdfminer/pdfminer.six 이걸 사용하고, 텍스트나 임베디드 이미지는 파일에서 그대로 추출합니다. ocr이라니 어질어질 하네요...

함께 보면 좋은 글 β