markitdown과 LLM을 이용해 pdf를 markdown으로 변환하기
(velog.io)- PDF는 여전히 주류 문서 포맷 → LLM 검색 성능엔 제약
- MS 오픈소스 markitdown으로 PDF→Markdown 변환 실험
- 수식·레이아웃 깨짐 등 한계, LLM 보정으로 가독성 개선
- 단일 열·텍스트 중심 PDF에 적합, 복잡 문서는 제약
markitdown은 pdf 파싱을 위해서https://github.com/pdfminer/pdfminer.six 이걸 사용하고, 텍스트나 임베디드 이미지는 파일에서 그대로 추출합니다. ocr이라니 어질어질 하네요...
markitdown 이 포멧간 변환에는 편하지만 PDF 에선 절대 쓰면 안됩니다 ㄷ
이미 문서 추출에서 Gemini 같은 멀티모달 LLM 을 이용한 방법이 많이 나와있고, 벤치마크상에서도 꽤 좋게 나옵니다. 다만 비용이 문제죠.
docling 같은거도 좋습니다.