markitdown 이 포멧간 변환에는 편하지만 PDF 에선 절대 쓰면 안됩니다 ㄷ

이미 문서 추출에서 Gemini 같은 멀티모달 LLM 을 이용한 방법이 많이 나와있고, 벤치마크상에서도 꽤 좋게 나옵니다. 다만 비용이 문제죠.

docling 같은거도 좋습니다.