▲markitdown과 LLM을 이용해 pdf를 markdown으로 변환하기 (velog.io)8P by computerphilosopher 2일전 | ★ favorite | 댓글 2개 PDF는 여전히 주류 문서 포맷 → LLM 검색 성능엔 제약 MS 오픈소스 markitdown으로 PDF→Markdown 변환 실험 수식·레이아웃 깨짐 등 한계, LLM 보정으로 가독성 개선 단일 열·텍스트 중심 PDF에 적합, 복잡 문서는 제약 인증 이메일 클릭후 다시 체크박스를 눌러주세요 ▲kaydash 7시간전 [-]docling 도 좋아요 답변달기▲lamanus 18시간전 [-]markitdown은 pdf 파싱을 위해서https://github.com/pdfminer/pdfminer.six 이걸 사용하고, 텍스트나 임베디드 이미지는 파일에서 그대로 추출합니다. ocr이라니 어질어질 하네요... 답변달기