# markitdown과 LLM을 이용해 pdf를 markdown으로 변환하기

> Clean Markdown view of GeekNews topic #23187. Use the original source for factual precision when an external source URL is present.

## Metadata

- GeekNews HTML: [https://news.hada.io/topic?id=23187](https://news.hada.io/topic?id=23187)
- GeekNews Markdown: [https://news.hada.io/topic/23187.md](https://news.hada.io/topic/23187.md)
- Type: news
- Author: [computerphilosopher](https://news.hada.io/@computerphilosopher)
- Published: 2025-09-20T18:57:27+09:00
- Updated: 2025-09-20T18:57:27+09:00
- Original source: [velog.io](https://velog.io/@skynet/markitdown%EA%B3%BC-LLM%EC%9D%84-%EC%9D%B4%EC%9A%A9%ED%95%B4-pdf%EB%A5%BC-markdown%EC%9C%BC%EB%A1%9C-%EB%B3%80%ED%99%98%ED%95%98%EA%B8%B0)
- Points: 18
- Comments: 5

## Summary

**PDF**는 여전히 널리 사용되는 문서 포맷이지만, **LLM** 기반 검색 환경에서는 검색 및 활용에 제약이 있습니다. 마이크로소프트의 오픈소스 도구인 **markitdown**을 활용해 PDF를 **Markdown** 포맷으로 변환하면 LLM 검색 효율성이 높아지나, 수식이나 복잡한 레이아웃에서는 변환 한계가 존재합니다. LLM을 통한 추가 보정으로 가독성을 어느 정도 개선할 수 있지만, 변환 작업은 단일 열, 텍스트 중심의 **단순 PDF**에 가장 적합합니다.

## Topic Body

- PDF는 여전히 주류 문서 포맷 → LLM 검색 성능엔 제약  
- MS 오픈소스 **markitdown**으로 PDF→Markdown 변환 실험  
- 수식·레이아웃 깨짐 등 한계, LLM 보정으로 가독성 개선  
- 단일 열·텍스트 중심 PDF에 적합, 복잡 문서는 제약

## Comments



### Comment 44208

- Author: ahwjdekf
- Created: 2025-09-23T22:00:49+09:00
- Points: 1

RAG 에서도 항상 이 pdf 문서 때문에 문제가 됩니다.

### Comment 44160

- Author: ahwjdekf
- Created: 2025-09-22T14:48:39+09:00
- Points: 1

최악의 포맷,pdf

### Comment 44153

- Author: kbumsik
- Created: 2025-09-22T12:16:09+09:00
- Points: 1

markitdown 이 포멧간 변환에는 편하지만 PDF 에선 절대 쓰면 안됩니다 ㄷ  
  
이미 문서 추출에서 Gemini 같은 멀티모달 LLM 을 이용한 방법이 많이 나와있고, 벤치마크상에서도 꽤 좋게 나옵니다. 다만 비용이 문제죠.  
  
docling 같은거도 좋습니다.

### Comment 44136

- Author: kaydash
- Created: 2025-09-22T02:55:10+09:00
- Points: 1

docling 도 좋아요

### Comment 44133

- Author: lamanus
- Created: 2025-09-21T16:06:48+09:00
- Points: 2

markitdown은 pdf 파싱을 위해서https://github.com/pdfminer/pdfminer.six 이걸 사용하고, 텍스트나 임베디드 이미지는 파일에서 그대로 추출합니다. ocr이라니 어질어질 하네요...
