사족.

HWP 자체는 파싱을 해서 텍스트로 바꾸긴 쉽습니다. 구글이 한국어 문사를 인덱싱 하기 위해 2000년대부터 이미 만들어서 자제적으로 적용하고 있었고, 위에 언급한 오픈소스들로 충분히 가능합니다.

HTML의 h1~h6 에 대응하는 개요단계 1~6 스타일을 입히면 문서의 위계(hierarchy)도 보존하며 문서를 만들 수 있습니다.

다만 HWP는 에디터에 기능이 너무 많고, 사용하는 사람들이 종이 출력물을 잘 보이도록 하는데 집중해서 서식을 적용할 때 개요단계(outline level)를 적용하려는 노력을 하지 않았습니다.

이걸 단적으로 보여주는게, 연구소에서 300쪽짜리 HWP 문서를 PDF로 저장하면, 책갈피 정보가 하나도 생성이 안되어 있다는 점입니다. 그래서 전자문사인데도 스크롤을 해 가며 찾아야 합니다. 엄청 불편합니다. 근데 용량 큰 PDF는 아무리 좋은 컴퓨터도 훑어보기를 위해 빠르게 스크롤하면 엄청 버벅댑니다.

기관평가할 때 이 짓을 할 순 없으니까, 심사위원 숫자대로 수백페이지의 보고서를 수북히 인쇄해서 쌓아놓고 기관평가를 합니다. 그리고 평가 끝나면 바로 버립니다.

해외 보고서는 400쪽짜리 PDF 보고서를 받으면 목차만 16쪽이고 목차에 링크가 달려 있어서 클릭하면 해당 페이지로 이동합니다. 개요 보기를 하면 책갈피가 엄청 새분화되어 잘 되어 있습니다. 이건 도구에서 사람이 의식하지 않아도 손쉽게 입력이 되어 자동으로 생성된 것이라는 걸 의미합니다.

여튼, 다시 돌아와서 현재 대다수가 아래아한글을 사용하는 관습에 의해 만들어진 HWP로부터는 텍스트로 얻을 수 있지만, 문서의 위계정보를 얻기 힘듭니다.

하지만, LLM으로 사람의 개입 없이 HWP를 생성하면 이러한 점을 고려하여 자동으로 만들 수 있습니다.