▲hahnlee 2025-02-25 | parent | ★ favorite | on: 한/글 문서 파일 형식: HWP 포맷 구조 살펴보기(tech.hancom.com)hwp.js (https://github.com/hahnlee/hwp.js) 를 개발했던 hahnlee 입니다 :) 저 프로젝트를 개발할때 그리고 지금도 hwp는 썩 좋아하진 않습니다. 특히 공개수준에 대해서는요. 다만 "HWP 포맷은 AI 학습에 유리한 요소들을 가지고 있음" 이 부분은 어느정도 공감합니다. RAG를 구축했을때의 경험으로 말씀드리면, 한국에서는 특히 표를 많이 쓰는데요. PDF의 경우 인쇄를 상정하고 만든 포멧이니 "표" 라는건 PDF에 없습니다. 선분과 텍스트만 있을뿐. 그래서 복잡한 표 정보에서 데이터를 추출하는 일이 PDF문서를 기반으로는 어려웠습니다. 특히 표가 페이지를 넘어가는 경우에서도요. 거칠게 비유하면 hwp가 일종의 리치텍스트문서라면 pdf는 txt 문서 같은 느낌이었습니다. 물론 "표"에 한정된 이야기입니다. 다만 이게 hwp 포멧의 특장점이냐? 하면 그건아니라 생각합니다. 간단한건 마크다운으로 충분하고, 좀 더 복잡하면 html로 정의하는게 낫다고 생각하거든요. 그리고 결정적으로 그리고 docx나 odt도 동일한 장점을 가집니다.
hwp.js (https://github.com/hahnlee/hwp.js) 를 개발했던 hahnlee 입니다 :)
저 프로젝트를 개발할때 그리고 지금도 hwp는 썩 좋아하진 않습니다. 특히 공개수준에 대해서는요.
다만 "HWP 포맷은 AI 학습에 유리한 요소들을 가지고 있음" 이 부분은 어느정도 공감합니다.
RAG를 구축했을때의 경험으로 말씀드리면, 한국에서는 특히 표를 많이 쓰는데요. PDF의 경우 인쇄를 상정하고 만든 포멧이니 "표" 라는건 PDF에 없습니다. 선분과 텍스트만 있을뿐.
그래서 복잡한 표 정보에서 데이터를 추출하는 일이 PDF문서를 기반으로는 어려웠습니다. 특히 표가 페이지를 넘어가는 경우에서도요.
거칠게 비유하면 hwp가 일종의 리치텍스트문서라면 pdf는 txt 문서 같은 느낌이었습니다. 물론 "표"에 한정된 이야기입니다.
다만 이게 hwp 포멧의 특장점이냐? 하면 그건아니라 생각합니다. 간단한건 마크다운으로 충분하고, 좀 더 복잡하면 html로 정의하는게 낫다고 생각하거든요.
그리고 결정적으로 그리고 docx나 odt도 동일한 장점을 가집니다.