▲GN⁺ 2025-02-11 | parent | ★ favorite | on: PDFSyntax - PDF 파일 내부 구조의 HTML 시각화(github.com/desgeeko)Hacker News 의견 해커뉴스 댓글 모음 요약 과거에 PDF에서 데이터를 추출하는 작업을 맡았던 경험이 있음. 당시에는 AI 기술이 없었지만, 현재는 LLMs를 활용하여 데이터를 추출할 수 있는 가능성이 있음. 과거 직장에서 PDF 데이터 추출 도구가 있었다면 많이 사용했을 것이라는 의견. 이상적인 도구는 파일을 드롭하면 로컬에서 모든 작업을 수행하는 방식이어야 함. iText RUPS라는 무료 도구를 사용하여 PDF 디버깅을 해왔으며, 새로운 도구의 기능이 더 강력할 것 같아 기대된다는 의견. PDF가 XPS, DjVu, XHTML(EPUB) 등으로 대체되지 않는 이유에 대한 의문. 간단한 문서 형식이 필요하며, 페이지 내 하이퍼링크, 글꼴 크기 변경 등이 가능해야 한다고 주장. 포렌식과 워터마크 찾기에 유용하다는 의견. PDF의 모든 바이트를 보여주면 좋겠다는 의견. endobj와 xref가 보이지 않는다는 점을 지적. GitHub에 유사한 프로젝트가 있었으며, TCP/IP 예제가 기억난다는 의견. 브라우저 라이브러리로 사용하면 좋겠다는 의견. 파일을 드래그 앤 드롭하여 내부를 볼 수 있는 기능이 인상적임. UI 도구가 라이브러리인지 궁금하다는 의견. CSS를 잘 활용한 간단한 UI라는 점이 좋다고 평가. 시각 미디어 형식의 콘텐츠를 바이트 단위로 설명하는 도구를 찾고 있다는 의견. JPEG, PNG, AVI, MP4 등의 형식을 다룰 수 있는 도구를 알고 있는지 질문.
Hacker News 의견
해커뉴스 댓글 모음 요약
과거에 PDF에서 데이터를 추출하는 작업을 맡았던 경험이 있음. 당시에는 AI 기술이 없었지만, 현재는 LLMs를 활용하여 데이터를 추출할 수 있는 가능성이 있음.
과거 직장에서 PDF 데이터 추출 도구가 있었다면 많이 사용했을 것이라는 의견. 이상적인 도구는 파일을 드롭하면 로컬에서 모든 작업을 수행하는 방식이어야 함.
iText RUPS라는 무료 도구를 사용하여 PDF 디버깅을 해왔으며, 새로운 도구의 기능이 더 강력할 것 같아 기대된다는 의견.
PDF가 XPS, DjVu, XHTML(EPUB) 등으로 대체되지 않는 이유에 대한 의문. 간단한 문서 형식이 필요하며, 페이지 내 하이퍼링크, 글꼴 크기 변경 등이 가능해야 한다고 주장.
포렌식과 워터마크 찾기에 유용하다는 의견.
PDF의 모든 바이트를 보여주면 좋겠다는 의견.
endobj와xref가 보이지 않는다는 점을 지적.GitHub에 유사한 프로젝트가 있었으며, TCP/IP 예제가 기억난다는 의견.
브라우저 라이브러리로 사용하면 좋겠다는 의견. 파일을 드래그 앤 드롭하여 내부를 볼 수 있는 기능이 인상적임.
UI 도구가 라이브러리인지 궁금하다는 의견. CSS를 잘 활용한 간단한 UI라는 점이 좋다고 평가.
시각 미디어 형식의 콘텐츠를 바이트 단위로 설명하는 도구를 찾고 있다는 의견. JPEG, PNG, AVI, MP4 등의 형식을 다룰 수 있는 도구를 알고 있는지 질문.