2P by GN⁺ 6일전 | ★ favorite | 댓글 1개
  • arXiv는 연구 접근성 향상을 위해 PDF와 함께 HTML 형식의 논문 제공을 시작함
  • 200만 편이 넘는 논문 중 일부는 자동 변환 한계로 HTML 버전이 제공되지 않음, 변환 품질은 지속 개선 예정
  • HTML은 스크린 리더, 음성 변환, 모바일 기기 등 보조 기술과의 호환성이 높아 접근성 측면에서 유리함
  • 커뮤니티는 오류 보고 및 LaTeX 변환 개선을 통해 프로젝트에 직접 참여할 수 있음
  • 이 시도는 과학 연구의 포용성과 접근성 확대를 위한 arXiv의 장기적 방향을 보여줌

HTML 형식의 논문 제공 개요

  • arXiv는 기존 PDF 외에 HTML 논문 형식을 도입해 연구 접근성을 높이고 있음
    • 커뮤니티 피드백에 따르면 HTML 제공이 단기간 내 가장 큰 영향을 줄 수 있는 조치로 평가됨
  • HTML 버전은 논문 초록 페이지의 PDF 다운로드 링크 아래에 표시됨
    • 저자는 제출 과정에서 자신의 논문 HTML 미리보기를 확인 가능
  • arXiv는 200만 편 이상의 논문에 대해 점진적으로 HTML을 추가 중이며, 일부 논문은 변환 실패로 HTML이 제공되지 않음
  • HTML 베타 론칭은 시작 단계로, LaTeX 변환 품질 개선과 피드백 수집이 계속 진행 중임

“실험적” HTML로 명명한 이유

  • arXiv 제출의 90% 이상이 TeX(주로 LaTeX) 형식으로 되어 있어, 이를 HTML로 정확히 변환하는 데 기술적 난제가 존재함
    • LaTeX는 확장성이 높고 저자별 사용 방식이 다양함
    • HTML은 스크린 리더, 음성 변환, 화면 확대기, 모바일 기기와의 호환성이 뛰어남
  • 변환은 자동화와 속도를 유지해야 하므로 완벽한 렌더링이 어려움
  • “실험적” HTML로 출시한 이유는 두 가지임
    1. 접근 가능한 논문이 지금 당장 필요함 — 접근성 요구가 있는 연구자들이 출시를 지연하지 말 것을 요청함
    2. 커뮤니티의 도움 필요 — 변환 오류를 보고받아 특정 LaTeX 패키지 문제를 추적하기 위함

HTML 논문에서 발생할 수 있는 오류

  • HTML 논문은 아직 개선 중인 작업물로, 변환 오류나 렌더링 문제가 발생할 수 있음
  • arXiv는 오류 원인과 저자가 이를 최소화할 수 있는 방법을 공유하고 있음
  • 관련 세부 내용은 별도 페이지에서 확인 가능

커뮤니티 참여 방법

  • 1) HTML 논문 읽기 및 문제 보고

    • 관심 논문의 초록 페이지에서 HTML 링크를 클릭해 열람
    • 문제 보고는 Open Issue 버튼, 텍스트 선택 후 보고, 또는 Ctrl+? 단축키로 가능
    • 스크린 리더 사용자는 Alt+y로 단락별 접근성 보고 버튼을 전환 가능
    • HTML이 PDF와 동일하게 보이지 않는다는 이유만으로 보고하지 말 것을 요청
    • HTML은 형태보다 기능을 우선, 줄바꿈과 여백 차이는 의도된 설계임
    • HTML은 보조 기술 호환성과 기기 적응성 측면에서 PDF보다 우수함
  • 2) LaTeX 변환 개선 지원

    • 저자는 arXiv의 LaTeX 마크업 모범 사례 가이드를 따라 변환 품질을 높일 수 있음
    • 개발자는 LaTeXML 프로젝트의 이슈 목록을 통해 변환 개선에 기여 가능
    • 학회나 출판사는 지원되지 않는 패키지를 사용하는 .cls 파일을 검토해 접근성 향상에 협력 가능

협력자에 대한 감사

  • 프로젝트 전반에서 장애가 있는 과학자들의 조언과 전문성이 큰 역할을 함
  • HTML 논문 구현은 LaTeX ProjectNIST의 LaTeXML 팀의 협력 덕분에 가능했음
  • 두 팀의 지식, 기술, 접근성에 대한 헌신에 대해 깊은 감사를 표함
Hacker News 의견
  • arXiv HTML Papers 개발자로서 간단히 업데이트를 전함
    현재 논문 렌더링의 품질과 커버리지 문제가 많음을 알고 있음. 이런 문제를 발견하면 GitHub 이슈 페이지에 보고해주길 바람
    개발 시간 부족이 가장 큰 병목이며, LaTeX 쪽 개선의 핵심은 여전히 LaTeXML

  • 나는 arXiv 논문을 PDF보다 HTML 형식으로 읽는 걸 훨씬 선호함
    브라우저 확장 기능을 그대로 활용해 번역, 노트 작성, LLM 전송 등 다양한 작업을 쉽게 할 수 있음
    현재 arXiv에는 기본 HTML 서비스(https://arxiv.org/html/xxxx.xxxxx)와 대체 서비스(https://ar5iv.labs.arxiv.org/html/xxxx.xxxxx)가 있음
    하지만 기본 서비스는 커버리지 문제가 심각하며, 예를 들어 이 논문은 작동하지 않음. 대체 서비스로 전환하면 해결되기도 하지만, 두 서비스 모두 실패하는 경우도 있음 (예시)

  • Unicode 컨소시엄이 이모지 대신 수학 기호 지원에 더 집중했다면, (LA)TeX/PDF 중심 구조에서 벗어날 수 있었을 것 같음
    OpenType과 TrueType은 이미 복잡한 렌더링을 지원하고, 폰트 폴백도 가능함
    기술적 제약이 아니라 “기호 계층에 포함되지 않는다”는 정책적 판단이 문제였음
    흥미롭게도 Gemini 3 Pro는 어떤 설정을 해도 LaTeX 수식을 강제로 출력함. 실험 결과를 여기에 공유했음

    • 아무리 위첨자·아래첨자를 잘 처리해도, 분수나 가변 괄호 같은 기본 수식 표현은 불가능함
      Unicode는 본질적으로 문자 체계이지 레이아웃 시스템이 아니기 때문임
    • 수학식은 이모지보다 훨씬 복잡함. 비교 자체가 어렵다고 생각함
    • Gemini 3만 그런 문제가 있다는 게 의외임. 대부분의 LLM이 LaTeX 중심일 텐데, 오히려 표준으로서 자연스러운 결과 같음
    • 사실 “수학 때문에 LaTeX가 필요하다”는 건 오래된 변명에 불과함
      HTML 기반 논문도 충분히 가능하지만, 연구자들이 여전히 전통적인 2단 레이아웃과 세리프 폰트를 고집함
      모바일 접근성이나 가독성보다 ‘진짜 논문처럼 보여야 한다’는 문화가 문제임
    • 두 단계 접근법을 제안함.
      1단계에서 질문을 던지고, 2단계에서 작은 모델로 LaTeX 표기를 유니코드 수식으로 변환하도록 하는 방식임
  • HTML 논문은 이미 몇 년 전부터 제공되고 있었음
    실제로 2023년에 도입되었음을 공식 블로그에서 확인함

    • 왜 “실험적(Experimental)” HTML인가?
      arXiv 논문의 90%가 LaTeX 기반이라 변환이 매우 어렵기 때문임.
      빠르고 자동화된 변환을 유지하면서 접근성을 높이는 것이 핵심 과제임
    • 관련 문서가 GitHub 문서 페이지에 있음. 2023 태그가 필요하다고 언급함
  • 복잡한 TeX 구조를 자주 쓰는 저자로서, HTML 변환 도입 이후 작업량이 크게 늘었음
    변환 속도도 느리고, 로컬에서 시뮬레이션할 방법이 없음
    그래도 접근성 향상을 위해 좋은 시도라고 생각함

  • 논문이 epub 형식으로도 제공되면 좋겠다고 생각함. 기술적 어려움이 있는지, 단순히 수요가 부족한지 모르겠음

    • epub은 사실상 HTML 기반
      하지만 PDF만큼 읽기 편하거나 미려하게 표시되는 리더를 본 적이 없음. 주석 기능도 플랫폼 간 호환이 부족함
    • epub은 결국 HTML/CSS를 잘 다듬은 결과물임.
      연구자가 그 품질 보증까지 하기엔 비효율적이므로, 필요하면 HTML→epub 변환기를 직접 쓰면 됨
    • “epub이 왜 필요한가?”라는 의문도 있음. 어차피 HTML이기 때문임
  • 연구 접근성 문제는 새롭지 않지만, 지금이 가장 시급한 시점
    arXiv가 PDF와 함께 HTML 논문을 제공하는 것이 가장 빠르고 큰 변화를 만들 수 있음

    • 내 프리프린트를 HTML로 보며 감사함을 느꼈음. 커뮤니티가 어떻게 기여할 수 있을지도 알고 싶음
  • 논문에서 영상 삽입이 제한적인 것이 가장 큰 불만임
    단순히 보조 자료로 첨부하거나 외부 링크로만 제공할 수 있음.
    논문 본문에 GIF나 동영상을 직접 삽입할 수 있기를 바람

  • “90%가 LaTeX 기반이라 변환이 어렵다”는 설명을 보고, 정말 도전적인 작업이라 생각함. 좋은 시도임

  • 1998년쯤 학교 신문 편집을 맡았을 때, Corel Draw 대신 HTML로 전환하자고 제안했었음
    결국 당시에도 지금 댓글들처럼 같은 이유로 HTML 채택을 포기했었음