논문을 위한 접근 가능한 형식으로서의 HTML (2023)
(info.arxiv.org)- arXiv는 연구 접근성 향상을 위해 PDF와 함께 HTML 형식의 논문 제공을 시작함
- 200만 편이 넘는 논문 중 일부는 자동 변환 한계로 HTML 버전이 제공되지 않음, 변환 품질은 지속 개선 예정
- HTML은 스크린 리더, 음성 변환, 모바일 기기 등 보조 기술과의 호환성이 높아 접근성 측면에서 유리함
- 커뮤니티는 오류 보고 및 LaTeX 변환 개선을 통해 프로젝트에 직접 참여할 수 있음
- 이 시도는 과학 연구의 포용성과 접근성 확대를 위한 arXiv의 장기적 방향을 보여줌
HTML 형식의 논문 제공 개요
- arXiv는 기존 PDF 외에 HTML 논문 형식을 도입해 연구 접근성을 높이고 있음
- 커뮤니티 피드백에 따르면 HTML 제공이 단기간 내 가장 큰 영향을 줄 수 있는 조치로 평가됨
- HTML 버전은 논문 초록 페이지의 PDF 다운로드 링크 아래에 표시됨
- 저자는 제출 과정에서 자신의 논문 HTML 미리보기를 확인 가능
- arXiv는 200만 편 이상의 논문에 대해 점진적으로 HTML을 추가 중이며, 일부 논문은 변환 실패로 HTML이 제공되지 않음
- HTML 베타 론칭은 시작 단계로, LaTeX 변환 품질 개선과 피드백 수집이 계속 진행 중임
“실험적” HTML로 명명한 이유
- arXiv 제출의 90% 이상이 TeX(주로 LaTeX) 형식으로 되어 있어, 이를 HTML로 정확히 변환하는 데 기술적 난제가 존재함
- LaTeX는 확장성이 높고 저자별 사용 방식이 다양함
- HTML은 스크린 리더, 음성 변환, 화면 확대기, 모바일 기기와의 호환성이 뛰어남
- 변환은 자동화와 속도를 유지해야 하므로 완벽한 렌더링이 어려움
- “실험적” HTML로 출시한 이유는 두 가지임
- 접근 가능한 논문이 지금 당장 필요함 — 접근성 요구가 있는 연구자들이 출시를 지연하지 말 것을 요청함
- 커뮤니티의 도움 필요 — 변환 오류를 보고받아 특정 LaTeX 패키지 문제를 추적하기 위함
HTML 논문에서 발생할 수 있는 오류
- HTML 논문은 아직 개선 중인 작업물로, 변환 오류나 렌더링 문제가 발생할 수 있음
- arXiv는 오류 원인과 저자가 이를 최소화할 수 있는 방법을 공유하고 있음
- 관련 세부 내용은 별도 페이지에서 확인 가능
커뮤니티 참여 방법
-
1) HTML 논문 읽기 및 문제 보고
- 관심 논문의 초록 페이지에서 HTML 링크를 클릭해 열람
- 문제 보고는 Open Issue 버튼, 텍스트 선택 후 보고, 또는 Ctrl+? 단축키로 가능
- 스크린 리더 사용자는 Alt+y로 단락별 접근성 보고 버튼을 전환 가능
- HTML이 PDF와 동일하게 보이지 않는다는 이유만으로 보고하지 말 것을 요청
- HTML은 형태보다 기능을 우선, 줄바꿈과 여백 차이는 의도된 설계임
- HTML은 보조 기술 호환성과 기기 적응성 측면에서 PDF보다 우수함
-
2) LaTeX 변환 개선 지원
- 저자는 arXiv의 LaTeX 마크업 모범 사례 가이드를 따라 변환 품질을 높일 수 있음
- 개발자는 LaTeXML 프로젝트의 이슈 목록을 통해 변환 개선에 기여 가능
- 학회나 출판사는 지원되지 않는 패키지를 사용하는 .cls 파일을 검토해 접근성 향상에 협력 가능
협력자에 대한 감사
- 프로젝트 전반에서 장애가 있는 과학자들의 조언과 전문성이 큰 역할을 함
- HTML 논문 구현은 LaTeX Project와 NIST의 LaTeXML 팀의 협력 덕분에 가능했음
- 두 팀의 지식, 기술, 접근성에 대한 헌신에 대해 깊은 감사를 표함
Hacker News 의견
-
arXiv HTML Papers 개발자로서 간단히 업데이트를 전함
현재 논문 렌더링의 품질과 커버리지 문제가 많음을 알고 있음. 이런 문제를 발견하면 GitHub 이슈 페이지에 보고해주길 바람
개발 시간 부족이 가장 큰 병목이며, LaTeX 쪽 개선의 핵심은 여전히 LaTeXML임 -
나는 arXiv 논문을 PDF보다 HTML 형식으로 읽는 걸 훨씬 선호함
브라우저 확장 기능을 그대로 활용해 번역, 노트 작성, LLM 전송 등 다양한 작업을 쉽게 할 수 있음
현재 arXiv에는 기본 HTML 서비스(https://arxiv.org/html/xxxx.xxxxx)와 대체 서비스(https://ar5iv.labs.arxiv.org/html/xxxx.xxxxx)가 있음
하지만 기본 서비스는 커버리지 문제가 심각하며, 예를 들어 이 논문은 작동하지 않음. 대체 서비스로 전환하면 해결되기도 하지만, 두 서비스 모두 실패하는 경우도 있음 (예시) -
Unicode 컨소시엄이 이모지 대신 수학 기호 지원에 더 집중했다면, (LA)TeX/PDF 중심 구조에서 벗어날 수 있었을 것 같음
OpenType과 TrueType은 이미 복잡한 렌더링을 지원하고, 폰트 폴백도 가능함
기술적 제약이 아니라 “기호 계층에 포함되지 않는다”는 정책적 판단이 문제였음
흥미롭게도 Gemini 3 Pro는 어떤 설정을 해도 LaTeX 수식을 강제로 출력함. 실험 결과를 여기에 공유했음- 아무리 위첨자·아래첨자를 잘 처리해도, 분수나 가변 괄호 같은 기본 수식 표현은 불가능함
Unicode는 본질적으로 문자 체계이지 레이아웃 시스템이 아니기 때문임 - 수학식은 이모지보다 훨씬 복잡함. 비교 자체가 어렵다고 생각함
- Gemini 3만 그런 문제가 있다는 게 의외임. 대부분의 LLM이 LaTeX 중심일 텐데, 오히려 표준으로서 자연스러운 결과 같음
- 사실 “수학 때문에 LaTeX가 필요하다”는 건 오래된 변명에 불과함
HTML 기반 논문도 충분히 가능하지만, 연구자들이 여전히 전통적인 2단 레이아웃과 세리프 폰트를 고집함
모바일 접근성이나 가독성보다 ‘진짜 논문처럼 보여야 한다’는 문화가 문제임 - 두 단계 접근법을 제안함.
1단계에서 질문을 던지고, 2단계에서 작은 모델로 LaTeX 표기를 유니코드 수식으로 변환하도록 하는 방식임
- 아무리 위첨자·아래첨자를 잘 처리해도, 분수나 가변 괄호 같은 기본 수식 표현은 불가능함
-
HTML 논문은 이미 몇 년 전부터 제공되고 있었음
실제로 2023년에 도입되었음을 공식 블로그에서 확인함- 왜 “실험적(Experimental)” HTML인가?
arXiv 논문의 90%가 LaTeX 기반이라 변환이 매우 어렵기 때문임.
빠르고 자동화된 변환을 유지하면서 접근성을 높이는 것이 핵심 과제임 - 관련 문서가 GitHub 문서 페이지에 있음. 2023 태그가 필요하다고 언급함
- 왜 “실험적(Experimental)” HTML인가?
-
복잡한 TeX 구조를 자주 쓰는 저자로서, HTML 변환 도입 이후 작업량이 크게 늘었음
변환 속도도 느리고, 로컬에서 시뮬레이션할 방법이 없음
그래도 접근성 향상을 위해 좋은 시도라고 생각함- dginev의 Docker 이미지가 arXiv 환경과 거의 동일하며, 로컬 실행이 가능함
-
논문이 epub 형식으로도 제공되면 좋겠다고 생각함. 기술적 어려움이 있는지, 단순히 수요가 부족한지 모르겠음
- epub은 사실상 HTML 기반임
하지만 PDF만큼 읽기 편하거나 미려하게 표시되는 리더를 본 적이 없음. 주석 기능도 플랫폼 간 호환이 부족함 - epub은 결국 HTML/CSS를 잘 다듬은 결과물임.
연구자가 그 품질 보증까지 하기엔 비효율적이므로, 필요하면 HTML→epub 변환기를 직접 쓰면 됨 - “epub이 왜 필요한가?”라는 의문도 있음. 어차피 HTML이기 때문임
- epub은 사실상 HTML 기반임
-
연구 접근성 문제는 새롭지 않지만, 지금이 가장 시급한 시점임
arXiv가 PDF와 함께 HTML 논문을 제공하는 것이 가장 빠르고 큰 변화를 만들 수 있음- 내 프리프린트를 HTML로 보며 감사함을 느꼈음. 커뮤니티가 어떻게 기여할 수 있을지도 알고 싶음
-
논문에서 영상 삽입이 제한적인 것이 가장 큰 불만임
단순히 보조 자료로 첨부하거나 외부 링크로만 제공할 수 있음.
논문 본문에 GIF나 동영상을 직접 삽입할 수 있기를 바람 -
“90%가 LaTeX 기반이라 변환이 어렵다”는 설명을 보고, 정말 도전적인 작업이라 생각함. 좋은 시도임
-
1998년쯤 학교 신문 편집을 맡았을 때, Corel Draw 대신 HTML로 전환하자고 제안했었음
결국 당시에도 지금 댓글들처럼 같은 이유로 HTML 채택을 포기했었음