arXiv HTML Papers 개발자로서 간단히 업데이트를 전함
현재 논문 렌더링의 품질과 커버리지 문제가 많음을 알고 있음. 이런 문제를 발견하면 GitHub 이슈 페이지에 보고해주길 바람
개발 시간 부족이 가장 큰 병목이며, LaTeX 쪽 개선의 핵심은 여전히 LaTeXML임
Unicode 컨소시엄이 이모지 대신 수학 기호 지원에 더 집중했다면, (LA)TeX/PDF 중심 구조에서 벗어날 수 있었을 것 같음
OpenType과 TrueType은 이미 복잡한 렌더링을 지원하고, 폰트 폴백도 가능함
기술적 제약이 아니라 “기호 계층에 포함되지 않는다”는 정책적 판단이 문제였음
흥미롭게도 Gemini 3 Pro는 어떤 설정을 해도 LaTeX 수식을 강제로 출력함. 실험 결과를 여기에 공유했음
아무리 위첨자·아래첨자를 잘 처리해도, 분수나 가변 괄호 같은 기본 수식 표현은 불가능함
Unicode는 본질적으로 문자 체계이지 레이아웃 시스템이 아니기 때문임
수학식은 이모지보다 훨씬 복잡함. 비교 자체가 어렵다고 생각함
Gemini 3만 그런 문제가 있다는 게 의외임. 대부분의 LLM이 LaTeX 중심일 텐데, 오히려 표준으로서 자연스러운 결과 같음
사실 “수학 때문에 LaTeX가 필요하다”는 건 오래된 변명에 불과함
HTML 기반 논문도 충분히 가능하지만, 연구자들이 여전히 전통적인 2단 레이아웃과 세리프 폰트를 고집함
모바일 접근성이나 가독성보다 ‘진짜 논문처럼 보여야 한다’는 문화가 문제임
두 단계 접근법을 제안함.
1단계에서 질문을 던지고, 2단계에서 작은 모델로 LaTeX 표기를 유니코드 수식으로 변환하도록 하는 방식임
HTML 논문은 이미 몇 년 전부터 제공되고 있었음
실제로 2023년에 도입되었음을 공식 블로그에서 확인함
왜 “실험적(Experimental)” HTML인가?
arXiv 논문의 90%가 LaTeX 기반이라 변환이 매우 어렵기 때문임.
빠르고 자동화된 변환을 유지하면서 접근성을 높이는 것이 핵심 과제임
Hacker News 의견
arXiv HTML Papers 개발자로서 간단히 업데이트를 전함
현재 논문 렌더링의 품질과 커버리지 문제가 많음을 알고 있음. 이런 문제를 발견하면 GitHub 이슈 페이지에 보고해주길 바람
개발 시간 부족이 가장 큰 병목이며, LaTeX 쪽 개선의 핵심은 여전히 LaTeXML임
나는 arXiv 논문을 PDF보다 HTML 형식으로 읽는 걸 훨씬 선호함
브라우저 확장 기능을 그대로 활용해 번역, 노트 작성, LLM 전송 등 다양한 작업을 쉽게 할 수 있음
현재 arXiv에는 기본 HTML 서비스(https://arxiv.org/html/xxxx.xxxxx)와 대체 서비스(https://ar5iv.labs.arxiv.org/html/xxxx.xxxxx)가 있음
하지만 기본 서비스는 커버리지 문제가 심각하며, 예를 들어 이 논문은 작동하지 않음. 대체 서비스로 전환하면 해결되기도 하지만, 두 서비스 모두 실패하는 경우도 있음 (예시)
Unicode 컨소시엄이 이모지 대신 수학 기호 지원에 더 집중했다면, (LA)TeX/PDF 중심 구조에서 벗어날 수 있었을 것 같음
OpenType과 TrueType은 이미 복잡한 렌더링을 지원하고, 폰트 폴백도 가능함
기술적 제약이 아니라 “기호 계층에 포함되지 않는다”는 정책적 판단이 문제였음
흥미롭게도 Gemini 3 Pro는 어떤 설정을 해도 LaTeX 수식을 강제로 출력함. 실험 결과를 여기에 공유했음
Unicode는 본질적으로 문자 체계이지 레이아웃 시스템이 아니기 때문임
HTML 기반 논문도 충분히 가능하지만, 연구자들이 여전히 전통적인 2단 레이아웃과 세리프 폰트를 고집함
모바일 접근성이나 가독성보다 ‘진짜 논문처럼 보여야 한다’는 문화가 문제임
1단계에서 질문을 던지고, 2단계에서 작은 모델로 LaTeX 표기를 유니코드 수식으로 변환하도록 하는 방식임
HTML 논문은 이미 몇 년 전부터 제공되고 있었음
실제로 2023년에 도입되었음을 공식 블로그에서 확인함
arXiv 논문의 90%가 LaTeX 기반이라 변환이 매우 어렵기 때문임.
빠르고 자동화된 변환을 유지하면서 접근성을 높이는 것이 핵심 과제임
복잡한 TeX 구조를 자주 쓰는 저자로서, HTML 변환 도입 이후 작업량이 크게 늘었음
변환 속도도 느리고, 로컬에서 시뮬레이션할 방법이 없음
그래도 접근성 향상을 위해 좋은 시도라고 생각함
논문이 epub 형식으로도 제공되면 좋겠다고 생각함. 기술적 어려움이 있는지, 단순히 수요가 부족한지 모르겠음
하지만 PDF만큼 읽기 편하거나 미려하게 표시되는 리더를 본 적이 없음. 주석 기능도 플랫폼 간 호환이 부족함
연구자가 그 품질 보증까지 하기엔 비효율적이므로, 필요하면 HTML→epub 변환기를 직접 쓰면 됨
연구 접근성 문제는 새롭지 않지만, 지금이 가장 시급한 시점임
arXiv가 PDF와 함께 HTML 논문을 제공하는 것이 가장 빠르고 큰 변화를 만들 수 있음
논문에서 영상 삽입이 제한적인 것이 가장 큰 불만임
단순히 보조 자료로 첨부하거나 외부 링크로만 제공할 수 있음.
논문 본문에 GIF나 동영상을 직접 삽입할 수 있기를 바람
“90%가 LaTeX 기반이라 변환이 어렵다”는 설명을 보고, 정말 도전적인 작업이라 생각함. 좋은 시도임
1998년쯤 학교 신문 편집을 맡았을 때, Corel Draw 대신 HTML로 전환하자고 제안했었음
결국 당시에도 지금 댓글들처럼 같은 이유로 HTML 채택을 포기했었음