1P by GN⁺ 2시간전 | ★ favorite | 댓글 1개
  • 1910–1911 Encyclopædia Britannica 11판의 디지털 판본으로, 전체 검색과 상호 참조, 주석 기능 제공
  • 상단 탐색 항목으로 Articles, Contributors, Topics, Ancillary 구분 제공
  • 표제에 Encyclopædia BritannicaEleventh Edition · 1910–1911 명시
  • 소개 문구에 Fully searchable, cross-referenced, and annotated 직접 표기
  • 추가 본문 설명이나 예시, 세부 기능 소개는 제시되지 않음

개요

  • 1910–1911 Encyclopædia Britannica 11판의 디지털 판본으로, 전체 검색, 상호 참조, 주석 기능 제공
  • 상단 탐색 항목으로 Articles, Contributors, Topics, Ancillary 구분 제공
  • 표제에 Encyclopædia Britannica, Eleventh Edition · 1910–1911 명시
  • 소개 문구로 Fully searchable, cross-referenced, and annotated 직접 표기
  • 추가 본문 설명, 예시, 세부 기능 설명은 제공되지 않음

제공 정보

  • 디지털 판본의 핵심 특성으로 검색 가능성, 교차 참조, 주석 추가 직접 확인 가능
  • 기사 본문에 해당하는 확장 설명이나 각 항목별 세부 소개는 포함되지 않음
  • 저자 정보, 발행 정보, 참고 정보에 해당하는 메타데이터는 요약 대상에서 제외됨
Hacker News 의견들
  • 내가 1911 Encyclopædia Britannica를 깔끔하고 구조화된 탐색형 사이트로 다시 만들었음. https://britannica11.org/에서 볼 수 있음
    약 3만7천 개 글을 원본 권수 기준으로 복원했고, 섹션 단위 목차 클릭, 상호참조 링크, 기고자 검색, 원본 권수와 페이지 표기, 각 페이지 원본 스캔 연결, 부록성 자료, 주제 색인, 메타데이터 포함 전문 검색까지 넣었음
    핵심 작업은 제목 구조, 여러 페이지에 걸친 글, 표, 수식, 다국어, 각주, 도판 같은 복원 파이프라인 처리였음
    목표는 원본 감성을 유지하면서도 실제로 쓸 만한 형태로 만드는 것이었음
    특히 검색 품질, 섹션 이동과 상호참조, 구조가 어색해 보이는 부분에 대한 피드백을 받고 싶음
    파이프라인이나 데이터 모델 질문도 환영함

    • 부록 자료와 잘 어울릴 만한 것으로 The Reader's Guide to the Encyclopaedia Britannica를 추가해보면 좋겠다고 봄. 퍼블릭 도메인 텍스트는 https://www.gutenberg.org/ebooks/74039, 스캔은 https://archive.org/details/readersguidetoen00londuoft에서 볼 수 있음
    • 정말 잘 만들었다고 느낌. 기능 제안으로, 파이프라인에서 EPUB 생성까지 지원하면 좋겠다고 봄. 사이트가 내려가도 오프라인에서 검색과 열람이 가능하고, EPUB 압축 덕분에 전체 백과사전 파일 크기도 생각보다 크지 않을 수 있음
    • 목차 쪽에 이스케이프 문제가 보인다고 느낌. 예를 들어 United States 문서에서 Roosevelt's 표기가 깨져 보임. https://britannica11.org/article/27-0635-united-states-the/united_states__the
    • 몇 개 주제를 실제로 한참 둘러보게 될 정도로 좋았음
      다만 기사 안으로 들어간 뒤 다른 주제로 이동하려고 할 때 상단 검색창인 "Search titles and full text..."가 작동하지 않았음
      또 처음 들어왔을 때는 어디서 시작해야 하는지 조금 막혔고, "Articles"나 "Topics"를 눌러야 탐색이 시작된다는 점을 바로 이해하지 못했음. 메인 이미지 자체가 입구 역할을 할 거라고 기대했던 것 같음
    • 한 문서 안에 언급된 주제를 다른 문서로 연결하는 Wikipedia 스타일 내부 링크가 있으면 더 좋겠다고 느낌
  • 이 프로젝트가 정말 멋지다고 느낌. 나도 더 작은 범위로 비슷한 걸 해볼까 오래 생각해왔음
    1911 Britannica가 특히 유명한 이유는 여러 가지가 있지만, 가장 널리 알려진 점은 제1차 세계대전 이전 마지막 백과사전이라는 점이라고 봄
    그래서 1차, 2차 산업혁명과 Progressive Era의 증기 같은 낙관주의가 살아 있고, 아직 "모든 전쟁을 끝낼 전쟁"의 충격에 물들지 않은 분위기가 남아 있음
    직접 https://britannica11.org에서 무작위로 Portuguese East Africa를 검색해봤는데 바로 찾아서 잘 보여줬고, 결과는 https://britannica11.org/article/22-0177-portuguese-east-africa/portuguese_east_africa였음
    정중한 희망 사항으로, 텍스트와 원본 페이지 이미지를 나란히 보여주는 병렬 보기 옵션이 있으면 정말 좋겠다고 느낌
    그러면 OCR 충실도를 직접 확인하면서 아름다운 인쇄 상태도 함께 볼 수 있고, 페이지마다 새 창을 열 필요도 없게 됨
    개인적으로는 이 사이트를 문서 진입점으로 쓰고, 읽기는 이미지 중심으로 하다가 확인이나 복사할 때 텍스트로 전환하는 식으로 쓰고 싶음
    현재도 원본 이미지가 있다는 건 알았지만, 사이드 링크를 찾기까지 세 번이나 방문했을 정도로 눈에 잘 띄지 않았음. 선택형 썸네일 같은 중간안도 괜찮아 보임
    무엇보다 속도도 빠름

  • "Adolescence" 문서 같은 걸 보면 오늘날엔 꽤 충격적으로 읽히는 믿음들을 발견할 수 있다고 느낌
    예시로, 사춘기 무렵 여자아이에게는 운동과 지적 교육 부담을 줄이고 휴식을 강제해야 한다는 식의 서술이 들어 있음

    • 맞는 말이라고 느낌. 내가 1911 판을 흥미롭게 보는 이유 중 하나도 거기에 있음. 저자들이 자기 의견을 더 직접적으로 표출할 수 있었고, 그 의견이 당대의 통념을 자연스럽게 반영하고 있기 때문임
    • 저런 내용은 글로 명문화되었을 때만 충격적으로 보이는 면도 있다고 느낌
      실제로는 많은 사람이 비슷한 삶의 형태를 실천하고 있고, 여성운동도 한때 그 반대를 강하게 밀다가 나중에는 노동시장에 들어가지 않을 선택의 자유도 강조하는 방향으로 조정된 면이 있다고 봄
      이른바 "soft life"에 대한 선호는 시대를 가리지 않으며, 남성도 누군가에게 경제적으로 부양받는 문화적 선택지가 널리 열려 있다면 지적 부담이 적고 단계적인 역할을 택할 비율이 꽤 높아질 것이라고 생각함
      그렇게 되면 다른 분야의 대표성 불균형도 여성 억지 투입이 아니라 남성의 자발적 이탈로 일부 해소될 수 있다고 보는 시각임
    • 이제는 퍼블릭 도메인 텍스트라면 거의 무엇이든 Kimi나 GLM 같은 최신급 LLM에 넣어서 현대어 요약을 꽤 잘 받을 수 있다고 느낌
      역사 문헌 특유의 벽돌형 문단을 LLM이 과한 포매팅으로 정리해주는 점도 의외로 유용함
      그리고 "이 텍스트가 오늘날에는 어떻게 받아들여질까?" 같은 프롬프트를 한 번 더 주면, 지금 기준에서 부적절하거나 받아들이기 어려운 부분도 꽤 자세히 짚어줌
  • 내부적으로 정보가 어떤 구조인지 궁금했음. 디지털 인문학 쪽에서는 이런 작업에 XML-TEI 같은 의미론적 마크업을 많이 쓴다는 걸 최근 알게 됐음
    나는 Latin-English Lewis & Short 사전을 XML-TEI로 인코딩한 자료를 보면서 BaseX와 XQuery를 배워, "전체 코퍼스에서 한 번만 나오는 단어를 쓴 고전 저자는 누구인가"나 "가장 긴 hapax 단어는 무엇인가" 같은 질문을 던져보는 재미를 느꼈음
    Tufts University가 이런 자료를 공개해준 것도 정말 좋았음
    1911 Britannica도 BaseX에 넣고 XQuery로 이것저것 파고들 수 있으면 정말 재미있겠다고 느낌

    • 내부 구조는 XML-TEI가 아니라 관계형 데이터와 파이프라인 기반임. 기사 경계, 섹션, 기고자, 상호참조, 원본 페이지 출처 정보를 구조화 레코드로 복원해두었음
      텍스트 자체는 퍼블릭 도메인이지만, 아직 대량 구조화 익스포트는 공개하지 않았음
      다만 이 스레드에서도 데이터셋 접근 요청이 많이 나와서 진지하게 검토 중이고, 공개한다면 평문 덤프가 아니라 구조를 유지한 형태로 내고 싶음
  • 현대 텍스트와 비교하면 문체와 구조가 꽤 다르다는 점이 흥미로웠음
    예를 들어 Copenhagen 항목 https://britannica11.org/article/07-0111-copenhagen/copenhagen을 보면 지리와 주요 볼거리는 정확하게 설명하면서도, 저자들이 흥미롭거나 기이하다고 보는 대상에 대해 감정적인 형용사와 개인적 의견을 거리낌 없이 넣고 있음
    게다가 아래쪽의 Battle of Copenhagen 대목은 지리 설명에서 갑자기 해전의 장면별 묘사로 넘어가며 장르 자체가 전환되는 느낌이었음

    • 맞다고 느낌. 그게 내가 이 판본에서 가장 좋아하는 점 중 하나임. 문서들이 더 개인적이고 덜 균질화된 톤을 갖고 있음
      지리, 역사, 때로는 꽤 강한 의견까지 한곳에 섞여 있어서 오히려 읽기 더 좋다고 생각함
      이 점과 관련된 이야기는 내 소개 글 https://britannica11.org/about.html에도 정리해두었음
    • Victor Hugo 항목을 보자마자, 누가 봐도 저자가 팬이라는 문장을 발견했다고 느낌
      Les Misérables를 "지금껏 창조되거나 구상된 가장 위대한 서사적이고 극적인 소설"이라고 치켜세우는 대목이 바로 그런 예였음
  • 2021년판 Encarta나 Britannica 같은 비교적 최근 백과사전을 구할 수 있을지 오래 고민해봤음
    LLM 이전, 코로나 이후라는 애매한 경계에서 AI 오염이 덜한 마지막 정보원 비슷한 걸 기대하게 됐음
    어린 시절 가장 아끼던 물건 중 하나가 CD-ROM 백과사전이었고, 인터넷이 흔하지 않던 시절 비 오는 오후마다 좋아하는 항목을 열어 읽고 배우는 경험이 참 좋았음

  • 1911 Encyclopedia Britannica를 좋아하는 사람이라면 https://OldEncyc.com도 재미있게 볼 것 같음
    여기서는 1728년부터 1926년까지 22개 판본의 오래된 백과사전을 권과 문자 범위별로 파고들 수 있음. OP 사이트처럼 검색형은 아니지만 자료 폭이 넓음

    • 처음 보는 사이트였는데 정말 좋은 컬렉션이라고 느낌. 여러 판본을 폭넓게 아우르는 점이 특히 마음에 듦
  • 아주 사소한 버그 제보지만, 지금 선택한 폰트가 ℔ 문자를 지원하지 않아서 https://britannica11.org/article/22-0688-s2/putting_the_shot 같은 문서가 이상하게 보인다고 느낌
    요즘 더 익숙한 표기인 lb로 정규화하는 것도 고려해볼 만함

    • 좋은 지적이라고 느낌. 그건 글리프 커버리지 문제라서, 누락 문자를 위한 대체 폰트를 넣거나 해당 경우를 정규화할 생각임
      사소해 보여도 이 프로젝트는 이런 종류의 항목들로 가득 차 있음
  • 세상 좁다고 느낌. 나는 지금 EB 9th edition 스캔을 정리해서 MediaWiki 사이트로 올리는 중이고, 삽화와 도판까지 포함하다 보니 아직 3분의 1 정도밖에 못 왔음
    여러 OCR 도구를 시험해봤는데 지금까지는 paddleOCR가 가장 인상적이었음. 텍스트 컬럼 분리, 삽화 라벨링, 여백 텍스트 인식까지 꽤 잘했음
    물론 완벽하진 않아서 일부 표는 손으로 수정 중이고, 원본 스캔 페이지와 전자 텍스트를 오가며 볼 수 있게 소스 페이지도 함께 올릴 계획임

    • 참고로 1875년판 9th edition은 기여한 저명 인사가 많아서 scholar's edition으로 알려져 있었고, 19세기 후반의 매력적인 스냅샷이라고 느낌
      이런 방식으로 하이퍼링크와 색인을 붙여 온라인화하면 재미있을 자료로 지리 아틀라스, 의학 아틀라스, Baedeker 여행 가이드 같은 것도 떠오름
    • 기대된다고 느낌. 9판은 그 자체로 훌륭하고, 11판에도 그 내용이 많이 이어져 있음
      Alfred Newton의 방대한 조류 항목들이나 Macaulay의 고전적인 에세이 몇 편이 바로 생각남
  • 몇몇 부분은 지금 읽으면 꽤 재미있고 기묘한 맛이 있다고 느낌. 예를 들어 stars 항목 https://britannica11.org/article/25-0806-star/star#section-10에서는, 우주 공간에 별이 무한히 균일하게 퍼져 있고 빛 흡수가 없다면 하늘 배경이 눈부시게 밝아져야 한다는 식으로 서술하고 있음

    • "computer"를 검색해보니 현대적 의미의 컴퓨터는 없고, American Ephemeris and Nautical Almanac의 computer라는 직업명으로 일한 Chauncey Wright만 나왔음
      결과는 https://britannica11.org/article/28-0872-wright-chauncey/wright__chauncey?q=computer&match=1였고, 시대가 정말 달라졌다고 느낌
    • Sun 항목도 꽤 재미있었음. 핵융합은 몰랐지만, 태양이 어떻게 그렇게 큰 에너지를 내는지에 대해 화학적 연소나 중력 수축 같은 이론은 대부분 기각하고 있었음
      대신 원소 원자 구조의 어떤 재배열이 가장 그럴듯하다고 보고, 성운이 태양으로 응축되며 물질이 알려진 원소들로 발달하는 과정에서 에너지를 방출한다고 설명했음
      당시 지식 수준을 감안하면 놀랄 만큼 근접한 추정이었다고 느낌
    • 그 대목은 Olbers' paradox와 연결해서 보면 된다고 느낌