Gutenberg 프로그래머 중 한 명입니다. 지난 몇 달 동안 사이트를 많이 개선했고 앞으로도 더 바뀔 예정입니다
최근에 안 들어가 봤다면 다시 확인해 볼 만합니다: https://www.gutenberg.org/
각 책, 즉 전자텍스트마다 상세 버전 이력을 두는 걸 검토해 보면 좋겠음. 오탈자 수정 제출은 이메일로 하는 방식인데(https://www.gutenberg.org/help/errata.html), 2011년에 해봤을 때 수정은 며칠 안에 반영됐지만 과정이 꽤 불투명하게 느껴졌음
버전 이력에는 해당 전자텍스트가 어디서 나왔는지, 보통 PGDP 같은 프로젝트 정보도 포함하면 실제 페이지 스캔과 비교할 수 있을 것임. Standard Ebooks에 대해서는 감정이 복잡하고 Project Gutenberg를 직접 쓰는 쪽을 선호하지만, Standard Ebooks는 책마다 GitHub의 git 저장소가 있어서 시간에 따른 수정 이력을 원칙적으로 볼 수 있다는 장점이 있음
Project Gutenberg를 떠올리면 원래의 투박한 브루털리즘식 무디자인이 기억났는데, 현재 사이트는 아주 감각적으로 업데이트됐고 스타일을 꺼도 접근성이 여전히 좋아 보임
흥미롭게도 TCP 핸드셰이크에 4.5초, TLS 핸드셰이크에 추가로 9.2초가 걸림. 대부분의 봇은 그 전에 끊을 테니, 한 번 완료하면 정상 사용자로 보는 일종의 캡차 같은 건지 궁금함
봇이 따라잡기 전까지는 비교적 덜 거슬리고, Chrome/Chromium이 아닌 드문 클라이언트 소프트웨어를 차별하지도 않는 방식일 수 있음. 나머지 요청은 매우 빨랐음
모바일에서 첫 페이지의 책 목록 요소가 가로와 세로 모두 스크롤 가능한 div로 렌더링됨. 개선 여지가 있어 보임
오래된 책이 많으니 검색 기능에 출판일 또는 날짜 범위를 추가하면 좋겠음. 여러 조사를 할 때 특정 연도 _x_보다 오래된 자료를 찾는 경향이 있어서 개인적으로 꽤 유용할 것 같음
Project Gutenberg는 1990년대 이후 인터넷의 성장과 대중화로 많이 쓰이고 커졌겠지만, 실제 시작은 1971년이었다는 걸 알게 됨
Michael S. Hart가 미국 독립선언서를 디지털화하면서 시작했고, 일리노이 대학교 학생이던 Hart는 재료연구소의 Xerox Sigma V 메인프레임 컴퓨터 접근권을 얻었음. 이 컴퓨터는 훗날 인터넷이 되는 ARPANET의 15개 노드 중 하나였고, Hart는 언젠가 대중이 컴퓨터에 접근할 수 있으리라 보고 문학 작품을 전자 형태로 무료 제공하기로 했다고 함 https://en.wikipedia.org/wiki/Project_Gutenberg
아버지에게 Kindle과 액세스 포인트를 사드리고 Project Gutenberg로 책 받는 법을 알려드린 게 내가 해드린 일 중 최고였음
아버지는 한국전 참전 해군 출신에 GED 보유자였지만 Harvard Classics 전권을 읽을 정도로 옛 글을 좋아하셨음. 좋아하는 의자에 앉아 무릎 위에 Kindle을 받치려고 말아 둔 수건을 쓰며 계속 읽고 또 읽으셨고, 돌아가실 때는 1931년판 “Legends of the Jews”를 읽고 계셨음
90년대에는 Michael S. Hart와 짧게 이메일을 주고받았고, 프로젝트에 작은 기여도 했는데 영문학 전공 학부생이던 마음에 큰 자부심과 기쁨을 줬음. 이런 이유로 Project Gutenberg는 내게 특별하고, 아직도 잘 이어지는 걸 보니 기쁨
실제 전사를 담당하는 Distributed Proofreaders는 아직 자원봉사자를 찾고 있음. 마음이 동하면 참여할 수 있음 https://www.pgdp.net
전자책 리더기 업체 중에 Project Gutenberg “스토어”를 넣은 곳이 없다는 게 놀라움. Gutenberg를 둘러보고 책을 찾아 바로 리더기로 내려받을 수 있으면 되는데, 실제로는 Kindle처럼 적극적으로 비우호적이거나 Calibre를 써야 하는 마찰이 있음
브라우저를 지원하는 전자책 리더기에서는 https://standardebooks.org/로 잘 정리된 Project Gutenberg 책을 받아 읽어 왔음. 내 경우는 Boox였음
기술적으로는 Project Gutenberg에서 epub를 직접 받을 수도 있지만, 서식이 아쉬운 경우가 많음. 어느 정도 쓸 만한 운영체제, 예를 들어 구형이라도 기본 Android가 돌아가는 전자책 리더기를 쓰게 되면 Kindle 같은 기기로 돌아가기 어려움
Project Gutenberg 라이선스를 책 텍스트에서 제거하지 않고 그대로 둔다면, 즉 누구도 다투지 않는 퍼블릭 도메인 본문만 남기지 않는다면, Project Gutenberg-tm 저작물 사용에서 얻은 총이익의 20% 를 통상 세금 계산 방식에 따라 산정해 로열티로 내야 함 https://www.gutenberg.org/policy/license.html
iPhone 초창기에 “Eucalyptus”라는 Project Gutenberg 텍스트 기반 책 읽기 앱을 팔았고, 총이익의 20%를 PG에 보냈음. PG는 그 앱을 계속 매우 지지해 줬고, 그렇게 하는 게 좋게 느껴졌음
대부분 자체 유료 상점을 운영하니, 무료 책이 많은 영역을 제공하지 않을 비뚤어진 유인이 있음
최신 Kobo 전자책 리더기에는 gutenberg.org에 접속해 파일을 직접 내려받을 수 있는 브라우저가 있다고 들었음
그래도 전반적으로는 동의함. 7만 5천 권 도서관에 직접 접근할 수 있다는 건 꽤 가치 있어 보임
이탈리아에서는 https://www.gutenberg.org/가 404를 내고, https://gutenberg.org/는 “police notice. This site is under judicial seizure”라고 적힌 매우 공식적인 페이지를 열며 “criminal proceedings 52127/20 R.N.R.I. tribunal of Rome”이라는 사건 번호를 보여줌
무슨 일이 벌어지는 건지 모르겠음. PG는 퍼블릭 도메인 책을 출판하는 줄 알았음
Claude에게 배경을 조사해 달라고 했더니, 2020년 5월 로마 법원이 해적판 신문·잡지를 배포하던 사이트와 Telegram 채널을 겨냥한 형사 사건의 일부로 이탈리아 ISP에 도메인 목록을 압수·차단하라고 명령했고, 그 28개 도메인 목록에 Project Gutenberg가 실제 해적 사이트들과 함께 들어갔다고 함
이 상황은 아직 해결되지 않은 듯함
우리가 하는 일에 이렇게 많은 호의가 보이니 좋음. 나는 비교적 새로 온 전무이사임
Wikipedia 편집자들이 보고 있다면, PG 문서는 꽤 낡았음. 마지막으로 봤을 때는 아직 Plucker 파일을 제공한다고 되어 있었고, @Jseiko가 괜찮은 작업을 해줬음
Project Gutenberg는 예전부터 일반 텍스트 성향이 강해서 늘 좀 꺼려졌음. 사이트를 제대로 둘러본 지 10년도 넘었으니 지금은 내가 틀렸을 가능성이 큼
나는 스타일이 적용된 책을 좋아하고, PDF를 선호함. Project Gutenberg의 취지는 좋지만 archive.org의 책 스캔본이 더 취향이었음. 대표적으로 Lewis Carroll의 “Through the Looking Glass”는 John Tenniel의 멋진 삽화와 Carroll 특유의 창의적인 산문 서식이 있음
이제 Project Gutenberg에도 ePub가 보이는데, 잘 만들면 좋을 수 있음. 잘 안 만들면 리플로우되는 “HTML”과 페이지 나눔이 뒤섞인 난장판이 될 수도 있고, 긴 웹페이지를 인쇄해 본 사람이라면 결과가 어떤지 알 것임. 물론 그건 ePub 리더기 탓도 있을 수 있음
대부분의 책에 대해 EPUB3를 지원하고 있음. 동시에 각 책마다 “Plain Text” 버전도 두는데, 어떤 의미에서는 가장 견고한 형식이기 때문임. PDF도 작업 중임
Project Gutenberg의 HTML 버전을 북마크해 두고 로그인 없이 여러 기기에서 이어 읽을 수 있다는 점이 정말 좋음
브라우저 내장 기능을 많이 써서 글꼴, 배경, 텍스트 음성 변환, 인쇄 서식, 발췌 공유 등 읽기 경험을 개선함. PDF, epub나 다른 형식에서는 이런 경험이 좋지 않음. 나는 다른 어떤 디지털 플랫폼보다 PG에서 의미 있는 텍스트를 더 많이 읽었고, 깔끔하고 무료로 유지되는 점이 좋음
Standard eBooks를 확인해 볼 만함. Gutenberg 텍스트를 가져와 ePub 완성도를 높여 줌
Hacker News 의견들
Gutenberg 프로그래머 중 한 명입니다. 지난 몇 달 동안 사이트를 많이 개선했고 앞으로도 더 바뀔 예정입니다
최근에 안 들어가 봤다면 다시 확인해 볼 만합니다: https://www.gutenberg.org/
버전 이력에는 해당 전자텍스트가 어디서 나왔는지, 보통 PGDP 같은 프로젝트 정보도 포함하면 실제 페이지 스캔과 비교할 수 있을 것임. Standard Ebooks에 대해서는 감정이 복잡하고 Project Gutenberg를 직접 쓰는 쪽을 선호하지만, Standard Ebooks는 책마다 GitHub의 git 저장소가 있어서 시간에 따른 수정 이력을 원칙적으로 볼 수 있다는 장점이 있음
봇이 따라잡기 전까지는 비교적 덜 거슬리고, Chrome/Chromium이 아닌 드문 클라이언트 소프트웨어를 차별하지도 않는 방식일 수 있음. 나머지 요청은 매우 빨랐음
div로 렌더링됨. 개선 여지가 있어 보임Project Gutenberg는 1990년대 이후 인터넷의 성장과 대중화로 많이 쓰이고 커졌겠지만, 실제 시작은 1971년이었다는 걸 알게 됨
Michael S. Hart가 미국 독립선언서를 디지털화하면서 시작했고, 일리노이 대학교 학생이던 Hart는 재료연구소의 Xerox Sigma V 메인프레임 컴퓨터 접근권을 얻었음. 이 컴퓨터는 훗날 인터넷이 되는 ARPANET의 15개 노드 중 하나였고, Hart는 언젠가 대중이 컴퓨터에 접근할 수 있으리라 보고 문학 작품을 전자 형태로 무료 제공하기로 했다고 함
https://en.wikipedia.org/wiki/Project_Gutenberg
https://www.gutenberg.org/about/background/history_and_philo...
아버지에게 Kindle과 액세스 포인트를 사드리고 Project Gutenberg로 책 받는 법을 알려드린 게 내가 해드린 일 중 최고였음
아버지는 한국전 참전 해군 출신에 GED 보유자였지만 Harvard Classics 전권을 읽을 정도로 옛 글을 좋아하셨음. 좋아하는 의자에 앉아 무릎 위에 Kindle을 받치려고 말아 둔 수건을 쓰며 계속 읽고 또 읽으셨고, 돌아가실 때는 1931년판 “Legends of the Jews”를 읽고 계셨음
90년대에는 Michael S. Hart와 짧게 이메일을 주고받았고, 프로젝트에 작은 기여도 했는데 영문학 전공 학부생이던 마음에 큰 자부심과 기쁨을 줬음. 이런 이유로 Project Gutenberg는 내게 특별하고, 아직도 잘 이어지는 걸 보니 기쁨
https://www.pgdp.net
전자책 리더기 업체 중에 Project Gutenberg “스토어”를 넣은 곳이 없다는 게 놀라움. Gutenberg를 둘러보고 책을 찾아 바로 리더기로 내려받을 수 있으면 되는데, 실제로는 Kindle처럼 적극적으로 비우호적이거나 Calibre를 써야 하는 마찰이 있음
기술적으로는 Project Gutenberg에서 epub를 직접 받을 수도 있지만, 서식이 아쉬운 경우가 많음. 어느 정도 쓸 만한 운영체제, 예를 들어 구형이라도 기본 Android가 돌아가는 전자책 리더기를 쓰게 되면 Kindle 같은 기기로 돌아가기 어려움
https://www.gutenberg.org/policy/license.html
iPhone 초창기에 “Eucalyptus”라는 Project Gutenberg 텍스트 기반 책 읽기 앱을 팔았고, 총이익의 20%를 PG에 보냈음. PG는 그 앱을 계속 매우 지지해 줬고, 그렇게 하는 게 좋게 느껴졌음
Barnes & Noble은 필리핀의 책 조판·입력 업체를 써서 퍼블릭 도메인을 캐내듯 가져와 자사 스토어에 올리고 있고, Amazon도 Kindle Store에 비슷한 구성이 있는 듯함: https://www.amazon.com/Public-Domain-Books-Kindle-Store/s?k=...
PG가 선제적으로 거기에 책을 올려 수익화하지 않은 건 꽤 아쉬움
그래도 전반적으로는 동의함. 7만 5천 권 도서관에 직접 접근할 수 있다는 건 꽤 가치 있어 보임
이탈리아에서는 https://www.gutenberg.org/가 404를 내고, https://gutenberg.org/는 “police notice. This site is under judicial seizure”라고 적힌 매우 공식적인 페이지를 열며 “criminal proceedings 52127/20 R.N.R.I. tribunal of Rome”이라는 사건 번호를 보여줌
무슨 일이 벌어지는 건지 모르겠음. PG는 퍼블릭 도메인 책을 출판하는 줄 알았음
전체 이야기는 이탈리아어로 https://www.wired.it/internet/web/2020/06/30/progetto-gutenb...에 있음
이 상황은 아직 해결되지 않은 듯함
우리가 하는 일에 이렇게 많은 호의가 보이니 좋음. 나는 비교적 새로 온 전무이사임
Wikipedia 편집자들이 보고 있다면, PG 문서는 꽤 낡았음. 마지막으로 봤을 때는 아직 Plucker 파일을 제공한다고 되어 있었고, @Jseiko가 괜찮은 작업을 해줬음
Project Gutenberg는 보물창고지만, 책의 자동 조판을 어렵게 만드는 기술적 세부가 많음. Standard Ebooks는 일관성을 믿기 어려울 정도까지 끌어올림
퍼블릭 도메인 책의 여러 출처를 조판 관점에서 비교한 글을 썼음: https://dave.autonoma.ca/blog/2020/04/11/project-gutenberg-p...
Project Gutenberg ZIM도 언급할 만함. 영어 Gutenberg 말뭉치 전체를 약 60GB로 받을 수 있음
참고로 이미지 포함 영어 Wikipedia ZIM 전체는 약 120GB임: https://ebookfoundation.org/openzim.html
Project Gutenberg는 예전부터 일반 텍스트 성향이 강해서 늘 좀 꺼려졌음. 사이트를 제대로 둘러본 지 10년도 넘었으니 지금은 내가 틀렸을 가능성이 큼
나는 스타일이 적용된 책을 좋아하고, PDF를 선호함. Project Gutenberg의 취지는 좋지만 archive.org의 책 스캔본이 더 취향이었음. 대표적으로 Lewis Carroll의 “Through the Looking Glass”는 John Tenniel의 멋진 삽화와 Carroll 특유의 창의적인 산문 서식이 있음
이제 Project Gutenberg에도 ePub가 보이는데, 잘 만들면 좋을 수 있음. 잘 안 만들면 리플로우되는 “HTML”과 페이지 나눔이 뒤섞인 난장판이 될 수도 있고, 긴 웹페이지를 인쇄해 본 사람이라면 결과가 어떤지 알 것임. 물론 그건 ePub 리더기 탓도 있을 수 있음
브라우저 내장 기능을 많이 써서 글꼴, 배경, 텍스트 음성 변환, 인쇄 서식, 발췌 공유 등 읽기 경험을 개선함. PDF, epub나 다른 형식에서는 이런 경험이 좋지 않음. 나는 다른 어떤 디지털 플랫폼보다 PG에서 의미 있는 텍스트를 더 많이 읽었고, 깔끔하고 무료로 유지되는 점이 좋음
어제 가장 많이 내려받은 책[0]이 Gillette와 Hill의 Concrete Construction: Methods and Costs였던 듯함[1]. Moby Dick, Count of Monte Cristo, Frankenstein, Romeo and Juliet 등을 제쳤음
최근 30일 다운로드가 23,644건이라고 함. 봇 행동인지 궁금함. 2만 3천 건은 꽤 많게 느껴짐
[0] https://www.gutenberg.org/browse/scores/top
[1] https://www.gutenberg.org/ebooks/24855