앤서니 보데인의 잃어버린 Li.st 게시물 복원
(sandyuraz.com)- 앤서니 보데인의 사라진 Li.st 게시물을 공개 웹 크롤링 데이터에서 복원한 프로젝트
- Common Crawl과 Internet Archive를 활용해 li.st 도메인의 잔존 HTML을 탐색하고 복원
- Python 스크립트
commoncrawl_search.py를 사용해 공개 S3 버킷에서 HTML 문서를 자동 수집 - 다수의 게시물 텍스트는 복원되었으나 이미지 파일은 대부분 손실, 일부 항목만 HTML 형태로 보존
- 복원 결과를 GitHub 저장소에 공개해, 향후 커뮤니티가 추가 복원 및 보존에 참여할 수 있도록 함
프로젝트 개요
- 보데인의 잃어버린 Li.st 게시물을 복원하기 위해 공개 크롤링 데이터를 활용한 시도
- 기존에 GReg TeChnoLogY 사이트에서 일부 목록이 공개된 것을 보고 복원 가능성을 탐색
- 보안 및 크롤링 분야 경력을 바탕으로 공개 접근 가능한 데이터 아카이브만 사용
-
Common Crawl의 문서 인덱스를 검색해
https://li.st/Bourdain*경로의 데이터를 수집- Python 3.14.2 환경에서
requirements.txt의존성을 설치 후 실행 - 명령어 예시:
python commoncrawl_search.py "https://li.st/Bourdain*" --all --download
- Python 3.14.2 환경에서
복원 과정과 도구
-
commoncrawl_search.py는 특정 데이터셋에 인덱스 요청을 보내고, 일치 항목을 공개 S3 버킷에서 다운로드- HTML 문서 크기가 작아 복원이 용이함
- 복원된 결과물은 GitHub 저장소(https://github.com/thecsw/bourdain)에 정리
- 각 HTML 파일은 원문 레이아웃을 유지하되, 내용 수정 없이 재구성
- AI 생성물은 아니며, 코드 일부만 자동화 도구로 작성
복원된 주요 게시물
- things-i-no-longer-have-time-or-patience-for: ‘Cocaine’, ‘True Detective’, ‘Beer nerds’ 등 목록
- nice-views: 몬태나, 푸에르토리코, 나크소스, LA, 이스탄불 등 여행지 풍경
- if-i-were-trapped-on-a-desert-island-with-only-three-tv-series: ‘The Wire’, ‘Tinker, Tailor, Soldier, Spy’ 등
- objects-of-desire: 빈티지 선글라스, 트레파닝 도구, BJJ 도복, Kramer 칼 등 개인적 수집품
- four-spy-novels-by-real-spies-and-one-not-by-a-spy: 서머싯 몸, 그레이엄 그린 등 작가의 첩보소설 추천
- hotel-slut-that-s-me: 전 세계 호텔 목록과 개인적 애정 표현
- some-new-york-sandwiches, great-dead-bars-of-new-york, guilty-pleasures 등 뉴욕 관련 리스트 다수
- 대부분의 게시물은 텍스트 복원 성공, 그러나 이미지 파일은 전부 손실
복원 불가 항목
- David Bowie Related (2016년 1월 14일) 게시물만 Common Crawl에서 발견되지 않음
프로젝트 의의와 향후 계획
- 복원 작업을 디지털 고고학적 시도로 표현하며, 과거 웹 콘텐츠의 보존 가능성을 입증
- 이미지 복원은 어려우나, 텍스트 아카이브 구축은 성공적
- 공개 Git 저장소를 통해 누구나 추가 복원에 참여 가능
- 향후 공공 아카이브 구축 및 장기 보존 방안 모색 필요성 제시
Hacker News 의견들
-
나도 같은 rabbit hole에 빠져서 지난주에 똑같은 일을 했음
내가 했던 시도 링크
혹시 그걸 보고 영감을 받았다면 언급해주면 좋겠고, 아니라면 이렇게 독립적으로 같은 아이디어에 도달한 걸 보니 흥미로움- 오, 몰랐음! 나는 Greg의 원글을 보고 시작했는데, 그가 나중에 Common Crawl을 살펴본 사람이 있었다고 알려줬음
어쨌든 git과 웹페이지 둘 다 업데이트해서 네 작업을 명시적으로 언급했음. 네 사이트로 직접 링크 걸었는데 괜찮은지 알려줬으면 함
- 오, 몰랐음! 나는 Greg의 원글을 보고 시작했는데, 그가 나중에 Common Crawl을 살펴본 사람이 있었다고 알려줬음
-
이 글의 후속으로, 시간이 지나 사라진 줄 알았던 Anthony Bourdain의 li.st 게시물을 모두 복원했음
Tony 같은 사람은 정말 없다고 생각함- 거의 다 복원했지만, 기사에 따르면 아직 하나가 빠져 있음 — “David Bowie Related” (2016년 1월 14일자)
-
그의 시리즈를 정말 좋아했는데, 내 고향을 방문했을 때 완전히 잘못 묘사해서 실망했음
반체제적이고 비주류적인 시선을 이해하지만, 그가 현지의 사기꾼이자 망한 식당을 운영하던 사람들과 어울리며 그들을 ‘진보적인 요리인’으로 소개했음
그 이후로 그의 다른 에피소드들도 다시 보게 되었음- 공감함. Vice News도 시카고에서 비슷한 일을 해서 현지인들이 싫어하게 됐음
- 상하이에서도 같은 일이 있었음
- 나도 비슷하게 느꼈음. 그의 쇼가 흥미롭긴 하지만, 부유한 백인 남성이 어디서나 현지 사정을 전문가처럼 설명하는 미묘한 오만함이 느껴졌음. 음식은 종종 부차적인 요소였음
- 어느 도시였는지 궁금함. 몇몇 지역에서도 그런 느낌을 받았는데, 제작팀이 어떤 기준으로 장소를 고르는지 늘 의문이었음
- 아마 그가 직접 사람들의 정치적 배경을 검증하진 않았을 것임. 제작팀이 미리 섭외하고 그는 그냥 참여했을 가능성이 큼. 그래도 그의 쇼를 비판적으로 볼 이유는 충분함. 도시 이름이 궁금함
-
복원된 자료를 보니 정말 반가움 :)
이미지들도 복구되면 좋겠음. 그가 언급한 레코드 목록이 궁금함 -
“Great Dead Bars of New York” 목록 중 SIBERIA가 다시 문을 열었다는 소식이 반가움
이번엔 59th Street/Columbus Circle 역 안에서 새롭게 시작했음 -
웹사이트 디자인 얘기는 피해야겠지만, 흰 배경에 연한 회색 폰트는 너무 읽기 힘듦. 특히 나이 든 눈에는 거의 안 보임
- 내 화면에서는 연한 회색이 아님. 데스크톱과 모바일 모두 확인했는데, 색상 코드 #2B2B2B는 충분히 어두움. 아마 디스플레이 감마 설정 문제일 가능성이 큼. 사이트는 괜찮아 보임
- 나도 처음엔 그렇게 느꼈는데, 알고 보니 다크 모드 확장 프로그램이 색을 바꿔버렸음. 끄니까 괜찮았음
- 갑자기 밝은 흰색 화면이 뜨면 눈이 아픈 건 이해함
- 배경의 점무늬가 살짝 보이는 것도 거슬림. 명암 대비가 중요함
-
그가 가장 좋아하던 바 Siberia가 다시 문을 열었음
Columbus Circle 지하철역 남쪽 끝에 있고, 주인 Tracy도 그대로이며 예전처럼 꾸밈없는 분위기임 -
Tampopo가 포함된 영화 리스트라면 무조건 좋은 리스트라고 생각함
-
이런 복원 작업을 해줘서 정말 고맙게 생각함
나는 Bourdain 팬으로서, 인간적인 결함이 있더라도 그가 시대정신 속에서 가장 흥미로운 인물이었음
그의 Parts Unknown 시리즈는 TV에서 본 가장 뛰어난 인류학적 콘텐츠 중 하나였음. 이번 글도 매우 흥미롭게 읽었음