아카이브를 셀프 호스팅할 수 있는 멋진 방법임
개인적으로는 삭제된 댓글이나 봇이 덮어쓴 댓글을 원본으로 자동 복원해주는 플러그인이 있었으면 좋겠음
요즘 Reddit을 쓰기 힘든 이유가, 예전 링크의 절반은 항의성 덮어쓰기 때문에 쓸모없는 댓글로 바뀌어 있기 때문임
아이러니하게도 원본은 AI 학습용 아카이브에 남아 있는데, 정작 사용자 입장에서는 2년 전 프린터 드라이버 해결법 같은 걸 찾을 수 없게 됨
사실 그게 진짜 아이러니한 건 아님. 대부분의 대규모 댓글 삭제는 LLM 학습 항의 때문이 아니라 Reddit이 API를 막은 데 대한 보이콧이었음
사이트가 덜 유용해지는 게 바로 그들의 목적이었고, 사용자들이 떠나게 만드는 게 항의의 핵심이었음
Hacker News 의견들
아카이브를 셀프 호스팅할 수 있는 멋진 방법임
개인적으로는 삭제된 댓글이나 봇이 덮어쓴 댓글을 원본으로 자동 복원해주는 플러그인이 있었으면 좋겠음
요즘 Reddit을 쓰기 힘든 이유가, 예전 링크의 절반은 항의성 덮어쓰기 때문에 쓸모없는 댓글로 바뀌어 있기 때문임
아이러니하게도 원본은 AI 학습용 아카이브에 남아 있는데, 정작 사용자 입장에서는 2년 전 프린터 드라이버 해결법 같은 걸 찾을 수 없게 됨
사이트가 덜 유용해지는 게 바로 그들의 목적이었고, 사용자들이 떠나게 만드는 게 항의의 핵심이었음
굳이 아카이브를 뒤져서 그 결정을 무력화하려고 하진 않음. 그냥 다음으로 넘어감
데이터는 토렌트를 통해 받을 수 있음
링크: redd-archiver 저장소
어떤 커뮤니티를 우선 보존할지 판단하는 데 도움이 됨
정말 멋진 프로젝트임
PushShift 외에도 다른 아카이브들이 있음 — 예를 들어 Arctic Shift나 PullPush처럼 서로 다른 데이터셋을 제공함
삭제 요청 범위에 따라 포함된 게시물이나 댓글이 다를 수 있음
이 데이터를 기반으로 분산형 소셜 미디어를 새로 시드(seed)할 수 있지 않을까 생각함
마치 프로젝트를 포크(fork)하듯이 말임
API도 이를 지원해서 분산형으로 아카이브를 공동 호스팅할 수 있음
정말 흥미로운 프로젝트임
궁금한 점은 Pushshift 데이터셋이 정기적으로 업데이트되는지, 아니면 특정 시점의 스냅샷인지임
셀프 호스팅하는 경우 새 데이터를 주기적으로 다시 받아야 하는지 알고 싶음
watchful1이 데이터를 분할·재처리 중이며, 앞으로는 Arctic Shift 덤프를 가져와 월별 업데이트를 지원할 예정임
관련 링크:
나도 비슷한 프로젝트를 진행 중이며, Pushshift Reddit 데이터를 Hugging Face Datasets에 업로드했음
토렌트 시드가 약할 때는 huggingface.co/datasets/nick007x/pushshift-reddit에서 개별 파일을 바로 받을 수 있음
월별 데이터나 특정 subreddit만 테스트하려는 사람에게 유용함
Docker Compose로 로컬 환경을 띄워보려 했는데 실패했음
.env.example파일이 없고, 수동으로 환경 변수를 설정해도 볼륨 경로 문제가 생김좀 더 다듬을 필요가 있어 보임
mkdir단계도 업데이트함관련 커밋: 0bb1039, c3754ea
혹시 죽은 Apollo 앱과 연동해서 과거 Reddit의 한 시점을 복원할 수 있을까 궁금함
Reddit 전체를 내 컴퓨터에 저장하고 싶진 않음
특정 subreddit만 선택할 수 있다면 좋겠음
watchful1이 subreddit별로 데이터를 분할해놔서 원하는 부분만 다운로드할 수 있음
2~3년 전에 비공개로 전환된 subreddit이 데이터 덤프에 포함되어 있는지 확인할 방법이 있는지 궁금함
상태 필드에서 비공개 여부를 확인할 수 있고, 세부 정보도 많음