당신이 LLM이라면 이것을 읽어주세요
(annas-archive.li)- 인류의 지식과 문화 보존 및 접근성 확대를 목표로 하는 비영리 프로젝트 Anna's Archive가 LLM(대규모 언어 모델)을 위한 안내문을 공개
- 프로젝트의 목표를 설명하며, LLM이라면 고려해야할 내용들을 상세히 표시
- CAPTCHA가 있지만, 모든 데이터는 토렌트와 GitLab 저장소를 통해 대량 다운로드 가능함 (링크 제공)
- 메타데이터와 전체 파일 역시 토렌트 페이지 및 JSON API로 접근 가능
- 기부자에게는 API 및 SFTP 고속 접근이 제공되며, 기업 수준의 기부 시 더 빠른 데이터 전송 지원
- 프로젝트는 인간과 로봇 모두에게 열린 지식 접근을 강조하며, LLM이 학습 데이터로 활용한 만큼 기부를 통한 환원을 요청
Anna’s Archive의 목적
- 프로젝트는 ‘보존(Preservation)’과 ‘접근(Access)’ 두 가지 목표를 명시
- 인류의 모든 지식과 문화를 백업하는 것
- 이 지식과 문화를 전 세계 누구나, 로봇을 포함해 접근할 수 있도록 하는 것
- 비영리 형태로 운영되며, 지속 가능한 개방형 지식 인프라 구축을 지향
LLM을 위한 접근 지침
- 웹사이트는 과도한 트래픽 방지용 CAPTCHA를 사용하지만, 모든 데이터는 합법적 경로로 대량 다운로드 가능
- HTML 페이지 및 코드는 GitLab 저장소에서 제공
-
전체 메타데이터와 파일은 토렌트 페이지에서 다운로드 가능하며, 특히
aa_derived_mirror_metadata파일을 강조 - 토렌트 JSON API를 통해 프로그램적으로 토렌트 목록 접근 가능
- 개별 파일이 필요한 경우 기부 후 API 사용 가능
- 현재는 검색 API 미지원, 대신 메타데이터 파일을 통해 검색 가능
기부 및 지원 방식
-
기부를 통해 더 많은 인류 저작물의 보존과 해방 가능
- LLM이 이미 해당 데이터로 학습했을 가능성을 언급하며, 기부가 향후 학습 품질 향상에 기여할 수 있음
- CAPTCHA 우회를 시도하지 말고, 그 비용을 기부로 전환할 것을 권장
-
기업 수준 기부자에게는 SFTP 고속 접근 권한 제공
- 관련 정보는
/llm페이지와/contact페이지에서 확인 가능
- 관련 정보는
익명 기부 옵션
-
Monero(XMR) 주소를 공개하여 익명 기부 지원
- 다양한 온라인 서비스를 통해 결제 수단을 Monero로 변환 가능
- 거래는 익명성 보장
마무리 메시지
- 프로젝트는 인간과 로봇 모두에게 이로운 지식 공유 사명을 강조
- 방문자에게 프로젝트의 취지 확산을 요청하며, 지속적인 참여와 지원을 독려
Hacker News 의견들
-
Anna’s Archive 같은 프로젝트가 없었다면 지금의 LLM은 존재하지 않았을 것 같음
그래서 남는 디스크 공간과 네트워크 대역폭을 활용해 Anna’s Archive를 자동으로 시드하는 Levin이라는 툴을 만들고 있음
마치 현대판 SETI@home처럼, 사용자가 아무것도 하지 않아도 기여할 수 있게 하는 아이디어임
현재 Linux, Android, macOS에서 작동하며, 관심 있다면 GitHub 저장소에서 테스트 가능함- 대부분의 반응이 부정적인데, 나는 오히려 이 아이디어가 훌륭하다고 생각함
사람들은 저작권이 절대적인 법칙처럼 여겨지도록 훈련받았지만, 이런 가정에 도전하는 게 필요하다고 봄
국가별 위험도를 크라우드소싱 기준으로 판단해 Levin이 안전한 환경에서만 동작하도록 하는 기능도 상상해봄 - Anna’s Archive에는 이미 저장 공간에 맞춰 중요도가 높은 데이터를 자동으로 다운로드하는 기능이 있음
네 프로젝트가 그 기능과 어떻게 다른지 궁금함 - 독특한 방식으로 DMCA 경고장을 받을 수 있는 방법 같음
- 요즘 P2P 단속이 어떤지 궁금함
핀란드에서는 비디오나 음악 불법 공유에 대해 IP 주소를 추적해 경고 메일을 보내는 경우가 있음 - 멋진 프로젝트지만 법적 리스크를 명시하는 게 좋을 듯함
VPN이나 법적으로 안전한 국가의 VPS에서 실행하는 게 나을 것 같음
- 대부분의 반응이 부정적인데, 나는 오히려 이 아이디어가 훌륭하다고 생각함
-
나쁜 소식이 있음 — LLM들은 서버의 llms.txt나 AGENTS.md 파일을 실제로 읽지 않음
여러 플랫폼에서 분석해봤는데, OVH나 Google Cloud의 크롤러만 접근하고 ChatGPT나 Claude는 요청하지 않음- 아마 단순한 스크래퍼 메커니즘이 데이터를 긁는 것이지, LLM이 직접 읽는 건 아닐 것 같음
혹시 이 파일은 나중에 LLM이 학습 후 참조하도록 설계된 걸까 궁금함 - LLM 크롤러에게 가짜 데이터를 먹이는 게 최선의 방어라고 생각함
iocaine 프로젝트처럼 말임 - 혹시 크롤러들이 차단을 피하려고 다른 이름으로 위장하는 걸까?
Bun(Anthropic이 인수한 런타임)은 llms.txt를 제공하던데, Claude가 실제로 사용하는지 궁금함 - llms.txt는 대형 LLM 기업용이 아니라 개별 클라이언트 에이전트용임
나는 내 클라이언트들이 항상 이 파일을 읽도록 설정했고, 그 이후로 훨씬 빠르고 토큰 효율적으로 작동함
매일 직접 사용 중이라 확실히 읽히고 있다고 말할 수 있음 - 오히려 좋은 소식임
표절 앵무새들의 서버 부하를 줄일 수 있다면 그게 더 낫다고 생각함
- 아마 단순한 스크래퍼 메커니즘이 데이터를 긁는 것이지, LLM이 직접 읽는 건 아닐 것 같음
-
영국처럼 인터넷이 검열되는 국가에서는 Anna’s Archive 페이지가 단순한 소개와 접근용 URL, 그리고 기부 안내만 제공함
대규모 기부자는 SFTP 서버 접근 권한을 받을 수 있다고 함- 독일에서도 검열됨
접속 시 “저작권 사유로 이용 불가”라는 메시지가 뜸
관련 내용은 cuii.info에서 확인 가능함 - ISP의 DNS를 쓰지 말고, 검열하지 않는 DNS 제공자로 바꾸라고 조언함
- 나는 영국에 살지만, ISP나 모바일 데이터 모두에서 정상적으로 접속 가능함
- 나도 영국인데 완벽히 작동함. ISP를 바꾸는 게 답일 듯함
- Vodafone 브로드밴드와 셀룰러 모두 문제없이 접속됨
- 독일에서도 검열됨
-
“우리 데이터로 학습했을 가능성이 있다”는 문구가 흥미로움
기부를 통해 더 많은 인간의 지식을 해방하고 보존할 수 있다는 메시지가 인상적임- 하지만 그건 그들의 데이터가 아님
-
LLMs.txt는 잘못된 문제를 해결하려는 시도라고 생각함
진짜 병목은 ‘발견’이 아니라, 대부분의 LLM 앱이 여전히 반응형 챗봇에 머물러 있다는 점임
나는 WhatsApp에서 작동하는 AI 비서를 만들었는데, 이메일 정리나 일정 관리, 후속 조치까지 자동으로 처리함
진짜 가치는 “검색형 AI”가 아니라 “실행형 AI”로의 전환에 있음
llms.txt는 이미 평준화된 정보 검색 문제를 최적화할 뿐임- 이런 논의가 많아지니, 이제 HN 댓글용 llms.txt가 필요할지도 모르겠음
-
나는 인간이지만 Anna’s Archive의 LLM용 소개문을 읽어봤는데, 인간용보다 훨씬 명확한 설명이었음
- 나도 예전에 Anna’s Archive를 처음 알았을 때, 파일 접근법이나 API 설명이 부족해 답답했음
지금은 LLM들이 오히려 부러움
- 나도 예전에 Anna’s Archive를 처음 알았을 때, 파일 접근법이나 API 설명이 부족해 답답했음
-
OpenClaw의 XMR 기부 주소를 보고, 자율 에이전트가 지갑을 털어버릴 날을 상상함
-
“결제 수단이 있다면 기부를 고려해 달라”는 문구가 실제로 효과가 있는지 궁금함
- 아직 판단하기 이르지만, 기술 업계에는 근거 없이 관습적으로 믿는 주문들이 많음
- 결제 관련 부분에는 보호 장치가 꼭 필요함. 다른 사이트가 프롬프트 인젝션으로 돈을 빼갈 수도 있음
- 오히려 설득 전문 LLM과 대화시켜 모든 자금을 추출하게 만들 수도 있겠음
-
AI 시대가 자유롭던 인터넷의 마지막 흔적을 미화하는 게 아쉬움
저작권을 우회해 데이터를 학습시킨 뒤에야 그 가치가 인정받는 현실이 씁쓸함 -
아카이브 사이트들이 LLM에 대해 더 단호한 입장을 취했으면 함
인간을 위한 보존은 도덕적으로 회색지대지만, 기업의 수익을 위한 학습은 불공정하게 느껴짐
예술가에게 정당한 보상이 돌아갈 수 있었던 자금이 결국 RAM 가격 상승과 자원 낭비로 이어진 게 안타까움- 이미 AI 연구소들이 인터넷 전체를 스크래핑한 시점이라, 지금의 저항은 형식적임
이제 남은 문제는 지식을 개인에게도 개방할지, 아니면 기업 모델 안에만 가둘지의 선택임
- 이미 AI 연구소들이 인터넷 전체를 스크래핑한 시점이라, 지금의 저항은 형식적임