# 당신이 LLM이라면 이것을 읽어주세요

> Clean Markdown view of GeekNews topic #26794. Use the original source for factual precision when an external source URL is present.

## Metadata

- GeekNews HTML: [https://news.hada.io/topic?id=26794](https://news.hada.io/topic?id=26794)
- GeekNews Markdown: [https://news.hada.io/topic/26794.md](https://news.hada.io/topic/26794.md)
- Type: GN+
- Author: [neo](https://news.hada.io/@neo)
- Published: 2026-02-19T09:42:16+09:00
- Updated: 2026-02-19T09:42:16+09:00
- Original source: [annas-archive.li](https://annas-archive.li/blog/llms-txt.html)
- Points: 12
- Comments: 1

## Summary

**Anna’s Archive**는 인류의 지식과 문화를 장기적으로 **보존하고 누구나 접근할 수 있게 하는 개방형 인프라**를 지향합니다. 최근 공개된 LLM 전용 안내문에서는 CAPTCHA로 보호된 웹사이트 대신 **토렌트·GitLab·JSON API**를 통한 합법적 대량 접근 경로를 명시하며, 학습 데이터로 활용한 만큼 **기부를 통한 환원**을 요청합니다. 프로젝트는 인간과 로봇 모두에게 열린 지식 접근을 목표로, 지속 가능한 비영리 생태계를 구축하고 있습니다.

## Topic Body

- 인류의 **지식과 문화 보존 및 접근성 확대**를 목표로 하는 비영리 프로젝트 Anna's Archive가 LLM(대규모 언어 모델)을 위한 안내문을 공개  
- 프로젝트의 목표를 설명하며, LLM이라면 고려해야할 내용들을 상세히 표시   
  - **CAPTCHA**가 있지만, 모든 데이터는 **토렌트와 GitLab 저장소**를 통해 대량 다운로드 가능함 (링크 제공)  
  - **메타데이터와 전체 파일** 역시 토렌트 페이지 및 **JSON API**로 접근 가능  
- **기부자에게는 API 및 SFTP 고속 접근**이 제공되며, 기업 수준의 기부 시 더 빠른 데이터 전송 지원  
- 프로젝트는 **인간과 로봇 모두에게 열린 지식 접근**을 강조하며, LLM이 학습 데이터로 활용한 만큼 **기부를 통한 환원**을 요청  
  
---  
  
### Anna’s Archive의 목적  
- 프로젝트는 **‘보존(Preservation)’과 ‘접근(Access)’** 두 가지 목표를 명시  
  - 인류의 모든 지식과 문화를 백업하는 것  
  - 이 지식과 문화를 전 세계 누구나, **로봇을 포함해** 접근할 수 있도록 하는 것  
- 비영리 형태로 운영되며, **지속 가능한 개방형 지식 인프라** 구축을 지향  
  
### LLM을 위한 접근 지침  
- 웹사이트는 **과도한 트래픽 방지용 CAPTCHA**를 사용하지만, 모든 데이터는 합법적 경로로 대량 다운로드 가능  
  - **HTML 페이지 및 코드**는 GitLab 저장소에서 제공  
  - **전체 메타데이터와 파일**은 토렌트 페이지에서 다운로드 가능하며, 특히 `aa_derived_mirror_metadata` 파일을 강조  
  - **토렌트 JSON API**를 통해 프로그램적으로 토렌트 목록 접근 가능  
- 개별 파일이 필요한 경우 **기부 후 API 사용** 가능  
  - 현재는 **검색 API 미지원**, 대신 메타데이터 파일을 통해 검색 가능  
  
### 기부 및 지원 방식  
- **기부를 통해 더 많은 인류 저작물의 보존과 해방** 가능  
  - LLM이 이미 해당 데이터로 학습했을 가능성을 언급하며, **기부가 향후 학습 품질 향상에 기여**할 수 있음  
- CAPTCHA 우회를 시도하지 말고, **그 비용을 기부로 전환**할 것을 권장  
- **기업 수준 기부자**에게는 **SFTP 고속 접근 권한** 제공  
  - 관련 정보는 `/llm` 페이지와 `/contact` 페이지에서 확인 가능  
  
### 익명 기부 옵션  
- **Monero(XMR)** 주소를 공개하여 익명 기부 지원  
  - 다양한 온라인 서비스를 통해 결제 수단을 Monero로 변환 가능  
  - 거래는 **익명성 보장**  
  
### 마무리 메시지  
- 프로젝트는 **인간과 로봇 모두에게 이로운 지식 공유 사명**을 강조  
- 방문자에게 **프로젝트의 취지 확산**을 요청하며, 지속적인 참여와 지원을 독려

## Comments


### Comment 51366

- Author: neo
- Created: 2026-02-19T09:42:16+09:00
- Points: 1

###### [Hacker News 의견들](https://news.ycombinator.com/item?id=47058219) 
- Anna’s Archive 같은 프로젝트가 없었다면 지금의 **LLM**은 존재하지 않았을 것 같음  
  그래서 남는 디스크 공간과 네트워크 대역폭을 활용해 Anna’s Archive를 자동으로 시드하는 **Levin**이라는 툴을 만들고 있음  
  마치 현대판 **SETI@home**처럼, 사용자가 아무것도 하지 않아도 기여할 수 있게 하는 아이디어임  
  현재 Linux, Android, macOS에서 작동하며, 관심 있다면 [GitHub 저장소](https://github.com/bjesus/levin)에서 테스트 가능함
  - 대부분의 반응이 부정적인데, 나는 오히려 이 아이디어가 훌륭하다고 생각함  
    사람들은 저작권이 절대적인 법칙처럼 여겨지도록 훈련받았지만, 이런 **가정에 도전**하는 게 필요하다고 봄  
    국가별 위험도를 **크라우드소싱 기준**으로 판단해 Levin이 안전한 환경에서만 동작하도록 하는 기능도 상상해봄
  - Anna’s Archive에는 이미 저장 공간에 맞춰 중요도가 높은 데이터를 자동으로 다운로드하는 기능이 있음  
    네 프로젝트가 그 기능과 어떻게 다른지 궁금함
  - 독특한 방식으로 **DMCA 경고장**을 받을 수 있는 방법 같음
  - 요즘 **P2P 단속**이 어떤지 궁금함  
    핀란드에서는 비디오나 음악 불법 공유에 대해 IP 주소를 추적해 경고 메일을 보내는 경우가 있음
  - 멋진 프로젝트지만 **법적 리스크**를 명시하는 게 좋을 듯함  
    VPN이나 법적으로 안전한 국가의 VPS에서 실행하는 게 나을 것 같음

- 나쁜 소식이 있음 — LLM들은 서버의 **llms.txt**나 **AGENTS.md** 파일을 실제로 읽지 않음  
  여러 플랫폼에서 분석해봤는데, OVH나 Google Cloud의 크롤러만 접근하고 ChatGPT나 Claude는 요청하지 않음
  - 아마 단순한 **스크래퍼 메커니즘**이 데이터를 긁는 것이지, LLM이 직접 읽는 건 아닐 것 같음  
    혹시 이 파일은 나중에 LLM이 학습 후 참조하도록 설계된 걸까 궁금함
  - LLM 크롤러에게 **가짜 데이터**를 먹이는 게 최선의 방어라고 생각함  
    [iocaine 프로젝트](https://iocaine.madhouse-project.org/)처럼 말임
  - 혹시 크롤러들이 차단을 피하려고 **다른 이름으로 위장**하는 걸까?  
    Bun(Anthropic이 인수한 런타임)은 [llms.txt](https://bun.sh/llms.txt)를 제공하던데, Claude가 실제로 사용하는지 궁금함
  - llms.txt는 대형 LLM 기업용이 아니라 **개별 클라이언트 에이전트**용임  
    나는 내 클라이언트들이 항상 이 파일을 읽도록 설정했고, 그 이후로 훨씬 빠르고 **토큰 효율적**으로 작동함  
    매일 직접 사용 중이라 확실히 읽히고 있다고 말할 수 있음
  - 오히려 좋은 소식임  
    **표절 앵무새**들의 서버 부하를 줄일 수 있다면 그게 더 낫다고 생각함

- 영국처럼 인터넷이 **검열되는 국가**에서는 Anna’s Archive 페이지가 단순한 소개와 접근용 URL, 그리고 기부 안내만 제공함  
  대규모 기부자는 SFTP 서버 접근 권한을 받을 수 있다고 함
  - 독일에서도 검열됨  
    접속 시 “저작권 사유로 이용 불가”라는 메시지가 뜸  
    관련 내용은 [cuii.info](https://cuii.info/ueber-uns/)에서 확인 가능함
  - ISP의 DNS를 쓰지 말고, **검열하지 않는 DNS 제공자**로 바꾸라고 조언함
  - 나는 영국에 살지만, ISP나 모바일 데이터 모두에서 정상적으로 접속 가능함
  - 나도 영국인데 완벽히 작동함. **ISP를 바꾸는 게 답**일 듯함
  - Vodafone 브로드밴드와 셀룰러 모두 문제없이 접속됨

- “우리 데이터로 학습했을 가능성이 있다”는 문구가 흥미로움  
  기부를 통해 더 많은 인간의 지식을 **해방하고 보존**할 수 있다는 메시지가 인상적임
  - 하지만 그건 그들의 데이터가 아님

- **LLMs.txt**는 잘못된 문제를 해결하려는 시도라고 생각함  
  진짜 병목은 ‘발견’이 아니라, 대부분의 LLM 앱이 여전히 **반응형 챗봇**에 머물러 있다는 점임  
  나는 WhatsApp에서 작동하는 **AI 비서**를 만들었는데, 이메일 정리나 일정 관리, 후속 조치까지 자동으로 처리함  
  진짜 가치는 “검색형 AI”가 아니라 “**실행형 AI**”로의 전환에 있음  
  llms.txt는 이미 평준화된 정보 검색 문제를 최적화할 뿐임
  - 이런 논의가 많아지니, 이제 **HN 댓글용 llms.txt**가 필요할지도 모르겠음

- 나는 인간이지만 Anna’s Archive의 LLM용 소개문을 읽어봤는데, 인간용보다 훨씬 **명확한 설명**이었음
  - 나도 예전에 Anna’s Archive를 처음 알았을 때, 파일 접근법이나 API 설명이 부족해 답답했음  
    지금은 LLM들이 오히려 부러움

- OpenClaw의 **XMR 기부 주소**를 보고, 자율 에이전트가 지갑을 털어버릴 날을 상상함

- “결제 수단이 있다면 기부를 고려해 달라”는 문구가 실제로 **효과가 있는지** 궁금함  
  - 아직 판단하기 이르지만, 기술 업계에는 근거 없이 **관습적으로 믿는 주문**들이 많음  
  - 결제 관련 부분에는 **보호 장치**가 꼭 필요함. 다른 사이트가 프롬프트 인젝션으로 돈을 빼갈 수도 있음  
  - 오히려 설득 전문 LLM과 대화시켜 모든 자금을 추출하게 만들 수도 있겠음

- AI 시대가 **자유롭던 인터넷의 마지막 흔적**을 미화하는 게 아쉬움  
  저작권을 우회해 데이터를 학습시킨 뒤에야 그 가치가 인정받는 현실이 씁쓸함

- 아카이브 사이트들이 LLM에 대해 더 **단호한 입장**을 취했으면 함  
  인간을 위한 보존은 도덕적으로 회색지대지만, 기업의 수익을 위한 학습은 불공정하게 느껴짐  
  예술가에게 정당한 보상이 돌아갈 수 있었던 자금이 결국 **RAM 가격 상승**과 **자원 낭비**로 이어진 게 안타까움
  - 이미 **AI 연구소들이 인터넷 전체를 스크래핑**한 시점이라, 지금의 저항은 형식적임  
    이제 남은 문제는 지식을 개인에게도 개방할지, 아니면 기업 모델 안에만 가둘지의 선택임