# 아마존 AI 크롤러로 불안정해진 내 Git 서버

> Clean Markdown view of GeekNews topic #18795. Use the original source for factual precision when an external source URL is present.

## Metadata

- GeekNews HTML: [https://news.hada.io/topic?id=18795](https://news.hada.io/topic?id=18795)
- GeekNews Markdown: [https://news.hada.io/topic/18795.md](https://news.hada.io/topic/18795.md)
- Type: GN+
- Author: [neo](https://news.hada.io/@neo)
- Published: 2025-01-19T09:42:45+09:00
- Updated: 2025-01-19T09:42:45+09:00
- Original source: [xeiaso.net](https://xeiaso.net/notes/2025/amazon-crawler/)
- Points: 1
- Comments: 1

## Topic Body

- # Amazon의 AI 크롤러로 인해 내 Git 서버가 불안정해짐

- **서포트 블로그**: 블로그를 즐기신다면 Patreon에서 Xe를 지원할 수 있음

- **Patreon 구독**: EthicalAds 광고

- **수정(2025-01-18 23:50 UTC)**: Gitea 서버에 요청을 허용하기 전에 작업 증명 검사를 수행하는 프록시를 작성했음. 이름은 Anubis이며, 곧 블로그 게시물을 작성할 예정임. 현재는 https://git.xeserv.us/에서 확인 가능함. 다소 거칠지만 충분히 작동함

- **수정(2025-01-18 19:00 UTC)**: 포기함. Gitea 서버를 VPN 뒤로 옮겼음. 봇으로부터 서버를 보호하기 위해 작업 증명 리버스 프록시를 작업 중임. 곧 다시 가동할 예정임

- **수정(2025-01-17 17:50 UTC)**: 인그레스 구성에 다음 스니펫을 추가했음:
  ```nginx
  nginx.ingress.kubernetes.io/configuration-snippet: |
    if ($http_user_agent ~* "(Amazon)" ){
      return 418;
    }
  ```
  봇이 여전히 다른 IP에서 공격 중임. 요청의 약 10%는 amazonbot 사용자 에이전트가 없음. 다음에 무엇을 해야 할지 모르겠음. 미래가 싫음

- **도움 요청**: AmazonBot을 운영하는 사람에게 `git.xeserv.us`를 차단된 도메인 목록에 추가해달라고 요청함. Amazon에 아는 사람이 있다면 이 메시지를 전달해주길 바람. Git 서버를 크롤링하려면 하드웨어 업그레이드에 상응하는 비용을 지불할 수 있도록 연락해주길 바람. Gitea 서버를 대중에게 닫고 싶지 않지만, 필요하다면 그렇게 할 것임. AI 크롤러 봇을 차단하는 것은 무의미함. 봇은 거짓말을 하고, 사용자 에이전트를 변경하며, 주거용 IP 주소를 프록시로 사용함. 요청이 멈추길 바람

- `robots.txt` 파일을 이미 모든 봇을 차단하도록 구성했음:
  ```
  User-agent: *
  Disallow: /
  ```
  더 해야 할 일이 무엇인지 모르겠음

## Comments



### Comment 33590

- Author: neo
- Created: 2025-01-19T09:42:46+09:00
- Points: 1

###### [Hacker News 의견](https://news.ycombinator.com/item?id=42750420) 
- 변호사에게 "명확한 중지 및 중단" 서신을 작성하도록 요청하여 Amazon에 전달함으로써 문제 해결을 시도할 수 있음
  - Amazon이 중단하지 않으면 형사 고발을 통해 주의를 끌 수 있음

- 웹사이트에 사람이 방문하지 않을 링크를 추가하고 robots.txt에 이를 금지하여 AI 크롤러를 차단하는 방법 제안
  - IP 주소가 해당 링크를 방문하면 24시간 차단함

- AI 및 SEO 봇들이 robots.txt를 거의 준수하지 않으며 차단하기 어려움
  - AI 크롤러가 접근을 원한다면 규칙을 따르거나 비용을 지불해야 함

- Amazon이 아닌 다른 주체가 AI 크롤러로 위장할 가능성 있음
  - 회전하는 주거용 IP와 변경되는 사용자 에이전트 문자열이 의심스러움

- 개인 서버에서 AI 크롤러로 인해 CPU 사용량이 급증하는 문제 발생
  - robots.txt와 사용자 에이전트 기반 차단 목록으로 문제를 줄였으나 지속 여부는 불확실함

- AI 크롤러를 차단하는 대신 유해한 콘텐츠를 제공하여 문제를 해결할 수 있을 것이라는 의견
  - Amazon이 이를 발견하면 문제 해결을 위해 비용을 지출할 가능성 있음

- Amazon으로 위장한 DDoS 공격일 가능성 제기
  - 주거용 IP에서 요청이 오는 것이 의심스러움

- Pinboard 사이트도 AI 크롤러로 인해 트래픽이 급증하여 사이트가 다운됨
  - IP 범위로 차단할 수 없어 캡차를 사용해야 함

- Amazon이 AWS 크레딧을 제공하여 트래픽 초과 비용을 보상해주길 바라는 의견
  - 광고 수익으로 이를 상쇄할 수 있을 것이라는 기대

- Nginx를 구성하여 차단하기 전, Bytespider와 Amazonbot이 전체 트래픽의 80%를 차지함
  - ClaudeBot이 Redmine에 5년간의 트래픽을 한 달 만에 초과시킴
