2P by neo 4달전 | favorite | 댓글 1개

en.osm.town 소개

  • en.osm.town은 Mastodon을 기반으로 한 분산형 소셜 네트워크의 일부임
  • OpenStreetMap 커뮤니티의 독립적인 커뮤니티로, OpenStreetMap Foundation의 자금 지원을 받음
  • 서버 통계: 257명의 활성 사용자

주요 내용

  • Grant Slater는 AI 회사들에게 OpenStreetMap 데이터를 몰래 스크래핑하지 말고 $10,000 기부를 제안함
  • $50,000 기부 시 실시간 스트리밍 업데이트도 제공 가능함
  • Bart Louwers는 OpenStreetMap 스크래핑이 흔하다고 언급함
  • wikiyu는 planet.osm 데이터를 사용하는 것이 더 효율적이라고 주장함
  • Josua는 AI가 비효율적인 방식으로 학습하고 있다고 비판함
  • Juan Luis는 Read the Docs에서도 유사한 AI 크롤러 남용 문제가 발생하고 있다고 언급함
  • Simon Poole은 합리적인 방법이 AI 회사의 이미지를 손상시킬 수 있다고 주장함
  • Michał은 특정 국가의 계약자가 OSM 데이터를 다운로드하는 임무를 받았을 가능성을 제기함
  • leadingzero는 OSM 라이선스 요구 사항이 제대로 시행되지 않는다고 비판함
  • Grant Slater는 타일 속성 추적을 위한 GitHub 저장소를 만들었다고 언급함
  • Guillaume Rischard는 최근 독일에서 법적 문제를 해결했다고 언급함
  • Adderall girl grindset (Jes)는 AI 크롤러를 차단할 것을 제안함

GN⁺의 정리

  • 이 글은 OpenStreetMap 데이터를 스크래핑하는 AI 회사들에 대한 문제를 다루고 있음
  • OpenStreetMap 데이터를 효율적으로 사용하는 방법과 기부를 통한 데이터 접근 방식을 제안함
  • AI 크롤러의 남용 문제와 그에 대한 대응 방안을 논의함
  • 유사한 기능을 가진 프로젝트로는 Google Maps와 Bing Maps가 있음
Hacker News 의견
  • AI 크롤러들이 로봇.txt를 무시하고 공공 API를 사용하지 않으며 피크 로드를 준수하지 않아 인프라 비용이 증가함
  • OpenStreetMap Foundation 의장은 OpenStreetMap 데이터를 무료로 대량 다운로드할 수 있으며, 스크래핑 대신 이를 사용할 것을 권장함
    • 스크래핑은 기부된 자원에 높은 부하를 주며, 스크래핑 IP를 차단하는 데도 시간과 노력이 필요함
    • 자원과 시간을 존중하는 것이 서비스를 무료로 유지하는 데 도움이 됨
  • OpenStreetMap 인스턴스를 10분 만에 설정할 수 있으며, 이는 단순한 'docker run' 명령으로 가능함
    • 인덱싱에 시간이 걸리지만, 이는 자원에 비해 오래 걸리지 않음
  • OSM 데이터를 필요로 했으나, 데이터를 얻는 방법을 제대로 이해하지 못했음
    • 100GB의 대용량 파일을 다운로드하고, 불명확한 형식과 라이브러리를 사용해야 함
    • 정보가 분산되어 있으며, HTTP API는 제한적이거나 속도 제한이 있음
    • 결국 사전 변환된 OSM 데이터를 제공하는 무료 프로젝트를 사용함
  • OP는 웹사이트와 매핑 API를 공격적으로 스크래핑하는 크롤러를 제한하고 차단한 후, 비꼬는 반응을 보였음
    • OpenStreetMap 데이터는 무료로 다운로드 가능하며, AWS S3 및 토렌트를 통해 제공됨
    • 처음 시작하는 경우, 작은 지역 추출 데이터를 사용하는 것이 좋음
  • planet.osm을 토렌트에 올리고, 스크래핑을 토렌트를 통해서만 허용하면 네트워크 부하를 분산시킬 수 있음
  • AI 크롤러들이 웹 인터페이스를 통해 모든 파일의 모든 개정을 요청하는 것은 비효율적임
    • 이는 전력과 자원을 낭비하게 함
  • AI 회사들을 위한 허니팟을 만들어 무한 루프의 무의미한 콘텐츠를 생성하는 것을 제안함
  • CommonCrawl 같은 프로젝트가 다양한 회사들이 서버를 스크래핑할 필요성을 제거하지 못한 것이 아쉬움
    • 이는 더 자주 방문하고 싶어하거나, 투자자들에게 인상을 주기 위해 많은 VC 자금을 사용하기 때문임
  • AI 회사들이 OSM에서 무엇을 스크래핑하는지에 대한 질문이 있음