22P by xguru 2022-04-20 | favorite | 댓글 11개
  • "공개적으로 접근 가능한 데이터를 스크랩하는 것은 합법(CFAA 위반이 아님)"
  • LinkedIn이 분석회사 Hiq의 스크래핑을 금지하기 위해 낸 소송에서 기존 판결을 재확인(2019년에 이미 패소)
  • 웹아카이브, 학계, 연구자, 저널리스트 들에게는 좋은 소식
  • 미국 법원은 이번에 수십년된 CFAA(Computer Fraud and Abuse Act,컴퓨터 사기 및 오용에 관한 법률)를 재검토
    • 이 위반을 컴퓨터 시스템에 "무단으로 접근 권한을 얻은 사람" 으로 한정함
    • 공공 웹사이트에는 '허가받지 않은'의 개념이 적용되지 않음

한국에서도 웹스크래핑이 법적인 문제가 없는지 궁금하네요.
경험 있으신분이 있다면 공유해주실수 있을까요?

우리나라 규제상

  1. 개인신용정보
    이게 '신용카드'의 신용이 아닙니다. 개인의 금융관련 평판을 내릴 수 있는 자료(잔액, 거래내역등)을 본인에게 '조회'할 수 있도록 하는 서비스는 금지입니다. 본인신용정보관리업 허가를 받아야합니다. 근데 본인에게 조회할 수 없고, 세무신고처럼 자료로 그냥 사용되면 문제 없습니다. 음...?

  2. 웹페이지에서 크롤이나 스크래핑으로 원하는 정보를 얻더라도, 결제페이지를 우회한다던지, 데이터를 화면에서 제공/의도하는것 외에 획득하는 정보들은 모두 불법입니다. json으로 화면에 표시 되지않더라도 fe/be랑 왔다갔다 할텐데, 의도외 사용은 불법입니다. 법무부에서 등기 공짜로 떼다가 구속된걸로 뉴스 본거 같네요.

뭐 2는 돈없는 금융사(보험/카드/증권사등...은행외)들이 여력이 안되서 구멍이 많아서... 보호차원에서 오히려 이해가 가는데... 1은 정말 삽질같아요. 1도 개인정보주권의 궤에서 의도는 이해가는데, 양태는 지금 하는 짓이 ActiveX 3.0? 같아요.

댓글 달아주신분들 모두 감사합니다! 덕분에 많은 도움이 되었습니다.

제가 구독하고 있는 뉴스레터에서 얼마 전에 비슷한 주제를 다뤘던 링크가 있어 공유드립니다.

아래 rtyuiop님께서 말씀해주신 잡코리아 VS 사람인 사례와 함께 여기어때 VS 야놀자, 네이버 vs 다윈중개의 사례들에 대해서 정리되어 있습니다.
https://stibee.com/api/v1.0/…==

오 팩플 뉴스레터 좋네요. 링크 고맙습니다~!

항상 감사히 보고 있습니다 (_ _)

제가 알기로 제일 유명한 사례는 여기어때가 야놀자의 데이터를 크롤링한 사례입니다. 제가 이해하기로는 물론 공개 데이터였고 크롤링 자체에 문제가 없지만 (1) 서버 부하가 늘어나서 야놀자가 입은 피해와 (2) 동종업종 내의 두 브랜드이기에 이로 인해 야놀자가 입을 피해 등이 주요안건이었습니다. 아직 진행 중인 소송이고 기사마다 해석하는 방향성이 다르기에 직접 이것저것 읽어보시는 게 좋을 것 같네요.

금융쪽에서는 마이데이터 시작 이후로 스크래핑이 금지되었습니다.

https://news.einfomax.co.kr/news/articleView.html?idxno=4192027

제가 아는 변호사분과 그쪽 이야기를 한 적이 있는데 그 때 기준으로는 "일단 공개된 정보를 긁어 모으는 것 자체는 문제가 없는데, 크롤링을 방지하는 장치가 어떤 형식으로든 존재하면 그걸 우회해서 저장하려고 하는 순간 문제가 될 수 있다"였습니다.
역시 법에서는 기술적인 것보다는 의도가 어땠냐를 보더라구요.

이게 LinkedIn 에 들어있는 개인 프로필 정보라서 조금 쎄하기는 한데..
공개적으로 나와있는 정보들 마저 스크래핑을 금지하기엔 무리가 있는게 맞는 것 같습니다.

2021년 웹 스크래핑 현황

LinkedIn에 public으로 공개된 정보도 많습니다. 하지만, LinkedIn이 가장 scraping하기 어려운 사이트 중 하나입니다. 하지만, 어떻게든 페이지를 수집하기 합니다. 창과 방패의 싸움이죠.