[GN#126] 대규모로 웹 스크래핑하기

2021-11-29 ~ 2021-12-05 사이의 주요 뉴스들
월드와이드웹(WWW)이란 단어는 이제 사실 URL 앞에 있는 www에서나 보이고 실제로는 '웹'이라고만 지칭하게 된 것 같습니다. 누구나 쉽게 사용 가능한 웹 기술의 장점 때문에 폭발적으로 발전하면서 엄청 많은 사이트가 생겨났고, 그로 인해 점점 더 많은 정보가 웹에 기록되고 있습니다. 비정형적인 정보들이 웹에 기록되다 보면 구조화된 데이터가 아닌 경우가 많고, 이런 정보들이 여기저기 산재해 있지만, 기술적인 접근을 위해서는 우리가 직접 수집하고 정제하는 작업을 거치게 됩니다. 특히나 세계 최대 규모의 스파이더 봇들을 운영해서 웹을 크롤링하는 구글의 경우는 정말 많은 데이터를 담고 있어서 많은 사람이 구글 검색 결과를 스크래핑해서 저장하기도 하는데요. 서비스 운영자인 구글 측에서는 당연히 이런 대규모 검색 시도에 대해서는 차단을 하게 됩니다. 그동안 구글 검색을 월 수백만 단위로 하는 경우 어떻게 하면 차단을 회피할 수 있을지에 대해서는 다양한 시도들이 나왔는데요. 이 웹 스크래핑에 관심 많은 Nikolai Tschacher 라는 개발자가 그동안 자신이 대규모 스크래핑을 어떻게 개선해 왔는지를 정리한 "So you want to Scrape like the Big Boys?" 라는 글을 올려서 정리해 봤습니다. AWS Lambda부터 저가형 안드로이드 기기, 4G 동글과 Proxidize를 이용한 방법까지 매우 독특한 내용이라서 흥미로우니 참고하세요.

두 달 전 위클리에서 "초소형 사모펀드(Micro PE)의 등장"이라는 제목으로 초기 단계의 서비스를 인수하여 성장시킨 뒤 파는 회사들이 나오고 있다고 말씀드렸는데요. 이번에 소개해 드리는 Tiny Capital은 이렇게 초기 단계를 지나 수익을 내는 회사를 사서 성장시키며 지속해서 운영하는 회사입니다. 디자이너분들이 많이 방문하시는 Dribbble도 2017년에 인수해서 키우는 중이고요. 제가 관심이 갔던 건 "48시간 내 답변, 7일 안에 오퍼, 30일 안에 딜 클로즈" 라는 빠른 결정과 진행이 가능하다는 부분이었습니다. 실제로 Tiny에 판 사람들도, 팔려고 했다가 거절당한 사람들도 자신이 집중해야 할 부분을 알게 되어서 만족했다고 하는데요. 이제 국내에도 이런 방식이 나올만하지 않은가 생각이 듭니다.

CloudFlare가 몇 달 전에 "AWS의 어처구니없는 Egress 비용"이라는 글을 통해서 전송 비용을 과도하게 받고 있다고 저격한바 있는데요. 드디어 AWS가 외부로의 데이터 전송 요금을 인하한다고 발표했습니다. 모든 AWS 리전에서 매달 100 GB 및 CloudFront 1TB에 대해서 무료로 제공하겠다고 하는 건데요. 꽤 많은 사용자가 혜택을 보게 될 것 같습니다. 역시 경쟁이 좋네요.

Fluent Search는 윈도우에서 종합 검색 및 창 전환을 가능하게 해주는 유틸리티입니다. 기본적으로 Ctrl+Alt 키를 눌러서 나오는 창에서 타이핑하면 어플리케이션 실행/파일 검색/커맨드 실행/웹 방문 기록 검색 등을 가능하게 해주는데요. Screen Search 기능을 통해서 윈도우의 모든 기능을 키보드로 접근해주는 Vimium과 같은 기능을 제공합니다. 써보니 굉장히 빠르고 안정적이라 윈도우 사용자분들은 꼭 한번 사용해 보시기 바랍니다.

[ 금주의 Ask - 다양한 질문을 올려주세요 ]


GeekNews Show 에 직접 만드신 오픈소스나, 재직중인 스타트업의 제품/서비스를 소개해주세요.

✓ 사내 커뮤니케이션 도구들에 GeekNews Bot을 추가해서 편하게 새 글을 받아보시고, 멤버들에게도 공유해주세요. : Slack Bot, 잔디 Bot, MS Teams Bot, Discord Bot
✓ 주위분들께 긱뉴스 위클리 - https://news.hada.io/weekly 를 추천해 주세요.

매주 월요일 아침, 지난 일주일간의 GeekNews 중 엄선한 뉴스들을 이메일로 보내드립니다.