AI 덕분에 세탁실에서 구글 경쟁 서비스를 운영하는 남

▲

GN⁺ 8달전 | parent | ★ favorite | on: AI 덕분에 세탁실에서 구글 경쟁 서비스를 운영하는 남자(fastcompany.com)

Hacker News 의견

나는 직접 도메인 인덱스를 만들었음. 모든 도메인 내부 페이지를 크롤링하진 않았지만 그게 목적은 아님. 현재 1,542,766개의 도메인을 보유하고 있음. 많지는 않지만, 정직하게 모은 데이터임. GitHub 저장소에서 누구나 이용 가능하니 크롤링을 시작하고 싶다면 참고용으로 쓸 수 있음 Internet-Places-Database임
- 정말 멋진 프로젝트임. 처음엔 무엇에 영감을 받았는지 궁금함. 그리고 Readme에 깨진 링크가 있음 https://rumca-js.github.io/internet full internet search
- ICANN의 존 파일을 요청하면 그날의 공식적인 도메인 리스트를 얻을 수 있지 않음?
2023년에 이런 걸 시도해보려고 했었음! 검색 엔진을 만드는 데 가장 어려운 부분은 사실 '검색' 자체가 아니라, 인덱스를 만들고 (다른 사람들이 말했듯이) 매우 적대적인 인터넷을 크롤링하는 것임, 특히 IP를 돌리지 않는 단일 가정용 서버에서 돌릴 때 더더욱 그럼. 이 사람이 성공해서 커뮤니티 내에 Marginalia 만든 사람처럼 레퍼런스로 남았으면 좋겠음. 이 글을 보니 나도 다시 한 번 시도해보고 싶어짐
- openwebsearch.eu의 open-webindex를 북마크 해두는 게 좋을 듯함. 아직 오픈소스는 아니지만, 베타 단계가 끝나면 공개될 수도 있을 거 같음. 세부 계획은 아직 불확실함
- 이런 프로젝트에 commoncrawl 데이터는 쓸만한지 궁금함
- 크롤링을 크라우드소싱하면 어떨지 생각해봄. IP 회전 문제도 풀고, 부하도 분산할 수 있을 듯함
- IP라는 이슈가 흥미로움. 예전에 CSGO 봇을 만들어 스팀 가격을 스크랩하려고 했는데, 프록시 서비스도 빌려봤지만 스팀에서 차단되었음. 그래서 사람들은 진짜 IP를 구매하는 건지 궁금함
- 인덱스를 가진 것과 안 가진 것은 차이가 분명함. 하지만 결과를 정렬하는 건 별개임. 예를 들어 200번째 페이지엔 무엇이 나와야 하고, 거기 있는 결과도 의미가 있는지 고민임
https://searcha.page/에서 랜덤으로 검색했는데 "검색 결과를 만드는 중 에러가 발생함"이라는 메시지 받음
- 허그 오브 데스가 왔을까 걱정임. 빨래방의 온도가 엄청 올라갈 것 같음
- 내 사용량이 이번 주에 지난주 대비 20배나 증가했음. 막상 검색 서비스 자체가 병목이 아니라, 문맥(콘텍스트) 확장이 문제였음. 사용량 그래프가 거의 수직임. 이게 잘된 주인지 아닌지 잘 모르겠음
- https://seek.ninja/s?q=beatles에서도 똑같은 현상을 경험함
- 이 현상 전에 첫 검색 결과 페이지(SERP)는 상당히 인상적이었음
기사 제한에 도달했다고 안내를 받았음. 예전에 fastcompany 링크를 본 게 10년쯤 됐음! 오랜만에 그들의 글을 읽어볼 수 있을까 기대에 부풀었지만 아쉬움만 남음. archive에서 관련 내용을 봤는데,
- 새로운 검색 엔진인 Search-a-Page는 프라이버시 중점 버전 Seek Ninja도 있고,
- 비결은 대형 언어 모델임. 전통적인 검색과 거의 같은데, AI로 키워드 확장과 문맥 이해를 돕는 점만 다름.
- Wilson Lin이라는 야심찬 취미 개발자가 자신의 방식으로 검색 엔진을 만들었다는 블로그 글이 있음 블로그
- Marginalia처럼 비상업적 토이 검색 엔진 사례도 언급됨 Marginalia
- "왜 빨래방이냐고? 열과 소음 때문" 엔진은 32코어 AMD EPYC 7532, 램 0.5TB, 전체 비용 $5,000에 저장 장치 $3,000임
- 최근 Wilson Lin의 블로그 글을 정말 몰아 읽었는데, 검색 엔진과 LLM에 관심 있는 아마추어에게 아주 유익하고 고퀄임 블로그
- Firefox 리더 모드(가끔 새로고침 추가)면 대부분의 유료 벽을 통과할 수 있음, 이 기사도 포함임
"32코어 AMD EPYC 7532 프로세서는 출시 당시만 해도 $3,000 넘게 주어야 했지만 지금은 이베이에서 $200 이하에 구할 수 있음." 이런 꿀딜은 왜 항상 내가 홈랩 부품 찾을 때는 안 보이는지 궁금함
- 시간 들여서 라벨이 엉망인 딜도 꼼꼼히 찾아보고, 평판 없는 판매자에게서도 사볼 각오를 해야 함
- 'AMD EPYC 7532'로 검색해보면 $150~$200대 리스트가 엄청 많음. 홈랩 부품 검색하던 당시엔 이런 딜이 아니어서 아쉬운 건지 궁금함
- CPU는 아니지만 올해 초 이베이에서 2020년 생산 Thinkpad 워크스테이션을 $500에 샀음. 새 제품일 땐 $5,700짜리였음. 이베이 하드웨어 시장이 다 이런 식임. 5년만 기다리면 가격이 10분의 1로 떨어짐
- TheServerStore.com에 좋은 딜이 종종 있음. 올해 초 64코어 EPYC 7702 서버(램 256GB, NVMe 8TB) 신품을 $3,000 정도에 한 번에 맞췄음
- QC 등급 칩을 구입해 직접 도전해보는 것도 한 방법임. 나도 이런 방식으로 구매함. 내게 가장 큰 비용은 디스크고, 그 다음이 램이었음. 칩은 비교적 저렴하게 느낌
프로젝트가 매우 멋지다고 생각함, 즐겁게 하기만을 바람. 나도 개인적으로 검색 엔진을 만들겠다는 상상만 수십 번 해봤지만, 늘 벽에 부딪힘. 1999년과 지금의 인터넷은 너무 다름. 이제는 세상의 발견(discovery) 자체가 유의미하지 않음. 예를 들어 공룡에 관한 자기 블로그를 찾더라도 업데이트가 2004년 이후 없고, 이미지나 링크가 다 깨졌으며, 이제는 위키피디아나 스미소니언 같은 데가 훨씬 낫고. 이렇게 특별한 개인 사이트를 찾는 것도 재미는 있지만, 예전만큼 가치는 아님. 현실적으로 보면 유튜브, 틱톡, 미디엄, 레딧, 마요클리닉 등 각 플랫폼이 특정 콘텐츠를 독점하는 "허브" 중심 네트워크로 되돌아오는 중임. 이런 대기업들은 개인 크롤러엔 보수적이고, 구글 크롤러엔 우호적임. 구글은 사용자 트래픽을 제공하니까. 내 크롤러라면 쉽게 허용해줄까? 그래도 포기하지 않음. 이런 허브 기반 인터넷엔 허브 인식 검색 엔진이 필요할지도 모름
'Google rival(구글 경쟁자)'라는 표현은 좀 과함. 그냥 '검색 엔진'이라고 하는 편이 오늘날의 구글이 하는 모든 걸 생각하면 오히려 더 정확하다고 봄
모두한테 직접 답변하기 어렵지만, 내가 바로 검색 엔진을 운영하는 당사자임. 네, 트래픽 폭증으로 오늘 다운되었음. 사용량이 지난주 대비 20배 늘었는데, 완전히 준비가 안 된 상태였음. 머릿속에는 이용자 증가가 느리고 꾸준할 거라 막연히 상상했었음. 사용해준 분들께 감사하고, 만약 서비스가 잘 동작하지 않았다면 미안함. 이번이 처음으로 진짜 '불시험'을 치른 날임
훌륭한 혁신과 클라우드 회의적인 셀프 호스팅 조합임. 이런 게 훨씬 더 많아져야 한다고 생각함