웹 검색엔진을 처음부터 2개월 만에 3억 개 뉴럴 임베

▲

GN⁺ 8달전 | parent | ★ favorite | on: 웹 검색엔진을 처음부터 2개월 만에 3억 개 뉴럴 임베딩으로 구축하기(blog.wilsonl.in)

Hacker News 의견

OpenAI의 최신 임베딩 모델에서 배치 추론 시 100만 토큰당 $0.0001이라는 아주 낮은 비용을 제공한다는 점이 놀라움임, 10억 개 페이지를 각 1,000 토큰씩 임베딩해도 총 $100밖에 안 듦을 발견함, 자체적으로 Runpod 스팟 GPU로 추론을 돌리면 이보다 100배는 비싸게 됨, 이외 다른 API 비용은 논외임, OpenAI가 이렇게 도메인 특화 소스 데이터를 확보하려는 일종의 허니팟 전략 혹시 아닌지 궁금함
- OpenAI는 대부분 API를 통해 처리된 데이터로는 재학습을 하지 않음, 특별한 예외가 있지 않는 한 그런 일은 없다고 알고 있음
글 마지막에서는 Common Crawl 데이터를 추가할 생각을 언급함, 우리 팀의 웹 그래프 기반 랭킹 정보가 어떤 페이지를 크롤링할지 선정하는 데 큰 도움이 될 것 같음, 대규모 사례를 직접 보여주는 게 흥미로웠음, 벡터 데이터베이스가 의외로 비용 효율적이어서 놀람
진심으로 경탄을 표함, 글도 놀라울 만큼 잘 정리됨, 검색엔진의 핵심은 정제되고 필터링된 데이터라는 점에 동의함(쓰레기를 넣으면 쓰레기가 나옴), LLM 훈련에서도 결국 소량의 고품질 데이터가 더 중요하다는 것을 다시금 체감함, 모든 컨텐츠를 LLM이 심사해서 검색엔진을 만들면 어떤 성능일지 궁금증이 들음
- 현재 친구의 소규모 비즈니스 웹사이트 SEO를 직접 관리 중임, 기술적으로 손봐서 지역 맞춤 수작업 컨텐츠도 꽤 썼음, 2개월이 지나도록 Bing은 파비콘도 못 긁어감, Google도 1달이나 걸림, 여전히 완전 관련 없는 전국 규모 리드 수집 사이트, Yelp 블로그 스팸, 지역과 전혀 무관한 타업체 페이지가 상위에 노출됨, 뭔가 pagerank와 크롤링 체계가 제대로 작동하지 않는 게 확실해 보임
정말 존경심이 듦, 이렇게 많은 기술들을 모아 하나로 작동시키는 건 대단한 일임, 검색엔진의 결정적 가치는 실제 랭킹 알고리즘에 있다고 생각함, 이 프로젝트에서 LLM이 랭킹에 어떻게 사용되는지는 잘 모르겠음, 옛날 랭킹 기법 중에는 실제 사용자의 검색~클릭 데이터를 수집하는 게 있음, 이게 바로 인간의 검색어→클릭한 링크 Train 데이터임, 몇 번만 클릭해도 랭킹이 확실히 향상됨, 이 데이터를 뉴럴넷에 넣으면 분류 문제로 바꿔 랭킹을 개선할 수 있음, 더 많은 사람이 클릭할수록 가중치가 커짐
정말 놀랍다는 말밖에 없음, 실제로 꽤 잘 돌아감, 만약 1만 명이 월 $5씩 구독하면 비용을 충당할 수 있다면, 커뮤니티가 후원하는 검색엔진도 그리 허무맹랑하지 않을 것 같음
- Encorder-only LLM을 아는 사람에게는 Google이 사실상 이미 끝났다는 게 명확함, Google이 아직 유지되는 건 전 세계 웹을 크롤링해서 인덱스를 항상 최신으로 만드는 데 오래 걸려서임, Common Crawl 같은 오픈 기관이나 유료 서비스가 실시간으로 웹 크롤링 문제를 해결한다면 Google의 25년 방어벽은 무너지게 되고, 검색 자체가 평준화될 것임
- 더 나아가 대기업 IT의 모든 기능별 대체가 실시간으로 진행 중인 모습을 우리는 목격하고 있음, 모델을 통해 이제 기업의 기술 barriers도 크게 낮아짐
한 사람이 여기까지 만들어냈다는 게 이제껏 상상도 못 했던 일임, 상용 검색엔진과 그렇게 멀리 있지 않은 것 같음, 어쩌면 Google도 따라갈 만한 거리임, 연간 $5만이면 되다니 말도 안 되는 저렴함이라, 당장이라도 시드머니로 보내고 싶을 정도임
정말 멋진 프로젝트임, 유명 검색엔진에서 잘 안 나오던 질문(고해상도 울트라와이드 모니터 추천 옵션)에 대해 여기서도 시도해봤지만, 여전히 대형 랭킹만 전문인 메타 페이지가 전문적인 정보를 가진 페이지보다 우선 노출되는 현상이 있음, 랭킹에 대한 집착이 너무 강해 보임, 내가 직접 답을 찾는다면 하드웨어 포럼, 블로그 몇 개 추려서 꼼꼼히 스펙과 장단점 비교해볼 것임, 이런 분석을 실제 사이트가 했는지 확인하기 어렵기 때문에 특수한 경우에는 구체적 데이터 인용 사이트를 더 높게 평가해야 합리적임, 유저 입장에서는 분석에 쓰인 원천 자료를 보고 싶음, 하지만 실제 검색엔진은 이렇게 바닥에서 위로 소스 근거를 올려주지는 않음
- 이건 애초에 검색 문제(search query)가 아닐 수도 있음, 정확하게 “정해진 답”이 존재하는 한 페이지가 아니라, 여러 출처 조합과 ‘추론’을 필요로 하는 질문임
정말 멋지다고 생각함, 전부를 이걸로 대체해볼까 했는데, 조금은 시간 낭비가 될 수도 있지만 그래도 꼭 여러 검색을 시도해보고 소감 남기겠음, 대체로 거의 맞는 곳으로 이끌긴 하는데 100%는 아니었음, 예를 들어 lemmy로 fediverse 찾으려 했더니 liberapay 페이지가 결과로 떴음, 꼭 Common Crawl 연동 약속을 지켜주고 archive.org 같은 다른 사이트도 참고해줬으면 함, AI 업계에 수십억이 투입되는데, 실제 이런 실험이 커뮤니티 펀딩이나 작업공유로라도 잘 굴러가 성공했으면 좋겠음, 솔직히 현 검색엔진 거의 독점 상황에 많은 사람들이 지쳐 있음, Ecosia도 자체 검색엔진 준비 중인 걸로 아는데 꼭 이 프로젝트와 협업하거나 도움받았으면 함, 나는 탈중앙화(Decentralized) 검색엔진을 진심으로 원함, 지속가능성 때문에 오픈소스는 아직 망설여지는 점 이해함, 하지만 수많은 돈이 별 의미 없이 낭비된다는 게 답답하고 이 프로젝트는 잠재력이 엄청나기에 제발 오픈소싱해주면 좋겠음, 커뮤니티가 결국 크라우드펀딩 등으로 지속가능 방안 찾아낼 수 있을 것이라 믿음, 아직 포스팅을 다 읽진 않았지만 너무 기대돼서 바로 사용부터 해봄, 글 자체가 아주 심도 깊고 이런 방식이 다른 사람에게도 충분히 참고가 될 거라 생각함, 솔직히 마법 같고 오랜만에 이런 프로젝트에 처음부터 끝까지 설렘을 느낌, 오픈소스가 힘든 것도, 제3국 배경도 알지만 진짜 내 돈 중 $50이라도 기부할 의향이 있음, 온라인 결제 단 한번도 안 해본 내가 이 정도로 기꺼이 후원하고 싶을 정도임, 그래서 꼭 Common Crawl 같이 활용해서 커뮤니티와 함께 했으면 함, 진심으로 이 프로젝트와 커리어 모두 응원함
최근 읽은 글 중 가장 통찰력 있었음, 비용을 줄이기 위해 선택한 요소와 실제 절감 포인트를 자세히 설명한 게 특히 좋았음, 뉴럴 서치에 초점을 맞췄지만 BM-25 + 임베딩을 결합한 하이브리드 검색도 시도해봤는지 궁금함, 그리고 어떤 리랭킹 모델들이 가장 유용하고 효율적이었는지도 묻고 싶음
정말 재미있는 경험담이었음, 나도 비즈니스 검색용으로 비슷한 걸 개발하고 있는데 비슷한 도전과제 많이 맞닥뜨림, 많은 사람이 크롤링/처리/인덱싱이 쉬울 거라 생각하지만, 대규모로 비용 효율적으로 하는 건 완전히 다른 문제임, wilsonzlin에게 박수 보냄, 관련 이야기 나눠보고 싶음, 이런 걸 e2e로 직접 만드는 사람은 정말 소수임