12P by GN⁺ 20시간전 | ★ favorite | 댓글 2개
  • 세탁실에 둔 개인 서버로 Searcha Page/Seek Ninja라는 검색엔진을 구축해 구글에 준하는 경험을 제공하는 DIY 프로젝트
  • 20억 페이지 인덱스에서 출발해 반년 내 40억 문서를 목표로 하며, 전통적 색인 방식에 LLM 기반 키워드 확장·문맥 이해를 결합함
  • 중고 서버 부품으로 구성한 AMD EPYC 7532(32코어)·RAM 0.5TB급 장비에 총 5천 달러를 투입, 업그레이드 차익(Upgrade Arbitrage) 전략으로 비용을 낮춤
  • 클라우드 의존을 최소화하되 LLM 추론은 SambaNova의 Llama 3를 사용, Seek Ninja는 프로필 저장·위치 사용을 하지 않는 프라이버시 지향 버전
  • AI의 도입으로 저비용 확장이 가능해졌으며, 그의 15만 줄 코드베이스는 LLM을 통해 반복 개발을 가속화해 혼자서 대규모 시스템 구축이 가능했음
  • 개인·저비용 구성이면서도 로컬 검색 정확도와 속도를 확보했으며, 향후 트래픽 증가 시 코로케이션 이전을 고려하는 등 대안 검색의 실험적 가능성을 보여줌

배경: 작은 하드웨어로 ‘거의 구글 같은’ 검색 경험

  • 구글이 스탠퍼드 시절 듀플로 케이스 서버로 출발했던 역사와 대비하며, 구형 서버 한 대로도 현대적 검색 경험에 근접할수 있다는 것을 보여주는 사례
  • 30년 전 Google은 Stanford 캠퍼스에서 Backrub으로 시작하며, Duplo 블록으로 만든 케이스에 40GB 데이터를 담은 실험적 서버를 사용했음
    • IBM과 Intel의 기부로 작은 서버 랙으로 업그레이드되었으나, 2025년 현재 Google 검색은 단일 데이터 센터에도 수용 불가능한 규모로 성장
  • Ryan Pearce의 Searcha Page는 원래 Google 서버 크기만 한 기계로 현대적 검색 경험을 구현
    • 서버는 세탁기·건조기 옆에 설치되어 열·소음 문제를 완화하기 위해 침실에서 옮겨옴
    • 세탁실이라는 제약에도 실제 검색 결과 품질은 체감상 상위권에 가까운 수준으로 평가됨
  • 인덱스 규모는 현재 약 20억 문서이며 6개월 내 40억 문서 도달을 전망함
    • 비교 지표: 1998년 구글 2,400만 페이지, 2020년 4,000억 페이지
    • 절대 규모는 작지만 자체 호스팅 단일 서버로는 매우 큰 스케일임

핵심 기술: 전통 색인 + LLM 보조

  • 전체 아키텍처는 전통적 검색엔진 구성을 따르되, LLM으로 키워드 확장과 문맥 판단을 지원하는 하이브리드 설계임
    • RankBrain 등 기존 대형 검색엔진의 AI 내재화 역사를 환기하며, LLM 반감과 별개로 AI는 이미 검색의 핵심 요소였음을 강조함
    • LLM은 데이터세트 구축·문맥화에서 개발 속도·확장성을 높이는 실용적 도구로 활용됨
  • 운영자는 초기에는 LLM으로 구현했다가 전통 로직으로 대체하는 식으로 반복 개발을 수행, 약 15만 라인의 코드베이스까지 성장함
    • 반복 개발을 포함하면 실질적으로 50만 라인에 준하는 작업량으로 추정함

인프라: 자급 인덱싱과 중고 서버의 ‘업그레이드 차익’

  • 장비는 AMD EPYC 7532(32코어) 기반의 중고 서버로, 출시 당시 3천 달러+ 급 CPU가 현재 200달러 미만에 거래되는 가격 하락을 적극 활용함
    • 전체 구축비용은 5천 달러 수준이며, 이 중 스토리지에 3천 달러 내외 투입
    • RAM 0.5TB 구성 등으로 수백 동시 세션 처리 역량을 확보함
  • 자체 호스팅(셀프 호스팅) 기조로 클라우드 사용을 최소화하되, LLM 추론만은 SambaNova(Llama 3) 를 통해 저비용·고속 접근
    • Common Crawl을 비롯한 공개 웹코퍼스를 활용해 크롤러·인덱서를 가속, 의존성은 장기적으로 낮출 계획임

제품: Searcha PageSeek Ninja

  • Searcha Page: 구글과 유사한 전통 SERP UX, 로컬 검색에서도 유효한 결과 제공
    • 메타디스크립션 대신 LLM 요약으로 쿼리-문서 관련성 설명을 강화하는 구성 언급
  • Seek Ninja: 프로필 저장 없음·위치 미사용프라이버시 우선 변형
    • 시크릿 모드 대용으로 쓰기 적합한 경량·미니멀 접근
  • 수익화는 과도한 배너 대신 완만한 제휴형 광고를 시험 중이며, 트래픽临临临 증가 시 코로케이션 이전을 계획함

비교 사례: Wilson Lin의 클라우드·벡터 접근

  • 동시대의 또 다른 개인 실험으로 Wilson Lin클라우드 네이티브 전략과 자체 벡터 엔진(CoreNN) 을 결합해 초저비용 운영을 추구함
    • 문서마다 LLM 요약을 생성해 질의-문서 매칭을 다른 방식으로 표현
    • 목표는 기술이 아닌 시장·채널 문제가 더 큰 장벽이라는 인식 공유
  • Pearce는 한때 벡터 DB를 시도했으나 결과가 모호·예술적이라 표현될 정도로 부정확하여 순위 정확성 관점에서 전통 기법으로 회귀함

운용 이슈: 열·소음, 세탁실이라는 물리적 제약

  • 서버는 침실에서 로 인한 생활 문제를 유발해 유틸리티룸으로 이전, 케이블 타공 등으로 연결성을 확보함
    • 문을 오래 닫아두면 열 체류가 문제가 될 수 있어 환기가 중요 요소임
  • 클라우드 회의론 성향이지만, LLM·트래픽 한계를 고려해 데이터센터 코로케이션 이전을 트리거 기반으로 검토 중임

의미: 1인 개발의 구글 추격 실험과 LLM의 현실적 역할

  • LLM은 ‘검색 품질을 망치는 도구’ 라는 통념과 달리, 개발·스케일 가속기로서 개인에게 검색엔진 구축 능력을 제공하는 현실적 수단임
    • 전통 색인 + LLM 보조정확성·설명력을 함께 노리는 실용적 절충안임
  • 저비용 중고 서버 + 공개 코퍼스 + 저가 LLM API 조합은 대규모 빅테크 자원 없이도 대안 검색을 시도할 수 있음을 입증함
    • 향후 언어권 확장·** 지속 크롤링 비용**·스팸 저항성 등 난관이 남아 있으나, 니치 검색·** 프라이버시 지향** 분야에서 실험적 경쟁력을 보여주는 사례임
Hacker News 의견
  • 나는 직접 도메인 인덱스를 만들었음. 모든 도메인 내부 페이지를 크롤링하진 않았지만 그게 목적은 아님. 현재 1,542,766개의 도메인을 보유하고 있음. 많지는 않지만, 정직하게 모은 데이터임. GitHub 저장소에서 누구나 이용 가능하니 크롤링을 시작하고 싶다면 참고용으로 쓸 수 있음 Internet-Places-Database

    • 정말 멋진 프로젝트임. 처음엔 무엇에 영감을 받았는지 궁금함. 그리고 Readme에 깨진 링크가 있음 https://rumca-js.github.io/internet full internet search

    • ICANN의 존 파일을 요청하면 그날의 공식적인 도메인 리스트를 얻을 수 있지 않음?

  • 2023년에 이런 걸 시도해보려고 했었음! 검색 엔진을 만드는 데 가장 어려운 부분은 사실 '검색' 자체가 아니라, 인덱스를 만들고 (다른 사람들이 말했듯이) 매우 적대적인 인터넷을 크롤링하는 것임, 특히 IP를 돌리지 않는 단일 가정용 서버에서 돌릴 때 더더욱 그럼. 이 사람이 성공해서 커뮤니티 내에 Marginalia 만든 사람처럼 레퍼런스로 남았으면 좋겠음. 이 글을 보니 나도 다시 한 번 시도해보고 싶어짐

    • openwebsearch.eu의 open-webindex를 북마크 해두는 게 좋을 듯함. 아직 오픈소스는 아니지만, 베타 단계가 끝나면 공개될 수도 있을 거 같음. 세부 계획은 아직 불확실함

    • 이런 프로젝트에 commoncrawl 데이터는 쓸만한지 궁금함

    • 크롤링을 크라우드소싱하면 어떨지 생각해봄. IP 회전 문제도 풀고, 부하도 분산할 수 있을 듯함

    • IP라는 이슈가 흥미로움. 예전에 CSGO 봇을 만들어 스팀 가격을 스크랩하려고 했는데, 프록시 서비스도 빌려봤지만 스팀에서 차단되었음. 그래서 사람들은 진짜 IP를 구매하는 건지 궁금함

    • 인덱스를 가진 것과 안 가진 것은 차이가 분명함. 하지만 결과를 정렬하는 건 별개임. 예를 들어 200번째 페이지엔 무엇이 나와야 하고, 거기 있는 결과도 의미가 있는지 고민임

  • https://searcha.page/에서 랜덤으로 검색했는데 "검색 결과를 만드는 중 에러가 발생함"이라는 메시지 받음

    • 허그 오브 데스가 왔을까 걱정임. 빨래방의 온도가 엄청 올라갈 것 같음

    • 내 사용량이 이번 주에 지난주 대비 20배나 증가했음. 막상 검색 서비스 자체가 병목이 아니라, 문맥(콘텍스트) 확장이 문제였음. 사용량 그래프가 거의 수직임. 이게 잘된 주인지 아닌지 잘 모르겠음

    • https://seek.ninja/s?q=beatles에서도 똑같은 현상을 경험함

    • 이 현상 전에 첫 검색 결과 페이지(SERP)는 상당히 인상적이었음

  • 기사 제한에 도달했다고 안내를 받았음. 예전에 fastcompany 링크를 본 게 10년쯤 됐음! 오랜만에 그들의 글을 읽어볼 수 있을까 기대에 부풀었지만 아쉬움만 남음. archive에서 관련 내용을 봤는데,

    • 새로운 검색 엔진인 Search-a-Page는 프라이버시 중점 버전 Seek Ninja도 있고,
    • 비결은 대형 언어 모델임. 전통적인 검색과 거의 같은데, AI로 키워드 확장과 문맥 이해를 돕는 점만 다름.
    • Wilson Lin이라는 야심찬 취미 개발자가 자신의 방식으로 검색 엔진을 만들었다는 블로그 글이 있음 블로그
    • Marginalia처럼 비상업적 토이 검색 엔진 사례도 언급됨 Marginalia
    • "왜 빨래방이냐고? 열과 소음 때문" 엔진은 32코어 AMD EPYC 7532, 램 0.5TB, 전체 비용 $5,000에 저장 장치 $3,000임
    • 최근 Wilson Lin의 블로그 글을 정말 몰아 읽었는데, 검색 엔진과 LLM에 관심 있는 아마추어에게 아주 유익하고 고퀄임 블로그

    • Firefox 리더 모드(가끔 새로고침 추가)면 대부분의 유료 벽을 통과할 수 있음, 이 기사도 포함임

  • "32코어 AMD EPYC 7532 프로세서는 출시 당시만 해도 $3,000 넘게 주어야 했지만 지금은 이베이에서 $200 이하에 구할 수 있음." 이런 꿀딜은 왜 항상 내가 홈랩 부품 찾을 때는 안 보이는지 궁금함

    • 시간 들여서 라벨이 엉망인 딜도 꼼꼼히 찾아보고, 평판 없는 판매자에게서도 사볼 각오를 해야 함

    • 'AMD EPYC 7532'로 검색해보면 $150~$200대 리스트가 엄청 많음. 홈랩 부품 검색하던 당시엔 이런 딜이 아니어서 아쉬운 건지 궁금함

    • CPU는 아니지만 올해 초 이베이에서 2020년 생산 Thinkpad 워크스테이션을 $500에 샀음. 새 제품일 땐 $5,700짜리였음. 이베이 하드웨어 시장이 다 이런 식임. 5년만 기다리면 가격이 10분의 1로 떨어짐

    • TheServerStore.com에 좋은 딜이 종종 있음. 올해 초 64코어 EPYC 7702 서버(램 256GB, NVMe 8TB) 신품을 $3,000 정도에 한 번에 맞췄음

    • QC 등급 칩을 구입해 직접 도전해보는 것도 한 방법임. 나도 이런 방식으로 구매함. 내게 가장 큰 비용은 디스크고, 그 다음이 램이었음. 칩은 비교적 저렴하게 느낌

  • 프로젝트가 매우 멋지다고 생각함, 즐겁게 하기만을 바람. 나도 개인적으로 검색 엔진을 만들겠다는 상상만 수십 번 해봤지만, 늘 벽에 부딪힘. 1999년과 지금의 인터넷은 너무 다름. 이제는 세상의 발견(discovery) 자체가 유의미하지 않음. 예를 들어 공룡에 관한 자기 블로그를 찾더라도 업데이트가 2004년 이후 없고, 이미지나 링크가 다 깨졌으며, 이제는 위키피디아나 스미소니언 같은 데가 훨씬 낫고. 이렇게 특별한 개인 사이트를 찾는 것도 재미는 있지만, 예전만큼 가치는 아님. 현실적으로 보면 유튜브, 틱톡, 미디엄, 레딧, 마요클리닉 등 각 플랫폼이 특정 콘텐츠를 독점하는 "허브" 중심 네트워크로 되돌아오는 중임. 이런 대기업들은 개인 크롤러엔 보수적이고, 구글 크롤러엔 우호적임. 구글은 사용자 트래픽을 제공하니까. 내 크롤러라면 쉽게 허용해줄까? 그래도 포기하지 않음. 이런 허브 기반 인터넷엔 허브 인식 검색 엔진이 필요할지도 모름

  • 'Google rival(구글 경쟁자)'라는 표현은 좀 과함. 그냥 '검색 엔진'이라고 하는 편이 오늘날의 구글이 하는 모든 걸 생각하면 오히려 더 정확하다고 봄

  • 모두한테 직접 답변하기 어렵지만, 내가 바로 검색 엔진을 운영하는 당사자임. 네, 트래픽 폭증으로 오늘 다운되었음. 사용량이 지난주 대비 20배 늘었는데, 완전히 준비가 안 된 상태였음. 머릿속에는 이용자 증가가 느리고 꾸준할 거라 막연히 상상했었음. 사용해준 분들께 감사하고, 만약 서비스가 잘 동작하지 않았다면 미안함. 이번이 처음으로 진짜 '불시험'을 치른 날임

  • 훌륭한 혁신과 클라우드 회의적인 셀프 호스팅 조합임. 이런 게 훨씬 더 많아져야 한다고 생각함