1P by neo 4달전 | favorite | 댓글 1개

마지널리아 검색 엔진의 발전

  • 마지널리아 검색은 처음 시작했을 때 작은 실험이었으나, 현재는 전업으로 전환한 프로젝트임.
  • 검색 엔진은 지금까지 가장 잘 작동하고 있으며, 많은 이정표를 달성함.
  • 검색 엔진은 거실에서 벗어나 적절한 엔터프라이즈 서버로 이전함.

코드 기반 정리 및 애플리케이션 스트림라인

  • 올해의 주요 주제는 코드 기반을 정리하고 애플리케이션을 스트림라인화하는 것이었음.
  • 운영 부담을 관리 가능하게 유지하고, 다른 사람들이 애플리케이션과 코드베이스에 더 쉽게 접근할 수 있도록 만드는 데 중점을 둠.
  • 많은 작업이 필요했지만, 그 결실을 보기 시작함.

운영 개선

  • 과거에는 색인을 전환할 때 며칠간의 중단이 필요했으나, 이제는 사라짐.
  • 최근에는 제로 다운타임 업그레이드도 가능해짐.
  • 운영 측면에서 수주간의 수동 프로세스가 필요했던 것들이 이제는 GUI에서 버튼을 누르는 것으로 대체됨.

앵커 텍스트 키워드 지원 추가

  • 앵커 텍스트 키워드 지원을 추가한 것이 검색 엔진의 관련 결과를 찾는 능력에 큰 영향을 미침.
  • 변경이 처음 이루어졌을 때는 통합이 잘 되지 않아 바로 눈에 띄지 않았으나, 새로운 관련성 신호가 자리 잡으면서 놀라운 순간을 경험함.

전업으로의 전환

  • NLnet의 후원 덕분에 약 8개월 전부터 전업으로 전환함.
  • 가장 어려운 부분은 너무 많이 일하지 않는 것이었으며, 일주일에 최소 하루는 쉬려고 노력함.
  • 충분한 휴식을 취할 때 더 똑똑해진다는 것을 알고 있으므로, 이론적으로는 일을 더 잘하기 위해 가끔 쉬는 것이 중요함.

10억 문서 색인화 목표

  • 10억 문서 색인화를 향한 여정이 천천히 진행 중임.
  • 소프트웨어가 처리할 수 없어서가 아니라 웹의 신호 대 잡음 비율이 좋지 않아 예상보다 어려움을 겪음.
  • 검색 엔진이 상대적으로 잘 작동하는 큰 이유 중 하나는 색인하지 않는 내용 때문임.
  • 색인은 1년 전 5천만에서 1억 사이였으나, 마지막 크롤링에서 2억 2천만에 이르렀고, 다음 크롤링 라운드가 끝날 때는 2억 9천만에서 3억 사이가 될 것으로 예상됨.

쿼리 파싱 및 실행 개선

  • 쿼리 파싱과 실행 분야에서 개선할 여지가 많음.
  • 실제 작업이 시작되기 전에 영향을 받는 코드를 정리하기 위한 준비 작업에 착수함.
  • 프로젝트에서 큰 도약은 항상 실험적이었으며, 계획된 것들도 있지만, 계획되지 않은 것들이 실제로 큰 영향을 미칠 것으로 보임.

감사의 말

  • NLnet, FUTO, Patreon 후원자, 옹호자 및 사용자에게 감사함.
  • 이들의 지원 없이는 이 모든 것이 불가능했을 것임.

GN⁺의 의견

  • 마지널리아 검색 엔진은 작은 실험에서 시작하여 지속적인 개선과 커뮤니티의 지원을 통해 전업 프로젝트로 성장한 사례임.
  • 앵커 텍스트 키워드 지원과 같은 기능적 개선은 검색 엔진의 성능을 크게 향상시키는 중요한 변화로 작용함.
  • 이 프로젝트는 오픈 소스 커뮤니티와 개발자들에게 협업과 기여의 기회를 제공하며, 검색 엔진 기술의 발전에 기여하고 있음.
Hacker News 의견
  • 사용자는 수치 모델링에 관한 매우 특정한 자료를 찾기 위해 이 사이트를 즐겨찾기로 해두었음. 구글에서는 찾을 수 없는 80년대와 90년대의 솔버, 메쉬 생성, 최적화 방법에 대한 자료들을 발견했고, 전문가들이 작성한 사이트들을 구글에서는 절대 찾을 수 없었던 것들을 찾아내어 매우 가치 있다고 느낌.
  • 웹의 신호 대 잡음 비율이 좋지 않아 예상보다 어려움을 겪고 있음. 검색 엔진이 상대적으로 잘 작동하는 이유 중 하나는 인덱싱하지 않는 것들 때문임.
  • 한 사용자는 IPv6 지원을 위해 C&C Tiberian Sun을 바이너리 패치한 랜덤 웹사이트를 발견하여 옛날의 웹을 그리워함. 이것은 Fravia의 Searchlores를 떠올리게 하며, Umberto Eco가 컴퓨터에 관심이 있었다면 그런 느낌이었을 것이라고 함. 마치 '장미의 이름' 속 도서관 미로에서 무언가 놀라운 것을 발견하고 나중에 영원히 잃어버리는 것 같은 경험임.
  • 다른 사용자는 옛날처럼 느껴진다고 언급함. 1998년에 AltaVista로도 "서부전선 이상 없다" 책과 영화의 차이점을 찾을 수 없었지만, 지금은 그 주제에 대해 이야기하는 수많은 개인 블로그 페이지, 대학 논문, 코드 사이트, 메일링 리스트 토론, 블로그, Rust 토론 그룹, 개인 웹사이트, 전문가 토론 등을 찾을 수 있음.
  • 한 사용자는 "transformers intuition"을 검색했을 때 결과에 놀랐으며, 구글의 결과는 SEO에 최적화된 웹사이트(주로 Medium)와 내용이 열등한 화려한 사이트들을 보여줬음에 비해 이 검색 엔진의 결과는 놀라웠다고 함.
  • 한 사용자는 Common Crawl이 유용할지 궁금해함. 현재 약 100TB에 33.5억 페이지에 달하는 데이터로, S3에서 직접 처리하지 않는 이상 다운로드하는 데 오래 걸릴 것이며, 신호 대 잡음 비율이 어떨지는 모르겠다고 함.
  • "랜덤 사이트" 기능에 대해 의문을 제기하는 사용자가 있음. 균일하게 샘플링할 것으로 기대했지만, 특정 사이트들이 반복해서 반환되는 것 같다고 함.
  • 한 사용자는 구글에 익숙해서 자주 사용하지 않지만, Marginalia가 멋진 프로젝트라고 생각하며, 스팸 SEO 사이트와 AI 생성 답변이 점점 더 흔해지는 상황에서 앞으로 더 많이 사용할 것 같다고 함.
  • 마지막으로 한 사용자는 최근 구글 검색 결과와 비교해보았는데, 인도 테스트 크리켓 최저 점수에 대한 검색 결과는 좋지 않았고, RAID 계산기에 대한 결과는 괜찮았지만 잡음이 섞여 있었으며, "서부전선 이상 없다" 영화와 책의 차이점에 대한 검색은 결과가 전혀 없었다고 함.