마지널리아 검색 엔진의 발전
- 마지널리아 검색은 처음 시작했을 때 작은 실험이었으나, 현재는 전업으로 전환한 프로젝트임.
- 검색 엔진은 지금까지 가장 잘 작동하고 있으며, 많은 이정표를 달성함.
- 검색 엔진은 거실에서 벗어나 적절한 엔터프라이즈 서버로 이전함.
코드 기반 정리 및 애플리케이션 스트림라인
- 올해의 주요 주제는 코드 기반을 정리하고 애플리케이션을 스트림라인화하는 것이었음.
- 운영 부담을 관리 가능하게 유지하고, 다른 사람들이 애플리케이션과 코드베이스에 더 쉽게 접근할 수 있도록 만드는 데 중점을 둠.
- 많은 작업이 필요했지만, 그 결실을 보기 시작함.
운영 개선
- 과거에는 색인을 전환할 때 며칠간의 중단이 필요했으나, 이제는 사라짐.
- 최근에는 제로 다운타임 업그레이드도 가능해짐.
- 운영 측면에서 수주간의 수동 프로세스가 필요했던 것들이 이제는 GUI에서 버튼을 누르는 것으로 대체됨.
앵커 텍스트 키워드 지원 추가
- 앵커 텍스트 키워드 지원을 추가한 것이 검색 엔진의 관련 결과를 찾는 능력에 큰 영향을 미침.
- 변경이 처음 이루어졌을 때는 통합이 잘 되지 않아 바로 눈에 띄지 않았으나, 새로운 관련성 신호가 자리 잡으면서 놀라운 순간을 경험함.
전업으로의 전환
- NLnet의 후원 덕분에 약 8개월 전부터 전업으로 전환함.
- 가장 어려운 부분은 너무 많이 일하지 않는 것이었으며, 일주일에 최소 하루는 쉬려고 노력함.
- 충분한 휴식을 취할 때 더 똑똑해진다는 것을 알고 있으므로, 이론적으로는 일을 더 잘하기 위해 가끔 쉬는 것이 중요함.
10억 문서 색인화 목표
- 10억 문서 색인화를 향한 여정이 천천히 진행 중임.
- 소프트웨어가 처리할 수 없어서가 아니라 웹의 신호 대 잡음 비율이 좋지 않아 예상보다 어려움을 겪음.
- 검색 엔진이 상대적으로 잘 작동하는 큰 이유 중 하나는 색인하지 않는 내용 때문임.
- 색인은 1년 전 5천만에서 1억 사이였으나, 마지막 크롤링에서 2억 2천만에 이르렀고, 다음 크롤링 라운드가 끝날 때는 2억 9천만에서 3억 사이가 될 것으로 예상됨.
쿼리 파싱 및 실행 개선
- 쿼리 파싱과 실행 분야에서 개선할 여지가 많음.
- 실제 작업이 시작되기 전에 영향을 받는 코드를 정리하기 위한 준비 작업에 착수함.
- 프로젝트에서 큰 도약은 항상 실험적이었으며, 계획된 것들도 있지만, 계획되지 않은 것들이 실제로 큰 영향을 미칠 것으로 보임.
감사의 말
- NLnet, FUTO, Patreon 후원자, 옹호자 및 사용자에게 감사함.
- 이들의 지원 없이는 이 모든 것이 불가능했을 것임.
GN⁺의 의견
- 마지널리아 검색 엔진은 작은 실험에서 시작하여 지속적인 개선과 커뮤니티의 지원을 통해 전업 프로젝트로 성장한 사례임.
- 앵커 텍스트 키워드 지원과 같은 기능적 개선은 검색 엔진의 성능을 크게 향상시키는 중요한 변화로 작용함.
- 이 프로젝트는 오픈 소스 커뮤니티와 개발자들에게 협업과 기여의 기회를 제공하며, 검색 엔진 기술의 발전에 기여하고 있음.