해커뉴스, arXiv 등 600GB 인덱스를 Claud

▲

GN⁺ 4달전 | parent | ★ favorite | on: 해커뉴스, arXiv 등 600GB 인덱스를 Claude Code로 질의하는 ExoPriors의 ‘Alignment Scry’(exopriors.com)

Hacker News 의견들

나는 이 프로젝트가 단순한 블랙박스 챗봇이 아니라 SQL을 생성한다는 점이 마음에 듦
LLM을 데이터베이스로 쓰기보다는 자연어를 정형 쿼리 언어로 번역하는 도구로 활용하는 게 올바른 방향이라 생각함
다만 API가 악용되지 않도록 timeout이나 sandboxing을 하고 있는지 궁금함
또, 서로 다른 데이터셋 간에 의미가 섞이는 semantic bleeding이 있는지도 궁금함 — 예를 들어 “optimization”이 ArXiv, LessWrong, HN에서 각각 다르게 쓰일 수 있음
- 맞음, 사람들은 때로 정밀함과 제어력을 원함
  SQL 쿼리 플래너는 수많은 뷰와 인덱스를 다룰 때 여전히 강력함
  보안과 rate-limit에도 신경을 많이 썼고, AST 파싱으로 위험한 join을 차단함
  Claude는 서로 다른 도메인 간 의미 차이를 줄이기 위해 벡터 중심(centroid) 조합을 활용할 수 있음
  예를 들어 “optimization”이라는 단어의 LessWrong 임베딩과 ArXiv 임베딩을 평균내어 비교 실험을 할 수 있음
- 나도 비슷한 접근을 했음. Claude Code와 Codex 대화 기록을 로컬 DB로 만들어 CLI에서 바로 쿼리 가능하게 함
  구현 과정을 블로그 글에 정리했음
  현재는 macOS 클라이언트지만 Linux용 엔진도 준비 중임
- 이런 접근이 바로 “AI 버블이 꺼져도 남을 진짜 혁신”이라 생각함
  자연어 해석과 번역의 활용 범위는 엄청나게 넓음
  결국 투자도 이런 실용적 도구로 옮겨갈 것이라 봄
- 실험은 없지만, 경험상 임베딩 모델 크기에 따라 단어 의미 분리가 달라짐
  큰 모델일수록 같은 단어의 다른 의미를 더 잘 구분함
정말 멋진 프로젝트임. 지금 진행 중인 끈이론 연구에서 Calabi–Yau 다양체를 찾는 데 바로 써볼 예정임
Claude가 함께 연구한 결과, 유전 알고리즘을 활용한 flux vacua 논문 두 편을 찾아냈고, SQL + BM25 조합으로 매우 정교한 검색이 가능했음
다만 bash에서 따옴표 이스케이프가 번거롭고, alignment.search()의 100개 제한 때문에 search_exhaustive() 를 써야 완전한 결과를 얻을 수 있었음
- 나도 이 도구로 최근 DESI의 암흑에너지 변화 연구를 조사했음
  Claude가 ExoPriors 코퍼스를 분석해 주요 논문과 결과를 정리했는데, DESI 결과가 끈이론 탐색 방향을 바꿀 수 있음을 시사함
  특히 arXiv:2511.23463 논문은 암흑에너지의 “phantom crossing” 현상을 axion-dilaton 혼합으로 설명함
  앞으로 (w₀, wₐ) 파라미터를 적합 함수에 포함하고, axion 동역학을 추가하는 방향으로 연구를 확장할 계획임
  관련 기사: BBC 보도
“dangerously-skip-permissions” 플래그를 안전하지 않은 텍스트와 함께 쓰는 건 위험함
인터넷에서 온 입력에는 프롬프트 인젝션이 섞여 있을 수 있으므로 반드시 sandbox 환경에서 실행해야 함
- 나도 오늘 Claude를 devcontainer에서 돌리기 시작했는데, 어떤 sandbox 옵션이 가장 간단한지 궁금함
생명과학 논문에서 보충자료(Supplementary Material) 안의 유전자·단백질 정보를 쿼리할 수 있는 방법을 찾고 있음
현재는 인덱싱이 제각각이라 지난 15년간의 유전체 연구 통찰이 묻혀 있음
오픈액세스 데이터를 활용하면 이 접근이 통할 것 같음
- 나도 비슷한 걸 만들어봤음 — papers2dataset
  OpenAlex를 이용해 인용 그래프를 탐색하고, 오픈액세스 PDF를 분석함
  나는 저온보호제(cryoprotective agents) 를 온도별로 찾는 데 썼지만, 네 문제에도 확장 가능함
“intelligence explosion”, “ARBITRARY SQL + VECTOR ALGEBRA” 같은 표현은 과장된 기술용어처럼 들림
- 과장이 아님. 지금은 실제로 소프트웨어 지능 폭발기임
  Opus 4.5와 GPT-5.2-Codex-xhigh 덕분에 개발 속도가 폭발적으로 빨라졌음
  Scry는 대규모 코퍼스에서 임의의 SQL을 실행하고, 벡터 조합을 자유롭게 실험할 수 있는 유일한 도구임
프롬프트와 외부 데이터셋을 조합하는 건 지금 가장 간단하고 강력한 탐색 채널임
마치 “curl | bash”처럼 빠르게 실험할 수 있음
- 맞음. Prompt + Tool + External Dataset 조합은 엄청난 잠재력을 가짐
“state-of-the-art” 연구 도구라고 했는데, 구체적으로 무엇이 그렇게 최첨단인지 궁금함
- 규모 때문임. 모든 arXiv 논문 본문을 쿼리할 수 있는 도구가 얼마나 있겠음
- 그냥 마케팅 용어일 뿐임. 보호된 표현이 아니라서 누구나 쓸 수 있음
  예를 들어 Gemma 모델도 경쟁보다 성능이 낮았지만 “state-of-the-art”라 불렸음
  Juicero도 출시 당시엔 최첨단이었지만 결국 손으로 짜는 게 더 나았음
- 도구는 최첨단이지만, 데이터 소스는 역사적임
- “가장 먼저”라서 “최고”라는 의미인가 하는 의문이 듦
나는 현재 자율형 학술 연구 시스템을 개발 중이며, 이 프로젝트를 통합할 계획임
지금은 Edison Scientific API와 커스텀 프롬프트를 사용 중인데, 오픈소스 계획이 있는지 궁금함
관련 프로젝트: gia-agentic-short
- 오픈소스로 공개하고 싶지만, 솔직히 지금은 생계가 어려움
  $5,000만 확보되면 바로 공개할 수 있을 것 같음