해커뉴스, arXiv 등 600GB 인덱스를 Claude Code로 질의하는 ExoPriors의 ‘Alignment Scry’

(exopriors.com)

1P by GN⁺ 7달전 | ★ favorite | 댓글 1개

ExoPriors의 Alignment Scry는 Claude Code를 통해 arXiv, Hacker News, LessWrong 등에서 수집한 60M개 문서와 22M개 임베딩을 SQL과 벡터 연산으로 검색할 수 있는 플랫폼
공개 API 키를 제공하며, BM25 기반 텍스트 검색과 pgvector 코사인 거리 기반 의미 검색을 모두 지원
alignment.search()와 alignment.search_exhaustive() 함수로 빠른 샘플 검색과 완전 검색을 구분해 수행 가능
Claude Web 또는 Claude Code 환경에서 간단히 설정해 API를 호출할 수 있으며, 개인 핸들(@handle)과 임베딩 저장 기능을 제공
연구자에게 무료로 개방되어 있으며, AI 연구 및 정보 탐색 자동화를 위한 대규모 데이터 질의 실험 환경으로 중요함

개요

Alignment Scry는 지능 폭발 관련 문서 인덱스를 대상으로 SQL과 벡터 대수 연산을 수행할 수 있는 검색 시스템
- 주요 데이터 출처는 arXiv, Hacker News, LessWrong, community-archive.org 등
- 사용자는 Claude Code를 통해 자연어 질의나 SQL 명령으로 데이터 탐색 가능
시스템은 Alpha 실험 단계로, Lens Studio라는 LessWrong 중심 탐색 도구도 포함

Claude 통합 및 접근 방식

Claude Code 또는 Claude Web에서 API 접근 설정을 통해 즉시 사용 가능
- Code 실행, 파일 생성, 네트워크 접근을 허용하고 api.exopriors.com을 도메인 화이트리스트에 추가
공개 API 키 exopriors_public_readonly_v1_2025를 통해 로그인 없이 접근 가능
Claude 모델이 API 호출 시마다 사용자 승인 절차를 거치지 않도록 --dangerously-skip-permissions 옵션 사용 가능(위험 수반)
Opus 4.5 이상의 모델 사용을 권장하며, 프롬프트 인젝션 공격 위험이 존재함을 명시

주요 기능

Query: 6천만 개 문서에 대해 SQL 질의 수행
Embed: 의미 검색용 임베딩 저장 및 재사용
Timeout: 부하에 따라 20~120초 내외로 자동 조정
검색 대상: post, comment, paper, tweet 등 다양한 문서 유형
Lexical Search: BM25 기반 키워드 검색, 구문 검색, 퍼지 매칭 지원
Semantic Search: pgvector 코사인 거리(<=>)를 이용한 의미 유사도 검색

질의 및 성능 관리

alignment.search()는 상위 100개 BM25 결과만 반환하며, 빠른 탐색용 샘플링에 적합
alignment.search_exhaustive()는 완전 검색을 수행하며 페이지네이션 지원
성능 가이드라인
- 단순 검색: 1–5초
- 임베딩 조인(50만 행 이하): 5–20초
- 복잡한 집계(200만 행 이하): 20–60초
- 대규모 스캔(500만 행 이상): 부하 시 타임아웃 가능
쿼리 실행 전 요약 표시 및 사용자 확인 절차를 통해 과부하 방지
LIMIT, estimated_rows, join 크기 등을 기준으로 무거운 쿼리를 자동 식별

데이터 구조 및 뷰

alignment 스키마 내에 materialized view 제공
- 예: mv_hackernews_posts, mv_arxiv_papers, mv_lesswrong_comments 등
- 주요 컬럼: entity_id, uri, source, kind, original_author, title, score, embedding 등
alignment.entities 테이블과 조인하여 메타데이터 접근 가능
alignment.author_topics() 함수로 특정 주제와 저자 간 교차 분석 가능

벡터 연산 및 조합 기능

<=>: pgvector 코사인 거리 연산자 (0에 가까울수록 유사)
@handle: 저장된 벡터 참조
벡터 혼합: scale(@rigor,.6) - scale(@hype,.3) 형태로 개념 가중 조합
편향 제거: debias_vector(@axis, @topic)으로 특정 주제 영향 제거
중심 벡터(centroid) 계산으로 저자나 시대의 평균적 의미 표현 가능
시간 변화(temporal delta) 계산으로 사상적 이동 추적 가능

하이브리드 검색 및 예시

Lexical + Semantic 결합 검색 지원
- 예: WITH hits AS (search(...)) <=> @q 형태로 텍스트 후보를 의미 벡터로 재정렬
BM25 예시
- alignment.search('corrigibility')
- alignment.search('"inner alignment"')
SQL 예시
- 특정 주제의 상위 저자 목록 계산
- alignment.search_exhaustive()로 대규모 결과 페이지네이션

시스템 규모 및 제공 조건

65M+ 문서, 22M+ 임베딩, 600GB+ 인덱스 보유
연구자에게 무료 제공, 1.5M 임베딩 토큰 포함
계정 생성 시 개인 핸들 네임스페이스, 긴 타임아웃(최대 10분), 확장된 쿼리 한도 제공

요약

Alignment Scry는 Claude와 결합된 대규모 AI 연구 데이터 질의 플랫폼으로, SQL과 벡터 연산을 결합한 하이브리드 검색을 지원
공개 API와 명확한 쿼리 가이드라인을 통해 AI 연구자와 개발자에게 실험적 데이터 접근성을 제공
600GB 규모의 인덱스와 6천만 건 이상의 문서를 기반으로, AI 정렬(alignment) 및 지능 연구 관련 탐색을 자동화할 수 있는 환경 구축

GN⁺ 7달전 [-]

Hacker News 의견들

나는 이 프로젝트가 단순한 블랙박스 챗봇이 아니라 SQL을 생성한다는 점이 마음에 듦
LLM을 데이터베이스로 쓰기보다는 자연어를 정형 쿼리 언어로 번역하는 도구로 활용하는 게 올바른 방향이라 생각함
다만 API가 악용되지 않도록 timeout이나 sandboxing을 하고 있는지 궁금함
또, 서로 다른 데이터셋 간에 의미가 섞이는 semantic bleeding이 있는지도 궁금함 — 예를 들어 “optimization”이 ArXiv, LessWrong, HN에서 각각 다르게 쓰일 수 있음
- 맞음, 사람들은 때로 정밀함과 제어력을 원함
  SQL 쿼리 플래너는 수많은 뷰와 인덱스를 다룰 때 여전히 강력함
  보안과 rate-limit에도 신경을 많이 썼고, AST 파싱으로 위험한 join을 차단함
  Claude는 서로 다른 도메인 간 의미 차이를 줄이기 위해 벡터 중심(centroid) 조합을 활용할 수 있음
  예를 들어 “optimization”이라는 단어의 LessWrong 임베딩과 ArXiv 임베딩을 평균내어 비교 실험을 할 수 있음
- 나도 비슷한 접근을 했음. Claude Code와 Codex 대화 기록을 로컬 DB로 만들어 CLI에서 바로 쿼리 가능하게 함
  구현 과정을 블로그 글에 정리했음
  현재는 macOS 클라이언트지만 Linux용 엔진도 준비 중임
- 이런 접근이 바로 “AI 버블이 꺼져도 남을 진짜 혁신”이라 생각함
  자연어 해석과 번역의 활용 범위는 엄청나게 넓음
  결국 투자도 이런 실용적 도구로 옮겨갈 것이라 봄
- 실험은 없지만, 경험상 임베딩 모델 크기에 따라 단어 의미 분리가 달라짐
  큰 모델일수록 같은 단어의 다른 의미를 더 잘 구분함
정말 멋진 프로젝트임. 지금 진행 중인 끈이론 연구에서 Calabi–Yau 다양체를 찾는 데 바로 써볼 예정임
Claude가 함께 연구한 결과, 유전 알고리즘을 활용한 flux vacua 논문 두 편을 찾아냈고, SQL + BM25 조합으로 매우 정교한 검색이 가능했음
다만 bash에서 따옴표 이스케이프가 번거롭고, alignment.search()의 100개 제한 때문에 search_exhaustive() 를 써야 완전한 결과를 얻을 수 있었음
- 나도 이 도구로 최근 DESI의 암흑에너지 변화 연구를 조사했음
  Claude가 ExoPriors 코퍼스를 분석해 주요 논문과 결과를 정리했는데, DESI 결과가 끈이론 탐색 방향을 바꿀 수 있음을 시사함
  특히 arXiv:2511.23463 논문은 암흑에너지의 “phantom crossing” 현상을 axion-dilaton 혼합으로 설명함
  앞으로 (w₀, wₐ) 파라미터를 적합 함수에 포함하고, axion 동역학을 추가하는 방향으로 연구를 확장할 계획임
  관련 기사: BBC 보도
“dangerously-skip-permissions” 플래그를 안전하지 않은 텍스트와 함께 쓰는 건 위험함
인터넷에서 온 입력에는 프롬프트 인젝션이 섞여 있을 수 있으므로 반드시 sandbox 환경에서 실행해야 함
- 나도 오늘 Claude를 devcontainer에서 돌리기 시작했는데, 어떤 sandbox 옵션이 가장 간단한지 궁금함
생명과학 논문에서 보충자료(Supplementary Material) 안의 유전자·단백질 정보를 쿼리할 수 있는 방법을 찾고 있음
현재는 인덱싱이 제각각이라 지난 15년간의 유전체 연구 통찰이 묻혀 있음
오픈액세스 데이터를 활용하면 이 접근이 통할 것 같음
- 나도 비슷한 걸 만들어봤음 — papers2dataset
  OpenAlex를 이용해 인용 그래프를 탐색하고, 오픈액세스 PDF를 분석함
  나는 저온보호제(cryoprotective agents) 를 온도별로 찾는 데 썼지만, 네 문제에도 확장 가능함
“intelligence explosion”, “ARBITRARY SQL + VECTOR ALGEBRA” 같은 표현은 과장된 기술용어처럼 들림
- 과장이 아님. 지금은 실제로 소프트웨어 지능 폭발기임
  Opus 4.5와 GPT-5.2-Codex-xhigh 덕분에 개발 속도가 폭발적으로 빨라졌음
  Scry는 대규모 코퍼스에서 임의의 SQL을 실행하고, 벡터 조합을 자유롭게 실험할 수 있는 유일한 도구임
프롬프트와 외부 데이터셋을 조합하는 건 지금 가장 간단하고 강력한 탐색 채널임
마치 “curl | bash”처럼 빠르게 실험할 수 있음
- 맞음. Prompt + Tool + External Dataset 조합은 엄청난 잠재력을 가짐
“state-of-the-art” 연구 도구라고 했는데, 구체적으로 무엇이 그렇게 최첨단인지 궁금함
- 규모 때문임. 모든 arXiv 논문 본문을 쿼리할 수 있는 도구가 얼마나 있겠음
- 그냥 마케팅 용어일 뿐임. 보호된 표현이 아니라서 누구나 쓸 수 있음
  예를 들어 Gemma 모델도 경쟁보다 성능이 낮았지만 “state-of-the-art”라 불렸음
  Juicero도 출시 당시엔 최첨단이었지만 결국 손으로 짜는 게 더 나았음
- 도구는 최첨단이지만, 데이터 소스는 역사적임
- “가장 먼저”라서 “최고”라는 의미인가 하는 의문이 듦
나는 현재 자율형 학술 연구 시스템을 개발 중이며, 이 프로젝트를 통합할 계획임
지금은 Edison Scientific API와 커스텀 프롬프트를 사용 중인데, 오픈소스 계획이 있는지 궁금함
관련 프로젝트: gia-agentic-short
- 오픈소스로 공개하고 싶지만, 솔직히 지금은 생계가 어려움
  $5,000만 확보되면 바로 공개할 수 있을 것 같음

답변달기

해커뉴스, arXiv 등 600GB 인덱스를 Claude Code로 질의하는 ExoPriors의 ‘Alignment Scry’

개요

Claude 통합 및 접근 방식

주요 기능

질의 및 성능 관리

데이터 구조 및 뷰

벡터 연산 및 조합 기능

하이브리드 검색 및 예시

시스템 규모 및 제공 조건

요약

함께 보면 좋은 글 β

댓글과 토론

Hacker News 의견들