# 해커뉴스, arXiv 등 600GB 인덱스를 Claude Code로 질의하는 ExoPriors의 ‘Alignment Scry’

> Clean Markdown view of GeekNews topic #25481. Use the original source for factual precision when an external source URL is present.

## Metadata

- GeekNews HTML: [https://news.hada.io/topic?id=25481](https://news.hada.io/topic?id=25481)
- GeekNews Markdown: [https://news.hada.io/topic/25481.md](https://news.hada.io/topic/25481.md)
- Type: GN+
- Author: [neo](https://news.hada.io/@neo)
- Published: 2026-01-01T09:42:55+09:00
- Updated: 2026-01-01T09:42:55+09:00
- Original source: [exopriors.com](https://exopriors.com/scry)
- Points: 1
- Comments: 1

## Topic Body

- **ExoPriors의 Alignment Scry**는 Claude Code를 통해 arXiv, Hacker News, LessWrong 등에서 수집한 **60M개 문서와 22M개 임베딩**을 SQL과 벡터 연산으로 검색할 수 있는 플랫폼  
- 공개 API 키를 제공하며, **BM25 기반 텍스트 검색**과 **pgvector 코사인 거리 기반 의미 검색**을 모두 지원  
- `alignment.search()`와 `alignment.search_exhaustive()` 함수로 **빠른 샘플 검색**과 **완전 검색**을 구분해 수행 가능  
- **Claude Web 또는 Claude Code 환경**에서 간단히 설정해 API를 호출할 수 있으며, 개인 핸들(@handle)과 임베딩 저장 기능을 제공  
- 연구자에게 무료로 개방되어 있으며, **AI 연구 및 정보 탐색 자동화**를 위한 대규모 데이터 질의 실험 환경으로 중요함  

---

### 개요
- Alignment Scry는 **지능 폭발 관련 문서 인덱스**를 대상으로 SQL과 벡터 대수 연산을 수행할 수 있는 검색 시스템  
  - 주요 데이터 출처는 **arXiv, Hacker News, LessWrong, community-archive.org** 등  
  - 사용자는 Claude Code를 통해 자연어 질의나 SQL 명령으로 데이터 탐색 가능  
- 시스템은 **Alpha 실험 단계**로, Lens Studio라는 LessWrong 중심 탐색 도구도 포함  

### Claude 통합 및 접근 방식
- Claude Code 또는 Claude Web에서 **API 접근 설정**을 통해 즉시 사용 가능  
  - Code 실행, 파일 생성, 네트워크 접근을 허용하고 `api.exopriors.com`을 도메인 화이트리스트에 추가  
- 공개 API 키 `exopriors_public_readonly_v1_2025`를 통해 로그인 없이 접근 가능  
- Claude 모델이 API 호출 시마다 사용자 승인 절차를 거치지 않도록 `--dangerously-skip-permissions` 옵션 사용 가능(위험 수반)  
- Opus 4.5 이상의 모델 사용을 권장하며, **프롬프트 인젝션 공격 위험**이 존재함을 명시  

### 주요 기능
- **Query**: 6천만 개 문서에 대해 SQL 질의 수행  
- **Embed**: 의미 검색용 임베딩 저장 및 재사용  
- **Timeout**: 부하에 따라 20~120초 내외로 자동 조정  
- **검색 대상**: post, comment, paper, tweet 등 다양한 문서 유형  
- **Lexical Search**: BM25 기반 키워드 검색, 구문 검색, 퍼지 매칭 지원  
- **Semantic Search**: pgvector 코사인 거리(`<=>`)를 이용한 의미 유사도 검색  

### 질의 및 성능 관리
- `alignment.search()`는 상위 100개 BM25 결과만 반환하며, **빠른 탐색용 샘플링**에 적합  
- `alignment.search_exhaustive()`는 **완전 검색**을 수행하며 페이지네이션 지원  
- **성능 가이드라인**  
  - 단순 검색: 1–5초  
  - 임베딩 조인(50만 행 이하): 5–20초  
  - 복잡한 집계(200만 행 이하): 20–60초  
  - 대규모 스캔(500만 행 이상): 부하 시 타임아웃 가능  
- **쿼리 실행 전 요약 표시 및 사용자 확인 절차**를 통해 과부하 방지  
- **LIMIT, estimated_rows, join 크기** 등을 기준으로 무거운 쿼리를 자동 식별  

### 데이터 구조 및 뷰
- `alignment` 스키마 내에 **materialized view** 제공  
  - 예: `mv_hackernews_posts`, `mv_arxiv_papers`, `mv_lesswrong_comments` 등  
  - 주요 컬럼: `entity_id`, `uri`, `source`, `kind`, `original_author`, `title`, `score`, `embedding` 등  
- `alignment.entities` 테이블과 조인하여 메타데이터 접근 가능  
- `alignment.author_topics()` 함수로 특정 주제와 저자 간 교차 분석 가능  

### 벡터 연산 및 조합 기능
- `<=>`: pgvector 코사인 거리 연산자 (0에 가까울수록 유사)  
- `@handle`: 저장된 벡터 참조  
- **벡터 혼합**: `scale(@rigor,.6) - scale(@hype,.3)` 형태로 개념 가중 조합  
- **편향 제거**: `debias_vector(@axis, @topic)`으로 특정 주제 영향 제거  
- **중심 벡터(centroid)** 계산으로 저자나 시대의 평균적 의미 표현 가능  
- **시간 변화(temporal delta)** 계산으로 사상적 이동 추적 가능  

### 하이브리드 검색 및 예시
- **Lexical + Semantic 결합 검색** 지원  
  - 예: `WITH hits AS (search(...)) <=> @q` 형태로 텍스트 후보를 의미 벡터로 재정렬  
- **BM25 예시**  
  - `alignment.search('corrigibility')`  
  - `alignment.search('"inner alignment"')`  
- **SQL 예시**  
  - 특정 주제의 상위 저자 목록 계산  
  - `alignment.search_exhaustive()`로 대규모 결과 페이지네이션  

### 시스템 규모 및 제공 조건
- **65M+ 문서**, **22M+ 임베딩**, **600GB+ 인덱스** 보유  
- 연구자에게 **무료 제공**, 1.5M 임베딩 토큰 포함  
- 계정 생성 시 개인 핸들 네임스페이스, 긴 타임아웃(최대 10분), 확장된 쿼리 한도 제공  

### 요약
- Alignment Scry는 **Claude와 결합된 대규모 AI 연구 데이터 질의 플랫폼**으로, SQL과 벡터 연산을 결합한 하이브리드 검색을 지원  
- 공개 API와 명확한 쿼리 가이드라인을 통해 **AI 연구자와 개발자에게 실험적 데이터 접근성**을 제공  
- **600GB 규모의 인덱스와 6천만 건 이상의 문서**를 기반으로, AI 정렬(alignment) 및 지능 연구 관련 탐색을 자동화할 수 있는 환경 구축

## Comments



### Comment 48541

- Author: neo
- Created: 2026-01-01T09:42:55+09:00
- Points: 1

###### [Hacker News 의견들](https://news.ycombinator.com/item?id=46442245) 
- 나는 이 프로젝트가 단순한 블랙박스 챗봇이 아니라 **SQL을 생성**한다는 점이 마음에 듦  
  LLM을 데이터베이스로 쓰기보다는 자연어를 **정형 쿼리 언어로 번역**하는 도구로 활용하는 게 올바른 방향이라 생각함  
  다만 API가 악용되지 않도록 timeout이나 sandboxing을 하고 있는지 궁금함  
  또, 서로 다른 데이터셋 간에 의미가 섞이는 **semantic bleeding**이 있는지도 궁금함 — 예를 들어 “optimization”이 ArXiv, LessWrong, HN에서 각각 다르게 쓰일 수 있음  
  - 맞음, 사람들은 때로 **정밀함과 제어력**을 원함  
    SQL 쿼리 플래너는 수많은 뷰와 인덱스를 다룰 때 여전히 강력함  
    보안과 rate-limit에도 신경을 많이 썼고, AST 파싱으로 위험한 join을 차단함  
    Claude는 서로 다른 도메인 간 의미 차이를 줄이기 위해 **벡터 중심(centroid) 조합**을 활용할 수 있음  
    예를 들어 “optimization”이라는 단어의 LessWrong 임베딩과 ArXiv 임베딩을 평균내어 비교 실험을 할 수 있음  
  - 나도 비슷한 접근을 했음. **Claude Code**와 Codex 대화 기록을 로컬 DB로 만들어 CLI에서 바로 쿼리 가능하게 함  
    구현 과정을 [블로그 글](https://contextify.sh/blog/total-recall-rag-search-claude-code-codex.html)에 정리했음  
    현재는 macOS 클라이언트지만 Linux용 엔진도 준비 중임  
  - 이런 접근이 바로 “AI 버블이 꺼져도 남을 진짜 혁신”이라 생각함  
    자연어 해석과 번역의 **활용 범위**는 엄청나게 넓음  
    결국 투자도 이런 실용적 도구로 옮겨갈 것이라 봄  
  - 실험은 없지만, 경험상 **임베딩 모델 크기**에 따라 단어 의미 분리가 달라짐  
    큰 모델일수록 같은 단어의 다른 의미를 더 잘 구분함  

- 정말 멋진 프로젝트임. 지금 진행 중인 **끈이론 연구**에서 Calabi–Yau 다양체를 찾는 데 바로 써볼 예정임  
  Claude가 함께 연구한 결과, 유전 알고리즘을 활용한 flux vacua 논문 두 편을 찾아냈고, SQL + BM25 조합으로 매우 정교한 검색이 가능했음  
  다만 bash에서 따옴표 이스케이프가 번거롭고, alignment.search()의 100개 제한 때문에 **search_exhaustive()** 를 써야 완전한 결과를 얻을 수 있었음  
  - 나도 이 도구로 최근 **DESI의 암흑에너지 변화 연구**를 조사했음  
    Claude가 ExoPriors 코퍼스를 분석해 주요 논문과 결과를 정리했는데, DESI 결과가 끈이론 탐색 방향을 바꿀 수 있음을 시사함  
    특히 arXiv:2511.23463 논문은 암흑에너지의 “phantom crossing” 현상을 **axion-dilaton 혼합**으로 설명함  
    앞으로 (w₀, wₐ) 파라미터를 적합 함수에 포함하고, **axion 동역학**을 추가하는 방향으로 연구를 확장할 계획임  
    관련 기사: [BBC 보도](https://www.bbc.com/news/articles/c17xe5kl78vo)

- “dangerously-skip-permissions” 플래그를 안전하지 않은 텍스트와 함께 쓰는 건 위험함  
  인터넷에서 온 입력에는 **프롬프트 인젝션**이 섞여 있을 수 있으므로 반드시 sandbox 환경에서 실행해야 함  
  - 나도 오늘 Claude를 devcontainer에서 돌리기 시작했는데, 어떤 **sandbox 옵션**이 가장 간단한지 궁금함  

- 생명과학 논문에서 **보충자료(Supplementary Material)** 안의 유전자·단백질 정보를 쿼리할 수 있는 방법을 찾고 있음  
  현재는 인덱싱이 제각각이라 지난 15년간의 유전체 연구 통찰이 묻혀 있음  
  오픈액세스 데이터를 활용하면 이 접근이 통할 것 같음  
  - 나도 비슷한 걸 만들어봤음 — [papers2dataset](https://github.com/eamag/papers2dataset)  
    OpenAlex를 이용해 인용 그래프를 탐색하고, 오픈액세스 PDF를 분석함  
    나는 **저온보호제(cryoprotective agents)** 를 온도별로 찾는 데 썼지만, 네 문제에도 확장 가능함  

- “intelligence explosion”, “ARBITRARY SQL + VECTOR ALGEBRA” 같은 표현은 **과장된 기술용어**처럼 들림  
  - 과장이 아님. 지금은 실제로 **소프트웨어 지능 폭발기**임  
    Opus 4.5와 GPT-5.2-Codex-xhigh 덕분에 개발 속도가 폭발적으로 빨라졌음  
    Scry는 대규모 코퍼스에서 임의의 SQL을 실행하고, **벡터 조합**을 자유롭게 실험할 수 있는 유일한 도구임  

- 프롬프트와 외부 데이터셋을 조합하는 건 지금 가장 간단하고 강력한 **탐색 채널**임  
  마치 “curl | bash”처럼 빠르게 실험할 수 있음  
  - 맞음. **Prompt + Tool + External Dataset** 조합은 엄청난 잠재력을 가짐  

- “state-of-the-art” 연구 도구라고 했는데, 구체적으로 무엇이 그렇게 최첨단인지 궁금함  
  - 규모 때문임. 모든 **arXiv 논문 본문을 쿼리**할 수 있는 도구가 얼마나 있겠음  
  - 그냥 **마케팅 용어**일 뿐임. 보호된 표현이 아니라서 누구나 쓸 수 있음  
    예를 들어 Gemma 모델도 경쟁보다 성능이 낮았지만 “state-of-the-art”라 불렸음  
    Juicero도 출시 당시엔 최첨단이었지만 결국 손으로 짜는 게 더 나았음  
  - 도구는 최첨단이지만, **데이터 소스는 역사적**임  
  - “가장 먼저”라서 “최고”라는 의미인가 하는 의문이 듦  

- 나는 현재 **자율형 학술 연구 시스템**을 개발 중이며, 이 프로젝트를 통합할 계획임  
  지금은 Edison Scientific API와 커스텀 프롬프트를 사용 중인데, **오픈소스 계획**이 있는지 궁금함  
  관련 프로젝트: [gia-agentic-short](https://github.com/giatenica/gia-agentic-short)  
  - 오픈소스로 공개하고 싶지만, 솔직히 지금은 생계가 어려움  
    **$5,000만 확보되면** 바로 공개할 수 있을 것 같음
