1P by GN⁺ 6일전 | ★ favorite | 댓글 1개
  • ExoPriors의 Alignment Scry는 Claude Code를 통해 arXiv, Hacker News, LessWrong 등에서 수집한 60M개 문서와 22M개 임베딩을 SQL과 벡터 연산으로 검색할 수 있는 플랫폼
  • 공개 API 키를 제공하며, BM25 기반 텍스트 검색pgvector 코사인 거리 기반 의미 검색을 모두 지원
  • alignment.search()alignment.search_exhaustive() 함수로 빠른 샘플 검색완전 검색을 구분해 수행 가능
  • Claude Web 또는 Claude Code 환경에서 간단히 설정해 API를 호출할 수 있으며, 개인 핸들(@handle)과 임베딩 저장 기능을 제공
  • 연구자에게 무료로 개방되어 있으며, AI 연구 및 정보 탐색 자동화를 위한 대규모 데이터 질의 실험 환경으로 중요함

개요

  • Alignment Scry는 지능 폭발 관련 문서 인덱스를 대상으로 SQL과 벡터 대수 연산을 수행할 수 있는 검색 시스템
    • 주요 데이터 출처는 arXiv, Hacker News, LessWrong, community-archive.org
    • 사용자는 Claude Code를 통해 자연어 질의나 SQL 명령으로 데이터 탐색 가능
  • 시스템은 Alpha 실험 단계로, Lens Studio라는 LessWrong 중심 탐색 도구도 포함

Claude 통합 및 접근 방식

  • Claude Code 또는 Claude Web에서 API 접근 설정을 통해 즉시 사용 가능
    • Code 실행, 파일 생성, 네트워크 접근을 허용하고 api.exopriors.com을 도메인 화이트리스트에 추가
  • 공개 API 키 exopriors_public_readonly_v1_2025를 통해 로그인 없이 접근 가능
  • Claude 모델이 API 호출 시마다 사용자 승인 절차를 거치지 않도록 --dangerously-skip-permissions 옵션 사용 가능(위험 수반)
  • Opus 4.5 이상의 모델 사용을 권장하며, 프롬프트 인젝션 공격 위험이 존재함을 명시

주요 기능

  • Query: 6천만 개 문서에 대해 SQL 질의 수행
  • Embed: 의미 검색용 임베딩 저장 및 재사용
  • Timeout: 부하에 따라 20~120초 내외로 자동 조정
  • 검색 대상: post, comment, paper, tweet 등 다양한 문서 유형
  • Lexical Search: BM25 기반 키워드 검색, 구문 검색, 퍼지 매칭 지원
  • Semantic Search: pgvector 코사인 거리(<=>)를 이용한 의미 유사도 검색

질의 및 성능 관리

  • alignment.search()는 상위 100개 BM25 결과만 반환하며, 빠른 탐색용 샘플링에 적합
  • alignment.search_exhaustive()완전 검색을 수행하며 페이지네이션 지원
  • 성능 가이드라인
    • 단순 검색: 1–5초
    • 임베딩 조인(50만 행 이하): 5–20초
    • 복잡한 집계(200만 행 이하): 20–60초
    • 대규모 스캔(500만 행 이상): 부하 시 타임아웃 가능
  • 쿼리 실행 전 요약 표시 및 사용자 확인 절차를 통해 과부하 방지
  • LIMIT, estimated_rows, join 크기 등을 기준으로 무거운 쿼리를 자동 식별

데이터 구조 및 뷰

  • alignment 스키마 내에 materialized view 제공
    • 예: mv_hackernews_posts, mv_arxiv_papers, mv_lesswrong_comments
    • 주요 컬럼: entity_id, uri, source, kind, original_author, title, score, embedding
  • alignment.entities 테이블과 조인하여 메타데이터 접근 가능
  • alignment.author_topics() 함수로 특정 주제와 저자 간 교차 분석 가능

벡터 연산 및 조합 기능

  • <=>: pgvector 코사인 거리 연산자 (0에 가까울수록 유사)
  • @handle: 저장된 벡터 참조
  • 벡터 혼합: scale(@rigor,.6) - scale(@hype,.3) 형태로 개념 가중 조합
  • 편향 제거: debias_vector(@axis, @topic)으로 특정 주제 영향 제거
  • 중심 벡터(centroid) 계산으로 저자나 시대의 평균적 의미 표현 가능
  • 시간 변화(temporal delta) 계산으로 사상적 이동 추적 가능

하이브리드 검색 및 예시

  • Lexical + Semantic 결합 검색 지원
    • 예: WITH hits AS (search(...)) <=> @q 형태로 텍스트 후보를 의미 벡터로 재정렬
  • BM25 예시
    • alignment.search('corrigibility')
    • alignment.search('"inner alignment"')
  • SQL 예시
    • 특정 주제의 상위 저자 목록 계산
    • alignment.search_exhaustive()로 대규모 결과 페이지네이션

시스템 규모 및 제공 조건

  • 65M+ 문서, 22M+ 임베딩, 600GB+ 인덱스 보유
  • 연구자에게 무료 제공, 1.5M 임베딩 토큰 포함
  • 계정 생성 시 개인 핸들 네임스페이스, 긴 타임아웃(최대 10분), 확장된 쿼리 한도 제공

요약

  • Alignment Scry는 Claude와 결합된 대규모 AI 연구 데이터 질의 플랫폼으로, SQL과 벡터 연산을 결합한 하이브리드 검색을 지원
  • 공개 API와 명확한 쿼리 가이드라인을 통해 AI 연구자와 개발자에게 실험적 데이터 접근성을 제공
  • 600GB 규모의 인덱스와 6천만 건 이상의 문서를 기반으로, AI 정렬(alignment) 및 지능 연구 관련 탐색을 자동화할 수 있는 환경 구축
Hacker News 의견들
  • 나는 이 프로젝트가 단순한 블랙박스 챗봇이 아니라 SQL을 생성한다는 점이 마음에 듦
    LLM을 데이터베이스로 쓰기보다는 자연어를 정형 쿼리 언어로 번역하는 도구로 활용하는 게 올바른 방향이라 생각함
    다만 API가 악용되지 않도록 timeout이나 sandboxing을 하고 있는지 궁금함
    또, 서로 다른 데이터셋 간에 의미가 섞이는 semantic bleeding이 있는지도 궁금함 — 예를 들어 “optimization”이 ArXiv, LessWrong, HN에서 각각 다르게 쓰일 수 있음

    • 맞음, 사람들은 때로 정밀함과 제어력을 원함
      SQL 쿼리 플래너는 수많은 뷰와 인덱스를 다룰 때 여전히 강력함
      보안과 rate-limit에도 신경을 많이 썼고, AST 파싱으로 위험한 join을 차단함
      Claude는 서로 다른 도메인 간 의미 차이를 줄이기 위해 벡터 중심(centroid) 조합을 활용할 수 있음
      예를 들어 “optimization”이라는 단어의 LessWrong 임베딩과 ArXiv 임베딩을 평균내어 비교 실험을 할 수 있음
    • 나도 비슷한 접근을 했음. Claude Code와 Codex 대화 기록을 로컬 DB로 만들어 CLI에서 바로 쿼리 가능하게 함
      구현 과정을 블로그 글에 정리했음
      현재는 macOS 클라이언트지만 Linux용 엔진도 준비 중임
    • 이런 접근이 바로 “AI 버블이 꺼져도 남을 진짜 혁신”이라 생각함
      자연어 해석과 번역의 활용 범위는 엄청나게 넓음
      결국 투자도 이런 실용적 도구로 옮겨갈 것이라 봄
    • 실험은 없지만, 경험상 임베딩 모델 크기에 따라 단어 의미 분리가 달라짐
      큰 모델일수록 같은 단어의 다른 의미를 더 잘 구분함
  • 정말 멋진 프로젝트임. 지금 진행 중인 끈이론 연구에서 Calabi–Yau 다양체를 찾는 데 바로 써볼 예정임
    Claude가 함께 연구한 결과, 유전 알고리즘을 활용한 flux vacua 논문 두 편을 찾아냈고, SQL + BM25 조합으로 매우 정교한 검색이 가능했음
    다만 bash에서 따옴표 이스케이프가 번거롭고, alignment.search()의 100개 제한 때문에 search_exhaustive() 를 써야 완전한 결과를 얻을 수 있었음

    • 나도 이 도구로 최근 DESI의 암흑에너지 변화 연구를 조사했음
      Claude가 ExoPriors 코퍼스를 분석해 주요 논문과 결과를 정리했는데, DESI 결과가 끈이론 탐색 방향을 바꿀 수 있음을 시사함
      특히 arXiv:2511.23463 논문은 암흑에너지의 “phantom crossing” 현상을 axion-dilaton 혼합으로 설명함
      앞으로 (w₀, wₐ) 파라미터를 적합 함수에 포함하고, axion 동역학을 추가하는 방향으로 연구를 확장할 계획임
      관련 기사: BBC 보도
  • “dangerously-skip-permissions” 플래그를 안전하지 않은 텍스트와 함께 쓰는 건 위험함
    인터넷에서 온 입력에는 프롬프트 인젝션이 섞여 있을 수 있으므로 반드시 sandbox 환경에서 실행해야 함

    • 나도 오늘 Claude를 devcontainer에서 돌리기 시작했는데, 어떤 sandbox 옵션이 가장 간단한지 궁금함
  • 생명과학 논문에서 보충자료(Supplementary Material) 안의 유전자·단백질 정보를 쿼리할 수 있는 방법을 찾고 있음
    현재는 인덱싱이 제각각이라 지난 15년간의 유전체 연구 통찰이 묻혀 있음
    오픈액세스 데이터를 활용하면 이 접근이 통할 것 같음

    • 나도 비슷한 걸 만들어봤음 — papers2dataset
      OpenAlex를 이용해 인용 그래프를 탐색하고, 오픈액세스 PDF를 분석함
      나는 저온보호제(cryoprotective agents) 를 온도별로 찾는 데 썼지만, 네 문제에도 확장 가능함
  • “intelligence explosion”, “ARBITRARY SQL + VECTOR ALGEBRA” 같은 표현은 과장된 기술용어처럼 들림

    • 과장이 아님. 지금은 실제로 소프트웨어 지능 폭발기
      Opus 4.5와 GPT-5.2-Codex-xhigh 덕분에 개발 속도가 폭발적으로 빨라졌음
      Scry는 대규모 코퍼스에서 임의의 SQL을 실행하고, 벡터 조합을 자유롭게 실험할 수 있는 유일한 도구임
  • 프롬프트와 외부 데이터셋을 조합하는 건 지금 가장 간단하고 강력한 탐색 채널
    마치 “curl | bash”처럼 빠르게 실험할 수 있음

    • 맞음. Prompt + Tool + External Dataset 조합은 엄청난 잠재력을 가짐
  • “state-of-the-art” 연구 도구라고 했는데, 구체적으로 무엇이 그렇게 최첨단인지 궁금함

    • 규모 때문임. 모든 arXiv 논문 본문을 쿼리할 수 있는 도구가 얼마나 있겠음
    • 그냥 마케팅 용어일 뿐임. 보호된 표현이 아니라서 누구나 쓸 수 있음
      예를 들어 Gemma 모델도 경쟁보다 성능이 낮았지만 “state-of-the-art”라 불렸음
      Juicero도 출시 당시엔 최첨단이었지만 결국 손으로 짜는 게 더 나았음
    • 도구는 최첨단이지만, 데이터 소스는 역사적
    • “가장 먼저”라서 “최고”라는 의미인가 하는 의문이 듦
  • 나는 현재 자율형 학술 연구 시스템을 개발 중이며, 이 프로젝트를 통합할 계획임
    지금은 Edison Scientific API와 커스텀 프롬프트를 사용 중인데, 오픈소스 계획이 있는지 궁금함
    관련 프로젝트: gia-agentic-short

    • 오픈소스로 공개하고 싶지만, 솔직히 지금은 생계가 어려움
      $5,000만 확보되면 바로 공개할 수 있을 것 같음