나는 이 프로젝트가 단순한 블랙박스 챗봇이 아니라 SQL을 생성한다는 점이 마음에 듦
LLM을 데이터베이스로 쓰기보다는 자연어를 정형 쿼리 언어로 번역하는 도구로 활용하는 게 올바른 방향이라 생각함
다만 API가 악용되지 않도록 timeout이나 sandboxing을 하고 있는지 궁금함
또, 서로 다른 데이터셋 간에 의미가 섞이는 semantic bleeding이 있는지도 궁금함 — 예를 들어 “optimization”이 ArXiv, LessWrong, HN에서 각각 다르게 쓰일 수 있음
맞음, 사람들은 때로 정밀함과 제어력을 원함
SQL 쿼리 플래너는 수많은 뷰와 인덱스를 다룰 때 여전히 강력함
보안과 rate-limit에도 신경을 많이 썼고, AST 파싱으로 위험한 join을 차단함
Claude는 서로 다른 도메인 간 의미 차이를 줄이기 위해 벡터 중심(centroid) 조합을 활용할 수 있음
예를 들어 “optimization”이라는 단어의 LessWrong 임베딩과 ArXiv 임베딩을 평균내어 비교 실험을 할 수 있음
나도 비슷한 접근을 했음. Claude Code와 Codex 대화 기록을 로컬 DB로 만들어 CLI에서 바로 쿼리 가능하게 함
구현 과정을 블로그 글에 정리했음
현재는 macOS 클라이언트지만 Linux용 엔진도 준비 중임
이런 접근이 바로 “AI 버블이 꺼져도 남을 진짜 혁신”이라 생각함
자연어 해석과 번역의 활용 범위는 엄청나게 넓음
결국 투자도 이런 실용적 도구로 옮겨갈 것이라 봄
실험은 없지만, 경험상 임베딩 모델 크기에 따라 단어 의미 분리가 달라짐
큰 모델일수록 같은 단어의 다른 의미를 더 잘 구분함
정말 멋진 프로젝트임. 지금 진행 중인 끈이론 연구에서 Calabi–Yau 다양체를 찾는 데 바로 써볼 예정임
Claude가 함께 연구한 결과, 유전 알고리즘을 활용한 flux vacua 논문 두 편을 찾아냈고, SQL + BM25 조합으로 매우 정교한 검색이 가능했음
다만 bash에서 따옴표 이스케이프가 번거롭고, alignment.search()의 100개 제한 때문에 search_exhaustive() 를 써야 완전한 결과를 얻을 수 있었음
나도 이 도구로 최근 DESI의 암흑에너지 변화 연구를 조사했음
Claude가 ExoPriors 코퍼스를 분석해 주요 논문과 결과를 정리했는데, DESI 결과가 끈이론 탐색 방향을 바꿀 수 있음을 시사함
특히 arXiv:2511.23463 논문은 암흑에너지의 “phantom crossing” 현상을 axion-dilaton 혼합으로 설명함
앞으로 (w₀, wₐ) 파라미터를 적합 함수에 포함하고, axion 동역학을 추가하는 방향으로 연구를 확장할 계획임
관련 기사: BBC 보도
“dangerously-skip-permissions” 플래그를 안전하지 않은 텍스트와 함께 쓰는 건 위험함
인터넷에서 온 입력에는 프롬프트 인젝션이 섞여 있을 수 있으므로 반드시 sandbox 환경에서 실행해야 함
나도 오늘 Claude를 devcontainer에서 돌리기 시작했는데, 어떤 sandbox 옵션이 가장 간단한지 궁금함
생명과학 논문에서 보충자료(Supplementary Material) 안의 유전자·단백질 정보를 쿼리할 수 있는 방법을 찾고 있음
현재는 인덱싱이 제각각이라 지난 15년간의 유전체 연구 통찰이 묻혀 있음
오픈액세스 데이터를 활용하면 이 접근이 통할 것 같음
나도 비슷한 걸 만들어봤음 — papers2dataset
OpenAlex를 이용해 인용 그래프를 탐색하고, 오픈액세스 PDF를 분석함
나는 저온보호제(cryoprotective agents) 를 온도별로 찾는 데 썼지만, 네 문제에도 확장 가능함
“intelligence explosion”, “ARBITRARY SQL + VECTOR ALGEBRA” 같은 표현은 과장된 기술용어처럼 들림
과장이 아님. 지금은 실제로 소프트웨어 지능 폭발기임
Opus 4.5와 GPT-5.2-Codex-xhigh 덕분에 개발 속도가 폭발적으로 빨라졌음
Scry는 대규모 코퍼스에서 임의의 SQL을 실행하고, 벡터 조합을 자유롭게 실험할 수 있는 유일한 도구임
프롬프트와 외부 데이터셋을 조합하는 건 지금 가장 간단하고 강력한 탐색 채널임
마치 “curl | bash”처럼 빠르게 실험할 수 있음
Hacker News 의견들
나는 이 프로젝트가 단순한 블랙박스 챗봇이 아니라 SQL을 생성한다는 점이 마음에 듦
LLM을 데이터베이스로 쓰기보다는 자연어를 정형 쿼리 언어로 번역하는 도구로 활용하는 게 올바른 방향이라 생각함
다만 API가 악용되지 않도록 timeout이나 sandboxing을 하고 있는지 궁금함
또, 서로 다른 데이터셋 간에 의미가 섞이는 semantic bleeding이 있는지도 궁금함 — 예를 들어 “optimization”이 ArXiv, LessWrong, HN에서 각각 다르게 쓰일 수 있음
SQL 쿼리 플래너는 수많은 뷰와 인덱스를 다룰 때 여전히 강력함
보안과 rate-limit에도 신경을 많이 썼고, AST 파싱으로 위험한 join을 차단함
Claude는 서로 다른 도메인 간 의미 차이를 줄이기 위해 벡터 중심(centroid) 조합을 활용할 수 있음
예를 들어 “optimization”이라는 단어의 LessWrong 임베딩과 ArXiv 임베딩을 평균내어 비교 실험을 할 수 있음
구현 과정을 블로그 글에 정리했음
현재는 macOS 클라이언트지만 Linux용 엔진도 준비 중임
자연어 해석과 번역의 활용 범위는 엄청나게 넓음
결국 투자도 이런 실용적 도구로 옮겨갈 것이라 봄
큰 모델일수록 같은 단어의 다른 의미를 더 잘 구분함
정말 멋진 프로젝트임. 지금 진행 중인 끈이론 연구에서 Calabi–Yau 다양체를 찾는 데 바로 써볼 예정임
Claude가 함께 연구한 결과, 유전 알고리즘을 활용한 flux vacua 논문 두 편을 찾아냈고, SQL + BM25 조합으로 매우 정교한 검색이 가능했음
다만 bash에서 따옴표 이스케이프가 번거롭고, alignment.search()의 100개 제한 때문에 search_exhaustive() 를 써야 완전한 결과를 얻을 수 있었음
Claude가 ExoPriors 코퍼스를 분석해 주요 논문과 결과를 정리했는데, DESI 결과가 끈이론 탐색 방향을 바꿀 수 있음을 시사함
특히 arXiv:2511.23463 논문은 암흑에너지의 “phantom crossing” 현상을 axion-dilaton 혼합으로 설명함
앞으로 (w₀, wₐ) 파라미터를 적합 함수에 포함하고, axion 동역학을 추가하는 방향으로 연구를 확장할 계획임
관련 기사: BBC 보도
“dangerously-skip-permissions” 플래그를 안전하지 않은 텍스트와 함께 쓰는 건 위험함
인터넷에서 온 입력에는 프롬프트 인젝션이 섞여 있을 수 있으므로 반드시 sandbox 환경에서 실행해야 함
생명과학 논문에서 보충자료(Supplementary Material) 안의 유전자·단백질 정보를 쿼리할 수 있는 방법을 찾고 있음
현재는 인덱싱이 제각각이라 지난 15년간의 유전체 연구 통찰이 묻혀 있음
오픈액세스 데이터를 활용하면 이 접근이 통할 것 같음
OpenAlex를 이용해 인용 그래프를 탐색하고, 오픈액세스 PDF를 분석함
나는 저온보호제(cryoprotective agents) 를 온도별로 찾는 데 썼지만, 네 문제에도 확장 가능함
“intelligence explosion”, “ARBITRARY SQL + VECTOR ALGEBRA” 같은 표현은 과장된 기술용어처럼 들림
Opus 4.5와 GPT-5.2-Codex-xhigh 덕분에 개발 속도가 폭발적으로 빨라졌음
Scry는 대규모 코퍼스에서 임의의 SQL을 실행하고, 벡터 조합을 자유롭게 실험할 수 있는 유일한 도구임
프롬프트와 외부 데이터셋을 조합하는 건 지금 가장 간단하고 강력한 탐색 채널임
마치 “curl | bash”처럼 빠르게 실험할 수 있음
“state-of-the-art” 연구 도구라고 했는데, 구체적으로 무엇이 그렇게 최첨단인지 궁금함
예를 들어 Gemma 모델도 경쟁보다 성능이 낮았지만 “state-of-the-art”라 불렸음
Juicero도 출시 당시엔 최첨단이었지만 결국 손으로 짜는 게 더 나았음
나는 현재 자율형 학술 연구 시스템을 개발 중이며, 이 프로젝트를 통합할 계획임
지금은 Edison Scientific API와 커스텀 프롬프트를 사용 중인데, 오픈소스 계획이 있는지 궁금함
관련 프로젝트: gia-agentic-short
$5,000만 확보되면 바로 공개할 수 있을 것 같음