# bigset - 세상의 모든 데이터를 가지고 있다면?

> Clean Markdown view of GeekNews topic #30747. Use the original source for factual precision when an external source URL is present.

## Metadata

- GeekNews HTML: [https://news.hada.io/topic?id=30747](https://news.hada.io/topic?id=30747)
- GeekNews Markdown: [https://news.hada.io/topic/30747.md](https://news.hada.io/topic/30747.md)
- Type: news
- Author: [xguru](https://news.hada.io/@xguru)
- Published: 2026-06-23T09:31:01+09:00
- Updated: 2026-06-23T09:31:01+09:00
- Original source: [github.com/tinyfish-io](https://github.com/tinyfish-io/bigset)
- Points: 8
- Comments: 0

## Topic Body

- **자연어 한 문장**으로 라이브 웹에서 구조화된 데이터셋을 생성하고, 설정한 주기마다 **자동 갱신**하는 오픈소스 도구  
  - 예: "현재 엔지니어를 채용 중인 YC 기업 목록과 투자 단계, 위치, 공개 채용 수"  
- 입력 문장에서 **스키마를 자동 추론** - 컬럼명, 타입, 기본 키, 웹에서 찾을 위치까지 결정  
- 자율 에이전트가 라이브 웹을 조사하고, 실제 출처와 **대조 검증** 후 중복 제거해 표로 반환  
  - 오케스트레이터 에이전트가 엔티티를 발견하면, 서브 에이전트가 병렬로 분산되어 각 엔티티를 조사·검증  
- 결과물은 **CSV / XLSX**로 다운로드, UI에서 탐색 가능  
- **갱신 주기(30분, 6시간, 12시간, 일간, 주간)** 설정 시 에이전트가 일정대로 재실행되어 데이터셋을 계속 갱신  
- 사람이든 AI 에이전트든 웹과의 모든 상호작용은 결국 데이터로 귀결됨 (가격, 기업, 채용, 연구, 가용성, 재고 등)  
  - 이 데이터는 여러 페이지에 흩어져있고, 기존 스크래핑/검색 API/LeadGen 도구가 해주지 못하는 **카테고리 교차 데이터 수집** 을 처리해 줌   
  — 검색/추출/스키마 설계/중복 제거/검증/크론 작업을 매번 직접하거나 통합 작업을 할 필요 없음  
- 터미널 **CLI**로도 데이터셋 생성·내보내기 가능   
  - `bigset create "..." --rows 30 --wait --csv`  
- 단, 아직 실험단계로 스키마 추론이 항상 완벽하지는 않음. 공개 데이터에만 적합   
- **기술 스택**  
  - 프론트엔드: **Next.js 16**, React 19, Tailwind 4  
  - 백엔드: **Fastify**, TypeScript (에이전트 러너)  
  - 인증: 로컬 인증(개발), **Clerk**(클라우드)  
  - 데이터베이스: **Convex**(self-hosted)  
  - 데이터 수집: **TinyFish API**(Search, Fetch, Browser)  
  - AI 오케스트레이션: **Mastra** 워크플로 + Vercel AI SDK + OpenRouter → Claude Sonnet(스키마 추론 + populate 에이전트)  
  - 테이블 뷰: TanStack Table + react-window 가상화  
  - 내보내기: CSV(내장) + XLSX(SheetJS, 동적 임포트)  
  - 분석: PostHog — 이벤트, 세션 리플레이, 오류 추적(선택)  
- AGPL-3.0 라이선스

## Comments


_No public comments on this page._