# AI Dataset Generator — 현실적인 샘플 데이터셋 자동 생성기

> Clean Markdown view of GeekNews topic #21803. Use the original source for factual precision when an external source URL is present.

## Metadata

- GeekNews HTML: [https://news.hada.io/topic?id=21803](https://news.hada.io/topic?id=21803)
- GeekNews Markdown: [https://news.hada.io/topic/21803.md](https://news.hada.io/topic/21803.md)
- Type: news
- Author: [xguru](https://news.hada.io/@xguru)
- Published: 2025-07-04T09:31:02+09:00
- Updated: 2025-07-04T09:31:02+09:00
- Original source: [github.com/metabase](https://github.com/metabase/dataset-generator)
- Points: 35
- Comments: 1

## Summary

OpenAI GPT-4o를 활용해 **현실감 있는 데이터셋을 대화형으로 생성**하고, **미리보기·CSV/SQL 내보내기·Metabase 연동까지 한 번에 지원**하는 오픈소스 툴입니다. **데이터 미리보기**나 / **데이터 스펙을 생성**할 때에만 **OpenAI API를 사용**하고, 데이터 다운로드/분석은 모두 **로컬 Faker로 무료 생성**하는 방식을 써서 비용을 절감합니다.

## Topic Body

- OpenAI GPT-4o를 활용해 **현실감 있는 데이터셋을 대화형으로 생성**하고, **미리보기·CSV/SQL 내보내기·Metabase 연동까지 한 번에 지원**하는 오픈소스 툴  
- **대화형 프롬프트 빌더** 로 비즈니스 유형, 스키마, 행 수 등 직관적 설정  
- 실시간 브라우저 미리보기 지원   
- CSV(싱글파일 또는 멀티 테이블 Zip파일) 나 SQL Insert문으로 Export 가능   
- 원클릭으로 Metabase 실행해서 데이터 탐색 가능   
- 기술 스택 : Next.js + Tailwind CSS + ShadCN UI + OpenAI API + Metabase  
- **미리보기/스펙 생성시에만 OpenAI API(약 \$0.05) 사용, 데이터 다운로드/분석은 모두 로컬 Faker로 무료 생성** — 데이터 프라이버시/비용 모두 보장  
  - 데이터셋 미리보기시 OpenAI를 활용해서 선택한 비즈니스 유형과 매개변수에 대한 자세한 데이터 사양(스키마, 비즈니스 규칙, 이벤트 로직)을 생성  
  - 모든 실제 데이터 행은 LLM에서 생성된 사양을 기반으로 Faker를 사용하여 로컬로 생성됨   
  - 데이터를 다운로드하거나 내보낼 때 더 이상 OpenAI를 호출할 필요가 없음  
- **스키마 옵션**   
  - **One Big Table (OBT)**: 모든 관련 열이 포함된 비정규화된 단일 테이블  
  - **Star Schema**: 고급 분석을 위한 여러 테이블(팩트 + 차원). LLM 사양에 따라 구조가 결정되며, 생성기는 모든 테이블을 로컬에서 출력

## Comments



### Comment 40965

- Author: nicewook
- Created: 2025-07-04T10:14:02+09:00
- Points: 1

실무에서 상당히 유용하겠네요. 비용측면까지 세심하게 고려한 듯
