# TabLib - 867B Tabluar Token 데이터셋

> Clean Markdown view of GeekNews topic #11414. Use the original source for factual precision when an external source URL is present.

## Metadata

- GeekNews HTML: [https://news.hada.io/topic?id=11414](https://news.hada.io/topic?id=11414)
- GeekNews Markdown: [https://news.hada.io/topic/11414.md](https://news.hada.io/topic/11414.md)
- Type: news
- Author: [xguru](https://news.hada.io/@xguru)
- Published: 2023-10-19T10:31:02+09:00
- Updated: 2023-10-19T10:31:02+09:00
- Original source: [approximatelabs.com](https://www.approximatelabs.com/blog/tablib)
- Points: 7
- Comments: 0

## Topic Body

- LLM 훈련을 위한 627M(6.27억)개의 테이블과 867B(8670억)개 토큰 데이터셋   
  - 웹페이지, Excel, CSV, SQLite 등에서 추출된 테이블을 포함   
  - 파일 이름, 소스 URL, 각 테이블 주변 텍스트 등 풍부한 상황별 데이터  
- 표 형식 데이터 작업에 대한 더 나은 이해와 기술 구축에 도움이 되기를 바람   
- 6500억개의 행과 최대 80억개의 열  
- 가장 큰 테이블은 3200만개의 행   
- 가장 넓은 테이블은 3백만개의 열

## Comments



_No public comments on this page._
