# Chonkie - 빠르고 경량인 RAG용 파이썬 텍스트 청킹 라이브러리

> Clean Markdown view of GeekNews topic #17714. Use the original source for factual precision when an external source URL is present.

## Metadata

- GeekNews HTML: [https://news.hada.io/topic?id=17714](https://news.hada.io/topic?id=17714)
- GeekNews Markdown: [https://news.hada.io/topic/17714.md](https://news.hada.io/topic/17714.md)
- Type: news
- Author: [xguru](https://news.hada.io/@xguru)
- Published: 2024-11-12T10:21:01+09:00
- Updated: 2024-11-12T10:21:01+09:00
- Original source: [github.com/bhavnicksm](https://github.com/bhavnicksm/chonkie)
- Points: 15
- Comments: 0

## Summary

Chonkie는 다른 청킹 라이브러리보다 훨씬 작으며, 토큰 청킹 속도가 다른 인기 라이브러리보다 33배 빠릅니다. 다양한 청킹 전략을 지원하고, transformers, tokenizers, tiktoken 등 주요 토크나이저와 호환됩니다. 또한, 멀티스레딩을 지원하는 tiktoken을 사용하고, 캐싱과 사전 계산을 통해 기술적 최적화를 이루었습니다.

## Topic Body

- 기본 설치 용량이 21MB로 대체 라이브러리 대비 80-171MB 더 작음  
- 다른 인기 라이브러리보다 토큰 청킹 속도가 33배 빠름  
- 토큰, 단어, 문장, 시맨틱, SDPM 등 다양한 청킹 전략 지원  
- transformers, tokenizers, tiktoken 등 주요 토크나이저와 모두 호환  
- 기본 기능만으로는 외부 종속성 없음  
  
#### 기술적 최적화  
- 더 빠른 토큰화를 위해 멀티스레딩을 지원하는 tiktoken 사용  
- 적극적인 캐싱과 사전 계산 구현  
- 효율적인 시맨틱 청킹을 위한 Running Mean Pooling 사용   
- 필요한 것만 설치할 수 있는 모듈형 종속성 시스템

## Comments



_No public comments on this page._
