14P by xguru 3일전 | favorite | 댓글과 토론
  • 기본 설치 용량이 21MB로 대체 라이브러리 대비 80-171MB 더 작음
  • 다른 인기 라이브러리보다 토큰 청킹 속도가 33배 빠름
  • 토큰, 단어, 문장, 시맨틱, SDPM 등 다양한 청킹 전략 지원
  • transformers, tokenizers, tiktoken 등 주요 토크나이저와 모두 호환
  • 기본 기능만으로는 외부 종속성 없음

기술적 최적화

  • 더 빠른 토큰화를 위해 멀티스레딩을 지원하는 tiktoken 사용
  • 적극적인 캐싱과 사전 계산 구현
  • 효율적인 시맨틱 청킹을 위한 Running Mean Pooling 사용
  • 필요한 것만 설치할 수 있는 모듈형 종속성 시스템