Kiwi : 지능형 한국어 형태소 분석기(Korean Intelligent Word Identifier)
(github.com/bab2min)- Kiwi : 지능형 한국어 형태소 분석기(Korean Intelligent Word Identifier)
- 빠른 속도와 범용적인 성능을 지향하는 한국어 형태소 분석기 라이브러리
- 경량 언어모델이 내장되어, 모호성이 있는 경우에도 제법 정확하게 형태소를 분석해냄
- C++로 구현됨. 개발자가 C++의 팬.
- 라이브러리는 파이썬, 자바스크립트, C#, Java, R, Go로 제공됨
- wasm으로 컴파일되어 브라우저에서 구동할 수 있음
- 모델은 소형(16MB), 중형(40MB), 대형(90MB)까지 세가지 크기로 제공됨
- 개발 과정이 블로그에 상세히 공개되어 있음
- Kiwi를 토크나이저로 활용한 한국어 언어모델 훈련도 인상적