Show GN: Garu: 브라우저에서 돌아가는 1.7MB 한국어 형태소 분석기 (F1 95.3%, WASM)
(github.com/ongjin)브라우저에서 서버 없이 실행되는 한국어 형태소 분석기를 만들었습니다.
기존 형태소 분석기(Kiwi ~40MB, MeCab-ko ~50MB)는 서버 환경을 전제로 설계되어 있어서, 클라이언트 사이드에서 형태소 분석이 필요한 경우 선택지가 없었습니다.
Garu는 코드북 + Viterbi 기반의 비신경망 아키텍처로, 1.7MB 모델과 93KB WASM 엔진만으로 브라우저에서 직접 실행됩니다.
- 모델 크기: 1.7MB (gzip ~950KB, 네트워크 전송 약 1MB)
- 정확도: F1 95.3% (NIKL 모두의 말뭉치 기준)
- 비교: Kiwi 87.9% / MeCab-ko ~85%
- 신경망 없음: 학습 파라미터 0개, 순수 룩업 + Viterbi 디코딩
- npm install garu-ko 로 서버/브라우저 모두 사용 가능
BiLSTM 지식 증류, 자소 단위 시퀀스 라벨링 등 두 번의 실패를 거쳐 코드북 + 비터비라는 비신경망 아키텍처에 도달했습니다. 76.1%에서 95.3%까지의 최적화 과정(NIKL 골드 데이터 직접 학습, 스마트 어절 캐시, 문맥 기반 후처리 규칙 등)을 기술 논문에 정리했습니다.
GitHub: https://github.com/ongjin/garu
기술 논문: https://github.com/ongjin/garu/blob/main/docs/paper.md
npm: https://www.npmjs.com/package/garu-ko