Stanza - 오픈소스 Python NLP Library
(stanfordnlp.github.io)- 한국어 포함 66개언어를 지원하는 언어 비종속적 자연어 처리 툴킷
- PyTorch 기반
- 텍스트 분석을 위한 완전한 신경망 파이프라인
ㅤ 토큰화, 다중 단어 토큰(MWT) 확장, 표제어 추출(Lemmatization)
ㅤ 품사(POS) 및 형태소 태깅, 종속성 분석, 개체명 인식
- 스탠포드 NLP Group 이 개발하여 공개
ㅤ→ 기존에 공개했던 CoreNLP Java와 연동가능한 인터페이스도 포함
NER(개체명 인식) 은 아쉽게도 지원하는 언어 수가 적은 것 같네요.
한국어는 미포함이고 아랍어 중국어 독일어 영어 프랑스어 네덜란드어 스페인어 8개국어를 지원한다고 합니다.
한국어 모델은 두개입니다.
Universal Dependencies (UD) https://universaldependencies.org/ 에 등록된 것중 토큰이 많은 Kaist 와 GSD를 가져온듯.
UD Korean GSD : https://universaldependencies.org/treebanks/ko_gsd/index.html
UD Korean Kaist : https://universaldependencies.org/treebanks/ko_kaist/index.html