# Stanza - 오픈소스 Python NLP Library

> Clean Markdown view of GeekNews topic #1774. Use the original source for factual precision when an external source URL is present.

## Metadata

- GeekNews HTML: [https://news.hada.io/topic?id=1774](https://news.hada.io/topic?id=1774)
- GeekNews Markdown: [https://news.hada.io/topic/1774.md](https://news.hada.io/topic/1774.md)
- Type: news
- Author: [xguru](https://news.hada.io/@xguru)
- Published: 2020-03-25T16:05:16+09:00
- Updated: 2020-03-25T16:05:16+09:00
- Original source: [stanfordnlp.github.io](https://stanfordnlp.github.io/stanza/)
- Points: 7
- Comments: 2

## Topic Body

- 한국어 포함 66개언어를 지원하는 언어 비종속적 자연어 처리 툴킷

- PyTorch 기반

- 텍스트 분석을 위한 완전한 신경망 파이프라인

ㅤ 토큰화, 다중 단어 토큰(MWT) 확장, 표제어 추출(Lemmatization)

ㅤ 품사(POS) 및 형태소 태깅, 종속성 분석, 개체명 인식

- 스탠포드 NLP Group 이 개발하여 공개

ㅤ→ 기존에 공개했던 CoreNLP Java와 연동가능한 인터페이스도 포함

## Comments



### Comment 1450

- Author: sftblw
- Created: 2020-03-25T17:07:23+09:00
- Points: 1

NER(개체명 인식) 은 아쉽게도 지원하는 언어 수가 적은 것 같네요.

한국어는 미포함이고 아랍어 중국어 독일어 영어 프랑스어 네덜란드어 스페인어 8개국어를 지원한다고 합니다.

### Comment 1448

- Author: xguru
- Created: 2020-03-25T16:26:24+09:00
- Points: 2

한국어 모델은 두개입니다.

Universal Dependencies (UD) https://universaldependencies.org/ 에 등록된 것중 토큰이 많은 Kaist 와 GSD를 가져온듯.

UD Korean GSD : https://universaldependencies.org/treebanks/ko_gsd/index.html

UD Korean Kaist : https://universaldependencies.org/treebanks/ko_kaist/index.html
