Show GN: elbird - 한글 형태소 분석기인 kiwi의 R wrapping package (github.com)
(github.com/mrchypark)elbird는 개인적으로 기존에 공개한 kiwigo의 최종 목표인 패키지 입니다.
R의 여러 형태소 분석기 패키지는 KoNLP(java 기반, 현재 * cran에 내려갔음), RcppMecab(mecab 기반, 빠름, 원문복원 안함) 이 양분하고 다른 몇 개의 패키지가 있는 상황입니다.
KoNLP가 주류였던 상황에서 jdk 설치 어려움과 현재 cran에 없는 상황이 맞물려, 설치하기 쉽고, 계속 유지보수되는 새로운 형태소 분석기 패키지를 cran에 올리기 위해서 노력해왔는데요.
이식성이 뛰어난 cpp로 개발중인 kiwi 를 알게 되었습니다.
이후 오랜 시간이 지나 드디어 cpp 기능을 감싸서 R 패키지를 제작하고, cran에 등록을 완료할 수 있었습니다.
현재 0.1.1 버전이 등록되어 있으며, 0.1.2로 곧 업데이트할 예정입니다.
현재 구현된 기능들은 기본적인 사용이 가능한 수준이며, 모든 kiwi의 기능을 구현하고 나서 kiwi 버전과 맞추는 작업을 하려고 합니다.
readme에 기본적인 사용 코드 예시가 있으며, R 생태계에서 유명한 text 분석 패키지인 tidytext와 함께 사용하기 위한 기능들이 고려되어 있습니다.
많은 관심 부탁드립니다.
* cran: R의 공식 패키지 저장소. 이 곳은 자동 테스트와 관리자 검수를 거치는 관리형 저장소로 에버그린 정책(테스트 실패시 등록 취소)를 취하고 있어 꾸준한 관리가 필요함.
cpp 개발과 컴파일에 경험이 적어 관련해서 많은 도움이 필요하기도 합니다.
혹시 조언이 가능하신 분들이 계시다면 이슈탭을 참고 부탁드립니다.