* Konlpy(코엔엘파이) 대표적인 한국어 형태소 분석기
- 단점: 자바 기반으로 python 개발자의 경우 설치시 jdk 설치, visual studio 설치, wheel 설정 등의 에러 발생 가능성 높음, 사용자 사전 등록시 형태소 분석이 될 때가 있고 아닐 때도 있다고 함
- 장점: 품사테깅, 내부에 twitter, Kkma, hannanum, komoran 형태소 분석기 사용 가능
- 설치방법(윈도우, window) :
- 기본 사전: 세종말뭉치
- 사용자 사전 등록 가능 여부: Yes (방법 : https://datascienceschool.net/view-notebook/4bfa8007982d4c7ba35d8b42cecd38c9/)
* soynlp : 고유명사 추출에 용이한 tokenizer
- 단점: 품사태깅없이 토큰화 기능 우선
- 장점: 고유명사 추출 용이, 지정되지 않은 사전으로도 만들 수 있음
- 설치방법(윈도우, window) :
- 기본 사전: 없음 / tokenizer degfault : ' '(White Space)
- 사용자 사전 등록 가능 여부: Yes
* mecab(은전한닢 프로젝트) : 오픈소스 형태의 분석기
- 단점: jdk 설치, 리눅스 기반, 윈도우 지원 어려움(빌드 어려움) => 해결방법 공유 : https://groups.google.com/forum/?hl=ko#!searchin/eunjeon/%EC%9C%88%EB%8F%84%EC%9A%B0|sort:date/eunjeon/Dzohqj4n3QI/VazhJmEeCgAJ
- 장점: 지속적인 사전 업데이트
- 설치방법(윈도우, window) :
- 기본사전: 세종말뭉치 + 프로젝트 참여자들의 추가 사전
- 사용자 사전 등록 가능 여부 : Yes
* khaiii(카이) : 카카오에서 만든 형태소 분석기
- 단점:
- 장점:
- 설치방법(윈도우, window) :
- 기본사전:
- 사용자 사전 등록 가능 여부 : Yes
========================================================
참조링크 모음
========================================================
* 한국어 형태소 분석기 명칭, 알고리즘, 개발언어, 학습사전 정리 : http://intothedata.com/02.scholar_category/natural_language_processing/korean_pos_tagger/
* 한국어 형태소 분석기 성능 비교
: https://iostream.tistory.com/144
* 한국어 대표 형태소 konlpy에서 제공하는 Kkma, Hannanum, Twitter 등 성능 비교
: https://ratsgo.github.io/from%20frequency%20to%20semantics/2017/05/10/postag/ => 자연어 처리 및 기타 머신러닝 관련 정리(고급수준) 좋은 블로그
* konlpy doc 형태소 분석기 리스트
: https://konlpy-ko.readthedocs.io/ko/v0.4.3/references/#other-nlp-tools
* konlpy와 soynlpy 성능 비교
: http://git.ajou.ac.kr/open-source-2018-spring/python_Korean_NLP/blob/master/README.md
'자연어처리' 카테고리의 다른 글
[자연어처리] 독학을 위한 자료 모음 (0) | 2019.08.09 |
---|---|
[BERT] 자연어처리 경험 수준별로 읽기 좋은 BERT 관련 좋은 자료 링크 (0) | 2019.07.31 |
[FULL TEXT INDEX / SEARCH] mysql 구축 및 DBeaver 연동, 에러 해결 및 테이블 생성 후 테스트 (0) | 2019.07.10 |
Sonlp 설치 및 실행 - 간단 프로세스 (0) | 2019.05.23 |
Konlpy 설치 및 실행 - 간단 프로세스 (0) | 2019.05.23 |