본문 바로가기
자연어처리

[자연어처리] 한국어 형태소 분석기 비교 및 관련 링크 모음

by code cleaner 2019. 5. 22.
반응형

*  Konlpy(코엔엘파이) 대표적인 한국어 형태소 분석기 

- 단점: 자바 기반으로 python 개발자의 경우 설치시 jdk 설치, visual studio 설치, wheel 설정 등의 에러 발생 가능성 높음, 사용자 사전 등록시 형태소 분석이 될 때가 있고 아닐 때도 있다고 함

- 장점: 품사테깅, 내부에 twitter, Kkma, hannanum, komoran 형태소 분석기 사용 가능

- 설치방법(윈도우, window) : 

- 기본 사전: 세종말뭉치

- 사용자 사전 등록 가능 여부: Yes (방법 : https://datascienceschool.net/view-notebook/4bfa8007982d4c7ba35d8b42cecd38c9/)

 

* soynlp : 고유명사 추출에 용이한 tokenizer

- 단점: 품사태깅없이 토큰화 기능 우선

- 장점: 고유명사 추출 용이, 지정되지 않은 사전으로도 만들 수 있음

- 설치방법(윈도우, window) : 

- 기본 사전: 없음 / tokenizer degfault : ' '(White Space)

- 사용자 사전 등록 가능 여부: Yes

 

* mecab(은전한닢 프로젝트) : 오픈소스 형태의 분석기

- 단점: jdk 설치, 리눅스 기반, 윈도우 지원 어려움(빌드 어려움) => 해결방법 공유 : https://groups.google.com/forum/?hl=ko#!searchin/eunjeon/%EC%9C%88%EB%8F%84%EC%9A%B0|sort:date/eunjeon/Dzohqj4n3QI/VazhJmEeCgAJ

- 장점: 지속적인 사전 업데이트

- 설치방법(윈도우, window) : 

- 기본사전: 세종말뭉치 + 프로젝트 참여자들의 추가 사전

- 사용자 사전 등록 가능 여부 : Yes

 

* khaiii(카이) : 카카오에서 만든 형태소 분석기

- 단점:

- 장점:

- 설치방법(윈도우, window) : 

- 기본사전:

- 사용자 사전 등록 가능 여부 : Yes 

 

 

 

 

 

 

========================================================

참조링크 모음

========================================================

 

* 한국어 형태소 분석기 명칭, 알고리즘, 개발언어, 학습사전 정리 : http://intothedata.com/02.scholar_category/natural_language_processing/korean_pos_tagger/

 

한국어 형태소 분석기 - Korean pos tagger :: 인투더데이터

한국어 형태소 분석기 - Korean pos tagger 오픈소스 한국어 형태소 분석기 한나눔 (Hananum) 명칭: 한나눔 관리: Kaist 개발언어: Java 알고리즘: HMM 학습사전: 세종계획 산출물 소스 오픈 여부: 오픈 구분분석기: 없음 꼬꼬마 (KKMA) 명칭: 꼬꼬마 관리: Seoul University 개발언어: Java 알고리즘: ? 학습사전: 세종계획 산출물 소스 오픈 여부: Open 별도 요청 구분분석기: 일부 탑재 메카브 KO (

intothedata.com

* 한국어 형태소 분석기 성능 비교

https://iostream.tistory.com/144

 

한국어 형태소 분석기 성능 비교

korean-tokenizer-experiments 형태소 분석기 비교실험 환경하드웨어 (MacBook Pro Mid 2015)소프트웨어데이터실험 내용실행 시간 비교로딩 시간형태소 분석 시간문장 분석 품질 비교띄어쓰기가 없는 문장자소 분..

iostream.tistory.com

* 한국어 대표 형태소 konlpy에서 제공하는 Kkma, Hannanum, Twitter 등 성능 비교

https://ratsgo.github.io/from%20frequency%20to%20semantics/2017/05/10/postag/ => 자연어 처리 및 기타 머신러닝 관련 정리(고급수준) 좋은 블로그

 

형태소 분석기 성능 비교 · ratsgo's blog

이번 글에서는 시중에 공개된 형태소 분석기 성능을 비교해 보도록 하겠습니다. 이번 글에서는 꼬꼬마, 코모란, 트위터 세 가지 형태소 분석기 성능을 비교해볼 예정입니다. (제 컴퓨터가 윈도우 기반이어서 은전한닢은 작동이 불가하고, 어떤 이유에선지 한나눔은 라이브러리 로드시 오류가 나서 어쩔 수 없이 제외하였습니다, 향후 환경을 개선하는대로 나머지 두 개 분석기 성능도 비교해 보겠습니다) 그럼 시작하겠습니다. 형태소 분석 개요 형태소 분석(POS-taggin

ratsgo.github.io

* konlpy doc 형태소 분석기 리스트

https://konlpy-ko.readthedocs.io/ko/v0.4.3/references/#other-nlp-tools

 

참고문헌 — KoNLPy 0.4.3 documentation

주석 Please modify this document if anything is erroneous or not included. Last updated at 2015년 04월 20일.

konlpy-ko.readthedocs.io

* konlpy와 soynlpy 성능 비교

http://git.ajou.ac.kr/open-source-2018-spring/python_Korean_NLP/blob/master/README.md

 

README.md · master · open-source-2018-spring / python Korean NLP

git.ajou.ac.kr

git.ajou.ac.kr

 

반응형