* Konlpy(코엔엘파이) 대표적인 한국어 형태소 분석기
- 단점: 자바 기반으로 python 개발자의 경우 설치시 jdk 설치, visual studio 설치, wheel 설정 등의 에러 발생 가능성 높음, 사용자 사전 등록시 형태소 분석이 될 때가 있고 아닐 때도 있다고 함
- 장점: 품사테깅, 내부에 twitter, Kkma, hannanum, komoran 형태소 분석기 사용 가능
- 설치방법(윈도우, window) :
- 기본 사전: 세종말뭉치
- 사용자 사전 등록 가능 여부: Yes (방법 : https://datascienceschool.net/view-notebook/4bfa8007982d4c7ba35d8b42cecd38c9/)
* soynlp : 고유명사 추출에 용이한 tokenizer
- 단점: 품사태깅없이 토큰화 기능 우선
- 장점: 고유명사 추출 용이, 지정되지 않은 사전으로도 만들 수 있음
- 설치방법(윈도우, window) :
- 기본 사전: 없음 / tokenizer degfault : ' '(White Space)
- 사용자 사전 등록 가능 여부: Yes
* mecab(은전한닢 프로젝트) : 오픈소스 형태의 분석기
- 단점: jdk 설치, 리눅스 기반, 윈도우 지원 어려움(빌드 어려움) => 해결방법 공유 : https://groups.google.com/forum/?hl=ko#!searchin/eunjeon/%EC%9C%88%EB%8F%84%EC%9A%B0|sort:date/eunjeon/Dzohqj4n3QI/VazhJmEeCgAJ
- 장점: 지속적인 사전 업데이트
- 설치방법(윈도우, window) :
- 기본사전: 세종말뭉치 + 프로젝트 참여자들의 추가 사전
- 사용자 사전 등록 가능 여부 : Yes
* khaiii(카이) : 카카오에서 만든 형태소 분석기
- 단점:
- 장점:
- 설치방법(윈도우, window) :
- 기본사전:
- 사용자 사전 등록 가능 여부 : Yes
========================================================
참조링크 모음
========================================================
* 한국어 형태소 분석기 명칭, 알고리즘, 개발언어, 학습사전 정리 : http://intothedata.com/02.scholar_category/natural_language_processing/korean_pos_tagger/
한국어 형태소 분석기 - Korean pos tagger :: 인투더데이터
한국어 형태소 분석기 - Korean pos tagger 오픈소스 한국어 형태소 분석기 한나눔 (Hananum) 명칭: 한나눔 관리: Kaist 개발언어: Java 알고리즘: HMM 학습사전: 세종계획 산출물 소스 오픈 여부: 오픈 구분분석기: 없음 꼬꼬마 (KKMA) 명칭: 꼬꼬마 관리: Seoul University 개발언어: Java 알고리즘: ? 학습사전: 세종계획 산출물 소스 오픈 여부: Open 별도 요청 구분분석기: 일부 탑재 메카브 KO (
intothedata.com
* 한국어 형태소 분석기 성능 비교
: https://iostream.tistory.com/144
한국어 형태소 분석기 성능 비교
korean-tokenizer-experiments 형태소 분석기 비교실험 환경하드웨어 (MacBook Pro Mid 2015)소프트웨어데이터실험 내용실행 시간 비교로딩 시간형태소 분석 시간문장 분석 품질 비교띄어쓰기가 없는 문장자소 분..
iostream.tistory.com
* 한국어 대표 형태소 konlpy에서 제공하는 Kkma, Hannanum, Twitter 등 성능 비교
: https://ratsgo.github.io/from%20frequency%20to%20semantics/2017/05/10/postag/ => 자연어 처리 및 기타 머신러닝 관련 정리(고급수준) 좋은 블로그
형태소 분석기 성능 비교 · ratsgo's blog
이번 글에서는 시중에 공개된 형태소 분석기 성능을 비교해 보도록 하겠습니다. 이번 글에서는 꼬꼬마, 코모란, 트위터 세 가지 형태소 분석기 성능을 비교해볼 예정입니다. (제 컴퓨터가 윈도우 기반이어서 은전한닢은 작동이 불가하고, 어떤 이유에선지 한나눔은 라이브러리 로드시 오류가 나서 어쩔 수 없이 제외하였습니다, 향후 환경을 개선하는대로 나머지 두 개 분석기 성능도 비교해 보겠습니다) 그럼 시작하겠습니다. 형태소 분석 개요 형태소 분석(POS-taggin
ratsgo.github.io
* konlpy doc 형태소 분석기 리스트
: https://konlpy-ko.readthedocs.io/ko/v0.4.3/references/#other-nlp-tools
참고문헌 — KoNLPy 0.4.3 documentation
주석 Please modify this document if anything is erroneous or not included. Last updated at 2015년 04월 20일.
konlpy-ko.readthedocs.io
* konlpy와 soynlpy 성능 비교
: http://git.ajou.ac.kr/open-source-2018-spring/python_Korean_NLP/blob/master/README.md
README.md · master · open-source-2018-spring / python Korean NLP
git.ajou.ac.kr
git.ajou.ac.kr
'자연어처리' 카테고리의 다른 글
[자연어처리] 독학을 위한 자료 모음 (0) | 2019.08.09 |
---|---|
[BERT] 자연어처리 경험 수준별로 읽기 좋은 BERT 관련 좋은 자료 링크 (0) | 2019.07.31 |
[FULL TEXT INDEX / SEARCH] mysql 구축 및 DBeaver 연동, 에러 해결 및 테이블 생성 후 테스트 (0) | 2019.07.10 |
Sonlp 설치 및 실행 - 간단 프로세스 (0) | 2019.05.23 |
Konlpy 설치 및 실행 - 간단 프로세스 (0) | 2019.05.23 |