본문 바로가기

자연어처리6

트랜스퍼 러닝 트랜스퍼 러닝 정의 : 특정 태스크를 학습한 모델을 다른 태스크 수행에 재사용하는 기법 장점 : 기존보다 모델의 학습 속도가 빨라지고 새로운 태스크를 더 잘 수행하는 경향 존재 업스트림 태스크 대규모 말뭉치의 문맥을 이해하는 과제, 다음 단어 맞히기, 빈칸 채우기 등 언어모델 : 다음 단어 맞추기 마스크 언어 모델 : 중간에(빈칸) 단어 맞추기 예시 : BERT 다운스트림 태스크 자연어처리의 구체적인 문제들, 문서 분류, 개체명 인식 파인튜닝 : 프리트레인을 마친 모델을 다운스트림 태스크에 맞도록 모델 전체를 업데이트하는 기법, 다운스트림 태스트 데이터 전체 사용, 모델 전체 업데이트 프롬프트 튜닝 : 다운스트림 태스크 데이터 전체 사용, 모델 일부만 업데이트 인컨텍스트 러닝 : 다운스트림 태스트 데이터.. 2022. 10. 5.
윈도우 python3.X mecab 설치 간단~ 1. mecab-ko-msvc 설치하기 'C 기반으로 만들어진 mecab'이 윈도우에서 실행될 수 있도록 하는 역할 1-1. 링크 클릭 https://github.com/Pusnow/mecab-ko-msvc/releases/tag/release-0.9.2-msvc-3 1-2. 윈도우 버전에 따라 32bit / 64bit 선택하여 다운로드 1-3. 'C 드라이브'에 mecab 폴더 만들기 => "C:\mecab" 1-4. '1-2'에서 다운로드 받은 'mecab-ko-msvc-x64.zip' 또는 'mecab-ko-msvc-x84.zip' 압축풀기 2. mecab-ko-dic-msvc.zip 기본 사전 설치하기 2-1. 링크 클릭 https://github.com/Pusnow/mecab-ko-dic-msv.. 2021. 6. 30.
[자연어처리] 독학을 위한 자료 모음 1. 온라인 강의 모음 https://www.edwith.org/deepnlp 에듀케이션위드 : edwith 에드위드(edwith)는 네이버(NAVER)와 커넥트재단(CONNECT)이 제공하는 온라인 강좌(MOOC : Massive Online Open Course) 교육 플랫폼입니다. 에듀케이션위드(education with) 에드위드(edwith)로 분야별 명품 강좌를 무료(Free Course)로 수강하세요. www.edwith.org 2. 자료 모음 ttps://github.com/uhmppi1/modu_nlp_tutorials/tree/master/presentation uhmppi1/modu_nlp_tutorials Modulabs NLP & Sequential Modeling - Lectur.. 2019. 8. 9.
[BERT] 자연어처리 경험 수준별로 읽기 좋은 BERT 관련 좋은 자료 링크 1. bert에 대해 알고 싶은 초보자 http://www.aitimes.kr/news/articleView.html?idxno=13117 인공지능(AI) 언어모델 ‘BERT(버트)'는 무엇인가 - 인공지능신문 지난해 11월, 구글이 공개한 인공지능(AI) 언어모델 ‘BERT(이하 버트, Bidirectional Encoder Representations from Transformers)’는 일부 성능 평가에서 인간보다 더 높은 정확도를 보이며 2018년 말 현재, ... www.aitimes.kr 2. bert와 ELMO의 세부 알고리즘을 구분해서 알고 싶은 중급자 (영어 자료임) http://jalammar.github.io/illustrated-bert The Illustrated BERT, ELM.. 2019. 7. 31.
Sonlp 설치 및 실행 - 간단 프로세스 * 환경 ================= OS : window 10 64bit 개발언어 : python 3.7 python 빌드 되어 커맨드 창에서 pip install 실행 가능 ================= 1. 커맨드창 실행 2. pip install soynlp 3. 설치 확인 from soynlp.tokenizer import LTokenizer scores = {'형태소':0.9, '분석기':0.9, '성능':0.8, '확인':0.5} tokenizer = LTokenizer(scores=scores) sentence = '형태소 분석기별로 성능이 어떻게 되는지 확인을 하고 있는 중입니다' ex1 = tokenizer.tokenize(sentence, flatten=False) print(e.. 2019. 5. 23.
[자연어처리] 한국어 형태소 분석기 비교 및 관련 링크 모음 * Konlpy(코엔엘파이) 대표적인 한국어 형태소 분석기 - 단점: 자바 기반으로 python 개발자의 경우 설치시 jdk 설치, visual studio 설치, wheel 설정 등의 에러 발생 가능성 높음, 사용자 사전 등록시 형태소 분석이 될 때가 있고 아닐 때도 있다고 함 - 장점: 품사테깅, 내부에 twitter, Kkma, hannanum, komoran 형태소 분석기 사용 가능 - 설치방법(윈도우, window) : - 기본 사전: 세종말뭉치 - 사용자 사전 등록 가능 여부: Yes (방법 : https://datascienceschool.net/view-notebook/4bfa8007982d4c7ba35d8b42cecd38c9/) * soynlp : 고유명사 추출에 용이한 tokenizer.. 2019. 5. 22.
반응형