본문 바로가기

자연어처리11

[도서 스터디] 트랜스포머를 활용한 자연어 처리_chapter1 : 트랜스포머 소개 chapter1 : 트랜스포머 소개 트랜스포머(transformer) 맛보기 Attention is All You Need(2017)에서 시퀀스 모델링을 위한 새로운 신경망 아키텍처를 제안함 순환신경망(RNN) 대비 기계 번역 학습의 품질과 훈련 비용 좋음 효율적인 전이학습 방법(ULMFiT)으로 매우 크고 다양한 말뭉치(corpus)에서 장단기메모리(LSTM) 신경망을 훈련해 적은 양의 레이블링된 데이터로도 높은 성능 가장 유명한 트랜스포머 모델 1) GPT(Generative Pretrained Transformer) 2) BERT(Bidirectional Encoder Representations from Transformers) 다양한 트랜스포머 모델 time line [참조] LLM time l.. 2023. 8. 4.
트랜스포머 이론 정리 시퀀스-투-시퀀스란? 특정 속성을 지닌 시퀀스를 다른 속성의 시퀀스로 변환하는 작업 주의점 : 소스와 타깃의 길이가 달라도 해당 과제를 수행하는데 문제가 없어야 함 인코더와 디코더 인코더(encoder) : 소스 시퀀스 압축 디코더(decoder) : 타깃 시퀀스 생성 트랜스포머란? 기계 번역 등 시퀀스-투-시퀀스 과제를 수행하는 모델(2017년 구글이 제안) BERT나 GPT는 프랜스포머 기반 언어 모델임 트랜스포머는 인코더와 디코더 입력이 주어졌을 때 정답에 해당하는 단어(벡터)의 확률값(벡터의 특징, 요솟값, 전체합은 1)을 높이는 방식으로 학습한다. 트랜스포머 블록의 요소 1. 트랜스포머 블록 1-1. 멀티 헤드 어텐션(multi-head attendtion) = 셀프 어텐션 1-1-1. 어텐션(.. 2022. 10. 26.
트랜스퍼 러닝 트랜스퍼 러닝 정의 : 특정 태스크를 학습한 모델을 다른 태스크 수행에 재사용하는 기법 장점 : 기존보다 모델의 학습 속도가 빨라지고 새로운 태스크를 더 잘 수행하는 경향 존재 업스트림 태스크 대규모 말뭉치의 문맥을 이해하는 과제, 다음 단어 맞히기, 빈칸 채우기 등 언어모델 : 다음 단어 맞추기 마스크 언어 모델 : 중간에(빈칸) 단어 맞추기 예시 : BERT 다운스트림 태스크 자연어처리의 구체적인 문제들, 문서 분류, 개체명 인식 파인튜닝 : 프리트레인을 마친 모델을 다운스트림 태스크에 맞도록 모델 전체를 업데이트하는 기법, 다운스트림 태스트 데이터 전체 사용, 모델 전체 업데이트 프롬프트 튜닝 : 다운스트림 태스크 데이터 전체 사용, 모델 일부만 업데이트 인컨텍스트 러닝 : 다운스트림 태스트 데이터.. 2022. 10. 5.
토큰화란? 토큰화 정의 : 토큰화란 문장을 토큰 시퀀스로 나누는 과정임 단어 단위 토큰화 종류 : 단어(어절) 단위로 토큰화/공백 문자로 토큰화 장점 : 단어 단위의 뜻을 갖고 있음 단점 : 어휘 집합(vocabulary)의 크기가 매우 커질 수 있음 / 미등록 토큰 문제 발생 문자 단위 토큰화 종류 : 문자 하나씩 나눠서 토큰화 장점 : 어휘 집합(vocabulary)의 크기가 단어 단위보다 상대적으로 작음 / 미등록 토큰 처리 가능 단점 : 단어의 뜻이 없어짐 / 분석된 토큰 시퀀스가 길어짐 서브워드 단위 토큰화(단어와 문자 단위 토큰화의 중간 단계) 종류 : BPE(바이트 페어 인코딩) 장점 : 어휘 집합의 크기가 너무 커지지 않음 / 미등록 토큰 처리 가능 / 분석된 토큰 시퀀스가 너무 길지 않음 절차 1단.. 2022. 10. 5.
윈도우 python3.X mecab 설치 간단~ 1. mecab-ko-msvc 설치하기 'C 기반으로 만들어진 mecab'이 윈도우에서 실행될 수 있도록 하는 역할 1-1. 링크 클릭 https://github.com/Pusnow/mecab-ko-msvc/releases/tag/release-0.9.2-msvc-3 1-2. 윈도우 버전에 따라 32bit / 64bit 선택하여 다운로드 1-3. 'C 드라이브'에 mecab 폴더 만들기 => "C:\mecab" 1-4. '1-2'에서 다운로드 받은 'mecab-ko-msvc-x64.zip' 또는 'mecab-ko-msvc-x84.zip' 압축풀기 2. mecab-ko-dic-msvc.zip 기본 사전 설치하기 2-1. 링크 클릭 https://github.com/Pusnow/mecab-ko-dic-msv.. 2021. 6. 30.
[자연어처리] 독학을 위한 자료 모음 1. 온라인 강의 모음 https://www.edwith.org/deepnlp 에듀케이션위드 : edwith 에드위드(edwith)는 네이버(NAVER)와 커넥트재단(CONNECT)이 제공하는 온라인 강좌(MOOC : Massive Online Open Course) 교육 플랫폼입니다. 에듀케이션위드(education with) 에드위드(edwith)로 분야별 명품 강좌를 무료(Free Course)로 수강하세요. www.edwith.org 2. 자료 모음 ttps://github.com/uhmppi1/modu_nlp_tutorials/tree/master/presentation uhmppi1/modu_nlp_tutorials Modulabs NLP & Sequential Modeling - Lectur.. 2019. 8. 9.
[BERT] 자연어처리 경험 수준별로 읽기 좋은 BERT 관련 좋은 자료 링크 1. bert에 대해 알고 싶은 초보자 http://www.aitimes.kr/news/articleView.html?idxno=13117 인공지능(AI) 언어모델 ‘BERT(버트)'는 무엇인가 - 인공지능신문 지난해 11월, 구글이 공개한 인공지능(AI) 언어모델 ‘BERT(이하 버트, Bidirectional Encoder Representations from Transformers)’는 일부 성능 평가에서 인간보다 더 높은 정확도를 보이며 2018년 말 현재, ... www.aitimes.kr 2. bert와 ELMO의 세부 알고리즘을 구분해서 알고 싶은 중급자 (영어 자료임) http://jalammar.github.io/illustrated-bert The Illustrated BERT, ELM.. 2019. 7. 31.
[FULL TEXT INDEX / SEARCH] mysql 구축 및 DBeaver 연동, 에러 해결 및 테이블 생성 후 테스트 1. mysql 다운로드 받기 https://dev.mysql.com/downloads/installer/ MySQL :: Download MySQL Installer Download MySQL Installer Please report any bugs or inconsistencies you observe to our Bugs Database. Thank you for your support! dev.mysql.com 1) 다운로드 클릭 후 설치 'mysql-installer-web-community-8.0.16.0.msi' 다운로드 하면 간편하게 설치할 수 있음 2) 기본정보 설정 PORT 번호 : 기본값은 3306 ROOT PASSWORD / 사용자 추가 및 비밀번호 기입 * 설치 참고 블로그 =>.. 2019. 7. 10.
Sonlp 설치 및 실행 - 간단 프로세스 * 환경 ================= OS : window 10 64bit 개발언어 : python 3.7 python 빌드 되어 커맨드 창에서 pip install 실행 가능 ================= 1. 커맨드창 실행 2. pip install soynlp 3. 설치 확인 from soynlp.tokenizer import LTokenizer scores = {'형태소':0.9, '분석기':0.9, '성능':0.8, '확인':0.5} tokenizer = LTokenizer(scores=scores) sentence = '형태소 분석기별로 성능이 어떻게 되는지 확인을 하고 있는 중입니다' ex1 = tokenizer.tokenize(sentence, flatten=False) print(e.. 2019. 5. 23.
Konlpy 설치 및 실행 - 간단 프로세스 * 환경 ================= OS : window 10 64bit 개발언어 : python 3.7 python 빌드 되어 커맨드 창에서 pip install 실행 가능 ================= konlpy 사전 설치 목록 ================= 1. JDK : https://www.java.com/ko/download/win10.jsp 에서 설치 2. Microsoft Visual C++ : https://visualstudio.microsoft.com/downloads/ 에서 설치 - coomunity 로 설치, 워크로드 선택 안하고 우측 하단에 설치 누르기 3. JPype1 설치 : 커맨드 창에서 pip install JPype1-0.6.3-cp37-cp37m-win_am.. 2019. 5. 23.
[자연어처리] 한국어 형태소 분석기 비교 및 관련 링크 모음 * Konlpy(코엔엘파이) 대표적인 한국어 형태소 분석기 - 단점: 자바 기반으로 python 개발자의 경우 설치시 jdk 설치, visual studio 설치, wheel 설정 등의 에러 발생 가능성 높음, 사용자 사전 등록시 형태소 분석이 될 때가 있고 아닐 때도 있다고 함 - 장점: 품사테깅, 내부에 twitter, Kkma, hannanum, komoran 형태소 분석기 사용 가능 - 설치방법(윈도우, window) : - 기본 사전: 세종말뭉치 - 사용자 사전 등록 가능 여부: Yes (방법 : https://datascienceschool.net/view-notebook/4bfa8007982d4c7ba35d8b42cecd38c9/) * soynlp : 고유명사 추출에 용이한 tokenizer.. 2019. 5. 22.
반응형