반응형
토큰화
정의 : 토큰화란 문장을 토큰 시퀀스로 나누는 과정임
- 단어 단위 토큰화
- 종류 : 단어(어절) 단위로 토큰화/공백 문자로 토큰화
- 장점 : 단어 단위의 뜻을 갖고 있음
- 단점 : 어휘 집합(vocabulary)의 크기가 매우 커질 수 있음 / 미등록 토큰 문제 발생
- 문자 단위 토큰화
- 종류 : 문자 하나씩 나눠서 토큰화
- 장점 : 어휘 집합(vocabulary)의 크기가 단어 단위보다 상대적으로 작음 / 미등록 토큰 처리 가능
- 단점 : 단어의 뜻이 없어짐 / 분석된 토큰 시퀀스가 길어짐
- 서브워드 단위 토큰화(단어와 문자 단위 토큰화의 중간 단계)
- 종류 : BPE(바이트 페어 인코딩)
- 장점 : 어휘 집합의 크기가 너무 커지지 않음 / 미등록 토큰 처리 가능 / 분석된 토큰 시퀀스가 너무 길지 않음
- 절차
- 1단계 : 어휘 집합 구축 : 자주 등장하는 문자열을 병합하고 이를 어휘 집합에 추가함
- 2단계 : 원하는 어휘 집합 크기가 될 때까지 반복함
- 3단계 : 토큰화 : 토큰화 대상 문장의 각 어절에서 어휘 집합에 있는 서브워드가 포함되었을 때 해당 서브워드를 어절에서 분리함
반응형
'자연어처리' 카테고리의 다른 글
트랜스포머 이론 정리 (0) | 2022.10.26 |
---|---|
트랜스퍼 러닝 (0) | 2022.10.05 |
윈도우 python3.X mecab 설치 간단~ (28) | 2021.06.30 |
[자연어처리] 독학을 위한 자료 모음 (0) | 2019.08.09 |
[BERT] 자연어처리 경험 수준별로 읽기 좋은 BERT 관련 좋은 자료 링크 (0) | 2019.07.31 |