토큰화1 토큰화란? 토큰화 정의 : 토큰화란 문장을 토큰 시퀀스로 나누는 과정임 단어 단위 토큰화 종류 : 단어(어절) 단위로 토큰화/공백 문자로 토큰화 장점 : 단어 단위의 뜻을 갖고 있음 단점 : 어휘 집합(vocabulary)의 크기가 매우 커질 수 있음 / 미등록 토큰 문제 발생 문자 단위 토큰화 종류 : 문자 하나씩 나눠서 토큰화 장점 : 어휘 집합(vocabulary)의 크기가 단어 단위보다 상대적으로 작음 / 미등록 토큰 처리 가능 단점 : 단어의 뜻이 없어짐 / 분석된 토큰 시퀀스가 길어짐 서브워드 단위 토큰화(단어와 문자 단위 토큰화의 중간 단계) 종류 : BPE(바이트 페어 인코딩) 장점 : 어휘 집합의 크기가 너무 커지지 않음 / 미등록 토큰 처리 가능 / 분석된 토큰 시퀀스가 너무 길지 않음 절차 1단.. 2022. 10. 5. 이전 1 다음 반응형