본문 바로가기
자연어처리

토큰화란?

by code cleaner 2022. 10. 5.
반응형

토큰화

정의 : 토큰화란 문장을 토큰 시퀀스로 나누는 과정임

  • 단어 단위 토큰화
    • 종류 : 단어(어절) 단위로 토큰화/공백 문자로 토큰화
    • 장점 : 단어 단위의 뜻을 갖고 있음
    • 단점 : 어휘 집합(vocabulary)의 크기가 매우 커질 수 있음 / 미등록 토큰 문제 발생
  • 문자 단위 토큰화
    • 종류 : 문자 하나씩 나눠서 토큰화
    • 장점 : 어휘 집합(vocabulary)의 크기가 단어 단위보다 상대적으로 작음 / 미등록 토큰 처리 가능
    • 단점 : 단어의 뜻이 없어짐 / 분석된 토큰 시퀀스가 길어짐
  • 서브워드 단위 토큰화(단어와 문자 단위 토큰화의 중간 단계)
    • 종류 : BPE(바이트 페어 인코딩)
    • 장점 : 어휘 집합의 크기가 너무 커지지 않음 / 미등록 토큰 처리 가능 / 분석된 토큰 시퀀스가 너무 길지 않음
    • 절차
      • 1단계 : 어휘 집합 구축 : 자주 등장하는 문자열을 병합하고 이를 어휘 집합에 추가함
      • 2단계 : 원하는 어휘 집합 크기가 될 때까지 반복함
      • 3단계 : 토큰화 : 토큰화 대상 문장의 각 어절에서 어휘 집합에 있는 서브워드가 포함되었을 때 해당 서브워드를 어절에서 분리함
반응형