본문 바로가기
카테고리 없음

병렬코퍼스 개요(정의, 구조, 활용, 제작 프로세스, 활용 라이브러리 등)

by code cleaner 2020. 2. 13.
반응형

병렬코퍼스란? 

 

 - 정의 : 2개 국어 이상의 번역된 문서를 모은 말뭉치를 병렬말뭉치 혹은 병렬코퍼스라고 부름

 - 구조 : 문장 == 문장 혹은 문단 == 문단

 - 활용 : 언어 간의 대조 분석, 번역 연구에 활용

 - 주의점 : 되도록 직역한 것 위주로 모으고, 원문과 번역문의 표시를 명확하게 하기

 - 제작 프로세스 <병렬코퍼스 제작을 위한 정렬(alignment)을 수행하는 과정>

    1) 소스 언어(source language)와 타깃 언어(target language) 사이의 단어 사전을 준비함

    2) 준비된 단어 사전이 없다면 '3~6'의 프로세스 진행, 준비된 사전이 있다면 7의 프로세스로 진행

    3) 각 언어에 대해서 코퍼스를 수집하고 정제함

    4) 각 언어에 대해 단어 임베딩

    5) MUSE를 통해 단어 레벨 번역기를 훈련함

    6) 훈련된 단어 레벨 번역기를 통해 두 언어 사이의 단어 사전을 생성함

    7) 만들어진 단어 사전을 넣어 Champollion Tool Kit(일명, CTK)을 통해 기존에 수집된 다중 언어 코퍼스를 정렬함

    8) 각 언어에 대해서 단어 사전을 적용하기 위해 알맞은 수준의 분절을 수행함

    9) 각 언어에 대해서 정제를 수행함

   10) Champollion Tool Kit을 사용하여 병렬 코퍼스를 생성함

 

* 페이스북 MUSE ((페이스북에서 병렬 코퍼스가 없는 상황에서 사전을 구축하는 방법과 코드를 제공해줌)) :

https://github.com/facebookresearch/MUSE

 

facebookresearch/MUSE

A library for Multilingual Unsupervised or Supervised word Embeddings - facebookresearch/MUSE

github.com

* Champollion Tool Kit (이중 언어 코퍼스의 문장 정렬을 수행하는 오픈소스)

https://github.com/LowResourceLanguages/champollion

 

LowResourceLanguages/champollion

Import of https://sourceforge.net/projects/champollion - LowResourceLanguages/champollion

github.com

* Champollion Tool Kit URL2 : http://champollion.sourceforge.net/

 

 

 

* 참고자료

  - 김기현의 자연어 처리 딥러닝 캠프(파이토치 편)

  - 한국어 위키디피아

반응형