김기현1 병렬코퍼스 개요(정의, 구조, 활용, 제작 프로세스, 활용 라이브러리 등) 병렬코퍼스란? - 정의 : 2개 국어 이상의 번역된 문서를 모은 말뭉치를 병렬말뭉치 혹은 병렬코퍼스라고 부름 - 구조 : 문장 == 문장 혹은 문단 == 문단 - 활용 : 언어 간의 대조 분석, 번역 연구에 활용 - 주의점 : 되도록 직역한 것 위주로 모으고, 원문과 번역문의 표시를 명확하게 하기 - 제작 프로세스 1) 소스 언어(source language)와 타깃 언어(target language) 사이의 단어 사전을 준비함 2) 준비된 단어 사전이 없다면 '3~6'의 프로세스 진행, 준비된 사전이 있다면 7의 프로세스로 진행 3) 각 언어에 대해서 코퍼스를 수집하고 정제함 4) 각 언어에 대해 단어 임베딩 5) MUSE를 통해 단어 레벨 번역기를 훈련함 6) 훈련된 단어 레벨 번역기를 통해 두 언어.. 2020. 2. 13. 이전 1 다음 반응형