본문 바로가기
자연어처리

트랜스퍼 러닝

by code cleaner 2022. 10. 5.
반응형
  • 트랜스퍼 러닝

정의 : 특정 태스크를 학습한 모델을 다른 태스크 수행에 재사용하는 기법

장점 : 기존보다 모델의 학습 속도가 빨라지고 새로운 태스크를 더 잘 수행하는 경향 존재

  • 업스트림 태스크

대규모 말뭉치의 문맥을 이해하는 과제, 다음 단어 맞히기, 빈칸 채우기 등

  • 언어모델 : 다음 단어 맞추기
  • 마스크 언어 모델 : 중간에(빈칸) 단어 맞추기
    • 예시 : BERT
  • 다운스트림 태스크

자연어처리의 구체적인 문제들, 문서 분류, 개체명 인식

  • 파인튜닝 : 프리트레인을 마친 모델을 다운스트림 태스크에 맞도록 모델 전체를 업데이트하는 기법, 다운스트림 태스트 데이터 전체 사용, 모델 전체 업데이트
  • 프롬프트 튜닝 : 다운스트림 태스크 데이터 전체 사용, 모델 일부만 업데이트
  • 인컨텍스트 러닝 : 다운스트림 태스트 데이터의 일부만 사용, 모델 업데이트 않암
    • 제로샷 러닝 : 다운스트림 데이터 전혀 사용 안함, 모델이 바로 다운스트림 태스크 수행
    • 원샷 러닝 : 다운스트림 태스트 데이터 1건만 사용함, 모델은 1건의 데이터가 어떻게 수행되는지를 참고한 뒤 다운스트림 태스크를 수행함
    • 퓨샷 러닝 : 다운스트림 태스크 데이터를 몇 건만 사용함, 모델은 몇 건의 데이터가 어떻게 수행되는지 참고한 뒤 다운스트림 태스크를 수행함
반응형