* 카네기 멜론의 멀티모달 강의를 듣고 작성한 Note입니다.
Multimodal이란?
1. 수학적 관점 : 멀티 모드, 확률 밀도 함수 (Probability density function)에서 극값(local maxima)이 최고점에 다다른 모델
2. 감각 관점: 3V(Verbal / Vocal / Visual)
- Verbal : Lexicon(Words) / Syntax(Part-of-speech, Dependencies) / Pragmatics 화용론(Discourse acts, 담론 행위)
- Vocal : Prosody 운율(Intonatioin, Voice quality) / Vocal expressions(Laughter, moans)
- Visual : gestures, body language, eye contact, facial expressions
* Modality VS Medium
모달리티는 촉각, 시각 등(인간이 소유한 커뮤니케이션 채널)의 감각, 특정 유형의 정보
매체는 정보를 저장하거나 의사소통하기 위한 도구
==> 인간의 대표적인 감각인 5감(시각, 청각, 촉각, 미각, 후각)등의 감각은 상호 베타적으로 정보를 수집하게 된다.
이 때 매체는 그러한 감각의 물리적인 부분은 눈, 귀, 피부, 혀, 코 등이 된다.
AI기술과 관련된 멀티 커뮤니티와 모달리티
* 구체적인 예시
- 자연어(말하기, 쓰기) => Verbal
- 시각(이미지, 비디오) => Vocal
- 청각(음성, 소리, 음악) => Visual
- 촉각
- 후각, 미각, 자발성
- 신체신호(ECG)
- 기타(MRI 등)
멀티모달의 변천사
1) behavioral : 심리적, 언어적 측면 중심의 멀티모달 연구
2) computational : 오디오-시각 자료에 따른 인지 연구, 멀티미디어 컴퓨팅 연구
3) interaction : behavioral과 computational이 개인의 멀티모달 부분이였다면, interaction은 사람들 간의, 사회적 상호작용 부분에 관점을 둔 연구
4) deep learning : 신경망 연구 발달, 대규모 멀티모달 데이터 셋 구축이 가능, 하드웨어의 성능 개선, 매우 높은 수준의 이미지 피처 모델 개발, "차원"(벡터화할 수 있는) 언어 피처 모델 개발
==> [유의점] 다른 모달리티의 데이터를 다룰 때, 반드시 같은 사이즈의 차원에 넣어야 하는 것은 아니다. 왜냐하면 이미지나 언어 데이터의 노이즈가 다르기 때문이다.
주요 멀티모달 머신 러닝 논문
주요 연구 정리 :
Unifying Visual-Semantic Embedding with Multimodal Neural Language Models , 2014, Kiros et al..
=> 데이터를 같은 공간에 임베딩하여 학습시킨 모델로 해당 부분에 대해서는 성능이 나쁘지 않았지만, 특정 케이스들에 국한된 모델이라는 한계점이 있음
멀티모달 모델
1. 재현(Representation!)
구분 | 설명 | 주의사항 |
A | 각 모달리티 데이터를 하나로 합하여 재현 하나의 스페이스에 두 모달리티를 벡터화하여 모델 훈련함 |
재현하는 정보에 대해서 각 모달리티가 중복되어 데이터셋의 정보 편향성을 줄 수 있음 |
B | 각 모달리티에 대하여 각각의 재현 부분이 있으며, 서로 조정이됨 재현이 조정되는 부분은 일종의 스펙트럼으로 존재함 |
각각의 재현이 동등하게 존재함 |
2. Alignment
구분 | 명칭 | 설명 | 예시 |
A | 명시적 Alignment | 분석 task에 맞춰 각 요소들 매핑 함 각 요소(데이터)가 1:1로 대응되도록 구축함 같은 모달리티에 대한 매핑 |
이미지와 이미지 매핑 텍스트와 텍스트 매핑 |
B | 암시적 Alignment | 어텐션, 트랜스포머 모델 등 활용 용이 각 요소가 변화되도록 구축함 다른 모달리티에 대한 매핑 |
이미지와 텍스트 매핑 |
* 명시적 Aligment 예시
* 암시적 Alignment 예시
3. Translation
구분 | 명칭 | 설명 |
A | Example-bsed : 사례 중심 | 구축된 사례집에서 input-output을 도출함 |
B | Model-driven : 모델 중심 | 제너레이티브 모델 등을 활용하여 여러 모달리티 데이터셋으로부터 결과 데이터 도출 |
4. Fusion
5. Co-Learning
'멀티모달(MMML)' 카테고리의 다른 글
멀티모달 예시 (0) | 2022.10.13 |
---|---|
멀티모달 python 라이브러리/패키지 소개 (0) | 2022.10.13 |