[개요 정리] 멀티모달(Multi modal) 정의, 멀티모달이란?

* 카네기 멜론의 멀티모달 강의를 듣고 작성한 Note입니다.

Multimodal이란?

1. 수학적 관점 : 멀티 모드, 확률 밀도 함수 (Probability density function)에서 극값(local maxima)이 최고점에 다다른 모델

2. 감각 관점: 3V(Verbal / Vocal / Visual)

- Verbal : Lexicon(Words) / Syntax(Part-of-speech, Dependencies) / Pragmatics 화용론(Discourse acts, 담론 행위)

- Vocal : Prosody 운율(Intonatioin, Voice quality) / Vocal expressions(Laughter, moans)

- Visual : gestures, body language, eye contact, facial expressions

* Modality VS Medium

모달리티는 촉각, 시각 등(인간이 소유한 커뮤니케이션 채널)의 감각, 특정 유형의 정보

매체는 정보를 저장하거나 의사소통하기 위한 도구

==> 인간의 대표적인 감각인 5감(시각, 청각, 촉각, 미각, 후각)등의 감각은 상호 베타적으로 정보를 수집하게 된다.

이 때 매체는 그러한 감각의 물리적인 부분은 눈, 귀, 피부, 혀, 코 등이 된다.

AI기술과 관련된 멀티 커뮤니티와 모달리티

* 구체적인 예시

- 자연어(말하기, 쓰기) => Verbal

- 시각(이미지, 비디오) => Vocal

- 청각(음성, 소리, 음악) => Visual

- 촉각

- 후각, 미각, 자발성

- 신체신호(ECG)

- 기타(MRI 등)

멀티모달의 변천사

1) behavioral : 심리적, 언어적 측면 중심의 멀티모달 연구

2) computational : 오디오-시각 자료에 따른 인지 연구, 멀티미디어 컴퓨팅 연구

3) interaction : behavioral과 computational이 개인의 멀티모달 부분이였다면, interaction은 사람들 간의, 사회적 상호작용 부분에 관점을 둔 연구

4) deep learning : 신경망 연구 발달, 대규모 멀티모달 데이터 셋 구축이 가능, 하드웨어의 성능 개선, 매우 높은 수준의 이미지 피처 모델 개발, "차원"(벡터화할 수 있는) 언어 피처 모델 개발

==> [유의점] 다른 모달리티의 데이터를 다룰 때, 반드시 같은 사이즈의 차원에 넣어야 하는 것은 아니다. 왜냐하면 이미지나 언어 데이터의 노이즈가 다르기 때문이다.

주요 멀티모달 머신 러닝 논문

주요 연구 정리 :

Unifying Visual-Semantic Embedding with Multimodal Neural Language Models , 2014, Kiros et al..

=> 데이터를 같은 공간에 임베딩하여 학습시킨 모델로 해당 부분에 대해서는 성능이 나쁘지 않았지만, 특정 케이스들에 국한된 모델이라는 한계점이 있음

멀티모달 모델

1. 재현(Representation!)

구분	설명	주의사항
A	각 모달리티 데이터를 하나로 합하여 재현 하나의 스페이스에 두 모달리티를 벡터화하여 모델 훈련함	재현하는 정보에 대해서 각 모달리티가 중복되어 데이터셋의 정보 편향성을 줄 수 있음
B	각 모달리티에 대하여 각각의 재현 부분이 있으며, 서로 조정이됨 재현이 조정되는 부분은 일종의 스펙트럼으로 존재함	각각의 재현이 동등하게 존재함

2. Alignment

구분	명칭	설명	예시
A	명시적 Alignment	분석 task에 맞춰 각 요소들 매핑 함 각 요소(데이터)가 1:1로 대응되도록 구축함 같은 모달리티에 대한 매핑	이미지와 이미지 매핑 텍스트와 텍스트 매핑
B	암시적 Alignment	어텐션, 트랜스포머 모델 등 활용 용이 각 요소가 변화되도록 구축함 다른 모달리티에 대한 매핑	이미지와 텍스트 매핑

* 명시적 Aligment 예시

* 암시적 Alignment 예시

3. Translation

구분	명칭	설명
A	Example-bsed : 사례 중심	구축된 사례집에서 input-output을 도출함
B	Model-driven : 모델 중심	제너레이티브 모델 등을 활용하여 여러 모달리티 데이터셋으로부터 결과 데이터 도출

4. Fusion

5. Co-Learning

저작자표시 비영리 동일조건

'멀티모달(MMML)' 카테고리의 다른 글

멀티모달 예시 (0)	2022.10.13
멀티모달 python 라이브러리/패키지 소개 (0)	2022.10.13