본문 바로가기
멀티모달(MMML)

[개요 정리] 멀티모달(Multi modal) 정의, 멀티모달이란?

by code cleaner 2022. 10. 5.
반응형

* 카네기 멜론의 멀티모달 강의를 듣고 작성한 Note입니다.


Multimodal이란?

1. 수학적 관점 : 멀티 모드, 확률 밀도 함수 (Probability density function)에서 극값(local maxima)이 최고점에 다다른 모델

멀티모달 분포

2. 감각 관점: 3V(Verbal / Vocal / Visual) 

 

감각 모달리티(sensory modalities)

    - Verbal : Lexicon(Words) / Syntax(Part-of-speech, Dependencies) / Pragmatics 화용론(Discourse acts, 담론 행위)

    - Vocal : Prosody 운율(Intonatioin, Voice quality) / Vocal  expressions(Laughter, moans) 

    - Visual : gestures, body language, eye contact, facial expressions

* Modality VS Medium

모달리티는 촉각, 시각 등(인간이 소유한 커뮤니케이션 채널)의 감각, 특정 유형의 정보

매체는 정보를 저장하거나 의사소통하기 위한 도구

 

==> 인간의 대표적인 감각인 5감(시각, 청각, 촉각, 미각, 후각)등의 감각은 상호 베타적으로 정보를 수집하게 된다.

이 때 매체는 그러한 감각의 물리적인 부분은 눈, 귀, 피부, 혀, 코 등이 된다.

 


AI기술과 관련된 멀티 커뮤니티와 모달리티

* 구체적인 예시

- 자연어(말하기, 쓰기)  => Verbal 

- 시각(이미지, 비디오)  => Vocal 

- 청각(음성, 소리, 음악)  => Visual 

- 촉각

- 후각, 미각, 자발성

- 신체신호(ECG)

- 기타(MRI 등)


멀티모달의 변천사

1) behavioral : 심리적, 언어적 측면 중심의 멀티모달 연구

 

2) computational : 오디오-시각 자료에 따른 인지 연구, 멀티미디어 컴퓨팅 연구

   

 

3) interaction : behavioral과 computational이 개인의 멀티모달 부분이였다면, interaction은 사람들 간의, 사회적 상호작용 부분에 관점을 둔 연구

4) deep learning :  신경망 연구 발달, 대규모 멀티모달 데이터 셋 구축이 가능, 하드웨어의 성능 개선, 매우 높은 수준의 이미지 피처 모델 개발, "차원"(벡터화할 수 있는) 언어 피처 모델 개발

  ==> [유의점] 다른 모달리티의 데이터를 다룰 때, 반드시 같은 사이즈의 차원에 넣어야 하는 것은 아니다.  왜냐하면 이미지나 언어 데이터의 노이즈가 다르기 때문이다. 


주요 멀티모달 머신 러닝 논문


주요 연구 정리 : 


Unifying Visual-Semantic Embedding with Multimodal Neural Language Models , 2014, Kiros et al..

=> 데이터를 같은 공간에 임베딩하여 학습시킨 모델로 해당 부분에 대해서는 성능이 나쁘지 않았지만, 특정 케이스들에 국한된 모델이라는 한계점이 있음



멀티모달 모델

1. 재현(Representation!)

 

구분 설명 주의사항
A 각 모달리티 데이터를 하나로 합하여 재현
하나의 스페이스에 두 모달리티를 벡터화하여 모델 훈련함
재현하는 정보에 대해서 각 모달리티가 중복되어 데이터셋의 정보 편향성을 줄 수 있음
B 각 모달리티에 대하여 각각의 재현 부분이 있으며, 서로 조정이됨
재현이 조정되는 부분은 일종의 스펙트럼으로 존재함
각각의 재현이 동등하게 존재함

2. Alignment

 

구분 명칭 설명 예시
A 명시적 Alignment 분석 task에 맞춰 각 요소들 매핑 함
각 요소(데이터)가 1:1로 대응되도록 구축함
같은 모달리티에 대한 매핑
이미지와 이미지 매핑
텍스트와 텍스트 매핑

B 암시적 Alignment 어텐션, 트랜스포머 모델 등 활용 용이
각 요소가 변화되도록 구축함
다른 모달리티에 대한 매핑
이미지와 텍스트 매핑

* 명시적  Aligment 예시

* 암시적 Alignment 예시


3. Translation

 

구분 명칭 설명
A Example-bsed : 사례 중심 구축된 사례집에서 input-output을 도출함
B Model-driven : 모델 중심 제너레이티브 모델 등을 활용하여 여러 모달리티 데이터셋으로부터 결과 데이터 도출


4. Fusion

 

 


5. Co-Learning

 

반응형

'멀티모달(MMML)' 카테고리의 다른 글

멀티모달 예시  (0) 2022.10.13
멀티모달 python 라이브러리/패키지 소개  (0) 2022.10.13