본문 바로가기
논문리뷰/추천시스템

[논문리뷰] Factorization Machines

by code cleaner 2021. 8. 30.
반응형

Abstract

Factorization Machines은 SVM과 마찬가지로 feature vector의 실제값으로 예측을 하지만, 인수분해된 파라미터 값을 사용하여 모든 변수와 상호작용을 한다. 따라서 엄청 큰 sparse한 데이터 셋은 SVM으로 예측을 실패할 수 있지만 FM으로는 가능하다. FM 모델은 선형시간(시간복잡도)내에서 계산되어 최적화를 할 수 있다. 특히 비선형 SVM에서 dual form으로 변형한 계산이 필요 없다.

반면에 matrix factorization, 병렬 요인 분석 또는  SVD++, PITF, FPMC와 같이 특수화된 모델도 있다. 그러나 이러한 모델은 특수한 데이터에만 적용할 수 있으며 각 태스크별로 알고리즘 최적화를 진행해야 한다. 그러나 FM은 feature vector만 지정하면 쉽게 앞서 소개한 모델 수준의 결과를 비전문가도 손쉽세 사용할 수 있다.


I. INTRODUCTION

SVM은 머신러닝과 데이터 마이닝에서 매우 유명하지만, 협업필터과 같은 환경에서는 좋은 모델로써의 역할을 하지 못한다. 

이 논문에서는 SVM이 희소(sparse)한 데이터로 복잡한(비선형) 커널 공간에서 믿을만한 매개변수(초평면, hyperplanes)를 학습할 수 없음을 증명한다. 반면 tensor factorization model등도 특정 형태의 데이터만 적용할 수 있다는 단점이 있다.

저자는 SVM처럼 일반적인 예측기이지만 매우 희소성이 높은 데이터에서도 믿을만한 매개변수를 추정할 수 있는 FM을 소개한다.

 

FM model은 SVM의 다항식 커널과 비슷하게 모든 변수들이 상호작용을 하지만, SVM처럼 dense parametrization(밀집 파라미터화)을 사용하는 것이 아니라 factorized parametrization(인수분해된 파라미터화)를 사용한다.

그리고 FM 모델은 파라미터의 수에 비례하여 계산복잡도를 계산할 수 있다.

뿐만 아니라 비선형 SVM은 dual form으로 최적화하고 예측 계산을 위해 훈련 데이터를 저장하지만 FM은 훈련 데이터의 저장 없이 직접 모델 파라미터를 최적화하고 저장한다.

 

또 한 FM은 많은 협업필터링 기반의 MF, SVD++,PITF. FPMC의 성공적인 접근 방법을 포함하고 있다.

 

즉, FM의 장점은 다음과 같다.

 

더보기

1) SVM이 실패한 매우 희소한 데이터에서 파라미터 추청이 가능하다.

2) FM은 선형 복잡도를 갖고 있어서 SVM이 못한 primal한 최적화가 가능하다.

3) 어떤 실제 feature vector의 값으로도 예측이 가능하다.

 


II. PREDICTION UNDER SPARSITY

일반적인 예측 태스크는 x가 R(실수)에 포함되는 벡터일 때, Y값을 회귀 또는 분류로 추정하는 것이다. y값이 주어지는 지도학습에서는, 예를들면, 훈련데이터 D = {(x (1), y(1)),(x (2), y(2)), . . .}으로 추정하는 것이다.

 

이와 마찬가지로 우리는 랭킹 태스트를 함수 y에 대해 피처 벡터 x가 점수 매겨지고 정렬되는 것을 연구했다. 그 결과 Scoring 함수는 x (A)와 x (B) 가 튜플로 묶여 훈련데이터셋에 포함되는데 (x (A) , x (B) ) ∈ D, 이 때, x (A)은 x (B)보다 높은 순위여야 한다. 그 이유는 긍정적인 훈련을 충분히 하기 위해 비대칭적인 랭킹 데이터의 특성을 반영한 것이다. 

 

희소 데이터 예시

Xi 설명

blue : User에 대한 정보, 원핫인코딩된 데이터

red : Movie에 대한 정보, 원핫인코딩된 데이터, 현재 y값에 해당하는 영화 데이터가 '1'
Yellow : User가 평점을 매긴 영화 데이터, 총 합이 1이 되도록 normalized됨

green : User가 영화를 본 시점, 2009년 1월을 1로 시작하여 한달마다 1씩 더함

brown : User가 xi item 직전에 평점을 매긴 영화, 원핫인코딩

black : target y, User의 영화 평점


III. FACTORIZATION MACHINES (FM)

FM 모델 방정식(2차원에서 정의)

 

행렬 V 중 vi는 k개의 factor를 지닌 i번째 변수를 표현한다. 이 때 k는 0을 포함한 자연수이며, factorization의 차원을 정의하는 하이퍼 파라미터이다. 2-way FM(2차수)은 변수간의 단일 예측변수와 결과변수 간의 상호작용 뿐 아니라 pairwise한(한 쌍의) 예측변수 조합과 결과변수 사이의 상호작용도 잡아낸다.

  • : global bias
  • wi: i번째 변수의 영향력을 모델화 함
  • i, j번째 변수간의 상호작용을 모델화 함

 

  • k : 0을 포함한 자연수, 인수분해의 차원을 정의하는 하이퍼파라미터로 충분히 크면 FM은 어떤 W행렬도 구할 수 있지만, 복잡한 상호작용의 W값을 구하기 충분하지 않은 데이터들의 k값을 작게 선택해야 한다. k를 제한함으로써 희소한 데이터에서 좀 더 일반화되며 성능이 향상된 상호작용된 W를 얻을 수 있다.

 

 

 

 


IV. FMS VS. SVMS

 

 

 


 

 

 

 

반응형