[Recommendation] MV-DNN

A Multi-View Deep Learning Approach for Cross Domain
User Modeling in Recommendation Systems (Link)

1. 문제점

예전의 CF 방식은 히스토리가 없는 신규 유저에 대해서 추천시 Cold Start 라고 하는 문제가 발생함. CB 방식은 Item 유사도 혹은 User 유사도를 통해 Cold Start 를 해결할 수 있지만, 실제 적용시 사용자의 정보획득의 어려움 등의 이유로 잘 동작할 수 있는지는 여전히 의문이다.

2. Introduction

Item 의 속성과 유저의 속성을 둘다 사용하는 방안을 제시함

(1) Rich User Information 사용 제안
일반적인 방법처럼 유저 프로파일을 사용하는 것이 아니라 조금 더 Rich 한 사용자 데이터 (웹 서핑 기록 등) 을 활용함. 예를 들어 ‘아기 용품을 주로 검색하는 사람은 아이 엄마일 가능성이 크다’ 와 같은 Insight 도출이 가능할 것이라고 기대함. Rich 한 Feature 기반의 Content-Based system 은 기존의 CB 의 문제점을 개선할 수 있음.

(2) CB 에 Deep Learning 을 적용 제안
Rich 한 Content 에서 Feature 를 추출하기 위한 방법으로 Deep Structured Semantic Models (DSSM)의 아이디어를 차용함

(3) Multi Domain 데이터 활용을 위한 Multi View DNN 을 제안
복수 영역의 정보를 DNN 에 훈련시키기 위한 방법을 제안함

3. Data Set 에 대한 설명

(1) User Data
Log, 검색정보, New 브라우징 이력, XBox 영화, TV 시청이력 등
URL 정보등은 Normalize 하여 Domain 레벨만 사용하고, TF-IDF 를 사용하여 중요한 Factor 들만 유지 시켰음.

(2) New 정보
– Title 정보 : tri-gram 으로 정보 표현
– Top Level Category : Binary 로 표현
– NER : NLP Parser 를 활용하여 추출후 tri-gram 으로 표현

(3) 게임 App 정보
Title, 카테고리, Description (본 논문에서는 제외)

(4) 영화 정보
Title, 장르, Description

4. DSSM 을 활용한 유저 정보 모델링

본 논문의 핵심 아이디어인 MV DNN 의 기본 아이디어인 DSSM 을
위 첨부 그림의 요소들을 아래에서 위로 올라가면서 설명을 해보자.

(1) 인풋 데이터
Q 는 검색어, D 는 검색한 Document 정보로 Law 데이터 입력

(2) Word Hashing
Word Hashing 이라는 Layer 를 두어서 Tri-gram 방식을 사용하여 데이터의 크기를 축약하는 과정을 거침. 이때 중복이 문제가 되는데 영어의 경우 아래와 같은 확률을 갖는다고 함

(3) Multi layer non-linear projection
tanh를 Activation fucntion 으로 사용하는 전형적인 DNN 구조

(4) Semantic feature
최종적으로 원 데이터를 축약하고자 하는 형태

(5) Cosine Similarity
Question 의 Semantic feature 와 Document 의 Semantic feature 의
Cosine 유사도를 구한다.

(6) Posterior probability (사후확률)
Cosine Similarity 를 활용하여 아래와 같이 사후 확률을 구한다.

5. Multi View Deep Neural Network

두개의 다른 데이터를 하나의 공유된 뷰로 본다는 관점에서 DSSM을 응용할 수 도 있다. 여기서는 하나 이상의 View 를 갖는 Multi View DNN(MV DNN) 을 이야기 하고 있다. N 개의 뷰는 각각 별도의Weight Matrix 를 갖는 독립적인 신경망이다.

MV DNN 은 위와 같은 형태로 훈련이 진행되는데 간단히 서술하자면, User 데이터와 Item 데이터 Pair를 훈련 데이터로 준비하고, 아래와 같은 목적 함수를 만족하는 방향으로 전체 데이터 쌍을 정해진 반복 횟수만큼 훈련을 진행하는 것이다.

이러한 종류의 신경망이 동작한다는 가정에는 영화, 뉴스처럼 다른 도메인에서 사용자가 유사한 Taste 를 갖는다는 가정이 들어 있는 것인데, 이러한 가정이 맞는다면, 특정 도메인의 정보가 부족한 유저에 대해서도 효과적으로 유저를 분류하고 상품을 추천할 수 있다.