多様性の導入による推薦システムにおけるユーザ体験向上の試み
著者・所属機関・投稿日付
関 喜史, 福島 良典, 吉田 宏司, 松尾 豊
株式会社 Gunosy, Gunosy Inc. 東京大学, University of Tokyo
2017/02
概要(一言まとめ)
実サービス上にて、推薦システムに多様性を導入することで、ユーザのサービス継続率に寄与することを示した
新規性(何が過去の研究に比べて凄い?)
従来の推薦システムの多様性に関する研究はユーザへのアンケートにより検証されており、明示的なフィードバックを指標として用いていた。本論文では実サービスにおいて、多様性を導入した推薦システムの方が中長期的な観点で、継続率が有意に向上していることを示した。ユーザの印象ではなく、ユーザ行動に関してどのような影響を与えるか検証した
手法の概要
- 既存システムと多様性のある推薦システムの概要
既存システムはアイテムとユーザの特徴を用いたコンテンツベースフィルタリング
ユーザ減衰モデルはTDA(Topic Diversification Algorithm)をベースにして、既存システムよりも多様性を導入するためのロジック
-
比較に使用した指標
- ILS(Intra List Similarity) リスト内のすべてのアイテムの組み合わせの類似度の総和
$$ILS(P_{w_i}) = \frac{\sum_{b_k \in P_{w_i}} \sum_{b_e \in P_{w_i},b_k \neq b_e} c_o(b_k,b_e) }{2}$$
既存システムと多様性のある推薦システムとの多様性の比較
- ovarlap 元の推薦リストと多様性のある記事リストが何件一致しているかを示す指標
提案手法ではoverlapが$8.06$, 既存システムと比較して約 $\frac{2}{3}$ の記事が変化している
-
実験条件
-
期間 2012年の8月から12月に既存システムによってサービスを提供する期間と、ユーザ減衰モデルによってサービスを提供する期間に分けている それぞれの期間における新規登録ユーザのサービス内でのユーザ行動を比較した
-
人数 既存システムによるサービスを受けたユーザは3,465人、ユーザ減衰モデルによるサービスを受けたユーザは3,482人であった
-
どうやって有効だと検証した?
多様性があることの優位性を示すために、ユーザの行動(クリック)の関係をみて、クリック数と順位の関係などから、仮説立てを行い、検証を継続率などのオンライン評価比較することで優位性を示した
週次での継続率・利用日数を見ている
利用日数については$\chi^2$検定にて、平均利用日数はt検定で判定している。どちらもユーザ減衰モデルが高い、という結果になった
また、継続している人が多いため登録数週間後におけるクリック率は高くなっている
平均クリック数の比較。3、4週目におけるユーザ減衰モデルは、既存システムよりも有意に大きい、また、アイテムリストの11段目以降について、ユーザ減衰モデルは上昇していってる
図6によると4週目にはリスト全体でユーザ減衰モデルのほうがクリック率が上回る傾向にある
-
各表示位置において多様性を導入することによってクリック率に対して悪影響が出ていない
-
利用日数が伸びるにしたがってユーザ減衰モデルの方がより クリック数が多くなることが明らか
議論はある?
各手法でユーザの登録期間は異なるが,実験期間において手法の変更以外のサービスのアップデートはデザインなども含めて行われてはいないため,実験として期間の違いは問題にならないと考えている.
->ABテストにて比較していないのは大丈夫だろうか。変化を実数ではなく割合でみているから、人数などの数値の影響はなさそうだが
リスト下部のクリック数が既存システムではサービスへの飽きから徐々に下がっていくのに対し,ユーザ減衰モデルではリスト下部のコンテンツのユーザとのマッチング精度が向上していくことにより,リスト全体のクリック率がユーザ減衰モデルにおいて長期で高い値になっていることが考えられる.
->コンテンツの下の方まで見るような、ちゃんと?使うユーザに対して有効な指標のような気もする。興味を引きそうなコンテンツがあるか(マッチング精度の高いコンテンツ)でユーザを引き付けておいて、日常的に使うようになったら多様性のあるコンテンツを出すなど、フェーズによって使い分けると効果的なのかも、と思った
次に読むべき論文は?
その他調べたことまとめメモ
- 多様性(Diversity)
多様性は推薦システムが提示するリスト内には様々なコンテンツが含まれるべきという考え方。過去の研究では多様性が含まれるリストの方がユーザに 好まれるとされている
多様性を含んだリストをユーザに提示するとユーザは自分に最適化されていないものが含まれていることは認識するが、多様性が含まれたものを好むという結果が報告されている。
- Topic Diversification Algorithm (TDA)
多様性を表す指標 Intra-List Similarity と,関連度順に与 えられた推薦リストから多様性を持った推薦リストを生成する
TDA は既に関連度順に並んでいるアイテムリスト L があるときに,そのリストを多様性を持 つように並び替えたリスト $L_{diver}$ を構築することを目的としている.
ここで多様性リスト$L_{diver}$はもともとのリスト L と同じ長さかそれより短いものとする.
$c(l, p)$: アイテムリストlとアイテムpの類似度
$rank(p, l)$: アイテムpのアイテムリストlないでの位置を表す
$L(i)$: リストないのi番目のアイテムすなわち $rank(L(i), L) = i$とかける(Lはrank順に格納されている)
TDA ではまず $L_{diver}(0) = L(0)$ $L_{diver}$に含まれないLないのアイテムリスト
$L_{-diver}$から$L_{diver}$にアイテムを1つずつ追加していく
$L$ => $L_{diver}$として追加していき
$L_{-diver}$ないのアイテムpとリスト$L_{diver}$との類似度$c(L_{diver},p)$の昇順(似てない順)になるようにソートしたリスト$L_{similar}$($L_{diver}$と似てないアイテムが並ぶ) を構築し
以下の条件を 満たすpを$L_{-diver}$の末尾に加える.
$$ \min_{p}( (1−α) × rank(p,L) + α × rank(p,L_{similar}) ) $$
pが元のリストLよりも似てない順で並んだ時の方が上の時ほど、選ばれやすくなる
は既に作られているリストとの類似度の少なさの順位と,推薦システムとしての関連度 の順位を平均した順位が最も高いアイテムを選ぶ
αが高くなると多様性は高まる(類似度が低いものが混ざりやすくなる)
アンケートによる実験の結果ユーザはαが 0.3~0.4のリストを最も好むと報告されたことが知られている
要点・感想
-
レコメンドにおける多様性(Diversity) という指標に着目して実験を行い、従来の精度(Accuracy)による検証と異なる点を考察している
-
例えばカテゴリーの種類がどのくらい似通っているか、を類似度としておく。類似度が高いと多様性は低く、類似度が低いと多様性は高い
-
多様性→好感度(飽きさせない)→継続率のロジックの流れがきれいに証明されていて良い
グノシーはニュース配信サービスなので、定期的に情報が入れ替わる、かつ目新しい(と感じる)コンテンツを出し続けることでユーザのリテンションを高めて、収益をあげるような仕組みを作るメリットがあるのだろうか
検定手法
従来の手法との有意差を検証するために、継続率にはカイ二乗検定を平均利用日数、平均クリック数にはt検定を用いている