probabilistic LSIとprobabilistic PCA
この二つを最近目にする機会が多い。
バイオインフォマティクスをさって少し流浪のデータマイナーになりつつあるが、
この手の話題はよく耳に入ってくる。
LSIとPCAは相当似ているという話を聞いたことがある
(もし間違ったらご指摘ください。)
というわけで、pLSIもpPCAもほとんど同じものだと思っていたのだが
どうも、前提としている確率分布の形が異なっているらしい。
そのため、それぞれ有効な場面が異なるそうだ。
pPCAは正規分布を仮定した確率モデルで
pLSIは多項分布を仮定した確率モデルらしい。
レコメンデーションエンジンに使うなら
pLSIの方が都合が良さそうだ。
参考にした資料
http://www.cs.pitt.edu/~milos/courses/cs3750/lectures/plsa.pdf