dataminer.me

データマイニングやその周辺のお話を書くブログ

probabilistic LSIとprobabilistic PCA

この二つを最近目にする機会が多い。

バイオインフォマティクスをさって少し流浪のデータマイナーになりつつあるが、

この手の話題はよく耳に入ってくる。

LSIとPCAは相当似ているという話を聞いたことがある
(もし間違ったらご指摘ください。)

というわけで、pLSIもpPCAもほとんど同じものだと思っていたのだが

どうも、前提としている確率分布の形が異なっているらしい。

そのため、それぞれ有効な場面が異なるそうだ。

pPCAは正規分布を仮定した確率モデルで

pLSIは多項分布を仮定した確率モデルらしい。

レコメンデーションエンジンに使うなら

pLSIの方が都合が良さそうだ。

参考にした資料
http://www.cs.pitt.edu/~milos/courses/cs3750/lectures/plsa.pdf