dataminer.me

データマイニングやその周辺のお話を書くブログ

判別分析やクラスタリングの精度をよくする技1

まったくもって、データベースマーケティングとか、

そういったもので使えるものではないが

普通に研究レベルで使う技から

卒業論文や修士論文、場合によっては学会発表くらいまでだったら、

”体裁を整える”と言う意味で使えるものかもしれない技まで。

(業務用では使っちゃダメだと思う)


1.交差検証(復元抽出・非復元抽出)

英語で言えば、クロスバリデーションと言うもの。

自分の持ってるデータセット

ランダムにテストデータと学習データに分割→判別orクラスタリング

を連続で行って判別精度や分類精度を観察する方法。

業務用で使っちゃまずいと思うけど、論文とかでもよく見る。


2.変数選択(AICとか、BICとか、ステップワイズ)

偏 F 値とか尤度とかを使って、学習に用いる変数を選択する手法。

1の方法と合わせて使うことがよくある。

でも、交差検証と一緒に使うと実際の判別式自体を立式するときに

不安になるので、できれば1といっしょには使いたくない。


3.カーネルトリックガウスカーネルとか、シグモイドカーネルとか)

学習データを一次元のデータで扱うのではなくそれぞれの関係性として

学習させる方法(とてもわかり感覚的にわかりづらい)

簡単に言うと、Aという値だけではなく

AとBとの差とか、AとCとの差とかから、Aという値を考える方法。

バイオインフォ系の論文とかだと、無駄にはやった。

でも、バイオインフォだとカーネルトリックを使った挙句

線形分離をすることが多いので、もしかしたらスペクトラルクラスタリングとか

つかって分類するのはまだまだ行われるかも。