判別分析やクラスタリングの精度をよくする技1
まったくもって、データベースマーケティングとか、
そういったもので使えるものではないが
普通に研究レベルで使う技から
卒業論文や修士論文、場合によっては学会発表くらいまでだったら、
”体裁を整える”と言う意味で使えるものかもしれない技まで。
(業務用では使っちゃダメだと思う)
1.交差検証(復元抽出・非復元抽出)
英語で言えば、クロスバリデーションと言うもの。
自分の持ってるデータセットを
ランダムにテストデータと学習データに分割→判別orクラスタリング
を連続で行って判別精度や分類精度を観察する方法。
業務用で使っちゃまずいと思うけど、論文とかでもよく見る。
2.変数選択(AICとか、BICとか、ステップワイズ)
偏 F 値とか尤度とかを使って、学習に用いる変数を選択する手法。
1の方法と合わせて使うことがよくある。
でも、交差検証と一緒に使うと実際の判別式自体を立式するときに
不安になるので、できれば1といっしょには使いたくない。
3.カーネルトリック(ガウスカーネルとか、シグモイドカーネルとか)
学習データを一次元のデータで扱うのではなくそれぞれの関係性として
学習させる方法(とてもわかり感覚的にわかりづらい)
簡単に言うと、Aという値だけではなく
AとBとの差とか、AとCとの差とかから、Aという値を考える方法。
バイオインフォ系の論文とかだと、無駄にはやった。
でも、バイオインフォだとカーネルトリックを使った挙句
線形分離をすることが多いので、もしかしたらスペクトラルクラスタリングとか
つかって分類するのはまだまだ行われるかも。