dataminer.me

データマイニングやその周辺のお話を書くブログ

判別分析やクラスタリングの精度をよくする技2

後輩の研究のお手伝いをしていて、

研究をやる際に気をつけなくてはいけないことのメモ。

精度をよくするって分けでもないけど。


1.判別対象を判別するために必要なデータセットに成っているか。

仮説ベースの研究がいい研究であるとはいえ、仮説ベースでとってくるデータは

ときたま判別にまったく役立たないデータのことがある。

とりあえず、これの解消法は

自分の必殺判別器・分類器セットを作っておくことだと思う。

例えば、重回帰・正準相関分析・SVM(写像の関数を何個か持っておく)

をデータを入れて寝ている間にやってくれるものとか。

全部の値に対して、平均の検定をやるのも効果的だと思う。

これで、ある程度の閾値を越えた場合のみ新規手法を適応してみるとか。



2.判別精度が上がるデータセット群が何かを把握しておく

何らかの制約条件をつけたり、入力データを変更する場合

(例えば、複数のカーネルを用いて解析する場合)

どういうデータが手に入れば、判別精度が向上するかを知っておく必要がある。

いちいち判別器にかけるよりも、必要なデータセットを把握しておけば

最悪、主成分分析か特異値分解をかけて相関をとれば概算はできる。


この二つは検っ球の出発地点でやってもいいと思う。

正直、余裕のある教員だったら、1くらいは学生のためにやってあげても

いいと思う。