判別分析やクラスタリングの精度をよくする技2
後輩の研究のお手伝いをしていて、
研究をやる際に気をつけなくてはいけないことのメモ。
精度をよくするって分けでもないけど。
1.判別対象を判別するために必要なデータセットに成っているか。
仮説ベースの研究がいい研究であるとはいえ、仮説ベースでとってくるデータは
ときたま判別にまったく役立たないデータのことがある。
とりあえず、これの解消法は
自分の必殺判別器・分類器セットを作っておくことだと思う。
例えば、重回帰・正準相関分析・SVM(写像の関数を何個か持っておく)
をデータを入れて寝ている間にやってくれるものとか。
全部の値に対して、平均の検定をやるのも効果的だと思う。
これで、ある程度の閾値を越えた場合のみ新規手法を適応してみるとか。
2.判別精度が上がるデータセット群が何かを把握しておく
何らかの制約条件をつけたり、入力データを変更する場合
(例えば、複数のカーネルを用いて解析する場合)
どういうデータが手に入れば、判別精度が向上するかを知っておく必要がある。
いちいち判別器にかけるよりも、必要なデータセットを把握しておけば
最悪、主成分分析か特異値分解をかけて相関をとれば概算はできる。
この二つは検っ球の出発地点でやってもいいと思う。
正直、余裕のある教員だったら、1くらいは学生のためにやってあげても
いいと思う。