読者です 読者をやめる 読者になる 読者になる

dataminer.me

データマイニングやその周辺のお話を書くブログ

データマイニングが苦手なこととDeep Learning(今回はすごくテクノロジーの話)

はじめに

いきなり数学っぽいで最近競技データマイニング界(そんな言葉があるかわからないがアルゴリズムの精度を競う大会)「Deep Learning」について調べていて思ったこと。別にDeep Learning自体には触れる気はないのでご興味のある方は以下のスライドを見てみてください:

日経ビジネスのDeep Learningの記事

http://www.ymatsuo.com/papers/DeepLearningNikkei.pdf

一般的なDeep Learning

http://www.slideshare.net/pfi/deep-learning-22350063

ざっくりと何がすごいかというと「汎用的な特徴の集合から複雑な特徴を勝手に解釈してくれる」らしい。そりゃ一般的なサービス開発に向いてるよねと思ったら、しっかりとこのアルゴリズムを作った人の会社はGoogleにすぐに買収されてた。そして、Google の画像検索の精度をものすごく上げたらしい。

ニューラルネットワークについて軽く

人間の脳が知識を取得する過程を神経細胞(ニューロン)レベルでPC上に再現ようという研究。歴史的には戦後くらいから始まった研究で、それ以降主に人間の学習過程をモデル化するために行われている。

なんでこの技術が注目されているか

Deep Learningが注目されている理由はデータマイニングが一番苦手だった「応用力」を身につけているところだと思う。一般的にデータマイニングは「どういう入力データ」を「何を目標に使うか」の2点がそろっていないと価値を発揮することができない。逆に言うとデータがそこそこ意味付けがされていて、目標が明確な場合以外うまく応用できない。例えば、最近注目されていた電脳戦(アルゴリズム vs 人間の将棋の試合)のシステムはそのままの入力データでは他のゲームに応用することができない。でも、このDeep Learningの技術はそれを解決してくれる技術らしい。

この技術で成し遂げられること

上の日経ビジネスの記事にも書かれているように大量の”猫”の”顔”を認識させることで汎用的な”顔”という特徴を認識できるようになるらしい。今までの技術では”猫”の”顔”を認識させても”猫の顔”しか認識できるようにならなかったが機械的に”猫”と”顔”いう概念を理解して似たような特徴を持っているものを猫の××であったり○○の顔であったりといった部分的な特徴を勝手に判定できるとのこと。結構これはすごいことでうまく応用していくと「○○が好きな人」の○○を汎用的にみつけることができたり、「××に興味がある人」って言うのに関しても特定の目的を持ったデータセットを用意しなくても得ることができそう。これはレコメンデーションや広告の最適化とかにものすごく役に立つ気がする。

というわけで

弊社(Intimate Merger社)でもこの技術のプロダクトへの応用を検討中。デジタルマーケティングの領域でもマーケティングプランが多様化してきていることもあり、柔軟なターゲティングや特徴に対しての対応が求められ始めている気がする。Deep Learningに詳しい人も親会社(PFI)に多いし、いろいろと検討範囲を考えてみたい。

『最適化』という魔法の言葉

はじめに

データマイニングの仕事をやっているとよく『最適化』という言葉に出くわすことがある。例えば、『データマイニングの技術を使って広告効果を最適化してます』とか『うちのゲームはデータ分析によってユーザーに対して最適なコンテンツを出し分けている』とか。

自分も困ると『データマイニングにより最適化を行ってます』と話しちゃうことが多い。そりゃ「最適化=最も適した状態にすること」なんだから話を聞いた相手もぐうの音も出ないから相手を説得しやすい。

でも、最適化って「どう最適化するか=データマイニング技術」よりも「何を最適化するか=何をKPIにするか」の方がお金儲けに直結するし、そここそがデータマイニングのコアになっていることが多いと思うので、それに関する個人的な意見。

例として広告における最適化

CPA最適化」とか「CTR最適化」とか。ネット上でとれる数値に対して最適って言う文脈で出ることが多い気がする。確かにデジタルマーケティングの領域で効果って言うとCPAとかCTRとかネット上ではかれる指標によりがちになる。実際は下の図みたいな感じで実はネット上ではかれる数字なんて広告を見せた人の中から0.1%位だったりする。ECサイト見たいにわかりやすくWeb上のゴールに存在する場合はCTRとか、CPAとかを最適化することはリーズナブルだと思う。

f:id:yanashi:20131006063509p:plain

 

という訳で調べてみた

ネットリサーチのある会社さんに協力いただいてバナーのネット上の効果(CTRとか、CPA)と認知度とかイメージとかの調査をしてみた。ちゃんとパーミッションは取ってクッキーをトラッキングさせてもらい、広告配信のログとひもづけさせてもらった。

 

CTRを上げることと商品に対するイメージのギャップ

ネットで配信したバナーのCTRと認知率(あなたはこの商品を知ってますか?という質問)について調査した結果が以下の感じ。CTRと認知度は実際は違ったりする。お客様のマーケティング上のゴールによりけりだけど、目標のKPIを適切に設定しないと最適にするパラメーターは異なりそう。当たり前かもしれないけどCTRと認知率が常に深く関連しているとは言い切れなそう。

f:id:yanashi:20131006063520p:plain

 

もっと詳細に「イメージ」に対するアンケートも取ってみた。そうするとバナーのクリエイティブごとに全然違うイメージを持ったりすることもわかる。プロダクトに対する何のイメージを最適化するかということによっても最適化する対象は異なる。

f:id:yanashi:20131006063522p:plain

 

まとめ

いけてるアルゴリズムの研究やそれを応用したプロダクトって言うものはいっぱいあるけど、それ以上に何を最も適した状態にするってことがいちばん重要だと個人的には思っている。DSPとかDMPとかそういったものによって特定の人に対して特定のアクションをとれるようになっていたりする。僕らもそういった環境が構築されつつあるのだから、そのメリットを最大限に生かしてクライアントが理想とする何か=KPIに対して最適化を行えるような柔軟な何かをちゃんと作っていくことが本当に価値のある「どう最適化するか=データマイニング技術」を世の中に提供できること何じゃないかと思う。