読者です 読者をやめる 読者になる 読者になる

dataminer.me

データマイニングやその周辺のお話を書くブログ

「あいつ・・・なにやってるの?」データサイエンティストを殺す4つの環境

はじめに

タイトルからすぐに誤解を生みそうなので先にいっておくとデータサイエンティストに対してのネガティブな記事ではありません。自分としてはもっと世の中にデータを生かしてビジネスをより良くしていくことに対して価値を感じてくれる組織が一社でも増えてほしいと思っているし、その際にはデータサイエンティストが不可欠な機能だと思っているのでどうやったらデータやデータサイエンティストを組織で最大限活用できるかということに対する反面教師的な内容だと思ってほしいです。

 

組織におけるデータサイエンティストの立ち位置について

「データの分析をタダで引き受けてはならない10の理由」って記事が最近バズっていたけど客観的に見て同じような悩みを抱えている「データサイエンティスト」っていわれる人ってすごく多いんだろうなって思います。最近、ビックデータもしくはデータサイエンティストブームに踊らされて、組織内で「データサイエンティスト」であったり、「ビックデータ担当」と言われる立場の人が増えていてそういう立場を作ってしまった会社から「どうしたらいいか」みたいなことを相談される機会がよくあります。その多くの場合はデータサイエンティストの役割を「データベースから”注文されたデータ”を取り出してくる人」であったり、「”ビックデータ”に責任を持っている人」っていう立場の人としてしまっていることが多いと思います。その結果、引き起こされている現象が引用したブログで言及されている様な自体が起こっているんだと思います。で、そういう自体が起こりやすい状況を個人的にまとめた内容が「データサイエンティストを殺す4つの環境」です。

 

データサイエンティストを殺すための4つの環境

1.データサイエンティストの評価者がデータサイエンティストじゃないケース

データを生かす環境が元々なくてSQLすら使えない人もしくはエンジニア出身でSQLをたたくことに対してたいして工数を感じていない人がデータサイエンティストを評価をする立場にいる場合、データサイエンティストは「よくわからないけど作業に時間が掛かるやつ」って思われてしまうことが多いと思っています(これは元のブログでも言及されていることですが)。例えば、ABテストを社内でやった結果を分析して欲しいと言われた場合、ちゃんとした統計を学んでいる人であれば、元と比べて平均で200%の改善幅があろうが105%の改善幅だろうが統計的に有意な差(t検定などによる差)がないと意味がないと思っていると思います。でも、多くの意思決定において「平均」という言葉は一番わかりやすく誰でも理解できる指標なので200%の改善幅があれば統計的に有意な差がなくても「施策が成功した」と判断します。本来的には統計的に有意に改善がされるケースであれば改善幅が105%だろうが、200%だろうがそれは「施策が成功した」と判断すべきです。ただ、それをデータサイエンティストとして証明するコストは非常に高くそのコストを勘違いされてしまうケースはとても多いと思います。

 

2.データサイエンティストが新しい発見をしてくれると思っているケース

元も子もないのですが、過去のデータの中には「誰も気づかなかった発見」が含まれていることはかなりまれです。データマイニングを使った例として「ビールとおむつ」がすばらしい結果として紹介されているが故に割とよく勘違いされることが多いと思います。別にビールの横におむつを置くことが最善の陳列戦略じゃなくておそらくビールの近くには「おつまみ」を置くことが最適だと思うし、おむつの近くには「粉ミルク」を置くことが最適だと思います。ただ、その何個かの候補の中に「ビールとおむつ」という組み合わせという驚きの結果が出たことによってデータマイニングが新たな発見をする手段として認識されてしまったのだと思います。でも、実際はデータ分析が本来的に出すべき価値は「何も知識のない状況から最適な答えを最速で出す」ということで、多くの場合「当たり前の結果」が出た場合に「そんなの知ってるよ」とか、逆に驚きの結果が出たときに「直感に反するから間違ってる」と言われてしまうことが多いのではないかと思います。そうすると「データサイエンティスト」は「当たり前のこともしくは直感に反する間違ったことをいう人」と思われて組織内でいらない人と思われしまうことが多いと思います。

 

3.データ分析専業の組織がデータを出すことを目標にされているケース

会社的には「しっかりした役割と環境を提供した」という認識だと思いますが、これも結果として不幸な結果を生んでしまうケースが多いと思っています。この場合にデータを出すための「データサイエンティスト」と「データを生かす事業部門」が存在します。一般的に事業会社において事業部門は花形部門です。でも、こういうケースではデータサイエンティストは「花形部門に指示をする人」という立ち位置になりやすく事業部門にいる人にとっても「自分で仮説を立てて作った企画」と「誰かに言われて作った企画」とでは失敗したときの納得感が違います。理想的には「元々事業部にいた人がデータサイエンティストになる」ケースか「データサイエンティストが出した結果をうまく生かした事業部が評価される」ケースでないとデータサイエンティストは邪魔者になってしまうことが多いと思っています。

 

4.勘や経験がすごく冴え渡っていて順風満帆な組織に参加させるケース

会社の事業としてすごく望ましい状況だし、事業として余裕があるからそれをドライブするためにデータサイエンティストを参加させたいという会社はよくあると思います。経営陣からしたら「成功パターンをデータによってスケールアウトさせたい」という意図があると思いますが、データサイエンティストが不幸になるパターンの一個だと思っています。なぜかというと、この状況だと既に”みんなが直感的にわかっているやんわりとした答え”を持っているのでデータサイエンティストは例えその状況が単なる”バブル”かも知れなくて”データ的にはとてもリスキー”な状態だとしてもデータサイエンティストは今が正解であるデータ以外を出すことができなくなります。誠実なデータサイエンティストであればあるほどこの状況では評価がされなくなるし、「あいつは間違ったデータを出している」というレッテルを張られ、話を聞いてもらえなくなります。

 

最後に

自分がまえまでいたグリーでのデータ活用の事例が「ビックデータの衝撃」という本のグリーの章にインタビューとして掲載されています。グリーや今いる会社自分が代表をやっている子会社では「殺される環境」がないハッピーな環境が整っていたと思っています。逆に「殺される環境」でなくて本当に良かったなとことあるごとに思っていたりもしたのでこういった記事を書かせていただいていたりもします。

 

ビッグデータの衝撃――巨大なデータが戦略を決める

ビッグデータの衝撃――巨大なデータが戦略を決める

 

 

データドリブンな考え方は事業において「間違い」を極力減らすことができる最良な方法の一個だと思っていますし、そういった組織が一社でもデータドリブンな環境に価値を感じてくれる会社が増えてくれるといいのになって思います。