dataminer.me

データマイニングやその周辺のお話を書くブログ

データマイニングを仕事にする人の生態系

データマイニングを仕事とする人=データマイナー」はどういう人たちがいるかということについて

 

ビックデータとかで世の中がバズってるけど「僕はデータマイニングをやってます!」といったときに適切にその人がやっている業務領域を把握している人ってかなり少ないと思う。

 

グリーで働いていたときもデータマイナーはどういった仕事をしていて、何をやっていて何ができるのかっていうことを理解していなくてミスコミュニケーションが生まれていたと思うのでちょっとその生態系についてまとめてみた。おそらく、データマイナーといわれる人は以下のタイプがいる:

 

研究開発をする人

統計学的に新しいイノベーションを起こせる人。GooglePageRankアルゴリズムを作りましたとか、NetfrixやAmazonのレコメンデーションエンジン作りましたとかいう人がこれにあたる。スキル的には統計学にかなり長けている必要があり、その他にもいわゆる計算機科学にも詳しい必要がある。

 

ログコレクションを行っている人

Apacheのログとかを回収して、適切な部分だけ切り出してきてDBとかに格納してKPIツールや集計結果を利用する人にデータを提供する人たち。かなり職人気質でガチガチのエンジニア。スキル的にはHadoopとか、Fluentdとか、KVS/RDBなどに関するスキルを有していることが多い。

 

機械学習/統計学を使う人(エンジニア)

主に機械学習のアルゴリズムや最適化手法をサービスやコンテンツに実装する人たち。ログコレクションをする人と同様に予備実験のためにアドホックにHadoopを使ったりもする。スキル的には機械学習統計学の知識とともに、Webフレームワークやサーバーサイドの知識も有していることが多い。MahoutとかRとか使えると尚可。

 

機械学習/統計学を使う人(文系職)

機械学習/統計学を使う人(エンジニア)からWeb関連の知識を抜いた感じの人たち。機械学習統計学の専門家でWebやDBの知識を有していることなんてほとんどないので機械学習に関する知識を持っている人を雇う場合ほぼこちらになると思う。データはSQLやデータマートにあるものを使うし、サービスに適応するときはWebエンジニアの助けが必要。スキル的は機械学習の知識や統計学の知識を求められ、文系職とはいえほぼ全員プログラミングスキル、RやSASSPSSなどの統計言語およびSQLなどの知識を有することを求められる。

 

ビジネスインテリジェンスな人

主にExcelやPPTなどを使って意思決定用の資料の作成を行う人。とにかく数値をミスらずに出すことや数値を見続けても拒絶反応を起こさないことを求められる。ただし、多くのデータマイナーを自負している人間はこの業務を嫌っており、逆に多くのデータマイナーに仕事を依頼してくる人が求めている業務というアンバランスな存在。スキル的にはExcelの関数や高速でPPTを作成する力などに加えて、Excelというプラットフォーム上で動作するソリューションを使えると重宝される、VBAとかSQLサーバーとか、最近だとDataNitroとか面白いかもしれない。

 

データ分析コンサル的な人

(ちょっと番外編な業務だが)分析対象のKPI設計やBIツールの導入など分析に関するまとめの仕事をする人。その他の業種と比べるとどちらかというと営業に近い職業で各タスクを上記のどのタイプの人にふるかを考えたり、定義したりする。スキル的にはデータマイニングに関するTipsや最新の情報とかを知っていると重宝される。

 

 

正直、上記の業務区分が一般的なのかも、日本だけで世界的には違うのかとかわからないくらい、この業種は黎明期の業種だったりする。なので、別の働き方や価値の創出の仕方があることを知っている人がいたら、ぜひ教えてもらいたい。