読者です 読者をやめる 読者になる 読者になる

dataminer.me

データマイニングやその周辺のお話を書くブログ

勝負強いという”能力”について(じげんの上場で思ったこと)

はじめに 全然データマイニングとは関係ないけど昔から思っていること。特に今日じげんが上場した今日だから考えをまとめてみようと思います。平尾くんはものすごく尊敬しているし、昔から人として憧れているし、今でも自分の身近に居てどの起業家よりも憧れ…

「あいつ・・・なにやってるの?」データサイエンティストを殺す4つの環境

はじめに タイトルからすぐに誤解を生みそうなので先にいっておくとデータサイエンティストに対してのネガティブな記事ではありません。自分としてはもっと世の中にデータを生かしてビジネスをより良くしていくことに対して価値を感じてくれる組織が一社でも…

データマイニングが苦手なこととDeep Learning(今回はすごくテクノロジーの話)

はじめに いきなり数学っぽいで最近競技データマイニング界(そんな言葉があるかわからないがアルゴリズムの精度を競う大会)「Deep Learning」について調べていて思ったこと。別にDeep Learning自体には触れる気はないのでご興味のある方は以下のスライドを…

『最適化』という魔法の言葉

はじめに データマイニングの仕事をやっているとよく『最適化』という言葉に出くわすことがある。例えば、『データマイニングの技術を使って広告効果を最適化してます』とか『うちのゲームはデータ分析によってユーザーに対して最適なコンテンツを出し分けて…

Big data is like teenage sex(ビッグデータは10代のセックスのようなもの)

Big data is like teenage sex 検索で引っかかったどこぞやの大学の人の言葉を引用してみました。 Big data is like teenage sex: everyone talks about it, nobody really knows how to do it, everyone thinks everyone... http://t.co/tREI1mRQ— danariel…

テクノロジーの価値と普遍的な価値について。Adtech Tokyo 2013で思ったこと。

まずは Adtech Tokyo 2013で思ったこと。といっても、「このテクノロジーは流行る」「これからの時代はこれだ」という話ではなくテクノロジーと販売方法について思ったこと。 今回のAdtechはDSPとかDMPとか、流行のキーワードを売りにしている会社がとにかく…

GoogleSpreadSheetに入力されているデータをHighChartでグラフ化してはてぶにはるテスト

別にGoogle Chartを使ってもいいんだけど、カスタマイズできないしかっこいいグラフ作れないからHighChartとGoogle SpreadsheetとGoogle App Engineでデータをグラフ化するやつを作ってみた。ついでにはてぶにもはれるようにしてみた。 仕様 グラフ自体は以…

ソーシャルメディア×データ分析で見る衆議院選挙の動向

データセクションさんのご好意でTwitterやFacebookに投稿された内容の時系列データをいただいたので、今日は選挙だしソーシャルメディアの情報からいろいろと分析をしてみました(最下部に今回分析したデータの元データも公開しています)。 データについて …

愛され系データマイニング屋に必要な5個のソフトスキル

前回のエントリーではどちらかというと技術的な区分で今回のエントリーではデータマイナーとして持っていると愛される(=仕事を湯水の如くふられる)ために必要なソフトスキルについての経験的なメモ。 せっかくデータマイナーをやるなら、マネーボールのピ…

データマイニングを仕事にする人の生態系

「データマイニングを仕事とする人=データマイナー」はどういう人たちがいるかということについて ビックデータとかで世の中がバズってるけど「僕はデータマイニングをやってます!」といったときに適切にその人がやっている業務領域を把握している人ってか…

グリーを辞めました

タイトル通り「グリーを辞めました」ということで心機一転、はてなダイヤリーからはてなブログに移行して更新を真剣に再開しようかと。 <以下Facebookに記載した内容から転記> グリーには2年前の4月に新卒として入り、ドリランドの担当・編成の担当・FPの…

Ubuntu 11.04でAndroidのテスト環境を作る

会社でAndroidのQAテスト環境が必要になったので、構築したときのメモ sunのJDKとJREを入れる repositoryの追加 >sudo add-apt-repository ppa:ferramroberto/java 一覧をupdateする >sudo apt-get update インストール >sudo apt-get install sun-java6-jre…

CRAN Updated Packages (2010-03-20 - 2010-03-27)

Updated packagesCRAN - Package AMORE A MORE flexible neural network packageCRAN - Package Amelia Amelia IICRAN - Package animation Demonstrate Animations in StatisticsCRAN - Package Bolstad Bolstad functionsCRAN - Package bear Average bioe…

CRAN Updated Packages (2010-03-13 - 2010-03-19)

Updated packagesCRAN - Package agilp Extracting and preprocessing Agilent express arraysCRAN - Package apTreeshape Analyses of Phylogenetic TreeshapeCRAN - Package apcluster Affinity Propagation ClusteringCRAN - Package apsrtable apsrtable…

CRAN Updated Packages (2010-03-06 - 2010-03-12)

Updated packagesCRAN - Package animation Demonstrate Animations in StatisticsCRAN - Package arulesSequences Mining frequent sequencesCRAN - Package BradleyTerry Bradley-Terry Models – this package is now deprecated in favour of 'BradleyTer…

RSCTC2010+そのとき使った解析のフロー

RSCTC2010というのに統計解析のコンテストに出場して(一応)世界で96人中3位になりました。 → http://tunedit.org/challenge/RSCTC-2010-B?m=leaderboard このコンテストが何をやるコンテストだったかというとDNAマイクロアレイのクラスタリングのコンテ…

CRAN Updated Packages (2010-02-27 - 2010-03-05)

Updated packagesCRAN - Package AquaEnv AquaEnv - an integrated development toolbox for aquatic chemical model generationCRAN - Package apcluster Affinity Propagation ClusteringCRAN - Package BLCOP Black-Litterman and copula-opinion pooling…

CRAN Updated Packages (2010-02-20 - 2010-02-26)

Updated packagesCRAN - Package Amelia Amelia IICRAN - Package actuar Actuarial functionsCRAN - Package agricolae Statistical Procedures for Agricultural ResearchCRAN - Package aroma.affymetrix Analysis of large Affymetrix microarray data s…

高速SVDをさらに高速化する

R

前回に書いた高速SVDをさらに高速化する方法すごく賢い方法!というわけではないのででも、賢い方法ではない分導入はとても簡単です。 実行までの道のりは以下の感じ。1.Revolution Rを導入する以前、少し紹介したRevplution Rをインストールするダウンロ…

高速SVD

FastSVDという関数をRで見つけたので 早速使ってみました。 パッケージの作成者が公開している ベンチマークテストを用いて自分のPCで 200×50000の行列をSVDしてみたところ 通常 = 39秒 fastSVD = 17秒 おお、なかなか早くなる。 というわけでRpy2を使って …

CRAN Updated Packages (2010-02-12 - 2010-02-19)

Updated packagesCRAN - Package BioPhysConnectoR BioPhysConnectoRCRAN - Package BiplotGUI Interactive Biplots in RCRAN - Package backtest Exploring portfolio-based conjectures about financial instrumentsCRAN - Package bifactorial Inferences…

はてなダイヤリへの自動投稿

CRANのパッケージのアップデートの状況を週一回くらい日記にポストしようと思ってPythonを使って投稿をしてみた。参考にしたのはこちらhttp://d.hatena.ne.jp/muzila/20090725/1248534479思ったよりも全然簡単にできた。後はこの情報を俺以外に欲しがってい…

CRAN Updated Packages (2010-02-16)

Yesterday's Updated packagesCRAN - Package BioPhysConnectoR BioPhysConnectoRCRAN - Package bifactorial Inferences for bi- and trifactorial trial designsCRAN - Package farmR Mixed Integer model of Arable FarmsCRAN - Package Guerry GuerryCRA…

R Package Update Information (最新版)

Rのパッケージの更新情報を自動アップロードしようとしたわけだが、まだ改良の余地がいっぱい。。。CRAN - Package bvpSolve Solvers for boundary value problems of ordinary differential equationsCRAN - Package contrast A collection of contrast met…

オンラインゲーム業界の構造

バイト先で「業界の不条理さ」について少々聞いたのでハイテク産業の技術経営で有名なキヨノリ(榊原清則先生)の研究会に参加していたときに学んだ知識などを元に少しお話を書いてみる。特にその時学んだ「統合型企業のジレンマ」を元に少し考えてみた(詳…

R+Pythonでダイナミックベイジアンネットワーク

アクセスの結果を見てみると、ダイナミックベイジアンネットワーク関連で検索をかけてきている人が結構いるみたいなのでRとPythonと使ってダイナミックベイジアンネットワークを生成するスクリプトをしたにはってみる。入力に用いることができるデータ形式は…

最近いろいろ思ったこと。

今回のコンテストでもあったことなのだけど、審査員4人中3人が満点、1人が最低点をつけるという事態に出くわした。自分が出るコンペはとにかくよくもめる。リクルートのインターンでやったときももめたらしいし、ほかでももめたという話をよくきく。 今まで…

リコメンデーションコンテスト2009の結果

先ほど、発表が終わり最終的に最優秀賞をいただきました。評価されてよかったです。賞を取れたところで実際、ちゃんとビジネス化できなきゃいけないので、バイト先で頑張りたい。(少し前まで違うエントリーを書いてたけど、適切ではないと思ったのでシンプ…

Yahooオークションを使ってマーケティングをやってみる

修論が一昨日終わったのでヤフオクでリアルマネートレードでゲーム内通貨を買う人(擬似課金しやすいユーザー)の分析をしてどういう趣向を持った人が多いか分析をした (ブランドデータバンクとかと、やりたいことは同じ。) 材料1.Yahoo API Yahoo オーク…

Rを使ったWebサービス

大学の同級生から情報をもらったので読んでみた。 (原文はこちら:http://nsaunders.wordpress.com/2009/11/30/a-brief-survey-of-r-web-interfaces/) 1.Rweb 1999年にアップデートを終了。すごく解析が遅いなどなど、問題いっぱい。2.R-Online 実行…

とにはともかく、リコメンデーションコンテスト予選突破

順位はまだわからないけど、予選を突破しました。最終報告会詳細 日時:平成22年1月30日(土)13時〜 場所:大阪府立大学中之島サテライト3年くらい前に一念発起して、開発スキルを身につけたけど今回のプランは気合重視のプラン(他よりはさすがに開発…

RC2009のビジネスプラン提出完了

結局、本スライド83枚+企画概要2枚になった。分量的には結構気合が入ったものになってるとおもう(笑)ビジネスモデル部門だけど、自分でレコメンデーションエンジンを書いた結果も載せてある。(教師付きLDAとか、NUBBIとかいう方法を見つけて組み込んだ) 既…

TwitterのBotを作ってみた。

今日は飲む用事がなかったので、TwitterのBot:バカ彼女Bot(bakakanobot)を書いてみた。とてもスパゲッティコードなのでとてもとても人に見せられるものじゃないから材料だけ晒します。 材料: Twitter:1アカウント Python:ver2.6.4 MeCab:ver0.98 Goog…

REvolutionRを入れてみた。

手持ちのubuntuのパッケージマネージャをいじくっていたら、REvolutionRを発見。 このパッケージはREvolution Computingが公開しているパッケージでIntel math kernel libraryを使っていたり、使用するコア数を指定できたりと色々高速化がなされている。ベン…

R+Pythonで線形計画法

バイト先の新規タイトルの広告戦略のためにEXCEL→R→Python→出力というややこしい線形計画法のスクリプトを書いてみたExcelで線形計画法をやったことはないけど、多分こっちのほうが早く答えを出せるんじゃないかと思う。使うファイルはこちら(http://www.me…

R+PythonでカーネルPCA(おまけ付き)

昨日の勉強会で「Rは便利だけど、図がかっこよくない」という話になったのでRpyで出力した結果をmatplotlibで出力する場所まで書いてみた。 #!/usr/bin/env python # -*- coding: utf-8 -*- #rpy2が使える環境であることを確認 import numpy as NP import ra…

R+Pythonでランダムフォレスト

レコメンデーションエンジンに搭載するためにR+Pythonを使って、ランダムフォレストを実行するスクリプトを書いてみた。データは以前使用した失業率と円/ドルレートの値。 #!/usr/bin/env python # -*- coding: utf-8 -*- #rpy2が使える環境であることを確…

サンシャイン牧場の要望トピックを見た感想

サンシャイン牧場に関するいろいろな情報を見てて思ったこと。http://d.hatena.ne.jp/Hamachiya2/20091022/literacy というか、↑この記事をみて、その後MIXIの要望トピックをみた感想。個人情報が漏れてたり、運営がひどかったりとよくないのはサンシャイン…

R+Pythonでマルコフ連鎖モンテカルロ

バイト先で広告の効果測定を頼まれたので、前々から興味があったMCMCを使って測定を行った。PythonにはPyMCという専用のパッケージがあるけど、そっちはどうも小難しい感じがしたのでRpyを使って使えるようにしてみた。 使い方はRで回帰分析をするときとほと…

SVDいろいろ

SVDについて色々調べてみた。普通のSVDじゃ、大量のデータを扱いのはきついなぁと思って大量のデータの扱い方を中心に調べてみた。SparseSVDとか、ヘブ則を使ったSVDとかNetflixで有名になったSimonさんが作ったSVDとか。Pythonで実装されているものだったら…

probabilistic LSIとprobabilistic PCA

この二つを最近目にする機会が多い。バイオインフォマティクスをさって少し流浪のデータマイナーになりつつあるが、この手の話題はよく耳に入ってくる。LSIとPCAは相当似ているという話を聞いたことがある (もし間違ったらご指摘ください。)というわけで、…

レコメンデーションコンテスト2009の感想

主に精度部門に関して。ビジネス部門に出ている人間の戯言なので、参考にならないかもしれないが。どうも、上位の人たちと下位の人たちの知識レベルにあまりに差があると思ったので自分が”精度を高める”と言うことだけにエンジンを作るとしたらということを…

プランをパワポに落とし込む

プランをパワポに落とし込んでいるのだが、結果としてBtoBのビジネスモデルになるため、非常に落としどころが難しい。そういえば、BtoCもしくは社内向けの企画しか書いたことがなかった。将来に向けて必要なことだし、頑張ろう。

非常に久しぶりに書いてみる

夏休みの間まるまる書かなかった。毎度のことだけど、大学がある間よりも長期休暇の方が忙しくなる。というわけで、夏休み中にやっていたことをいろいろと書いてみる。 1.某R社の新規事業開発コンテストへの参加夏休みはこの件を主に扱っていた気がする。毎…

判別分析やクラスタリングの精度をよくする技2

後輩の研究のお手伝いをしていて、研究をやる際に気をつけなくてはいけないことのメモ。精度をよくするって分けでもないけど。 1.判別対象を判別するために必要なデータセットに成っているか。仮説ベースの研究がいい研究であるとはいえ、仮説ベースでとって…

fMRIのデータからネットワークデータを作ってみた。

エッジが44万って、どうしろって言うんだよ。俺が使える武器はPythonとRとfortran95/90しかねぇっつうの。 予定では、相関分析で得られたでネットワークをマルコフクラスタアルゴリズム(MCL)でクラスタリングしてクラスターごとの平均値でとって、再度ダイ…

Complex brain networks: graph theoretical analysis of structural and functional systems

いわゆる脳機能計測器(fMRI、EEG、MEG)を使ってネットワークを構築した研究のレビューがNature Neuroscience出てた。やっぱり、途中に「使用するVoxelの数は多すぎるとねぇ」的な文面がある。そこのところで、つまってる人は自分以外にもいるんだな。 今日…

UbiGraph+Ubuntu+Python

大学の発表の(質をごまかす)ためにUbiGraphを入れた。使おう使おうと思っていたので、ちょうどよいタイミングかもしれない。 材料: ・Ubigraph(Ubuntu用)・Open GL用のパッケージ sudo apt-get install libglut3 ・Network解析用モジュールNetworkX sud…

梅酒つけた。

研究室に泊まりで、梅酒を仕込んだ。どうも、酒税法というものは複雑らしくアルコール度数が20を越えているお酒で梅酒を作らないと厳密には酒税法に引っかかるらしい。ということを知らずに、適当にスカイウオッカをかった。20を越えててよかった。 本当は、…

某Rのビジネスコンテストの手伝い

このメモ帳に出てくるRの90%は統計解析言語Rだけど10%くらいは人材系会社のRの話になる(と思う)。大学の名前が入ったアドレスを持ってるということは非常に便利なことでヒアリング調査が非常に楽だ。ぶっちゃけ、飛び込みで営業にいっても、ある程度…