dataminer.me

データマイニングやその周辺のお話を書くブログ

とにはともかく、リコメンデーションコンテスト予選突破

順位はまだわからないけど、予選を突破しました。最終報告会詳細 日時:平成22年1月30日(土)13時〜 場所:大阪府立大学中之島サテライト3年くらい前に一念発起して、開発スキルを身につけたけど今回のプランは気合重視のプラン(他よりはさすがに開発…

RC2009のビジネスプラン提出完了

結局、本スライド83枚+企画概要2枚になった。分量的には結構気合が入ったものになってるとおもう(笑)ビジネスモデル部門だけど、自分でレコメンデーションエンジンを書いた結果も載せてある。(教師付きLDAとか、NUBBIとかいう方法を見つけて組み込んだ) 既…

TwitterのBotを作ってみた。

今日は飲む用事がなかったので、TwitterのBot:バカ彼女Bot(bakakanobot)を書いてみた。とてもスパゲッティコードなのでとてもとても人に見せられるものじゃないから材料だけ晒します。 材料: Twitter:1アカウント Python:ver2.6.4 MeCab:ver0.98 Goog…

REvolutionRを入れてみた。

手持ちのubuntuのパッケージマネージャをいじくっていたら、REvolutionRを発見。 このパッケージはREvolution Computingが公開しているパッケージでIntel math kernel libraryを使っていたり、使用するコア数を指定できたりと色々高速化がなされている。ベン…

R+Pythonで線形計画法

バイト先の新規タイトルの広告戦略のためにEXCEL→R→Python→出力というややこしい線形計画法のスクリプトを書いてみたExcelで線形計画法をやったことはないけど、多分こっちのほうが早く答えを出せるんじゃないかと思う。使うファイルはこちら(http://www.me…

R+PythonでカーネルPCA(おまけ付き)

昨日の勉強会で「Rは便利だけど、図がかっこよくない」という話になったのでRpyで出力した結果をmatplotlibで出力する場所まで書いてみた。 #!/usr/bin/env python # -*- coding: utf-8 -*- #rpy2が使える環境であることを確認 import numpy as NP import ra…

R+Pythonでランダムフォレスト

レコメンデーションエンジンに搭載するためにR+Pythonを使って、ランダムフォレストを実行するスクリプトを書いてみた。データは以前使用した失業率と円/ドルレートの値。 #!/usr/bin/env python # -*- coding: utf-8 -*- #rpy2が使える環境であることを確…

サンシャイン牧場の要望トピックを見た感想

サンシャイン牧場に関するいろいろな情報を見てて思ったこと。http://d.hatena.ne.jp/Hamachiya2/20091022/literacy というか、↑この記事をみて、その後MIXIの要望トピックをみた感想。個人情報が漏れてたり、運営がひどかったりとよくないのはサンシャイン…

R+Pythonでマルコフ連鎖モンテカルロ

バイト先で広告の効果測定を頼まれたので、前々から興味があったMCMCを使って測定を行った。PythonにはPyMCという専用のパッケージがあるけど、そっちはどうも小難しい感じがしたのでRpyを使って使えるようにしてみた。 使い方はRで回帰分析をするときとほと…

SVDいろいろ

SVDについて色々調べてみた。普通のSVDじゃ、大量のデータを扱いのはきついなぁと思って大量のデータの扱い方を中心に調べてみた。SparseSVDとか、ヘブ則を使ったSVDとかNetflixで有名になったSimonさんが作ったSVDとか。Pythonで実装されているものだったら…

probabilistic LSIとprobabilistic PCA

この二つを最近目にする機会が多い。バイオインフォマティクスをさって少し流浪のデータマイナーになりつつあるが、この手の話題はよく耳に入ってくる。LSIとPCAは相当似ているという話を聞いたことがある (もし間違ったらご指摘ください。)というわけで、…

レコメンデーションコンテスト2009の感想

主に精度部門に関して。ビジネス部門に出ている人間の戯言なので、参考にならないかもしれないが。どうも、上位の人たちと下位の人たちの知識レベルにあまりに差があると思ったので自分が”精度を高める”と言うことだけにエンジンを作るとしたらということを…

プランをパワポに落とし込む

プランをパワポに落とし込んでいるのだが、結果としてBtoBのビジネスモデルになるため、非常に落としどころが難しい。そういえば、BtoCもしくは社内向けの企画しか書いたことがなかった。将来に向けて必要なことだし、頑張ろう。

非常に久しぶりに書いてみる

夏休みの間まるまる書かなかった。毎度のことだけど、大学がある間よりも長期休暇の方が忙しくなる。というわけで、夏休み中にやっていたことをいろいろと書いてみる。 1.某R社の新規事業開発コンテストへの参加夏休みはこの件を主に扱っていた気がする。毎…

判別分析やクラスタリングの精度をよくする技2

後輩の研究のお手伝いをしていて、研究をやる際に気をつけなくてはいけないことのメモ。精度をよくするって分けでもないけど。 1.判別対象を判別するために必要なデータセットに成っているか。仮説ベースの研究がいい研究であるとはいえ、仮説ベースでとって…

fMRIのデータからネットワークデータを作ってみた。

エッジが44万って、どうしろって言うんだよ。俺が使える武器はPythonとRとfortran95/90しかねぇっつうの。 予定では、相関分析で得られたでネットワークをマルコフクラスタアルゴリズム(MCL)でクラスタリングしてクラスターごとの平均値でとって、再度ダイ…

Complex brain networks: graph theoretical analysis of structural and functional systems

いわゆる脳機能計測器(fMRI、EEG、MEG)を使ってネットワークを構築した研究のレビューがNature Neuroscience出てた。やっぱり、途中に「使用するVoxelの数は多すぎるとねぇ」的な文面がある。そこのところで、つまってる人は自分以外にもいるんだな。 今日…

UbiGraph+Ubuntu+Python

大学の発表の(質をごまかす)ためにUbiGraphを入れた。使おう使おうと思っていたので、ちょうどよいタイミングかもしれない。 材料: ・Ubigraph(Ubuntu用)・Open GL用のパッケージ sudo apt-get install libglut3 ・Network解析用モジュールNetworkX sud…

梅酒つけた。

研究室に泊まりで、梅酒を仕込んだ。どうも、酒税法というものは複雑らしくアルコール度数が20を越えているお酒で梅酒を作らないと厳密には酒税法に引っかかるらしい。ということを知らずに、適当にスカイウオッカをかった。20を越えててよかった。 本当は、…

某Rのビジネスコンテストの手伝い

このメモ帳に出てくるRの90%は統計解析言語Rだけど10%くらいは人材系会社のRの話になる(と思う)。大学の名前が入ったアドレスを持ってるということは非常に便利なことでヒアリング調査が非常に楽だ。ぶっちゃけ、飛び込みで営業にいっても、ある程度…

fMRIのデータをクラスタリングしてみたけど

ウェーブレット変換で前処理をして、ノイズ成分が多すぎる部分を切り取って計算する点の数が約16000→約3500まで減ったので残った部分の波形の相関をクラスタリングしたところまだ賦活部位に含まれている巨大なノイズに引っ張られる。。。 やっぱり…

データが多すぎる。。。

fMRIのデータ、ダイナミックベイジアンネットワークにかけるには若干データが大きすぎるなぁ。128×128点のデータを現実的な量にかえないとなぁ。とりあえず、機械ノイズの部分を削って相関係数でクラスタリングしてある程度のクラスターに分けたのちにその平…

波形データの加工(Z変換・高速フーリエ・ウエーブレット変換など)

fMRIのデータの加工を行った。というわけで、処理用のPythonスクリプトのメモ 1.Z変換手書きでもいいけど、それは論文にするときに。 import scipy.stats as SS x = [1,2,3,4,5] zx = SS.zs(x) print zx 2.高速フーリエ変換実数型の高速フーリエ。 import sc…

PythonからTwitterに書き込んでみた。

PythonからTwitterに書き込んでみた。う〜む、これって何につかえるんだろう。とりあえず、使い方。 sudo apt-get install python-twitter これでPythonーTwitterを入れてあげて import twitter api = twitter.Api("ユーザー名","パスワード") Query = api.P…

ちゃんとした研究活動

今学期の研究成果として、fMRIの時系列データをネットワーク化してネットワーク解析の視点から、連合野とか視覚システムとかをみたいと考えていて、久しぶりに研究を進めてみた。 ダイナミックベイジアンネットワークでやりたいけど、128×128で時系列が10点…

現実逃避中に見つけたもの→PyBrain

なんで、読みたくもなくて自分の研究にも役に立たない輪読本を読まなきゃいけないんだ。。。という、大学院生が陥りがちな(実際は知らない)ジレンマを抱えながら、検索をしてて、見つけたもの。 PyBrainーa modular Machine Learning Library for Python機…

判別分析やクラスタリングの精度をよくする技1

まったくもって、データベースマーケティングとか、そういったもので使えるものではないが普通に研究レベルで使う技から卒業論文や修士論文、場合によっては学会発表くらいまでだったら、”体裁を整える”と言う意味で使えるものかもしれない技まで。(業務用…

(x)medconをWindowsで使うときの注意点

これを日本語で書いてもほとんど誰のためにもならないけど、使い方に面倒な部分があるのでメモ。 ・medconを実行するとDLLファイルが足りないといわれるF&Qを見ると「Mingwをつかって〜〜」見たいなことがかかれている既に、病院で働く人にとってはハードル…

Ubuntuで自分の開発環境を整えると Ver1.0

なんだか、WubiでWindowsにインストールしたUbuntuの調子が非常に悪かったので直接、ubuntuをインストールことにした。というわけで、自分が使う環境をどこかにメモっといた方がのちのち便利だと思ったので、メモ。 #気のせいかもしれないが、動きが早くな…

びっくりした。

ビックリした。 統計解析先(この言葉はあるのか?)の病院の池をずっと眺めてたらカルガモの子供を亀が水死させる瞬間を目撃した。死にたくなった。