ml, dm, big dataml, dm, big data •ml:1970- バージョン空間,決定木学習…...
TRANSCRIPT
3V Volume(多量) Variety(多様) Velocity(多頻度)
ビッグデータ
ソーシャルメディアデータ
マルチメディアデータ
ウェブサイトデータ 位置・センサーデータ
オペレーションデータ ログデータ オフィスデータ
カスタマーデータ
http://www.soumu.go.jp/main_content/000160628.pdf
(背景1)データの量、様式、更新頻度の劇的変化
(背景2)ビッグデータ基盤技術の進展
• Hadoop(オープンソース分散並列処理技術)
• NoSQLデータベース:非構造の大量データ処理可能 (スキーマフリー、スケールアウト)
• ML/DMの進展: カーネル関数によるSVM CRF(Conditional Random Filed, 条件付確率場) ベイズモデル Deep Learning(多層ニューラルネット)
http://www.ai-gakkai.or.jp/my-bookmark_vol29-no4/ https://www.google.co.jp/about/careers/lifeatgoogle/a-networks-first-lesson-in-machine-learning.html
http://hadoop.apache.org/images/hadoop-logo.jpg
Office of Science and Technology Policy Executive Office of the President
March 29, 2012
OBAMA ADMINISTRATION UNVEILS “BIG DATA” INITIATIVE:
ANNOUNCES $200 MILLION IN NEW R&D INVESTMENTS
(背景3) 国策としてのビッグデータ
ML, DM, Big Data
• ML:1970- バージョン空間,決定木学習… 小規模データ
• DM:1995- 前処理+(ML+統計)+後処理、 大規模データ
• Big Data: 2010- 大規模多様データ, ネット企業の成功例,国策 Tokyo Web Mining
https://sites.google.com/site/tokyowebmining/kategori-bie-fa-biao-zi-liao
http://www.ai-gakkai.or.jp/my-bookmark_vol29-no4/
5
6
決定木学習
data plant The color The color The state
id pressure of smoke of steel of plant
1 L White Blue ○ 2 H Black Brown × 3 H Black Blue × 4 H Red Blue ○ 5 L Black Blue × 6 H White Brown × 7 L White Brown × 8 H White Blue ○
Entropy(uncertainty measure) -3/8log(3/8) : entropy for ○
-5/8log(5/8) : entropy for ×
=0.954bit
7
プラント圧力(plant pressure)でデータを分類すると
2, 3, 4, 6, 8
×,×,○,×,○
H L
plant pressure
Entropy -2/5log(2/5) -3/5log(3/5) =0.971bit
1, 5, 7 ○,×,×
Entropy -1/3log(1/3) -2/3log(2/3) =0.918bit
5/8×0.971+3/8×0.918=0.951bit
8
煙の色(smoke color)でデータを分類すると
smoke color
1, 6, 7,8 ○,X,X,○
WHITE BLACK RED
2,3,5 X, X,X
4 ○
総エントロピー=0.5ビット
steel color
Blue -> 1,8 Brown -> 6, 7
SC=RED -> 0 SC=BLACK -> X SC=WHITE, StC=BLUE -> 0 SC=WHITE, StC=Brown -> X
Mahoutとは • MapReduce環境上で動作する機械学習アルゴリズム(一部統計解析と重複)のコレクション – Hadoopクラスタ上で動作 – 実装言語はJava – JavaからAPIを通じて利用→初期コスト高 – $MAHOUT_HOME/bin/mahout(クラスを呼び出すシェルスクリプト)を利用→初期コスト低
Mapper Reducer
Hadoopクラスタ
Mahout
Java
必要なクラスの 呼び出し
スクリプト(シェル,Ruby,PHPなど)
JARを指定し,JVMを起動して 必要なクラスの呼び出し
HDFS へ投入
・CSV ・分かち書き テキスト
・ARFF
入力ファイル ・モデル ・テキスト dump ・評価結果
出力
9
推薦システムの計算例
10
記事番号 Ken Lee Meg Nan
1 1 4 2 2
2 5 2 4 4
3 3
4 2 5 5
5 4 1 1
6 2 5
σは標準偏差、 covは共分散
Ken、Leeの間の相関係数(類似度)を求める 共に評価している記事番号から Kenの評価ベクトルは(1、5、2、4) Leeの評価ベクトルは(4、2、5、1) 平均K =3、平均L =3 相関係数を求めると
8.01010
2222
KLr
?
GroupLens ユーザの映画評価値
50 Top Open Source Tools for Big Data
11
http://www.datamation.com/data-center/50-top-open-source-tools-for-big-data-1.html Big Data Analysis Platforms and Tools Hadoop Databases/Data Warehouses (MongoDB) Business Intelligence Data Mining (Mahout, Weka, R) Big Data Search (Sola) Data Aggregation and Transfer
β 標準誤差 Wald 有意確率 Exp(β ) 対応する仮説
(定数) -2.465 0.229 116.305 0 0.085 -
閲覧履歴データ 平均滞在時間 0.047 0.004 123.121 0 1.048 H1
平均PV時間 -0.642 0.102 39.736 0 0.526 H2
詳細PV割合 -0.813 0.289 7.922 0.005 0.443 H3
個人属性データ 年齢 0.018 0.003 30.641 0 1.018 H4
性別 0.090 0.098 0.839 0.360 1.094 H5
ダイレクトメール登録 0.323 0.086 14.107 0 1.381 H6
スコア登録 0.759 0.159 22.938 0 2.136 H7
購買履歴データ 購買金額 0.004 0.002 3.673 0.055 1.004 H8
会員割引 0.441 0.112 15.407 0 1.554 H9
クーポン 0.433 0.252 2.967 0.085 1.542 H10
セール 0.085 0.079 1.160 0.281 1.088 H11
タイムセール 0.098 0.099 0.985 0.321 1.103 H12
クラブ 0.230 0.155 2.189 0.139 1.258 H13
ウェア 0.432 0.141 9.376 0.002 1.540 -
用品・小物 0.152 0.132 1.322 0.250 1.164 -
目的変数:初回購買日から90日の間に二回目購買が行われるかどうかを従属変数とする。
ECデータ分析:2回目購買の要因分析 (鈴木先生) ロジスティック回帰の分析結果
-2 対数尤度 R2 乗 カイ 2 乗 有意確率
4364.181 0.073 317.988 0
関与と閲覧目的は
二回目購買に影響を与える
価格プロモーションは 二回目購買に
正の影響を与える
高関与商品による 負の影響は無かった
ゴルフプレーは 二回目購買に
正の影響を与える
15
17
デジタルデータ(サッカー)
ID GameDate SeriesID Time Action Team Player X Y1 40808 1 19:34:03 KICK OFF V川崎 20 50 -642 40808 1 19:34:03 PASS V川崎 20 50 -642_1 40808 1 19:34:03 PASS GET V川崎 10 -33 -483 40808 1 19:34:03 PASS V川崎 10 -33 -483_1 40808 1 19:34:03 PASS GET V川崎 2 945 -12364 40808 1 19:34:05 TRAP V川崎 2 945 -12365 40808 1 19:34:07 PASS V川崎 2 996 -12525_1 40808 1 19:34:07 PASS GET V川崎 17 2464 -12526 40808 1 19:34:08 TRAP V川崎 17 2464 -12527 40808 1 19:34:09 PASS V川崎 17 2464 -12527_1 40808 1 19:34:09 PASS GET横浜 3 -996 -2296
YEAR CLASS_CDSEASON_CDHOME_TEAM_CDAWAY_TEAM_CDGAME_DATERESULT_CDHALF_CD GAME_ST_TIME2000 1 1 FJ J01 20000318 L 99 19:04:002000 1 1 FJ J10 20000325 L 99 14:00:002000 1 1 FJ J09 20000405 D 99 19:00:002000 1 1 FJ J15 20000415 W 99 19:02:002000 1 1 FJ J07 20000429 L 99 19:04:00
■プレーを対象にしたデータ→ミクロデータ
■試合の状況を対象にしたデータ→マクロデータ
18
一連のプレーの特徴量生成
duration lengthX lengthY touch dire
縦の長さ
横の長さ
かかった時間
方向
タッチ数
生成
判別木
class アクションの
特徴量
19
マイニングに入力するデータの作成
duration lengthX lengthY touch dire class
keep point_dif
ミクロ
データ
マクロ
データ
weather wind
result
・・・
■ミクロ2次データ
■累積データ
■試合前データ
■試合後データ
■前処理後データ
結合
相関
ルール
20
得られるルール
後処理後のルール : 165ルール
興味深い
ルール
当然と思われる
ルール
関連がないと
思われるルール
26 55 84
15.7% 33.3% 50.9%
例:左方向のシーケンスが多い試合は負ける
→左方向に進むプレイ、または選手に注目
左サイドへ移るプレイのコーチングに
有用と思われる