ml, dm, big dataml, dm, big data •ml:1970- バージョン空間,決定木学習…...

21
ビッグデータ 山口 高平 1

Upload: others

Post on 22-May-2020

3 views

Category:

Documents


0 download

TRANSCRIPT

ビッグデータ

山口 高平

1

3V Volume(多量) Variety(多様) Velocity(多頻度)

ビッグデータ

ソーシャルメディアデータ

マルチメディアデータ

ウェブサイトデータ 位置・センサーデータ

オペレーションデータ ログデータ オフィスデータ

カスタマーデータ

http://www.soumu.go.jp/main_content/000160628.pdf

(背景1)データの量、様式、更新頻度の劇的変化

(背景2)ビッグデータ基盤技術の進展

• Hadoop(オープンソース分散並列処理技術)

• NoSQLデータベース:非構造の大量データ処理可能 (スキーマフリー、スケールアウト)

• ML/DMの進展: カーネル関数によるSVM CRF(Conditional Random Filed, 条件付確率場) ベイズモデル Deep Learning(多層ニューラルネット)

http://www.ai-gakkai.or.jp/my-bookmark_vol29-no4/ https://www.google.co.jp/about/careers/lifeatgoogle/a-networks-first-lesson-in-machine-learning.html

http://hadoop.apache.org/images/hadoop-logo.jpg

Office of Science and Technology Policy Executive Office of the President

March 29, 2012

OBAMA ADMINISTRATION UNVEILS “BIG DATA” INITIATIVE:

ANNOUNCES $200 MILLION IN NEW R&D INVESTMENTS

(背景3) 国策としてのビッグデータ

6

決定木学習

data plant The color The color The state

id pressure of smoke of steel of plant

1 L White Blue ○ 2 H Black Brown × 3 H Black Blue × 4 H Red Blue ○ 5 L Black Blue × 6 H White Brown × 7 L White Brown × 8 H White Blue ○

Entropy(uncertainty measure) -3/8log(3/8) : entropy for ○

-5/8log(5/8) : entropy for ×

=0.954bit

7

プラント圧力(plant pressure)でデータを分類すると

2, 3, 4, 6, 8

×,×,○,×,○

H L

plant pressure

Entropy -2/5log(2/5) -3/5log(3/5) =0.971bit

1, 5, 7 ○,×,×

Entropy -1/3log(1/3) -2/3log(2/3) =0.918bit

5/8×0.971+3/8×0.918=0.951bit

8

煙の色(smoke color)でデータを分類すると

smoke color

1, 6, 7,8 ○,X,X,○

WHITE BLACK RED

2,3,5 X, X,X

4 ○

総エントロピー=0.5ビット

steel color

Blue -> 1,8 Brown -> 6, 7

SC=RED -> 0 SC=BLACK -> X SC=WHITE, StC=BLUE -> 0 SC=WHITE, StC=Brown -> X

Mahoutとは • MapReduce環境上で動作する機械学習アルゴリズム(一部統計解析と重複)のコレクション – Hadoopクラスタ上で動作 – 実装言語はJava – JavaからAPIを通じて利用→初期コスト高 – $MAHOUT_HOME/bin/mahout(クラスを呼び出すシェルスクリプト)を利用→初期コスト低

Mapper Reducer

Hadoopクラスタ

Mahout

Java

必要なクラスの 呼び出し

スクリプト(シェル,Ruby,PHPなど)

JARを指定し,JVMを起動して 必要なクラスの呼び出し

HDFS へ投入

・CSV ・分かち書き テキスト

・ARFF

入力ファイル ・モデル ・テキスト dump ・評価結果

出力

9

推薦システムの計算例

10

記事番号 Ken Lee Meg Nan

1 1 4 2 2

2 5 2 4 4

3 3

4 2 5 5

5 4 1 1

6 2 5

σは標準偏差、 covは共分散

Ken、Leeの間の相関係数(類似度)を求める 共に評価している記事番号から Kenの評価ベクトルは(1、5、2、4) Leeの評価ベクトルは(4、2、5、1) 平均K =3、平均L =3 相関係数を求めると

8.01010

2222

KLr

?

GroupLens ユーザの映画評価値

50 Top Open Source Tools for Big Data

11

http://www.datamation.com/data-center/50-top-open-source-tools-for-big-data-1.html Big Data Analysis Platforms and Tools Hadoop Databases/Data Warehouses (MongoDB) Business Intelligence Data Mining (Mahout, Weka, R) Big Data Search (Sola) Data Aggregation and Transfer

ソーシャルビッグデータの利用

12

位置ビッグデータの活用 waze.com

13

14

「ぶらサポ」データの加工(Excel利用)

カーネル密度分析によるヒトの流れ(ArcGIS利用)

ヒトの滞留度

高い 低い

位置ビッグデータ活用例 (慶應SDM)

人の流れの分析(性別)

β 標準誤差 Wald 有意確率 Exp(β ) 対応する仮説

(定数) -2.465 0.229 116.305 0 0.085 -

閲覧履歴データ 平均滞在時間 0.047 0.004 123.121 0 1.048 H1

平均PV時間 -0.642 0.102 39.736 0 0.526 H2

詳細PV割合 -0.813 0.289 7.922 0.005 0.443 H3

個人属性データ 年齢 0.018 0.003 30.641 0 1.018 H4

性別 0.090 0.098 0.839 0.360 1.094 H5

ダイレクトメール登録 0.323 0.086 14.107 0 1.381 H6

スコア登録 0.759 0.159 22.938 0 2.136 H7

購買履歴データ 購買金額 0.004 0.002 3.673 0.055 1.004 H8

会員割引 0.441 0.112 15.407 0 1.554 H9

クーポン 0.433 0.252 2.967 0.085 1.542 H10

セール 0.085 0.079 1.160 0.281 1.088 H11

タイムセール 0.098 0.099 0.985 0.321 1.103 H12

クラブ 0.230 0.155 2.189 0.139 1.258 H13

ウェア 0.432 0.141 9.376 0.002 1.540 -

用品・小物 0.152 0.132 1.322 0.250 1.164 -

目的変数:初回購買日から90日の間に二回目購買が行われるかどうかを従属変数とする。

ECデータ分析:2回目購買の要因分析 (鈴木先生) ロジスティック回帰の分析結果

-2 対数尤度 R2 乗 カイ 2 乗 有意確率

4364.181 0.073 317.988 0

関与と閲覧目的は

二回目購買に影響を与える

価格プロモーションは 二回目購買に

正の影響を与える

高関与商品による 負の影響は無かった

ゴルフプレーは 二回目購買に

正の影響を与える

15

16

サッカーデータからの戦術・勝敗因分析

それぞれのプレー チーム:横浜 選手:11

X座標:20 Y座標:-50

アクション: PASS

ボールの動き

試合状況

天候:晴れ

風:弱風

結果:勝ち

17

デジタルデータ(サッカー)

ID GameDate SeriesID Time Action Team Player X Y1 40808 1 19:34:03 KICK OFF V川崎 20 50 -642 40808 1 19:34:03 PASS V川崎 20 50 -642_1 40808 1 19:34:03 PASS GET V川崎 10 -33 -483 40808 1 19:34:03 PASS V川崎 10 -33 -483_1 40808 1 19:34:03 PASS GET V川崎 2 945 -12364 40808 1 19:34:05 TRAP V川崎 2 945 -12365 40808 1 19:34:07 PASS V川崎 2 996 -12525_1 40808 1 19:34:07 PASS GET V川崎 17 2464 -12526 40808 1 19:34:08 TRAP V川崎 17 2464 -12527 40808 1 19:34:09 PASS V川崎 17 2464 -12527_1 40808 1 19:34:09 PASS GET横浜 3 -996 -2296

YEAR CLASS_CDSEASON_CDHOME_TEAM_CDAWAY_TEAM_CDGAME_DATERESULT_CDHALF_CD GAME_ST_TIME2000 1 1 FJ J01 20000318 L 99 19:04:002000 1 1 FJ J10 20000325 L 99 14:00:002000 1 1 FJ J09 20000405 D 99 19:00:002000 1 1 FJ J15 20000415 W 99 19:02:002000 1 1 FJ J07 20000429 L 99 19:04:00

■プレーを対象にしたデータ→ミクロデータ

■試合の状況を対象にしたデータ→マクロデータ

18

一連のプレーの特徴量生成

duration lengthX lengthY touch dire

縦の長さ

横の長さ

かかった時間

方向

タッチ数

生成

判別木

class アクションの

特徴量

19

マイニングに入力するデータの作成

duration lengthX lengthY touch dire class

keep point_dif

ミクロ

データ

マクロ

データ

weather wind

result

・・・

■ミクロ2次データ

■累積データ

■試合前データ

■試合後データ

■前処理後データ

結合

相関

ルール

20

得られるルール

後処理後のルール : 165ルール

興味深い

ルール

当然と思われる

ルール

関連がないと

思われるルール

26 55 84

15.7% 33.3% 50.9%

例:左方向のシーケンスが多い試合は負ける

→左方向に進むプレイ、または選手に注目

左サイドへ移るプレイのコーチングに

有用と思われる

ビッグデータの課題

• データ整備はコストがかかる

• 他のデータの連携も調べたくなる

• マイニング結果の意味を説明しろと言われても

• マイニング結果も大量になり絞り込みたい。

• 専門家の壁(主観vs.客観)

• 組織の壁

→2000年前半「データマイナーの憂鬱」

→2011年以降「ビッグデータ」 多くの関心

21