ml - ensemble methods [pt-br]

58
Machine Learning Andressa Sivolella

Upload: andressa-sivolella

Post on 21-Apr-2017

94 views

Category:

Data & Analytics


0 download

TRANSCRIPT

Machine Learning

Andressa Sivolella

2

Cientista da Computação

Cientista de Dados (?)

Web/Software Designer

Quem sou eu?

3

Quem sou eu?

Cientista da Computação

Cientista de Dados (?)

Web/Software Designer

Engenheira e MsC em IC

Quem sou eu?

4

2007

2008 2011

2014

2016

Mestrado

StartUp

5

O que é Machine Learning

5

6

Sub-campo em Inteligência Artificial

Aprende com exemplos existentes[ Diferente de um conjunto de regras ]

vs

Alguns Conceitos

7

Como identificar o tipo de uma bola?

vs

Script?

8

Abordagem de regras?

Cores?

Tipo de costura?

Tamanho?

...

9

Abordagem de Machine Learning

Classificador

Treinado a partir de conjunto conhecido

(supervisionado)

Atributos (features)

Resposta (label/target/output)

10

Abordagem de Machine Learning

Classificador

Algoritmos encontram padrões nas amostras conhecidas

Atributos (features)

Resposta (label/target/output)

11

● árvore de decisão● rede neural● regressão linear● ensemble● ...

Possíveis Classificadores

ClassificadorAtributos (features)

Resposta (label/target/output)

12

● árvore de decisão???● rede neural● regressão linear● ensemble● ...

Possíveis Classificadores

ClassificadorAtributos (features)

Resposta (label/target/output)

Este é o João...

13

"João joga tênis?"

14

15

João joga tênis?

Tempo

Umidade

Vento

...

Não joga

Joga

Árvore de Decisão

16

# Dia Tempo Umidade Vento Joga?

1 Ensolarado Alta Fraco Não

2 Ensolarado Alta Fraco Não

3 Nublado Alta Fraco Sim

4 Chuvoso Alta Forte Sim

5 Chuvoso Normal Fraco Sim

6 Chuvoso Normal Forte Sim

7 Nublado Normal Forte Sim

8 Ensolarado Alta Fraco Não

9 Ensolarado Normal Fraco Sim

10 Chuvoso Normal Fraco Sim

11 Ensolarado Normal Forte Sim

12 Nublado Alta Forte Sim

13 Nublado Normal Fraco Sim

14 Chuvoso Alta Forte Não

2 semanas de Janeiro

João joga tênis?

17

Tempo

EnsolaradoNublado

Chuvoso

Umidade Vento

Joga

Alta Normal

Joga

Forte Fraco

Não Joga JogaNão Joga

Árvore de Decisão

18

# Dia Tempo Umidade Vento Joga?

1 Nublado Alta Fraco Sim

2 Ensolarado Alta Forte Não

3 Ensolarado Alta Fraco Não

4 Chuvoso Normal Fraco Sim

5 Chuvoso Alta Fraco Sim

6 Chuvoso Normal Forte Não

7 Nublado Alta Forte Sim

8 Chuvoso Alta Forte Não

9 Ensolarado Normal Fraco Sim

10 Chuvoso Alta Fraco Sim

11 Nublado Normal Fraco Não

12 Nublado Alta Forte Sim

13 Nublado Alta Fraco Sim

14 Ensolarado Alta Fraco Não

2 semanas de Julho

João joga tênis?

19

Árvore de DecisãoTempo

EnsolaradoNublado

Chuvoso

Umidade

NormalAlta

JogaNão Joga

Umidade

NormalAlta

Joga Não Joga

Vento

NormalFraco

Joga Não Joga

20

Sub-conjuntos (im)puros

Tempo

EnsolaradoNublado

Chuvoso

Umidade Vento

0 / 4

Profundidade = 2 Puro

3 / 2Impuro

2 / 3Impuro

21

Sub-conjuntos (im)puros

Tempo

EnsolaradoNublado

Chuvoso

Profundidade = 2

JogaNão Joga Joga

Treinamento Supervisionado

22

Conjunto de amostras rotulado

23

Treinamento Supervisionado

100% de amostras 70%

Treino Teste

30%

24

Como comparar desempenho?Palpite do Classificador

Clas

sifi

caçã

o Re

al

Joga

Jo

ga

Não Joga

o J

og

a

VerdadeiroPositivo (TP)

VerdadeiroNegativo (TN)

FalseNegativo (FN)

FalsePositivo (FP)

Matriz de Confusão

25

Como comparar desempenho?

Palpite do Classificador

Clas

sifi

caçã

o Re

al

Joga

Jo

ga

Não Joga

o J

og

a

VerdadeiroPositivo (TP)

VerdadeiroNegativo (TN)

FalseNegativo (FN)

FalsePositivo (FP)

Precisão =TP

TP + FP

Recall =TP

TP + FN

Acurácia =TP + TN

Total

F1 Score = 2 . Precisão . Recall

Precisão + Recall

26

Código, mostre-me código!

O que são modelos Ensemble

28

Exemplo: US Open

Em qual atleta eu posso apostar comofinalista do US Open?

Opinião 1

29

No passado, ele teve êxito em 68% de seus palpites

Conhece bem o esporte

… mas tendencioso

Não é imparcial

Opinião 2

30

Acompanha apostas há 10 anos

Estuda atletas individualmente

Excelência em apostas esportivas

No passado, ela teve êxito em 73% de seus palpites

Opinião 3

31

Mais afinidade com atletas mulheres

Desconhece atletas novos

Não vem acompanhando o esporte

No passado, ela teve êxito em 70% de seus palpites

Opinião 4

32

...

No passado, ela teve êxito em 62% de seus palpites

Combinação das Avaliações

= 1 - (68% x 73% x 70% x 62%)

= 79% de acurácia

Guga Empresa Sharapova Galvão

Correlacionados

Acurácia33

Modelos Ensemble

Classificador 1

Classificador 2

Classificador 3

Classificador 4

Classificador N

Hipótese

Coletiva

Classificador Ensemble

34

H1

H2

H3

H4

HN

Modelos Ensemble

Guga

Galvão

Blabous

Sharapova

Hipótese

Coletiva

Classificador Ensemble

Voto Majoritário

35

Classificadores

Árvore de Decisão 1

Árvore de Decisão 2

Árvore de Decisão 3

Árvore de Decisão 4

Árvore de Decisão N

Algoritmos da mesma natureza

SVM

Árvore de Decisão

Rede Neural

Deep Learner

Regressor Linear

Diversidade de Algoritmos

36

PositivoNegativo

Hipótese Coletiva

Classificadores

Árvore de Decisão 1

Árvore de Decisão 2

Árvore de Decisão 3

Árvore de Decisão 4

Árvore de Decisão N

+1

+1

-1

-1-1

SVM

Árvore de Decisão

Rede Neural

Deep Learner

Regressor Linear

+2

-1

+3

-1-1

37

38

Hipótese Coletiva: -1 Hipótese Coletiva: +2

Árvore de Decisão 1

Árvore de Decisão 2

Árvore de Decisão 3

Árvore de Decisão 4

Árvore de Decisão N

+1

+1

-1

-1-1

SVM

Árvore de Decisão

Rede Neural

Deep Learner

Regressor Linear

+2

-1

+3

-1-1

Classificadores

Alguns tipos de EnsembleCom árvore de decisão como algoritmo base

Bagged Decision Tree

40

Bagged Decision Tree

41

Random Forest

42

Boosted Decision Tree (BDT)

43

BDT em ação...

44

BDT em ação...

45

Ensemble com outros algoritmos

Conjunto de Treino

Nearest Neighbor SVM

Decision Tree Random Forest AdaBoost

46

Na vida real...

48

...João joga tênis no Kinect...

49

Reconhecimento de Imagem

Bóson de Higgs

50

51

52

@asivolella

Para feedbacks, entre em contato =)

asivolella@ .com

Backup Slides

54

AdaBoost (Adaptative Boosting)

56

- Boost (shrinkage)

57

GradBoosted

58