mineração de dados: classificação e predição victor ströele [email protected]...

90
Mineração de Dados: Classificação e Predição Victor Ströele [email protected] 07/05/22 Business Intelligence

Upload: victor-sergio

Post on 07-Apr-2016

212 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Mineração de Dados: Classificação e Predição Victor Ströele stroele@gmail.com 16/4/2015Business Intelligence

Mineração de Dados: Classificação e

Predição

Victor Strö[email protected]

04/27/23 Business Intelligence

Page 2: Mineração de Dados: Classificação e Predição Victor Ströele stroele@gmail.com 16/4/2015Business Intelligence

Roteiro Conceitos e características da

Classificação Qualidade do Classificador Técnicas de Classificação

Árvores de DecisãoRegras de ClassificaçãoMáquinas de Vetores SuporteRedes Neurais

Page 3: Mineração de Dados: Classificação e Predição Victor Ströele stroele@gmail.com 16/4/2015Business Intelligence

Conceito Classificação:

Identificar a classe de um objeto através de um modelo classificador construído com informações de um conjunto de amostras

Aprendizado Supervisionado Predição:

Prever o valor de uma variável

Page 4: Mineração de Dados: Classificação e Predição Victor Ströele stroele@gmail.com 16/4/2015Business Intelligence

Classificação Etapa de treinamento

Page 5: Mineração de Dados: Classificação e Predição Victor Ströele stroele@gmail.com 16/4/2015Business Intelligence

Classificação Etapa de Classificação

Page 6: Mineração de Dados: Classificação e Predição Victor Ströele stroele@gmail.com 16/4/2015Business Intelligence

Problemas de Classificação Classificação de Textos

Crescimento das informações disponíveis com o desenvolvimento da WEB

Identificar spams no envio de e-mails Análise de Seqüências biológicas

Grande quantidade de dados com o mapeamento do genoma humano

Identificar seqüências protéicas homólogas

PATRICIA
Lembrar de falar do exemplo da frauda e da cerveja
Page 7: Mineração de Dados: Classificação e Predição Victor Ströele stroele@gmail.com 16/4/2015Business Intelligence

Problemas de Classificação Diagnóstico de doenças

Geralmente utilizado para informar se o paciente está doente ou não

Diagnóstico de câncer de mamaClassificador é treinado utilizando-se

amostras de pessoas doentes e saudáveisA amostra de um novo paciente é aplicada ao

classificador e este irá informar o diagnóstico

PATRICIA
Lembrar de falar do exemplo da frauda e da cerveja
Page 8: Mineração de Dados: Classificação e Predição Victor Ströele stroele@gmail.com 16/4/2015Business Intelligence

Etapas da Classificação Aprendizado/Treinamento

Exemplos conhecidos são analisados e um classificador é construído

O classificador pode ter a forma de: Regras de Classificação Árvores de Decisão Máquinas de Vetores Suporte Redes Neurais

Page 9: Mineração de Dados: Classificação e Predição Victor Ströele stroele@gmail.com 16/4/2015Business Intelligence

Etapas da Classificação Classificação

O Classificador é usado para distribuir itens em grupos pré-definidos (classes)

A classificação considera informações quantitativas ou as características dos itens

Conjunto de AmostrasClasses

Treinamento

Page 10: Mineração de Dados: Classificação e Predição Victor Ströele stroele@gmail.com 16/4/2015Business Intelligence

Exemplo

Conjunto de Treinamento

Classificador na forma“Regras de Classificação”

Fase de treinamento eConstrução do Classificador

Page 11: Mineração de Dados: Classificação e Predição Victor Ströele stroele@gmail.com 16/4/2015Business Intelligence

Exemplo Forma dos dados do conjunto de

treinamenoX = <x1, x2, x3> e Y = <baixo, alto>x1 Nome do clientex2 Idade do cliente discretizadax3 Renda do Cliente também discretizadaY Risco do Empréstimo, que é o rótulo da

classe a qual o cliente pertence

Page 12: Mineração de Dados: Classificação e Predição Victor Ströele stroele@gmail.com 16/4/2015Business Intelligence

Exemplo

Clientes novos (Desconhecidos)

Resultado da Análise de RiscoPara os clientes novos

Dados Novos aplicados Ao Classificador

Page 13: Mineração de Dados: Classificação e Predição Victor Ströele stroele@gmail.com 16/4/2015Business Intelligence

Características da Classificação

Precisão Capacidade de prever a classe a qual um item

desconhecido pertence Como medir a precisão?

Usar um conjunto de dados conhecidos que não foram utilizados na etapa de treinamento

Usar 10% do conjunto de treinamento

Velocidade Esforço computacional exigido tanto na fase de

treinamento quanto na fase de classificação

Page 14: Mineração de Dados: Classificação e Predição Victor Ströele stroele@gmail.com 16/4/2015Business Intelligence

Características da Classificação

RobustezHabilidade de classificar corretamente mesmo

em presença de dados com “ruídos” ou incompletos

EscalabilidadeCapacidade do classificador obter um

desempenho proporcional à quantidade de dados analisada

Page 15: Mineração de Dados: Classificação e Predição Victor Ströele stroele@gmail.com 16/4/2015Business Intelligence

Qualidade do Classificador O modelo classificador depende diretamente da

qualidade do conjunto de treinamento Dados do conjunto de treinamento devem ser

cuidadosamente selecionados e rotulados Muitos dados com ruídos ou incompletos podem

confundir o classificador Dados de treinamento muito genéricos

diminuem a precisão para casos menos comuns

Page 16: Mineração de Dados: Classificação e Predição Victor Ströele stroele@gmail.com 16/4/2015Business Intelligence

Qualidade do Classificador Dados de treinamento muito específicos

causam o efeito de over fitting (Erro de treinamento muito baixo ou zero e poder de classificação baixo)

Sem Erro de Treinamento Com Erro de Treinamento

Page 17: Mineração de Dados: Classificação e Predição Victor Ströele stroele@gmail.com 16/4/2015Business Intelligence

Qualidade do Classificador

Sem Erro de Treinamento Com Erro de Treinamento

Com Erro na Classificação Sem Erro na Classificação

Page 18: Mineração de Dados: Classificação e Predição Victor Ströele stroele@gmail.com 16/4/2015Business Intelligence

Técnicas de Classificação Árvore de Decisão Regras de Classificação Máquinas de Vetores Suporte (SVM) Redes Neurais (Backpropagation)

Page 19: Mineração de Dados: Classificação e Predição Victor Ströele stroele@gmail.com 16/4/2015Business Intelligence

Árvore de Decisão Cada nó interno representa um teste em

determinado atributo Cada ramo representa um possível

resultado do teste Cada folha representa uma classe Cada percurso na árvore (da raiz à folha)

corresponde a uma regra de classificação.Té

cnic

as d

e C

lass

ifica

ção

Page 20: Mineração de Dados: Classificação e Predição Victor Ströele stroele@gmail.com 16/4/2015Business Intelligence

Árvore de Decisão Exemplo

Técn

icas

de

Cla

ssifi

caçã

o

Page 21: Mineração de Dados: Classificação e Predição Victor Ströele stroele@gmail.com 16/4/2015Business Intelligence

Árvore de Decisão Estratégia: dividir para conquistar Capacidade de Discriminação

Divisão do espaço definido pelos atributos em sub-espaços

A cada sub-espaço é associada uma classe

Técn

icas

de

Cla

ssifi

caçã

o

Page 22: Mineração de Dados: Classificação e Predição Victor Ströele stroele@gmail.com 16/4/2015Business Intelligence

Árvore de DecisãoTé

cnic

as d

e C

lass

ifica

ção

Cada folha Corresponde a uma região A intersecção dos hiper-retângulos é vazia A união dos hiper-retângulos é o espaço completo

Page 23: Mineração de Dados: Classificação e Predição Victor Ströele stroele@gmail.com 16/4/2015Business Intelligence

Árvore de Decisão Idéia Base:

Escolher um atributoEstender a árvore adicionando um ramo

para cada valor do atributoPassar os exemplos para as folhas (tendo

em conta o valor do atributo escolhido)Para cada folha

Se todos os exemplos são da mesma classe, associar essa classe a folha

Senão repetir os passos de 1 a 4Técn

icas

de

Cla

ssifi

caçã

o

Page 24: Mineração de Dados: Classificação e Predição Victor Ströele stroele@gmail.com 16/4/2015Business Intelligence

Exemplo Atributos Binários:

Árv

ore

de D

ecis

ão AtributosClasse

A ^ B0 0 00 1 01 0 01 1 1

Page 25: Mineração de Dados: Classificação e Predição Victor Ströele stroele@gmail.com 16/4/2015Business Intelligence

Exercícios Atributos Binários:

Árv

ore

de D

ecis

ão AtributosClasse

A v B0 0 00 1 11 0 11 1 1

Page 26: Mineração de Dados: Classificação e Predição Victor Ströele stroele@gmail.com 16/4/2015Business Intelligence

Exercícios Atributos Binários:

Árv

ore

de D

ecis

ão AtributosClasse

A v B0 0 00 1 11 0 11 1 1

A

B1

1 0

1

1

0

0

Page 27: Mineração de Dados: Classificação e Predição Victor Ströele stroele@gmail.com 16/4/2015Business Intelligence

Critério para escolha do Atributo

Como medir a habilidade de um atributo discriminar as classes?

Dois Pontos básicos Uma divisão que mantêm as proporções de classes

em todas as partições é inútil Uma divisão onde em cada partição todos os

exemplos são da mesma classe tem utilidade máxima

Árv

ore

de D

ecis

ão

10/10

5/55/5

10/10

0/1010/0

Page 28: Mineração de Dados: Classificação e Predição Victor Ströele stroele@gmail.com 16/4/2015Business Intelligence

Critério para escolha do AtributoÁ

rvor

e de

Dec

isão

Tempo Temperatura Umidade Vento Joga

Sol 85 85 Não Não

Sol 80 90 Sim Não

Nublado 83 86 Não Sim

Chuva 70 96 Não Sim

Chuva 68 80 Não Sim

Chuva 65 70 Sim Não

Nublado 64 65 Sim Sim

Sol 72 95 Não Não

Sol 69 70 Não Sim

Chuva 75 80 Não Sim

Sol 75 70 Sim Sim

Nublado 72 90 Sim Sim

Nublado 81 75 Não Sim

Chuva 71 91 Sim Não

Page 29: Mineração de Dados: Classificação e Predição Victor Ströele stroele@gmail.com 16/4/2015Business Intelligence

Critério para escolha do AtributoÁ

rvor

e de

Dec

isão

Vento

Tempo Temp. Umidade

Vento

Joga

Sol 85 85 Não Não

Nublado

83 86 Não Sim

Chuva 70 96 Não Sim

Chuva 68 80 Não Sim

Sol 72 95 Não Não

Sol 69 70 Não Sim

Chuva 75 80 Não Sim

Nublado

81 75 Não Sim

Tempo Temp. Umidade

Vento

Joga

Sol 80 90 Sim Não

Chuva 65 70 Sim Não

Nublado

64 65 Sim Sim

Sol 75 70 Sim Sim

Nublado

72 90 Sim Sim

Chuva 71 91 Sim Não

SIM NÃO

Page 30: Mineração de Dados: Classificação e Predição Victor Ströele stroele@gmail.com 16/4/2015Business Intelligence

Critério para escolha do AtributoÁ

rvor

e de

Dec

isão

Tempo

SOL CHUVA

Tempo

Temp. Umid.

Vento

Joga

Sol 85 85 Não Não

Sol 72 95 Não Não

Sol 69 70 Não Sim

Sol 80 90 Sim Não

Sol 75 70 Sim Sim

Tempo Temp. Umid. Vento

Joga

Nublado

83 86 Não Sim

Nublado

81 75 Não Sim

Nublado

64 65 Sim Sim

Nublado

72 90 Sim Sim

Tempo

Temp. Umid. Vento

Joga

Chuva 70 96 Não Sim

Chuva 68 80 Não Sim

Chuva 75 80 Não Sim

Chuva 65 70 Sim Não

Chuva 71 91 Sim Não

NUBLADO

Page 31: Mineração de Dados: Classificação e Predição Victor Ströele stroele@gmail.com 16/4/2015Business Intelligence

Critério para escolha do AtributoTempo

SOL CHUVA

Temp. Umid. Vento Joga

85 85 Não Não

72 95 Não Não

69 70 Não Sim

80 90 Sim Não

75 70 Sim Sim

Temp. Umid. Vento Joga

70 96 Não Sim

68 80 Não Sim

75 80 Não Sim

65 70 Sim Não

71 91 Sim Não

NUBLADO

SIM

Temp. Umid. Vento Joga

69 70 Não Sim

75 70 Sim Sim

Temp. Umid. Vento Joga

85 85 Não Não

72 95 Não Não

80 90 Sim Não

Umidade < 77,5 Umidade >= 77,5

Temp. Umid. Vento Joga

65 70 Sim Não

71 91 Sim Não

Temp. Umid. Vento Joga

70 96 Não Sim

68 80 Não Sim

75 80 Não Sim

Vento: SIM Vento: NÃO

Page 32: Mineração de Dados: Classificação e Predição Victor Ströele stroele@gmail.com 16/4/2015Business Intelligence

Critério para escolha do AtributoTempo

SOL CHUVANUBLADO

SIM

SIM NÃO SIM NÃO

Umidade < 77,5

SIM NÃO

Vento

NÃO SIM

Page 33: Mineração de Dados: Classificação e Predição Victor Ströele stroele@gmail.com 16/4/2015Business Intelligence

Exercício Construa a árvore de decisão e

classifique os elementos que não estão rotulados

Árv

ore

de D

ecis

ão

Nome Escolaridade Idade Rico (Atributo Classe)

Alva Mestrado >30 Sim

Amanda Doutorado <=30 Sim

Ana Mestrado <=30 Não

Eduardo Doutorado >30 Sim

Inês Graduação <=30 Não

Joaquim Graduação >30 Não

Maria Mestrado >30 Sim

Raphael Mestrado <=30 Não

Nome Escolaridade Idade

José Doutorado 28

Carol Mestrado 37

Nelsa Graduação 35

João Mestrado 29

Page 34: Mineração de Dados: Classificação e Predição Victor Ströele stroele@gmail.com 16/4/2015Business Intelligence

Exercício Primeira Divisão: Escolaridade

Árv

ore

de D

ecis

ão

Nome Escolaridade IdadeRico

(Atributo Classe)

Amanda Doutorado <=30 Sim

Eduardo Doutorado >30 Sim

Nome Escolaridade IdadeRico

(Atributo Classe)

Inês Graduação <=30 Não

Joaquim Graduação >30 Não

Nome Escolaridade IdadeRico

(Atributo Classe)

Alva Mestrado >30 Sim

Ana Mestrado <=30 Não

Maria Mestrado >30 Sim

Raphael Mestrado <=30 Não

Escolaridade

Sim Não ?

Doutorado Graduação Mestrado

Page 35: Mineração de Dados: Classificação e Predição Victor Ströele stroele@gmail.com 16/4/2015Business Intelligence

Exercício Segunda Divisão: Idade

Árv

ore

de D

ecis

ão

Nome Escolaridade IdadeRico

(Atributo Classe)

Ana Mestrado <=30 Não

Raphael Mestrado <=30 Não

Escolaridade

Sim Não > 30

Doutorado Graduação MestradoNome Escolaridade IdadeRico

(Atributo Classe)

Alva Mestrado >30 Sim

Maria Mestrado >30 Sim

Sim Não

NãoSim

Page 36: Mineração de Dados: Classificação e Predição Victor Ströele stroele@gmail.com 16/4/2015Business Intelligence

Exercício Classificação de novos elementos

Árv

ore

de D

ecis

ão

Escolaridade

Sim Não > 30

Doutorado Graduação Mestrado

Sim Não

NãoSim

Nome Escolaridade Idade Rico?

José Doutorado 28 SIM

Carol Mestrado 37 SIM

Nelsa Graduação 35 NÃO

João Mestrado 29 NÃO

Page 37: Mineração de Dados: Classificação e Predição Victor Ströele stroele@gmail.com 16/4/2015Business Intelligence

Regras de Classificação Regras do tipo SE-ENTÃO

SE faixa_etária = jovem ENTÃO alto risco empréstimo

Condição é formada por um ou mais testes de atributos

Conclusão representa uma classe Uma regra é dita ATIVA quando os

atributos de um item satisfazem as condições da regraTé

cnic

as d

e C

lass

ifica

ção

Page 38: Mineração de Dados: Classificação e Predição Victor Ströele stroele@gmail.com 16/4/2015Business Intelligence

Regras de Classificação Item acionou apenas uma regra então esta

regra é usada para classificar Se idade entre 25 e 30 e não tem carro ENTÃO

alto risco empréstimo Se idade entre 25 e 30 e salário maior que 5 mil

ENTÃO médio risco de empréstimo Elemento atende as duas regras

Idade = 28 Carro = não Salário = 7 mil

Técn

icas

de

Cla

ssifi

caçã

o

Page 39: Mineração de Dados: Classificação e Predição Victor Ströele stroele@gmail.com 16/4/2015Business Intelligence

Regras de Classificação Duas opções de escolha de regras:

Priorizar as regras mais rígidas ou mais específicas (quanto maior o número de condições mais específica é a regra)

Ordenar as regras de acordo com a prioridade das mesmas

Técn

icas

de

Cla

ssifi

caçã

o

Page 40: Mineração de Dados: Classificação e Predição Victor Ströele stroele@gmail.com 16/4/2015Business Intelligence

Construção das Regras de Classificação Por árvore de decisão

Técn

icas

de

Cla

ssifi

caçã

o

SE faixa_etária=jovem E estudante=não ENTÃO nãoSE faixa_etária=jovem E estudante=sim ENTÃO simSE faixa_etária=meia-idade ENTÃO simSE faixa_etária=idoso E renda=baixa ENTÃO nãoSE faixa_etária=idoso E renda=alta ENTÃO sim

Page 41: Mineração de Dados: Classificação e Predição Victor Ströele stroele@gmail.com 16/4/2015Business Intelligence

Exercícios Construa as Regras de Classificação

baseando-se na árvore de decisão do exercício anterior

Reg

ras

de C

lass

ifica

ção

Page 42: Mineração de Dados: Classificação e Predição Victor Ströele stroele@gmail.com 16/4/2015Business Intelligence

Exercícios Se ESCOLARIDADE = Doutorado então

SIM Se ESCOLARIDADE = Graduação então

NÃO Se ESCOLARIDADE = Mestrado e

IDADE > 30 então SIM Se ESCOLARIDADE = Mestrado e

IDADE <= 30 então NÃOReg

ras

de C

lass

ifica

ção

Page 43: Mineração de Dados: Classificação e Predição Victor Ströele stroele@gmail.com 16/4/2015Business Intelligence

Máquina de Vetores Suporte (SVM) Resolução de problemas de classificação Separar os dados em duas classes com

um hiperplano Encontrar um classificador que irá

trabalhar bem com dados não conhecidos

Maximizar a margem entre as duas classesTé

cnic

as d

e C

lass

ifica

ção

Page 44: Mineração de Dados: Classificação e Predição Victor Ströele stroele@gmail.com 16/4/2015Business Intelligence

Máquina de Vetores Suporte (SVM) Caso simples: duas classes

linearmente separáveis (A e B) Dados representados pelo par

(si, yi), onde si é a observação i e yi o rótulo ( )

Infinitos hiperplanos, mas apenas um maximiza a margem

Máxima margem aumenta o poder de generalização do classificador

Técn

icas

de

Cla

ssifi

caçã

o

1iy

Hiperplanos separadores para dois conjuntos de dados

Page 45: Mineração de Dados: Classificação e Predição Victor Ströele stroele@gmail.com 16/4/2015Business Intelligence

Máquina de Vetores Suporte (SVM) Formulação Linearmente Separável

x é o vetor normal ao hiperplano separador s é o vetor do conjunto de pontos de entrada determina o deslocamento do hiperplano em

relação a origem

Técn

icas

de

Cla

ssifi

caçã

o

.u x s

Page 46: Mineração de Dados: Classificação e Predição Victor Ströele stroele@gmail.com 16/4/2015Business Intelligence

Máquina de Vetores Suporte (SVM) Por definição

Técn

icas

de

Cla

ssifi

caçã

o

. 1 1

. 1 1i i

j j

x s s Classex s s Classe

Pontos Suporte

Page 47: Mineração de Dados: Classificação e Predição Victor Ströele stroele@gmail.com 16/4/2015Business Intelligence

Máquina de Vetores Suporte (SVM) A margem é dada pela soma desses

hiperplanos

Técn

icas

de

Cla

ssifi

caçã

o

. .

,,

, , .

i j

ji

i j

m x s x s

x sx sx x

x s x sx

, , 1i jx s x s

2

x,

1minimizar2

.( . ) 1, {1, 2, ..., }i i

x

s ay x s i l

2mx

Nos pontos suporte, tem-se:

Margem:

Definição do Problema SVM:

Page 48: Mineração de Dados: Classificação e Predição Victor Ströele stroele@gmail.com 16/4/2015Business Intelligence

ExemploM

áqui

na d

e Ve

tore

s Su

port

e

x1 x2 Classe +1 x1 x2 Classe -12 -1 1 3 -1 -11 0 1 2 0 -10 1 1 0 2 -1-1 2 1 3 -1 -1-2 1,5 1 2 2 -10 0 1 1 1 -1-2 0 1 3 1 -1-2 1 1 1 2 -1

-0,5 -0,5 1 1 3 -1-1 0,5 1 2 1 -1-1 1 1 1,5 1,5 -1-1 0 1 2,5 2,5 -1-1 1,5 1 2,5 3 -1

Page 49: Mineração de Dados: Classificação e Predição Victor Ströele stroele@gmail.com 16/4/2015Business Intelligence

ExemploM

áqui

na d

e Ve

tore

s Su

port

e

-2

-1

0

1

2

3

4

-3 -2 -1 0 1 2 3 4

x.s – = +1

x.s – = -1

Page 50: Mineração de Dados: Classificação e Predição Victor Ströele stroele@gmail.com 16/4/2015Business Intelligence

ExemploM

áqui

na d

e Ve

tore

s Su

port

e

-2

-1

0

1

2

3

4

-3 -2 -1 0 1 2 3 4

f(x) = -x + 1

g(x) = -x + 2

Page 51: Mineração de Dados: Classificação e Predição Victor Ströele stroele@gmail.com 16/4/2015Business Intelligence

ExemploM

áqui

na d

e Ve

tore

s Su

port

e

( ) 1( ) 2

f x xg x x

Margem Soma de f(x) = +1 e g(x) = -1

Margem:

1 1 32 3 0 ( )2 1 2

xx h x x

x

Page 52: Mineração de Dados: Classificação e Predição Victor Ströele stroele@gmail.com 16/4/2015Business Intelligence

ExemploM

áqui

na d

e Ve

tore

s Su

port

e

-2

-1

0

1

2

3

4

-3 -2 -1 0 1 2 3 4

f(x) = -x + 1

g(x) = -x + 2

h(x) = -x + 3/2

Page 53: Mineração de Dados: Classificação e Predição Victor Ströele stroele@gmail.com 16/4/2015Business Intelligence

ExemploM

áqui

na d

e Ve

tore

s Su

port

e

Classifique os novos pontos [-1, -1] [3, 0,5] [0, 3] [1,5, -0,5]

-2

-1

0

1

2

3

4

-3 -2 -1 0 1 2 3 4

Page 54: Mineração de Dados: Classificação e Predição Victor Ströele stroele@gmail.com 16/4/2015Business Intelligence

ExemploM

áqui

na d

e Ve

tore

s Su

port

e

Classifique os novos pontos [-1, -1]

[3, 0,5]

h(x) = -x + 3/2

11* 1,5 (1 1) 1,5 3,5 0

1classe

31* 1,5 ( 3 0,5) 1,5 2 0

0,5classe

Classe +1

Classe -1

Page 55: Mineração de Dados: Classificação e Predição Victor Ströele stroele@gmail.com 16/4/2015Business Intelligence

ExemploM

áqui

na d

e Ve

tore

s Su

port

e

Classifique os novos pontos [0, 3]

[1,5, -0,5]

h(x) = -x + 3/2

01* 1,5 (0 3) 1,5 1,5 0

3classe

1,51* 1,5 ( 1,5 0,5) 1,5 0,5 0

0,5classe

Classe -1

Classe +1

Page 56: Mineração de Dados: Classificação e Predição Victor Ströele stroele@gmail.com 16/4/2015Business Intelligence

Problemas não linearmente separáveis

Máq

uina

de

Veto

res

Supo

rte

Problemas que não são separáveis por um hiperplano

Page 57: Mineração de Dados: Classificação e Predição Victor Ströele stroele@gmail.com 16/4/2015Business Intelligence

Problemas não linearmente separáveis

Máq

uina

de

Veto

res

Supo

rte

Nova formulação do problema

2

x, 1

1minimizar2

.( . ) 1 , {1, 2, ..., }

0

l

ii

i i i

i

x C

s ay x s i l

permite a classificação errada de um elemento.C penaliza o erro na classificação

Page 58: Mineração de Dados: Classificação e Predição Victor Ströele stroele@gmail.com 16/4/2015Business Intelligence

ExercícioM

áqui

na d

e Ve

tore

s Su

port

e

Encontre o classificador para os dados

x y Classe -1 x y Classe +10,5 0,5 -1 3 -1 +1

1 0 -1 2 0 +1

0 1 -1 2,5 1 +1

0,5 1,5 -1 3 -1 +1

0,5 2,5 -1 2 2 +1

0 0 -1 2,5 0 +1

0 2 -1 3 1 +1

0,75 0,5 -1 2 1 +1

-0,5 -0,5 -1 2,5 2,5 +1

0,75 1 -1 2,5 3 +1

1 1 -1 2,1 0 +1

1 2 -1 2,3 0,5 +1

1 3 -1 2,2 1,5 +1

1 -1 -1 2 -1 +1-2

-1

0

1

2

3

4

-1 -0,5 0 0,5 1 1,5 2 2,5 3 3,5

X=1 X=2

Page 59: Mineração de Dados: Classificação e Predição Victor Ströele stroele@gmail.com 16/4/2015Business Intelligence

ExercícioM

áqui

na d

e Ve

tore

s Su

port

e

( ) 1( ) 2

f x xg x x

Margem Soma de f(x) = -1 e g(x) = +1

1 1 32 3 0 ( )2 1 2

xx h x x

x

Margem:

Page 60: Mineração de Dados: Classificação e Predição Victor Ströele stroele@gmail.com 16/4/2015Business Intelligence

ExercícioM

áqui

na d

e Ve

tore

s Su

port

e

3( )2

h x x

-2

-1

0

1

2

3

4

-1 -0,5 0 0,5 1 1,5 2 2,5 3 3,5

X=1 X=2

X=3/2

Page 61: Mineração de Dados: Classificação e Predição Victor Ströele stroele@gmail.com 16/4/2015Business Intelligence

ExercícioM

áqui

na d

e Ve

tore

s Su

port

e

-2

-1

0

1

2

3

4

-1 -0,5 0 0,5 1 1,5 2 2,5 3 3,5

X=1 X=2

X=3/2 Classifique os pontos [0,0] [3,3]

Page 62: Mineração de Dados: Classificação e Predição Victor Ströele stroele@gmail.com 16/4/2015Business Intelligence

ExemploM

áqui

na d

e Ve

tore

s Su

port

e

Classifique os novos pontos [0, 0]

[3, 3]

h(x) = x - 3/2

01* 1,5 (0 0) 1,5 1,5 0

0classe

31* 1,5 (3 3) 1,5 1,5 0

3classe

Classe -1

Classe +1

Page 63: Mineração de Dados: Classificação e Predição Victor Ströele stroele@gmail.com 16/4/2015Business Intelligence

Redes Neurais Redes Neurais:

Simula a propagação dos sinais através dos neurônios

Conjunto de unidades de entradas e saídas, nas quais cada ligação tem um peso associado a ela

Backpropagation: Algoritmo de aprendizado de redes neurais

Técn

icas

de

Cla

ssifi

caçã

o

Page 64: Mineração de Dados: Classificação e Predição Victor Ströele stroele@gmail.com 16/4/2015Business Intelligence

Desvantagens Exigem grande período de treinamento,

portanto aplicáveis apenas em problemas com essa viabilidade

Vários parâmetros definidos de maneira empírica, tal como a estrutura

Difícil para os seres humanos interpretarem o significado simbólico por trás dos pesos aprendidos e das unidades escondidas

Red

es N

eura

is

Page 65: Mineração de Dados: Classificação e Predição Victor Ströele stroele@gmail.com 16/4/2015Business Intelligence

Vantagens Grande tolerância a dados ruidosos Grande capacidade de classificação para

novos dados (padrões desconhecidos) Podem ser usadas quando o usuário tiver

pouco conhecimento sobre as relações entre atributos e classes

Bem adaptadas a valores contínuos Têm sido bem sucedidas na resolução de

vários problemas do mundo real, tais como: reconhecimento de caracteres manuscritos, medicina laboratorial, etc.

Red

es N

eura

is

Page 66: Mineração de Dados: Classificação e Predição Victor Ströele stroele@gmail.com 16/4/2015Business Intelligence

Backpropagation Algoritmo que realiza o aprendizado de

uma rede neural feed-forward com múltiplas camadas

Aprende iterativamente um conjunto de pesos para a previsão do rótulo da classe

Red

es N

eura

is

Page 67: Mineração de Dados: Classificação e Predição Victor Ströele stroele@gmail.com 16/4/2015Business Intelligence

Rede Neural Feed-Forward Estrutura:

Uma camada de Entrada

Uma ou mais camadas ocultas

Uma camada de SaídaR

edes

Neu

rais

Page 68: Mineração de Dados: Classificação e Predição Victor Ströele stroele@gmail.com 16/4/2015Business Intelligence

Feed-Forward Estrutura:

Cada camada é composta por unidadesAs entradas correspondem aos atributos

calculados de cada elemento do conjunto de treinamento

Cada atributo é associado a uma unidade formando a camada de entrada

Red

es N

eura

is

Page 69: Mineração de Dados: Classificação e Predição Victor Ströele stroele@gmail.com 16/4/2015Business Intelligence

Feed-Forward Estrutura:

Cada atributo recebe um peso após passar por uma camadaA saída da camada de entrada é a entrada

para primeira camada ocultaA saída de uma camada escondida pode ser

outra camada escondida ou a camada de saída

O número de camadas ocultas é arbitrário, mas geralmente se utiliza apenas uma.

Red

es N

eura

is

Page 70: Mineração de Dados: Classificação e Predição Victor Ströele stroele@gmail.com 16/4/2015Business Intelligence

Feed-Forward Estrutura:

Red

es N

eura

is

Entr

ada

Ocu

lta 1

Ocu

lta N

Saíd

a

Número arbitrário

Page 71: Mineração de Dados: Classificação e Predição Victor Ströele stroele@gmail.com 16/4/2015Business Intelligence

Representação do Conhecimento

Conhecimento representado pelas unidades de processamento que simulam a estrutura e o comportamento dos neurônios

Red

es N

eura

is

Page 72: Mineração de Dados: Classificação e Predição Victor Ströele stroele@gmail.com 16/4/2015Business Intelligence

Representação do ConhecimentoR

edes

Neu

rais

Uni

dade

vj(l-1) X1

(l-1)

X2(l-1)

Xn(l-1) U

nida

de v

i(l)

Camada (l-1) Camada (l)

Potencial net do neurônio vi(l):

( 1)

( ) ( ) ( 1) ( 1)( ) ( ) ( )

1

lnl l l l

i t ij j t i tj

net w x

Page 73: Mineração de Dados: Classificação e Predição Victor Ströele stroele@gmail.com 16/4/2015Business Intelligence

Representação do Conhecimento

O potencial net do neurônio é aplicado à função de ativação

A função de ativação g restringe o potencial de ativação do neurônio a um intervalo pré-definido

Red

es N

eura

is

( ) ( )( 1) ( )

l li t i tx g net Saída da camada (l):

Page 74: Mineração de Dados: Classificação e Predição Victor Ströele stroele@gmail.com 16/4/2015Business Intelligence

Função de AtivaçãoR

edes

Neu

rais

Funções de ativação

Degrau:

Semi-Linear:

Sigmoidal:

,( )

,se

g xse

,( ) ,

,

se xg x x se x

se x

1( )1

xT

g xe

Page 75: Mineração de Dados: Classificação e Predição Victor Ströele stroele@gmail.com 16/4/2015Business Intelligence

Características

Conhecimento do comportamento de cada neurônio individualmente

Composição de várias unidades gera reações imprevisíveis

A união das ativações de todas as unidades que especifica o que a rede neural está representando em um dado instante

Essa incerteza do modelo que determina o interesse e a complexidade das redes neurais

Red

es N

eura

is

Page 76: Mineração de Dados: Classificação e Predição Victor Ströele stroele@gmail.com 16/4/2015Business Intelligence

Estratégias de Aprendizagem

Sem Treinamento Os valores dos pesos sinápticos são estabelecidos

explicitamente Treinamento Supervisionado

A rede é treinada pela apresentação dos vetores de entrada e seus respectivos vetores de saída (pares de treinamento)

Treinamento Não Supervisionado Apresentação apenas dos vetores de entrada, a partir

dos quais são extraídas as características desse conjunto de padrões, agrupando-os em classes

Red

es N

eura

is

Page 77: Mineração de Dados: Classificação e Predição Victor Ströele stroele@gmail.com 16/4/2015Business Intelligence

Algoritmo Backpropagation

Primeiro passo:Padrões de entrada e saída são apresentados

à rede neural e uma saída aleatória é gerada Segundo passo:

Cálculo do erro, representando a diferença entre o valor obtido e o valor desejado

Terceiro passo:Retropropagação do erro e reajuste dos pesos

sinápticos

Red

es N

eura

is

Page 78: Mineração de Dados: Classificação e Predição Victor Ströele stroele@gmail.com 16/4/2015Business Intelligence

Algoritmo BackpropagationR

edes

Neu

rais

Entr

ada

Ocu

lta 1

Ocu

lta N

Saíd

a

ERRO(Obtido - Desejado)

Propagação do Erro

Propagação do Sinal de Entrada

Page 79: Mineração de Dados: Classificação e Predição Victor Ströele stroele@gmail.com 16/4/2015Business Intelligence

Algoritmo Backpropagation

Duas fases distintas:Sinais de entradas se propagam entre as

camadas da rede (camada de entrada até camada de saída)

Erros são propagados na direção contrária ao fluxo de entrada (camada de saída até camada de entrada)

Red

es N

eura

is

Page 80: Mineração de Dados: Classificação e Predição Victor Ströele stroele@gmail.com 16/4/2015Business Intelligence

Predição

Definir um valor provável de uma variável Aplicada quando se tem dados temporais

(organizados cronologicamente)Previsão de cotação de uma ação na bolsa de

valores Duas técnicas principais:

Regressão linearRegressão Não Linear

Page 81: Mineração de Dados: Classificação e Predição Victor Ströele stroele@gmail.com 16/4/2015Business Intelligence

Regressão Linear

Entende-se que os dados possuem comportamento linear

Podem ser aproximados por uma reta

Pred

ição

Page 82: Mineração de Dados: Classificação e Predição Victor Ströele stroele@gmail.com 16/4/2015Business Intelligence

Regressão Linear

Fórmula da regressão linear

Pred

ição

y x

X variável independente (conjunto de dados)Y variável dependente (valor desejável) define a inclinação da reta define o ponto de interceptação da reta com o eixo vertical

Page 83: Mineração de Dados: Classificação e Predição Victor Ströele stroele@gmail.com 16/4/2015Business Intelligence

Regressão Linear

Cálculo de e :

Pred

ição

Média dos valores de Média dos valores de

| |

1| |

2

1

( )( )

( )

D

i ii

D

ii

x x y y

x x

y x

xy 1 2 | |, , ..., Dx x x

1 2 | |, , ..., Dy y y

Page 84: Mineração de Dados: Classificação e Predição Victor Ströele stroele@gmail.com 16/4/2015Business Intelligence

ExemploR

egre

ssão

Lin

ear

Semana Clientes Vendas

1 907 11,20

2 926 11,05

3 506 6,84

4 741 9,21

5 789 9,42

6 889 10,08

7 874 9,45

8 510 6,73

9 529 7,24

10 420 6,12

11 679 7,63

12 872 9,43

13 924 9,46

14 607 7,64

15 452 6,92

16 729 8,95

17 794 9,33

18 844 10,23

19 1010 11,77

20 621 7,41

Page 85: Mineração de Dados: Classificação e Predição Victor Ströele stroele@gmail.com 16/4/2015Business Intelligence

Exemplo

Médias:Clientes: 731,15Vendas: 8,8055

Cálculos: = 2,423 = 0,00873

Reta:y = 0,00873x + 2,423

Reg

ress

ão L

inea

r

0

2

4

6

8

10

12

14

350 550 750 950 1150

Page 86: Mineração de Dados: Classificação e Predição Victor Ströele stroele@gmail.com 16/4/2015Business Intelligence

Regressão NÃO Linear

Regressão linear bastante simples, mas no mundo real a maioria dos problemas são não lineares

Dados modelados por uma função que é uma combinação não-linear de parâmetros do modelo

Dados ajustados por métodos de aproximações sucessivas

Pred

ição

Page 87: Mineração de Dados: Classificação e Predição Victor Ströele stroele@gmail.com 16/4/2015Business Intelligence

Regressão NÃO Linear

Métodos:Mínimos

QuadradosEquações NormaisGauss-Newton

Pred

ição

Page 88: Mineração de Dados: Classificação e Predição Victor Ströele stroele@gmail.com 16/4/2015Business Intelligence

ExercícioR

egre

ssão

Lin

ear

Variável 1 (x)

Variável 2 (y)

60 50

50 30

45 18

40 20

35 10

30 15

20 6

15 3

10 0

Médias: Variável 1: 33,88 Variável 2: 16,88

| |

1| |

2

1

( )( )

( )

D

i ii

D

ii

x x y y

x x

y x

Page 89: Mineração de Dados: Classificação e Predição Victor Ströele stroele@gmail.com 16/4/2015Business Intelligence

ExercícioR

egre

ssão

Lin

ear

Variável 1 (x)

Variável 2 (y)

60 50

50 30

45 18

40 20

35 10

30 15

20 6

15 3

10 0

Médias: Variável 1: 33,88 Variável 2: 16,88

1923,363 0,859072238,8896

16,88 (0,85907*33,88) 12,224

0,85907 12,224reta x

Page 90: Mineração de Dados: Classificação e Predição Victor Ströele stroele@gmail.com 16/4/2015Business Intelligence

ExercícioR

egre

ssão

Lin

ear

Variável 1 Variável 260 50

50 30

45 18

40 20

35 10

30 15

20 6

15 3

10 0-20

-10

0

10

20

30

40

50

60

0 20 40 60 80