analise e seleção de variáveis. tópicos por que atributos irrelevantes são um problema quais...

48
Analise e Seleção de Variáveis

Upload: internet

Post on 17-Apr-2015

105 views

Category:

Documents


2 download

TRANSCRIPT

Page 1: Analise e Seleção de Variáveis. Tópicos Por que atributos irrelevantes são um problema Quais tipos de algoritmos de aprendizado são afetados Abordagens

Analise e Seleccedilatildeo de Variaacuteveis

Toacutepicosbull Por que atributos irrelevantes satildeo um

problema

bull Quais tipos de algoritmos de aprendizado satildeo afetados

bull Abordagens automaacuteticasbull Wrapperbull Filtros

Introduccedilatildeo

bull Muitos algoritmos de AM satildeo projetados de modo a selecionar os atributos mais apropriados para a tomada de decisatildeondash Algoritmos de induccedilatildeo de aacutervores de decisatildeo satildeo

projetados parabull Escolher o atributo mais promissor para

particionar o conjunto de dadosbull Nunca selecionar atributos irrelevantes

ndash Mais atributos implica em maior poder discriminatoacuterio

Atributos irrelevantes

bull Adiccedilatildeo de atributos irrelevantes agraves instacircncias de uma base de dados geralmente ldquoconfunderdquo o algoritmo de aprendizado

bull Experimento (exemplo)ndash Indutor de aacutervores de decisatildeo (C45)

ndash Base de dados D

ndash Adicione agraves instacircncias em D um atributo binaacuterio cujos valores sejam gerados aleatoriamente

bull Resultadondash A acuraacutecia da classificaccedilatildeo cai

bull Em geral de 5 a 10 nos conjuntos de testes

Explicaccedilatildeo

bull Em algum momento durante a geraccedilatildeo das aacutervoresndash O atributo irrelevante eacute escolhido

ndash Isto causa erros aleatoacuterios durante o teste

bull Por que o atributo irrelevante eacute escolhidondash Na medida em que a aacutervore eacute construiacuteda menos e menos

dados estatildeo disponiacuteveis para auxiliar a escolha do atributo

ndash Chega a um ponto em que atributos aleatoacuterios parecem bons apenas por acaso

ndash A chance disto acontece aumenta com a profundidade da aacutervore

Atributos Irrelevantes x Algoritmos de AM

bull Algoritmos mais afetadosndash Indutores de aacutervores e regras de decisatildeo

bull Continuamente reduzem a quantidade de dados em que baseiam suas escolhas

ndash Indutores baseados em instacircncias (eg k-NN)bull Sempre trabalha com vizinhanccedilas locais

ndash Leva em consideraccedilatildeo apenas algumas poucas instacircncias (k)

bull Foi mostrado que para se alcanccedilar um certo niacutevel de desempenho a quantidade de instacircncias necessaacuteria cresce exponencialmente com o nuacutemero de atributos irrelevantes

Seleccedilatildeo de atributos antes do aprendizado

bull Melhora o desempenho preditivobull Acelera o processo de aprendizado

ndash O processo de seleccedilatildeo de atributos agraves vezes pode ser muito mais custoso que o processo de aprendizado

ndash Ou seja quando somarmos os custos das duas etapas pode natildeo haver vantagem

bull Produz uma representaccedilatildeo mais compacta do conceito a ser aprendidondash O foco seraacute nos atributos que realmente satildeo importantes

para a definiccedilatildeo do conceito

Analise e Seleccedilatildeo de Variaacuteveis

bull Parte de uma aacuterea chamada de Reduccedilatildeo de Dados

bull Obtenccedilatildeo de uma representaccedilatildeo reduzida em volume mas que produz resultados de anaacutelise idecircnticos ou similares

bull Melhora o desempenho dos modelos de aprendizado

bull Objetivo Eliminar atributos redundantes ou irrelevantes

Meacutetodos de Seleccedilatildeo de Atributos

bull Manualndash Melhor meacutetodo se for baseado em um entendimento

profundo sobre ambos

bull O problema de aprendizado

bull O significado de cada atributo

bull Automaacuteticondash Filtros meacutetodo usado antes do processo de aprendizado

para selecionar o subconjunto de atributos

ndash Wrappers o processo de escolha do subconjunto de atributos estaacute ldquoempacotadordquo junto com o algoritmo de aprendizado sendo utilizado

Seleccedilatildeo Automaacutetica

bull Implica em uma busca no ldquoespaccedilordquo de atributos

bull Quantos subconjuntos haacute

bull 2N em que N eacute o nuacutemero total de atributos

bull Portanto na maioria dos casos praacuteticos uma busca exaustiva natildeo eacute viaacutevel

bull Soluccedilatildeo busca heuriacutestica

Exemplo Espaccedilo de Atributos

Busca Heuriacutestica no Espaccedilo de Atributos

bull Busca para Frente (Seleccedilatildeo Forward)

ndash A busca eacute iniciada sem atributos e os mesmos satildeo adicionados um a um

ndash Cada atributo eacute adicionado isoladamente e o conjunto resultante eacute avaliado segundo um criteacuterio

ndash O atributo que produz o melhor criteacuterio eacute incorporado

Busca Heuriacutestica no Espaccedilo de Atributos

bull Busca para traacutes (Eliminaccedilao Backward) ndash Similar a Seleccedilatildeo Forward ndash Comeccedila com todo o conjunto de atributos eliminando

um atributo a cada passo

bull Tanto na Seleccedilatildeo Forward quanto na Eliminaccedilatildeo Backward pode-se adicionar um vieacutes por subconjuntos pequenosndash Por exemplo pode-se requerer natildeo apenas que a

medida de avaliaccedilatildeo crescer a cada passo mas que ela cresccedila mais que uma determinada constante

Busca Heuriacutestica no Espaccedilo de Atributos

bull Outros meacutetodos de busca

ndash Busca bidirecionalndash Best-first searchndash Beam searchndash Algoritmos geneacuteticosndash

Abordagens para Seleccedilatildeo de Atributos

bull Filtrosndash O processo de escolha do subconjunto

acontece antes do processo de aprendizado

bull Wrapperndash O processo de escolha do subconjunto de

atributos estaacute ldquoempacotadordquo junto com o algoritmo de aprendizado sendo utilizado

Analise e Seleccedilatildeo de Variaacuteveis

bull Meacutetodos Dependentes do Modelo (Wrapper)

bull Meacutetodos Independentes do Modelo (Filter)

Exemplo Filtros

bull Uso de uma indutor de aacutervores de decisatildeo (AD) como filtro para o k-NN

ndash 1) Aplique um indutor de AD para todo o conjunto de treinamento

ndash 2) Selecione o subconjunto de atributos que aparece na AD

ndash 3) Aplique o k-NN a apenas este subconjunto

bull A combinaccedilatildeo pode apresentar melhores resultados do que cada meacutetodo usando individualmente

Filtros

bull Abordagensndash baseada nas caracteriacutesticas gerais dos

dadosndash Encontrar o menor subconjunto que separe

os dadosndash Utilizar diferentes esquemas de aprendizado

bull Usar os atributos que aparecem no c45 1R

Wrapper

bull Busca para Frente (Seleccedilatildeo Forward) + Naive Bayes

ndash (1) Inicialize com o conjunto vazio S=ndash (2) Resultado_S=0ndash (2) Para cada atributo si que natildeo esteja em S

bull Avalie o resultado de (S U si ) Resultado_ si ndash (3) Considere o atributo com maior Resultado_ si

bull SE (Resultado_ si gt Resultado_S) ENTAO (S=S U si ) amp (Resultado_S= Resultado_ si )Volte para o Passo (2)SENAOPare

Transformaccedilatildeo de Dados

Discretizaccedilatildeo de Variaacuteveis Contiacutenuas

bull Transforma atributos contiacutenuos em atributos categoacutericos

bull Absolutamente essencial se o meacutetodo inteligente soacute manuseia atributos categoacutericos

bull Em alguns casos mesmo meacutetodos que manuseiam atributos contiacutenuos tecircm melhor desempenho com atributos categoacutericos

Discretizaccedilatildeo de Variaacuteveis Contiacutenuas

bull 1048673 Diversos meacutetodos de discretizaccedilatildeo

bull 1048673 Discretizaccedilatildeo pelo Meacutetodo 1R (1-rule)

bull 1048673 Discretizaccedilatildeo Natildeo-supervisionada

Discretizaccedilatildeo de Variaacuteveis Contiacutenuas

bull Discretizaccedilatildeo pelo Meacutetodo 1R (1-rule)bull Sub-produto de uma teacutecnica de extraccedilatildeo

automaacutetica de regrasbull Utiliza as classes de saiacuteda para discretizar

cada atributo de entrada separadamentebull Ex Base de dados hipoteacutetica de

meteorologia x decisatildeo de realizar ou natildeo um certo jogo

Discretizaccedilatildeo pelo Meacutetodo 1R (1-rule)

bull Base de Dados Meteoroloacutegicosbull Tempo Temperatura Umidade Vento Jogar (CLASSE)

Sol 85 85 Natildeo NatildeoSol 80 90 Sim NatildeoNublado 83 86 Natildeo SimChuva 70 96 Natildeo SimChuva 68 80 Natildeo SimChuva 65 70 Sim NatildeoNublado 64 65 Sim SimSol 72 95 Natildeo NatildeoSol 69 70 Natildeo SimChuva 75 80 Natildeo SimSol 75 70 Sim SimNublado 72 90 Sim SimNublado 81 75 Natildeo SimChuva 71 91 Sim Natildeo

Discretizaccedilatildeo pelo Meacutetodo 1R (1-rule)

Discretizaccedilatildeo de Variaacuteveis Contiacutenuas

bull Discretizaccedilatildeo Natildeo-Supervisionadandash O meacutetodo 1R eacute supervisionado Considera a

variaacutevel de saiacuteda (classe) na discretizaccedilatildeo

bull Meacutetodos Natildeo Supervisionados consideram somente o atributo a ser discretizadondash Satildeo a uacutenica opccedilatildeo no caso de problemas de

agrupamento (clustering) onde natildeo se conhecem as classes de saiacuteda

bull Trecircs abordagens baacutesicasndash Nuacutemero preacute-determinado de intervalos

bull uniformes (equal-interval binning)

ndash Nuacutemero uniforme de amostras por intervalobull (equal-frequency binning)

ndash Agrupamento (clustering) intervalos arbitraacuterios

Meacutetodos de Discretizaccedilatildeo Natildeo Supervisionada

bull Nuacutemero preacute-determinado de intervalos uniformesndash (equal-interval binning)

bull No exemplo (temperatura) 64 65 68 69 70 71 72 72 75 75 80 81 83 85bull Bins com largura 6 x le 60

60 lt x le 6666 lt x le 7272 lt x le 7878 lt x le 8484 lt x le 90

Meacutetodos de Discretizaccedilatildeo Natildeo Supervisionada

bull Nuacutemero preacute-determinado de intervalos uniformesndash (equal-interval binning)

bull No exemplo (temperatura)64 65 68 69 70 71 72 72 75 75 80 81 83 85

bull Bins com largura 6 x le 60 na60 lt x le 66 64 6566 lt x le 72 68 69 70 71 72 7272 lt x le 78 75 7578 lt x le 84 80 81 8384 lt x le 90 85

Meacutetodos de Discretizaccedilatildeo Natildeo Supervisionada

bull Equal-interval binning Problemasbull Como qualquer meacutetodo natildeo

supervisionado arrisca destruir distinccedilotildees uacuteteis devido a divisotildees muito grandes ou fronteiras inadequadas

bull Distribuiccedilatildeo das amostras muito irregular com algumas bins com muitas amostras e outras com poucas amostras

Meacutetodos de Discretizaccedilatildeo Natildeo Supervisionada

bull Nuacutemero uniforme de amostras por intervalondash (equal-frequency binning)

bull Tambeacutem chamado de equalizaccedilatildeo do histograma

bull Cada bin tem o mesmo nuacutemero aproximado de amostras

bull Histograma eacute planobull Heuriacutestica para o nuacutemero de bins radicNbull N = nuacutemero de amostras

Meacutetodos de Discretizaccedilatildeo Natildeo Supervisionada

bull Nuacutemero uniforme de amostras por intervalondash (equal-frequency binning)

bull No exemplo (temperatura)bull 64 65 68 69 |70 71 72 72 |75 75 80| 81 83 85bull 14 amostras 4 Bins

ndash x le 695 64 65 68 69ndash 695 lt x le 735 70 71 72 72ndash 735 lt x le 805 75 75 80ndash x gt 805 81 83 85

Meacutetodos de Discretizaccedilatildeo Natildeo Supervisionada

bull Agrupamento (Clustering)

bull Pode-se aplicar um algoritmo de agrupamento

bull no caso unidimensional

bull Para cada grupo (cluster) atribuir um valor discreto

Transformar

Anaacutelise de Componentes Principais (PCA)

bull Dado um conjunto D com n instacircncias e p atributos (x1 x2 xp) uma transformaccedilatildeo linear para um novo conjunto de atributos z1 z2 zp pode ser calculada como

bull Componentes Principais (PCs) satildeo tipos especiacuteficos de combinaccedilotildees lineares que satildeo escolhidas de tal modo que zp (PCs) tenham as seguintes caracteriacutesticas

z1 = a11 x1 + a21 x2 + + ap1 xp

z2 = a12 x1 + a22 x2 + + ap2 xp

zp = a1p x1 + a2p x2 + + app xp

PCA Caracteriacutesticas

bull As p componentes principais (PC) satildeo natildeo-correlacionadas (independentes)

bull As PCs satildeo ordenadas de acordo com quantidade da variacircncia dos dados originais que elas contecircm (ordem decrescente)ndash A primeira PC ldquoexplicardquo (conteacutem) a maior porcentagem da

variabilidade do conjunto de dados originalndash A segunda PC define a proacutexima maior parte e assim por diantendash Em geral apenas algumas das primeiras PCs satildeo responsaacuteveis

pela maior parte da variabilidade do conjunto de dadosndash O restante das PCs tem uma contribuiccedilatildeo insignificante

bull PCA eacute usada em Aprendizado de Maacutequina principalmente para a reduccedilatildeo de dimensionalidade

PCA Caacutelculo

bull PCA pode reduzida ao problema de encontrar os auto-valores e auto-vetores da matriz de covariacircncia (ou correlaccedilatildeo) do conjunto de dados

bull A proporccedilatildeo da variacircncia do conjunto de dados originais explicada pela i-eacutesima PC eacute igual ao i-eacutesimo auto-valor divido pela soma de todos os p auto-valores

bull Ou seja as PCs satildeo ordenadas - decrescente - de acordo com os valores dos auto-valores

bull Quando os valores dos diferentes atributos estatildeo em diferentes escalas eacute preferiacutevel usar a matriz de correlaccedilatildeo em lugar da matriz de covariacircncia

Anaacutelise de Componentes Principais

bull Principais Limitaccedilotildees

ndash Assume apenas relaccedilotildees lineares entre os atributos

ndash A interpretaccedilatildeo dos resultados (eg classificador gerado) em termos dos atributos originais pode ficar mais difiacutecil

  • Slide 1
  • Slide 2
  • Slide 3
  • Slide 4
  • Slide 5
  • Slide 6
  • Slide 7
  • Slide 8
  • Slide 9
  • Slide 10
  • Slide 11
  • Slide 12
  • Slide 13
  • Slide 14
  • Slide 15
  • Slide 16
  • Slide 17
  • Slide 18
  • Slide 19
  • Slide 20
  • Slide 21
  • Slide 22
  • Slide 23
  • Slide 24
  • Slide 25
  • Slide 26
  • Slide 27
  • Slide 28
  • Slide 29
  • Slide 30
  • Slide 31
  • Slide 32
  • Slide 33
  • Slide 34
  • Slide 35
  • Slide 36
  • Slide 37
  • Slide 38
  • Slide 39
  • Slide 40
  • Slide 41
  • Slide 42
  • Slide 43
  • Slide 44
  • Slide 45
  • Slide 46
  • Slide 47
  • Slide 48
Page 2: Analise e Seleção de Variáveis. Tópicos Por que atributos irrelevantes são um problema Quais tipos de algoritmos de aprendizado são afetados Abordagens

Toacutepicosbull Por que atributos irrelevantes satildeo um

problema

bull Quais tipos de algoritmos de aprendizado satildeo afetados

bull Abordagens automaacuteticasbull Wrapperbull Filtros

Introduccedilatildeo

bull Muitos algoritmos de AM satildeo projetados de modo a selecionar os atributos mais apropriados para a tomada de decisatildeondash Algoritmos de induccedilatildeo de aacutervores de decisatildeo satildeo

projetados parabull Escolher o atributo mais promissor para

particionar o conjunto de dadosbull Nunca selecionar atributos irrelevantes

ndash Mais atributos implica em maior poder discriminatoacuterio

Atributos irrelevantes

bull Adiccedilatildeo de atributos irrelevantes agraves instacircncias de uma base de dados geralmente ldquoconfunderdquo o algoritmo de aprendizado

bull Experimento (exemplo)ndash Indutor de aacutervores de decisatildeo (C45)

ndash Base de dados D

ndash Adicione agraves instacircncias em D um atributo binaacuterio cujos valores sejam gerados aleatoriamente

bull Resultadondash A acuraacutecia da classificaccedilatildeo cai

bull Em geral de 5 a 10 nos conjuntos de testes

Explicaccedilatildeo

bull Em algum momento durante a geraccedilatildeo das aacutervoresndash O atributo irrelevante eacute escolhido

ndash Isto causa erros aleatoacuterios durante o teste

bull Por que o atributo irrelevante eacute escolhidondash Na medida em que a aacutervore eacute construiacuteda menos e menos

dados estatildeo disponiacuteveis para auxiliar a escolha do atributo

ndash Chega a um ponto em que atributos aleatoacuterios parecem bons apenas por acaso

ndash A chance disto acontece aumenta com a profundidade da aacutervore

Atributos Irrelevantes x Algoritmos de AM

bull Algoritmos mais afetadosndash Indutores de aacutervores e regras de decisatildeo

bull Continuamente reduzem a quantidade de dados em que baseiam suas escolhas

ndash Indutores baseados em instacircncias (eg k-NN)bull Sempre trabalha com vizinhanccedilas locais

ndash Leva em consideraccedilatildeo apenas algumas poucas instacircncias (k)

bull Foi mostrado que para se alcanccedilar um certo niacutevel de desempenho a quantidade de instacircncias necessaacuteria cresce exponencialmente com o nuacutemero de atributos irrelevantes

Seleccedilatildeo de atributos antes do aprendizado

bull Melhora o desempenho preditivobull Acelera o processo de aprendizado

ndash O processo de seleccedilatildeo de atributos agraves vezes pode ser muito mais custoso que o processo de aprendizado

ndash Ou seja quando somarmos os custos das duas etapas pode natildeo haver vantagem

bull Produz uma representaccedilatildeo mais compacta do conceito a ser aprendidondash O foco seraacute nos atributos que realmente satildeo importantes

para a definiccedilatildeo do conceito

Analise e Seleccedilatildeo de Variaacuteveis

bull Parte de uma aacuterea chamada de Reduccedilatildeo de Dados

bull Obtenccedilatildeo de uma representaccedilatildeo reduzida em volume mas que produz resultados de anaacutelise idecircnticos ou similares

bull Melhora o desempenho dos modelos de aprendizado

bull Objetivo Eliminar atributos redundantes ou irrelevantes

Meacutetodos de Seleccedilatildeo de Atributos

bull Manualndash Melhor meacutetodo se for baseado em um entendimento

profundo sobre ambos

bull O problema de aprendizado

bull O significado de cada atributo

bull Automaacuteticondash Filtros meacutetodo usado antes do processo de aprendizado

para selecionar o subconjunto de atributos

ndash Wrappers o processo de escolha do subconjunto de atributos estaacute ldquoempacotadordquo junto com o algoritmo de aprendizado sendo utilizado

Seleccedilatildeo Automaacutetica

bull Implica em uma busca no ldquoespaccedilordquo de atributos

bull Quantos subconjuntos haacute

bull 2N em que N eacute o nuacutemero total de atributos

bull Portanto na maioria dos casos praacuteticos uma busca exaustiva natildeo eacute viaacutevel

bull Soluccedilatildeo busca heuriacutestica

Exemplo Espaccedilo de Atributos

Busca Heuriacutestica no Espaccedilo de Atributos

bull Busca para Frente (Seleccedilatildeo Forward)

ndash A busca eacute iniciada sem atributos e os mesmos satildeo adicionados um a um

ndash Cada atributo eacute adicionado isoladamente e o conjunto resultante eacute avaliado segundo um criteacuterio

ndash O atributo que produz o melhor criteacuterio eacute incorporado

Busca Heuriacutestica no Espaccedilo de Atributos

bull Busca para traacutes (Eliminaccedilao Backward) ndash Similar a Seleccedilatildeo Forward ndash Comeccedila com todo o conjunto de atributos eliminando

um atributo a cada passo

bull Tanto na Seleccedilatildeo Forward quanto na Eliminaccedilatildeo Backward pode-se adicionar um vieacutes por subconjuntos pequenosndash Por exemplo pode-se requerer natildeo apenas que a

medida de avaliaccedilatildeo crescer a cada passo mas que ela cresccedila mais que uma determinada constante

Busca Heuriacutestica no Espaccedilo de Atributos

bull Outros meacutetodos de busca

ndash Busca bidirecionalndash Best-first searchndash Beam searchndash Algoritmos geneacuteticosndash

Abordagens para Seleccedilatildeo de Atributos

bull Filtrosndash O processo de escolha do subconjunto

acontece antes do processo de aprendizado

bull Wrapperndash O processo de escolha do subconjunto de

atributos estaacute ldquoempacotadordquo junto com o algoritmo de aprendizado sendo utilizado

Analise e Seleccedilatildeo de Variaacuteveis

bull Meacutetodos Dependentes do Modelo (Wrapper)

bull Meacutetodos Independentes do Modelo (Filter)

Exemplo Filtros

bull Uso de uma indutor de aacutervores de decisatildeo (AD) como filtro para o k-NN

ndash 1) Aplique um indutor de AD para todo o conjunto de treinamento

ndash 2) Selecione o subconjunto de atributos que aparece na AD

ndash 3) Aplique o k-NN a apenas este subconjunto

bull A combinaccedilatildeo pode apresentar melhores resultados do que cada meacutetodo usando individualmente

Filtros

bull Abordagensndash baseada nas caracteriacutesticas gerais dos

dadosndash Encontrar o menor subconjunto que separe

os dadosndash Utilizar diferentes esquemas de aprendizado

bull Usar os atributos que aparecem no c45 1R

Wrapper

bull Busca para Frente (Seleccedilatildeo Forward) + Naive Bayes

ndash (1) Inicialize com o conjunto vazio S=ndash (2) Resultado_S=0ndash (2) Para cada atributo si que natildeo esteja em S

bull Avalie o resultado de (S U si ) Resultado_ si ndash (3) Considere o atributo com maior Resultado_ si

bull SE (Resultado_ si gt Resultado_S) ENTAO (S=S U si ) amp (Resultado_S= Resultado_ si )Volte para o Passo (2)SENAOPare

Transformaccedilatildeo de Dados

Discretizaccedilatildeo de Variaacuteveis Contiacutenuas

bull Transforma atributos contiacutenuos em atributos categoacutericos

bull Absolutamente essencial se o meacutetodo inteligente soacute manuseia atributos categoacutericos

bull Em alguns casos mesmo meacutetodos que manuseiam atributos contiacutenuos tecircm melhor desempenho com atributos categoacutericos

Discretizaccedilatildeo de Variaacuteveis Contiacutenuas

bull 1048673 Diversos meacutetodos de discretizaccedilatildeo

bull 1048673 Discretizaccedilatildeo pelo Meacutetodo 1R (1-rule)

bull 1048673 Discretizaccedilatildeo Natildeo-supervisionada

Discretizaccedilatildeo de Variaacuteveis Contiacutenuas

bull Discretizaccedilatildeo pelo Meacutetodo 1R (1-rule)bull Sub-produto de uma teacutecnica de extraccedilatildeo

automaacutetica de regrasbull Utiliza as classes de saiacuteda para discretizar

cada atributo de entrada separadamentebull Ex Base de dados hipoteacutetica de

meteorologia x decisatildeo de realizar ou natildeo um certo jogo

Discretizaccedilatildeo pelo Meacutetodo 1R (1-rule)

bull Base de Dados Meteoroloacutegicosbull Tempo Temperatura Umidade Vento Jogar (CLASSE)

Sol 85 85 Natildeo NatildeoSol 80 90 Sim NatildeoNublado 83 86 Natildeo SimChuva 70 96 Natildeo SimChuva 68 80 Natildeo SimChuva 65 70 Sim NatildeoNublado 64 65 Sim SimSol 72 95 Natildeo NatildeoSol 69 70 Natildeo SimChuva 75 80 Natildeo SimSol 75 70 Sim SimNublado 72 90 Sim SimNublado 81 75 Natildeo SimChuva 71 91 Sim Natildeo

Discretizaccedilatildeo pelo Meacutetodo 1R (1-rule)

Discretizaccedilatildeo de Variaacuteveis Contiacutenuas

bull Discretizaccedilatildeo Natildeo-Supervisionadandash O meacutetodo 1R eacute supervisionado Considera a

variaacutevel de saiacuteda (classe) na discretizaccedilatildeo

bull Meacutetodos Natildeo Supervisionados consideram somente o atributo a ser discretizadondash Satildeo a uacutenica opccedilatildeo no caso de problemas de

agrupamento (clustering) onde natildeo se conhecem as classes de saiacuteda

bull Trecircs abordagens baacutesicasndash Nuacutemero preacute-determinado de intervalos

bull uniformes (equal-interval binning)

ndash Nuacutemero uniforme de amostras por intervalobull (equal-frequency binning)

ndash Agrupamento (clustering) intervalos arbitraacuterios

Meacutetodos de Discretizaccedilatildeo Natildeo Supervisionada

bull Nuacutemero preacute-determinado de intervalos uniformesndash (equal-interval binning)

bull No exemplo (temperatura) 64 65 68 69 70 71 72 72 75 75 80 81 83 85bull Bins com largura 6 x le 60

60 lt x le 6666 lt x le 7272 lt x le 7878 lt x le 8484 lt x le 90

Meacutetodos de Discretizaccedilatildeo Natildeo Supervisionada

bull Nuacutemero preacute-determinado de intervalos uniformesndash (equal-interval binning)

bull No exemplo (temperatura)64 65 68 69 70 71 72 72 75 75 80 81 83 85

bull Bins com largura 6 x le 60 na60 lt x le 66 64 6566 lt x le 72 68 69 70 71 72 7272 lt x le 78 75 7578 lt x le 84 80 81 8384 lt x le 90 85

Meacutetodos de Discretizaccedilatildeo Natildeo Supervisionada

bull Equal-interval binning Problemasbull Como qualquer meacutetodo natildeo

supervisionado arrisca destruir distinccedilotildees uacuteteis devido a divisotildees muito grandes ou fronteiras inadequadas

bull Distribuiccedilatildeo das amostras muito irregular com algumas bins com muitas amostras e outras com poucas amostras

Meacutetodos de Discretizaccedilatildeo Natildeo Supervisionada

bull Nuacutemero uniforme de amostras por intervalondash (equal-frequency binning)

bull Tambeacutem chamado de equalizaccedilatildeo do histograma

bull Cada bin tem o mesmo nuacutemero aproximado de amostras

bull Histograma eacute planobull Heuriacutestica para o nuacutemero de bins radicNbull N = nuacutemero de amostras

Meacutetodos de Discretizaccedilatildeo Natildeo Supervisionada

bull Nuacutemero uniforme de amostras por intervalondash (equal-frequency binning)

bull No exemplo (temperatura)bull 64 65 68 69 |70 71 72 72 |75 75 80| 81 83 85bull 14 amostras 4 Bins

ndash x le 695 64 65 68 69ndash 695 lt x le 735 70 71 72 72ndash 735 lt x le 805 75 75 80ndash x gt 805 81 83 85

Meacutetodos de Discretizaccedilatildeo Natildeo Supervisionada

bull Agrupamento (Clustering)

bull Pode-se aplicar um algoritmo de agrupamento

bull no caso unidimensional

bull Para cada grupo (cluster) atribuir um valor discreto

Transformar

Anaacutelise de Componentes Principais (PCA)

bull Dado um conjunto D com n instacircncias e p atributos (x1 x2 xp) uma transformaccedilatildeo linear para um novo conjunto de atributos z1 z2 zp pode ser calculada como

bull Componentes Principais (PCs) satildeo tipos especiacuteficos de combinaccedilotildees lineares que satildeo escolhidas de tal modo que zp (PCs) tenham as seguintes caracteriacutesticas

z1 = a11 x1 + a21 x2 + + ap1 xp

z2 = a12 x1 + a22 x2 + + ap2 xp

zp = a1p x1 + a2p x2 + + app xp

PCA Caracteriacutesticas

bull As p componentes principais (PC) satildeo natildeo-correlacionadas (independentes)

bull As PCs satildeo ordenadas de acordo com quantidade da variacircncia dos dados originais que elas contecircm (ordem decrescente)ndash A primeira PC ldquoexplicardquo (conteacutem) a maior porcentagem da

variabilidade do conjunto de dados originalndash A segunda PC define a proacutexima maior parte e assim por diantendash Em geral apenas algumas das primeiras PCs satildeo responsaacuteveis

pela maior parte da variabilidade do conjunto de dadosndash O restante das PCs tem uma contribuiccedilatildeo insignificante

bull PCA eacute usada em Aprendizado de Maacutequina principalmente para a reduccedilatildeo de dimensionalidade

PCA Caacutelculo

bull PCA pode reduzida ao problema de encontrar os auto-valores e auto-vetores da matriz de covariacircncia (ou correlaccedilatildeo) do conjunto de dados

bull A proporccedilatildeo da variacircncia do conjunto de dados originais explicada pela i-eacutesima PC eacute igual ao i-eacutesimo auto-valor divido pela soma de todos os p auto-valores

bull Ou seja as PCs satildeo ordenadas - decrescente - de acordo com os valores dos auto-valores

bull Quando os valores dos diferentes atributos estatildeo em diferentes escalas eacute preferiacutevel usar a matriz de correlaccedilatildeo em lugar da matriz de covariacircncia

Anaacutelise de Componentes Principais

bull Principais Limitaccedilotildees

ndash Assume apenas relaccedilotildees lineares entre os atributos

ndash A interpretaccedilatildeo dos resultados (eg classificador gerado) em termos dos atributos originais pode ficar mais difiacutecil

  • Slide 1
  • Slide 2
  • Slide 3
  • Slide 4
  • Slide 5
  • Slide 6
  • Slide 7
  • Slide 8
  • Slide 9
  • Slide 10
  • Slide 11
  • Slide 12
  • Slide 13
  • Slide 14
  • Slide 15
  • Slide 16
  • Slide 17
  • Slide 18
  • Slide 19
  • Slide 20
  • Slide 21
  • Slide 22
  • Slide 23
  • Slide 24
  • Slide 25
  • Slide 26
  • Slide 27
  • Slide 28
  • Slide 29
  • Slide 30
  • Slide 31
  • Slide 32
  • Slide 33
  • Slide 34
  • Slide 35
  • Slide 36
  • Slide 37
  • Slide 38
  • Slide 39
  • Slide 40
  • Slide 41
  • Slide 42
  • Slide 43
  • Slide 44
  • Slide 45
  • Slide 46
  • Slide 47
  • Slide 48
Page 3: Analise e Seleção de Variáveis. Tópicos Por que atributos irrelevantes são um problema Quais tipos de algoritmos de aprendizado são afetados Abordagens

Introduccedilatildeo

bull Muitos algoritmos de AM satildeo projetados de modo a selecionar os atributos mais apropriados para a tomada de decisatildeondash Algoritmos de induccedilatildeo de aacutervores de decisatildeo satildeo

projetados parabull Escolher o atributo mais promissor para

particionar o conjunto de dadosbull Nunca selecionar atributos irrelevantes

ndash Mais atributos implica em maior poder discriminatoacuterio

Atributos irrelevantes

bull Adiccedilatildeo de atributos irrelevantes agraves instacircncias de uma base de dados geralmente ldquoconfunderdquo o algoritmo de aprendizado

bull Experimento (exemplo)ndash Indutor de aacutervores de decisatildeo (C45)

ndash Base de dados D

ndash Adicione agraves instacircncias em D um atributo binaacuterio cujos valores sejam gerados aleatoriamente

bull Resultadondash A acuraacutecia da classificaccedilatildeo cai

bull Em geral de 5 a 10 nos conjuntos de testes

Explicaccedilatildeo

bull Em algum momento durante a geraccedilatildeo das aacutervoresndash O atributo irrelevante eacute escolhido

ndash Isto causa erros aleatoacuterios durante o teste

bull Por que o atributo irrelevante eacute escolhidondash Na medida em que a aacutervore eacute construiacuteda menos e menos

dados estatildeo disponiacuteveis para auxiliar a escolha do atributo

ndash Chega a um ponto em que atributos aleatoacuterios parecem bons apenas por acaso

ndash A chance disto acontece aumenta com a profundidade da aacutervore

Atributos Irrelevantes x Algoritmos de AM

bull Algoritmos mais afetadosndash Indutores de aacutervores e regras de decisatildeo

bull Continuamente reduzem a quantidade de dados em que baseiam suas escolhas

ndash Indutores baseados em instacircncias (eg k-NN)bull Sempre trabalha com vizinhanccedilas locais

ndash Leva em consideraccedilatildeo apenas algumas poucas instacircncias (k)

bull Foi mostrado que para se alcanccedilar um certo niacutevel de desempenho a quantidade de instacircncias necessaacuteria cresce exponencialmente com o nuacutemero de atributos irrelevantes

Seleccedilatildeo de atributos antes do aprendizado

bull Melhora o desempenho preditivobull Acelera o processo de aprendizado

ndash O processo de seleccedilatildeo de atributos agraves vezes pode ser muito mais custoso que o processo de aprendizado

ndash Ou seja quando somarmos os custos das duas etapas pode natildeo haver vantagem

bull Produz uma representaccedilatildeo mais compacta do conceito a ser aprendidondash O foco seraacute nos atributos que realmente satildeo importantes

para a definiccedilatildeo do conceito

Analise e Seleccedilatildeo de Variaacuteveis

bull Parte de uma aacuterea chamada de Reduccedilatildeo de Dados

bull Obtenccedilatildeo de uma representaccedilatildeo reduzida em volume mas que produz resultados de anaacutelise idecircnticos ou similares

bull Melhora o desempenho dos modelos de aprendizado

bull Objetivo Eliminar atributos redundantes ou irrelevantes

Meacutetodos de Seleccedilatildeo de Atributos

bull Manualndash Melhor meacutetodo se for baseado em um entendimento

profundo sobre ambos

bull O problema de aprendizado

bull O significado de cada atributo

bull Automaacuteticondash Filtros meacutetodo usado antes do processo de aprendizado

para selecionar o subconjunto de atributos

ndash Wrappers o processo de escolha do subconjunto de atributos estaacute ldquoempacotadordquo junto com o algoritmo de aprendizado sendo utilizado

Seleccedilatildeo Automaacutetica

bull Implica em uma busca no ldquoespaccedilordquo de atributos

bull Quantos subconjuntos haacute

bull 2N em que N eacute o nuacutemero total de atributos

bull Portanto na maioria dos casos praacuteticos uma busca exaustiva natildeo eacute viaacutevel

bull Soluccedilatildeo busca heuriacutestica

Exemplo Espaccedilo de Atributos

Busca Heuriacutestica no Espaccedilo de Atributos

bull Busca para Frente (Seleccedilatildeo Forward)

ndash A busca eacute iniciada sem atributos e os mesmos satildeo adicionados um a um

ndash Cada atributo eacute adicionado isoladamente e o conjunto resultante eacute avaliado segundo um criteacuterio

ndash O atributo que produz o melhor criteacuterio eacute incorporado

Busca Heuriacutestica no Espaccedilo de Atributos

bull Busca para traacutes (Eliminaccedilao Backward) ndash Similar a Seleccedilatildeo Forward ndash Comeccedila com todo o conjunto de atributos eliminando

um atributo a cada passo

bull Tanto na Seleccedilatildeo Forward quanto na Eliminaccedilatildeo Backward pode-se adicionar um vieacutes por subconjuntos pequenosndash Por exemplo pode-se requerer natildeo apenas que a

medida de avaliaccedilatildeo crescer a cada passo mas que ela cresccedila mais que uma determinada constante

Busca Heuriacutestica no Espaccedilo de Atributos

bull Outros meacutetodos de busca

ndash Busca bidirecionalndash Best-first searchndash Beam searchndash Algoritmos geneacuteticosndash

Abordagens para Seleccedilatildeo de Atributos

bull Filtrosndash O processo de escolha do subconjunto

acontece antes do processo de aprendizado

bull Wrapperndash O processo de escolha do subconjunto de

atributos estaacute ldquoempacotadordquo junto com o algoritmo de aprendizado sendo utilizado

Analise e Seleccedilatildeo de Variaacuteveis

bull Meacutetodos Dependentes do Modelo (Wrapper)

bull Meacutetodos Independentes do Modelo (Filter)

Exemplo Filtros

bull Uso de uma indutor de aacutervores de decisatildeo (AD) como filtro para o k-NN

ndash 1) Aplique um indutor de AD para todo o conjunto de treinamento

ndash 2) Selecione o subconjunto de atributos que aparece na AD

ndash 3) Aplique o k-NN a apenas este subconjunto

bull A combinaccedilatildeo pode apresentar melhores resultados do que cada meacutetodo usando individualmente

Filtros

bull Abordagensndash baseada nas caracteriacutesticas gerais dos

dadosndash Encontrar o menor subconjunto que separe

os dadosndash Utilizar diferentes esquemas de aprendizado

bull Usar os atributos que aparecem no c45 1R

Wrapper

bull Busca para Frente (Seleccedilatildeo Forward) + Naive Bayes

ndash (1) Inicialize com o conjunto vazio S=ndash (2) Resultado_S=0ndash (2) Para cada atributo si que natildeo esteja em S

bull Avalie o resultado de (S U si ) Resultado_ si ndash (3) Considere o atributo com maior Resultado_ si

bull SE (Resultado_ si gt Resultado_S) ENTAO (S=S U si ) amp (Resultado_S= Resultado_ si )Volte para o Passo (2)SENAOPare

Transformaccedilatildeo de Dados

Discretizaccedilatildeo de Variaacuteveis Contiacutenuas

bull Transforma atributos contiacutenuos em atributos categoacutericos

bull Absolutamente essencial se o meacutetodo inteligente soacute manuseia atributos categoacutericos

bull Em alguns casos mesmo meacutetodos que manuseiam atributos contiacutenuos tecircm melhor desempenho com atributos categoacutericos

Discretizaccedilatildeo de Variaacuteveis Contiacutenuas

bull 1048673 Diversos meacutetodos de discretizaccedilatildeo

bull 1048673 Discretizaccedilatildeo pelo Meacutetodo 1R (1-rule)

bull 1048673 Discretizaccedilatildeo Natildeo-supervisionada

Discretizaccedilatildeo de Variaacuteveis Contiacutenuas

bull Discretizaccedilatildeo pelo Meacutetodo 1R (1-rule)bull Sub-produto de uma teacutecnica de extraccedilatildeo

automaacutetica de regrasbull Utiliza as classes de saiacuteda para discretizar

cada atributo de entrada separadamentebull Ex Base de dados hipoteacutetica de

meteorologia x decisatildeo de realizar ou natildeo um certo jogo

Discretizaccedilatildeo pelo Meacutetodo 1R (1-rule)

bull Base de Dados Meteoroloacutegicosbull Tempo Temperatura Umidade Vento Jogar (CLASSE)

Sol 85 85 Natildeo NatildeoSol 80 90 Sim NatildeoNublado 83 86 Natildeo SimChuva 70 96 Natildeo SimChuva 68 80 Natildeo SimChuva 65 70 Sim NatildeoNublado 64 65 Sim SimSol 72 95 Natildeo NatildeoSol 69 70 Natildeo SimChuva 75 80 Natildeo SimSol 75 70 Sim SimNublado 72 90 Sim SimNublado 81 75 Natildeo SimChuva 71 91 Sim Natildeo

Discretizaccedilatildeo pelo Meacutetodo 1R (1-rule)

Discretizaccedilatildeo de Variaacuteveis Contiacutenuas

bull Discretizaccedilatildeo Natildeo-Supervisionadandash O meacutetodo 1R eacute supervisionado Considera a

variaacutevel de saiacuteda (classe) na discretizaccedilatildeo

bull Meacutetodos Natildeo Supervisionados consideram somente o atributo a ser discretizadondash Satildeo a uacutenica opccedilatildeo no caso de problemas de

agrupamento (clustering) onde natildeo se conhecem as classes de saiacuteda

bull Trecircs abordagens baacutesicasndash Nuacutemero preacute-determinado de intervalos

bull uniformes (equal-interval binning)

ndash Nuacutemero uniforme de amostras por intervalobull (equal-frequency binning)

ndash Agrupamento (clustering) intervalos arbitraacuterios

Meacutetodos de Discretizaccedilatildeo Natildeo Supervisionada

bull Nuacutemero preacute-determinado de intervalos uniformesndash (equal-interval binning)

bull No exemplo (temperatura) 64 65 68 69 70 71 72 72 75 75 80 81 83 85bull Bins com largura 6 x le 60

60 lt x le 6666 lt x le 7272 lt x le 7878 lt x le 8484 lt x le 90

Meacutetodos de Discretizaccedilatildeo Natildeo Supervisionada

bull Nuacutemero preacute-determinado de intervalos uniformesndash (equal-interval binning)

bull No exemplo (temperatura)64 65 68 69 70 71 72 72 75 75 80 81 83 85

bull Bins com largura 6 x le 60 na60 lt x le 66 64 6566 lt x le 72 68 69 70 71 72 7272 lt x le 78 75 7578 lt x le 84 80 81 8384 lt x le 90 85

Meacutetodos de Discretizaccedilatildeo Natildeo Supervisionada

bull Equal-interval binning Problemasbull Como qualquer meacutetodo natildeo

supervisionado arrisca destruir distinccedilotildees uacuteteis devido a divisotildees muito grandes ou fronteiras inadequadas

bull Distribuiccedilatildeo das amostras muito irregular com algumas bins com muitas amostras e outras com poucas amostras

Meacutetodos de Discretizaccedilatildeo Natildeo Supervisionada

bull Nuacutemero uniforme de amostras por intervalondash (equal-frequency binning)

bull Tambeacutem chamado de equalizaccedilatildeo do histograma

bull Cada bin tem o mesmo nuacutemero aproximado de amostras

bull Histograma eacute planobull Heuriacutestica para o nuacutemero de bins radicNbull N = nuacutemero de amostras

Meacutetodos de Discretizaccedilatildeo Natildeo Supervisionada

bull Nuacutemero uniforme de amostras por intervalondash (equal-frequency binning)

bull No exemplo (temperatura)bull 64 65 68 69 |70 71 72 72 |75 75 80| 81 83 85bull 14 amostras 4 Bins

ndash x le 695 64 65 68 69ndash 695 lt x le 735 70 71 72 72ndash 735 lt x le 805 75 75 80ndash x gt 805 81 83 85

Meacutetodos de Discretizaccedilatildeo Natildeo Supervisionada

bull Agrupamento (Clustering)

bull Pode-se aplicar um algoritmo de agrupamento

bull no caso unidimensional

bull Para cada grupo (cluster) atribuir um valor discreto

Transformar

Anaacutelise de Componentes Principais (PCA)

bull Dado um conjunto D com n instacircncias e p atributos (x1 x2 xp) uma transformaccedilatildeo linear para um novo conjunto de atributos z1 z2 zp pode ser calculada como

bull Componentes Principais (PCs) satildeo tipos especiacuteficos de combinaccedilotildees lineares que satildeo escolhidas de tal modo que zp (PCs) tenham as seguintes caracteriacutesticas

z1 = a11 x1 + a21 x2 + + ap1 xp

z2 = a12 x1 + a22 x2 + + ap2 xp

zp = a1p x1 + a2p x2 + + app xp

PCA Caracteriacutesticas

bull As p componentes principais (PC) satildeo natildeo-correlacionadas (independentes)

bull As PCs satildeo ordenadas de acordo com quantidade da variacircncia dos dados originais que elas contecircm (ordem decrescente)ndash A primeira PC ldquoexplicardquo (conteacutem) a maior porcentagem da

variabilidade do conjunto de dados originalndash A segunda PC define a proacutexima maior parte e assim por diantendash Em geral apenas algumas das primeiras PCs satildeo responsaacuteveis

pela maior parte da variabilidade do conjunto de dadosndash O restante das PCs tem uma contribuiccedilatildeo insignificante

bull PCA eacute usada em Aprendizado de Maacutequina principalmente para a reduccedilatildeo de dimensionalidade

PCA Caacutelculo

bull PCA pode reduzida ao problema de encontrar os auto-valores e auto-vetores da matriz de covariacircncia (ou correlaccedilatildeo) do conjunto de dados

bull A proporccedilatildeo da variacircncia do conjunto de dados originais explicada pela i-eacutesima PC eacute igual ao i-eacutesimo auto-valor divido pela soma de todos os p auto-valores

bull Ou seja as PCs satildeo ordenadas - decrescente - de acordo com os valores dos auto-valores

bull Quando os valores dos diferentes atributos estatildeo em diferentes escalas eacute preferiacutevel usar a matriz de correlaccedilatildeo em lugar da matriz de covariacircncia

Anaacutelise de Componentes Principais

bull Principais Limitaccedilotildees

ndash Assume apenas relaccedilotildees lineares entre os atributos

ndash A interpretaccedilatildeo dos resultados (eg classificador gerado) em termos dos atributos originais pode ficar mais difiacutecil

  • Slide 1
  • Slide 2
  • Slide 3
  • Slide 4
  • Slide 5
  • Slide 6
  • Slide 7
  • Slide 8
  • Slide 9
  • Slide 10
  • Slide 11
  • Slide 12
  • Slide 13
  • Slide 14
  • Slide 15
  • Slide 16
  • Slide 17
  • Slide 18
  • Slide 19
  • Slide 20
  • Slide 21
  • Slide 22
  • Slide 23
  • Slide 24
  • Slide 25
  • Slide 26
  • Slide 27
  • Slide 28
  • Slide 29
  • Slide 30
  • Slide 31
  • Slide 32
  • Slide 33
  • Slide 34
  • Slide 35
  • Slide 36
  • Slide 37
  • Slide 38
  • Slide 39
  • Slide 40
  • Slide 41
  • Slide 42
  • Slide 43
  • Slide 44
  • Slide 45
  • Slide 46
  • Slide 47
  • Slide 48
Page 4: Analise e Seleção de Variáveis. Tópicos Por que atributos irrelevantes são um problema Quais tipos de algoritmos de aprendizado são afetados Abordagens

Atributos irrelevantes

bull Adiccedilatildeo de atributos irrelevantes agraves instacircncias de uma base de dados geralmente ldquoconfunderdquo o algoritmo de aprendizado

bull Experimento (exemplo)ndash Indutor de aacutervores de decisatildeo (C45)

ndash Base de dados D

ndash Adicione agraves instacircncias em D um atributo binaacuterio cujos valores sejam gerados aleatoriamente

bull Resultadondash A acuraacutecia da classificaccedilatildeo cai

bull Em geral de 5 a 10 nos conjuntos de testes

Explicaccedilatildeo

bull Em algum momento durante a geraccedilatildeo das aacutervoresndash O atributo irrelevante eacute escolhido

ndash Isto causa erros aleatoacuterios durante o teste

bull Por que o atributo irrelevante eacute escolhidondash Na medida em que a aacutervore eacute construiacuteda menos e menos

dados estatildeo disponiacuteveis para auxiliar a escolha do atributo

ndash Chega a um ponto em que atributos aleatoacuterios parecem bons apenas por acaso

ndash A chance disto acontece aumenta com a profundidade da aacutervore

Atributos Irrelevantes x Algoritmos de AM

bull Algoritmos mais afetadosndash Indutores de aacutervores e regras de decisatildeo

bull Continuamente reduzem a quantidade de dados em que baseiam suas escolhas

ndash Indutores baseados em instacircncias (eg k-NN)bull Sempre trabalha com vizinhanccedilas locais

ndash Leva em consideraccedilatildeo apenas algumas poucas instacircncias (k)

bull Foi mostrado que para se alcanccedilar um certo niacutevel de desempenho a quantidade de instacircncias necessaacuteria cresce exponencialmente com o nuacutemero de atributos irrelevantes

Seleccedilatildeo de atributos antes do aprendizado

bull Melhora o desempenho preditivobull Acelera o processo de aprendizado

ndash O processo de seleccedilatildeo de atributos agraves vezes pode ser muito mais custoso que o processo de aprendizado

ndash Ou seja quando somarmos os custos das duas etapas pode natildeo haver vantagem

bull Produz uma representaccedilatildeo mais compacta do conceito a ser aprendidondash O foco seraacute nos atributos que realmente satildeo importantes

para a definiccedilatildeo do conceito

Analise e Seleccedilatildeo de Variaacuteveis

bull Parte de uma aacuterea chamada de Reduccedilatildeo de Dados

bull Obtenccedilatildeo de uma representaccedilatildeo reduzida em volume mas que produz resultados de anaacutelise idecircnticos ou similares

bull Melhora o desempenho dos modelos de aprendizado

bull Objetivo Eliminar atributos redundantes ou irrelevantes

Meacutetodos de Seleccedilatildeo de Atributos

bull Manualndash Melhor meacutetodo se for baseado em um entendimento

profundo sobre ambos

bull O problema de aprendizado

bull O significado de cada atributo

bull Automaacuteticondash Filtros meacutetodo usado antes do processo de aprendizado

para selecionar o subconjunto de atributos

ndash Wrappers o processo de escolha do subconjunto de atributos estaacute ldquoempacotadordquo junto com o algoritmo de aprendizado sendo utilizado

Seleccedilatildeo Automaacutetica

bull Implica em uma busca no ldquoespaccedilordquo de atributos

bull Quantos subconjuntos haacute

bull 2N em que N eacute o nuacutemero total de atributos

bull Portanto na maioria dos casos praacuteticos uma busca exaustiva natildeo eacute viaacutevel

bull Soluccedilatildeo busca heuriacutestica

Exemplo Espaccedilo de Atributos

Busca Heuriacutestica no Espaccedilo de Atributos

bull Busca para Frente (Seleccedilatildeo Forward)

ndash A busca eacute iniciada sem atributos e os mesmos satildeo adicionados um a um

ndash Cada atributo eacute adicionado isoladamente e o conjunto resultante eacute avaliado segundo um criteacuterio

ndash O atributo que produz o melhor criteacuterio eacute incorporado

Busca Heuriacutestica no Espaccedilo de Atributos

bull Busca para traacutes (Eliminaccedilao Backward) ndash Similar a Seleccedilatildeo Forward ndash Comeccedila com todo o conjunto de atributos eliminando

um atributo a cada passo

bull Tanto na Seleccedilatildeo Forward quanto na Eliminaccedilatildeo Backward pode-se adicionar um vieacutes por subconjuntos pequenosndash Por exemplo pode-se requerer natildeo apenas que a

medida de avaliaccedilatildeo crescer a cada passo mas que ela cresccedila mais que uma determinada constante

Busca Heuriacutestica no Espaccedilo de Atributos

bull Outros meacutetodos de busca

ndash Busca bidirecionalndash Best-first searchndash Beam searchndash Algoritmos geneacuteticosndash

Abordagens para Seleccedilatildeo de Atributos

bull Filtrosndash O processo de escolha do subconjunto

acontece antes do processo de aprendizado

bull Wrapperndash O processo de escolha do subconjunto de

atributos estaacute ldquoempacotadordquo junto com o algoritmo de aprendizado sendo utilizado

Analise e Seleccedilatildeo de Variaacuteveis

bull Meacutetodos Dependentes do Modelo (Wrapper)

bull Meacutetodos Independentes do Modelo (Filter)

Exemplo Filtros

bull Uso de uma indutor de aacutervores de decisatildeo (AD) como filtro para o k-NN

ndash 1) Aplique um indutor de AD para todo o conjunto de treinamento

ndash 2) Selecione o subconjunto de atributos que aparece na AD

ndash 3) Aplique o k-NN a apenas este subconjunto

bull A combinaccedilatildeo pode apresentar melhores resultados do que cada meacutetodo usando individualmente

Filtros

bull Abordagensndash baseada nas caracteriacutesticas gerais dos

dadosndash Encontrar o menor subconjunto que separe

os dadosndash Utilizar diferentes esquemas de aprendizado

bull Usar os atributos que aparecem no c45 1R

Wrapper

bull Busca para Frente (Seleccedilatildeo Forward) + Naive Bayes

ndash (1) Inicialize com o conjunto vazio S=ndash (2) Resultado_S=0ndash (2) Para cada atributo si que natildeo esteja em S

bull Avalie o resultado de (S U si ) Resultado_ si ndash (3) Considere o atributo com maior Resultado_ si

bull SE (Resultado_ si gt Resultado_S) ENTAO (S=S U si ) amp (Resultado_S= Resultado_ si )Volte para o Passo (2)SENAOPare

Transformaccedilatildeo de Dados

Discretizaccedilatildeo de Variaacuteveis Contiacutenuas

bull Transforma atributos contiacutenuos em atributos categoacutericos

bull Absolutamente essencial se o meacutetodo inteligente soacute manuseia atributos categoacutericos

bull Em alguns casos mesmo meacutetodos que manuseiam atributos contiacutenuos tecircm melhor desempenho com atributos categoacutericos

Discretizaccedilatildeo de Variaacuteveis Contiacutenuas

bull 1048673 Diversos meacutetodos de discretizaccedilatildeo

bull 1048673 Discretizaccedilatildeo pelo Meacutetodo 1R (1-rule)

bull 1048673 Discretizaccedilatildeo Natildeo-supervisionada

Discretizaccedilatildeo de Variaacuteveis Contiacutenuas

bull Discretizaccedilatildeo pelo Meacutetodo 1R (1-rule)bull Sub-produto de uma teacutecnica de extraccedilatildeo

automaacutetica de regrasbull Utiliza as classes de saiacuteda para discretizar

cada atributo de entrada separadamentebull Ex Base de dados hipoteacutetica de

meteorologia x decisatildeo de realizar ou natildeo um certo jogo

Discretizaccedilatildeo pelo Meacutetodo 1R (1-rule)

bull Base de Dados Meteoroloacutegicosbull Tempo Temperatura Umidade Vento Jogar (CLASSE)

Sol 85 85 Natildeo NatildeoSol 80 90 Sim NatildeoNublado 83 86 Natildeo SimChuva 70 96 Natildeo SimChuva 68 80 Natildeo SimChuva 65 70 Sim NatildeoNublado 64 65 Sim SimSol 72 95 Natildeo NatildeoSol 69 70 Natildeo SimChuva 75 80 Natildeo SimSol 75 70 Sim SimNublado 72 90 Sim SimNublado 81 75 Natildeo SimChuva 71 91 Sim Natildeo

Discretizaccedilatildeo pelo Meacutetodo 1R (1-rule)

Discretizaccedilatildeo de Variaacuteveis Contiacutenuas

bull Discretizaccedilatildeo Natildeo-Supervisionadandash O meacutetodo 1R eacute supervisionado Considera a

variaacutevel de saiacuteda (classe) na discretizaccedilatildeo

bull Meacutetodos Natildeo Supervisionados consideram somente o atributo a ser discretizadondash Satildeo a uacutenica opccedilatildeo no caso de problemas de

agrupamento (clustering) onde natildeo se conhecem as classes de saiacuteda

bull Trecircs abordagens baacutesicasndash Nuacutemero preacute-determinado de intervalos

bull uniformes (equal-interval binning)

ndash Nuacutemero uniforme de amostras por intervalobull (equal-frequency binning)

ndash Agrupamento (clustering) intervalos arbitraacuterios

Meacutetodos de Discretizaccedilatildeo Natildeo Supervisionada

bull Nuacutemero preacute-determinado de intervalos uniformesndash (equal-interval binning)

bull No exemplo (temperatura) 64 65 68 69 70 71 72 72 75 75 80 81 83 85bull Bins com largura 6 x le 60

60 lt x le 6666 lt x le 7272 lt x le 7878 lt x le 8484 lt x le 90

Meacutetodos de Discretizaccedilatildeo Natildeo Supervisionada

bull Nuacutemero preacute-determinado de intervalos uniformesndash (equal-interval binning)

bull No exemplo (temperatura)64 65 68 69 70 71 72 72 75 75 80 81 83 85

bull Bins com largura 6 x le 60 na60 lt x le 66 64 6566 lt x le 72 68 69 70 71 72 7272 lt x le 78 75 7578 lt x le 84 80 81 8384 lt x le 90 85

Meacutetodos de Discretizaccedilatildeo Natildeo Supervisionada

bull Equal-interval binning Problemasbull Como qualquer meacutetodo natildeo

supervisionado arrisca destruir distinccedilotildees uacuteteis devido a divisotildees muito grandes ou fronteiras inadequadas

bull Distribuiccedilatildeo das amostras muito irregular com algumas bins com muitas amostras e outras com poucas amostras

Meacutetodos de Discretizaccedilatildeo Natildeo Supervisionada

bull Nuacutemero uniforme de amostras por intervalondash (equal-frequency binning)

bull Tambeacutem chamado de equalizaccedilatildeo do histograma

bull Cada bin tem o mesmo nuacutemero aproximado de amostras

bull Histograma eacute planobull Heuriacutestica para o nuacutemero de bins radicNbull N = nuacutemero de amostras

Meacutetodos de Discretizaccedilatildeo Natildeo Supervisionada

bull Nuacutemero uniforme de amostras por intervalondash (equal-frequency binning)

bull No exemplo (temperatura)bull 64 65 68 69 |70 71 72 72 |75 75 80| 81 83 85bull 14 amostras 4 Bins

ndash x le 695 64 65 68 69ndash 695 lt x le 735 70 71 72 72ndash 735 lt x le 805 75 75 80ndash x gt 805 81 83 85

Meacutetodos de Discretizaccedilatildeo Natildeo Supervisionada

bull Agrupamento (Clustering)

bull Pode-se aplicar um algoritmo de agrupamento

bull no caso unidimensional

bull Para cada grupo (cluster) atribuir um valor discreto

Transformar

Anaacutelise de Componentes Principais (PCA)

bull Dado um conjunto D com n instacircncias e p atributos (x1 x2 xp) uma transformaccedilatildeo linear para um novo conjunto de atributos z1 z2 zp pode ser calculada como

bull Componentes Principais (PCs) satildeo tipos especiacuteficos de combinaccedilotildees lineares que satildeo escolhidas de tal modo que zp (PCs) tenham as seguintes caracteriacutesticas

z1 = a11 x1 + a21 x2 + + ap1 xp

z2 = a12 x1 + a22 x2 + + ap2 xp

zp = a1p x1 + a2p x2 + + app xp

PCA Caracteriacutesticas

bull As p componentes principais (PC) satildeo natildeo-correlacionadas (independentes)

bull As PCs satildeo ordenadas de acordo com quantidade da variacircncia dos dados originais que elas contecircm (ordem decrescente)ndash A primeira PC ldquoexplicardquo (conteacutem) a maior porcentagem da

variabilidade do conjunto de dados originalndash A segunda PC define a proacutexima maior parte e assim por diantendash Em geral apenas algumas das primeiras PCs satildeo responsaacuteveis

pela maior parte da variabilidade do conjunto de dadosndash O restante das PCs tem uma contribuiccedilatildeo insignificante

bull PCA eacute usada em Aprendizado de Maacutequina principalmente para a reduccedilatildeo de dimensionalidade

PCA Caacutelculo

bull PCA pode reduzida ao problema de encontrar os auto-valores e auto-vetores da matriz de covariacircncia (ou correlaccedilatildeo) do conjunto de dados

bull A proporccedilatildeo da variacircncia do conjunto de dados originais explicada pela i-eacutesima PC eacute igual ao i-eacutesimo auto-valor divido pela soma de todos os p auto-valores

bull Ou seja as PCs satildeo ordenadas - decrescente - de acordo com os valores dos auto-valores

bull Quando os valores dos diferentes atributos estatildeo em diferentes escalas eacute preferiacutevel usar a matriz de correlaccedilatildeo em lugar da matriz de covariacircncia

Anaacutelise de Componentes Principais

bull Principais Limitaccedilotildees

ndash Assume apenas relaccedilotildees lineares entre os atributos

ndash A interpretaccedilatildeo dos resultados (eg classificador gerado) em termos dos atributos originais pode ficar mais difiacutecil

  • Slide 1
  • Slide 2
  • Slide 3
  • Slide 4
  • Slide 5
  • Slide 6
  • Slide 7
  • Slide 8
  • Slide 9
  • Slide 10
  • Slide 11
  • Slide 12
  • Slide 13
  • Slide 14
  • Slide 15
  • Slide 16
  • Slide 17
  • Slide 18
  • Slide 19
  • Slide 20
  • Slide 21
  • Slide 22
  • Slide 23
  • Slide 24
  • Slide 25
  • Slide 26
  • Slide 27
  • Slide 28
  • Slide 29
  • Slide 30
  • Slide 31
  • Slide 32
  • Slide 33
  • Slide 34
  • Slide 35
  • Slide 36
  • Slide 37
  • Slide 38
  • Slide 39
  • Slide 40
  • Slide 41
  • Slide 42
  • Slide 43
  • Slide 44
  • Slide 45
  • Slide 46
  • Slide 47
  • Slide 48
Page 5: Analise e Seleção de Variáveis. Tópicos Por que atributos irrelevantes são um problema Quais tipos de algoritmos de aprendizado são afetados Abordagens

Explicaccedilatildeo

bull Em algum momento durante a geraccedilatildeo das aacutervoresndash O atributo irrelevante eacute escolhido

ndash Isto causa erros aleatoacuterios durante o teste

bull Por que o atributo irrelevante eacute escolhidondash Na medida em que a aacutervore eacute construiacuteda menos e menos

dados estatildeo disponiacuteveis para auxiliar a escolha do atributo

ndash Chega a um ponto em que atributos aleatoacuterios parecem bons apenas por acaso

ndash A chance disto acontece aumenta com a profundidade da aacutervore

Atributos Irrelevantes x Algoritmos de AM

bull Algoritmos mais afetadosndash Indutores de aacutervores e regras de decisatildeo

bull Continuamente reduzem a quantidade de dados em que baseiam suas escolhas

ndash Indutores baseados em instacircncias (eg k-NN)bull Sempre trabalha com vizinhanccedilas locais

ndash Leva em consideraccedilatildeo apenas algumas poucas instacircncias (k)

bull Foi mostrado que para se alcanccedilar um certo niacutevel de desempenho a quantidade de instacircncias necessaacuteria cresce exponencialmente com o nuacutemero de atributos irrelevantes

Seleccedilatildeo de atributos antes do aprendizado

bull Melhora o desempenho preditivobull Acelera o processo de aprendizado

ndash O processo de seleccedilatildeo de atributos agraves vezes pode ser muito mais custoso que o processo de aprendizado

ndash Ou seja quando somarmos os custos das duas etapas pode natildeo haver vantagem

bull Produz uma representaccedilatildeo mais compacta do conceito a ser aprendidondash O foco seraacute nos atributos que realmente satildeo importantes

para a definiccedilatildeo do conceito

Analise e Seleccedilatildeo de Variaacuteveis

bull Parte de uma aacuterea chamada de Reduccedilatildeo de Dados

bull Obtenccedilatildeo de uma representaccedilatildeo reduzida em volume mas que produz resultados de anaacutelise idecircnticos ou similares

bull Melhora o desempenho dos modelos de aprendizado

bull Objetivo Eliminar atributos redundantes ou irrelevantes

Meacutetodos de Seleccedilatildeo de Atributos

bull Manualndash Melhor meacutetodo se for baseado em um entendimento

profundo sobre ambos

bull O problema de aprendizado

bull O significado de cada atributo

bull Automaacuteticondash Filtros meacutetodo usado antes do processo de aprendizado

para selecionar o subconjunto de atributos

ndash Wrappers o processo de escolha do subconjunto de atributos estaacute ldquoempacotadordquo junto com o algoritmo de aprendizado sendo utilizado

Seleccedilatildeo Automaacutetica

bull Implica em uma busca no ldquoespaccedilordquo de atributos

bull Quantos subconjuntos haacute

bull 2N em que N eacute o nuacutemero total de atributos

bull Portanto na maioria dos casos praacuteticos uma busca exaustiva natildeo eacute viaacutevel

bull Soluccedilatildeo busca heuriacutestica

Exemplo Espaccedilo de Atributos

Busca Heuriacutestica no Espaccedilo de Atributos

bull Busca para Frente (Seleccedilatildeo Forward)

ndash A busca eacute iniciada sem atributos e os mesmos satildeo adicionados um a um

ndash Cada atributo eacute adicionado isoladamente e o conjunto resultante eacute avaliado segundo um criteacuterio

ndash O atributo que produz o melhor criteacuterio eacute incorporado

Busca Heuriacutestica no Espaccedilo de Atributos

bull Busca para traacutes (Eliminaccedilao Backward) ndash Similar a Seleccedilatildeo Forward ndash Comeccedila com todo o conjunto de atributos eliminando

um atributo a cada passo

bull Tanto na Seleccedilatildeo Forward quanto na Eliminaccedilatildeo Backward pode-se adicionar um vieacutes por subconjuntos pequenosndash Por exemplo pode-se requerer natildeo apenas que a

medida de avaliaccedilatildeo crescer a cada passo mas que ela cresccedila mais que uma determinada constante

Busca Heuriacutestica no Espaccedilo de Atributos

bull Outros meacutetodos de busca

ndash Busca bidirecionalndash Best-first searchndash Beam searchndash Algoritmos geneacuteticosndash

Abordagens para Seleccedilatildeo de Atributos

bull Filtrosndash O processo de escolha do subconjunto

acontece antes do processo de aprendizado

bull Wrapperndash O processo de escolha do subconjunto de

atributos estaacute ldquoempacotadordquo junto com o algoritmo de aprendizado sendo utilizado

Analise e Seleccedilatildeo de Variaacuteveis

bull Meacutetodos Dependentes do Modelo (Wrapper)

bull Meacutetodos Independentes do Modelo (Filter)

Exemplo Filtros

bull Uso de uma indutor de aacutervores de decisatildeo (AD) como filtro para o k-NN

ndash 1) Aplique um indutor de AD para todo o conjunto de treinamento

ndash 2) Selecione o subconjunto de atributos que aparece na AD

ndash 3) Aplique o k-NN a apenas este subconjunto

bull A combinaccedilatildeo pode apresentar melhores resultados do que cada meacutetodo usando individualmente

Filtros

bull Abordagensndash baseada nas caracteriacutesticas gerais dos

dadosndash Encontrar o menor subconjunto que separe

os dadosndash Utilizar diferentes esquemas de aprendizado

bull Usar os atributos que aparecem no c45 1R

Wrapper

bull Busca para Frente (Seleccedilatildeo Forward) + Naive Bayes

ndash (1) Inicialize com o conjunto vazio S=ndash (2) Resultado_S=0ndash (2) Para cada atributo si que natildeo esteja em S

bull Avalie o resultado de (S U si ) Resultado_ si ndash (3) Considere o atributo com maior Resultado_ si

bull SE (Resultado_ si gt Resultado_S) ENTAO (S=S U si ) amp (Resultado_S= Resultado_ si )Volte para o Passo (2)SENAOPare

Transformaccedilatildeo de Dados

Discretizaccedilatildeo de Variaacuteveis Contiacutenuas

bull Transforma atributos contiacutenuos em atributos categoacutericos

bull Absolutamente essencial se o meacutetodo inteligente soacute manuseia atributos categoacutericos

bull Em alguns casos mesmo meacutetodos que manuseiam atributos contiacutenuos tecircm melhor desempenho com atributos categoacutericos

Discretizaccedilatildeo de Variaacuteveis Contiacutenuas

bull 1048673 Diversos meacutetodos de discretizaccedilatildeo

bull 1048673 Discretizaccedilatildeo pelo Meacutetodo 1R (1-rule)

bull 1048673 Discretizaccedilatildeo Natildeo-supervisionada

Discretizaccedilatildeo de Variaacuteveis Contiacutenuas

bull Discretizaccedilatildeo pelo Meacutetodo 1R (1-rule)bull Sub-produto de uma teacutecnica de extraccedilatildeo

automaacutetica de regrasbull Utiliza as classes de saiacuteda para discretizar

cada atributo de entrada separadamentebull Ex Base de dados hipoteacutetica de

meteorologia x decisatildeo de realizar ou natildeo um certo jogo

Discretizaccedilatildeo pelo Meacutetodo 1R (1-rule)

bull Base de Dados Meteoroloacutegicosbull Tempo Temperatura Umidade Vento Jogar (CLASSE)

Sol 85 85 Natildeo NatildeoSol 80 90 Sim NatildeoNublado 83 86 Natildeo SimChuva 70 96 Natildeo SimChuva 68 80 Natildeo SimChuva 65 70 Sim NatildeoNublado 64 65 Sim SimSol 72 95 Natildeo NatildeoSol 69 70 Natildeo SimChuva 75 80 Natildeo SimSol 75 70 Sim SimNublado 72 90 Sim SimNublado 81 75 Natildeo SimChuva 71 91 Sim Natildeo

Discretizaccedilatildeo pelo Meacutetodo 1R (1-rule)

Discretizaccedilatildeo de Variaacuteveis Contiacutenuas

bull Discretizaccedilatildeo Natildeo-Supervisionadandash O meacutetodo 1R eacute supervisionado Considera a

variaacutevel de saiacuteda (classe) na discretizaccedilatildeo

bull Meacutetodos Natildeo Supervisionados consideram somente o atributo a ser discretizadondash Satildeo a uacutenica opccedilatildeo no caso de problemas de

agrupamento (clustering) onde natildeo se conhecem as classes de saiacuteda

bull Trecircs abordagens baacutesicasndash Nuacutemero preacute-determinado de intervalos

bull uniformes (equal-interval binning)

ndash Nuacutemero uniforme de amostras por intervalobull (equal-frequency binning)

ndash Agrupamento (clustering) intervalos arbitraacuterios

Meacutetodos de Discretizaccedilatildeo Natildeo Supervisionada

bull Nuacutemero preacute-determinado de intervalos uniformesndash (equal-interval binning)

bull No exemplo (temperatura) 64 65 68 69 70 71 72 72 75 75 80 81 83 85bull Bins com largura 6 x le 60

60 lt x le 6666 lt x le 7272 lt x le 7878 lt x le 8484 lt x le 90

Meacutetodos de Discretizaccedilatildeo Natildeo Supervisionada

bull Nuacutemero preacute-determinado de intervalos uniformesndash (equal-interval binning)

bull No exemplo (temperatura)64 65 68 69 70 71 72 72 75 75 80 81 83 85

bull Bins com largura 6 x le 60 na60 lt x le 66 64 6566 lt x le 72 68 69 70 71 72 7272 lt x le 78 75 7578 lt x le 84 80 81 8384 lt x le 90 85

Meacutetodos de Discretizaccedilatildeo Natildeo Supervisionada

bull Equal-interval binning Problemasbull Como qualquer meacutetodo natildeo

supervisionado arrisca destruir distinccedilotildees uacuteteis devido a divisotildees muito grandes ou fronteiras inadequadas

bull Distribuiccedilatildeo das amostras muito irregular com algumas bins com muitas amostras e outras com poucas amostras

Meacutetodos de Discretizaccedilatildeo Natildeo Supervisionada

bull Nuacutemero uniforme de amostras por intervalondash (equal-frequency binning)

bull Tambeacutem chamado de equalizaccedilatildeo do histograma

bull Cada bin tem o mesmo nuacutemero aproximado de amostras

bull Histograma eacute planobull Heuriacutestica para o nuacutemero de bins radicNbull N = nuacutemero de amostras

Meacutetodos de Discretizaccedilatildeo Natildeo Supervisionada

bull Nuacutemero uniforme de amostras por intervalondash (equal-frequency binning)

bull No exemplo (temperatura)bull 64 65 68 69 |70 71 72 72 |75 75 80| 81 83 85bull 14 amostras 4 Bins

ndash x le 695 64 65 68 69ndash 695 lt x le 735 70 71 72 72ndash 735 lt x le 805 75 75 80ndash x gt 805 81 83 85

Meacutetodos de Discretizaccedilatildeo Natildeo Supervisionada

bull Agrupamento (Clustering)

bull Pode-se aplicar um algoritmo de agrupamento

bull no caso unidimensional

bull Para cada grupo (cluster) atribuir um valor discreto

Transformar

Anaacutelise de Componentes Principais (PCA)

bull Dado um conjunto D com n instacircncias e p atributos (x1 x2 xp) uma transformaccedilatildeo linear para um novo conjunto de atributos z1 z2 zp pode ser calculada como

bull Componentes Principais (PCs) satildeo tipos especiacuteficos de combinaccedilotildees lineares que satildeo escolhidas de tal modo que zp (PCs) tenham as seguintes caracteriacutesticas

z1 = a11 x1 + a21 x2 + + ap1 xp

z2 = a12 x1 + a22 x2 + + ap2 xp

zp = a1p x1 + a2p x2 + + app xp

PCA Caracteriacutesticas

bull As p componentes principais (PC) satildeo natildeo-correlacionadas (independentes)

bull As PCs satildeo ordenadas de acordo com quantidade da variacircncia dos dados originais que elas contecircm (ordem decrescente)ndash A primeira PC ldquoexplicardquo (conteacutem) a maior porcentagem da

variabilidade do conjunto de dados originalndash A segunda PC define a proacutexima maior parte e assim por diantendash Em geral apenas algumas das primeiras PCs satildeo responsaacuteveis

pela maior parte da variabilidade do conjunto de dadosndash O restante das PCs tem uma contribuiccedilatildeo insignificante

bull PCA eacute usada em Aprendizado de Maacutequina principalmente para a reduccedilatildeo de dimensionalidade

PCA Caacutelculo

bull PCA pode reduzida ao problema de encontrar os auto-valores e auto-vetores da matriz de covariacircncia (ou correlaccedilatildeo) do conjunto de dados

bull A proporccedilatildeo da variacircncia do conjunto de dados originais explicada pela i-eacutesima PC eacute igual ao i-eacutesimo auto-valor divido pela soma de todos os p auto-valores

bull Ou seja as PCs satildeo ordenadas - decrescente - de acordo com os valores dos auto-valores

bull Quando os valores dos diferentes atributos estatildeo em diferentes escalas eacute preferiacutevel usar a matriz de correlaccedilatildeo em lugar da matriz de covariacircncia

Anaacutelise de Componentes Principais

bull Principais Limitaccedilotildees

ndash Assume apenas relaccedilotildees lineares entre os atributos

ndash A interpretaccedilatildeo dos resultados (eg classificador gerado) em termos dos atributos originais pode ficar mais difiacutecil

  • Slide 1
  • Slide 2
  • Slide 3
  • Slide 4
  • Slide 5
  • Slide 6
  • Slide 7
  • Slide 8
  • Slide 9
  • Slide 10
  • Slide 11
  • Slide 12
  • Slide 13
  • Slide 14
  • Slide 15
  • Slide 16
  • Slide 17
  • Slide 18
  • Slide 19
  • Slide 20
  • Slide 21
  • Slide 22
  • Slide 23
  • Slide 24
  • Slide 25
  • Slide 26
  • Slide 27
  • Slide 28
  • Slide 29
  • Slide 30
  • Slide 31
  • Slide 32
  • Slide 33
  • Slide 34
  • Slide 35
  • Slide 36
  • Slide 37
  • Slide 38
  • Slide 39
  • Slide 40
  • Slide 41
  • Slide 42
  • Slide 43
  • Slide 44
  • Slide 45
  • Slide 46
  • Slide 47
  • Slide 48
Page 6: Analise e Seleção de Variáveis. Tópicos Por que atributos irrelevantes são um problema Quais tipos de algoritmos de aprendizado são afetados Abordagens

Atributos Irrelevantes x Algoritmos de AM

bull Algoritmos mais afetadosndash Indutores de aacutervores e regras de decisatildeo

bull Continuamente reduzem a quantidade de dados em que baseiam suas escolhas

ndash Indutores baseados em instacircncias (eg k-NN)bull Sempre trabalha com vizinhanccedilas locais

ndash Leva em consideraccedilatildeo apenas algumas poucas instacircncias (k)

bull Foi mostrado que para se alcanccedilar um certo niacutevel de desempenho a quantidade de instacircncias necessaacuteria cresce exponencialmente com o nuacutemero de atributos irrelevantes

Seleccedilatildeo de atributos antes do aprendizado

bull Melhora o desempenho preditivobull Acelera o processo de aprendizado

ndash O processo de seleccedilatildeo de atributos agraves vezes pode ser muito mais custoso que o processo de aprendizado

ndash Ou seja quando somarmos os custos das duas etapas pode natildeo haver vantagem

bull Produz uma representaccedilatildeo mais compacta do conceito a ser aprendidondash O foco seraacute nos atributos que realmente satildeo importantes

para a definiccedilatildeo do conceito

Analise e Seleccedilatildeo de Variaacuteveis

bull Parte de uma aacuterea chamada de Reduccedilatildeo de Dados

bull Obtenccedilatildeo de uma representaccedilatildeo reduzida em volume mas que produz resultados de anaacutelise idecircnticos ou similares

bull Melhora o desempenho dos modelos de aprendizado

bull Objetivo Eliminar atributos redundantes ou irrelevantes

Meacutetodos de Seleccedilatildeo de Atributos

bull Manualndash Melhor meacutetodo se for baseado em um entendimento

profundo sobre ambos

bull O problema de aprendizado

bull O significado de cada atributo

bull Automaacuteticondash Filtros meacutetodo usado antes do processo de aprendizado

para selecionar o subconjunto de atributos

ndash Wrappers o processo de escolha do subconjunto de atributos estaacute ldquoempacotadordquo junto com o algoritmo de aprendizado sendo utilizado

Seleccedilatildeo Automaacutetica

bull Implica em uma busca no ldquoespaccedilordquo de atributos

bull Quantos subconjuntos haacute

bull 2N em que N eacute o nuacutemero total de atributos

bull Portanto na maioria dos casos praacuteticos uma busca exaustiva natildeo eacute viaacutevel

bull Soluccedilatildeo busca heuriacutestica

Exemplo Espaccedilo de Atributos

Busca Heuriacutestica no Espaccedilo de Atributos

bull Busca para Frente (Seleccedilatildeo Forward)

ndash A busca eacute iniciada sem atributos e os mesmos satildeo adicionados um a um

ndash Cada atributo eacute adicionado isoladamente e o conjunto resultante eacute avaliado segundo um criteacuterio

ndash O atributo que produz o melhor criteacuterio eacute incorporado

Busca Heuriacutestica no Espaccedilo de Atributos

bull Busca para traacutes (Eliminaccedilao Backward) ndash Similar a Seleccedilatildeo Forward ndash Comeccedila com todo o conjunto de atributos eliminando

um atributo a cada passo

bull Tanto na Seleccedilatildeo Forward quanto na Eliminaccedilatildeo Backward pode-se adicionar um vieacutes por subconjuntos pequenosndash Por exemplo pode-se requerer natildeo apenas que a

medida de avaliaccedilatildeo crescer a cada passo mas que ela cresccedila mais que uma determinada constante

Busca Heuriacutestica no Espaccedilo de Atributos

bull Outros meacutetodos de busca

ndash Busca bidirecionalndash Best-first searchndash Beam searchndash Algoritmos geneacuteticosndash

Abordagens para Seleccedilatildeo de Atributos

bull Filtrosndash O processo de escolha do subconjunto

acontece antes do processo de aprendizado

bull Wrapperndash O processo de escolha do subconjunto de

atributos estaacute ldquoempacotadordquo junto com o algoritmo de aprendizado sendo utilizado

Analise e Seleccedilatildeo de Variaacuteveis

bull Meacutetodos Dependentes do Modelo (Wrapper)

bull Meacutetodos Independentes do Modelo (Filter)

Exemplo Filtros

bull Uso de uma indutor de aacutervores de decisatildeo (AD) como filtro para o k-NN

ndash 1) Aplique um indutor de AD para todo o conjunto de treinamento

ndash 2) Selecione o subconjunto de atributos que aparece na AD

ndash 3) Aplique o k-NN a apenas este subconjunto

bull A combinaccedilatildeo pode apresentar melhores resultados do que cada meacutetodo usando individualmente

Filtros

bull Abordagensndash baseada nas caracteriacutesticas gerais dos

dadosndash Encontrar o menor subconjunto que separe

os dadosndash Utilizar diferentes esquemas de aprendizado

bull Usar os atributos que aparecem no c45 1R

Wrapper

bull Busca para Frente (Seleccedilatildeo Forward) + Naive Bayes

ndash (1) Inicialize com o conjunto vazio S=ndash (2) Resultado_S=0ndash (2) Para cada atributo si que natildeo esteja em S

bull Avalie o resultado de (S U si ) Resultado_ si ndash (3) Considere o atributo com maior Resultado_ si

bull SE (Resultado_ si gt Resultado_S) ENTAO (S=S U si ) amp (Resultado_S= Resultado_ si )Volte para o Passo (2)SENAOPare

Transformaccedilatildeo de Dados

Discretizaccedilatildeo de Variaacuteveis Contiacutenuas

bull Transforma atributos contiacutenuos em atributos categoacutericos

bull Absolutamente essencial se o meacutetodo inteligente soacute manuseia atributos categoacutericos

bull Em alguns casos mesmo meacutetodos que manuseiam atributos contiacutenuos tecircm melhor desempenho com atributos categoacutericos

Discretizaccedilatildeo de Variaacuteveis Contiacutenuas

bull 1048673 Diversos meacutetodos de discretizaccedilatildeo

bull 1048673 Discretizaccedilatildeo pelo Meacutetodo 1R (1-rule)

bull 1048673 Discretizaccedilatildeo Natildeo-supervisionada

Discretizaccedilatildeo de Variaacuteveis Contiacutenuas

bull Discretizaccedilatildeo pelo Meacutetodo 1R (1-rule)bull Sub-produto de uma teacutecnica de extraccedilatildeo

automaacutetica de regrasbull Utiliza as classes de saiacuteda para discretizar

cada atributo de entrada separadamentebull Ex Base de dados hipoteacutetica de

meteorologia x decisatildeo de realizar ou natildeo um certo jogo

Discretizaccedilatildeo pelo Meacutetodo 1R (1-rule)

bull Base de Dados Meteoroloacutegicosbull Tempo Temperatura Umidade Vento Jogar (CLASSE)

Sol 85 85 Natildeo NatildeoSol 80 90 Sim NatildeoNublado 83 86 Natildeo SimChuva 70 96 Natildeo SimChuva 68 80 Natildeo SimChuva 65 70 Sim NatildeoNublado 64 65 Sim SimSol 72 95 Natildeo NatildeoSol 69 70 Natildeo SimChuva 75 80 Natildeo SimSol 75 70 Sim SimNublado 72 90 Sim SimNublado 81 75 Natildeo SimChuva 71 91 Sim Natildeo

Discretizaccedilatildeo pelo Meacutetodo 1R (1-rule)

Discretizaccedilatildeo de Variaacuteveis Contiacutenuas

bull Discretizaccedilatildeo Natildeo-Supervisionadandash O meacutetodo 1R eacute supervisionado Considera a

variaacutevel de saiacuteda (classe) na discretizaccedilatildeo

bull Meacutetodos Natildeo Supervisionados consideram somente o atributo a ser discretizadondash Satildeo a uacutenica opccedilatildeo no caso de problemas de

agrupamento (clustering) onde natildeo se conhecem as classes de saiacuteda

bull Trecircs abordagens baacutesicasndash Nuacutemero preacute-determinado de intervalos

bull uniformes (equal-interval binning)

ndash Nuacutemero uniforme de amostras por intervalobull (equal-frequency binning)

ndash Agrupamento (clustering) intervalos arbitraacuterios

Meacutetodos de Discretizaccedilatildeo Natildeo Supervisionada

bull Nuacutemero preacute-determinado de intervalos uniformesndash (equal-interval binning)

bull No exemplo (temperatura) 64 65 68 69 70 71 72 72 75 75 80 81 83 85bull Bins com largura 6 x le 60

60 lt x le 6666 lt x le 7272 lt x le 7878 lt x le 8484 lt x le 90

Meacutetodos de Discretizaccedilatildeo Natildeo Supervisionada

bull Nuacutemero preacute-determinado de intervalos uniformesndash (equal-interval binning)

bull No exemplo (temperatura)64 65 68 69 70 71 72 72 75 75 80 81 83 85

bull Bins com largura 6 x le 60 na60 lt x le 66 64 6566 lt x le 72 68 69 70 71 72 7272 lt x le 78 75 7578 lt x le 84 80 81 8384 lt x le 90 85

Meacutetodos de Discretizaccedilatildeo Natildeo Supervisionada

bull Equal-interval binning Problemasbull Como qualquer meacutetodo natildeo

supervisionado arrisca destruir distinccedilotildees uacuteteis devido a divisotildees muito grandes ou fronteiras inadequadas

bull Distribuiccedilatildeo das amostras muito irregular com algumas bins com muitas amostras e outras com poucas amostras

Meacutetodos de Discretizaccedilatildeo Natildeo Supervisionada

bull Nuacutemero uniforme de amostras por intervalondash (equal-frequency binning)

bull Tambeacutem chamado de equalizaccedilatildeo do histograma

bull Cada bin tem o mesmo nuacutemero aproximado de amostras

bull Histograma eacute planobull Heuriacutestica para o nuacutemero de bins radicNbull N = nuacutemero de amostras

Meacutetodos de Discretizaccedilatildeo Natildeo Supervisionada

bull Nuacutemero uniforme de amostras por intervalondash (equal-frequency binning)

bull No exemplo (temperatura)bull 64 65 68 69 |70 71 72 72 |75 75 80| 81 83 85bull 14 amostras 4 Bins

ndash x le 695 64 65 68 69ndash 695 lt x le 735 70 71 72 72ndash 735 lt x le 805 75 75 80ndash x gt 805 81 83 85

Meacutetodos de Discretizaccedilatildeo Natildeo Supervisionada

bull Agrupamento (Clustering)

bull Pode-se aplicar um algoritmo de agrupamento

bull no caso unidimensional

bull Para cada grupo (cluster) atribuir um valor discreto

Transformar

Anaacutelise de Componentes Principais (PCA)

bull Dado um conjunto D com n instacircncias e p atributos (x1 x2 xp) uma transformaccedilatildeo linear para um novo conjunto de atributos z1 z2 zp pode ser calculada como

bull Componentes Principais (PCs) satildeo tipos especiacuteficos de combinaccedilotildees lineares que satildeo escolhidas de tal modo que zp (PCs) tenham as seguintes caracteriacutesticas

z1 = a11 x1 + a21 x2 + + ap1 xp

z2 = a12 x1 + a22 x2 + + ap2 xp

zp = a1p x1 + a2p x2 + + app xp

PCA Caracteriacutesticas

bull As p componentes principais (PC) satildeo natildeo-correlacionadas (independentes)

bull As PCs satildeo ordenadas de acordo com quantidade da variacircncia dos dados originais que elas contecircm (ordem decrescente)ndash A primeira PC ldquoexplicardquo (conteacutem) a maior porcentagem da

variabilidade do conjunto de dados originalndash A segunda PC define a proacutexima maior parte e assim por diantendash Em geral apenas algumas das primeiras PCs satildeo responsaacuteveis

pela maior parte da variabilidade do conjunto de dadosndash O restante das PCs tem uma contribuiccedilatildeo insignificante

bull PCA eacute usada em Aprendizado de Maacutequina principalmente para a reduccedilatildeo de dimensionalidade

PCA Caacutelculo

bull PCA pode reduzida ao problema de encontrar os auto-valores e auto-vetores da matriz de covariacircncia (ou correlaccedilatildeo) do conjunto de dados

bull A proporccedilatildeo da variacircncia do conjunto de dados originais explicada pela i-eacutesima PC eacute igual ao i-eacutesimo auto-valor divido pela soma de todos os p auto-valores

bull Ou seja as PCs satildeo ordenadas - decrescente - de acordo com os valores dos auto-valores

bull Quando os valores dos diferentes atributos estatildeo em diferentes escalas eacute preferiacutevel usar a matriz de correlaccedilatildeo em lugar da matriz de covariacircncia

Anaacutelise de Componentes Principais

bull Principais Limitaccedilotildees

ndash Assume apenas relaccedilotildees lineares entre os atributos

ndash A interpretaccedilatildeo dos resultados (eg classificador gerado) em termos dos atributos originais pode ficar mais difiacutecil

  • Slide 1
  • Slide 2
  • Slide 3
  • Slide 4
  • Slide 5
  • Slide 6
  • Slide 7
  • Slide 8
  • Slide 9
  • Slide 10
  • Slide 11
  • Slide 12
  • Slide 13
  • Slide 14
  • Slide 15
  • Slide 16
  • Slide 17
  • Slide 18
  • Slide 19
  • Slide 20
  • Slide 21
  • Slide 22
  • Slide 23
  • Slide 24
  • Slide 25
  • Slide 26
  • Slide 27
  • Slide 28
  • Slide 29
  • Slide 30
  • Slide 31
  • Slide 32
  • Slide 33
  • Slide 34
  • Slide 35
  • Slide 36
  • Slide 37
  • Slide 38
  • Slide 39
  • Slide 40
  • Slide 41
  • Slide 42
  • Slide 43
  • Slide 44
  • Slide 45
  • Slide 46
  • Slide 47
  • Slide 48
Page 7: Analise e Seleção de Variáveis. Tópicos Por que atributos irrelevantes são um problema Quais tipos de algoritmos de aprendizado são afetados Abordagens

Seleccedilatildeo de atributos antes do aprendizado

bull Melhora o desempenho preditivobull Acelera o processo de aprendizado

ndash O processo de seleccedilatildeo de atributos agraves vezes pode ser muito mais custoso que o processo de aprendizado

ndash Ou seja quando somarmos os custos das duas etapas pode natildeo haver vantagem

bull Produz uma representaccedilatildeo mais compacta do conceito a ser aprendidondash O foco seraacute nos atributos que realmente satildeo importantes

para a definiccedilatildeo do conceito

Analise e Seleccedilatildeo de Variaacuteveis

bull Parte de uma aacuterea chamada de Reduccedilatildeo de Dados

bull Obtenccedilatildeo de uma representaccedilatildeo reduzida em volume mas que produz resultados de anaacutelise idecircnticos ou similares

bull Melhora o desempenho dos modelos de aprendizado

bull Objetivo Eliminar atributos redundantes ou irrelevantes

Meacutetodos de Seleccedilatildeo de Atributos

bull Manualndash Melhor meacutetodo se for baseado em um entendimento

profundo sobre ambos

bull O problema de aprendizado

bull O significado de cada atributo

bull Automaacuteticondash Filtros meacutetodo usado antes do processo de aprendizado

para selecionar o subconjunto de atributos

ndash Wrappers o processo de escolha do subconjunto de atributos estaacute ldquoempacotadordquo junto com o algoritmo de aprendizado sendo utilizado

Seleccedilatildeo Automaacutetica

bull Implica em uma busca no ldquoespaccedilordquo de atributos

bull Quantos subconjuntos haacute

bull 2N em que N eacute o nuacutemero total de atributos

bull Portanto na maioria dos casos praacuteticos uma busca exaustiva natildeo eacute viaacutevel

bull Soluccedilatildeo busca heuriacutestica

Exemplo Espaccedilo de Atributos

Busca Heuriacutestica no Espaccedilo de Atributos

bull Busca para Frente (Seleccedilatildeo Forward)

ndash A busca eacute iniciada sem atributos e os mesmos satildeo adicionados um a um

ndash Cada atributo eacute adicionado isoladamente e o conjunto resultante eacute avaliado segundo um criteacuterio

ndash O atributo que produz o melhor criteacuterio eacute incorporado

Busca Heuriacutestica no Espaccedilo de Atributos

bull Busca para traacutes (Eliminaccedilao Backward) ndash Similar a Seleccedilatildeo Forward ndash Comeccedila com todo o conjunto de atributos eliminando

um atributo a cada passo

bull Tanto na Seleccedilatildeo Forward quanto na Eliminaccedilatildeo Backward pode-se adicionar um vieacutes por subconjuntos pequenosndash Por exemplo pode-se requerer natildeo apenas que a

medida de avaliaccedilatildeo crescer a cada passo mas que ela cresccedila mais que uma determinada constante

Busca Heuriacutestica no Espaccedilo de Atributos

bull Outros meacutetodos de busca

ndash Busca bidirecionalndash Best-first searchndash Beam searchndash Algoritmos geneacuteticosndash

Abordagens para Seleccedilatildeo de Atributos

bull Filtrosndash O processo de escolha do subconjunto

acontece antes do processo de aprendizado

bull Wrapperndash O processo de escolha do subconjunto de

atributos estaacute ldquoempacotadordquo junto com o algoritmo de aprendizado sendo utilizado

Analise e Seleccedilatildeo de Variaacuteveis

bull Meacutetodos Dependentes do Modelo (Wrapper)

bull Meacutetodos Independentes do Modelo (Filter)

Exemplo Filtros

bull Uso de uma indutor de aacutervores de decisatildeo (AD) como filtro para o k-NN

ndash 1) Aplique um indutor de AD para todo o conjunto de treinamento

ndash 2) Selecione o subconjunto de atributos que aparece na AD

ndash 3) Aplique o k-NN a apenas este subconjunto

bull A combinaccedilatildeo pode apresentar melhores resultados do que cada meacutetodo usando individualmente

Filtros

bull Abordagensndash baseada nas caracteriacutesticas gerais dos

dadosndash Encontrar o menor subconjunto que separe

os dadosndash Utilizar diferentes esquemas de aprendizado

bull Usar os atributos que aparecem no c45 1R

Wrapper

bull Busca para Frente (Seleccedilatildeo Forward) + Naive Bayes

ndash (1) Inicialize com o conjunto vazio S=ndash (2) Resultado_S=0ndash (2) Para cada atributo si que natildeo esteja em S

bull Avalie o resultado de (S U si ) Resultado_ si ndash (3) Considere o atributo com maior Resultado_ si

bull SE (Resultado_ si gt Resultado_S) ENTAO (S=S U si ) amp (Resultado_S= Resultado_ si )Volte para o Passo (2)SENAOPare

Transformaccedilatildeo de Dados

Discretizaccedilatildeo de Variaacuteveis Contiacutenuas

bull Transforma atributos contiacutenuos em atributos categoacutericos

bull Absolutamente essencial se o meacutetodo inteligente soacute manuseia atributos categoacutericos

bull Em alguns casos mesmo meacutetodos que manuseiam atributos contiacutenuos tecircm melhor desempenho com atributos categoacutericos

Discretizaccedilatildeo de Variaacuteveis Contiacutenuas

bull 1048673 Diversos meacutetodos de discretizaccedilatildeo

bull 1048673 Discretizaccedilatildeo pelo Meacutetodo 1R (1-rule)

bull 1048673 Discretizaccedilatildeo Natildeo-supervisionada

Discretizaccedilatildeo de Variaacuteveis Contiacutenuas

bull Discretizaccedilatildeo pelo Meacutetodo 1R (1-rule)bull Sub-produto de uma teacutecnica de extraccedilatildeo

automaacutetica de regrasbull Utiliza as classes de saiacuteda para discretizar

cada atributo de entrada separadamentebull Ex Base de dados hipoteacutetica de

meteorologia x decisatildeo de realizar ou natildeo um certo jogo

Discretizaccedilatildeo pelo Meacutetodo 1R (1-rule)

bull Base de Dados Meteoroloacutegicosbull Tempo Temperatura Umidade Vento Jogar (CLASSE)

Sol 85 85 Natildeo NatildeoSol 80 90 Sim NatildeoNublado 83 86 Natildeo SimChuva 70 96 Natildeo SimChuva 68 80 Natildeo SimChuva 65 70 Sim NatildeoNublado 64 65 Sim SimSol 72 95 Natildeo NatildeoSol 69 70 Natildeo SimChuva 75 80 Natildeo SimSol 75 70 Sim SimNublado 72 90 Sim SimNublado 81 75 Natildeo SimChuva 71 91 Sim Natildeo

Discretizaccedilatildeo pelo Meacutetodo 1R (1-rule)

Discretizaccedilatildeo de Variaacuteveis Contiacutenuas

bull Discretizaccedilatildeo Natildeo-Supervisionadandash O meacutetodo 1R eacute supervisionado Considera a

variaacutevel de saiacuteda (classe) na discretizaccedilatildeo

bull Meacutetodos Natildeo Supervisionados consideram somente o atributo a ser discretizadondash Satildeo a uacutenica opccedilatildeo no caso de problemas de

agrupamento (clustering) onde natildeo se conhecem as classes de saiacuteda

bull Trecircs abordagens baacutesicasndash Nuacutemero preacute-determinado de intervalos

bull uniformes (equal-interval binning)

ndash Nuacutemero uniforme de amostras por intervalobull (equal-frequency binning)

ndash Agrupamento (clustering) intervalos arbitraacuterios

Meacutetodos de Discretizaccedilatildeo Natildeo Supervisionada

bull Nuacutemero preacute-determinado de intervalos uniformesndash (equal-interval binning)

bull No exemplo (temperatura) 64 65 68 69 70 71 72 72 75 75 80 81 83 85bull Bins com largura 6 x le 60

60 lt x le 6666 lt x le 7272 lt x le 7878 lt x le 8484 lt x le 90

Meacutetodos de Discretizaccedilatildeo Natildeo Supervisionada

bull Nuacutemero preacute-determinado de intervalos uniformesndash (equal-interval binning)

bull No exemplo (temperatura)64 65 68 69 70 71 72 72 75 75 80 81 83 85

bull Bins com largura 6 x le 60 na60 lt x le 66 64 6566 lt x le 72 68 69 70 71 72 7272 lt x le 78 75 7578 lt x le 84 80 81 8384 lt x le 90 85

Meacutetodos de Discretizaccedilatildeo Natildeo Supervisionada

bull Equal-interval binning Problemasbull Como qualquer meacutetodo natildeo

supervisionado arrisca destruir distinccedilotildees uacuteteis devido a divisotildees muito grandes ou fronteiras inadequadas

bull Distribuiccedilatildeo das amostras muito irregular com algumas bins com muitas amostras e outras com poucas amostras

Meacutetodos de Discretizaccedilatildeo Natildeo Supervisionada

bull Nuacutemero uniforme de amostras por intervalondash (equal-frequency binning)

bull Tambeacutem chamado de equalizaccedilatildeo do histograma

bull Cada bin tem o mesmo nuacutemero aproximado de amostras

bull Histograma eacute planobull Heuriacutestica para o nuacutemero de bins radicNbull N = nuacutemero de amostras

Meacutetodos de Discretizaccedilatildeo Natildeo Supervisionada

bull Nuacutemero uniforme de amostras por intervalondash (equal-frequency binning)

bull No exemplo (temperatura)bull 64 65 68 69 |70 71 72 72 |75 75 80| 81 83 85bull 14 amostras 4 Bins

ndash x le 695 64 65 68 69ndash 695 lt x le 735 70 71 72 72ndash 735 lt x le 805 75 75 80ndash x gt 805 81 83 85

Meacutetodos de Discretizaccedilatildeo Natildeo Supervisionada

bull Agrupamento (Clustering)

bull Pode-se aplicar um algoritmo de agrupamento

bull no caso unidimensional

bull Para cada grupo (cluster) atribuir um valor discreto

Transformar

Anaacutelise de Componentes Principais (PCA)

bull Dado um conjunto D com n instacircncias e p atributos (x1 x2 xp) uma transformaccedilatildeo linear para um novo conjunto de atributos z1 z2 zp pode ser calculada como

bull Componentes Principais (PCs) satildeo tipos especiacuteficos de combinaccedilotildees lineares que satildeo escolhidas de tal modo que zp (PCs) tenham as seguintes caracteriacutesticas

z1 = a11 x1 + a21 x2 + + ap1 xp

z2 = a12 x1 + a22 x2 + + ap2 xp

zp = a1p x1 + a2p x2 + + app xp

PCA Caracteriacutesticas

bull As p componentes principais (PC) satildeo natildeo-correlacionadas (independentes)

bull As PCs satildeo ordenadas de acordo com quantidade da variacircncia dos dados originais que elas contecircm (ordem decrescente)ndash A primeira PC ldquoexplicardquo (conteacutem) a maior porcentagem da

variabilidade do conjunto de dados originalndash A segunda PC define a proacutexima maior parte e assim por diantendash Em geral apenas algumas das primeiras PCs satildeo responsaacuteveis

pela maior parte da variabilidade do conjunto de dadosndash O restante das PCs tem uma contribuiccedilatildeo insignificante

bull PCA eacute usada em Aprendizado de Maacutequina principalmente para a reduccedilatildeo de dimensionalidade

PCA Caacutelculo

bull PCA pode reduzida ao problema de encontrar os auto-valores e auto-vetores da matriz de covariacircncia (ou correlaccedilatildeo) do conjunto de dados

bull A proporccedilatildeo da variacircncia do conjunto de dados originais explicada pela i-eacutesima PC eacute igual ao i-eacutesimo auto-valor divido pela soma de todos os p auto-valores

bull Ou seja as PCs satildeo ordenadas - decrescente - de acordo com os valores dos auto-valores

bull Quando os valores dos diferentes atributos estatildeo em diferentes escalas eacute preferiacutevel usar a matriz de correlaccedilatildeo em lugar da matriz de covariacircncia

Anaacutelise de Componentes Principais

bull Principais Limitaccedilotildees

ndash Assume apenas relaccedilotildees lineares entre os atributos

ndash A interpretaccedilatildeo dos resultados (eg classificador gerado) em termos dos atributos originais pode ficar mais difiacutecil

  • Slide 1
  • Slide 2
  • Slide 3
  • Slide 4
  • Slide 5
  • Slide 6
  • Slide 7
  • Slide 8
  • Slide 9
  • Slide 10
  • Slide 11
  • Slide 12
  • Slide 13
  • Slide 14
  • Slide 15
  • Slide 16
  • Slide 17
  • Slide 18
  • Slide 19
  • Slide 20
  • Slide 21
  • Slide 22
  • Slide 23
  • Slide 24
  • Slide 25
  • Slide 26
  • Slide 27
  • Slide 28
  • Slide 29
  • Slide 30
  • Slide 31
  • Slide 32
  • Slide 33
  • Slide 34
  • Slide 35
  • Slide 36
  • Slide 37
  • Slide 38
  • Slide 39
  • Slide 40
  • Slide 41
  • Slide 42
  • Slide 43
  • Slide 44
  • Slide 45
  • Slide 46
  • Slide 47
  • Slide 48
Page 8: Analise e Seleção de Variáveis. Tópicos Por que atributos irrelevantes são um problema Quais tipos de algoritmos de aprendizado são afetados Abordagens

Analise e Seleccedilatildeo de Variaacuteveis

bull Parte de uma aacuterea chamada de Reduccedilatildeo de Dados

bull Obtenccedilatildeo de uma representaccedilatildeo reduzida em volume mas que produz resultados de anaacutelise idecircnticos ou similares

bull Melhora o desempenho dos modelos de aprendizado

bull Objetivo Eliminar atributos redundantes ou irrelevantes

Meacutetodos de Seleccedilatildeo de Atributos

bull Manualndash Melhor meacutetodo se for baseado em um entendimento

profundo sobre ambos

bull O problema de aprendizado

bull O significado de cada atributo

bull Automaacuteticondash Filtros meacutetodo usado antes do processo de aprendizado

para selecionar o subconjunto de atributos

ndash Wrappers o processo de escolha do subconjunto de atributos estaacute ldquoempacotadordquo junto com o algoritmo de aprendizado sendo utilizado

Seleccedilatildeo Automaacutetica

bull Implica em uma busca no ldquoespaccedilordquo de atributos

bull Quantos subconjuntos haacute

bull 2N em que N eacute o nuacutemero total de atributos

bull Portanto na maioria dos casos praacuteticos uma busca exaustiva natildeo eacute viaacutevel

bull Soluccedilatildeo busca heuriacutestica

Exemplo Espaccedilo de Atributos

Busca Heuriacutestica no Espaccedilo de Atributos

bull Busca para Frente (Seleccedilatildeo Forward)

ndash A busca eacute iniciada sem atributos e os mesmos satildeo adicionados um a um

ndash Cada atributo eacute adicionado isoladamente e o conjunto resultante eacute avaliado segundo um criteacuterio

ndash O atributo que produz o melhor criteacuterio eacute incorporado

Busca Heuriacutestica no Espaccedilo de Atributos

bull Busca para traacutes (Eliminaccedilao Backward) ndash Similar a Seleccedilatildeo Forward ndash Comeccedila com todo o conjunto de atributos eliminando

um atributo a cada passo

bull Tanto na Seleccedilatildeo Forward quanto na Eliminaccedilatildeo Backward pode-se adicionar um vieacutes por subconjuntos pequenosndash Por exemplo pode-se requerer natildeo apenas que a

medida de avaliaccedilatildeo crescer a cada passo mas que ela cresccedila mais que uma determinada constante

Busca Heuriacutestica no Espaccedilo de Atributos

bull Outros meacutetodos de busca

ndash Busca bidirecionalndash Best-first searchndash Beam searchndash Algoritmos geneacuteticosndash

Abordagens para Seleccedilatildeo de Atributos

bull Filtrosndash O processo de escolha do subconjunto

acontece antes do processo de aprendizado

bull Wrapperndash O processo de escolha do subconjunto de

atributos estaacute ldquoempacotadordquo junto com o algoritmo de aprendizado sendo utilizado

Analise e Seleccedilatildeo de Variaacuteveis

bull Meacutetodos Dependentes do Modelo (Wrapper)

bull Meacutetodos Independentes do Modelo (Filter)

Exemplo Filtros

bull Uso de uma indutor de aacutervores de decisatildeo (AD) como filtro para o k-NN

ndash 1) Aplique um indutor de AD para todo o conjunto de treinamento

ndash 2) Selecione o subconjunto de atributos que aparece na AD

ndash 3) Aplique o k-NN a apenas este subconjunto

bull A combinaccedilatildeo pode apresentar melhores resultados do que cada meacutetodo usando individualmente

Filtros

bull Abordagensndash baseada nas caracteriacutesticas gerais dos

dadosndash Encontrar o menor subconjunto que separe

os dadosndash Utilizar diferentes esquemas de aprendizado

bull Usar os atributos que aparecem no c45 1R

Wrapper

bull Busca para Frente (Seleccedilatildeo Forward) + Naive Bayes

ndash (1) Inicialize com o conjunto vazio S=ndash (2) Resultado_S=0ndash (2) Para cada atributo si que natildeo esteja em S

bull Avalie o resultado de (S U si ) Resultado_ si ndash (3) Considere o atributo com maior Resultado_ si

bull SE (Resultado_ si gt Resultado_S) ENTAO (S=S U si ) amp (Resultado_S= Resultado_ si )Volte para o Passo (2)SENAOPare

Transformaccedilatildeo de Dados

Discretizaccedilatildeo de Variaacuteveis Contiacutenuas

bull Transforma atributos contiacutenuos em atributos categoacutericos

bull Absolutamente essencial se o meacutetodo inteligente soacute manuseia atributos categoacutericos

bull Em alguns casos mesmo meacutetodos que manuseiam atributos contiacutenuos tecircm melhor desempenho com atributos categoacutericos

Discretizaccedilatildeo de Variaacuteveis Contiacutenuas

bull 1048673 Diversos meacutetodos de discretizaccedilatildeo

bull 1048673 Discretizaccedilatildeo pelo Meacutetodo 1R (1-rule)

bull 1048673 Discretizaccedilatildeo Natildeo-supervisionada

Discretizaccedilatildeo de Variaacuteveis Contiacutenuas

bull Discretizaccedilatildeo pelo Meacutetodo 1R (1-rule)bull Sub-produto de uma teacutecnica de extraccedilatildeo

automaacutetica de regrasbull Utiliza as classes de saiacuteda para discretizar

cada atributo de entrada separadamentebull Ex Base de dados hipoteacutetica de

meteorologia x decisatildeo de realizar ou natildeo um certo jogo

Discretizaccedilatildeo pelo Meacutetodo 1R (1-rule)

bull Base de Dados Meteoroloacutegicosbull Tempo Temperatura Umidade Vento Jogar (CLASSE)

Sol 85 85 Natildeo NatildeoSol 80 90 Sim NatildeoNublado 83 86 Natildeo SimChuva 70 96 Natildeo SimChuva 68 80 Natildeo SimChuva 65 70 Sim NatildeoNublado 64 65 Sim SimSol 72 95 Natildeo NatildeoSol 69 70 Natildeo SimChuva 75 80 Natildeo SimSol 75 70 Sim SimNublado 72 90 Sim SimNublado 81 75 Natildeo SimChuva 71 91 Sim Natildeo

Discretizaccedilatildeo pelo Meacutetodo 1R (1-rule)

Discretizaccedilatildeo de Variaacuteveis Contiacutenuas

bull Discretizaccedilatildeo Natildeo-Supervisionadandash O meacutetodo 1R eacute supervisionado Considera a

variaacutevel de saiacuteda (classe) na discretizaccedilatildeo

bull Meacutetodos Natildeo Supervisionados consideram somente o atributo a ser discretizadondash Satildeo a uacutenica opccedilatildeo no caso de problemas de

agrupamento (clustering) onde natildeo se conhecem as classes de saiacuteda

bull Trecircs abordagens baacutesicasndash Nuacutemero preacute-determinado de intervalos

bull uniformes (equal-interval binning)

ndash Nuacutemero uniforme de amostras por intervalobull (equal-frequency binning)

ndash Agrupamento (clustering) intervalos arbitraacuterios

Meacutetodos de Discretizaccedilatildeo Natildeo Supervisionada

bull Nuacutemero preacute-determinado de intervalos uniformesndash (equal-interval binning)

bull No exemplo (temperatura) 64 65 68 69 70 71 72 72 75 75 80 81 83 85bull Bins com largura 6 x le 60

60 lt x le 6666 lt x le 7272 lt x le 7878 lt x le 8484 lt x le 90

Meacutetodos de Discretizaccedilatildeo Natildeo Supervisionada

bull Nuacutemero preacute-determinado de intervalos uniformesndash (equal-interval binning)

bull No exemplo (temperatura)64 65 68 69 70 71 72 72 75 75 80 81 83 85

bull Bins com largura 6 x le 60 na60 lt x le 66 64 6566 lt x le 72 68 69 70 71 72 7272 lt x le 78 75 7578 lt x le 84 80 81 8384 lt x le 90 85

Meacutetodos de Discretizaccedilatildeo Natildeo Supervisionada

bull Equal-interval binning Problemasbull Como qualquer meacutetodo natildeo

supervisionado arrisca destruir distinccedilotildees uacuteteis devido a divisotildees muito grandes ou fronteiras inadequadas

bull Distribuiccedilatildeo das amostras muito irregular com algumas bins com muitas amostras e outras com poucas amostras

Meacutetodos de Discretizaccedilatildeo Natildeo Supervisionada

bull Nuacutemero uniforme de amostras por intervalondash (equal-frequency binning)

bull Tambeacutem chamado de equalizaccedilatildeo do histograma

bull Cada bin tem o mesmo nuacutemero aproximado de amostras

bull Histograma eacute planobull Heuriacutestica para o nuacutemero de bins radicNbull N = nuacutemero de amostras

Meacutetodos de Discretizaccedilatildeo Natildeo Supervisionada

bull Nuacutemero uniforme de amostras por intervalondash (equal-frequency binning)

bull No exemplo (temperatura)bull 64 65 68 69 |70 71 72 72 |75 75 80| 81 83 85bull 14 amostras 4 Bins

ndash x le 695 64 65 68 69ndash 695 lt x le 735 70 71 72 72ndash 735 lt x le 805 75 75 80ndash x gt 805 81 83 85

Meacutetodos de Discretizaccedilatildeo Natildeo Supervisionada

bull Agrupamento (Clustering)

bull Pode-se aplicar um algoritmo de agrupamento

bull no caso unidimensional

bull Para cada grupo (cluster) atribuir um valor discreto

Transformar

Anaacutelise de Componentes Principais (PCA)

bull Dado um conjunto D com n instacircncias e p atributos (x1 x2 xp) uma transformaccedilatildeo linear para um novo conjunto de atributos z1 z2 zp pode ser calculada como

bull Componentes Principais (PCs) satildeo tipos especiacuteficos de combinaccedilotildees lineares que satildeo escolhidas de tal modo que zp (PCs) tenham as seguintes caracteriacutesticas

z1 = a11 x1 + a21 x2 + + ap1 xp

z2 = a12 x1 + a22 x2 + + ap2 xp

zp = a1p x1 + a2p x2 + + app xp

PCA Caracteriacutesticas

bull As p componentes principais (PC) satildeo natildeo-correlacionadas (independentes)

bull As PCs satildeo ordenadas de acordo com quantidade da variacircncia dos dados originais que elas contecircm (ordem decrescente)ndash A primeira PC ldquoexplicardquo (conteacutem) a maior porcentagem da

variabilidade do conjunto de dados originalndash A segunda PC define a proacutexima maior parte e assim por diantendash Em geral apenas algumas das primeiras PCs satildeo responsaacuteveis

pela maior parte da variabilidade do conjunto de dadosndash O restante das PCs tem uma contribuiccedilatildeo insignificante

bull PCA eacute usada em Aprendizado de Maacutequina principalmente para a reduccedilatildeo de dimensionalidade

PCA Caacutelculo

bull PCA pode reduzida ao problema de encontrar os auto-valores e auto-vetores da matriz de covariacircncia (ou correlaccedilatildeo) do conjunto de dados

bull A proporccedilatildeo da variacircncia do conjunto de dados originais explicada pela i-eacutesima PC eacute igual ao i-eacutesimo auto-valor divido pela soma de todos os p auto-valores

bull Ou seja as PCs satildeo ordenadas - decrescente - de acordo com os valores dos auto-valores

bull Quando os valores dos diferentes atributos estatildeo em diferentes escalas eacute preferiacutevel usar a matriz de correlaccedilatildeo em lugar da matriz de covariacircncia

Anaacutelise de Componentes Principais

bull Principais Limitaccedilotildees

ndash Assume apenas relaccedilotildees lineares entre os atributos

ndash A interpretaccedilatildeo dos resultados (eg classificador gerado) em termos dos atributos originais pode ficar mais difiacutecil

  • Slide 1
  • Slide 2
  • Slide 3
  • Slide 4
  • Slide 5
  • Slide 6
  • Slide 7
  • Slide 8
  • Slide 9
  • Slide 10
  • Slide 11
  • Slide 12
  • Slide 13
  • Slide 14
  • Slide 15
  • Slide 16
  • Slide 17
  • Slide 18
  • Slide 19
  • Slide 20
  • Slide 21
  • Slide 22
  • Slide 23
  • Slide 24
  • Slide 25
  • Slide 26
  • Slide 27
  • Slide 28
  • Slide 29
  • Slide 30
  • Slide 31
  • Slide 32
  • Slide 33
  • Slide 34
  • Slide 35
  • Slide 36
  • Slide 37
  • Slide 38
  • Slide 39
  • Slide 40
  • Slide 41
  • Slide 42
  • Slide 43
  • Slide 44
  • Slide 45
  • Slide 46
  • Slide 47
  • Slide 48
Page 9: Analise e Seleção de Variáveis. Tópicos Por que atributos irrelevantes são um problema Quais tipos de algoritmos de aprendizado são afetados Abordagens

Meacutetodos de Seleccedilatildeo de Atributos

bull Manualndash Melhor meacutetodo se for baseado em um entendimento

profundo sobre ambos

bull O problema de aprendizado

bull O significado de cada atributo

bull Automaacuteticondash Filtros meacutetodo usado antes do processo de aprendizado

para selecionar o subconjunto de atributos

ndash Wrappers o processo de escolha do subconjunto de atributos estaacute ldquoempacotadordquo junto com o algoritmo de aprendizado sendo utilizado

Seleccedilatildeo Automaacutetica

bull Implica em uma busca no ldquoespaccedilordquo de atributos

bull Quantos subconjuntos haacute

bull 2N em que N eacute o nuacutemero total de atributos

bull Portanto na maioria dos casos praacuteticos uma busca exaustiva natildeo eacute viaacutevel

bull Soluccedilatildeo busca heuriacutestica

Exemplo Espaccedilo de Atributos

Busca Heuriacutestica no Espaccedilo de Atributos

bull Busca para Frente (Seleccedilatildeo Forward)

ndash A busca eacute iniciada sem atributos e os mesmos satildeo adicionados um a um

ndash Cada atributo eacute adicionado isoladamente e o conjunto resultante eacute avaliado segundo um criteacuterio

ndash O atributo que produz o melhor criteacuterio eacute incorporado

Busca Heuriacutestica no Espaccedilo de Atributos

bull Busca para traacutes (Eliminaccedilao Backward) ndash Similar a Seleccedilatildeo Forward ndash Comeccedila com todo o conjunto de atributos eliminando

um atributo a cada passo

bull Tanto na Seleccedilatildeo Forward quanto na Eliminaccedilatildeo Backward pode-se adicionar um vieacutes por subconjuntos pequenosndash Por exemplo pode-se requerer natildeo apenas que a

medida de avaliaccedilatildeo crescer a cada passo mas que ela cresccedila mais que uma determinada constante

Busca Heuriacutestica no Espaccedilo de Atributos

bull Outros meacutetodos de busca

ndash Busca bidirecionalndash Best-first searchndash Beam searchndash Algoritmos geneacuteticosndash

Abordagens para Seleccedilatildeo de Atributos

bull Filtrosndash O processo de escolha do subconjunto

acontece antes do processo de aprendizado

bull Wrapperndash O processo de escolha do subconjunto de

atributos estaacute ldquoempacotadordquo junto com o algoritmo de aprendizado sendo utilizado

Analise e Seleccedilatildeo de Variaacuteveis

bull Meacutetodos Dependentes do Modelo (Wrapper)

bull Meacutetodos Independentes do Modelo (Filter)

Exemplo Filtros

bull Uso de uma indutor de aacutervores de decisatildeo (AD) como filtro para o k-NN

ndash 1) Aplique um indutor de AD para todo o conjunto de treinamento

ndash 2) Selecione o subconjunto de atributos que aparece na AD

ndash 3) Aplique o k-NN a apenas este subconjunto

bull A combinaccedilatildeo pode apresentar melhores resultados do que cada meacutetodo usando individualmente

Filtros

bull Abordagensndash baseada nas caracteriacutesticas gerais dos

dadosndash Encontrar o menor subconjunto que separe

os dadosndash Utilizar diferentes esquemas de aprendizado

bull Usar os atributos que aparecem no c45 1R

Wrapper

bull Busca para Frente (Seleccedilatildeo Forward) + Naive Bayes

ndash (1) Inicialize com o conjunto vazio S=ndash (2) Resultado_S=0ndash (2) Para cada atributo si que natildeo esteja em S

bull Avalie o resultado de (S U si ) Resultado_ si ndash (3) Considere o atributo com maior Resultado_ si

bull SE (Resultado_ si gt Resultado_S) ENTAO (S=S U si ) amp (Resultado_S= Resultado_ si )Volte para o Passo (2)SENAOPare

Transformaccedilatildeo de Dados

Discretizaccedilatildeo de Variaacuteveis Contiacutenuas

bull Transforma atributos contiacutenuos em atributos categoacutericos

bull Absolutamente essencial se o meacutetodo inteligente soacute manuseia atributos categoacutericos

bull Em alguns casos mesmo meacutetodos que manuseiam atributos contiacutenuos tecircm melhor desempenho com atributos categoacutericos

Discretizaccedilatildeo de Variaacuteveis Contiacutenuas

bull 1048673 Diversos meacutetodos de discretizaccedilatildeo

bull 1048673 Discretizaccedilatildeo pelo Meacutetodo 1R (1-rule)

bull 1048673 Discretizaccedilatildeo Natildeo-supervisionada

Discretizaccedilatildeo de Variaacuteveis Contiacutenuas

bull Discretizaccedilatildeo pelo Meacutetodo 1R (1-rule)bull Sub-produto de uma teacutecnica de extraccedilatildeo

automaacutetica de regrasbull Utiliza as classes de saiacuteda para discretizar

cada atributo de entrada separadamentebull Ex Base de dados hipoteacutetica de

meteorologia x decisatildeo de realizar ou natildeo um certo jogo

Discretizaccedilatildeo pelo Meacutetodo 1R (1-rule)

bull Base de Dados Meteoroloacutegicosbull Tempo Temperatura Umidade Vento Jogar (CLASSE)

Sol 85 85 Natildeo NatildeoSol 80 90 Sim NatildeoNublado 83 86 Natildeo SimChuva 70 96 Natildeo SimChuva 68 80 Natildeo SimChuva 65 70 Sim NatildeoNublado 64 65 Sim SimSol 72 95 Natildeo NatildeoSol 69 70 Natildeo SimChuva 75 80 Natildeo SimSol 75 70 Sim SimNublado 72 90 Sim SimNublado 81 75 Natildeo SimChuva 71 91 Sim Natildeo

Discretizaccedilatildeo pelo Meacutetodo 1R (1-rule)

Discretizaccedilatildeo de Variaacuteveis Contiacutenuas

bull Discretizaccedilatildeo Natildeo-Supervisionadandash O meacutetodo 1R eacute supervisionado Considera a

variaacutevel de saiacuteda (classe) na discretizaccedilatildeo

bull Meacutetodos Natildeo Supervisionados consideram somente o atributo a ser discretizadondash Satildeo a uacutenica opccedilatildeo no caso de problemas de

agrupamento (clustering) onde natildeo se conhecem as classes de saiacuteda

bull Trecircs abordagens baacutesicasndash Nuacutemero preacute-determinado de intervalos

bull uniformes (equal-interval binning)

ndash Nuacutemero uniforme de amostras por intervalobull (equal-frequency binning)

ndash Agrupamento (clustering) intervalos arbitraacuterios

Meacutetodos de Discretizaccedilatildeo Natildeo Supervisionada

bull Nuacutemero preacute-determinado de intervalos uniformesndash (equal-interval binning)

bull No exemplo (temperatura) 64 65 68 69 70 71 72 72 75 75 80 81 83 85bull Bins com largura 6 x le 60

60 lt x le 6666 lt x le 7272 lt x le 7878 lt x le 8484 lt x le 90

Meacutetodos de Discretizaccedilatildeo Natildeo Supervisionada

bull Nuacutemero preacute-determinado de intervalos uniformesndash (equal-interval binning)

bull No exemplo (temperatura)64 65 68 69 70 71 72 72 75 75 80 81 83 85

bull Bins com largura 6 x le 60 na60 lt x le 66 64 6566 lt x le 72 68 69 70 71 72 7272 lt x le 78 75 7578 lt x le 84 80 81 8384 lt x le 90 85

Meacutetodos de Discretizaccedilatildeo Natildeo Supervisionada

bull Equal-interval binning Problemasbull Como qualquer meacutetodo natildeo

supervisionado arrisca destruir distinccedilotildees uacuteteis devido a divisotildees muito grandes ou fronteiras inadequadas

bull Distribuiccedilatildeo das amostras muito irregular com algumas bins com muitas amostras e outras com poucas amostras

Meacutetodos de Discretizaccedilatildeo Natildeo Supervisionada

bull Nuacutemero uniforme de amostras por intervalondash (equal-frequency binning)

bull Tambeacutem chamado de equalizaccedilatildeo do histograma

bull Cada bin tem o mesmo nuacutemero aproximado de amostras

bull Histograma eacute planobull Heuriacutestica para o nuacutemero de bins radicNbull N = nuacutemero de amostras

Meacutetodos de Discretizaccedilatildeo Natildeo Supervisionada

bull Nuacutemero uniforme de amostras por intervalondash (equal-frequency binning)

bull No exemplo (temperatura)bull 64 65 68 69 |70 71 72 72 |75 75 80| 81 83 85bull 14 amostras 4 Bins

ndash x le 695 64 65 68 69ndash 695 lt x le 735 70 71 72 72ndash 735 lt x le 805 75 75 80ndash x gt 805 81 83 85

Meacutetodos de Discretizaccedilatildeo Natildeo Supervisionada

bull Agrupamento (Clustering)

bull Pode-se aplicar um algoritmo de agrupamento

bull no caso unidimensional

bull Para cada grupo (cluster) atribuir um valor discreto

Transformar

Anaacutelise de Componentes Principais (PCA)

bull Dado um conjunto D com n instacircncias e p atributos (x1 x2 xp) uma transformaccedilatildeo linear para um novo conjunto de atributos z1 z2 zp pode ser calculada como

bull Componentes Principais (PCs) satildeo tipos especiacuteficos de combinaccedilotildees lineares que satildeo escolhidas de tal modo que zp (PCs) tenham as seguintes caracteriacutesticas

z1 = a11 x1 + a21 x2 + + ap1 xp

z2 = a12 x1 + a22 x2 + + ap2 xp

zp = a1p x1 + a2p x2 + + app xp

PCA Caracteriacutesticas

bull As p componentes principais (PC) satildeo natildeo-correlacionadas (independentes)

bull As PCs satildeo ordenadas de acordo com quantidade da variacircncia dos dados originais que elas contecircm (ordem decrescente)ndash A primeira PC ldquoexplicardquo (conteacutem) a maior porcentagem da

variabilidade do conjunto de dados originalndash A segunda PC define a proacutexima maior parte e assim por diantendash Em geral apenas algumas das primeiras PCs satildeo responsaacuteveis

pela maior parte da variabilidade do conjunto de dadosndash O restante das PCs tem uma contribuiccedilatildeo insignificante

bull PCA eacute usada em Aprendizado de Maacutequina principalmente para a reduccedilatildeo de dimensionalidade

PCA Caacutelculo

bull PCA pode reduzida ao problema de encontrar os auto-valores e auto-vetores da matriz de covariacircncia (ou correlaccedilatildeo) do conjunto de dados

bull A proporccedilatildeo da variacircncia do conjunto de dados originais explicada pela i-eacutesima PC eacute igual ao i-eacutesimo auto-valor divido pela soma de todos os p auto-valores

bull Ou seja as PCs satildeo ordenadas - decrescente - de acordo com os valores dos auto-valores

bull Quando os valores dos diferentes atributos estatildeo em diferentes escalas eacute preferiacutevel usar a matriz de correlaccedilatildeo em lugar da matriz de covariacircncia

Anaacutelise de Componentes Principais

bull Principais Limitaccedilotildees

ndash Assume apenas relaccedilotildees lineares entre os atributos

ndash A interpretaccedilatildeo dos resultados (eg classificador gerado) em termos dos atributos originais pode ficar mais difiacutecil

  • Slide 1
  • Slide 2
  • Slide 3
  • Slide 4
  • Slide 5
  • Slide 6
  • Slide 7
  • Slide 8
  • Slide 9
  • Slide 10
  • Slide 11
  • Slide 12
  • Slide 13
  • Slide 14
  • Slide 15
  • Slide 16
  • Slide 17
  • Slide 18
  • Slide 19
  • Slide 20
  • Slide 21
  • Slide 22
  • Slide 23
  • Slide 24
  • Slide 25
  • Slide 26
  • Slide 27
  • Slide 28
  • Slide 29
  • Slide 30
  • Slide 31
  • Slide 32
  • Slide 33
  • Slide 34
  • Slide 35
  • Slide 36
  • Slide 37
  • Slide 38
  • Slide 39
  • Slide 40
  • Slide 41
  • Slide 42
  • Slide 43
  • Slide 44
  • Slide 45
  • Slide 46
  • Slide 47
  • Slide 48
Page 10: Analise e Seleção de Variáveis. Tópicos Por que atributos irrelevantes são um problema Quais tipos de algoritmos de aprendizado são afetados Abordagens

Seleccedilatildeo Automaacutetica

bull Implica em uma busca no ldquoespaccedilordquo de atributos

bull Quantos subconjuntos haacute

bull 2N em que N eacute o nuacutemero total de atributos

bull Portanto na maioria dos casos praacuteticos uma busca exaustiva natildeo eacute viaacutevel

bull Soluccedilatildeo busca heuriacutestica

Exemplo Espaccedilo de Atributos

Busca Heuriacutestica no Espaccedilo de Atributos

bull Busca para Frente (Seleccedilatildeo Forward)

ndash A busca eacute iniciada sem atributos e os mesmos satildeo adicionados um a um

ndash Cada atributo eacute adicionado isoladamente e o conjunto resultante eacute avaliado segundo um criteacuterio

ndash O atributo que produz o melhor criteacuterio eacute incorporado

Busca Heuriacutestica no Espaccedilo de Atributos

bull Busca para traacutes (Eliminaccedilao Backward) ndash Similar a Seleccedilatildeo Forward ndash Comeccedila com todo o conjunto de atributos eliminando

um atributo a cada passo

bull Tanto na Seleccedilatildeo Forward quanto na Eliminaccedilatildeo Backward pode-se adicionar um vieacutes por subconjuntos pequenosndash Por exemplo pode-se requerer natildeo apenas que a

medida de avaliaccedilatildeo crescer a cada passo mas que ela cresccedila mais que uma determinada constante

Busca Heuriacutestica no Espaccedilo de Atributos

bull Outros meacutetodos de busca

ndash Busca bidirecionalndash Best-first searchndash Beam searchndash Algoritmos geneacuteticosndash

Abordagens para Seleccedilatildeo de Atributos

bull Filtrosndash O processo de escolha do subconjunto

acontece antes do processo de aprendizado

bull Wrapperndash O processo de escolha do subconjunto de

atributos estaacute ldquoempacotadordquo junto com o algoritmo de aprendizado sendo utilizado

Analise e Seleccedilatildeo de Variaacuteveis

bull Meacutetodos Dependentes do Modelo (Wrapper)

bull Meacutetodos Independentes do Modelo (Filter)

Exemplo Filtros

bull Uso de uma indutor de aacutervores de decisatildeo (AD) como filtro para o k-NN

ndash 1) Aplique um indutor de AD para todo o conjunto de treinamento

ndash 2) Selecione o subconjunto de atributos que aparece na AD

ndash 3) Aplique o k-NN a apenas este subconjunto

bull A combinaccedilatildeo pode apresentar melhores resultados do que cada meacutetodo usando individualmente

Filtros

bull Abordagensndash baseada nas caracteriacutesticas gerais dos

dadosndash Encontrar o menor subconjunto que separe

os dadosndash Utilizar diferentes esquemas de aprendizado

bull Usar os atributos que aparecem no c45 1R

Wrapper

bull Busca para Frente (Seleccedilatildeo Forward) + Naive Bayes

ndash (1) Inicialize com o conjunto vazio S=ndash (2) Resultado_S=0ndash (2) Para cada atributo si que natildeo esteja em S

bull Avalie o resultado de (S U si ) Resultado_ si ndash (3) Considere o atributo com maior Resultado_ si

bull SE (Resultado_ si gt Resultado_S) ENTAO (S=S U si ) amp (Resultado_S= Resultado_ si )Volte para o Passo (2)SENAOPare

Transformaccedilatildeo de Dados

Discretizaccedilatildeo de Variaacuteveis Contiacutenuas

bull Transforma atributos contiacutenuos em atributos categoacutericos

bull Absolutamente essencial se o meacutetodo inteligente soacute manuseia atributos categoacutericos

bull Em alguns casos mesmo meacutetodos que manuseiam atributos contiacutenuos tecircm melhor desempenho com atributos categoacutericos

Discretizaccedilatildeo de Variaacuteveis Contiacutenuas

bull 1048673 Diversos meacutetodos de discretizaccedilatildeo

bull 1048673 Discretizaccedilatildeo pelo Meacutetodo 1R (1-rule)

bull 1048673 Discretizaccedilatildeo Natildeo-supervisionada

Discretizaccedilatildeo de Variaacuteveis Contiacutenuas

bull Discretizaccedilatildeo pelo Meacutetodo 1R (1-rule)bull Sub-produto de uma teacutecnica de extraccedilatildeo

automaacutetica de regrasbull Utiliza as classes de saiacuteda para discretizar

cada atributo de entrada separadamentebull Ex Base de dados hipoteacutetica de

meteorologia x decisatildeo de realizar ou natildeo um certo jogo

Discretizaccedilatildeo pelo Meacutetodo 1R (1-rule)

bull Base de Dados Meteoroloacutegicosbull Tempo Temperatura Umidade Vento Jogar (CLASSE)

Sol 85 85 Natildeo NatildeoSol 80 90 Sim NatildeoNublado 83 86 Natildeo SimChuva 70 96 Natildeo SimChuva 68 80 Natildeo SimChuva 65 70 Sim NatildeoNublado 64 65 Sim SimSol 72 95 Natildeo NatildeoSol 69 70 Natildeo SimChuva 75 80 Natildeo SimSol 75 70 Sim SimNublado 72 90 Sim SimNublado 81 75 Natildeo SimChuva 71 91 Sim Natildeo

Discretizaccedilatildeo pelo Meacutetodo 1R (1-rule)

Discretizaccedilatildeo de Variaacuteveis Contiacutenuas

bull Discretizaccedilatildeo Natildeo-Supervisionadandash O meacutetodo 1R eacute supervisionado Considera a

variaacutevel de saiacuteda (classe) na discretizaccedilatildeo

bull Meacutetodos Natildeo Supervisionados consideram somente o atributo a ser discretizadondash Satildeo a uacutenica opccedilatildeo no caso de problemas de

agrupamento (clustering) onde natildeo se conhecem as classes de saiacuteda

bull Trecircs abordagens baacutesicasndash Nuacutemero preacute-determinado de intervalos

bull uniformes (equal-interval binning)

ndash Nuacutemero uniforme de amostras por intervalobull (equal-frequency binning)

ndash Agrupamento (clustering) intervalos arbitraacuterios

Meacutetodos de Discretizaccedilatildeo Natildeo Supervisionada

bull Nuacutemero preacute-determinado de intervalos uniformesndash (equal-interval binning)

bull No exemplo (temperatura) 64 65 68 69 70 71 72 72 75 75 80 81 83 85bull Bins com largura 6 x le 60

60 lt x le 6666 lt x le 7272 lt x le 7878 lt x le 8484 lt x le 90

Meacutetodos de Discretizaccedilatildeo Natildeo Supervisionada

bull Nuacutemero preacute-determinado de intervalos uniformesndash (equal-interval binning)

bull No exemplo (temperatura)64 65 68 69 70 71 72 72 75 75 80 81 83 85

bull Bins com largura 6 x le 60 na60 lt x le 66 64 6566 lt x le 72 68 69 70 71 72 7272 lt x le 78 75 7578 lt x le 84 80 81 8384 lt x le 90 85

Meacutetodos de Discretizaccedilatildeo Natildeo Supervisionada

bull Equal-interval binning Problemasbull Como qualquer meacutetodo natildeo

supervisionado arrisca destruir distinccedilotildees uacuteteis devido a divisotildees muito grandes ou fronteiras inadequadas

bull Distribuiccedilatildeo das amostras muito irregular com algumas bins com muitas amostras e outras com poucas amostras

Meacutetodos de Discretizaccedilatildeo Natildeo Supervisionada

bull Nuacutemero uniforme de amostras por intervalondash (equal-frequency binning)

bull Tambeacutem chamado de equalizaccedilatildeo do histograma

bull Cada bin tem o mesmo nuacutemero aproximado de amostras

bull Histograma eacute planobull Heuriacutestica para o nuacutemero de bins radicNbull N = nuacutemero de amostras

Meacutetodos de Discretizaccedilatildeo Natildeo Supervisionada

bull Nuacutemero uniforme de amostras por intervalondash (equal-frequency binning)

bull No exemplo (temperatura)bull 64 65 68 69 |70 71 72 72 |75 75 80| 81 83 85bull 14 amostras 4 Bins

ndash x le 695 64 65 68 69ndash 695 lt x le 735 70 71 72 72ndash 735 lt x le 805 75 75 80ndash x gt 805 81 83 85

Meacutetodos de Discretizaccedilatildeo Natildeo Supervisionada

bull Agrupamento (Clustering)

bull Pode-se aplicar um algoritmo de agrupamento

bull no caso unidimensional

bull Para cada grupo (cluster) atribuir um valor discreto

Transformar

Anaacutelise de Componentes Principais (PCA)

bull Dado um conjunto D com n instacircncias e p atributos (x1 x2 xp) uma transformaccedilatildeo linear para um novo conjunto de atributos z1 z2 zp pode ser calculada como

bull Componentes Principais (PCs) satildeo tipos especiacuteficos de combinaccedilotildees lineares que satildeo escolhidas de tal modo que zp (PCs) tenham as seguintes caracteriacutesticas

z1 = a11 x1 + a21 x2 + + ap1 xp

z2 = a12 x1 + a22 x2 + + ap2 xp

zp = a1p x1 + a2p x2 + + app xp

PCA Caracteriacutesticas

bull As p componentes principais (PC) satildeo natildeo-correlacionadas (independentes)

bull As PCs satildeo ordenadas de acordo com quantidade da variacircncia dos dados originais que elas contecircm (ordem decrescente)ndash A primeira PC ldquoexplicardquo (conteacutem) a maior porcentagem da

variabilidade do conjunto de dados originalndash A segunda PC define a proacutexima maior parte e assim por diantendash Em geral apenas algumas das primeiras PCs satildeo responsaacuteveis

pela maior parte da variabilidade do conjunto de dadosndash O restante das PCs tem uma contribuiccedilatildeo insignificante

bull PCA eacute usada em Aprendizado de Maacutequina principalmente para a reduccedilatildeo de dimensionalidade

PCA Caacutelculo

bull PCA pode reduzida ao problema de encontrar os auto-valores e auto-vetores da matriz de covariacircncia (ou correlaccedilatildeo) do conjunto de dados

bull A proporccedilatildeo da variacircncia do conjunto de dados originais explicada pela i-eacutesima PC eacute igual ao i-eacutesimo auto-valor divido pela soma de todos os p auto-valores

bull Ou seja as PCs satildeo ordenadas - decrescente - de acordo com os valores dos auto-valores

bull Quando os valores dos diferentes atributos estatildeo em diferentes escalas eacute preferiacutevel usar a matriz de correlaccedilatildeo em lugar da matriz de covariacircncia

Anaacutelise de Componentes Principais

bull Principais Limitaccedilotildees

ndash Assume apenas relaccedilotildees lineares entre os atributos

ndash A interpretaccedilatildeo dos resultados (eg classificador gerado) em termos dos atributos originais pode ficar mais difiacutecil

  • Slide 1
  • Slide 2
  • Slide 3
  • Slide 4
  • Slide 5
  • Slide 6
  • Slide 7
  • Slide 8
  • Slide 9
  • Slide 10
  • Slide 11
  • Slide 12
  • Slide 13
  • Slide 14
  • Slide 15
  • Slide 16
  • Slide 17
  • Slide 18
  • Slide 19
  • Slide 20
  • Slide 21
  • Slide 22
  • Slide 23
  • Slide 24
  • Slide 25
  • Slide 26
  • Slide 27
  • Slide 28
  • Slide 29
  • Slide 30
  • Slide 31
  • Slide 32
  • Slide 33
  • Slide 34
  • Slide 35
  • Slide 36
  • Slide 37
  • Slide 38
  • Slide 39
  • Slide 40
  • Slide 41
  • Slide 42
  • Slide 43
  • Slide 44
  • Slide 45
  • Slide 46
  • Slide 47
  • Slide 48
Page 11: Analise e Seleção de Variáveis. Tópicos Por que atributos irrelevantes são um problema Quais tipos de algoritmos de aprendizado são afetados Abordagens

Exemplo Espaccedilo de Atributos

Busca Heuriacutestica no Espaccedilo de Atributos

bull Busca para Frente (Seleccedilatildeo Forward)

ndash A busca eacute iniciada sem atributos e os mesmos satildeo adicionados um a um

ndash Cada atributo eacute adicionado isoladamente e o conjunto resultante eacute avaliado segundo um criteacuterio

ndash O atributo que produz o melhor criteacuterio eacute incorporado

Busca Heuriacutestica no Espaccedilo de Atributos

bull Busca para traacutes (Eliminaccedilao Backward) ndash Similar a Seleccedilatildeo Forward ndash Comeccedila com todo o conjunto de atributos eliminando

um atributo a cada passo

bull Tanto na Seleccedilatildeo Forward quanto na Eliminaccedilatildeo Backward pode-se adicionar um vieacutes por subconjuntos pequenosndash Por exemplo pode-se requerer natildeo apenas que a

medida de avaliaccedilatildeo crescer a cada passo mas que ela cresccedila mais que uma determinada constante

Busca Heuriacutestica no Espaccedilo de Atributos

bull Outros meacutetodos de busca

ndash Busca bidirecionalndash Best-first searchndash Beam searchndash Algoritmos geneacuteticosndash

Abordagens para Seleccedilatildeo de Atributos

bull Filtrosndash O processo de escolha do subconjunto

acontece antes do processo de aprendizado

bull Wrapperndash O processo de escolha do subconjunto de

atributos estaacute ldquoempacotadordquo junto com o algoritmo de aprendizado sendo utilizado

Analise e Seleccedilatildeo de Variaacuteveis

bull Meacutetodos Dependentes do Modelo (Wrapper)

bull Meacutetodos Independentes do Modelo (Filter)

Exemplo Filtros

bull Uso de uma indutor de aacutervores de decisatildeo (AD) como filtro para o k-NN

ndash 1) Aplique um indutor de AD para todo o conjunto de treinamento

ndash 2) Selecione o subconjunto de atributos que aparece na AD

ndash 3) Aplique o k-NN a apenas este subconjunto

bull A combinaccedilatildeo pode apresentar melhores resultados do que cada meacutetodo usando individualmente

Filtros

bull Abordagensndash baseada nas caracteriacutesticas gerais dos

dadosndash Encontrar o menor subconjunto que separe

os dadosndash Utilizar diferentes esquemas de aprendizado

bull Usar os atributos que aparecem no c45 1R

Wrapper

bull Busca para Frente (Seleccedilatildeo Forward) + Naive Bayes

ndash (1) Inicialize com o conjunto vazio S=ndash (2) Resultado_S=0ndash (2) Para cada atributo si que natildeo esteja em S

bull Avalie o resultado de (S U si ) Resultado_ si ndash (3) Considere o atributo com maior Resultado_ si

bull SE (Resultado_ si gt Resultado_S) ENTAO (S=S U si ) amp (Resultado_S= Resultado_ si )Volte para o Passo (2)SENAOPare

Transformaccedilatildeo de Dados

Discretizaccedilatildeo de Variaacuteveis Contiacutenuas

bull Transforma atributos contiacutenuos em atributos categoacutericos

bull Absolutamente essencial se o meacutetodo inteligente soacute manuseia atributos categoacutericos

bull Em alguns casos mesmo meacutetodos que manuseiam atributos contiacutenuos tecircm melhor desempenho com atributos categoacutericos

Discretizaccedilatildeo de Variaacuteveis Contiacutenuas

bull 1048673 Diversos meacutetodos de discretizaccedilatildeo

bull 1048673 Discretizaccedilatildeo pelo Meacutetodo 1R (1-rule)

bull 1048673 Discretizaccedilatildeo Natildeo-supervisionada

Discretizaccedilatildeo de Variaacuteveis Contiacutenuas

bull Discretizaccedilatildeo pelo Meacutetodo 1R (1-rule)bull Sub-produto de uma teacutecnica de extraccedilatildeo

automaacutetica de regrasbull Utiliza as classes de saiacuteda para discretizar

cada atributo de entrada separadamentebull Ex Base de dados hipoteacutetica de

meteorologia x decisatildeo de realizar ou natildeo um certo jogo

Discretizaccedilatildeo pelo Meacutetodo 1R (1-rule)

bull Base de Dados Meteoroloacutegicosbull Tempo Temperatura Umidade Vento Jogar (CLASSE)

Sol 85 85 Natildeo NatildeoSol 80 90 Sim NatildeoNublado 83 86 Natildeo SimChuva 70 96 Natildeo SimChuva 68 80 Natildeo SimChuva 65 70 Sim NatildeoNublado 64 65 Sim SimSol 72 95 Natildeo NatildeoSol 69 70 Natildeo SimChuva 75 80 Natildeo SimSol 75 70 Sim SimNublado 72 90 Sim SimNublado 81 75 Natildeo SimChuva 71 91 Sim Natildeo

Discretizaccedilatildeo pelo Meacutetodo 1R (1-rule)

Discretizaccedilatildeo de Variaacuteveis Contiacutenuas

bull Discretizaccedilatildeo Natildeo-Supervisionadandash O meacutetodo 1R eacute supervisionado Considera a

variaacutevel de saiacuteda (classe) na discretizaccedilatildeo

bull Meacutetodos Natildeo Supervisionados consideram somente o atributo a ser discretizadondash Satildeo a uacutenica opccedilatildeo no caso de problemas de

agrupamento (clustering) onde natildeo se conhecem as classes de saiacuteda

bull Trecircs abordagens baacutesicasndash Nuacutemero preacute-determinado de intervalos

bull uniformes (equal-interval binning)

ndash Nuacutemero uniforme de amostras por intervalobull (equal-frequency binning)

ndash Agrupamento (clustering) intervalos arbitraacuterios

Meacutetodos de Discretizaccedilatildeo Natildeo Supervisionada

bull Nuacutemero preacute-determinado de intervalos uniformesndash (equal-interval binning)

bull No exemplo (temperatura) 64 65 68 69 70 71 72 72 75 75 80 81 83 85bull Bins com largura 6 x le 60

60 lt x le 6666 lt x le 7272 lt x le 7878 lt x le 8484 lt x le 90

Meacutetodos de Discretizaccedilatildeo Natildeo Supervisionada

bull Nuacutemero preacute-determinado de intervalos uniformesndash (equal-interval binning)

bull No exemplo (temperatura)64 65 68 69 70 71 72 72 75 75 80 81 83 85

bull Bins com largura 6 x le 60 na60 lt x le 66 64 6566 lt x le 72 68 69 70 71 72 7272 lt x le 78 75 7578 lt x le 84 80 81 8384 lt x le 90 85

Meacutetodos de Discretizaccedilatildeo Natildeo Supervisionada

bull Equal-interval binning Problemasbull Como qualquer meacutetodo natildeo

supervisionado arrisca destruir distinccedilotildees uacuteteis devido a divisotildees muito grandes ou fronteiras inadequadas

bull Distribuiccedilatildeo das amostras muito irregular com algumas bins com muitas amostras e outras com poucas amostras

Meacutetodos de Discretizaccedilatildeo Natildeo Supervisionada

bull Nuacutemero uniforme de amostras por intervalondash (equal-frequency binning)

bull Tambeacutem chamado de equalizaccedilatildeo do histograma

bull Cada bin tem o mesmo nuacutemero aproximado de amostras

bull Histograma eacute planobull Heuriacutestica para o nuacutemero de bins radicNbull N = nuacutemero de amostras

Meacutetodos de Discretizaccedilatildeo Natildeo Supervisionada

bull Nuacutemero uniforme de amostras por intervalondash (equal-frequency binning)

bull No exemplo (temperatura)bull 64 65 68 69 |70 71 72 72 |75 75 80| 81 83 85bull 14 amostras 4 Bins

ndash x le 695 64 65 68 69ndash 695 lt x le 735 70 71 72 72ndash 735 lt x le 805 75 75 80ndash x gt 805 81 83 85

Meacutetodos de Discretizaccedilatildeo Natildeo Supervisionada

bull Agrupamento (Clustering)

bull Pode-se aplicar um algoritmo de agrupamento

bull no caso unidimensional

bull Para cada grupo (cluster) atribuir um valor discreto

Transformar

Anaacutelise de Componentes Principais (PCA)

bull Dado um conjunto D com n instacircncias e p atributos (x1 x2 xp) uma transformaccedilatildeo linear para um novo conjunto de atributos z1 z2 zp pode ser calculada como

bull Componentes Principais (PCs) satildeo tipos especiacuteficos de combinaccedilotildees lineares que satildeo escolhidas de tal modo que zp (PCs) tenham as seguintes caracteriacutesticas

z1 = a11 x1 + a21 x2 + + ap1 xp

z2 = a12 x1 + a22 x2 + + ap2 xp

zp = a1p x1 + a2p x2 + + app xp

PCA Caracteriacutesticas

bull As p componentes principais (PC) satildeo natildeo-correlacionadas (independentes)

bull As PCs satildeo ordenadas de acordo com quantidade da variacircncia dos dados originais que elas contecircm (ordem decrescente)ndash A primeira PC ldquoexplicardquo (conteacutem) a maior porcentagem da

variabilidade do conjunto de dados originalndash A segunda PC define a proacutexima maior parte e assim por diantendash Em geral apenas algumas das primeiras PCs satildeo responsaacuteveis

pela maior parte da variabilidade do conjunto de dadosndash O restante das PCs tem uma contribuiccedilatildeo insignificante

bull PCA eacute usada em Aprendizado de Maacutequina principalmente para a reduccedilatildeo de dimensionalidade

PCA Caacutelculo

bull PCA pode reduzida ao problema de encontrar os auto-valores e auto-vetores da matriz de covariacircncia (ou correlaccedilatildeo) do conjunto de dados

bull A proporccedilatildeo da variacircncia do conjunto de dados originais explicada pela i-eacutesima PC eacute igual ao i-eacutesimo auto-valor divido pela soma de todos os p auto-valores

bull Ou seja as PCs satildeo ordenadas - decrescente - de acordo com os valores dos auto-valores

bull Quando os valores dos diferentes atributos estatildeo em diferentes escalas eacute preferiacutevel usar a matriz de correlaccedilatildeo em lugar da matriz de covariacircncia

Anaacutelise de Componentes Principais

bull Principais Limitaccedilotildees

ndash Assume apenas relaccedilotildees lineares entre os atributos

ndash A interpretaccedilatildeo dos resultados (eg classificador gerado) em termos dos atributos originais pode ficar mais difiacutecil

  • Slide 1
  • Slide 2
  • Slide 3
  • Slide 4
  • Slide 5
  • Slide 6
  • Slide 7
  • Slide 8
  • Slide 9
  • Slide 10
  • Slide 11
  • Slide 12
  • Slide 13
  • Slide 14
  • Slide 15
  • Slide 16
  • Slide 17
  • Slide 18
  • Slide 19
  • Slide 20
  • Slide 21
  • Slide 22
  • Slide 23
  • Slide 24
  • Slide 25
  • Slide 26
  • Slide 27
  • Slide 28
  • Slide 29
  • Slide 30
  • Slide 31
  • Slide 32
  • Slide 33
  • Slide 34
  • Slide 35
  • Slide 36
  • Slide 37
  • Slide 38
  • Slide 39
  • Slide 40
  • Slide 41
  • Slide 42
  • Slide 43
  • Slide 44
  • Slide 45
  • Slide 46
  • Slide 47
  • Slide 48
Page 12: Analise e Seleção de Variáveis. Tópicos Por que atributos irrelevantes são um problema Quais tipos de algoritmos de aprendizado são afetados Abordagens

Busca Heuriacutestica no Espaccedilo de Atributos

bull Busca para Frente (Seleccedilatildeo Forward)

ndash A busca eacute iniciada sem atributos e os mesmos satildeo adicionados um a um

ndash Cada atributo eacute adicionado isoladamente e o conjunto resultante eacute avaliado segundo um criteacuterio

ndash O atributo que produz o melhor criteacuterio eacute incorporado

Busca Heuriacutestica no Espaccedilo de Atributos

bull Busca para traacutes (Eliminaccedilao Backward) ndash Similar a Seleccedilatildeo Forward ndash Comeccedila com todo o conjunto de atributos eliminando

um atributo a cada passo

bull Tanto na Seleccedilatildeo Forward quanto na Eliminaccedilatildeo Backward pode-se adicionar um vieacutes por subconjuntos pequenosndash Por exemplo pode-se requerer natildeo apenas que a

medida de avaliaccedilatildeo crescer a cada passo mas que ela cresccedila mais que uma determinada constante

Busca Heuriacutestica no Espaccedilo de Atributos

bull Outros meacutetodos de busca

ndash Busca bidirecionalndash Best-first searchndash Beam searchndash Algoritmos geneacuteticosndash

Abordagens para Seleccedilatildeo de Atributos

bull Filtrosndash O processo de escolha do subconjunto

acontece antes do processo de aprendizado

bull Wrapperndash O processo de escolha do subconjunto de

atributos estaacute ldquoempacotadordquo junto com o algoritmo de aprendizado sendo utilizado

Analise e Seleccedilatildeo de Variaacuteveis

bull Meacutetodos Dependentes do Modelo (Wrapper)

bull Meacutetodos Independentes do Modelo (Filter)

Exemplo Filtros

bull Uso de uma indutor de aacutervores de decisatildeo (AD) como filtro para o k-NN

ndash 1) Aplique um indutor de AD para todo o conjunto de treinamento

ndash 2) Selecione o subconjunto de atributos que aparece na AD

ndash 3) Aplique o k-NN a apenas este subconjunto

bull A combinaccedilatildeo pode apresentar melhores resultados do que cada meacutetodo usando individualmente

Filtros

bull Abordagensndash baseada nas caracteriacutesticas gerais dos

dadosndash Encontrar o menor subconjunto que separe

os dadosndash Utilizar diferentes esquemas de aprendizado

bull Usar os atributos que aparecem no c45 1R

Wrapper

bull Busca para Frente (Seleccedilatildeo Forward) + Naive Bayes

ndash (1) Inicialize com o conjunto vazio S=ndash (2) Resultado_S=0ndash (2) Para cada atributo si que natildeo esteja em S

bull Avalie o resultado de (S U si ) Resultado_ si ndash (3) Considere o atributo com maior Resultado_ si

bull SE (Resultado_ si gt Resultado_S) ENTAO (S=S U si ) amp (Resultado_S= Resultado_ si )Volte para o Passo (2)SENAOPare

Transformaccedilatildeo de Dados

Discretizaccedilatildeo de Variaacuteveis Contiacutenuas

bull Transforma atributos contiacutenuos em atributos categoacutericos

bull Absolutamente essencial se o meacutetodo inteligente soacute manuseia atributos categoacutericos

bull Em alguns casos mesmo meacutetodos que manuseiam atributos contiacutenuos tecircm melhor desempenho com atributos categoacutericos

Discretizaccedilatildeo de Variaacuteveis Contiacutenuas

bull 1048673 Diversos meacutetodos de discretizaccedilatildeo

bull 1048673 Discretizaccedilatildeo pelo Meacutetodo 1R (1-rule)

bull 1048673 Discretizaccedilatildeo Natildeo-supervisionada

Discretizaccedilatildeo de Variaacuteveis Contiacutenuas

bull Discretizaccedilatildeo pelo Meacutetodo 1R (1-rule)bull Sub-produto de uma teacutecnica de extraccedilatildeo

automaacutetica de regrasbull Utiliza as classes de saiacuteda para discretizar

cada atributo de entrada separadamentebull Ex Base de dados hipoteacutetica de

meteorologia x decisatildeo de realizar ou natildeo um certo jogo

Discretizaccedilatildeo pelo Meacutetodo 1R (1-rule)

bull Base de Dados Meteoroloacutegicosbull Tempo Temperatura Umidade Vento Jogar (CLASSE)

Sol 85 85 Natildeo NatildeoSol 80 90 Sim NatildeoNublado 83 86 Natildeo SimChuva 70 96 Natildeo SimChuva 68 80 Natildeo SimChuva 65 70 Sim NatildeoNublado 64 65 Sim SimSol 72 95 Natildeo NatildeoSol 69 70 Natildeo SimChuva 75 80 Natildeo SimSol 75 70 Sim SimNublado 72 90 Sim SimNublado 81 75 Natildeo SimChuva 71 91 Sim Natildeo

Discretizaccedilatildeo pelo Meacutetodo 1R (1-rule)

Discretizaccedilatildeo de Variaacuteveis Contiacutenuas

bull Discretizaccedilatildeo Natildeo-Supervisionadandash O meacutetodo 1R eacute supervisionado Considera a

variaacutevel de saiacuteda (classe) na discretizaccedilatildeo

bull Meacutetodos Natildeo Supervisionados consideram somente o atributo a ser discretizadondash Satildeo a uacutenica opccedilatildeo no caso de problemas de

agrupamento (clustering) onde natildeo se conhecem as classes de saiacuteda

bull Trecircs abordagens baacutesicasndash Nuacutemero preacute-determinado de intervalos

bull uniformes (equal-interval binning)

ndash Nuacutemero uniforme de amostras por intervalobull (equal-frequency binning)

ndash Agrupamento (clustering) intervalos arbitraacuterios

Meacutetodos de Discretizaccedilatildeo Natildeo Supervisionada

bull Nuacutemero preacute-determinado de intervalos uniformesndash (equal-interval binning)

bull No exemplo (temperatura) 64 65 68 69 70 71 72 72 75 75 80 81 83 85bull Bins com largura 6 x le 60

60 lt x le 6666 lt x le 7272 lt x le 7878 lt x le 8484 lt x le 90

Meacutetodos de Discretizaccedilatildeo Natildeo Supervisionada

bull Nuacutemero preacute-determinado de intervalos uniformesndash (equal-interval binning)

bull No exemplo (temperatura)64 65 68 69 70 71 72 72 75 75 80 81 83 85

bull Bins com largura 6 x le 60 na60 lt x le 66 64 6566 lt x le 72 68 69 70 71 72 7272 lt x le 78 75 7578 lt x le 84 80 81 8384 lt x le 90 85

Meacutetodos de Discretizaccedilatildeo Natildeo Supervisionada

bull Equal-interval binning Problemasbull Como qualquer meacutetodo natildeo

supervisionado arrisca destruir distinccedilotildees uacuteteis devido a divisotildees muito grandes ou fronteiras inadequadas

bull Distribuiccedilatildeo das amostras muito irregular com algumas bins com muitas amostras e outras com poucas amostras

Meacutetodos de Discretizaccedilatildeo Natildeo Supervisionada

bull Nuacutemero uniforme de amostras por intervalondash (equal-frequency binning)

bull Tambeacutem chamado de equalizaccedilatildeo do histograma

bull Cada bin tem o mesmo nuacutemero aproximado de amostras

bull Histograma eacute planobull Heuriacutestica para o nuacutemero de bins radicNbull N = nuacutemero de amostras

Meacutetodos de Discretizaccedilatildeo Natildeo Supervisionada

bull Nuacutemero uniforme de amostras por intervalondash (equal-frequency binning)

bull No exemplo (temperatura)bull 64 65 68 69 |70 71 72 72 |75 75 80| 81 83 85bull 14 amostras 4 Bins

ndash x le 695 64 65 68 69ndash 695 lt x le 735 70 71 72 72ndash 735 lt x le 805 75 75 80ndash x gt 805 81 83 85

Meacutetodos de Discretizaccedilatildeo Natildeo Supervisionada

bull Agrupamento (Clustering)

bull Pode-se aplicar um algoritmo de agrupamento

bull no caso unidimensional

bull Para cada grupo (cluster) atribuir um valor discreto

Transformar

Anaacutelise de Componentes Principais (PCA)

bull Dado um conjunto D com n instacircncias e p atributos (x1 x2 xp) uma transformaccedilatildeo linear para um novo conjunto de atributos z1 z2 zp pode ser calculada como

bull Componentes Principais (PCs) satildeo tipos especiacuteficos de combinaccedilotildees lineares que satildeo escolhidas de tal modo que zp (PCs) tenham as seguintes caracteriacutesticas

z1 = a11 x1 + a21 x2 + + ap1 xp

z2 = a12 x1 + a22 x2 + + ap2 xp

zp = a1p x1 + a2p x2 + + app xp

PCA Caracteriacutesticas

bull As p componentes principais (PC) satildeo natildeo-correlacionadas (independentes)

bull As PCs satildeo ordenadas de acordo com quantidade da variacircncia dos dados originais que elas contecircm (ordem decrescente)ndash A primeira PC ldquoexplicardquo (conteacutem) a maior porcentagem da

variabilidade do conjunto de dados originalndash A segunda PC define a proacutexima maior parte e assim por diantendash Em geral apenas algumas das primeiras PCs satildeo responsaacuteveis

pela maior parte da variabilidade do conjunto de dadosndash O restante das PCs tem uma contribuiccedilatildeo insignificante

bull PCA eacute usada em Aprendizado de Maacutequina principalmente para a reduccedilatildeo de dimensionalidade

PCA Caacutelculo

bull PCA pode reduzida ao problema de encontrar os auto-valores e auto-vetores da matriz de covariacircncia (ou correlaccedilatildeo) do conjunto de dados

bull A proporccedilatildeo da variacircncia do conjunto de dados originais explicada pela i-eacutesima PC eacute igual ao i-eacutesimo auto-valor divido pela soma de todos os p auto-valores

bull Ou seja as PCs satildeo ordenadas - decrescente - de acordo com os valores dos auto-valores

bull Quando os valores dos diferentes atributos estatildeo em diferentes escalas eacute preferiacutevel usar a matriz de correlaccedilatildeo em lugar da matriz de covariacircncia

Anaacutelise de Componentes Principais

bull Principais Limitaccedilotildees

ndash Assume apenas relaccedilotildees lineares entre os atributos

ndash A interpretaccedilatildeo dos resultados (eg classificador gerado) em termos dos atributos originais pode ficar mais difiacutecil

  • Slide 1
  • Slide 2
  • Slide 3
  • Slide 4
  • Slide 5
  • Slide 6
  • Slide 7
  • Slide 8
  • Slide 9
  • Slide 10
  • Slide 11
  • Slide 12
  • Slide 13
  • Slide 14
  • Slide 15
  • Slide 16
  • Slide 17
  • Slide 18
  • Slide 19
  • Slide 20
  • Slide 21
  • Slide 22
  • Slide 23
  • Slide 24
  • Slide 25
  • Slide 26
  • Slide 27
  • Slide 28
  • Slide 29
  • Slide 30
  • Slide 31
  • Slide 32
  • Slide 33
  • Slide 34
  • Slide 35
  • Slide 36
  • Slide 37
  • Slide 38
  • Slide 39
  • Slide 40
  • Slide 41
  • Slide 42
  • Slide 43
  • Slide 44
  • Slide 45
  • Slide 46
  • Slide 47
  • Slide 48
Page 13: Analise e Seleção de Variáveis. Tópicos Por que atributos irrelevantes são um problema Quais tipos de algoritmos de aprendizado são afetados Abordagens

Busca Heuriacutestica no Espaccedilo de Atributos

bull Busca para traacutes (Eliminaccedilao Backward) ndash Similar a Seleccedilatildeo Forward ndash Comeccedila com todo o conjunto de atributos eliminando

um atributo a cada passo

bull Tanto na Seleccedilatildeo Forward quanto na Eliminaccedilatildeo Backward pode-se adicionar um vieacutes por subconjuntos pequenosndash Por exemplo pode-se requerer natildeo apenas que a

medida de avaliaccedilatildeo crescer a cada passo mas que ela cresccedila mais que uma determinada constante

Busca Heuriacutestica no Espaccedilo de Atributos

bull Outros meacutetodos de busca

ndash Busca bidirecionalndash Best-first searchndash Beam searchndash Algoritmos geneacuteticosndash

Abordagens para Seleccedilatildeo de Atributos

bull Filtrosndash O processo de escolha do subconjunto

acontece antes do processo de aprendizado

bull Wrapperndash O processo de escolha do subconjunto de

atributos estaacute ldquoempacotadordquo junto com o algoritmo de aprendizado sendo utilizado

Analise e Seleccedilatildeo de Variaacuteveis

bull Meacutetodos Dependentes do Modelo (Wrapper)

bull Meacutetodos Independentes do Modelo (Filter)

Exemplo Filtros

bull Uso de uma indutor de aacutervores de decisatildeo (AD) como filtro para o k-NN

ndash 1) Aplique um indutor de AD para todo o conjunto de treinamento

ndash 2) Selecione o subconjunto de atributos que aparece na AD

ndash 3) Aplique o k-NN a apenas este subconjunto

bull A combinaccedilatildeo pode apresentar melhores resultados do que cada meacutetodo usando individualmente

Filtros

bull Abordagensndash baseada nas caracteriacutesticas gerais dos

dadosndash Encontrar o menor subconjunto que separe

os dadosndash Utilizar diferentes esquemas de aprendizado

bull Usar os atributos que aparecem no c45 1R

Wrapper

bull Busca para Frente (Seleccedilatildeo Forward) + Naive Bayes

ndash (1) Inicialize com o conjunto vazio S=ndash (2) Resultado_S=0ndash (2) Para cada atributo si que natildeo esteja em S

bull Avalie o resultado de (S U si ) Resultado_ si ndash (3) Considere o atributo com maior Resultado_ si

bull SE (Resultado_ si gt Resultado_S) ENTAO (S=S U si ) amp (Resultado_S= Resultado_ si )Volte para o Passo (2)SENAOPare

Transformaccedilatildeo de Dados

Discretizaccedilatildeo de Variaacuteveis Contiacutenuas

bull Transforma atributos contiacutenuos em atributos categoacutericos

bull Absolutamente essencial se o meacutetodo inteligente soacute manuseia atributos categoacutericos

bull Em alguns casos mesmo meacutetodos que manuseiam atributos contiacutenuos tecircm melhor desempenho com atributos categoacutericos

Discretizaccedilatildeo de Variaacuteveis Contiacutenuas

bull 1048673 Diversos meacutetodos de discretizaccedilatildeo

bull 1048673 Discretizaccedilatildeo pelo Meacutetodo 1R (1-rule)

bull 1048673 Discretizaccedilatildeo Natildeo-supervisionada

Discretizaccedilatildeo de Variaacuteveis Contiacutenuas

bull Discretizaccedilatildeo pelo Meacutetodo 1R (1-rule)bull Sub-produto de uma teacutecnica de extraccedilatildeo

automaacutetica de regrasbull Utiliza as classes de saiacuteda para discretizar

cada atributo de entrada separadamentebull Ex Base de dados hipoteacutetica de

meteorologia x decisatildeo de realizar ou natildeo um certo jogo

Discretizaccedilatildeo pelo Meacutetodo 1R (1-rule)

bull Base de Dados Meteoroloacutegicosbull Tempo Temperatura Umidade Vento Jogar (CLASSE)

Sol 85 85 Natildeo NatildeoSol 80 90 Sim NatildeoNublado 83 86 Natildeo SimChuva 70 96 Natildeo SimChuva 68 80 Natildeo SimChuva 65 70 Sim NatildeoNublado 64 65 Sim SimSol 72 95 Natildeo NatildeoSol 69 70 Natildeo SimChuva 75 80 Natildeo SimSol 75 70 Sim SimNublado 72 90 Sim SimNublado 81 75 Natildeo SimChuva 71 91 Sim Natildeo

Discretizaccedilatildeo pelo Meacutetodo 1R (1-rule)

Discretizaccedilatildeo de Variaacuteveis Contiacutenuas

bull Discretizaccedilatildeo Natildeo-Supervisionadandash O meacutetodo 1R eacute supervisionado Considera a

variaacutevel de saiacuteda (classe) na discretizaccedilatildeo

bull Meacutetodos Natildeo Supervisionados consideram somente o atributo a ser discretizadondash Satildeo a uacutenica opccedilatildeo no caso de problemas de

agrupamento (clustering) onde natildeo se conhecem as classes de saiacuteda

bull Trecircs abordagens baacutesicasndash Nuacutemero preacute-determinado de intervalos

bull uniformes (equal-interval binning)

ndash Nuacutemero uniforme de amostras por intervalobull (equal-frequency binning)

ndash Agrupamento (clustering) intervalos arbitraacuterios

Meacutetodos de Discretizaccedilatildeo Natildeo Supervisionada

bull Nuacutemero preacute-determinado de intervalos uniformesndash (equal-interval binning)

bull No exemplo (temperatura) 64 65 68 69 70 71 72 72 75 75 80 81 83 85bull Bins com largura 6 x le 60

60 lt x le 6666 lt x le 7272 lt x le 7878 lt x le 8484 lt x le 90

Meacutetodos de Discretizaccedilatildeo Natildeo Supervisionada

bull Nuacutemero preacute-determinado de intervalos uniformesndash (equal-interval binning)

bull No exemplo (temperatura)64 65 68 69 70 71 72 72 75 75 80 81 83 85

bull Bins com largura 6 x le 60 na60 lt x le 66 64 6566 lt x le 72 68 69 70 71 72 7272 lt x le 78 75 7578 lt x le 84 80 81 8384 lt x le 90 85

Meacutetodos de Discretizaccedilatildeo Natildeo Supervisionada

bull Equal-interval binning Problemasbull Como qualquer meacutetodo natildeo

supervisionado arrisca destruir distinccedilotildees uacuteteis devido a divisotildees muito grandes ou fronteiras inadequadas

bull Distribuiccedilatildeo das amostras muito irregular com algumas bins com muitas amostras e outras com poucas amostras

Meacutetodos de Discretizaccedilatildeo Natildeo Supervisionada

bull Nuacutemero uniforme de amostras por intervalondash (equal-frequency binning)

bull Tambeacutem chamado de equalizaccedilatildeo do histograma

bull Cada bin tem o mesmo nuacutemero aproximado de amostras

bull Histograma eacute planobull Heuriacutestica para o nuacutemero de bins radicNbull N = nuacutemero de amostras

Meacutetodos de Discretizaccedilatildeo Natildeo Supervisionada

bull Nuacutemero uniforme de amostras por intervalondash (equal-frequency binning)

bull No exemplo (temperatura)bull 64 65 68 69 |70 71 72 72 |75 75 80| 81 83 85bull 14 amostras 4 Bins

ndash x le 695 64 65 68 69ndash 695 lt x le 735 70 71 72 72ndash 735 lt x le 805 75 75 80ndash x gt 805 81 83 85

Meacutetodos de Discretizaccedilatildeo Natildeo Supervisionada

bull Agrupamento (Clustering)

bull Pode-se aplicar um algoritmo de agrupamento

bull no caso unidimensional

bull Para cada grupo (cluster) atribuir um valor discreto

Transformar

Anaacutelise de Componentes Principais (PCA)

bull Dado um conjunto D com n instacircncias e p atributos (x1 x2 xp) uma transformaccedilatildeo linear para um novo conjunto de atributos z1 z2 zp pode ser calculada como

bull Componentes Principais (PCs) satildeo tipos especiacuteficos de combinaccedilotildees lineares que satildeo escolhidas de tal modo que zp (PCs) tenham as seguintes caracteriacutesticas

z1 = a11 x1 + a21 x2 + + ap1 xp

z2 = a12 x1 + a22 x2 + + ap2 xp

zp = a1p x1 + a2p x2 + + app xp

PCA Caracteriacutesticas

bull As p componentes principais (PC) satildeo natildeo-correlacionadas (independentes)

bull As PCs satildeo ordenadas de acordo com quantidade da variacircncia dos dados originais que elas contecircm (ordem decrescente)ndash A primeira PC ldquoexplicardquo (conteacutem) a maior porcentagem da

variabilidade do conjunto de dados originalndash A segunda PC define a proacutexima maior parte e assim por diantendash Em geral apenas algumas das primeiras PCs satildeo responsaacuteveis

pela maior parte da variabilidade do conjunto de dadosndash O restante das PCs tem uma contribuiccedilatildeo insignificante

bull PCA eacute usada em Aprendizado de Maacutequina principalmente para a reduccedilatildeo de dimensionalidade

PCA Caacutelculo

bull PCA pode reduzida ao problema de encontrar os auto-valores e auto-vetores da matriz de covariacircncia (ou correlaccedilatildeo) do conjunto de dados

bull A proporccedilatildeo da variacircncia do conjunto de dados originais explicada pela i-eacutesima PC eacute igual ao i-eacutesimo auto-valor divido pela soma de todos os p auto-valores

bull Ou seja as PCs satildeo ordenadas - decrescente - de acordo com os valores dos auto-valores

bull Quando os valores dos diferentes atributos estatildeo em diferentes escalas eacute preferiacutevel usar a matriz de correlaccedilatildeo em lugar da matriz de covariacircncia

Anaacutelise de Componentes Principais

bull Principais Limitaccedilotildees

ndash Assume apenas relaccedilotildees lineares entre os atributos

ndash A interpretaccedilatildeo dos resultados (eg classificador gerado) em termos dos atributos originais pode ficar mais difiacutecil

  • Slide 1
  • Slide 2
  • Slide 3
  • Slide 4
  • Slide 5
  • Slide 6
  • Slide 7
  • Slide 8
  • Slide 9
  • Slide 10
  • Slide 11
  • Slide 12
  • Slide 13
  • Slide 14
  • Slide 15
  • Slide 16
  • Slide 17
  • Slide 18
  • Slide 19
  • Slide 20
  • Slide 21
  • Slide 22
  • Slide 23
  • Slide 24
  • Slide 25
  • Slide 26
  • Slide 27
  • Slide 28
  • Slide 29
  • Slide 30
  • Slide 31
  • Slide 32
  • Slide 33
  • Slide 34
  • Slide 35
  • Slide 36
  • Slide 37
  • Slide 38
  • Slide 39
  • Slide 40
  • Slide 41
  • Slide 42
  • Slide 43
  • Slide 44
  • Slide 45
  • Slide 46
  • Slide 47
  • Slide 48
Page 14: Analise e Seleção de Variáveis. Tópicos Por que atributos irrelevantes são um problema Quais tipos de algoritmos de aprendizado são afetados Abordagens

Busca Heuriacutestica no Espaccedilo de Atributos

bull Outros meacutetodos de busca

ndash Busca bidirecionalndash Best-first searchndash Beam searchndash Algoritmos geneacuteticosndash

Abordagens para Seleccedilatildeo de Atributos

bull Filtrosndash O processo de escolha do subconjunto

acontece antes do processo de aprendizado

bull Wrapperndash O processo de escolha do subconjunto de

atributos estaacute ldquoempacotadordquo junto com o algoritmo de aprendizado sendo utilizado

Analise e Seleccedilatildeo de Variaacuteveis

bull Meacutetodos Dependentes do Modelo (Wrapper)

bull Meacutetodos Independentes do Modelo (Filter)

Exemplo Filtros

bull Uso de uma indutor de aacutervores de decisatildeo (AD) como filtro para o k-NN

ndash 1) Aplique um indutor de AD para todo o conjunto de treinamento

ndash 2) Selecione o subconjunto de atributos que aparece na AD

ndash 3) Aplique o k-NN a apenas este subconjunto

bull A combinaccedilatildeo pode apresentar melhores resultados do que cada meacutetodo usando individualmente

Filtros

bull Abordagensndash baseada nas caracteriacutesticas gerais dos

dadosndash Encontrar o menor subconjunto que separe

os dadosndash Utilizar diferentes esquemas de aprendizado

bull Usar os atributos que aparecem no c45 1R

Wrapper

bull Busca para Frente (Seleccedilatildeo Forward) + Naive Bayes

ndash (1) Inicialize com o conjunto vazio S=ndash (2) Resultado_S=0ndash (2) Para cada atributo si que natildeo esteja em S

bull Avalie o resultado de (S U si ) Resultado_ si ndash (3) Considere o atributo com maior Resultado_ si

bull SE (Resultado_ si gt Resultado_S) ENTAO (S=S U si ) amp (Resultado_S= Resultado_ si )Volte para o Passo (2)SENAOPare

Transformaccedilatildeo de Dados

Discretizaccedilatildeo de Variaacuteveis Contiacutenuas

bull Transforma atributos contiacutenuos em atributos categoacutericos

bull Absolutamente essencial se o meacutetodo inteligente soacute manuseia atributos categoacutericos

bull Em alguns casos mesmo meacutetodos que manuseiam atributos contiacutenuos tecircm melhor desempenho com atributos categoacutericos

Discretizaccedilatildeo de Variaacuteveis Contiacutenuas

bull 1048673 Diversos meacutetodos de discretizaccedilatildeo

bull 1048673 Discretizaccedilatildeo pelo Meacutetodo 1R (1-rule)

bull 1048673 Discretizaccedilatildeo Natildeo-supervisionada

Discretizaccedilatildeo de Variaacuteveis Contiacutenuas

bull Discretizaccedilatildeo pelo Meacutetodo 1R (1-rule)bull Sub-produto de uma teacutecnica de extraccedilatildeo

automaacutetica de regrasbull Utiliza as classes de saiacuteda para discretizar

cada atributo de entrada separadamentebull Ex Base de dados hipoteacutetica de

meteorologia x decisatildeo de realizar ou natildeo um certo jogo

Discretizaccedilatildeo pelo Meacutetodo 1R (1-rule)

bull Base de Dados Meteoroloacutegicosbull Tempo Temperatura Umidade Vento Jogar (CLASSE)

Sol 85 85 Natildeo NatildeoSol 80 90 Sim NatildeoNublado 83 86 Natildeo SimChuva 70 96 Natildeo SimChuva 68 80 Natildeo SimChuva 65 70 Sim NatildeoNublado 64 65 Sim SimSol 72 95 Natildeo NatildeoSol 69 70 Natildeo SimChuva 75 80 Natildeo SimSol 75 70 Sim SimNublado 72 90 Sim SimNublado 81 75 Natildeo SimChuva 71 91 Sim Natildeo

Discretizaccedilatildeo pelo Meacutetodo 1R (1-rule)

Discretizaccedilatildeo de Variaacuteveis Contiacutenuas

bull Discretizaccedilatildeo Natildeo-Supervisionadandash O meacutetodo 1R eacute supervisionado Considera a

variaacutevel de saiacuteda (classe) na discretizaccedilatildeo

bull Meacutetodos Natildeo Supervisionados consideram somente o atributo a ser discretizadondash Satildeo a uacutenica opccedilatildeo no caso de problemas de

agrupamento (clustering) onde natildeo se conhecem as classes de saiacuteda

bull Trecircs abordagens baacutesicasndash Nuacutemero preacute-determinado de intervalos

bull uniformes (equal-interval binning)

ndash Nuacutemero uniforme de amostras por intervalobull (equal-frequency binning)

ndash Agrupamento (clustering) intervalos arbitraacuterios

Meacutetodos de Discretizaccedilatildeo Natildeo Supervisionada

bull Nuacutemero preacute-determinado de intervalos uniformesndash (equal-interval binning)

bull No exemplo (temperatura) 64 65 68 69 70 71 72 72 75 75 80 81 83 85bull Bins com largura 6 x le 60

60 lt x le 6666 lt x le 7272 lt x le 7878 lt x le 8484 lt x le 90

Meacutetodos de Discretizaccedilatildeo Natildeo Supervisionada

bull Nuacutemero preacute-determinado de intervalos uniformesndash (equal-interval binning)

bull No exemplo (temperatura)64 65 68 69 70 71 72 72 75 75 80 81 83 85

bull Bins com largura 6 x le 60 na60 lt x le 66 64 6566 lt x le 72 68 69 70 71 72 7272 lt x le 78 75 7578 lt x le 84 80 81 8384 lt x le 90 85

Meacutetodos de Discretizaccedilatildeo Natildeo Supervisionada

bull Equal-interval binning Problemasbull Como qualquer meacutetodo natildeo

supervisionado arrisca destruir distinccedilotildees uacuteteis devido a divisotildees muito grandes ou fronteiras inadequadas

bull Distribuiccedilatildeo das amostras muito irregular com algumas bins com muitas amostras e outras com poucas amostras

Meacutetodos de Discretizaccedilatildeo Natildeo Supervisionada

bull Nuacutemero uniforme de amostras por intervalondash (equal-frequency binning)

bull Tambeacutem chamado de equalizaccedilatildeo do histograma

bull Cada bin tem o mesmo nuacutemero aproximado de amostras

bull Histograma eacute planobull Heuriacutestica para o nuacutemero de bins radicNbull N = nuacutemero de amostras

Meacutetodos de Discretizaccedilatildeo Natildeo Supervisionada

bull Nuacutemero uniforme de amostras por intervalondash (equal-frequency binning)

bull No exemplo (temperatura)bull 64 65 68 69 |70 71 72 72 |75 75 80| 81 83 85bull 14 amostras 4 Bins

ndash x le 695 64 65 68 69ndash 695 lt x le 735 70 71 72 72ndash 735 lt x le 805 75 75 80ndash x gt 805 81 83 85

Meacutetodos de Discretizaccedilatildeo Natildeo Supervisionada

bull Agrupamento (Clustering)

bull Pode-se aplicar um algoritmo de agrupamento

bull no caso unidimensional

bull Para cada grupo (cluster) atribuir um valor discreto

Transformar

Anaacutelise de Componentes Principais (PCA)

bull Dado um conjunto D com n instacircncias e p atributos (x1 x2 xp) uma transformaccedilatildeo linear para um novo conjunto de atributos z1 z2 zp pode ser calculada como

bull Componentes Principais (PCs) satildeo tipos especiacuteficos de combinaccedilotildees lineares que satildeo escolhidas de tal modo que zp (PCs) tenham as seguintes caracteriacutesticas

z1 = a11 x1 + a21 x2 + + ap1 xp

z2 = a12 x1 + a22 x2 + + ap2 xp

zp = a1p x1 + a2p x2 + + app xp

PCA Caracteriacutesticas

bull As p componentes principais (PC) satildeo natildeo-correlacionadas (independentes)

bull As PCs satildeo ordenadas de acordo com quantidade da variacircncia dos dados originais que elas contecircm (ordem decrescente)ndash A primeira PC ldquoexplicardquo (conteacutem) a maior porcentagem da

variabilidade do conjunto de dados originalndash A segunda PC define a proacutexima maior parte e assim por diantendash Em geral apenas algumas das primeiras PCs satildeo responsaacuteveis

pela maior parte da variabilidade do conjunto de dadosndash O restante das PCs tem uma contribuiccedilatildeo insignificante

bull PCA eacute usada em Aprendizado de Maacutequina principalmente para a reduccedilatildeo de dimensionalidade

PCA Caacutelculo

bull PCA pode reduzida ao problema de encontrar os auto-valores e auto-vetores da matriz de covariacircncia (ou correlaccedilatildeo) do conjunto de dados

bull A proporccedilatildeo da variacircncia do conjunto de dados originais explicada pela i-eacutesima PC eacute igual ao i-eacutesimo auto-valor divido pela soma de todos os p auto-valores

bull Ou seja as PCs satildeo ordenadas - decrescente - de acordo com os valores dos auto-valores

bull Quando os valores dos diferentes atributos estatildeo em diferentes escalas eacute preferiacutevel usar a matriz de correlaccedilatildeo em lugar da matriz de covariacircncia

Anaacutelise de Componentes Principais

bull Principais Limitaccedilotildees

ndash Assume apenas relaccedilotildees lineares entre os atributos

ndash A interpretaccedilatildeo dos resultados (eg classificador gerado) em termos dos atributos originais pode ficar mais difiacutecil

  • Slide 1
  • Slide 2
  • Slide 3
  • Slide 4
  • Slide 5
  • Slide 6
  • Slide 7
  • Slide 8
  • Slide 9
  • Slide 10
  • Slide 11
  • Slide 12
  • Slide 13
  • Slide 14
  • Slide 15
  • Slide 16
  • Slide 17
  • Slide 18
  • Slide 19
  • Slide 20
  • Slide 21
  • Slide 22
  • Slide 23
  • Slide 24
  • Slide 25
  • Slide 26
  • Slide 27
  • Slide 28
  • Slide 29
  • Slide 30
  • Slide 31
  • Slide 32
  • Slide 33
  • Slide 34
  • Slide 35
  • Slide 36
  • Slide 37
  • Slide 38
  • Slide 39
  • Slide 40
  • Slide 41
  • Slide 42
  • Slide 43
  • Slide 44
  • Slide 45
  • Slide 46
  • Slide 47
  • Slide 48
Page 15: Analise e Seleção de Variáveis. Tópicos Por que atributos irrelevantes são um problema Quais tipos de algoritmos de aprendizado são afetados Abordagens

Abordagens para Seleccedilatildeo de Atributos

bull Filtrosndash O processo de escolha do subconjunto

acontece antes do processo de aprendizado

bull Wrapperndash O processo de escolha do subconjunto de

atributos estaacute ldquoempacotadordquo junto com o algoritmo de aprendizado sendo utilizado

Analise e Seleccedilatildeo de Variaacuteveis

bull Meacutetodos Dependentes do Modelo (Wrapper)

bull Meacutetodos Independentes do Modelo (Filter)

Exemplo Filtros

bull Uso de uma indutor de aacutervores de decisatildeo (AD) como filtro para o k-NN

ndash 1) Aplique um indutor de AD para todo o conjunto de treinamento

ndash 2) Selecione o subconjunto de atributos que aparece na AD

ndash 3) Aplique o k-NN a apenas este subconjunto

bull A combinaccedilatildeo pode apresentar melhores resultados do que cada meacutetodo usando individualmente

Filtros

bull Abordagensndash baseada nas caracteriacutesticas gerais dos

dadosndash Encontrar o menor subconjunto que separe

os dadosndash Utilizar diferentes esquemas de aprendizado

bull Usar os atributos que aparecem no c45 1R

Wrapper

bull Busca para Frente (Seleccedilatildeo Forward) + Naive Bayes

ndash (1) Inicialize com o conjunto vazio S=ndash (2) Resultado_S=0ndash (2) Para cada atributo si que natildeo esteja em S

bull Avalie o resultado de (S U si ) Resultado_ si ndash (3) Considere o atributo com maior Resultado_ si

bull SE (Resultado_ si gt Resultado_S) ENTAO (S=S U si ) amp (Resultado_S= Resultado_ si )Volte para o Passo (2)SENAOPare

Transformaccedilatildeo de Dados

Discretizaccedilatildeo de Variaacuteveis Contiacutenuas

bull Transforma atributos contiacutenuos em atributos categoacutericos

bull Absolutamente essencial se o meacutetodo inteligente soacute manuseia atributos categoacutericos

bull Em alguns casos mesmo meacutetodos que manuseiam atributos contiacutenuos tecircm melhor desempenho com atributos categoacutericos

Discretizaccedilatildeo de Variaacuteveis Contiacutenuas

bull 1048673 Diversos meacutetodos de discretizaccedilatildeo

bull 1048673 Discretizaccedilatildeo pelo Meacutetodo 1R (1-rule)

bull 1048673 Discretizaccedilatildeo Natildeo-supervisionada

Discretizaccedilatildeo de Variaacuteveis Contiacutenuas

bull Discretizaccedilatildeo pelo Meacutetodo 1R (1-rule)bull Sub-produto de uma teacutecnica de extraccedilatildeo

automaacutetica de regrasbull Utiliza as classes de saiacuteda para discretizar

cada atributo de entrada separadamentebull Ex Base de dados hipoteacutetica de

meteorologia x decisatildeo de realizar ou natildeo um certo jogo

Discretizaccedilatildeo pelo Meacutetodo 1R (1-rule)

bull Base de Dados Meteoroloacutegicosbull Tempo Temperatura Umidade Vento Jogar (CLASSE)

Sol 85 85 Natildeo NatildeoSol 80 90 Sim NatildeoNublado 83 86 Natildeo SimChuva 70 96 Natildeo SimChuva 68 80 Natildeo SimChuva 65 70 Sim NatildeoNublado 64 65 Sim SimSol 72 95 Natildeo NatildeoSol 69 70 Natildeo SimChuva 75 80 Natildeo SimSol 75 70 Sim SimNublado 72 90 Sim SimNublado 81 75 Natildeo SimChuva 71 91 Sim Natildeo

Discretizaccedilatildeo pelo Meacutetodo 1R (1-rule)

Discretizaccedilatildeo de Variaacuteveis Contiacutenuas

bull Discretizaccedilatildeo Natildeo-Supervisionadandash O meacutetodo 1R eacute supervisionado Considera a

variaacutevel de saiacuteda (classe) na discretizaccedilatildeo

bull Meacutetodos Natildeo Supervisionados consideram somente o atributo a ser discretizadondash Satildeo a uacutenica opccedilatildeo no caso de problemas de

agrupamento (clustering) onde natildeo se conhecem as classes de saiacuteda

bull Trecircs abordagens baacutesicasndash Nuacutemero preacute-determinado de intervalos

bull uniformes (equal-interval binning)

ndash Nuacutemero uniforme de amostras por intervalobull (equal-frequency binning)

ndash Agrupamento (clustering) intervalos arbitraacuterios

Meacutetodos de Discretizaccedilatildeo Natildeo Supervisionada

bull Nuacutemero preacute-determinado de intervalos uniformesndash (equal-interval binning)

bull No exemplo (temperatura) 64 65 68 69 70 71 72 72 75 75 80 81 83 85bull Bins com largura 6 x le 60

60 lt x le 6666 lt x le 7272 lt x le 7878 lt x le 8484 lt x le 90

Meacutetodos de Discretizaccedilatildeo Natildeo Supervisionada

bull Nuacutemero preacute-determinado de intervalos uniformesndash (equal-interval binning)

bull No exemplo (temperatura)64 65 68 69 70 71 72 72 75 75 80 81 83 85

bull Bins com largura 6 x le 60 na60 lt x le 66 64 6566 lt x le 72 68 69 70 71 72 7272 lt x le 78 75 7578 lt x le 84 80 81 8384 lt x le 90 85

Meacutetodos de Discretizaccedilatildeo Natildeo Supervisionada

bull Equal-interval binning Problemasbull Como qualquer meacutetodo natildeo

supervisionado arrisca destruir distinccedilotildees uacuteteis devido a divisotildees muito grandes ou fronteiras inadequadas

bull Distribuiccedilatildeo das amostras muito irregular com algumas bins com muitas amostras e outras com poucas amostras

Meacutetodos de Discretizaccedilatildeo Natildeo Supervisionada

bull Nuacutemero uniforme de amostras por intervalondash (equal-frequency binning)

bull Tambeacutem chamado de equalizaccedilatildeo do histograma

bull Cada bin tem o mesmo nuacutemero aproximado de amostras

bull Histograma eacute planobull Heuriacutestica para o nuacutemero de bins radicNbull N = nuacutemero de amostras

Meacutetodos de Discretizaccedilatildeo Natildeo Supervisionada

bull Nuacutemero uniforme de amostras por intervalondash (equal-frequency binning)

bull No exemplo (temperatura)bull 64 65 68 69 |70 71 72 72 |75 75 80| 81 83 85bull 14 amostras 4 Bins

ndash x le 695 64 65 68 69ndash 695 lt x le 735 70 71 72 72ndash 735 lt x le 805 75 75 80ndash x gt 805 81 83 85

Meacutetodos de Discretizaccedilatildeo Natildeo Supervisionada

bull Agrupamento (Clustering)

bull Pode-se aplicar um algoritmo de agrupamento

bull no caso unidimensional

bull Para cada grupo (cluster) atribuir um valor discreto

Transformar

Anaacutelise de Componentes Principais (PCA)

bull Dado um conjunto D com n instacircncias e p atributos (x1 x2 xp) uma transformaccedilatildeo linear para um novo conjunto de atributos z1 z2 zp pode ser calculada como

bull Componentes Principais (PCs) satildeo tipos especiacuteficos de combinaccedilotildees lineares que satildeo escolhidas de tal modo que zp (PCs) tenham as seguintes caracteriacutesticas

z1 = a11 x1 + a21 x2 + + ap1 xp

z2 = a12 x1 + a22 x2 + + ap2 xp

zp = a1p x1 + a2p x2 + + app xp

PCA Caracteriacutesticas

bull As p componentes principais (PC) satildeo natildeo-correlacionadas (independentes)

bull As PCs satildeo ordenadas de acordo com quantidade da variacircncia dos dados originais que elas contecircm (ordem decrescente)ndash A primeira PC ldquoexplicardquo (conteacutem) a maior porcentagem da

variabilidade do conjunto de dados originalndash A segunda PC define a proacutexima maior parte e assim por diantendash Em geral apenas algumas das primeiras PCs satildeo responsaacuteveis

pela maior parte da variabilidade do conjunto de dadosndash O restante das PCs tem uma contribuiccedilatildeo insignificante

bull PCA eacute usada em Aprendizado de Maacutequina principalmente para a reduccedilatildeo de dimensionalidade

PCA Caacutelculo

bull PCA pode reduzida ao problema de encontrar os auto-valores e auto-vetores da matriz de covariacircncia (ou correlaccedilatildeo) do conjunto de dados

bull A proporccedilatildeo da variacircncia do conjunto de dados originais explicada pela i-eacutesima PC eacute igual ao i-eacutesimo auto-valor divido pela soma de todos os p auto-valores

bull Ou seja as PCs satildeo ordenadas - decrescente - de acordo com os valores dos auto-valores

bull Quando os valores dos diferentes atributos estatildeo em diferentes escalas eacute preferiacutevel usar a matriz de correlaccedilatildeo em lugar da matriz de covariacircncia

Anaacutelise de Componentes Principais

bull Principais Limitaccedilotildees

ndash Assume apenas relaccedilotildees lineares entre os atributos

ndash A interpretaccedilatildeo dos resultados (eg classificador gerado) em termos dos atributos originais pode ficar mais difiacutecil

  • Slide 1
  • Slide 2
  • Slide 3
  • Slide 4
  • Slide 5
  • Slide 6
  • Slide 7
  • Slide 8
  • Slide 9
  • Slide 10
  • Slide 11
  • Slide 12
  • Slide 13
  • Slide 14
  • Slide 15
  • Slide 16
  • Slide 17
  • Slide 18
  • Slide 19
  • Slide 20
  • Slide 21
  • Slide 22
  • Slide 23
  • Slide 24
  • Slide 25
  • Slide 26
  • Slide 27
  • Slide 28
  • Slide 29
  • Slide 30
  • Slide 31
  • Slide 32
  • Slide 33
  • Slide 34
  • Slide 35
  • Slide 36
  • Slide 37
  • Slide 38
  • Slide 39
  • Slide 40
  • Slide 41
  • Slide 42
  • Slide 43
  • Slide 44
  • Slide 45
  • Slide 46
  • Slide 47
  • Slide 48
Page 16: Analise e Seleção de Variáveis. Tópicos Por que atributos irrelevantes são um problema Quais tipos de algoritmos de aprendizado são afetados Abordagens

Analise e Seleccedilatildeo de Variaacuteveis

bull Meacutetodos Dependentes do Modelo (Wrapper)

bull Meacutetodos Independentes do Modelo (Filter)

Exemplo Filtros

bull Uso de uma indutor de aacutervores de decisatildeo (AD) como filtro para o k-NN

ndash 1) Aplique um indutor de AD para todo o conjunto de treinamento

ndash 2) Selecione o subconjunto de atributos que aparece na AD

ndash 3) Aplique o k-NN a apenas este subconjunto

bull A combinaccedilatildeo pode apresentar melhores resultados do que cada meacutetodo usando individualmente

Filtros

bull Abordagensndash baseada nas caracteriacutesticas gerais dos

dadosndash Encontrar o menor subconjunto que separe

os dadosndash Utilizar diferentes esquemas de aprendizado

bull Usar os atributos que aparecem no c45 1R

Wrapper

bull Busca para Frente (Seleccedilatildeo Forward) + Naive Bayes

ndash (1) Inicialize com o conjunto vazio S=ndash (2) Resultado_S=0ndash (2) Para cada atributo si que natildeo esteja em S

bull Avalie o resultado de (S U si ) Resultado_ si ndash (3) Considere o atributo com maior Resultado_ si

bull SE (Resultado_ si gt Resultado_S) ENTAO (S=S U si ) amp (Resultado_S= Resultado_ si )Volte para o Passo (2)SENAOPare

Transformaccedilatildeo de Dados

Discretizaccedilatildeo de Variaacuteveis Contiacutenuas

bull Transforma atributos contiacutenuos em atributos categoacutericos

bull Absolutamente essencial se o meacutetodo inteligente soacute manuseia atributos categoacutericos

bull Em alguns casos mesmo meacutetodos que manuseiam atributos contiacutenuos tecircm melhor desempenho com atributos categoacutericos

Discretizaccedilatildeo de Variaacuteveis Contiacutenuas

bull 1048673 Diversos meacutetodos de discretizaccedilatildeo

bull 1048673 Discretizaccedilatildeo pelo Meacutetodo 1R (1-rule)

bull 1048673 Discretizaccedilatildeo Natildeo-supervisionada

Discretizaccedilatildeo de Variaacuteveis Contiacutenuas

bull Discretizaccedilatildeo pelo Meacutetodo 1R (1-rule)bull Sub-produto de uma teacutecnica de extraccedilatildeo

automaacutetica de regrasbull Utiliza as classes de saiacuteda para discretizar

cada atributo de entrada separadamentebull Ex Base de dados hipoteacutetica de

meteorologia x decisatildeo de realizar ou natildeo um certo jogo

Discretizaccedilatildeo pelo Meacutetodo 1R (1-rule)

bull Base de Dados Meteoroloacutegicosbull Tempo Temperatura Umidade Vento Jogar (CLASSE)

Sol 85 85 Natildeo NatildeoSol 80 90 Sim NatildeoNublado 83 86 Natildeo SimChuva 70 96 Natildeo SimChuva 68 80 Natildeo SimChuva 65 70 Sim NatildeoNublado 64 65 Sim SimSol 72 95 Natildeo NatildeoSol 69 70 Natildeo SimChuva 75 80 Natildeo SimSol 75 70 Sim SimNublado 72 90 Sim SimNublado 81 75 Natildeo SimChuva 71 91 Sim Natildeo

Discretizaccedilatildeo pelo Meacutetodo 1R (1-rule)

Discretizaccedilatildeo de Variaacuteveis Contiacutenuas

bull Discretizaccedilatildeo Natildeo-Supervisionadandash O meacutetodo 1R eacute supervisionado Considera a

variaacutevel de saiacuteda (classe) na discretizaccedilatildeo

bull Meacutetodos Natildeo Supervisionados consideram somente o atributo a ser discretizadondash Satildeo a uacutenica opccedilatildeo no caso de problemas de

agrupamento (clustering) onde natildeo se conhecem as classes de saiacuteda

bull Trecircs abordagens baacutesicasndash Nuacutemero preacute-determinado de intervalos

bull uniformes (equal-interval binning)

ndash Nuacutemero uniforme de amostras por intervalobull (equal-frequency binning)

ndash Agrupamento (clustering) intervalos arbitraacuterios

Meacutetodos de Discretizaccedilatildeo Natildeo Supervisionada

bull Nuacutemero preacute-determinado de intervalos uniformesndash (equal-interval binning)

bull No exemplo (temperatura) 64 65 68 69 70 71 72 72 75 75 80 81 83 85bull Bins com largura 6 x le 60

60 lt x le 6666 lt x le 7272 lt x le 7878 lt x le 8484 lt x le 90

Meacutetodos de Discretizaccedilatildeo Natildeo Supervisionada

bull Nuacutemero preacute-determinado de intervalos uniformesndash (equal-interval binning)

bull No exemplo (temperatura)64 65 68 69 70 71 72 72 75 75 80 81 83 85

bull Bins com largura 6 x le 60 na60 lt x le 66 64 6566 lt x le 72 68 69 70 71 72 7272 lt x le 78 75 7578 lt x le 84 80 81 8384 lt x le 90 85

Meacutetodos de Discretizaccedilatildeo Natildeo Supervisionada

bull Equal-interval binning Problemasbull Como qualquer meacutetodo natildeo

supervisionado arrisca destruir distinccedilotildees uacuteteis devido a divisotildees muito grandes ou fronteiras inadequadas

bull Distribuiccedilatildeo das amostras muito irregular com algumas bins com muitas amostras e outras com poucas amostras

Meacutetodos de Discretizaccedilatildeo Natildeo Supervisionada

bull Nuacutemero uniforme de amostras por intervalondash (equal-frequency binning)

bull Tambeacutem chamado de equalizaccedilatildeo do histograma

bull Cada bin tem o mesmo nuacutemero aproximado de amostras

bull Histograma eacute planobull Heuriacutestica para o nuacutemero de bins radicNbull N = nuacutemero de amostras

Meacutetodos de Discretizaccedilatildeo Natildeo Supervisionada

bull Nuacutemero uniforme de amostras por intervalondash (equal-frequency binning)

bull No exemplo (temperatura)bull 64 65 68 69 |70 71 72 72 |75 75 80| 81 83 85bull 14 amostras 4 Bins

ndash x le 695 64 65 68 69ndash 695 lt x le 735 70 71 72 72ndash 735 lt x le 805 75 75 80ndash x gt 805 81 83 85

Meacutetodos de Discretizaccedilatildeo Natildeo Supervisionada

bull Agrupamento (Clustering)

bull Pode-se aplicar um algoritmo de agrupamento

bull no caso unidimensional

bull Para cada grupo (cluster) atribuir um valor discreto

Transformar

Anaacutelise de Componentes Principais (PCA)

bull Dado um conjunto D com n instacircncias e p atributos (x1 x2 xp) uma transformaccedilatildeo linear para um novo conjunto de atributos z1 z2 zp pode ser calculada como

bull Componentes Principais (PCs) satildeo tipos especiacuteficos de combinaccedilotildees lineares que satildeo escolhidas de tal modo que zp (PCs) tenham as seguintes caracteriacutesticas

z1 = a11 x1 + a21 x2 + + ap1 xp

z2 = a12 x1 + a22 x2 + + ap2 xp

zp = a1p x1 + a2p x2 + + app xp

PCA Caracteriacutesticas

bull As p componentes principais (PC) satildeo natildeo-correlacionadas (independentes)

bull As PCs satildeo ordenadas de acordo com quantidade da variacircncia dos dados originais que elas contecircm (ordem decrescente)ndash A primeira PC ldquoexplicardquo (conteacutem) a maior porcentagem da

variabilidade do conjunto de dados originalndash A segunda PC define a proacutexima maior parte e assim por diantendash Em geral apenas algumas das primeiras PCs satildeo responsaacuteveis

pela maior parte da variabilidade do conjunto de dadosndash O restante das PCs tem uma contribuiccedilatildeo insignificante

bull PCA eacute usada em Aprendizado de Maacutequina principalmente para a reduccedilatildeo de dimensionalidade

PCA Caacutelculo

bull PCA pode reduzida ao problema de encontrar os auto-valores e auto-vetores da matriz de covariacircncia (ou correlaccedilatildeo) do conjunto de dados

bull A proporccedilatildeo da variacircncia do conjunto de dados originais explicada pela i-eacutesima PC eacute igual ao i-eacutesimo auto-valor divido pela soma de todos os p auto-valores

bull Ou seja as PCs satildeo ordenadas - decrescente - de acordo com os valores dos auto-valores

bull Quando os valores dos diferentes atributos estatildeo em diferentes escalas eacute preferiacutevel usar a matriz de correlaccedilatildeo em lugar da matriz de covariacircncia

Anaacutelise de Componentes Principais

bull Principais Limitaccedilotildees

ndash Assume apenas relaccedilotildees lineares entre os atributos

ndash A interpretaccedilatildeo dos resultados (eg classificador gerado) em termos dos atributos originais pode ficar mais difiacutecil

  • Slide 1
  • Slide 2
  • Slide 3
  • Slide 4
  • Slide 5
  • Slide 6
  • Slide 7
  • Slide 8
  • Slide 9
  • Slide 10
  • Slide 11
  • Slide 12
  • Slide 13
  • Slide 14
  • Slide 15
  • Slide 16
  • Slide 17
  • Slide 18
  • Slide 19
  • Slide 20
  • Slide 21
  • Slide 22
  • Slide 23
  • Slide 24
  • Slide 25
  • Slide 26
  • Slide 27
  • Slide 28
  • Slide 29
  • Slide 30
  • Slide 31
  • Slide 32
  • Slide 33
  • Slide 34
  • Slide 35
  • Slide 36
  • Slide 37
  • Slide 38
  • Slide 39
  • Slide 40
  • Slide 41
  • Slide 42
  • Slide 43
  • Slide 44
  • Slide 45
  • Slide 46
  • Slide 47
  • Slide 48
Page 17: Analise e Seleção de Variáveis. Tópicos Por que atributos irrelevantes são um problema Quais tipos de algoritmos de aprendizado são afetados Abordagens

Exemplo Filtros

bull Uso de uma indutor de aacutervores de decisatildeo (AD) como filtro para o k-NN

ndash 1) Aplique um indutor de AD para todo o conjunto de treinamento

ndash 2) Selecione o subconjunto de atributos que aparece na AD

ndash 3) Aplique o k-NN a apenas este subconjunto

bull A combinaccedilatildeo pode apresentar melhores resultados do que cada meacutetodo usando individualmente

Filtros

bull Abordagensndash baseada nas caracteriacutesticas gerais dos

dadosndash Encontrar o menor subconjunto que separe

os dadosndash Utilizar diferentes esquemas de aprendizado

bull Usar os atributos que aparecem no c45 1R

Wrapper

bull Busca para Frente (Seleccedilatildeo Forward) + Naive Bayes

ndash (1) Inicialize com o conjunto vazio S=ndash (2) Resultado_S=0ndash (2) Para cada atributo si que natildeo esteja em S

bull Avalie o resultado de (S U si ) Resultado_ si ndash (3) Considere o atributo com maior Resultado_ si

bull SE (Resultado_ si gt Resultado_S) ENTAO (S=S U si ) amp (Resultado_S= Resultado_ si )Volte para o Passo (2)SENAOPare

Transformaccedilatildeo de Dados

Discretizaccedilatildeo de Variaacuteveis Contiacutenuas

bull Transforma atributos contiacutenuos em atributos categoacutericos

bull Absolutamente essencial se o meacutetodo inteligente soacute manuseia atributos categoacutericos

bull Em alguns casos mesmo meacutetodos que manuseiam atributos contiacutenuos tecircm melhor desempenho com atributos categoacutericos

Discretizaccedilatildeo de Variaacuteveis Contiacutenuas

bull 1048673 Diversos meacutetodos de discretizaccedilatildeo

bull 1048673 Discretizaccedilatildeo pelo Meacutetodo 1R (1-rule)

bull 1048673 Discretizaccedilatildeo Natildeo-supervisionada

Discretizaccedilatildeo de Variaacuteveis Contiacutenuas

bull Discretizaccedilatildeo pelo Meacutetodo 1R (1-rule)bull Sub-produto de uma teacutecnica de extraccedilatildeo

automaacutetica de regrasbull Utiliza as classes de saiacuteda para discretizar

cada atributo de entrada separadamentebull Ex Base de dados hipoteacutetica de

meteorologia x decisatildeo de realizar ou natildeo um certo jogo

Discretizaccedilatildeo pelo Meacutetodo 1R (1-rule)

bull Base de Dados Meteoroloacutegicosbull Tempo Temperatura Umidade Vento Jogar (CLASSE)

Sol 85 85 Natildeo NatildeoSol 80 90 Sim NatildeoNublado 83 86 Natildeo SimChuva 70 96 Natildeo SimChuva 68 80 Natildeo SimChuva 65 70 Sim NatildeoNublado 64 65 Sim SimSol 72 95 Natildeo NatildeoSol 69 70 Natildeo SimChuva 75 80 Natildeo SimSol 75 70 Sim SimNublado 72 90 Sim SimNublado 81 75 Natildeo SimChuva 71 91 Sim Natildeo

Discretizaccedilatildeo pelo Meacutetodo 1R (1-rule)

Discretizaccedilatildeo de Variaacuteveis Contiacutenuas

bull Discretizaccedilatildeo Natildeo-Supervisionadandash O meacutetodo 1R eacute supervisionado Considera a

variaacutevel de saiacuteda (classe) na discretizaccedilatildeo

bull Meacutetodos Natildeo Supervisionados consideram somente o atributo a ser discretizadondash Satildeo a uacutenica opccedilatildeo no caso de problemas de

agrupamento (clustering) onde natildeo se conhecem as classes de saiacuteda

bull Trecircs abordagens baacutesicasndash Nuacutemero preacute-determinado de intervalos

bull uniformes (equal-interval binning)

ndash Nuacutemero uniforme de amostras por intervalobull (equal-frequency binning)

ndash Agrupamento (clustering) intervalos arbitraacuterios

Meacutetodos de Discretizaccedilatildeo Natildeo Supervisionada

bull Nuacutemero preacute-determinado de intervalos uniformesndash (equal-interval binning)

bull No exemplo (temperatura) 64 65 68 69 70 71 72 72 75 75 80 81 83 85bull Bins com largura 6 x le 60

60 lt x le 6666 lt x le 7272 lt x le 7878 lt x le 8484 lt x le 90

Meacutetodos de Discretizaccedilatildeo Natildeo Supervisionada

bull Nuacutemero preacute-determinado de intervalos uniformesndash (equal-interval binning)

bull No exemplo (temperatura)64 65 68 69 70 71 72 72 75 75 80 81 83 85

bull Bins com largura 6 x le 60 na60 lt x le 66 64 6566 lt x le 72 68 69 70 71 72 7272 lt x le 78 75 7578 lt x le 84 80 81 8384 lt x le 90 85

Meacutetodos de Discretizaccedilatildeo Natildeo Supervisionada

bull Equal-interval binning Problemasbull Como qualquer meacutetodo natildeo

supervisionado arrisca destruir distinccedilotildees uacuteteis devido a divisotildees muito grandes ou fronteiras inadequadas

bull Distribuiccedilatildeo das amostras muito irregular com algumas bins com muitas amostras e outras com poucas amostras

Meacutetodos de Discretizaccedilatildeo Natildeo Supervisionada

bull Nuacutemero uniforme de amostras por intervalondash (equal-frequency binning)

bull Tambeacutem chamado de equalizaccedilatildeo do histograma

bull Cada bin tem o mesmo nuacutemero aproximado de amostras

bull Histograma eacute planobull Heuriacutestica para o nuacutemero de bins radicNbull N = nuacutemero de amostras

Meacutetodos de Discretizaccedilatildeo Natildeo Supervisionada

bull Nuacutemero uniforme de amostras por intervalondash (equal-frequency binning)

bull No exemplo (temperatura)bull 64 65 68 69 |70 71 72 72 |75 75 80| 81 83 85bull 14 amostras 4 Bins

ndash x le 695 64 65 68 69ndash 695 lt x le 735 70 71 72 72ndash 735 lt x le 805 75 75 80ndash x gt 805 81 83 85

Meacutetodos de Discretizaccedilatildeo Natildeo Supervisionada

bull Agrupamento (Clustering)

bull Pode-se aplicar um algoritmo de agrupamento

bull no caso unidimensional

bull Para cada grupo (cluster) atribuir um valor discreto

Transformar

Anaacutelise de Componentes Principais (PCA)

bull Dado um conjunto D com n instacircncias e p atributos (x1 x2 xp) uma transformaccedilatildeo linear para um novo conjunto de atributos z1 z2 zp pode ser calculada como

bull Componentes Principais (PCs) satildeo tipos especiacuteficos de combinaccedilotildees lineares que satildeo escolhidas de tal modo que zp (PCs) tenham as seguintes caracteriacutesticas

z1 = a11 x1 + a21 x2 + + ap1 xp

z2 = a12 x1 + a22 x2 + + ap2 xp

zp = a1p x1 + a2p x2 + + app xp

PCA Caracteriacutesticas

bull As p componentes principais (PC) satildeo natildeo-correlacionadas (independentes)

bull As PCs satildeo ordenadas de acordo com quantidade da variacircncia dos dados originais que elas contecircm (ordem decrescente)ndash A primeira PC ldquoexplicardquo (conteacutem) a maior porcentagem da

variabilidade do conjunto de dados originalndash A segunda PC define a proacutexima maior parte e assim por diantendash Em geral apenas algumas das primeiras PCs satildeo responsaacuteveis

pela maior parte da variabilidade do conjunto de dadosndash O restante das PCs tem uma contribuiccedilatildeo insignificante

bull PCA eacute usada em Aprendizado de Maacutequina principalmente para a reduccedilatildeo de dimensionalidade

PCA Caacutelculo

bull PCA pode reduzida ao problema de encontrar os auto-valores e auto-vetores da matriz de covariacircncia (ou correlaccedilatildeo) do conjunto de dados

bull A proporccedilatildeo da variacircncia do conjunto de dados originais explicada pela i-eacutesima PC eacute igual ao i-eacutesimo auto-valor divido pela soma de todos os p auto-valores

bull Ou seja as PCs satildeo ordenadas - decrescente - de acordo com os valores dos auto-valores

bull Quando os valores dos diferentes atributos estatildeo em diferentes escalas eacute preferiacutevel usar a matriz de correlaccedilatildeo em lugar da matriz de covariacircncia

Anaacutelise de Componentes Principais

bull Principais Limitaccedilotildees

ndash Assume apenas relaccedilotildees lineares entre os atributos

ndash A interpretaccedilatildeo dos resultados (eg classificador gerado) em termos dos atributos originais pode ficar mais difiacutecil

  • Slide 1
  • Slide 2
  • Slide 3
  • Slide 4
  • Slide 5
  • Slide 6
  • Slide 7
  • Slide 8
  • Slide 9
  • Slide 10
  • Slide 11
  • Slide 12
  • Slide 13
  • Slide 14
  • Slide 15
  • Slide 16
  • Slide 17
  • Slide 18
  • Slide 19
  • Slide 20
  • Slide 21
  • Slide 22
  • Slide 23
  • Slide 24
  • Slide 25
  • Slide 26
  • Slide 27
  • Slide 28
  • Slide 29
  • Slide 30
  • Slide 31
  • Slide 32
  • Slide 33
  • Slide 34
  • Slide 35
  • Slide 36
  • Slide 37
  • Slide 38
  • Slide 39
  • Slide 40
  • Slide 41
  • Slide 42
  • Slide 43
  • Slide 44
  • Slide 45
  • Slide 46
  • Slide 47
  • Slide 48
Page 18: Analise e Seleção de Variáveis. Tópicos Por que atributos irrelevantes são um problema Quais tipos de algoritmos de aprendizado são afetados Abordagens

Filtros

bull Abordagensndash baseada nas caracteriacutesticas gerais dos

dadosndash Encontrar o menor subconjunto que separe

os dadosndash Utilizar diferentes esquemas de aprendizado

bull Usar os atributos que aparecem no c45 1R

Wrapper

bull Busca para Frente (Seleccedilatildeo Forward) + Naive Bayes

ndash (1) Inicialize com o conjunto vazio S=ndash (2) Resultado_S=0ndash (2) Para cada atributo si que natildeo esteja em S

bull Avalie o resultado de (S U si ) Resultado_ si ndash (3) Considere o atributo com maior Resultado_ si

bull SE (Resultado_ si gt Resultado_S) ENTAO (S=S U si ) amp (Resultado_S= Resultado_ si )Volte para o Passo (2)SENAOPare

Transformaccedilatildeo de Dados

Discretizaccedilatildeo de Variaacuteveis Contiacutenuas

bull Transforma atributos contiacutenuos em atributos categoacutericos

bull Absolutamente essencial se o meacutetodo inteligente soacute manuseia atributos categoacutericos

bull Em alguns casos mesmo meacutetodos que manuseiam atributos contiacutenuos tecircm melhor desempenho com atributos categoacutericos

Discretizaccedilatildeo de Variaacuteveis Contiacutenuas

bull 1048673 Diversos meacutetodos de discretizaccedilatildeo

bull 1048673 Discretizaccedilatildeo pelo Meacutetodo 1R (1-rule)

bull 1048673 Discretizaccedilatildeo Natildeo-supervisionada

Discretizaccedilatildeo de Variaacuteveis Contiacutenuas

bull Discretizaccedilatildeo pelo Meacutetodo 1R (1-rule)bull Sub-produto de uma teacutecnica de extraccedilatildeo

automaacutetica de regrasbull Utiliza as classes de saiacuteda para discretizar

cada atributo de entrada separadamentebull Ex Base de dados hipoteacutetica de

meteorologia x decisatildeo de realizar ou natildeo um certo jogo

Discretizaccedilatildeo pelo Meacutetodo 1R (1-rule)

bull Base de Dados Meteoroloacutegicosbull Tempo Temperatura Umidade Vento Jogar (CLASSE)

Sol 85 85 Natildeo NatildeoSol 80 90 Sim NatildeoNublado 83 86 Natildeo SimChuva 70 96 Natildeo SimChuva 68 80 Natildeo SimChuva 65 70 Sim NatildeoNublado 64 65 Sim SimSol 72 95 Natildeo NatildeoSol 69 70 Natildeo SimChuva 75 80 Natildeo SimSol 75 70 Sim SimNublado 72 90 Sim SimNublado 81 75 Natildeo SimChuva 71 91 Sim Natildeo

Discretizaccedilatildeo pelo Meacutetodo 1R (1-rule)

Discretizaccedilatildeo de Variaacuteveis Contiacutenuas

bull Discretizaccedilatildeo Natildeo-Supervisionadandash O meacutetodo 1R eacute supervisionado Considera a

variaacutevel de saiacuteda (classe) na discretizaccedilatildeo

bull Meacutetodos Natildeo Supervisionados consideram somente o atributo a ser discretizadondash Satildeo a uacutenica opccedilatildeo no caso de problemas de

agrupamento (clustering) onde natildeo se conhecem as classes de saiacuteda

bull Trecircs abordagens baacutesicasndash Nuacutemero preacute-determinado de intervalos

bull uniformes (equal-interval binning)

ndash Nuacutemero uniforme de amostras por intervalobull (equal-frequency binning)

ndash Agrupamento (clustering) intervalos arbitraacuterios

Meacutetodos de Discretizaccedilatildeo Natildeo Supervisionada

bull Nuacutemero preacute-determinado de intervalos uniformesndash (equal-interval binning)

bull No exemplo (temperatura) 64 65 68 69 70 71 72 72 75 75 80 81 83 85bull Bins com largura 6 x le 60

60 lt x le 6666 lt x le 7272 lt x le 7878 lt x le 8484 lt x le 90

Meacutetodos de Discretizaccedilatildeo Natildeo Supervisionada

bull Nuacutemero preacute-determinado de intervalos uniformesndash (equal-interval binning)

bull No exemplo (temperatura)64 65 68 69 70 71 72 72 75 75 80 81 83 85

bull Bins com largura 6 x le 60 na60 lt x le 66 64 6566 lt x le 72 68 69 70 71 72 7272 lt x le 78 75 7578 lt x le 84 80 81 8384 lt x le 90 85

Meacutetodos de Discretizaccedilatildeo Natildeo Supervisionada

bull Equal-interval binning Problemasbull Como qualquer meacutetodo natildeo

supervisionado arrisca destruir distinccedilotildees uacuteteis devido a divisotildees muito grandes ou fronteiras inadequadas

bull Distribuiccedilatildeo das amostras muito irregular com algumas bins com muitas amostras e outras com poucas amostras

Meacutetodos de Discretizaccedilatildeo Natildeo Supervisionada

bull Nuacutemero uniforme de amostras por intervalondash (equal-frequency binning)

bull Tambeacutem chamado de equalizaccedilatildeo do histograma

bull Cada bin tem o mesmo nuacutemero aproximado de amostras

bull Histograma eacute planobull Heuriacutestica para o nuacutemero de bins radicNbull N = nuacutemero de amostras

Meacutetodos de Discretizaccedilatildeo Natildeo Supervisionada

bull Nuacutemero uniforme de amostras por intervalondash (equal-frequency binning)

bull No exemplo (temperatura)bull 64 65 68 69 |70 71 72 72 |75 75 80| 81 83 85bull 14 amostras 4 Bins

ndash x le 695 64 65 68 69ndash 695 lt x le 735 70 71 72 72ndash 735 lt x le 805 75 75 80ndash x gt 805 81 83 85

Meacutetodos de Discretizaccedilatildeo Natildeo Supervisionada

bull Agrupamento (Clustering)

bull Pode-se aplicar um algoritmo de agrupamento

bull no caso unidimensional

bull Para cada grupo (cluster) atribuir um valor discreto

Transformar

Anaacutelise de Componentes Principais (PCA)

bull Dado um conjunto D com n instacircncias e p atributos (x1 x2 xp) uma transformaccedilatildeo linear para um novo conjunto de atributos z1 z2 zp pode ser calculada como

bull Componentes Principais (PCs) satildeo tipos especiacuteficos de combinaccedilotildees lineares que satildeo escolhidas de tal modo que zp (PCs) tenham as seguintes caracteriacutesticas

z1 = a11 x1 + a21 x2 + + ap1 xp

z2 = a12 x1 + a22 x2 + + ap2 xp

zp = a1p x1 + a2p x2 + + app xp

PCA Caracteriacutesticas

bull As p componentes principais (PC) satildeo natildeo-correlacionadas (independentes)

bull As PCs satildeo ordenadas de acordo com quantidade da variacircncia dos dados originais que elas contecircm (ordem decrescente)ndash A primeira PC ldquoexplicardquo (conteacutem) a maior porcentagem da

variabilidade do conjunto de dados originalndash A segunda PC define a proacutexima maior parte e assim por diantendash Em geral apenas algumas das primeiras PCs satildeo responsaacuteveis

pela maior parte da variabilidade do conjunto de dadosndash O restante das PCs tem uma contribuiccedilatildeo insignificante

bull PCA eacute usada em Aprendizado de Maacutequina principalmente para a reduccedilatildeo de dimensionalidade

PCA Caacutelculo

bull PCA pode reduzida ao problema de encontrar os auto-valores e auto-vetores da matriz de covariacircncia (ou correlaccedilatildeo) do conjunto de dados

bull A proporccedilatildeo da variacircncia do conjunto de dados originais explicada pela i-eacutesima PC eacute igual ao i-eacutesimo auto-valor divido pela soma de todos os p auto-valores

bull Ou seja as PCs satildeo ordenadas - decrescente - de acordo com os valores dos auto-valores

bull Quando os valores dos diferentes atributos estatildeo em diferentes escalas eacute preferiacutevel usar a matriz de correlaccedilatildeo em lugar da matriz de covariacircncia

Anaacutelise de Componentes Principais

bull Principais Limitaccedilotildees

ndash Assume apenas relaccedilotildees lineares entre os atributos

ndash A interpretaccedilatildeo dos resultados (eg classificador gerado) em termos dos atributos originais pode ficar mais difiacutecil

  • Slide 1
  • Slide 2
  • Slide 3
  • Slide 4
  • Slide 5
  • Slide 6
  • Slide 7
  • Slide 8
  • Slide 9
  • Slide 10
  • Slide 11
  • Slide 12
  • Slide 13
  • Slide 14
  • Slide 15
  • Slide 16
  • Slide 17
  • Slide 18
  • Slide 19
  • Slide 20
  • Slide 21
  • Slide 22
  • Slide 23
  • Slide 24
  • Slide 25
  • Slide 26
  • Slide 27
  • Slide 28
  • Slide 29
  • Slide 30
  • Slide 31
  • Slide 32
  • Slide 33
  • Slide 34
  • Slide 35
  • Slide 36
  • Slide 37
  • Slide 38
  • Slide 39
  • Slide 40
  • Slide 41
  • Slide 42
  • Slide 43
  • Slide 44
  • Slide 45
  • Slide 46
  • Slide 47
  • Slide 48
Page 19: Analise e Seleção de Variáveis. Tópicos Por que atributos irrelevantes são um problema Quais tipos de algoritmos de aprendizado são afetados Abordagens

Wrapper

bull Busca para Frente (Seleccedilatildeo Forward) + Naive Bayes

ndash (1) Inicialize com o conjunto vazio S=ndash (2) Resultado_S=0ndash (2) Para cada atributo si que natildeo esteja em S

bull Avalie o resultado de (S U si ) Resultado_ si ndash (3) Considere o atributo com maior Resultado_ si

bull SE (Resultado_ si gt Resultado_S) ENTAO (S=S U si ) amp (Resultado_S= Resultado_ si )Volte para o Passo (2)SENAOPare

Transformaccedilatildeo de Dados

Discretizaccedilatildeo de Variaacuteveis Contiacutenuas

bull Transforma atributos contiacutenuos em atributos categoacutericos

bull Absolutamente essencial se o meacutetodo inteligente soacute manuseia atributos categoacutericos

bull Em alguns casos mesmo meacutetodos que manuseiam atributos contiacutenuos tecircm melhor desempenho com atributos categoacutericos

Discretizaccedilatildeo de Variaacuteveis Contiacutenuas

bull 1048673 Diversos meacutetodos de discretizaccedilatildeo

bull 1048673 Discretizaccedilatildeo pelo Meacutetodo 1R (1-rule)

bull 1048673 Discretizaccedilatildeo Natildeo-supervisionada

Discretizaccedilatildeo de Variaacuteveis Contiacutenuas

bull Discretizaccedilatildeo pelo Meacutetodo 1R (1-rule)bull Sub-produto de uma teacutecnica de extraccedilatildeo

automaacutetica de regrasbull Utiliza as classes de saiacuteda para discretizar

cada atributo de entrada separadamentebull Ex Base de dados hipoteacutetica de

meteorologia x decisatildeo de realizar ou natildeo um certo jogo

Discretizaccedilatildeo pelo Meacutetodo 1R (1-rule)

bull Base de Dados Meteoroloacutegicosbull Tempo Temperatura Umidade Vento Jogar (CLASSE)

Sol 85 85 Natildeo NatildeoSol 80 90 Sim NatildeoNublado 83 86 Natildeo SimChuva 70 96 Natildeo SimChuva 68 80 Natildeo SimChuva 65 70 Sim NatildeoNublado 64 65 Sim SimSol 72 95 Natildeo NatildeoSol 69 70 Natildeo SimChuva 75 80 Natildeo SimSol 75 70 Sim SimNublado 72 90 Sim SimNublado 81 75 Natildeo SimChuva 71 91 Sim Natildeo

Discretizaccedilatildeo pelo Meacutetodo 1R (1-rule)

Discretizaccedilatildeo de Variaacuteveis Contiacutenuas

bull Discretizaccedilatildeo Natildeo-Supervisionadandash O meacutetodo 1R eacute supervisionado Considera a

variaacutevel de saiacuteda (classe) na discretizaccedilatildeo

bull Meacutetodos Natildeo Supervisionados consideram somente o atributo a ser discretizadondash Satildeo a uacutenica opccedilatildeo no caso de problemas de

agrupamento (clustering) onde natildeo se conhecem as classes de saiacuteda

bull Trecircs abordagens baacutesicasndash Nuacutemero preacute-determinado de intervalos

bull uniformes (equal-interval binning)

ndash Nuacutemero uniforme de amostras por intervalobull (equal-frequency binning)

ndash Agrupamento (clustering) intervalos arbitraacuterios

Meacutetodos de Discretizaccedilatildeo Natildeo Supervisionada

bull Nuacutemero preacute-determinado de intervalos uniformesndash (equal-interval binning)

bull No exemplo (temperatura) 64 65 68 69 70 71 72 72 75 75 80 81 83 85bull Bins com largura 6 x le 60

60 lt x le 6666 lt x le 7272 lt x le 7878 lt x le 8484 lt x le 90

Meacutetodos de Discretizaccedilatildeo Natildeo Supervisionada

bull Nuacutemero preacute-determinado de intervalos uniformesndash (equal-interval binning)

bull No exemplo (temperatura)64 65 68 69 70 71 72 72 75 75 80 81 83 85

bull Bins com largura 6 x le 60 na60 lt x le 66 64 6566 lt x le 72 68 69 70 71 72 7272 lt x le 78 75 7578 lt x le 84 80 81 8384 lt x le 90 85

Meacutetodos de Discretizaccedilatildeo Natildeo Supervisionada

bull Equal-interval binning Problemasbull Como qualquer meacutetodo natildeo

supervisionado arrisca destruir distinccedilotildees uacuteteis devido a divisotildees muito grandes ou fronteiras inadequadas

bull Distribuiccedilatildeo das amostras muito irregular com algumas bins com muitas amostras e outras com poucas amostras

Meacutetodos de Discretizaccedilatildeo Natildeo Supervisionada

bull Nuacutemero uniforme de amostras por intervalondash (equal-frequency binning)

bull Tambeacutem chamado de equalizaccedilatildeo do histograma

bull Cada bin tem o mesmo nuacutemero aproximado de amostras

bull Histograma eacute planobull Heuriacutestica para o nuacutemero de bins radicNbull N = nuacutemero de amostras

Meacutetodos de Discretizaccedilatildeo Natildeo Supervisionada

bull Nuacutemero uniforme de amostras por intervalondash (equal-frequency binning)

bull No exemplo (temperatura)bull 64 65 68 69 |70 71 72 72 |75 75 80| 81 83 85bull 14 amostras 4 Bins

ndash x le 695 64 65 68 69ndash 695 lt x le 735 70 71 72 72ndash 735 lt x le 805 75 75 80ndash x gt 805 81 83 85

Meacutetodos de Discretizaccedilatildeo Natildeo Supervisionada

bull Agrupamento (Clustering)

bull Pode-se aplicar um algoritmo de agrupamento

bull no caso unidimensional

bull Para cada grupo (cluster) atribuir um valor discreto

Transformar

Anaacutelise de Componentes Principais (PCA)

bull Dado um conjunto D com n instacircncias e p atributos (x1 x2 xp) uma transformaccedilatildeo linear para um novo conjunto de atributos z1 z2 zp pode ser calculada como

bull Componentes Principais (PCs) satildeo tipos especiacuteficos de combinaccedilotildees lineares que satildeo escolhidas de tal modo que zp (PCs) tenham as seguintes caracteriacutesticas

z1 = a11 x1 + a21 x2 + + ap1 xp

z2 = a12 x1 + a22 x2 + + ap2 xp

zp = a1p x1 + a2p x2 + + app xp

PCA Caracteriacutesticas

bull As p componentes principais (PC) satildeo natildeo-correlacionadas (independentes)

bull As PCs satildeo ordenadas de acordo com quantidade da variacircncia dos dados originais que elas contecircm (ordem decrescente)ndash A primeira PC ldquoexplicardquo (conteacutem) a maior porcentagem da

variabilidade do conjunto de dados originalndash A segunda PC define a proacutexima maior parte e assim por diantendash Em geral apenas algumas das primeiras PCs satildeo responsaacuteveis

pela maior parte da variabilidade do conjunto de dadosndash O restante das PCs tem uma contribuiccedilatildeo insignificante

bull PCA eacute usada em Aprendizado de Maacutequina principalmente para a reduccedilatildeo de dimensionalidade

PCA Caacutelculo

bull PCA pode reduzida ao problema de encontrar os auto-valores e auto-vetores da matriz de covariacircncia (ou correlaccedilatildeo) do conjunto de dados

bull A proporccedilatildeo da variacircncia do conjunto de dados originais explicada pela i-eacutesima PC eacute igual ao i-eacutesimo auto-valor divido pela soma de todos os p auto-valores

bull Ou seja as PCs satildeo ordenadas - decrescente - de acordo com os valores dos auto-valores

bull Quando os valores dos diferentes atributos estatildeo em diferentes escalas eacute preferiacutevel usar a matriz de correlaccedilatildeo em lugar da matriz de covariacircncia

Anaacutelise de Componentes Principais

bull Principais Limitaccedilotildees

ndash Assume apenas relaccedilotildees lineares entre os atributos

ndash A interpretaccedilatildeo dos resultados (eg classificador gerado) em termos dos atributos originais pode ficar mais difiacutecil

  • Slide 1
  • Slide 2
  • Slide 3
  • Slide 4
  • Slide 5
  • Slide 6
  • Slide 7
  • Slide 8
  • Slide 9
  • Slide 10
  • Slide 11
  • Slide 12
  • Slide 13
  • Slide 14
  • Slide 15
  • Slide 16
  • Slide 17
  • Slide 18
  • Slide 19
  • Slide 20
  • Slide 21
  • Slide 22
  • Slide 23
  • Slide 24
  • Slide 25
  • Slide 26
  • Slide 27
  • Slide 28
  • Slide 29
  • Slide 30
  • Slide 31
  • Slide 32
  • Slide 33
  • Slide 34
  • Slide 35
  • Slide 36
  • Slide 37
  • Slide 38
  • Slide 39
  • Slide 40
  • Slide 41
  • Slide 42
  • Slide 43
  • Slide 44
  • Slide 45
  • Slide 46
  • Slide 47
  • Slide 48
Page 20: Analise e Seleção de Variáveis. Tópicos Por que atributos irrelevantes são um problema Quais tipos de algoritmos de aprendizado são afetados Abordagens

Transformaccedilatildeo de Dados

Discretizaccedilatildeo de Variaacuteveis Contiacutenuas

bull Transforma atributos contiacutenuos em atributos categoacutericos

bull Absolutamente essencial se o meacutetodo inteligente soacute manuseia atributos categoacutericos

bull Em alguns casos mesmo meacutetodos que manuseiam atributos contiacutenuos tecircm melhor desempenho com atributos categoacutericos

Discretizaccedilatildeo de Variaacuteveis Contiacutenuas

bull 1048673 Diversos meacutetodos de discretizaccedilatildeo

bull 1048673 Discretizaccedilatildeo pelo Meacutetodo 1R (1-rule)

bull 1048673 Discretizaccedilatildeo Natildeo-supervisionada

Discretizaccedilatildeo de Variaacuteveis Contiacutenuas

bull Discretizaccedilatildeo pelo Meacutetodo 1R (1-rule)bull Sub-produto de uma teacutecnica de extraccedilatildeo

automaacutetica de regrasbull Utiliza as classes de saiacuteda para discretizar

cada atributo de entrada separadamentebull Ex Base de dados hipoteacutetica de

meteorologia x decisatildeo de realizar ou natildeo um certo jogo

Discretizaccedilatildeo pelo Meacutetodo 1R (1-rule)

bull Base de Dados Meteoroloacutegicosbull Tempo Temperatura Umidade Vento Jogar (CLASSE)

Sol 85 85 Natildeo NatildeoSol 80 90 Sim NatildeoNublado 83 86 Natildeo SimChuva 70 96 Natildeo SimChuva 68 80 Natildeo SimChuva 65 70 Sim NatildeoNublado 64 65 Sim SimSol 72 95 Natildeo NatildeoSol 69 70 Natildeo SimChuva 75 80 Natildeo SimSol 75 70 Sim SimNublado 72 90 Sim SimNublado 81 75 Natildeo SimChuva 71 91 Sim Natildeo

Discretizaccedilatildeo pelo Meacutetodo 1R (1-rule)

Discretizaccedilatildeo de Variaacuteveis Contiacutenuas

bull Discretizaccedilatildeo Natildeo-Supervisionadandash O meacutetodo 1R eacute supervisionado Considera a

variaacutevel de saiacuteda (classe) na discretizaccedilatildeo

bull Meacutetodos Natildeo Supervisionados consideram somente o atributo a ser discretizadondash Satildeo a uacutenica opccedilatildeo no caso de problemas de

agrupamento (clustering) onde natildeo se conhecem as classes de saiacuteda

bull Trecircs abordagens baacutesicasndash Nuacutemero preacute-determinado de intervalos

bull uniformes (equal-interval binning)

ndash Nuacutemero uniforme de amostras por intervalobull (equal-frequency binning)

ndash Agrupamento (clustering) intervalos arbitraacuterios

Meacutetodos de Discretizaccedilatildeo Natildeo Supervisionada

bull Nuacutemero preacute-determinado de intervalos uniformesndash (equal-interval binning)

bull No exemplo (temperatura) 64 65 68 69 70 71 72 72 75 75 80 81 83 85bull Bins com largura 6 x le 60

60 lt x le 6666 lt x le 7272 lt x le 7878 lt x le 8484 lt x le 90

Meacutetodos de Discretizaccedilatildeo Natildeo Supervisionada

bull Nuacutemero preacute-determinado de intervalos uniformesndash (equal-interval binning)

bull No exemplo (temperatura)64 65 68 69 70 71 72 72 75 75 80 81 83 85

bull Bins com largura 6 x le 60 na60 lt x le 66 64 6566 lt x le 72 68 69 70 71 72 7272 lt x le 78 75 7578 lt x le 84 80 81 8384 lt x le 90 85

Meacutetodos de Discretizaccedilatildeo Natildeo Supervisionada

bull Equal-interval binning Problemasbull Como qualquer meacutetodo natildeo

supervisionado arrisca destruir distinccedilotildees uacuteteis devido a divisotildees muito grandes ou fronteiras inadequadas

bull Distribuiccedilatildeo das amostras muito irregular com algumas bins com muitas amostras e outras com poucas amostras

Meacutetodos de Discretizaccedilatildeo Natildeo Supervisionada

bull Nuacutemero uniforme de amostras por intervalondash (equal-frequency binning)

bull Tambeacutem chamado de equalizaccedilatildeo do histograma

bull Cada bin tem o mesmo nuacutemero aproximado de amostras

bull Histograma eacute planobull Heuriacutestica para o nuacutemero de bins radicNbull N = nuacutemero de amostras

Meacutetodos de Discretizaccedilatildeo Natildeo Supervisionada

bull Nuacutemero uniforme de amostras por intervalondash (equal-frequency binning)

bull No exemplo (temperatura)bull 64 65 68 69 |70 71 72 72 |75 75 80| 81 83 85bull 14 amostras 4 Bins

ndash x le 695 64 65 68 69ndash 695 lt x le 735 70 71 72 72ndash 735 lt x le 805 75 75 80ndash x gt 805 81 83 85

Meacutetodos de Discretizaccedilatildeo Natildeo Supervisionada

bull Agrupamento (Clustering)

bull Pode-se aplicar um algoritmo de agrupamento

bull no caso unidimensional

bull Para cada grupo (cluster) atribuir um valor discreto

Transformar

Anaacutelise de Componentes Principais (PCA)

bull Dado um conjunto D com n instacircncias e p atributos (x1 x2 xp) uma transformaccedilatildeo linear para um novo conjunto de atributos z1 z2 zp pode ser calculada como

bull Componentes Principais (PCs) satildeo tipos especiacuteficos de combinaccedilotildees lineares que satildeo escolhidas de tal modo que zp (PCs) tenham as seguintes caracteriacutesticas

z1 = a11 x1 + a21 x2 + + ap1 xp

z2 = a12 x1 + a22 x2 + + ap2 xp

zp = a1p x1 + a2p x2 + + app xp

PCA Caracteriacutesticas

bull As p componentes principais (PC) satildeo natildeo-correlacionadas (independentes)

bull As PCs satildeo ordenadas de acordo com quantidade da variacircncia dos dados originais que elas contecircm (ordem decrescente)ndash A primeira PC ldquoexplicardquo (conteacutem) a maior porcentagem da

variabilidade do conjunto de dados originalndash A segunda PC define a proacutexima maior parte e assim por diantendash Em geral apenas algumas das primeiras PCs satildeo responsaacuteveis

pela maior parte da variabilidade do conjunto de dadosndash O restante das PCs tem uma contribuiccedilatildeo insignificante

bull PCA eacute usada em Aprendizado de Maacutequina principalmente para a reduccedilatildeo de dimensionalidade

PCA Caacutelculo

bull PCA pode reduzida ao problema de encontrar os auto-valores e auto-vetores da matriz de covariacircncia (ou correlaccedilatildeo) do conjunto de dados

bull A proporccedilatildeo da variacircncia do conjunto de dados originais explicada pela i-eacutesima PC eacute igual ao i-eacutesimo auto-valor divido pela soma de todos os p auto-valores

bull Ou seja as PCs satildeo ordenadas - decrescente - de acordo com os valores dos auto-valores

bull Quando os valores dos diferentes atributos estatildeo em diferentes escalas eacute preferiacutevel usar a matriz de correlaccedilatildeo em lugar da matriz de covariacircncia

Anaacutelise de Componentes Principais

bull Principais Limitaccedilotildees

ndash Assume apenas relaccedilotildees lineares entre os atributos

ndash A interpretaccedilatildeo dos resultados (eg classificador gerado) em termos dos atributos originais pode ficar mais difiacutecil

  • Slide 1
  • Slide 2
  • Slide 3
  • Slide 4
  • Slide 5
  • Slide 6
  • Slide 7
  • Slide 8
  • Slide 9
  • Slide 10
  • Slide 11
  • Slide 12
  • Slide 13
  • Slide 14
  • Slide 15
  • Slide 16
  • Slide 17
  • Slide 18
  • Slide 19
  • Slide 20
  • Slide 21
  • Slide 22
  • Slide 23
  • Slide 24
  • Slide 25
  • Slide 26
  • Slide 27
  • Slide 28
  • Slide 29
  • Slide 30
  • Slide 31
  • Slide 32
  • Slide 33
  • Slide 34
  • Slide 35
  • Slide 36
  • Slide 37
  • Slide 38
  • Slide 39
  • Slide 40
  • Slide 41
  • Slide 42
  • Slide 43
  • Slide 44
  • Slide 45
  • Slide 46
  • Slide 47
  • Slide 48
Page 21: Analise e Seleção de Variáveis. Tópicos Por que atributos irrelevantes são um problema Quais tipos de algoritmos de aprendizado são afetados Abordagens

Discretizaccedilatildeo de Variaacuteveis Contiacutenuas

bull Transforma atributos contiacutenuos em atributos categoacutericos

bull Absolutamente essencial se o meacutetodo inteligente soacute manuseia atributos categoacutericos

bull Em alguns casos mesmo meacutetodos que manuseiam atributos contiacutenuos tecircm melhor desempenho com atributos categoacutericos

Discretizaccedilatildeo de Variaacuteveis Contiacutenuas

bull 1048673 Diversos meacutetodos de discretizaccedilatildeo

bull 1048673 Discretizaccedilatildeo pelo Meacutetodo 1R (1-rule)

bull 1048673 Discretizaccedilatildeo Natildeo-supervisionada

Discretizaccedilatildeo de Variaacuteveis Contiacutenuas

bull Discretizaccedilatildeo pelo Meacutetodo 1R (1-rule)bull Sub-produto de uma teacutecnica de extraccedilatildeo

automaacutetica de regrasbull Utiliza as classes de saiacuteda para discretizar

cada atributo de entrada separadamentebull Ex Base de dados hipoteacutetica de

meteorologia x decisatildeo de realizar ou natildeo um certo jogo

Discretizaccedilatildeo pelo Meacutetodo 1R (1-rule)

bull Base de Dados Meteoroloacutegicosbull Tempo Temperatura Umidade Vento Jogar (CLASSE)

Sol 85 85 Natildeo NatildeoSol 80 90 Sim NatildeoNublado 83 86 Natildeo SimChuva 70 96 Natildeo SimChuva 68 80 Natildeo SimChuva 65 70 Sim NatildeoNublado 64 65 Sim SimSol 72 95 Natildeo NatildeoSol 69 70 Natildeo SimChuva 75 80 Natildeo SimSol 75 70 Sim SimNublado 72 90 Sim SimNublado 81 75 Natildeo SimChuva 71 91 Sim Natildeo

Discretizaccedilatildeo pelo Meacutetodo 1R (1-rule)

Discretizaccedilatildeo de Variaacuteveis Contiacutenuas

bull Discretizaccedilatildeo Natildeo-Supervisionadandash O meacutetodo 1R eacute supervisionado Considera a

variaacutevel de saiacuteda (classe) na discretizaccedilatildeo

bull Meacutetodos Natildeo Supervisionados consideram somente o atributo a ser discretizadondash Satildeo a uacutenica opccedilatildeo no caso de problemas de

agrupamento (clustering) onde natildeo se conhecem as classes de saiacuteda

bull Trecircs abordagens baacutesicasndash Nuacutemero preacute-determinado de intervalos

bull uniformes (equal-interval binning)

ndash Nuacutemero uniforme de amostras por intervalobull (equal-frequency binning)

ndash Agrupamento (clustering) intervalos arbitraacuterios

Meacutetodos de Discretizaccedilatildeo Natildeo Supervisionada

bull Nuacutemero preacute-determinado de intervalos uniformesndash (equal-interval binning)

bull No exemplo (temperatura) 64 65 68 69 70 71 72 72 75 75 80 81 83 85bull Bins com largura 6 x le 60

60 lt x le 6666 lt x le 7272 lt x le 7878 lt x le 8484 lt x le 90

Meacutetodos de Discretizaccedilatildeo Natildeo Supervisionada

bull Nuacutemero preacute-determinado de intervalos uniformesndash (equal-interval binning)

bull No exemplo (temperatura)64 65 68 69 70 71 72 72 75 75 80 81 83 85

bull Bins com largura 6 x le 60 na60 lt x le 66 64 6566 lt x le 72 68 69 70 71 72 7272 lt x le 78 75 7578 lt x le 84 80 81 8384 lt x le 90 85

Meacutetodos de Discretizaccedilatildeo Natildeo Supervisionada

bull Equal-interval binning Problemasbull Como qualquer meacutetodo natildeo

supervisionado arrisca destruir distinccedilotildees uacuteteis devido a divisotildees muito grandes ou fronteiras inadequadas

bull Distribuiccedilatildeo das amostras muito irregular com algumas bins com muitas amostras e outras com poucas amostras

Meacutetodos de Discretizaccedilatildeo Natildeo Supervisionada

bull Nuacutemero uniforme de amostras por intervalondash (equal-frequency binning)

bull Tambeacutem chamado de equalizaccedilatildeo do histograma

bull Cada bin tem o mesmo nuacutemero aproximado de amostras

bull Histograma eacute planobull Heuriacutestica para o nuacutemero de bins radicNbull N = nuacutemero de amostras

Meacutetodos de Discretizaccedilatildeo Natildeo Supervisionada

bull Nuacutemero uniforme de amostras por intervalondash (equal-frequency binning)

bull No exemplo (temperatura)bull 64 65 68 69 |70 71 72 72 |75 75 80| 81 83 85bull 14 amostras 4 Bins

ndash x le 695 64 65 68 69ndash 695 lt x le 735 70 71 72 72ndash 735 lt x le 805 75 75 80ndash x gt 805 81 83 85

Meacutetodos de Discretizaccedilatildeo Natildeo Supervisionada

bull Agrupamento (Clustering)

bull Pode-se aplicar um algoritmo de agrupamento

bull no caso unidimensional

bull Para cada grupo (cluster) atribuir um valor discreto

Transformar

Anaacutelise de Componentes Principais (PCA)

bull Dado um conjunto D com n instacircncias e p atributos (x1 x2 xp) uma transformaccedilatildeo linear para um novo conjunto de atributos z1 z2 zp pode ser calculada como

bull Componentes Principais (PCs) satildeo tipos especiacuteficos de combinaccedilotildees lineares que satildeo escolhidas de tal modo que zp (PCs) tenham as seguintes caracteriacutesticas

z1 = a11 x1 + a21 x2 + + ap1 xp

z2 = a12 x1 + a22 x2 + + ap2 xp

zp = a1p x1 + a2p x2 + + app xp

PCA Caracteriacutesticas

bull As p componentes principais (PC) satildeo natildeo-correlacionadas (independentes)

bull As PCs satildeo ordenadas de acordo com quantidade da variacircncia dos dados originais que elas contecircm (ordem decrescente)ndash A primeira PC ldquoexplicardquo (conteacutem) a maior porcentagem da

variabilidade do conjunto de dados originalndash A segunda PC define a proacutexima maior parte e assim por diantendash Em geral apenas algumas das primeiras PCs satildeo responsaacuteveis

pela maior parte da variabilidade do conjunto de dadosndash O restante das PCs tem uma contribuiccedilatildeo insignificante

bull PCA eacute usada em Aprendizado de Maacutequina principalmente para a reduccedilatildeo de dimensionalidade

PCA Caacutelculo

bull PCA pode reduzida ao problema de encontrar os auto-valores e auto-vetores da matriz de covariacircncia (ou correlaccedilatildeo) do conjunto de dados

bull A proporccedilatildeo da variacircncia do conjunto de dados originais explicada pela i-eacutesima PC eacute igual ao i-eacutesimo auto-valor divido pela soma de todos os p auto-valores

bull Ou seja as PCs satildeo ordenadas - decrescente - de acordo com os valores dos auto-valores

bull Quando os valores dos diferentes atributos estatildeo em diferentes escalas eacute preferiacutevel usar a matriz de correlaccedilatildeo em lugar da matriz de covariacircncia

Anaacutelise de Componentes Principais

bull Principais Limitaccedilotildees

ndash Assume apenas relaccedilotildees lineares entre os atributos

ndash A interpretaccedilatildeo dos resultados (eg classificador gerado) em termos dos atributos originais pode ficar mais difiacutecil

  • Slide 1
  • Slide 2
  • Slide 3
  • Slide 4
  • Slide 5
  • Slide 6
  • Slide 7
  • Slide 8
  • Slide 9
  • Slide 10
  • Slide 11
  • Slide 12
  • Slide 13
  • Slide 14
  • Slide 15
  • Slide 16
  • Slide 17
  • Slide 18
  • Slide 19
  • Slide 20
  • Slide 21
  • Slide 22
  • Slide 23
  • Slide 24
  • Slide 25
  • Slide 26
  • Slide 27
  • Slide 28
  • Slide 29
  • Slide 30
  • Slide 31
  • Slide 32
  • Slide 33
  • Slide 34
  • Slide 35
  • Slide 36
  • Slide 37
  • Slide 38
  • Slide 39
  • Slide 40
  • Slide 41
  • Slide 42
  • Slide 43
  • Slide 44
  • Slide 45
  • Slide 46
  • Slide 47
  • Slide 48
Page 22: Analise e Seleção de Variáveis. Tópicos Por que atributos irrelevantes são um problema Quais tipos de algoritmos de aprendizado são afetados Abordagens

Discretizaccedilatildeo de Variaacuteveis Contiacutenuas

bull 1048673 Diversos meacutetodos de discretizaccedilatildeo

bull 1048673 Discretizaccedilatildeo pelo Meacutetodo 1R (1-rule)

bull 1048673 Discretizaccedilatildeo Natildeo-supervisionada

Discretizaccedilatildeo de Variaacuteveis Contiacutenuas

bull Discretizaccedilatildeo pelo Meacutetodo 1R (1-rule)bull Sub-produto de uma teacutecnica de extraccedilatildeo

automaacutetica de regrasbull Utiliza as classes de saiacuteda para discretizar

cada atributo de entrada separadamentebull Ex Base de dados hipoteacutetica de

meteorologia x decisatildeo de realizar ou natildeo um certo jogo

Discretizaccedilatildeo pelo Meacutetodo 1R (1-rule)

bull Base de Dados Meteoroloacutegicosbull Tempo Temperatura Umidade Vento Jogar (CLASSE)

Sol 85 85 Natildeo NatildeoSol 80 90 Sim NatildeoNublado 83 86 Natildeo SimChuva 70 96 Natildeo SimChuva 68 80 Natildeo SimChuva 65 70 Sim NatildeoNublado 64 65 Sim SimSol 72 95 Natildeo NatildeoSol 69 70 Natildeo SimChuva 75 80 Natildeo SimSol 75 70 Sim SimNublado 72 90 Sim SimNublado 81 75 Natildeo SimChuva 71 91 Sim Natildeo

Discretizaccedilatildeo pelo Meacutetodo 1R (1-rule)

Discretizaccedilatildeo de Variaacuteveis Contiacutenuas

bull Discretizaccedilatildeo Natildeo-Supervisionadandash O meacutetodo 1R eacute supervisionado Considera a

variaacutevel de saiacuteda (classe) na discretizaccedilatildeo

bull Meacutetodos Natildeo Supervisionados consideram somente o atributo a ser discretizadondash Satildeo a uacutenica opccedilatildeo no caso de problemas de

agrupamento (clustering) onde natildeo se conhecem as classes de saiacuteda

bull Trecircs abordagens baacutesicasndash Nuacutemero preacute-determinado de intervalos

bull uniformes (equal-interval binning)

ndash Nuacutemero uniforme de amostras por intervalobull (equal-frequency binning)

ndash Agrupamento (clustering) intervalos arbitraacuterios

Meacutetodos de Discretizaccedilatildeo Natildeo Supervisionada

bull Nuacutemero preacute-determinado de intervalos uniformesndash (equal-interval binning)

bull No exemplo (temperatura) 64 65 68 69 70 71 72 72 75 75 80 81 83 85bull Bins com largura 6 x le 60

60 lt x le 6666 lt x le 7272 lt x le 7878 lt x le 8484 lt x le 90

Meacutetodos de Discretizaccedilatildeo Natildeo Supervisionada

bull Nuacutemero preacute-determinado de intervalos uniformesndash (equal-interval binning)

bull No exemplo (temperatura)64 65 68 69 70 71 72 72 75 75 80 81 83 85

bull Bins com largura 6 x le 60 na60 lt x le 66 64 6566 lt x le 72 68 69 70 71 72 7272 lt x le 78 75 7578 lt x le 84 80 81 8384 lt x le 90 85

Meacutetodos de Discretizaccedilatildeo Natildeo Supervisionada

bull Equal-interval binning Problemasbull Como qualquer meacutetodo natildeo

supervisionado arrisca destruir distinccedilotildees uacuteteis devido a divisotildees muito grandes ou fronteiras inadequadas

bull Distribuiccedilatildeo das amostras muito irregular com algumas bins com muitas amostras e outras com poucas amostras

Meacutetodos de Discretizaccedilatildeo Natildeo Supervisionada

bull Nuacutemero uniforme de amostras por intervalondash (equal-frequency binning)

bull Tambeacutem chamado de equalizaccedilatildeo do histograma

bull Cada bin tem o mesmo nuacutemero aproximado de amostras

bull Histograma eacute planobull Heuriacutestica para o nuacutemero de bins radicNbull N = nuacutemero de amostras

Meacutetodos de Discretizaccedilatildeo Natildeo Supervisionada

bull Nuacutemero uniforme de amostras por intervalondash (equal-frequency binning)

bull No exemplo (temperatura)bull 64 65 68 69 |70 71 72 72 |75 75 80| 81 83 85bull 14 amostras 4 Bins

ndash x le 695 64 65 68 69ndash 695 lt x le 735 70 71 72 72ndash 735 lt x le 805 75 75 80ndash x gt 805 81 83 85

Meacutetodos de Discretizaccedilatildeo Natildeo Supervisionada

bull Agrupamento (Clustering)

bull Pode-se aplicar um algoritmo de agrupamento

bull no caso unidimensional

bull Para cada grupo (cluster) atribuir um valor discreto

Transformar

Anaacutelise de Componentes Principais (PCA)

bull Dado um conjunto D com n instacircncias e p atributos (x1 x2 xp) uma transformaccedilatildeo linear para um novo conjunto de atributos z1 z2 zp pode ser calculada como

bull Componentes Principais (PCs) satildeo tipos especiacuteficos de combinaccedilotildees lineares que satildeo escolhidas de tal modo que zp (PCs) tenham as seguintes caracteriacutesticas

z1 = a11 x1 + a21 x2 + + ap1 xp

z2 = a12 x1 + a22 x2 + + ap2 xp

zp = a1p x1 + a2p x2 + + app xp

PCA Caracteriacutesticas

bull As p componentes principais (PC) satildeo natildeo-correlacionadas (independentes)

bull As PCs satildeo ordenadas de acordo com quantidade da variacircncia dos dados originais que elas contecircm (ordem decrescente)ndash A primeira PC ldquoexplicardquo (conteacutem) a maior porcentagem da

variabilidade do conjunto de dados originalndash A segunda PC define a proacutexima maior parte e assim por diantendash Em geral apenas algumas das primeiras PCs satildeo responsaacuteveis

pela maior parte da variabilidade do conjunto de dadosndash O restante das PCs tem uma contribuiccedilatildeo insignificante

bull PCA eacute usada em Aprendizado de Maacutequina principalmente para a reduccedilatildeo de dimensionalidade

PCA Caacutelculo

bull PCA pode reduzida ao problema de encontrar os auto-valores e auto-vetores da matriz de covariacircncia (ou correlaccedilatildeo) do conjunto de dados

bull A proporccedilatildeo da variacircncia do conjunto de dados originais explicada pela i-eacutesima PC eacute igual ao i-eacutesimo auto-valor divido pela soma de todos os p auto-valores

bull Ou seja as PCs satildeo ordenadas - decrescente - de acordo com os valores dos auto-valores

bull Quando os valores dos diferentes atributos estatildeo em diferentes escalas eacute preferiacutevel usar a matriz de correlaccedilatildeo em lugar da matriz de covariacircncia

Anaacutelise de Componentes Principais

bull Principais Limitaccedilotildees

ndash Assume apenas relaccedilotildees lineares entre os atributos

ndash A interpretaccedilatildeo dos resultados (eg classificador gerado) em termos dos atributos originais pode ficar mais difiacutecil

  • Slide 1
  • Slide 2
  • Slide 3
  • Slide 4
  • Slide 5
  • Slide 6
  • Slide 7
  • Slide 8
  • Slide 9
  • Slide 10
  • Slide 11
  • Slide 12
  • Slide 13
  • Slide 14
  • Slide 15
  • Slide 16
  • Slide 17
  • Slide 18
  • Slide 19
  • Slide 20
  • Slide 21
  • Slide 22
  • Slide 23
  • Slide 24
  • Slide 25
  • Slide 26
  • Slide 27
  • Slide 28
  • Slide 29
  • Slide 30
  • Slide 31
  • Slide 32
  • Slide 33
  • Slide 34
  • Slide 35
  • Slide 36
  • Slide 37
  • Slide 38
  • Slide 39
  • Slide 40
  • Slide 41
  • Slide 42
  • Slide 43
  • Slide 44
  • Slide 45
  • Slide 46
  • Slide 47
  • Slide 48
Page 23: Analise e Seleção de Variáveis. Tópicos Por que atributos irrelevantes são um problema Quais tipos de algoritmos de aprendizado são afetados Abordagens

Discretizaccedilatildeo de Variaacuteveis Contiacutenuas

bull Discretizaccedilatildeo pelo Meacutetodo 1R (1-rule)bull Sub-produto de uma teacutecnica de extraccedilatildeo

automaacutetica de regrasbull Utiliza as classes de saiacuteda para discretizar

cada atributo de entrada separadamentebull Ex Base de dados hipoteacutetica de

meteorologia x decisatildeo de realizar ou natildeo um certo jogo

Discretizaccedilatildeo pelo Meacutetodo 1R (1-rule)

bull Base de Dados Meteoroloacutegicosbull Tempo Temperatura Umidade Vento Jogar (CLASSE)

Sol 85 85 Natildeo NatildeoSol 80 90 Sim NatildeoNublado 83 86 Natildeo SimChuva 70 96 Natildeo SimChuva 68 80 Natildeo SimChuva 65 70 Sim NatildeoNublado 64 65 Sim SimSol 72 95 Natildeo NatildeoSol 69 70 Natildeo SimChuva 75 80 Natildeo SimSol 75 70 Sim SimNublado 72 90 Sim SimNublado 81 75 Natildeo SimChuva 71 91 Sim Natildeo

Discretizaccedilatildeo pelo Meacutetodo 1R (1-rule)

Discretizaccedilatildeo de Variaacuteveis Contiacutenuas

bull Discretizaccedilatildeo Natildeo-Supervisionadandash O meacutetodo 1R eacute supervisionado Considera a

variaacutevel de saiacuteda (classe) na discretizaccedilatildeo

bull Meacutetodos Natildeo Supervisionados consideram somente o atributo a ser discretizadondash Satildeo a uacutenica opccedilatildeo no caso de problemas de

agrupamento (clustering) onde natildeo se conhecem as classes de saiacuteda

bull Trecircs abordagens baacutesicasndash Nuacutemero preacute-determinado de intervalos

bull uniformes (equal-interval binning)

ndash Nuacutemero uniforme de amostras por intervalobull (equal-frequency binning)

ndash Agrupamento (clustering) intervalos arbitraacuterios

Meacutetodos de Discretizaccedilatildeo Natildeo Supervisionada

bull Nuacutemero preacute-determinado de intervalos uniformesndash (equal-interval binning)

bull No exemplo (temperatura) 64 65 68 69 70 71 72 72 75 75 80 81 83 85bull Bins com largura 6 x le 60

60 lt x le 6666 lt x le 7272 lt x le 7878 lt x le 8484 lt x le 90

Meacutetodos de Discretizaccedilatildeo Natildeo Supervisionada

bull Nuacutemero preacute-determinado de intervalos uniformesndash (equal-interval binning)

bull No exemplo (temperatura)64 65 68 69 70 71 72 72 75 75 80 81 83 85

bull Bins com largura 6 x le 60 na60 lt x le 66 64 6566 lt x le 72 68 69 70 71 72 7272 lt x le 78 75 7578 lt x le 84 80 81 8384 lt x le 90 85

Meacutetodos de Discretizaccedilatildeo Natildeo Supervisionada

bull Equal-interval binning Problemasbull Como qualquer meacutetodo natildeo

supervisionado arrisca destruir distinccedilotildees uacuteteis devido a divisotildees muito grandes ou fronteiras inadequadas

bull Distribuiccedilatildeo das amostras muito irregular com algumas bins com muitas amostras e outras com poucas amostras

Meacutetodos de Discretizaccedilatildeo Natildeo Supervisionada

bull Nuacutemero uniforme de amostras por intervalondash (equal-frequency binning)

bull Tambeacutem chamado de equalizaccedilatildeo do histograma

bull Cada bin tem o mesmo nuacutemero aproximado de amostras

bull Histograma eacute planobull Heuriacutestica para o nuacutemero de bins radicNbull N = nuacutemero de amostras

Meacutetodos de Discretizaccedilatildeo Natildeo Supervisionada

bull Nuacutemero uniforme de amostras por intervalondash (equal-frequency binning)

bull No exemplo (temperatura)bull 64 65 68 69 |70 71 72 72 |75 75 80| 81 83 85bull 14 amostras 4 Bins

ndash x le 695 64 65 68 69ndash 695 lt x le 735 70 71 72 72ndash 735 lt x le 805 75 75 80ndash x gt 805 81 83 85

Meacutetodos de Discretizaccedilatildeo Natildeo Supervisionada

bull Agrupamento (Clustering)

bull Pode-se aplicar um algoritmo de agrupamento

bull no caso unidimensional

bull Para cada grupo (cluster) atribuir um valor discreto

Transformar

Anaacutelise de Componentes Principais (PCA)

bull Dado um conjunto D com n instacircncias e p atributos (x1 x2 xp) uma transformaccedilatildeo linear para um novo conjunto de atributos z1 z2 zp pode ser calculada como

bull Componentes Principais (PCs) satildeo tipos especiacuteficos de combinaccedilotildees lineares que satildeo escolhidas de tal modo que zp (PCs) tenham as seguintes caracteriacutesticas

z1 = a11 x1 + a21 x2 + + ap1 xp

z2 = a12 x1 + a22 x2 + + ap2 xp

zp = a1p x1 + a2p x2 + + app xp

PCA Caracteriacutesticas

bull As p componentes principais (PC) satildeo natildeo-correlacionadas (independentes)

bull As PCs satildeo ordenadas de acordo com quantidade da variacircncia dos dados originais que elas contecircm (ordem decrescente)ndash A primeira PC ldquoexplicardquo (conteacutem) a maior porcentagem da

variabilidade do conjunto de dados originalndash A segunda PC define a proacutexima maior parte e assim por diantendash Em geral apenas algumas das primeiras PCs satildeo responsaacuteveis

pela maior parte da variabilidade do conjunto de dadosndash O restante das PCs tem uma contribuiccedilatildeo insignificante

bull PCA eacute usada em Aprendizado de Maacutequina principalmente para a reduccedilatildeo de dimensionalidade

PCA Caacutelculo

bull PCA pode reduzida ao problema de encontrar os auto-valores e auto-vetores da matriz de covariacircncia (ou correlaccedilatildeo) do conjunto de dados

bull A proporccedilatildeo da variacircncia do conjunto de dados originais explicada pela i-eacutesima PC eacute igual ao i-eacutesimo auto-valor divido pela soma de todos os p auto-valores

bull Ou seja as PCs satildeo ordenadas - decrescente - de acordo com os valores dos auto-valores

bull Quando os valores dos diferentes atributos estatildeo em diferentes escalas eacute preferiacutevel usar a matriz de correlaccedilatildeo em lugar da matriz de covariacircncia

Anaacutelise de Componentes Principais

bull Principais Limitaccedilotildees

ndash Assume apenas relaccedilotildees lineares entre os atributos

ndash A interpretaccedilatildeo dos resultados (eg classificador gerado) em termos dos atributos originais pode ficar mais difiacutecil

  • Slide 1
  • Slide 2
  • Slide 3
  • Slide 4
  • Slide 5
  • Slide 6
  • Slide 7
  • Slide 8
  • Slide 9
  • Slide 10
  • Slide 11
  • Slide 12
  • Slide 13
  • Slide 14
  • Slide 15
  • Slide 16
  • Slide 17
  • Slide 18
  • Slide 19
  • Slide 20
  • Slide 21
  • Slide 22
  • Slide 23
  • Slide 24
  • Slide 25
  • Slide 26
  • Slide 27
  • Slide 28
  • Slide 29
  • Slide 30
  • Slide 31
  • Slide 32
  • Slide 33
  • Slide 34
  • Slide 35
  • Slide 36
  • Slide 37
  • Slide 38
  • Slide 39
  • Slide 40
  • Slide 41
  • Slide 42
  • Slide 43
  • Slide 44
  • Slide 45
  • Slide 46
  • Slide 47
  • Slide 48
Page 24: Analise e Seleção de Variáveis. Tópicos Por que atributos irrelevantes são um problema Quais tipos de algoritmos de aprendizado são afetados Abordagens

Discretizaccedilatildeo pelo Meacutetodo 1R (1-rule)

bull Base de Dados Meteoroloacutegicosbull Tempo Temperatura Umidade Vento Jogar (CLASSE)

Sol 85 85 Natildeo NatildeoSol 80 90 Sim NatildeoNublado 83 86 Natildeo SimChuva 70 96 Natildeo SimChuva 68 80 Natildeo SimChuva 65 70 Sim NatildeoNublado 64 65 Sim SimSol 72 95 Natildeo NatildeoSol 69 70 Natildeo SimChuva 75 80 Natildeo SimSol 75 70 Sim SimNublado 72 90 Sim SimNublado 81 75 Natildeo SimChuva 71 91 Sim Natildeo

Discretizaccedilatildeo pelo Meacutetodo 1R (1-rule)

Discretizaccedilatildeo de Variaacuteveis Contiacutenuas

bull Discretizaccedilatildeo Natildeo-Supervisionadandash O meacutetodo 1R eacute supervisionado Considera a

variaacutevel de saiacuteda (classe) na discretizaccedilatildeo

bull Meacutetodos Natildeo Supervisionados consideram somente o atributo a ser discretizadondash Satildeo a uacutenica opccedilatildeo no caso de problemas de

agrupamento (clustering) onde natildeo se conhecem as classes de saiacuteda

bull Trecircs abordagens baacutesicasndash Nuacutemero preacute-determinado de intervalos

bull uniformes (equal-interval binning)

ndash Nuacutemero uniforme de amostras por intervalobull (equal-frequency binning)

ndash Agrupamento (clustering) intervalos arbitraacuterios

Meacutetodos de Discretizaccedilatildeo Natildeo Supervisionada

bull Nuacutemero preacute-determinado de intervalos uniformesndash (equal-interval binning)

bull No exemplo (temperatura) 64 65 68 69 70 71 72 72 75 75 80 81 83 85bull Bins com largura 6 x le 60

60 lt x le 6666 lt x le 7272 lt x le 7878 lt x le 8484 lt x le 90

Meacutetodos de Discretizaccedilatildeo Natildeo Supervisionada

bull Nuacutemero preacute-determinado de intervalos uniformesndash (equal-interval binning)

bull No exemplo (temperatura)64 65 68 69 70 71 72 72 75 75 80 81 83 85

bull Bins com largura 6 x le 60 na60 lt x le 66 64 6566 lt x le 72 68 69 70 71 72 7272 lt x le 78 75 7578 lt x le 84 80 81 8384 lt x le 90 85

Meacutetodos de Discretizaccedilatildeo Natildeo Supervisionada

bull Equal-interval binning Problemasbull Como qualquer meacutetodo natildeo

supervisionado arrisca destruir distinccedilotildees uacuteteis devido a divisotildees muito grandes ou fronteiras inadequadas

bull Distribuiccedilatildeo das amostras muito irregular com algumas bins com muitas amostras e outras com poucas amostras

Meacutetodos de Discretizaccedilatildeo Natildeo Supervisionada

bull Nuacutemero uniforme de amostras por intervalondash (equal-frequency binning)

bull Tambeacutem chamado de equalizaccedilatildeo do histograma

bull Cada bin tem o mesmo nuacutemero aproximado de amostras

bull Histograma eacute planobull Heuriacutestica para o nuacutemero de bins radicNbull N = nuacutemero de amostras

Meacutetodos de Discretizaccedilatildeo Natildeo Supervisionada

bull Nuacutemero uniforme de amostras por intervalondash (equal-frequency binning)

bull No exemplo (temperatura)bull 64 65 68 69 |70 71 72 72 |75 75 80| 81 83 85bull 14 amostras 4 Bins

ndash x le 695 64 65 68 69ndash 695 lt x le 735 70 71 72 72ndash 735 lt x le 805 75 75 80ndash x gt 805 81 83 85

Meacutetodos de Discretizaccedilatildeo Natildeo Supervisionada

bull Agrupamento (Clustering)

bull Pode-se aplicar um algoritmo de agrupamento

bull no caso unidimensional

bull Para cada grupo (cluster) atribuir um valor discreto

Transformar

Anaacutelise de Componentes Principais (PCA)

bull Dado um conjunto D com n instacircncias e p atributos (x1 x2 xp) uma transformaccedilatildeo linear para um novo conjunto de atributos z1 z2 zp pode ser calculada como

bull Componentes Principais (PCs) satildeo tipos especiacuteficos de combinaccedilotildees lineares que satildeo escolhidas de tal modo que zp (PCs) tenham as seguintes caracteriacutesticas

z1 = a11 x1 + a21 x2 + + ap1 xp

z2 = a12 x1 + a22 x2 + + ap2 xp

zp = a1p x1 + a2p x2 + + app xp

PCA Caracteriacutesticas

bull As p componentes principais (PC) satildeo natildeo-correlacionadas (independentes)

bull As PCs satildeo ordenadas de acordo com quantidade da variacircncia dos dados originais que elas contecircm (ordem decrescente)ndash A primeira PC ldquoexplicardquo (conteacutem) a maior porcentagem da

variabilidade do conjunto de dados originalndash A segunda PC define a proacutexima maior parte e assim por diantendash Em geral apenas algumas das primeiras PCs satildeo responsaacuteveis

pela maior parte da variabilidade do conjunto de dadosndash O restante das PCs tem uma contribuiccedilatildeo insignificante

bull PCA eacute usada em Aprendizado de Maacutequina principalmente para a reduccedilatildeo de dimensionalidade

PCA Caacutelculo

bull PCA pode reduzida ao problema de encontrar os auto-valores e auto-vetores da matriz de covariacircncia (ou correlaccedilatildeo) do conjunto de dados

bull A proporccedilatildeo da variacircncia do conjunto de dados originais explicada pela i-eacutesima PC eacute igual ao i-eacutesimo auto-valor divido pela soma de todos os p auto-valores

bull Ou seja as PCs satildeo ordenadas - decrescente - de acordo com os valores dos auto-valores

bull Quando os valores dos diferentes atributos estatildeo em diferentes escalas eacute preferiacutevel usar a matriz de correlaccedilatildeo em lugar da matriz de covariacircncia

Anaacutelise de Componentes Principais

bull Principais Limitaccedilotildees

ndash Assume apenas relaccedilotildees lineares entre os atributos

ndash A interpretaccedilatildeo dos resultados (eg classificador gerado) em termos dos atributos originais pode ficar mais difiacutecil

  • Slide 1
  • Slide 2
  • Slide 3
  • Slide 4
  • Slide 5
  • Slide 6
  • Slide 7
  • Slide 8
  • Slide 9
  • Slide 10
  • Slide 11
  • Slide 12
  • Slide 13
  • Slide 14
  • Slide 15
  • Slide 16
  • Slide 17
  • Slide 18
  • Slide 19
  • Slide 20
  • Slide 21
  • Slide 22
  • Slide 23
  • Slide 24
  • Slide 25
  • Slide 26
  • Slide 27
  • Slide 28
  • Slide 29
  • Slide 30
  • Slide 31
  • Slide 32
  • Slide 33
  • Slide 34
  • Slide 35
  • Slide 36
  • Slide 37
  • Slide 38
  • Slide 39
  • Slide 40
  • Slide 41
  • Slide 42
  • Slide 43
  • Slide 44
  • Slide 45
  • Slide 46
  • Slide 47
  • Slide 48
Page 25: Analise e Seleção de Variáveis. Tópicos Por que atributos irrelevantes são um problema Quais tipos de algoritmos de aprendizado são afetados Abordagens

Discretizaccedilatildeo pelo Meacutetodo 1R (1-rule)

Discretizaccedilatildeo de Variaacuteveis Contiacutenuas

bull Discretizaccedilatildeo Natildeo-Supervisionadandash O meacutetodo 1R eacute supervisionado Considera a

variaacutevel de saiacuteda (classe) na discretizaccedilatildeo

bull Meacutetodos Natildeo Supervisionados consideram somente o atributo a ser discretizadondash Satildeo a uacutenica opccedilatildeo no caso de problemas de

agrupamento (clustering) onde natildeo se conhecem as classes de saiacuteda

bull Trecircs abordagens baacutesicasndash Nuacutemero preacute-determinado de intervalos

bull uniformes (equal-interval binning)

ndash Nuacutemero uniforme de amostras por intervalobull (equal-frequency binning)

ndash Agrupamento (clustering) intervalos arbitraacuterios

Meacutetodos de Discretizaccedilatildeo Natildeo Supervisionada

bull Nuacutemero preacute-determinado de intervalos uniformesndash (equal-interval binning)

bull No exemplo (temperatura) 64 65 68 69 70 71 72 72 75 75 80 81 83 85bull Bins com largura 6 x le 60

60 lt x le 6666 lt x le 7272 lt x le 7878 lt x le 8484 lt x le 90

Meacutetodos de Discretizaccedilatildeo Natildeo Supervisionada

bull Nuacutemero preacute-determinado de intervalos uniformesndash (equal-interval binning)

bull No exemplo (temperatura)64 65 68 69 70 71 72 72 75 75 80 81 83 85

bull Bins com largura 6 x le 60 na60 lt x le 66 64 6566 lt x le 72 68 69 70 71 72 7272 lt x le 78 75 7578 lt x le 84 80 81 8384 lt x le 90 85

Meacutetodos de Discretizaccedilatildeo Natildeo Supervisionada

bull Equal-interval binning Problemasbull Como qualquer meacutetodo natildeo

supervisionado arrisca destruir distinccedilotildees uacuteteis devido a divisotildees muito grandes ou fronteiras inadequadas

bull Distribuiccedilatildeo das amostras muito irregular com algumas bins com muitas amostras e outras com poucas amostras

Meacutetodos de Discretizaccedilatildeo Natildeo Supervisionada

bull Nuacutemero uniforme de amostras por intervalondash (equal-frequency binning)

bull Tambeacutem chamado de equalizaccedilatildeo do histograma

bull Cada bin tem o mesmo nuacutemero aproximado de amostras

bull Histograma eacute planobull Heuriacutestica para o nuacutemero de bins radicNbull N = nuacutemero de amostras

Meacutetodos de Discretizaccedilatildeo Natildeo Supervisionada

bull Nuacutemero uniforme de amostras por intervalondash (equal-frequency binning)

bull No exemplo (temperatura)bull 64 65 68 69 |70 71 72 72 |75 75 80| 81 83 85bull 14 amostras 4 Bins

ndash x le 695 64 65 68 69ndash 695 lt x le 735 70 71 72 72ndash 735 lt x le 805 75 75 80ndash x gt 805 81 83 85

Meacutetodos de Discretizaccedilatildeo Natildeo Supervisionada

bull Agrupamento (Clustering)

bull Pode-se aplicar um algoritmo de agrupamento

bull no caso unidimensional

bull Para cada grupo (cluster) atribuir um valor discreto

Transformar

Anaacutelise de Componentes Principais (PCA)

bull Dado um conjunto D com n instacircncias e p atributos (x1 x2 xp) uma transformaccedilatildeo linear para um novo conjunto de atributos z1 z2 zp pode ser calculada como

bull Componentes Principais (PCs) satildeo tipos especiacuteficos de combinaccedilotildees lineares que satildeo escolhidas de tal modo que zp (PCs) tenham as seguintes caracteriacutesticas

z1 = a11 x1 + a21 x2 + + ap1 xp

z2 = a12 x1 + a22 x2 + + ap2 xp

zp = a1p x1 + a2p x2 + + app xp

PCA Caracteriacutesticas

bull As p componentes principais (PC) satildeo natildeo-correlacionadas (independentes)

bull As PCs satildeo ordenadas de acordo com quantidade da variacircncia dos dados originais que elas contecircm (ordem decrescente)ndash A primeira PC ldquoexplicardquo (conteacutem) a maior porcentagem da

variabilidade do conjunto de dados originalndash A segunda PC define a proacutexima maior parte e assim por diantendash Em geral apenas algumas das primeiras PCs satildeo responsaacuteveis

pela maior parte da variabilidade do conjunto de dadosndash O restante das PCs tem uma contribuiccedilatildeo insignificante

bull PCA eacute usada em Aprendizado de Maacutequina principalmente para a reduccedilatildeo de dimensionalidade

PCA Caacutelculo

bull PCA pode reduzida ao problema de encontrar os auto-valores e auto-vetores da matriz de covariacircncia (ou correlaccedilatildeo) do conjunto de dados

bull A proporccedilatildeo da variacircncia do conjunto de dados originais explicada pela i-eacutesima PC eacute igual ao i-eacutesimo auto-valor divido pela soma de todos os p auto-valores

bull Ou seja as PCs satildeo ordenadas - decrescente - de acordo com os valores dos auto-valores

bull Quando os valores dos diferentes atributos estatildeo em diferentes escalas eacute preferiacutevel usar a matriz de correlaccedilatildeo em lugar da matriz de covariacircncia

Anaacutelise de Componentes Principais

bull Principais Limitaccedilotildees

ndash Assume apenas relaccedilotildees lineares entre os atributos

ndash A interpretaccedilatildeo dos resultados (eg classificador gerado) em termos dos atributos originais pode ficar mais difiacutecil

  • Slide 1
  • Slide 2
  • Slide 3
  • Slide 4
  • Slide 5
  • Slide 6
  • Slide 7
  • Slide 8
  • Slide 9
  • Slide 10
  • Slide 11
  • Slide 12
  • Slide 13
  • Slide 14
  • Slide 15
  • Slide 16
  • Slide 17
  • Slide 18
  • Slide 19
  • Slide 20
  • Slide 21
  • Slide 22
  • Slide 23
  • Slide 24
  • Slide 25
  • Slide 26
  • Slide 27
  • Slide 28
  • Slide 29
  • Slide 30
  • Slide 31
  • Slide 32
  • Slide 33
  • Slide 34
  • Slide 35
  • Slide 36
  • Slide 37
  • Slide 38
  • Slide 39
  • Slide 40
  • Slide 41
  • Slide 42
  • Slide 43
  • Slide 44
  • Slide 45
  • Slide 46
  • Slide 47
  • Slide 48
Page 26: Analise e Seleção de Variáveis. Tópicos Por que atributos irrelevantes são um problema Quais tipos de algoritmos de aprendizado são afetados Abordagens

Discretizaccedilatildeo de Variaacuteveis Contiacutenuas

bull Discretizaccedilatildeo Natildeo-Supervisionadandash O meacutetodo 1R eacute supervisionado Considera a

variaacutevel de saiacuteda (classe) na discretizaccedilatildeo

bull Meacutetodos Natildeo Supervisionados consideram somente o atributo a ser discretizadondash Satildeo a uacutenica opccedilatildeo no caso de problemas de

agrupamento (clustering) onde natildeo se conhecem as classes de saiacuteda

bull Trecircs abordagens baacutesicasndash Nuacutemero preacute-determinado de intervalos

bull uniformes (equal-interval binning)

ndash Nuacutemero uniforme de amostras por intervalobull (equal-frequency binning)

ndash Agrupamento (clustering) intervalos arbitraacuterios

Meacutetodos de Discretizaccedilatildeo Natildeo Supervisionada

bull Nuacutemero preacute-determinado de intervalos uniformesndash (equal-interval binning)

bull No exemplo (temperatura) 64 65 68 69 70 71 72 72 75 75 80 81 83 85bull Bins com largura 6 x le 60

60 lt x le 6666 lt x le 7272 lt x le 7878 lt x le 8484 lt x le 90

Meacutetodos de Discretizaccedilatildeo Natildeo Supervisionada

bull Nuacutemero preacute-determinado de intervalos uniformesndash (equal-interval binning)

bull No exemplo (temperatura)64 65 68 69 70 71 72 72 75 75 80 81 83 85

bull Bins com largura 6 x le 60 na60 lt x le 66 64 6566 lt x le 72 68 69 70 71 72 7272 lt x le 78 75 7578 lt x le 84 80 81 8384 lt x le 90 85

Meacutetodos de Discretizaccedilatildeo Natildeo Supervisionada

bull Equal-interval binning Problemasbull Como qualquer meacutetodo natildeo

supervisionado arrisca destruir distinccedilotildees uacuteteis devido a divisotildees muito grandes ou fronteiras inadequadas

bull Distribuiccedilatildeo das amostras muito irregular com algumas bins com muitas amostras e outras com poucas amostras

Meacutetodos de Discretizaccedilatildeo Natildeo Supervisionada

bull Nuacutemero uniforme de amostras por intervalondash (equal-frequency binning)

bull Tambeacutem chamado de equalizaccedilatildeo do histograma

bull Cada bin tem o mesmo nuacutemero aproximado de amostras

bull Histograma eacute planobull Heuriacutestica para o nuacutemero de bins radicNbull N = nuacutemero de amostras

Meacutetodos de Discretizaccedilatildeo Natildeo Supervisionada

bull Nuacutemero uniforme de amostras por intervalondash (equal-frequency binning)

bull No exemplo (temperatura)bull 64 65 68 69 |70 71 72 72 |75 75 80| 81 83 85bull 14 amostras 4 Bins

ndash x le 695 64 65 68 69ndash 695 lt x le 735 70 71 72 72ndash 735 lt x le 805 75 75 80ndash x gt 805 81 83 85

Meacutetodos de Discretizaccedilatildeo Natildeo Supervisionada

bull Agrupamento (Clustering)

bull Pode-se aplicar um algoritmo de agrupamento

bull no caso unidimensional

bull Para cada grupo (cluster) atribuir um valor discreto

Transformar

Anaacutelise de Componentes Principais (PCA)

bull Dado um conjunto D com n instacircncias e p atributos (x1 x2 xp) uma transformaccedilatildeo linear para um novo conjunto de atributos z1 z2 zp pode ser calculada como

bull Componentes Principais (PCs) satildeo tipos especiacuteficos de combinaccedilotildees lineares que satildeo escolhidas de tal modo que zp (PCs) tenham as seguintes caracteriacutesticas

z1 = a11 x1 + a21 x2 + + ap1 xp

z2 = a12 x1 + a22 x2 + + ap2 xp

zp = a1p x1 + a2p x2 + + app xp

PCA Caracteriacutesticas

bull As p componentes principais (PC) satildeo natildeo-correlacionadas (independentes)

bull As PCs satildeo ordenadas de acordo com quantidade da variacircncia dos dados originais que elas contecircm (ordem decrescente)ndash A primeira PC ldquoexplicardquo (conteacutem) a maior porcentagem da

variabilidade do conjunto de dados originalndash A segunda PC define a proacutexima maior parte e assim por diantendash Em geral apenas algumas das primeiras PCs satildeo responsaacuteveis

pela maior parte da variabilidade do conjunto de dadosndash O restante das PCs tem uma contribuiccedilatildeo insignificante

bull PCA eacute usada em Aprendizado de Maacutequina principalmente para a reduccedilatildeo de dimensionalidade

PCA Caacutelculo

bull PCA pode reduzida ao problema de encontrar os auto-valores e auto-vetores da matriz de covariacircncia (ou correlaccedilatildeo) do conjunto de dados

bull A proporccedilatildeo da variacircncia do conjunto de dados originais explicada pela i-eacutesima PC eacute igual ao i-eacutesimo auto-valor divido pela soma de todos os p auto-valores

bull Ou seja as PCs satildeo ordenadas - decrescente - de acordo com os valores dos auto-valores

bull Quando os valores dos diferentes atributos estatildeo em diferentes escalas eacute preferiacutevel usar a matriz de correlaccedilatildeo em lugar da matriz de covariacircncia

Anaacutelise de Componentes Principais

bull Principais Limitaccedilotildees

ndash Assume apenas relaccedilotildees lineares entre os atributos

ndash A interpretaccedilatildeo dos resultados (eg classificador gerado) em termos dos atributos originais pode ficar mais difiacutecil

  • Slide 1
  • Slide 2
  • Slide 3
  • Slide 4
  • Slide 5
  • Slide 6
  • Slide 7
  • Slide 8
  • Slide 9
  • Slide 10
  • Slide 11
  • Slide 12
  • Slide 13
  • Slide 14
  • Slide 15
  • Slide 16
  • Slide 17
  • Slide 18
  • Slide 19
  • Slide 20
  • Slide 21
  • Slide 22
  • Slide 23
  • Slide 24
  • Slide 25
  • Slide 26
  • Slide 27
  • Slide 28
  • Slide 29
  • Slide 30
  • Slide 31
  • Slide 32
  • Slide 33
  • Slide 34
  • Slide 35
  • Slide 36
  • Slide 37
  • Slide 38
  • Slide 39
  • Slide 40
  • Slide 41
  • Slide 42
  • Slide 43
  • Slide 44
  • Slide 45
  • Slide 46
  • Slide 47
  • Slide 48
Page 27: Analise e Seleção de Variáveis. Tópicos Por que atributos irrelevantes são um problema Quais tipos de algoritmos de aprendizado são afetados Abordagens

bull Trecircs abordagens baacutesicasndash Nuacutemero preacute-determinado de intervalos

bull uniformes (equal-interval binning)

ndash Nuacutemero uniforme de amostras por intervalobull (equal-frequency binning)

ndash Agrupamento (clustering) intervalos arbitraacuterios

Meacutetodos de Discretizaccedilatildeo Natildeo Supervisionada

bull Nuacutemero preacute-determinado de intervalos uniformesndash (equal-interval binning)

bull No exemplo (temperatura) 64 65 68 69 70 71 72 72 75 75 80 81 83 85bull Bins com largura 6 x le 60

60 lt x le 6666 lt x le 7272 lt x le 7878 lt x le 8484 lt x le 90

Meacutetodos de Discretizaccedilatildeo Natildeo Supervisionada

bull Nuacutemero preacute-determinado de intervalos uniformesndash (equal-interval binning)

bull No exemplo (temperatura)64 65 68 69 70 71 72 72 75 75 80 81 83 85

bull Bins com largura 6 x le 60 na60 lt x le 66 64 6566 lt x le 72 68 69 70 71 72 7272 lt x le 78 75 7578 lt x le 84 80 81 8384 lt x le 90 85

Meacutetodos de Discretizaccedilatildeo Natildeo Supervisionada

bull Equal-interval binning Problemasbull Como qualquer meacutetodo natildeo

supervisionado arrisca destruir distinccedilotildees uacuteteis devido a divisotildees muito grandes ou fronteiras inadequadas

bull Distribuiccedilatildeo das amostras muito irregular com algumas bins com muitas amostras e outras com poucas amostras

Meacutetodos de Discretizaccedilatildeo Natildeo Supervisionada

bull Nuacutemero uniforme de amostras por intervalondash (equal-frequency binning)

bull Tambeacutem chamado de equalizaccedilatildeo do histograma

bull Cada bin tem o mesmo nuacutemero aproximado de amostras

bull Histograma eacute planobull Heuriacutestica para o nuacutemero de bins radicNbull N = nuacutemero de amostras

Meacutetodos de Discretizaccedilatildeo Natildeo Supervisionada

bull Nuacutemero uniforme de amostras por intervalondash (equal-frequency binning)

bull No exemplo (temperatura)bull 64 65 68 69 |70 71 72 72 |75 75 80| 81 83 85bull 14 amostras 4 Bins

ndash x le 695 64 65 68 69ndash 695 lt x le 735 70 71 72 72ndash 735 lt x le 805 75 75 80ndash x gt 805 81 83 85

Meacutetodos de Discretizaccedilatildeo Natildeo Supervisionada

bull Agrupamento (Clustering)

bull Pode-se aplicar um algoritmo de agrupamento

bull no caso unidimensional

bull Para cada grupo (cluster) atribuir um valor discreto

Transformar

Anaacutelise de Componentes Principais (PCA)

bull Dado um conjunto D com n instacircncias e p atributos (x1 x2 xp) uma transformaccedilatildeo linear para um novo conjunto de atributos z1 z2 zp pode ser calculada como

bull Componentes Principais (PCs) satildeo tipos especiacuteficos de combinaccedilotildees lineares que satildeo escolhidas de tal modo que zp (PCs) tenham as seguintes caracteriacutesticas

z1 = a11 x1 + a21 x2 + + ap1 xp

z2 = a12 x1 + a22 x2 + + ap2 xp

zp = a1p x1 + a2p x2 + + app xp

PCA Caracteriacutesticas

bull As p componentes principais (PC) satildeo natildeo-correlacionadas (independentes)

bull As PCs satildeo ordenadas de acordo com quantidade da variacircncia dos dados originais que elas contecircm (ordem decrescente)ndash A primeira PC ldquoexplicardquo (conteacutem) a maior porcentagem da

variabilidade do conjunto de dados originalndash A segunda PC define a proacutexima maior parte e assim por diantendash Em geral apenas algumas das primeiras PCs satildeo responsaacuteveis

pela maior parte da variabilidade do conjunto de dadosndash O restante das PCs tem uma contribuiccedilatildeo insignificante

bull PCA eacute usada em Aprendizado de Maacutequina principalmente para a reduccedilatildeo de dimensionalidade

PCA Caacutelculo

bull PCA pode reduzida ao problema de encontrar os auto-valores e auto-vetores da matriz de covariacircncia (ou correlaccedilatildeo) do conjunto de dados

bull A proporccedilatildeo da variacircncia do conjunto de dados originais explicada pela i-eacutesima PC eacute igual ao i-eacutesimo auto-valor divido pela soma de todos os p auto-valores

bull Ou seja as PCs satildeo ordenadas - decrescente - de acordo com os valores dos auto-valores

bull Quando os valores dos diferentes atributos estatildeo em diferentes escalas eacute preferiacutevel usar a matriz de correlaccedilatildeo em lugar da matriz de covariacircncia

Anaacutelise de Componentes Principais

bull Principais Limitaccedilotildees

ndash Assume apenas relaccedilotildees lineares entre os atributos

ndash A interpretaccedilatildeo dos resultados (eg classificador gerado) em termos dos atributos originais pode ficar mais difiacutecil

  • Slide 1
  • Slide 2
  • Slide 3
  • Slide 4
  • Slide 5
  • Slide 6
  • Slide 7
  • Slide 8
  • Slide 9
  • Slide 10
  • Slide 11
  • Slide 12
  • Slide 13
  • Slide 14
  • Slide 15
  • Slide 16
  • Slide 17
  • Slide 18
  • Slide 19
  • Slide 20
  • Slide 21
  • Slide 22
  • Slide 23
  • Slide 24
  • Slide 25
  • Slide 26
  • Slide 27
  • Slide 28
  • Slide 29
  • Slide 30
  • Slide 31
  • Slide 32
  • Slide 33
  • Slide 34
  • Slide 35
  • Slide 36
  • Slide 37
  • Slide 38
  • Slide 39
  • Slide 40
  • Slide 41
  • Slide 42
  • Slide 43
  • Slide 44
  • Slide 45
  • Slide 46
  • Slide 47
  • Slide 48
Page 28: Analise e Seleção de Variáveis. Tópicos Por que atributos irrelevantes são um problema Quais tipos de algoritmos de aprendizado são afetados Abordagens

Meacutetodos de Discretizaccedilatildeo Natildeo Supervisionada

bull Nuacutemero preacute-determinado de intervalos uniformesndash (equal-interval binning)

bull No exemplo (temperatura) 64 65 68 69 70 71 72 72 75 75 80 81 83 85bull Bins com largura 6 x le 60

60 lt x le 6666 lt x le 7272 lt x le 7878 lt x le 8484 lt x le 90

Meacutetodos de Discretizaccedilatildeo Natildeo Supervisionada

bull Nuacutemero preacute-determinado de intervalos uniformesndash (equal-interval binning)

bull No exemplo (temperatura)64 65 68 69 70 71 72 72 75 75 80 81 83 85

bull Bins com largura 6 x le 60 na60 lt x le 66 64 6566 lt x le 72 68 69 70 71 72 7272 lt x le 78 75 7578 lt x le 84 80 81 8384 lt x le 90 85

Meacutetodos de Discretizaccedilatildeo Natildeo Supervisionada

bull Equal-interval binning Problemasbull Como qualquer meacutetodo natildeo

supervisionado arrisca destruir distinccedilotildees uacuteteis devido a divisotildees muito grandes ou fronteiras inadequadas

bull Distribuiccedilatildeo das amostras muito irregular com algumas bins com muitas amostras e outras com poucas amostras

Meacutetodos de Discretizaccedilatildeo Natildeo Supervisionada

bull Nuacutemero uniforme de amostras por intervalondash (equal-frequency binning)

bull Tambeacutem chamado de equalizaccedilatildeo do histograma

bull Cada bin tem o mesmo nuacutemero aproximado de amostras

bull Histograma eacute planobull Heuriacutestica para o nuacutemero de bins radicNbull N = nuacutemero de amostras

Meacutetodos de Discretizaccedilatildeo Natildeo Supervisionada

bull Nuacutemero uniforme de amostras por intervalondash (equal-frequency binning)

bull No exemplo (temperatura)bull 64 65 68 69 |70 71 72 72 |75 75 80| 81 83 85bull 14 amostras 4 Bins

ndash x le 695 64 65 68 69ndash 695 lt x le 735 70 71 72 72ndash 735 lt x le 805 75 75 80ndash x gt 805 81 83 85

Meacutetodos de Discretizaccedilatildeo Natildeo Supervisionada

bull Agrupamento (Clustering)

bull Pode-se aplicar um algoritmo de agrupamento

bull no caso unidimensional

bull Para cada grupo (cluster) atribuir um valor discreto

Transformar

Anaacutelise de Componentes Principais (PCA)

bull Dado um conjunto D com n instacircncias e p atributos (x1 x2 xp) uma transformaccedilatildeo linear para um novo conjunto de atributos z1 z2 zp pode ser calculada como

bull Componentes Principais (PCs) satildeo tipos especiacuteficos de combinaccedilotildees lineares que satildeo escolhidas de tal modo que zp (PCs) tenham as seguintes caracteriacutesticas

z1 = a11 x1 + a21 x2 + + ap1 xp

z2 = a12 x1 + a22 x2 + + ap2 xp

zp = a1p x1 + a2p x2 + + app xp

PCA Caracteriacutesticas

bull As p componentes principais (PC) satildeo natildeo-correlacionadas (independentes)

bull As PCs satildeo ordenadas de acordo com quantidade da variacircncia dos dados originais que elas contecircm (ordem decrescente)ndash A primeira PC ldquoexplicardquo (conteacutem) a maior porcentagem da

variabilidade do conjunto de dados originalndash A segunda PC define a proacutexima maior parte e assim por diantendash Em geral apenas algumas das primeiras PCs satildeo responsaacuteveis

pela maior parte da variabilidade do conjunto de dadosndash O restante das PCs tem uma contribuiccedilatildeo insignificante

bull PCA eacute usada em Aprendizado de Maacutequina principalmente para a reduccedilatildeo de dimensionalidade

PCA Caacutelculo

bull PCA pode reduzida ao problema de encontrar os auto-valores e auto-vetores da matriz de covariacircncia (ou correlaccedilatildeo) do conjunto de dados

bull A proporccedilatildeo da variacircncia do conjunto de dados originais explicada pela i-eacutesima PC eacute igual ao i-eacutesimo auto-valor divido pela soma de todos os p auto-valores

bull Ou seja as PCs satildeo ordenadas - decrescente - de acordo com os valores dos auto-valores

bull Quando os valores dos diferentes atributos estatildeo em diferentes escalas eacute preferiacutevel usar a matriz de correlaccedilatildeo em lugar da matriz de covariacircncia

Anaacutelise de Componentes Principais

bull Principais Limitaccedilotildees

ndash Assume apenas relaccedilotildees lineares entre os atributos

ndash A interpretaccedilatildeo dos resultados (eg classificador gerado) em termos dos atributos originais pode ficar mais difiacutecil

  • Slide 1
  • Slide 2
  • Slide 3
  • Slide 4
  • Slide 5
  • Slide 6
  • Slide 7
  • Slide 8
  • Slide 9
  • Slide 10
  • Slide 11
  • Slide 12
  • Slide 13
  • Slide 14
  • Slide 15
  • Slide 16
  • Slide 17
  • Slide 18
  • Slide 19
  • Slide 20
  • Slide 21
  • Slide 22
  • Slide 23
  • Slide 24
  • Slide 25
  • Slide 26
  • Slide 27
  • Slide 28
  • Slide 29
  • Slide 30
  • Slide 31
  • Slide 32
  • Slide 33
  • Slide 34
  • Slide 35
  • Slide 36
  • Slide 37
  • Slide 38
  • Slide 39
  • Slide 40
  • Slide 41
  • Slide 42
  • Slide 43
  • Slide 44
  • Slide 45
  • Slide 46
  • Slide 47
  • Slide 48
Page 29: Analise e Seleção de Variáveis. Tópicos Por que atributos irrelevantes são um problema Quais tipos de algoritmos de aprendizado são afetados Abordagens

Meacutetodos de Discretizaccedilatildeo Natildeo Supervisionada

bull Nuacutemero preacute-determinado de intervalos uniformesndash (equal-interval binning)

bull No exemplo (temperatura)64 65 68 69 70 71 72 72 75 75 80 81 83 85

bull Bins com largura 6 x le 60 na60 lt x le 66 64 6566 lt x le 72 68 69 70 71 72 7272 lt x le 78 75 7578 lt x le 84 80 81 8384 lt x le 90 85

Meacutetodos de Discretizaccedilatildeo Natildeo Supervisionada

bull Equal-interval binning Problemasbull Como qualquer meacutetodo natildeo

supervisionado arrisca destruir distinccedilotildees uacuteteis devido a divisotildees muito grandes ou fronteiras inadequadas

bull Distribuiccedilatildeo das amostras muito irregular com algumas bins com muitas amostras e outras com poucas amostras

Meacutetodos de Discretizaccedilatildeo Natildeo Supervisionada

bull Nuacutemero uniforme de amostras por intervalondash (equal-frequency binning)

bull Tambeacutem chamado de equalizaccedilatildeo do histograma

bull Cada bin tem o mesmo nuacutemero aproximado de amostras

bull Histograma eacute planobull Heuriacutestica para o nuacutemero de bins radicNbull N = nuacutemero de amostras

Meacutetodos de Discretizaccedilatildeo Natildeo Supervisionada

bull Nuacutemero uniforme de amostras por intervalondash (equal-frequency binning)

bull No exemplo (temperatura)bull 64 65 68 69 |70 71 72 72 |75 75 80| 81 83 85bull 14 amostras 4 Bins

ndash x le 695 64 65 68 69ndash 695 lt x le 735 70 71 72 72ndash 735 lt x le 805 75 75 80ndash x gt 805 81 83 85

Meacutetodos de Discretizaccedilatildeo Natildeo Supervisionada

bull Agrupamento (Clustering)

bull Pode-se aplicar um algoritmo de agrupamento

bull no caso unidimensional

bull Para cada grupo (cluster) atribuir um valor discreto

Transformar

Anaacutelise de Componentes Principais (PCA)

bull Dado um conjunto D com n instacircncias e p atributos (x1 x2 xp) uma transformaccedilatildeo linear para um novo conjunto de atributos z1 z2 zp pode ser calculada como

bull Componentes Principais (PCs) satildeo tipos especiacuteficos de combinaccedilotildees lineares que satildeo escolhidas de tal modo que zp (PCs) tenham as seguintes caracteriacutesticas

z1 = a11 x1 + a21 x2 + + ap1 xp

z2 = a12 x1 + a22 x2 + + ap2 xp

zp = a1p x1 + a2p x2 + + app xp

PCA Caracteriacutesticas

bull As p componentes principais (PC) satildeo natildeo-correlacionadas (independentes)

bull As PCs satildeo ordenadas de acordo com quantidade da variacircncia dos dados originais que elas contecircm (ordem decrescente)ndash A primeira PC ldquoexplicardquo (conteacutem) a maior porcentagem da

variabilidade do conjunto de dados originalndash A segunda PC define a proacutexima maior parte e assim por diantendash Em geral apenas algumas das primeiras PCs satildeo responsaacuteveis

pela maior parte da variabilidade do conjunto de dadosndash O restante das PCs tem uma contribuiccedilatildeo insignificante

bull PCA eacute usada em Aprendizado de Maacutequina principalmente para a reduccedilatildeo de dimensionalidade

PCA Caacutelculo

bull PCA pode reduzida ao problema de encontrar os auto-valores e auto-vetores da matriz de covariacircncia (ou correlaccedilatildeo) do conjunto de dados

bull A proporccedilatildeo da variacircncia do conjunto de dados originais explicada pela i-eacutesima PC eacute igual ao i-eacutesimo auto-valor divido pela soma de todos os p auto-valores

bull Ou seja as PCs satildeo ordenadas - decrescente - de acordo com os valores dos auto-valores

bull Quando os valores dos diferentes atributos estatildeo em diferentes escalas eacute preferiacutevel usar a matriz de correlaccedilatildeo em lugar da matriz de covariacircncia

Anaacutelise de Componentes Principais

bull Principais Limitaccedilotildees

ndash Assume apenas relaccedilotildees lineares entre os atributos

ndash A interpretaccedilatildeo dos resultados (eg classificador gerado) em termos dos atributos originais pode ficar mais difiacutecil

  • Slide 1
  • Slide 2
  • Slide 3
  • Slide 4
  • Slide 5
  • Slide 6
  • Slide 7
  • Slide 8
  • Slide 9
  • Slide 10
  • Slide 11
  • Slide 12
  • Slide 13
  • Slide 14
  • Slide 15
  • Slide 16
  • Slide 17
  • Slide 18
  • Slide 19
  • Slide 20
  • Slide 21
  • Slide 22
  • Slide 23
  • Slide 24
  • Slide 25
  • Slide 26
  • Slide 27
  • Slide 28
  • Slide 29
  • Slide 30
  • Slide 31
  • Slide 32
  • Slide 33
  • Slide 34
  • Slide 35
  • Slide 36
  • Slide 37
  • Slide 38
  • Slide 39
  • Slide 40
  • Slide 41
  • Slide 42
  • Slide 43
  • Slide 44
  • Slide 45
  • Slide 46
  • Slide 47
  • Slide 48
Page 30: Analise e Seleção de Variáveis. Tópicos Por que atributos irrelevantes são um problema Quais tipos de algoritmos de aprendizado são afetados Abordagens

Meacutetodos de Discretizaccedilatildeo Natildeo Supervisionada

bull Equal-interval binning Problemasbull Como qualquer meacutetodo natildeo

supervisionado arrisca destruir distinccedilotildees uacuteteis devido a divisotildees muito grandes ou fronteiras inadequadas

bull Distribuiccedilatildeo das amostras muito irregular com algumas bins com muitas amostras e outras com poucas amostras

Meacutetodos de Discretizaccedilatildeo Natildeo Supervisionada

bull Nuacutemero uniforme de amostras por intervalondash (equal-frequency binning)

bull Tambeacutem chamado de equalizaccedilatildeo do histograma

bull Cada bin tem o mesmo nuacutemero aproximado de amostras

bull Histograma eacute planobull Heuriacutestica para o nuacutemero de bins radicNbull N = nuacutemero de amostras

Meacutetodos de Discretizaccedilatildeo Natildeo Supervisionada

bull Nuacutemero uniforme de amostras por intervalondash (equal-frequency binning)

bull No exemplo (temperatura)bull 64 65 68 69 |70 71 72 72 |75 75 80| 81 83 85bull 14 amostras 4 Bins

ndash x le 695 64 65 68 69ndash 695 lt x le 735 70 71 72 72ndash 735 lt x le 805 75 75 80ndash x gt 805 81 83 85

Meacutetodos de Discretizaccedilatildeo Natildeo Supervisionada

bull Agrupamento (Clustering)

bull Pode-se aplicar um algoritmo de agrupamento

bull no caso unidimensional

bull Para cada grupo (cluster) atribuir um valor discreto

Transformar

Anaacutelise de Componentes Principais (PCA)

bull Dado um conjunto D com n instacircncias e p atributos (x1 x2 xp) uma transformaccedilatildeo linear para um novo conjunto de atributos z1 z2 zp pode ser calculada como

bull Componentes Principais (PCs) satildeo tipos especiacuteficos de combinaccedilotildees lineares que satildeo escolhidas de tal modo que zp (PCs) tenham as seguintes caracteriacutesticas

z1 = a11 x1 + a21 x2 + + ap1 xp

z2 = a12 x1 + a22 x2 + + ap2 xp

zp = a1p x1 + a2p x2 + + app xp

PCA Caracteriacutesticas

bull As p componentes principais (PC) satildeo natildeo-correlacionadas (independentes)

bull As PCs satildeo ordenadas de acordo com quantidade da variacircncia dos dados originais que elas contecircm (ordem decrescente)ndash A primeira PC ldquoexplicardquo (conteacutem) a maior porcentagem da

variabilidade do conjunto de dados originalndash A segunda PC define a proacutexima maior parte e assim por diantendash Em geral apenas algumas das primeiras PCs satildeo responsaacuteveis

pela maior parte da variabilidade do conjunto de dadosndash O restante das PCs tem uma contribuiccedilatildeo insignificante

bull PCA eacute usada em Aprendizado de Maacutequina principalmente para a reduccedilatildeo de dimensionalidade

PCA Caacutelculo

bull PCA pode reduzida ao problema de encontrar os auto-valores e auto-vetores da matriz de covariacircncia (ou correlaccedilatildeo) do conjunto de dados

bull A proporccedilatildeo da variacircncia do conjunto de dados originais explicada pela i-eacutesima PC eacute igual ao i-eacutesimo auto-valor divido pela soma de todos os p auto-valores

bull Ou seja as PCs satildeo ordenadas - decrescente - de acordo com os valores dos auto-valores

bull Quando os valores dos diferentes atributos estatildeo em diferentes escalas eacute preferiacutevel usar a matriz de correlaccedilatildeo em lugar da matriz de covariacircncia

Anaacutelise de Componentes Principais

bull Principais Limitaccedilotildees

ndash Assume apenas relaccedilotildees lineares entre os atributos

ndash A interpretaccedilatildeo dos resultados (eg classificador gerado) em termos dos atributos originais pode ficar mais difiacutecil

  • Slide 1
  • Slide 2
  • Slide 3
  • Slide 4
  • Slide 5
  • Slide 6
  • Slide 7
  • Slide 8
  • Slide 9
  • Slide 10
  • Slide 11
  • Slide 12
  • Slide 13
  • Slide 14
  • Slide 15
  • Slide 16
  • Slide 17
  • Slide 18
  • Slide 19
  • Slide 20
  • Slide 21
  • Slide 22
  • Slide 23
  • Slide 24
  • Slide 25
  • Slide 26
  • Slide 27
  • Slide 28
  • Slide 29
  • Slide 30
  • Slide 31
  • Slide 32
  • Slide 33
  • Slide 34
  • Slide 35
  • Slide 36
  • Slide 37
  • Slide 38
  • Slide 39
  • Slide 40
  • Slide 41
  • Slide 42
  • Slide 43
  • Slide 44
  • Slide 45
  • Slide 46
  • Slide 47
  • Slide 48
Page 31: Analise e Seleção de Variáveis. Tópicos Por que atributos irrelevantes são um problema Quais tipos de algoritmos de aprendizado são afetados Abordagens

Meacutetodos de Discretizaccedilatildeo Natildeo Supervisionada

bull Nuacutemero uniforme de amostras por intervalondash (equal-frequency binning)

bull Tambeacutem chamado de equalizaccedilatildeo do histograma

bull Cada bin tem o mesmo nuacutemero aproximado de amostras

bull Histograma eacute planobull Heuriacutestica para o nuacutemero de bins radicNbull N = nuacutemero de amostras

Meacutetodos de Discretizaccedilatildeo Natildeo Supervisionada

bull Nuacutemero uniforme de amostras por intervalondash (equal-frequency binning)

bull No exemplo (temperatura)bull 64 65 68 69 |70 71 72 72 |75 75 80| 81 83 85bull 14 amostras 4 Bins

ndash x le 695 64 65 68 69ndash 695 lt x le 735 70 71 72 72ndash 735 lt x le 805 75 75 80ndash x gt 805 81 83 85

Meacutetodos de Discretizaccedilatildeo Natildeo Supervisionada

bull Agrupamento (Clustering)

bull Pode-se aplicar um algoritmo de agrupamento

bull no caso unidimensional

bull Para cada grupo (cluster) atribuir um valor discreto

Transformar

Anaacutelise de Componentes Principais (PCA)

bull Dado um conjunto D com n instacircncias e p atributos (x1 x2 xp) uma transformaccedilatildeo linear para um novo conjunto de atributos z1 z2 zp pode ser calculada como

bull Componentes Principais (PCs) satildeo tipos especiacuteficos de combinaccedilotildees lineares que satildeo escolhidas de tal modo que zp (PCs) tenham as seguintes caracteriacutesticas

z1 = a11 x1 + a21 x2 + + ap1 xp

z2 = a12 x1 + a22 x2 + + ap2 xp

zp = a1p x1 + a2p x2 + + app xp

PCA Caracteriacutesticas

bull As p componentes principais (PC) satildeo natildeo-correlacionadas (independentes)

bull As PCs satildeo ordenadas de acordo com quantidade da variacircncia dos dados originais que elas contecircm (ordem decrescente)ndash A primeira PC ldquoexplicardquo (conteacutem) a maior porcentagem da

variabilidade do conjunto de dados originalndash A segunda PC define a proacutexima maior parte e assim por diantendash Em geral apenas algumas das primeiras PCs satildeo responsaacuteveis

pela maior parte da variabilidade do conjunto de dadosndash O restante das PCs tem uma contribuiccedilatildeo insignificante

bull PCA eacute usada em Aprendizado de Maacutequina principalmente para a reduccedilatildeo de dimensionalidade

PCA Caacutelculo

bull PCA pode reduzida ao problema de encontrar os auto-valores e auto-vetores da matriz de covariacircncia (ou correlaccedilatildeo) do conjunto de dados

bull A proporccedilatildeo da variacircncia do conjunto de dados originais explicada pela i-eacutesima PC eacute igual ao i-eacutesimo auto-valor divido pela soma de todos os p auto-valores

bull Ou seja as PCs satildeo ordenadas - decrescente - de acordo com os valores dos auto-valores

bull Quando os valores dos diferentes atributos estatildeo em diferentes escalas eacute preferiacutevel usar a matriz de correlaccedilatildeo em lugar da matriz de covariacircncia

Anaacutelise de Componentes Principais

bull Principais Limitaccedilotildees

ndash Assume apenas relaccedilotildees lineares entre os atributos

ndash A interpretaccedilatildeo dos resultados (eg classificador gerado) em termos dos atributos originais pode ficar mais difiacutecil

  • Slide 1
  • Slide 2
  • Slide 3
  • Slide 4
  • Slide 5
  • Slide 6
  • Slide 7
  • Slide 8
  • Slide 9
  • Slide 10
  • Slide 11
  • Slide 12
  • Slide 13
  • Slide 14
  • Slide 15
  • Slide 16
  • Slide 17
  • Slide 18
  • Slide 19
  • Slide 20
  • Slide 21
  • Slide 22
  • Slide 23
  • Slide 24
  • Slide 25
  • Slide 26
  • Slide 27
  • Slide 28
  • Slide 29
  • Slide 30
  • Slide 31
  • Slide 32
  • Slide 33
  • Slide 34
  • Slide 35
  • Slide 36
  • Slide 37
  • Slide 38
  • Slide 39
  • Slide 40
  • Slide 41
  • Slide 42
  • Slide 43
  • Slide 44
  • Slide 45
  • Slide 46
  • Slide 47
  • Slide 48
Page 32: Analise e Seleção de Variáveis. Tópicos Por que atributos irrelevantes são um problema Quais tipos de algoritmos de aprendizado são afetados Abordagens

Meacutetodos de Discretizaccedilatildeo Natildeo Supervisionada

bull Nuacutemero uniforme de amostras por intervalondash (equal-frequency binning)

bull No exemplo (temperatura)bull 64 65 68 69 |70 71 72 72 |75 75 80| 81 83 85bull 14 amostras 4 Bins

ndash x le 695 64 65 68 69ndash 695 lt x le 735 70 71 72 72ndash 735 lt x le 805 75 75 80ndash x gt 805 81 83 85

Meacutetodos de Discretizaccedilatildeo Natildeo Supervisionada

bull Agrupamento (Clustering)

bull Pode-se aplicar um algoritmo de agrupamento

bull no caso unidimensional

bull Para cada grupo (cluster) atribuir um valor discreto

Transformar

Anaacutelise de Componentes Principais (PCA)

bull Dado um conjunto D com n instacircncias e p atributos (x1 x2 xp) uma transformaccedilatildeo linear para um novo conjunto de atributos z1 z2 zp pode ser calculada como

bull Componentes Principais (PCs) satildeo tipos especiacuteficos de combinaccedilotildees lineares que satildeo escolhidas de tal modo que zp (PCs) tenham as seguintes caracteriacutesticas

z1 = a11 x1 + a21 x2 + + ap1 xp

z2 = a12 x1 + a22 x2 + + ap2 xp

zp = a1p x1 + a2p x2 + + app xp

PCA Caracteriacutesticas

bull As p componentes principais (PC) satildeo natildeo-correlacionadas (independentes)

bull As PCs satildeo ordenadas de acordo com quantidade da variacircncia dos dados originais que elas contecircm (ordem decrescente)ndash A primeira PC ldquoexplicardquo (conteacutem) a maior porcentagem da

variabilidade do conjunto de dados originalndash A segunda PC define a proacutexima maior parte e assim por diantendash Em geral apenas algumas das primeiras PCs satildeo responsaacuteveis

pela maior parte da variabilidade do conjunto de dadosndash O restante das PCs tem uma contribuiccedilatildeo insignificante

bull PCA eacute usada em Aprendizado de Maacutequina principalmente para a reduccedilatildeo de dimensionalidade

PCA Caacutelculo

bull PCA pode reduzida ao problema de encontrar os auto-valores e auto-vetores da matriz de covariacircncia (ou correlaccedilatildeo) do conjunto de dados

bull A proporccedilatildeo da variacircncia do conjunto de dados originais explicada pela i-eacutesima PC eacute igual ao i-eacutesimo auto-valor divido pela soma de todos os p auto-valores

bull Ou seja as PCs satildeo ordenadas - decrescente - de acordo com os valores dos auto-valores

bull Quando os valores dos diferentes atributos estatildeo em diferentes escalas eacute preferiacutevel usar a matriz de correlaccedilatildeo em lugar da matriz de covariacircncia

Anaacutelise de Componentes Principais

bull Principais Limitaccedilotildees

ndash Assume apenas relaccedilotildees lineares entre os atributos

ndash A interpretaccedilatildeo dos resultados (eg classificador gerado) em termos dos atributos originais pode ficar mais difiacutecil

  • Slide 1
  • Slide 2
  • Slide 3
  • Slide 4
  • Slide 5
  • Slide 6
  • Slide 7
  • Slide 8
  • Slide 9
  • Slide 10
  • Slide 11
  • Slide 12
  • Slide 13
  • Slide 14
  • Slide 15
  • Slide 16
  • Slide 17
  • Slide 18
  • Slide 19
  • Slide 20
  • Slide 21
  • Slide 22
  • Slide 23
  • Slide 24
  • Slide 25
  • Slide 26
  • Slide 27
  • Slide 28
  • Slide 29
  • Slide 30
  • Slide 31
  • Slide 32
  • Slide 33
  • Slide 34
  • Slide 35
  • Slide 36
  • Slide 37
  • Slide 38
  • Slide 39
  • Slide 40
  • Slide 41
  • Slide 42
  • Slide 43
  • Slide 44
  • Slide 45
  • Slide 46
  • Slide 47
  • Slide 48
Page 33: Analise e Seleção de Variáveis. Tópicos Por que atributos irrelevantes são um problema Quais tipos de algoritmos de aprendizado são afetados Abordagens

Meacutetodos de Discretizaccedilatildeo Natildeo Supervisionada

bull Agrupamento (Clustering)

bull Pode-se aplicar um algoritmo de agrupamento

bull no caso unidimensional

bull Para cada grupo (cluster) atribuir um valor discreto

Transformar

Anaacutelise de Componentes Principais (PCA)

bull Dado um conjunto D com n instacircncias e p atributos (x1 x2 xp) uma transformaccedilatildeo linear para um novo conjunto de atributos z1 z2 zp pode ser calculada como

bull Componentes Principais (PCs) satildeo tipos especiacuteficos de combinaccedilotildees lineares que satildeo escolhidas de tal modo que zp (PCs) tenham as seguintes caracteriacutesticas

z1 = a11 x1 + a21 x2 + + ap1 xp

z2 = a12 x1 + a22 x2 + + ap2 xp

zp = a1p x1 + a2p x2 + + app xp

PCA Caracteriacutesticas

bull As p componentes principais (PC) satildeo natildeo-correlacionadas (independentes)

bull As PCs satildeo ordenadas de acordo com quantidade da variacircncia dos dados originais que elas contecircm (ordem decrescente)ndash A primeira PC ldquoexplicardquo (conteacutem) a maior porcentagem da

variabilidade do conjunto de dados originalndash A segunda PC define a proacutexima maior parte e assim por diantendash Em geral apenas algumas das primeiras PCs satildeo responsaacuteveis

pela maior parte da variabilidade do conjunto de dadosndash O restante das PCs tem uma contribuiccedilatildeo insignificante

bull PCA eacute usada em Aprendizado de Maacutequina principalmente para a reduccedilatildeo de dimensionalidade

PCA Caacutelculo

bull PCA pode reduzida ao problema de encontrar os auto-valores e auto-vetores da matriz de covariacircncia (ou correlaccedilatildeo) do conjunto de dados

bull A proporccedilatildeo da variacircncia do conjunto de dados originais explicada pela i-eacutesima PC eacute igual ao i-eacutesimo auto-valor divido pela soma de todos os p auto-valores

bull Ou seja as PCs satildeo ordenadas - decrescente - de acordo com os valores dos auto-valores

bull Quando os valores dos diferentes atributos estatildeo em diferentes escalas eacute preferiacutevel usar a matriz de correlaccedilatildeo em lugar da matriz de covariacircncia

Anaacutelise de Componentes Principais

bull Principais Limitaccedilotildees

ndash Assume apenas relaccedilotildees lineares entre os atributos

ndash A interpretaccedilatildeo dos resultados (eg classificador gerado) em termos dos atributos originais pode ficar mais difiacutecil

  • Slide 1
  • Slide 2
  • Slide 3
  • Slide 4
  • Slide 5
  • Slide 6
  • Slide 7
  • Slide 8
  • Slide 9
  • Slide 10
  • Slide 11
  • Slide 12
  • Slide 13
  • Slide 14
  • Slide 15
  • Slide 16
  • Slide 17
  • Slide 18
  • Slide 19
  • Slide 20
  • Slide 21
  • Slide 22
  • Slide 23
  • Slide 24
  • Slide 25
  • Slide 26
  • Slide 27
  • Slide 28
  • Slide 29
  • Slide 30
  • Slide 31
  • Slide 32
  • Slide 33
  • Slide 34
  • Slide 35
  • Slide 36
  • Slide 37
  • Slide 38
  • Slide 39
  • Slide 40
  • Slide 41
  • Slide 42
  • Slide 43
  • Slide 44
  • Slide 45
  • Slide 46
  • Slide 47
  • Slide 48
Page 34: Analise e Seleção de Variáveis. Tópicos Por que atributos irrelevantes são um problema Quais tipos de algoritmos de aprendizado são afetados Abordagens

Transformar

Anaacutelise de Componentes Principais (PCA)

bull Dado um conjunto D com n instacircncias e p atributos (x1 x2 xp) uma transformaccedilatildeo linear para um novo conjunto de atributos z1 z2 zp pode ser calculada como

bull Componentes Principais (PCs) satildeo tipos especiacuteficos de combinaccedilotildees lineares que satildeo escolhidas de tal modo que zp (PCs) tenham as seguintes caracteriacutesticas

z1 = a11 x1 + a21 x2 + + ap1 xp

z2 = a12 x1 + a22 x2 + + ap2 xp

zp = a1p x1 + a2p x2 + + app xp

PCA Caracteriacutesticas

bull As p componentes principais (PC) satildeo natildeo-correlacionadas (independentes)

bull As PCs satildeo ordenadas de acordo com quantidade da variacircncia dos dados originais que elas contecircm (ordem decrescente)ndash A primeira PC ldquoexplicardquo (conteacutem) a maior porcentagem da

variabilidade do conjunto de dados originalndash A segunda PC define a proacutexima maior parte e assim por diantendash Em geral apenas algumas das primeiras PCs satildeo responsaacuteveis

pela maior parte da variabilidade do conjunto de dadosndash O restante das PCs tem uma contribuiccedilatildeo insignificante

bull PCA eacute usada em Aprendizado de Maacutequina principalmente para a reduccedilatildeo de dimensionalidade

PCA Caacutelculo

bull PCA pode reduzida ao problema de encontrar os auto-valores e auto-vetores da matriz de covariacircncia (ou correlaccedilatildeo) do conjunto de dados

bull A proporccedilatildeo da variacircncia do conjunto de dados originais explicada pela i-eacutesima PC eacute igual ao i-eacutesimo auto-valor divido pela soma de todos os p auto-valores

bull Ou seja as PCs satildeo ordenadas - decrescente - de acordo com os valores dos auto-valores

bull Quando os valores dos diferentes atributos estatildeo em diferentes escalas eacute preferiacutevel usar a matriz de correlaccedilatildeo em lugar da matriz de covariacircncia

Anaacutelise de Componentes Principais

bull Principais Limitaccedilotildees

ndash Assume apenas relaccedilotildees lineares entre os atributos

ndash A interpretaccedilatildeo dos resultados (eg classificador gerado) em termos dos atributos originais pode ficar mais difiacutecil

  • Slide 1
  • Slide 2
  • Slide 3
  • Slide 4
  • Slide 5
  • Slide 6
  • Slide 7
  • Slide 8
  • Slide 9
  • Slide 10
  • Slide 11
  • Slide 12
  • Slide 13
  • Slide 14
  • Slide 15
  • Slide 16
  • Slide 17
  • Slide 18
  • Slide 19
  • Slide 20
  • Slide 21
  • Slide 22
  • Slide 23
  • Slide 24
  • Slide 25
  • Slide 26
  • Slide 27
  • Slide 28
  • Slide 29
  • Slide 30
  • Slide 31
  • Slide 32
  • Slide 33
  • Slide 34
  • Slide 35
  • Slide 36
  • Slide 37
  • Slide 38
  • Slide 39
  • Slide 40
  • Slide 41
  • Slide 42
  • Slide 43
  • Slide 44
  • Slide 45
  • Slide 46
  • Slide 47
  • Slide 48
Page 35: Analise e Seleção de Variáveis. Tópicos Por que atributos irrelevantes são um problema Quais tipos de algoritmos de aprendizado são afetados Abordagens

Anaacutelise de Componentes Principais (PCA)

bull Dado um conjunto D com n instacircncias e p atributos (x1 x2 xp) uma transformaccedilatildeo linear para um novo conjunto de atributos z1 z2 zp pode ser calculada como

bull Componentes Principais (PCs) satildeo tipos especiacuteficos de combinaccedilotildees lineares que satildeo escolhidas de tal modo que zp (PCs) tenham as seguintes caracteriacutesticas

z1 = a11 x1 + a21 x2 + + ap1 xp

z2 = a12 x1 + a22 x2 + + ap2 xp

zp = a1p x1 + a2p x2 + + app xp

PCA Caracteriacutesticas

bull As p componentes principais (PC) satildeo natildeo-correlacionadas (independentes)

bull As PCs satildeo ordenadas de acordo com quantidade da variacircncia dos dados originais que elas contecircm (ordem decrescente)ndash A primeira PC ldquoexplicardquo (conteacutem) a maior porcentagem da

variabilidade do conjunto de dados originalndash A segunda PC define a proacutexima maior parte e assim por diantendash Em geral apenas algumas das primeiras PCs satildeo responsaacuteveis

pela maior parte da variabilidade do conjunto de dadosndash O restante das PCs tem uma contribuiccedilatildeo insignificante

bull PCA eacute usada em Aprendizado de Maacutequina principalmente para a reduccedilatildeo de dimensionalidade

PCA Caacutelculo

bull PCA pode reduzida ao problema de encontrar os auto-valores e auto-vetores da matriz de covariacircncia (ou correlaccedilatildeo) do conjunto de dados

bull A proporccedilatildeo da variacircncia do conjunto de dados originais explicada pela i-eacutesima PC eacute igual ao i-eacutesimo auto-valor divido pela soma de todos os p auto-valores

bull Ou seja as PCs satildeo ordenadas - decrescente - de acordo com os valores dos auto-valores

bull Quando os valores dos diferentes atributos estatildeo em diferentes escalas eacute preferiacutevel usar a matriz de correlaccedilatildeo em lugar da matriz de covariacircncia

Anaacutelise de Componentes Principais

bull Principais Limitaccedilotildees

ndash Assume apenas relaccedilotildees lineares entre os atributos

ndash A interpretaccedilatildeo dos resultados (eg classificador gerado) em termos dos atributos originais pode ficar mais difiacutecil

  • Slide 1
  • Slide 2
  • Slide 3
  • Slide 4
  • Slide 5
  • Slide 6
  • Slide 7
  • Slide 8
  • Slide 9
  • Slide 10
  • Slide 11
  • Slide 12
  • Slide 13
  • Slide 14
  • Slide 15
  • Slide 16
  • Slide 17
  • Slide 18
  • Slide 19
  • Slide 20
  • Slide 21
  • Slide 22
  • Slide 23
  • Slide 24
  • Slide 25
  • Slide 26
  • Slide 27
  • Slide 28
  • Slide 29
  • Slide 30
  • Slide 31
  • Slide 32
  • Slide 33
  • Slide 34
  • Slide 35
  • Slide 36
  • Slide 37
  • Slide 38
  • Slide 39
  • Slide 40
  • Slide 41
  • Slide 42
  • Slide 43
  • Slide 44
  • Slide 45
  • Slide 46
  • Slide 47
  • Slide 48
Page 36: Analise e Seleção de Variáveis. Tópicos Por que atributos irrelevantes são um problema Quais tipos de algoritmos de aprendizado são afetados Abordagens

PCA Caracteriacutesticas

bull As p componentes principais (PC) satildeo natildeo-correlacionadas (independentes)

bull As PCs satildeo ordenadas de acordo com quantidade da variacircncia dos dados originais que elas contecircm (ordem decrescente)ndash A primeira PC ldquoexplicardquo (conteacutem) a maior porcentagem da

variabilidade do conjunto de dados originalndash A segunda PC define a proacutexima maior parte e assim por diantendash Em geral apenas algumas das primeiras PCs satildeo responsaacuteveis

pela maior parte da variabilidade do conjunto de dadosndash O restante das PCs tem uma contribuiccedilatildeo insignificante

bull PCA eacute usada em Aprendizado de Maacutequina principalmente para a reduccedilatildeo de dimensionalidade

PCA Caacutelculo

bull PCA pode reduzida ao problema de encontrar os auto-valores e auto-vetores da matriz de covariacircncia (ou correlaccedilatildeo) do conjunto de dados

bull A proporccedilatildeo da variacircncia do conjunto de dados originais explicada pela i-eacutesima PC eacute igual ao i-eacutesimo auto-valor divido pela soma de todos os p auto-valores

bull Ou seja as PCs satildeo ordenadas - decrescente - de acordo com os valores dos auto-valores

bull Quando os valores dos diferentes atributos estatildeo em diferentes escalas eacute preferiacutevel usar a matriz de correlaccedilatildeo em lugar da matriz de covariacircncia

Anaacutelise de Componentes Principais

bull Principais Limitaccedilotildees

ndash Assume apenas relaccedilotildees lineares entre os atributos

ndash A interpretaccedilatildeo dos resultados (eg classificador gerado) em termos dos atributos originais pode ficar mais difiacutecil

  • Slide 1
  • Slide 2
  • Slide 3
  • Slide 4
  • Slide 5
  • Slide 6
  • Slide 7
  • Slide 8
  • Slide 9
  • Slide 10
  • Slide 11
  • Slide 12
  • Slide 13
  • Slide 14
  • Slide 15
  • Slide 16
  • Slide 17
  • Slide 18
  • Slide 19
  • Slide 20
  • Slide 21
  • Slide 22
  • Slide 23
  • Slide 24
  • Slide 25
  • Slide 26
  • Slide 27
  • Slide 28
  • Slide 29
  • Slide 30
  • Slide 31
  • Slide 32
  • Slide 33
  • Slide 34
  • Slide 35
  • Slide 36
  • Slide 37
  • Slide 38
  • Slide 39
  • Slide 40
  • Slide 41
  • Slide 42
  • Slide 43
  • Slide 44
  • Slide 45
  • Slide 46
  • Slide 47
  • Slide 48
Page 37: Analise e Seleção de Variáveis. Tópicos Por que atributos irrelevantes são um problema Quais tipos de algoritmos de aprendizado são afetados Abordagens

PCA Caacutelculo

bull PCA pode reduzida ao problema de encontrar os auto-valores e auto-vetores da matriz de covariacircncia (ou correlaccedilatildeo) do conjunto de dados

bull A proporccedilatildeo da variacircncia do conjunto de dados originais explicada pela i-eacutesima PC eacute igual ao i-eacutesimo auto-valor divido pela soma de todos os p auto-valores

bull Ou seja as PCs satildeo ordenadas - decrescente - de acordo com os valores dos auto-valores

bull Quando os valores dos diferentes atributos estatildeo em diferentes escalas eacute preferiacutevel usar a matriz de correlaccedilatildeo em lugar da matriz de covariacircncia

Anaacutelise de Componentes Principais

bull Principais Limitaccedilotildees

ndash Assume apenas relaccedilotildees lineares entre os atributos

ndash A interpretaccedilatildeo dos resultados (eg classificador gerado) em termos dos atributos originais pode ficar mais difiacutecil

  • Slide 1
  • Slide 2
  • Slide 3
  • Slide 4
  • Slide 5
  • Slide 6
  • Slide 7
  • Slide 8
  • Slide 9
  • Slide 10
  • Slide 11
  • Slide 12
  • Slide 13
  • Slide 14
  • Slide 15
  • Slide 16
  • Slide 17
  • Slide 18
  • Slide 19
  • Slide 20
  • Slide 21
  • Slide 22
  • Slide 23
  • Slide 24
  • Slide 25
  • Slide 26
  • Slide 27
  • Slide 28
  • Slide 29
  • Slide 30
  • Slide 31
  • Slide 32
  • Slide 33
  • Slide 34
  • Slide 35
  • Slide 36
  • Slide 37
  • Slide 38
  • Slide 39
  • Slide 40
  • Slide 41
  • Slide 42
  • Slide 43
  • Slide 44
  • Slide 45
  • Slide 46
  • Slide 47
  • Slide 48
Page 38: Analise e Seleção de Variáveis. Tópicos Por que atributos irrelevantes são um problema Quais tipos de algoritmos de aprendizado são afetados Abordagens

Anaacutelise de Componentes Principais

bull Principais Limitaccedilotildees

ndash Assume apenas relaccedilotildees lineares entre os atributos

ndash A interpretaccedilatildeo dos resultados (eg classificador gerado) em termos dos atributos originais pode ficar mais difiacutecil

  • Slide 1
  • Slide 2
  • Slide 3
  • Slide 4
  • Slide 5
  • Slide 6
  • Slide 7
  • Slide 8
  • Slide 9
  • Slide 10
  • Slide 11
  • Slide 12
  • Slide 13
  • Slide 14
  • Slide 15
  • Slide 16
  • Slide 17
  • Slide 18
  • Slide 19
  • Slide 20
  • Slide 21
  • Slide 22
  • Slide 23
  • Slide 24
  • Slide 25
  • Slide 26
  • Slide 27
  • Slide 28
  • Slide 29
  • Slide 30
  • Slide 31
  • Slide 32
  • Slide 33
  • Slide 34
  • Slide 35
  • Slide 36
  • Slide 37
  • Slide 38
  • Slide 39
  • Slide 40
  • Slide 41
  • Slide 42
  • Slide 43
  • Slide 44
  • Slide 45
  • Slide 46
  • Slide 47
  • Slide 48