tratamento de valores ausentes

22
Valores Ausentes Algoritmos e estratégias para tratamento G4: Edinaldo de Alencar / Igor Freire / Ramon Araújo / Ricardo Ribeiro Disciplina: Mineração de Dados (PPGEE 0138) - 2º Semestre/2014

Upload: ramon-araujo

Post on 05-Nov-2015

11 views

Category:

Documents


1 download

DESCRIPTION

Apresentação sobre metodologias de tratamento de valores ausentes em bancos de dados. Mineração de Dados PPGEE 2015.

TRANSCRIPT

  • Valores AusentesAlgoritmos e estratgias para tratamento

    G4: Edinaldo de Alencar / Igor Freire / Ramon Arajo / Ricardo Ribeiro

    Disciplina: Minerao de Dados (PPGEE 0138) - 2 Semestre/2014

  • Introduo Mecanismos de valores ausentes O que fazer com VAs Tcnicas de Imputao Imputao por Mdia e Moda Imputao Local

    kNN - Vizinhos mais prximos Imputao por Maximizao da Esperana Aplicaes

    R Weka

    Agenda

  • Valores ausentes: Omisso de dados pela prpria fonte de informao Atributo no aplicvel Evento no aconteceu Dados indisponveis ou muito difceis de serem obtidos

    Exemplo: Questionrio

    Introduo

  • Mecanismos de Valores Ausentes Completamente Aleatrios (MCAR - Missing Completely at

    Random) Probabilidade de uma amostra (instncia) ter um VA

    independente dos valores na base de dados. Aleatrios (MAR - Missing at Random)

    Probabilidade de uma amostra (instncia) ter um VA depende dos valores observveis (coletados) na base.

    No aleatrios (MNAR - Missing Not at Random) Probabilidade de uma amostra (instncia) ter um VA depende

    do prprio valor ausente.

  • Exemplo:

    Mecanismos de Valores Ausentes

  • Mecanismos de Valores Ausentes Observaes: A maioria dos mtodos de imputao assume valores

    ausentes completamente aleatrios (MCAR). dificil identificar a distribuio de probabilidade dos valores

    ausentes, principalmente os VAs do tipo NMAR.

    Poucos algoritmos de imputao supem valores ausentes NMAR. A maioria dos algoritmos supe VAs MCAR ou MAR.

  • O que fazer com valores ausentes?Alternativas:1. Ignorar instncias contendo VAs (listwise deletion)

    Tcnica conservadora, no cria dados Problema: pode ocasionar perda de informaes relevantes

    2. Substituio de valores ausentes (imputao) Substituio de VAs por valores provveis Estimao dos valores utilizando o conjunto de dados Mtodo utilizado para imputao independente do algoritmo

    de aprendizagem de mquina utilizado

  • Tcnicas de Imputao Imputao pela mdia ou moda (Mean-mode Imputation - MMImpute)

    Mdia para atributos numricos Moda para atributos categricos Problema: varincia pode tornar-se subestimada

    Imputao local: por Hot-deck ou Cold-deck Em contraste ao MMImpute, substitui valores diferentes para cada

    valor ausente Passos do Algoritmo:

    i. Clusterizao das amostras da base de dadosii. Associao das instncias com VAs aos clusters mais prximosiii. Substituio dos VAs por valores baseados nas instncias

    completas (sem VAs) do cluster a que pertencem

  • Tcnicas de Imputao Mtodos Preditivos:

    Atributo que contm os VAs definido como atributo classe e os demais atributos so utilizados para computao de um modelo

    Baseado no modelo, faz-se a predio dos VAs Exemplos:

    rvores de Deciso (para atributos categricos) Nave Bayes Regresso

  • Imputao pela Mdia ou Moda (MMImpute)

    A mdia uma estimativa razovel para variveis com distribuio de probabilidades normal.

    aconselhvel a utilizao para uma base de dados com poucos valores ausentes do tipo MCAR.

    Aplicvel tanto para valores categricos (moda) quanto numricos (mdia), contnuos ou discretos.

  • Imputao pela Mdia ou Moda (MMImpute)

  • Imputao pela Mdia ou Moda (MMImpute)

  • Imputao pela Mdia ou Moda (MMImpute)

  • Imputao local

    Escolaridade Filhos Carro Renda Mensal

    Superior 2 Sim R$6.000,00

    Mdio 2 No R$1.500,00

    Superior 0 Sim R$4.500,00

    Superior 1 Sim R$5.500,00

    Mdio 1 No R$1.200,00

    Superior 2 Sim R$7.500,00

    Superior 2 Sim NA

    Instncia com VA:

    Imputao Hot-deck ou Cold-deck Hot e Cold diferem quanto ao processo de agrupamento - Cold

    utiliza base de dados disjunta para formar clusters Exemplo: Vizinhos mais prximos (K-Nearest Neighbors - kNNImpute)

    Exemplo:

  • Escolaridade Filhos Carro Renda Mensal

    Superior 2 Sim R$7.000,00

    Mdio 2 No R$1.500,00

    Superior 0 Sim R$4.500,00

    Superior 1 Sim R$5.500,00

    Mdio 1 No R$1.200,00

    Superior 2 Sim R$8.500,00

    Superior 2 Sim NA

    Instncia com VA:

    Imputao Hot-deck ou Cold-deck Hot e Cold diferem quanto ao processo de agrupamento - Cold

    utiliza base de dados disjunta para formar clusters Exemplo: Vizinhos mais prximos (K-Nearest Neighbors - kNNImpute)

    Clu

    ster

    Valor substitudo: mdia entre as rendas das instncias do cluster

    NA

    Exemplo:

    Substitudo por R$7.750,00

    Imputao local

  • Imputao kNN - Vizinhos mais prximos Exemplo ilustrativo:

  • Vantagens: Pode lidar com atributos numricos e nominais. No necessita do treinamento de um modelo para cada atributo com

    valores ausentes (lazy learner). Pode lidar com instncias com vrios valores ausentes.

    Desvantagem: Necessidade de percorrer toda a base para encontrar os vizinhos mais

    prximos para cada instncia com valor ausente.

    Imputao kNN - Vizinhos mais prximos

  • Imputao kNN - Vizinhos mais prximos Algoritmo:

  • Escolha do nmero de vizinhos (k): Relao de compromisso entre vis e

    varincia.

    Tendncia com a diminuio de k: Aumento da varincia Diminuio do vis

    Tendncia com o aumento de k: Diminuio da varincia Aumento do vis

    Imputao kNN - Vizinhos mais prximos

  • Imputao EM (Expectation Maximization) Schafer: Se soubssemos os parmetros do modelo dos dados, seria possvel

    obtermos predies no-tendenciosas (unbiased) dos valores ausentes. O modelo estatstico dos dados estimado por meio da maximizao da funo

    log-verossimilhana.

    Sistema de equaes complexo Soluo Iterativa1: Etapa de Expectativa (Passo E)

    2: Etapa de Maximizao (Passo M)

  • Supera as deficincias do MMImpute e substituio por regresso.

    Problemtico para ausncias de dados MNAR, e MAR com mais do que 20% de dados ausentes.

    Opera com base de dados numrica, real/discreta.

    Algoritmo preliminar em tcnicas mais complexas (imputao mltipla).

    Imputao EM (Expectation Maximization)

  • Referncias SILVA, J. A. Substituio de valores ausentes: uma abordagem baseada em um algoritmo

    evolutivo para agrupamento de dados. Dissertao ICMC-USP, Abr. 2010.

    THIRUKUMARAN, S.; SUMATHI, A. Missing Value Imputation Techniques Depth Survey And an Imputation Algorithm To Improve The Efficiency Of Imputation. 2012 Fourth International Conference on Advanced Computing (ICoAC), Dec. 2012.

    ACOCK, Alan C. Working with Missing Values. Journal of Marriage and Family 67.4(2005).

    SCHAFER, Joseph L.; GRAHAM, J. W. Missing data: Our View of the State of the Art. Psychological methods 7.2 (2002): 147.