slides02 md

12
Fonte: “From data mining to knowledge discovery: An overview”, U.M.Fayyad et. al., 1996. Dados Dados Selecionados 1 Dados Pré-processados 2 Dados Transformados 3 Regras e Padrões 4 5 Conhecimento I I I I I

Upload: yog-sothoth

Post on 17-Dec-2015

232 views

Category:

Documents


1 download

DESCRIPTION

Mineração de Dados - slides 002

TRANSCRIPT

  • PCC142 / BCC444 - Minerao de Dados

    Luiz Henrique de Campos Merschmann

    Departamento de Computao

    Universidade Federal de Ouro Preto

    [email protected]

    www.decom.ufop.br/luiz

    Roteiro

    Introduo

    Limpeza de Dados

    Integrao de Dados

    Transformao de Dados

    Reduo de Dados

    Discretizao

    Processo de Descoberta de Conhecimento em Bases de Dados

    Fonte: From data mining to knowledge discovery: An overview, U.M.Fayyad et. al., 1996.

    Dados

    DadosSelecionados

    1Dados

    Pr-processados

    2

    DadosTransformados

    3Regras ePadres

    4

    5

    Conhecimento

    Por que pr-processar os dados?

    IBases de dados reais esto altamente suscetveis a:

    IDados incompletos: atributos com ausncia de valores,

    atributos de interesse ausentes ou contendo apenas dados

    agregados.

    IRudos: dados errados, outliers (desvio com relao ao

    esperado).

    IInconsistncias: discrepncias com relao aos nomes ou

    cdigos utilizados.

    IFalta de qualidade dos dados resultado sem qualidadeaps a minerao!

  • Principais Tarefas de Pr-processamento

    ILimpeza de dados:

    IPreenchimento de valores ausentes.

    ISuavizao (smoothing) de rudos (ltro da mdia).

    IIdenticao e/ou remoo de valores aberrantes (outliers).

    ITratamento de inconsistncias.

    IIntegrao de dados:

    IIntegrao de diversas bases de dados ou arquivos.

    Principais Tarefas de Pr-processamento

    ITransformao de dados:

    INormalizao e agregao.

    IReduo de dados:

    IObteno de uma representao reduzida do conjunto de

    dados (reduo em volume).

    IDiscretizao de dados:

    IReduo de dados particularmente importante para

    atributos contnuos.

    Pr-processamento de Dados Limpeza de Dados

    ITcnicas de limpeza de dados so utilizadas para:

    IPreencher valores ausentes.

    IIdenticar outliers e suavizar rudos.

    ICorrigir dados inconsistentes.

  • Ausncia de Valores de Atributos

    IValores de atributos (dados) nem sempre esto disponveis.

    IExemplo: vrios registros de uma base de dados de vendas

    no possuem valores para o atributo salrio do consumidor.

    IA ausncia de dados pode ser resultado de:

    IMau funcionamento de equipamento.

    IInconsistncia com outros dados armazenados e, portanto,

    apagado.

    IDado no inserido devido a falta de entendimento.

    IDado foi considerado sem importncia no momento do

    armazenamento.

    Como Lidar com os Valores Ausentes de

    Atributos?

    IIgnorar o registro (instncia): usualmente utilizado quando

    o atributo classe possui valor desconhecido. recomendado

    quando a instncia contm muitos valores de atributos

    desconhecidos.

    IPreencher os valores ausentes manualmente: tedioso +

    invivel?

    IUsar uma constante global para preencher os valores

    ausentes: desconhecido.

    IUsar a mdia dos valores do atributo para preencher os

    valores ausentes.

    IUsar a mdia dos valores das instncias pertencentes

    mesma classe da instncia que possui o valor ausente.

    IUtilizar o valor mais provvel para preencher o valor

    ausente: inferncia a partir da frmula de Bayes ou rvores

    de deciso.

    Rudos

    IRudo: um erro aleatrio ou um valor aberrante (outlier).

    IValores errneos de atributos podem ocorrer devido a:

    IDefeito no instrumento de coleta de dados.

    IProblemas na transmisso de dados.

    ILimitaes tecnolgicas.

    IInconsistncias nas convenes de nomes.

    Como Lidar com os Rudos?

    ITcnicas para remoo de rudos:

    ISuavizao.

    IRegresso.

    ITcnicas para identicao de valores aberrantes:

    IAgrupamento (Clusterizao).

    IInspeo manual auxiliada por computador.

  • Tcnicas para Remoo de Rudos

    ISuavizao: a partir de dados ordenados, a suavizao de

    um valor ocorre a partir de uma consulta em sua

    vizinhana.

    IOs valores ordenados devem ser distribudos em caixas

    (bins).

    IA suavizao ocorre dentro de cada bin suavizao local.

    IExemplo: atributo preo (ordenado):

    4, 8, 15, 21, 21, 24, 25, 28, 34.

    IParticionamento em bins: 4, 8, 15 21, 21, 24 25, 28, 34

    ISuavizao pela mdia: 9, 9, 9 22, 22, 22 29, 29, 29

    ISuavizao pela fronteira: 4, 4, 15 21, 21, 24 25, 25, 34

    IOutras alternativas de suavizao: mediana, ...

    Tcnicas para Remoo de Rudos

    Regresso: os dados podem ser suavizados ajustando-os a uma

    funo (p. ex.: regresso linear).

    x

    y

    y = x + 1

    X1

    Y1

    Y1

    Regresso linear: uma varivel pode ser

    utilizada para predizer a outra.

    Regresso mltipla:umavarivel pode ser modeladacomo uma funo linear de um vetor multidimensionalde variveis.

    Tcnicas para Identicao de Valores Aberrantes

    Clusterizao: valores aberrantes so aqueles que cam fora dos

    clusters.

    Tcnicas para Identicao de Valores Aberrantes

    IUtilizao de um mtodo computacional para ajudar a

    encontrar valores aberrantes.

    IPor inspeo manual, verica-se quais valores so realmente

    aberrantes, excluindo-os da base de dados.

  • Dados Inconsistentes

    IErros no momento da insero de dados.

    IErros provenientes da integrao de diferentes bases de

    dados:

    IMesmo atributo contendo diferentes codicaes.

    IDuplicao de instncias.

    ICorreo:

    IManual ou ferramentas computacionais.

    Pr-processamento de Dados

    Integrao de Dados

    IIntegrao de dados: combina dados de mltiplas fontes em

    um nica fonte de forma coerente. As fontes podem ser

    bases de dados, cubos ou arquivos de texto.

    Integrao de Dados

    Questes a serem consideradas durante a integrao:

    IProblema da identicao de entidades: identicao das

    mesmas entidades do mundo real a partir de mltiplas

    fontes de dados.

    P. ex.: Como um analista saber se customer_id em uma

    base de dados e cust_number em outra base de dados

    correspondem ao mesmo atributo?

    Uso de metadados.

  • Integrao de Dados

    Questes a serem consideradas durante a integrao:

    IRedundncia: dados redundantes ocorrem com freqncia

    quando integramos dados de mltiplas fontes.

    IO mesmo atributo pode ter nomes diferentes em bases de

    dados distintas.

    IUm atributo pode ter sido derivado de outro atributo em

    outra tabela.

    IDeteco de redundncias: anlise de correlao.

    IDuplicao de instncias.

    Pr-processamento de Dados

    Transformao de Dados

    IObjetivo: colocar os dados de forma apropriada para a

    minerao. A transformao de dados envolve:

    ISuavizao: para remoo de rudos.

    IAgregao: operaes de sumarizao dos dados.

    IGeneralizao: dados primitivos so substitudos por

    conceitos de ordem superior utilizando-se uma hierarquia

    de conceitos. Ex.: atributo Rua conceitos de ordemsuperior: Cidade ou Pas.

    INormalizao: ajuste de escala.

    IConstruo de atributos: novos atributos so construdos e

    adicionados ao conjunto j existente.

    Normalizao de Dados

    IObjetivo: Colocar os valores numa faixa pr-especicada, p.

    ex.:, entre 0 e 1.

    IImportante para algoritmos de classicao envolvendo

    redes neurais ou clculos de distncias (k-NN).

    IMtodos de normalizao:

    INormalizao min-max.

    INormalizao z-score.

    INormalizao por escala decimal.

  • Normalizao min-max

    Transformao linear nos dados originais.

    v =v minA

    maxAminA(new_maxA new_minA) + new_minA

    onde:

    minA: valor mnimo do atributo A.maxA: valor mximo do atributo A.new_minA: novo valor mnimo do atributo A.new_maxA: novo valor mximo do atributo A.v: valor original do atributo A.

    Normalizao z-score

    Valores do atributo so normalizados com base na mdia e

    no desvio padro do atributo.

    v =v medAdesv_padA

    onde:

    v: valor original do atributo A.medA: mdia do atributo A.desv_padA: desvio-padro do atributo A.

    Normalizao por Escala Decimal

    Normalizao movendo-se o ponto decimal dos valores do

    atributo.

    v =v

    10j

    onde j o menor inteiro tal que Max(|v|) < 1.

    Exemplo: Atributo A contendo valores entre 986 e 917. Anormalizao realizada dividindo-se os valores do atributo por

    1000 (j = 3), de modo que |986/1000| < 1.

    Pr-processamento de Dados

  • Reduo de Dados

    Por que fazer a reduo de dados?

    IRepositrios podem conter uma quantidade absurda de

    dados.

    IExceder a capacidade de processamento dos programas de

    minerao de dados.

    ITempo de processamento muito longo.

    Objetivo:

    Obter uma representao reduzida do conjunto de dados

    (diminuir o volume) mantendo a integridade dos dados originais.

    Estratgias de Reduo de Dados

    IAgregao em cubo de dados.

    IReduo de dimenso.

    ICompresso de dados.

    IReduo de casos.

    IDiscretizao e construo de hierarquias conceituais.

    Agregao em Cubo de Dados

    IOperaes de agregao so aplicadas aos dados na

    construo dos cubos de dados.

    IPodemos ter diversos nveis de agregao em cubos de

    dados.

    IQuanto maior o nvel de agregao, menor o volume de

    dados resultante.

    Reduo de Dimenso

    IBases de dados podem conter muitos atributos, alguns

    desses sendo irrelevantes ou redundantes para a tarefa de

    minerao de dados.

    Ex.: Classicar consumidor (comprador ou no comprador

    de um novo CD). Quais atributos devem ser considerados?

    Telefone? Idade? Gosto musical?

    ISeleo de atributos!!!

  • Seleo de Atributos

    ISeleo de atributos feita manualmente (baseada em

    conhecimento de especialistas) pode ser invivel devido:

    ITempo consumido nessa tarefa.

    IComportamento dos dados no ser bem conhecido.

    IVrios mtodos de seleo de atributos foram propostos.

    IDeixar de fora atributos relevantes ou manter atributos

    irrelevantes pode implicar na descoberta de padres de

    baixa qualidade.

    Compresso de Dados

    Dados so codicados ou transformados para se obter uma

    representao reduzida dos dados originais.

    Dados originaisDados

    Comprimidos

    Sem perda

    Aproximao dosdados originais

    Com per

    da

    Compresso de Dados

    ISem perdas:

    IDiversos algoritmos para compresso de dados.

    IDesvantagem: manipulao dos dados muito limitada sem

    a expanso dos mesmos.

    ICom perdas:

    ITransformada Wavelet Discreta (Discrete Wavelet

    Transform - DWT):

    IRepresentao esparsa dos dados.

    IAnlise de Componentes Principais (Principal Components

    Analysis - PCA):

    ICombinao de atributos gerando um novo conjunto

    (menor) de variveis.

    Compresso de Dados

    Transformada Wavelet Discreta

    I uma tcnica de processamento de sinais que quando

    aplicada a um vetor X, transforma-o em um vetor numricode coecientes de wavelet.

    INo nosso contexto, o vetor n-dimensionalX = {x1, x2, . . . , xn} contm os valores dos n atributospara uma instncia da base de dados.

    IOs vetores X e X tm o mesmo comprimento.

    IComo essa tcnica pode ser til para reduo da base de

    dados original se os dados transformados tm a mesma

    dimenso dos dados originais?

    IOs dados transformados podem ser truncados.

    IArmazena-se apenas uma frao dos dados (os maiores

    coecientes de wavelet). Todos os demais coecientes so

    mapeados para zero.

    IRepresentao esparsa dos dados.

  • Reduo de Casos

    Reduo do volume de dados por meio de uma representao

    econmica dos mesmos.

    IMtodos paramtricos:

    ISupem que os dados se ajustam a um modelo.

    IArmazenam apenas os parmetros do modelo (outliers

    tambm podem ser armazenados).

    IExemplos: Regresso linear (simples e mltipla).

    IMtodos no-paramtricos:

    INo estimam modelos.

    IExemplos: Histogramas, clusterizao e amostragem.

    Regresso Linear

    I Y = + XIDois parmetros, e denem a reta. Eles so estimados apartir dos dados que temos em mos (Y1, Y2, . . . , X1, X2,

    . . . ).

    IEm geral, utiliza-se o mtodo dos mnimos quadrados para

    ajustar a curva.

    Histogramas

    IDivide o dados em subconjuntos disjuntos.

    IA reduo de dados: faixa de valores representada num

    nico subconjunto.

    Clusterizao

    IOs dados so particionados em grupos (clusters).

    IArmazena-se apenas a representao de cada cluster.

  • Amostragem

    IUm grande conjunto de dados pode ser representado por

    um subconjunto menor obtido por amostragem.

    ITipos de amostragem:

    IAmostragem aleatria simples sem reposio.

    IAmostragem aleatria simples com reposio.

    IAmostragem por conglomerado.

    IAmostragem estraticada.

    Discretizao

    IReduz o nmero de valores de um dado atributo contnuo

    pela diviso da amplitude do atributo em intervalos. Os

    rtulos dos intevalos substituem os valores originais do

    atributo.

    IAlguns algoritmos de classicao s trabalham com

    atributos discretos.

    Discretizao

    IMtodos Supervisionados

    IUtilizam informaes referentes s classes das instncias da

    base de dados durante o processo de discretizao de um

    atributo.

    IMtodos No Supervisionados

    IConsideram somente os valores do atributo a ser

    discretizado.

    Mtodos No Supervisionados

    IPartio em Intervalos Iguais

    IDivide a faixa de valores de um atributo em k intervalos

    iguais (de mesma amplitude), atribuindo a cada intervalo

    um rtulo.

    IPartio em Intervalos com Freqncias Iguais

    IDivide os valores de um atributo contnuo em k parties,

    de modo que, considerando m instncias na base de dados,

    cada partio deve conter m/k valores adjacentes

    (possivelmente duplicados).

    IO parmetro k deve ser informado pelo usurio dos

    mtodos.

    IDesvantagem: as fronteiras escolhidas para particionar os

    dados em intervalos podem colocar juntas muitas instncias

    pertencentes a diferentes classes, afetando a preciso do

    classicador.

  • Mtodos Supervisionados

    IAlgoritmo de discretizao 1R.

    IO objetivo dividir o domnio de cada atributo contnuo em

    parties puras, ou seja, parties que sejam caracterizadas

    predominantemente por uma das classes da base de dados.

    IMtodos estatsticos: ChiMerge e StatDisc.

    IMtodos baseados em entropia:

    IHeurstica recursiva de minimizao de entropia.

    Perguntas?

    FIM

    IntroduoLimpeza de DadosIntegrao de DadosTransformao de DadosReduo de DadosDiscretizao