slides02 md
DESCRIPTION
Mineração de Dados - slides 002TRANSCRIPT
-
PCC142 / BCC444 - Minerao de Dados
Luiz Henrique de Campos Merschmann
Departamento de Computao
Universidade Federal de Ouro Preto
www.decom.ufop.br/luiz
Roteiro
Introduo
Limpeza de Dados
Integrao de Dados
Transformao de Dados
Reduo de Dados
Discretizao
Processo de Descoberta de Conhecimento em Bases de Dados
Fonte: From data mining to knowledge discovery: An overview, U.M.Fayyad et. al., 1996.
Dados
DadosSelecionados
1Dados
Pr-processados
2
DadosTransformados
3Regras ePadres
4
5
Conhecimento
Por que pr-processar os dados?
IBases de dados reais esto altamente suscetveis a:
IDados incompletos: atributos com ausncia de valores,
atributos de interesse ausentes ou contendo apenas dados
agregados.
IRudos: dados errados, outliers (desvio com relao ao
esperado).
IInconsistncias: discrepncias com relao aos nomes ou
cdigos utilizados.
IFalta de qualidade dos dados resultado sem qualidadeaps a minerao!
-
Principais Tarefas de Pr-processamento
ILimpeza de dados:
IPreenchimento de valores ausentes.
ISuavizao (smoothing) de rudos (ltro da mdia).
IIdenticao e/ou remoo de valores aberrantes (outliers).
ITratamento de inconsistncias.
IIntegrao de dados:
IIntegrao de diversas bases de dados ou arquivos.
Principais Tarefas de Pr-processamento
ITransformao de dados:
INormalizao e agregao.
IReduo de dados:
IObteno de uma representao reduzida do conjunto de
dados (reduo em volume).
IDiscretizao de dados:
IReduo de dados particularmente importante para
atributos contnuos.
Pr-processamento de Dados Limpeza de Dados
ITcnicas de limpeza de dados so utilizadas para:
IPreencher valores ausentes.
IIdenticar outliers e suavizar rudos.
ICorrigir dados inconsistentes.
-
Ausncia de Valores de Atributos
IValores de atributos (dados) nem sempre esto disponveis.
IExemplo: vrios registros de uma base de dados de vendas
no possuem valores para o atributo salrio do consumidor.
IA ausncia de dados pode ser resultado de:
IMau funcionamento de equipamento.
IInconsistncia com outros dados armazenados e, portanto,
apagado.
IDado no inserido devido a falta de entendimento.
IDado foi considerado sem importncia no momento do
armazenamento.
Como Lidar com os Valores Ausentes de
Atributos?
IIgnorar o registro (instncia): usualmente utilizado quando
o atributo classe possui valor desconhecido. recomendado
quando a instncia contm muitos valores de atributos
desconhecidos.
IPreencher os valores ausentes manualmente: tedioso +
invivel?
IUsar uma constante global para preencher os valores
ausentes: desconhecido.
IUsar a mdia dos valores do atributo para preencher os
valores ausentes.
IUsar a mdia dos valores das instncias pertencentes
mesma classe da instncia que possui o valor ausente.
IUtilizar o valor mais provvel para preencher o valor
ausente: inferncia a partir da frmula de Bayes ou rvores
de deciso.
Rudos
IRudo: um erro aleatrio ou um valor aberrante (outlier).
IValores errneos de atributos podem ocorrer devido a:
IDefeito no instrumento de coleta de dados.
IProblemas na transmisso de dados.
ILimitaes tecnolgicas.
IInconsistncias nas convenes de nomes.
Como Lidar com os Rudos?
ITcnicas para remoo de rudos:
ISuavizao.
IRegresso.
ITcnicas para identicao de valores aberrantes:
IAgrupamento (Clusterizao).
IInspeo manual auxiliada por computador.
-
Tcnicas para Remoo de Rudos
ISuavizao: a partir de dados ordenados, a suavizao de
um valor ocorre a partir de uma consulta em sua
vizinhana.
IOs valores ordenados devem ser distribudos em caixas
(bins).
IA suavizao ocorre dentro de cada bin suavizao local.
IExemplo: atributo preo (ordenado):
4, 8, 15, 21, 21, 24, 25, 28, 34.
IParticionamento em bins: 4, 8, 15 21, 21, 24 25, 28, 34
ISuavizao pela mdia: 9, 9, 9 22, 22, 22 29, 29, 29
ISuavizao pela fronteira: 4, 4, 15 21, 21, 24 25, 25, 34
IOutras alternativas de suavizao: mediana, ...
Tcnicas para Remoo de Rudos
Regresso: os dados podem ser suavizados ajustando-os a uma
funo (p. ex.: regresso linear).
x
y
y = x + 1
X1
Y1
Y1
Regresso linear: uma varivel pode ser
utilizada para predizer a outra.
Regresso mltipla:umavarivel pode ser modeladacomo uma funo linear de um vetor multidimensionalde variveis.
Tcnicas para Identicao de Valores Aberrantes
Clusterizao: valores aberrantes so aqueles que cam fora dos
clusters.
Tcnicas para Identicao de Valores Aberrantes
IUtilizao de um mtodo computacional para ajudar a
encontrar valores aberrantes.
IPor inspeo manual, verica-se quais valores so realmente
aberrantes, excluindo-os da base de dados.
-
Dados Inconsistentes
IErros no momento da insero de dados.
IErros provenientes da integrao de diferentes bases de
dados:
IMesmo atributo contendo diferentes codicaes.
IDuplicao de instncias.
ICorreo:
IManual ou ferramentas computacionais.
Pr-processamento de Dados
Integrao de Dados
IIntegrao de dados: combina dados de mltiplas fontes em
um nica fonte de forma coerente. As fontes podem ser
bases de dados, cubos ou arquivos de texto.
Integrao de Dados
Questes a serem consideradas durante a integrao:
IProblema da identicao de entidades: identicao das
mesmas entidades do mundo real a partir de mltiplas
fontes de dados.
P. ex.: Como um analista saber se customer_id em uma
base de dados e cust_number em outra base de dados
correspondem ao mesmo atributo?
Uso de metadados.
-
Integrao de Dados
Questes a serem consideradas durante a integrao:
IRedundncia: dados redundantes ocorrem com freqncia
quando integramos dados de mltiplas fontes.
IO mesmo atributo pode ter nomes diferentes em bases de
dados distintas.
IUm atributo pode ter sido derivado de outro atributo em
outra tabela.
IDeteco de redundncias: anlise de correlao.
IDuplicao de instncias.
Pr-processamento de Dados
Transformao de Dados
IObjetivo: colocar os dados de forma apropriada para a
minerao. A transformao de dados envolve:
ISuavizao: para remoo de rudos.
IAgregao: operaes de sumarizao dos dados.
IGeneralizao: dados primitivos so substitudos por
conceitos de ordem superior utilizando-se uma hierarquia
de conceitos. Ex.: atributo Rua conceitos de ordemsuperior: Cidade ou Pas.
INormalizao: ajuste de escala.
IConstruo de atributos: novos atributos so construdos e
adicionados ao conjunto j existente.
Normalizao de Dados
IObjetivo: Colocar os valores numa faixa pr-especicada, p.
ex.:, entre 0 e 1.
IImportante para algoritmos de classicao envolvendo
redes neurais ou clculos de distncias (k-NN).
IMtodos de normalizao:
INormalizao min-max.
INormalizao z-score.
INormalizao por escala decimal.
-
Normalizao min-max
Transformao linear nos dados originais.
v =v minA
maxAminA(new_maxA new_minA) + new_minA
onde:
minA: valor mnimo do atributo A.maxA: valor mximo do atributo A.new_minA: novo valor mnimo do atributo A.new_maxA: novo valor mximo do atributo A.v: valor original do atributo A.
Normalizao z-score
Valores do atributo so normalizados com base na mdia e
no desvio padro do atributo.
v =v medAdesv_padA
onde:
v: valor original do atributo A.medA: mdia do atributo A.desv_padA: desvio-padro do atributo A.
Normalizao por Escala Decimal
Normalizao movendo-se o ponto decimal dos valores do
atributo.
v =v
10j
onde j o menor inteiro tal que Max(|v|) < 1.
Exemplo: Atributo A contendo valores entre 986 e 917. Anormalizao realizada dividindo-se os valores do atributo por
1000 (j = 3), de modo que |986/1000| < 1.
Pr-processamento de Dados
-
Reduo de Dados
Por que fazer a reduo de dados?
IRepositrios podem conter uma quantidade absurda de
dados.
IExceder a capacidade de processamento dos programas de
minerao de dados.
ITempo de processamento muito longo.
Objetivo:
Obter uma representao reduzida do conjunto de dados
(diminuir o volume) mantendo a integridade dos dados originais.
Estratgias de Reduo de Dados
IAgregao em cubo de dados.
IReduo de dimenso.
ICompresso de dados.
IReduo de casos.
IDiscretizao e construo de hierarquias conceituais.
Agregao em Cubo de Dados
IOperaes de agregao so aplicadas aos dados na
construo dos cubos de dados.
IPodemos ter diversos nveis de agregao em cubos de
dados.
IQuanto maior o nvel de agregao, menor o volume de
dados resultante.
Reduo de Dimenso
IBases de dados podem conter muitos atributos, alguns
desses sendo irrelevantes ou redundantes para a tarefa de
minerao de dados.
Ex.: Classicar consumidor (comprador ou no comprador
de um novo CD). Quais atributos devem ser considerados?
Telefone? Idade? Gosto musical?
ISeleo de atributos!!!
-
Seleo de Atributos
ISeleo de atributos feita manualmente (baseada em
conhecimento de especialistas) pode ser invivel devido:
ITempo consumido nessa tarefa.
IComportamento dos dados no ser bem conhecido.
IVrios mtodos de seleo de atributos foram propostos.
IDeixar de fora atributos relevantes ou manter atributos
irrelevantes pode implicar na descoberta de padres de
baixa qualidade.
Compresso de Dados
Dados so codicados ou transformados para se obter uma
representao reduzida dos dados originais.
Dados originaisDados
Comprimidos
Sem perda
Aproximao dosdados originais
Com per
da
Compresso de Dados
ISem perdas:
IDiversos algoritmos para compresso de dados.
IDesvantagem: manipulao dos dados muito limitada sem
a expanso dos mesmos.
ICom perdas:
ITransformada Wavelet Discreta (Discrete Wavelet
Transform - DWT):
IRepresentao esparsa dos dados.
IAnlise de Componentes Principais (Principal Components
Analysis - PCA):
ICombinao de atributos gerando um novo conjunto
(menor) de variveis.
Compresso de Dados
Transformada Wavelet Discreta
I uma tcnica de processamento de sinais que quando
aplicada a um vetor X, transforma-o em um vetor numricode coecientes de wavelet.
INo nosso contexto, o vetor n-dimensionalX = {x1, x2, . . . , xn} contm os valores dos n atributospara uma instncia da base de dados.
IOs vetores X e X tm o mesmo comprimento.
IComo essa tcnica pode ser til para reduo da base de
dados original se os dados transformados tm a mesma
dimenso dos dados originais?
IOs dados transformados podem ser truncados.
IArmazena-se apenas uma frao dos dados (os maiores
coecientes de wavelet). Todos os demais coecientes so
mapeados para zero.
IRepresentao esparsa dos dados.
-
Reduo de Casos
Reduo do volume de dados por meio de uma representao
econmica dos mesmos.
IMtodos paramtricos:
ISupem que os dados se ajustam a um modelo.
IArmazenam apenas os parmetros do modelo (outliers
tambm podem ser armazenados).
IExemplos: Regresso linear (simples e mltipla).
IMtodos no-paramtricos:
INo estimam modelos.
IExemplos: Histogramas, clusterizao e amostragem.
Regresso Linear
I Y = + XIDois parmetros, e denem a reta. Eles so estimados apartir dos dados que temos em mos (Y1, Y2, . . . , X1, X2,
. . . ).
IEm geral, utiliza-se o mtodo dos mnimos quadrados para
ajustar a curva.
Histogramas
IDivide o dados em subconjuntos disjuntos.
IA reduo de dados: faixa de valores representada num
nico subconjunto.
Clusterizao
IOs dados so particionados em grupos (clusters).
IArmazena-se apenas a representao de cada cluster.
-
Amostragem
IUm grande conjunto de dados pode ser representado por
um subconjunto menor obtido por amostragem.
ITipos de amostragem:
IAmostragem aleatria simples sem reposio.
IAmostragem aleatria simples com reposio.
IAmostragem por conglomerado.
IAmostragem estraticada.
Discretizao
IReduz o nmero de valores de um dado atributo contnuo
pela diviso da amplitude do atributo em intervalos. Os
rtulos dos intevalos substituem os valores originais do
atributo.
IAlguns algoritmos de classicao s trabalham com
atributos discretos.
Discretizao
IMtodos Supervisionados
IUtilizam informaes referentes s classes das instncias da
base de dados durante o processo de discretizao de um
atributo.
IMtodos No Supervisionados
IConsideram somente os valores do atributo a ser
discretizado.
Mtodos No Supervisionados
IPartio em Intervalos Iguais
IDivide a faixa de valores de um atributo em k intervalos
iguais (de mesma amplitude), atribuindo a cada intervalo
um rtulo.
IPartio em Intervalos com Freqncias Iguais
IDivide os valores de um atributo contnuo em k parties,
de modo que, considerando m instncias na base de dados,
cada partio deve conter m/k valores adjacentes
(possivelmente duplicados).
IO parmetro k deve ser informado pelo usurio dos
mtodos.
IDesvantagem: as fronteiras escolhidas para particionar os
dados em intervalos podem colocar juntas muitas instncias
pertencentes a diferentes classes, afetando a preciso do
classicador.
-
Mtodos Supervisionados
IAlgoritmo de discretizao 1R.
IO objetivo dividir o domnio de cada atributo contnuo em
parties puras, ou seja, parties que sejam caracterizadas
predominantemente por uma das classes da base de dados.
IMtodos estatsticos: ChiMerge e StatDisc.
IMtodos baseados em entropia:
IHeurstica recursiva de minimizao de entropia.
Perguntas?
FIM
IntroduoLimpeza de DadosIntegrao de DadosTransformao de DadosReduo de DadosDiscretizao