mineraÇÃo de dados - valdick salesvaldick.com/files/mineracao_de_dados.pdf · 4 as informações...
TRANSCRIPT
![Page 1: MINERAÇÃO DE DADOS - Valdick Salesvaldick.com/files/Mineracao_de_dados.pdf · 4 As informações são dados com significado. "São dados dotados de relevância e propósito" (Drucker](https://reader031.vdocuments.com.br/reader031/viewer/2022030400/5a72789d7f8b9a98538d9a90/html5/thumbnails/1.jpg)
1
MINERAÇÃO DE
DADOS
![Page 2: MINERAÇÃO DE DADOS - Valdick Salesvaldick.com/files/Mineracao_de_dados.pdf · 4 As informações são dados com significado. "São dados dotados de relevância e propósito" (Drucker](https://reader031.vdocuments.com.br/reader031/viewer/2022030400/5a72789d7f8b9a98538d9a90/html5/thumbnails/2.jpg)
2
CONCEITOS BÁSICOS
DADO
INFORMAÇÃO
CONHECIMENTO
![Page 3: MINERAÇÃO DE DADOS - Valdick Salesvaldick.com/files/Mineracao_de_dados.pdf · 4 As informações são dados com significado. "São dados dotados de relevância e propósito" (Drucker](https://reader031.vdocuments.com.br/reader031/viewer/2022030400/5a72789d7f8b9a98538d9a90/html5/thumbnails/3.jpg)
3
Os dados são elementos brutos, sem significado, desvinculados
da realidade. São, segundo Davenport (1998, p. 19), "observações
sobre o estado do mundo".
São símbolos e imagens que não dissipam nossas incertezas. Eles
constituem a matéria-prima da informação. Dados sem qualidade levam
a informações e decisões da mesma natureza.
Sendo o dado considerado a matéria-prima para a informação: o que
são informações?
DADOS
CONCEITOS BÁSICOS
![Page 4: MINERAÇÃO DE DADOS - Valdick Salesvaldick.com/files/Mineracao_de_dados.pdf · 4 As informações são dados com significado. "São dados dotados de relevância e propósito" (Drucker](https://reader031.vdocuments.com.br/reader031/viewer/2022030400/5a72789d7f8b9a98538d9a90/html5/thumbnails/4.jpg)
4
As informações são dados com significado. "São dados dotados
de relevância e propósito" (Drucker apud Davenport, 1998, p.18).
Elas são o resultado do encontro de uma situação de decisão com
um conjunto de dados, ou seja, são dados contextualizados que
visam a fornecer uma solução para determinada situação de decisão
(MacDonough apud Lussato, 1991).
A informação pode assim ser considerada como dados
processados e contextualizados, mas para Sveiby (1998) a
informação também é considerada como "desprovida de significado
e de pouco valor", e Malhotra (1993) a considera como "a matéria-
prima para se obter conhecimento".
INFORMAÇÕES
CONCEITOS BÁSICOS
![Page 5: MINERAÇÃO DE DADOS - Valdick Salesvaldick.com/files/Mineracao_de_dados.pdf · 4 As informações são dados com significado. "São dados dotados de relevância e propósito" (Drucker](https://reader031.vdocuments.com.br/reader031/viewer/2022030400/5a72789d7f8b9a98538d9a90/html5/thumbnails/5.jpg)
5
Para Davenport (1998, p.19), o "conhecimento é a informação
mais valiosa (...) é valiosa precisamente porque alguém deu à
informação um contexto, um significado, uma interpretação (...)".
O conhecimento pode então ser considerado como a informação
processada pelos indivíduos. O valor agregado à informação
depende dos conhecimentos anteriores desses indivíduos.
Assim sendo, adquirimos conhecimento por meio do uso da
informação nas nossas ações.
Desta forma, o conhecimento não pode ser desvinculado do
indivíduo; ele está estritamente relacionado com a percepção do
mesmo, que codifica, decodifica, distorce e usa a informação de
acordo com suas características pessoais, ou seja, de acordo com
seus modelos mentais ou necessidade.
CONHECIMENTO
CONCEITOS BÁSICOS
![Page 6: MINERAÇÃO DE DADOS - Valdick Salesvaldick.com/files/Mineracao_de_dados.pdf · 4 As informações são dados com significado. "São dados dotados de relevância e propósito" (Drucker](https://reader031.vdocuments.com.br/reader031/viewer/2022030400/5a72789d7f8b9a98538d9a90/html5/thumbnails/6.jpg)
6
Um carro BMW, último tipo, conversível, zero
quilômetro, totalmente destruído em um acidente
no qual o motorista bateu em uma árvore
centenária derrubando-a pode ser codificado,
decodificado e distorcido das seguintes maneiras.
Algumas pessoas serão levadas a decodificar
as informações baseadas em seus valores
materiais: "Logo um carro tão caro! Será que ele
está segurado?
Exemplo
CONCEITOS BÁSICOS
![Page 7: MINERAÇÃO DE DADOS - Valdick Salesvaldick.com/files/Mineracao_de_dados.pdf · 4 As informações são dados com significado. "São dados dotados de relevância e propósito" (Drucker](https://reader031.vdocuments.com.br/reader031/viewer/2022030400/5a72789d7f8b9a98538d9a90/html5/thumbnails/7.jpg)
7
Enquanto outras pessoas, com valores humanos
mais aguçados, terão seu foco no ser humano:
"Será que o acidente resultou em feridos?"
Outras pessoas com interesses ecológicos ainda
terão suas atenções voltadas ao destino da árvore
centenária: "Logo nesta árvore! Não poderia ter
sido em uma outra?".
Exemplo
CONCEITOS BÁSICOS
![Page 8: MINERAÇÃO DE DADOS - Valdick Salesvaldick.com/files/Mineracao_de_dados.pdf · 4 As informações são dados com significado. "São dados dotados de relevância e propósito" (Drucker](https://reader031.vdocuments.com.br/reader031/viewer/2022030400/5a72789d7f8b9a98538d9a90/html5/thumbnails/8.jpg)
8
MAIS UM INGREDIENTE
NA CONCEPÇÃO DA
UTILIZAÇÃO DA
INFORMAÇÃO
![Page 9: MINERAÇÃO DE DADOS - Valdick Salesvaldick.com/files/Mineracao_de_dados.pdf · 4 As informações são dados com significado. "São dados dotados de relevância e propósito" (Drucker](https://reader031.vdocuments.com.br/reader031/viewer/2022030400/5a72789d7f8b9a98538d9a90/html5/thumbnails/9.jpg)
9
DADOS
DADOS CONTEXTO INFORMAÇÃO
INFORMAÇÃO EXPERIÊNCIA CONHECIMENTO
CONHECIMENTO HABILIDADE COMPETÊNCIA
UM NOVO CONCEITO
![Page 10: MINERAÇÃO DE DADOS - Valdick Salesvaldick.com/files/Mineracao_de_dados.pdf · 4 As informações são dados com significado. "São dados dotados de relevância e propósito" (Drucker](https://reader031.vdocuments.com.br/reader031/viewer/2022030400/5a72789d7f8b9a98538d9a90/html5/thumbnails/10.jpg)
10
TOMADA DE DECISÕES
Informação
Conhecimento
Competência
Decisão
Cadeia do
Processo
Decisório
ERP ,
Sistemas
Individuais
BI : OLAP, CRM,
DATAWAREHOUSE,
DATA MINING, etc;
Dados
![Page 11: MINERAÇÃO DE DADOS - Valdick Salesvaldick.com/files/Mineracao_de_dados.pdf · 4 As informações são dados com significado. "São dados dotados de relevância e propósito" (Drucker](https://reader031.vdocuments.com.br/reader031/viewer/2022030400/5a72789d7f8b9a98538d9a90/html5/thumbnails/11.jpg)
11
Era da Inteligência
Era das aplicações
Era dos bancos de dados
1980 1990 2000 2010
HISTÓRICO
![Page 12: MINERAÇÃO DE DADOS - Valdick Salesvaldick.com/files/Mineracao_de_dados.pdf · 4 As informações são dados com significado. "São dados dotados de relevância e propósito" (Drucker](https://reader031.vdocuments.com.br/reader031/viewer/2022030400/5a72789d7f8b9a98538d9a90/html5/thumbnails/12.jpg)
12
A IMPORTÂNCIA DA
INFORMAÇÃO
![Page 13: MINERAÇÃO DE DADOS - Valdick Salesvaldick.com/files/Mineracao_de_dados.pdf · 4 As informações são dados com significado. "São dados dotados de relevância e propósito" (Drucker](https://reader031.vdocuments.com.br/reader031/viewer/2022030400/5a72789d7f8b9a98538d9a90/html5/thumbnails/13.jpg)
13
DUPLO PAGAMENTO
O consumidor paga duas vezes por cada compra:
A primeira com dinheiro e a segunda ao fornecerinformação que vale dinheiro.
Por exemplo, se o freguês pagar com cartão decrédito, é claro, que muita coisa é revelada. Agora ofreguês também está fornecendo: (1) nome, (2)endereço e CEP, (3) informação sobre crédito, (4)base para inferir na renda familiar, e muitas coisasmais.
A pergunta essencial que paira no ar é: Quempossui os dados sobre o freguês ? E quando custa.
![Page 14: MINERAÇÃO DE DADOS - Valdick Salesvaldick.com/files/Mineracao_de_dados.pdf · 4 As informações são dados com significado. "São dados dotados de relevância e propósito" (Drucker](https://reader031.vdocuments.com.br/reader031/viewer/2022030400/5a72789d7f8b9a98538d9a90/html5/thumbnails/14.jpg)
14
DUPLO PAGAMENTO
O consumidor paga duas vezes por cada compra:
A primeira com dinheiro e a segunda ao fornecerinformação que vale dinheiro.
Por exemplo, se o freguês pagar com cartão decrédito, é claro, que muita coisa é revelada. Agora ofreguês também está fornecendo: (1) nome, (2)endereço e CEP, (3) informação sobre crédito, (4)base para inferir na renda familiar, e muitas coisasmais.
A pergunta essencial que paira no ar é: Quempossui os dados sobre o freguês ? E quando custa.
![Page 15: MINERAÇÃO DE DADOS - Valdick Salesvaldick.com/files/Mineracao_de_dados.pdf · 4 As informações são dados com significado. "São dados dotados de relevância e propósito" (Drucker](https://reader031.vdocuments.com.br/reader031/viewer/2022030400/5a72789d7f8b9a98538d9a90/html5/thumbnails/15.jpg)
15
O PODER DA INFORMAÇÃO
O maior capital das empresas não são mais os
seus colaboradores. Mas sim, as suas informações.
As informações passaram a ser os resultados de
todas as ações operacionais que fazem a empresa
funcionar.
![Page 16: MINERAÇÃO DE DADOS - Valdick Salesvaldick.com/files/Mineracao_de_dados.pdf · 4 As informações são dados com significado. "São dados dotados de relevância e propósito" (Drucker](https://reader031.vdocuments.com.br/reader031/viewer/2022030400/5a72789d7f8b9a98538d9a90/html5/thumbnails/16.jpg)
16
OBTENDO INFORMAÇÕES
Quais informações poderíamos
obter em uma simples Nota Fiscal
e que cruzamentos poderíamos
fazer?
![Page 17: MINERAÇÃO DE DADOS - Valdick Salesvaldick.com/files/Mineracao_de_dados.pdf · 4 As informações são dados com significado. "São dados dotados de relevância e propósito" (Drucker](https://reader031.vdocuments.com.br/reader031/viewer/2022030400/5a72789d7f8b9a98538d9a90/html5/thumbnails/17.jpg)
17
UMA NOTA FISCAL
![Page 18: MINERAÇÃO DE DADOS - Valdick Salesvaldick.com/files/Mineracao_de_dados.pdf · 4 As informações são dados com significado. "São dados dotados de relevância e propósito" (Drucker](https://reader031.vdocuments.com.br/reader031/viewer/2022030400/5a72789d7f8b9a98538d9a90/html5/thumbnails/18.jpg)
18
UMA NOTA FISCAL
![Page 19: MINERAÇÃO DE DADOS - Valdick Salesvaldick.com/files/Mineracao_de_dados.pdf · 4 As informações são dados com significado. "São dados dotados de relevância e propósito" (Drucker](https://reader031.vdocuments.com.br/reader031/viewer/2022030400/5a72789d7f8b9a98538d9a90/html5/thumbnails/19.jpg)
19
O QUE É MAIS IMPORTANTE ?
A
INFORMAÇÃO !
![Page 20: MINERAÇÃO DE DADOS - Valdick Salesvaldick.com/files/Mineracao_de_dados.pdf · 4 As informações são dados com significado. "São dados dotados de relevância e propósito" (Drucker](https://reader031.vdocuments.com.br/reader031/viewer/2022030400/5a72789d7f8b9a98538d9a90/html5/thumbnails/20.jpg)
20
REFLEXÃO...
“ ADMINISTRAR BEM UM NEGÓCIO É
ADMINISTRAR SEU FUTURO; E ADMINISTRAR
SEU FUTURO É ADMINISTRAR INFORMAÇÕES “
( Marion Harper Jr.)
![Page 21: MINERAÇÃO DE DADOS - Valdick Salesvaldick.com/files/Mineracao_de_dados.pdf · 4 As informações são dados com significado. "São dados dotados de relevância e propósito" (Drucker](https://reader031.vdocuments.com.br/reader031/viewer/2022030400/5a72789d7f8b9a98538d9a90/html5/thumbnails/21.jpg)
21
REFLEXÃO
“O mundo não está interessado
nas tempestades que você
enfrentou, quer apenas saber se
você trouxe o navio”William Mac Fee
E como você acha que as
organizações pensam?
![Page 22: MINERAÇÃO DE DADOS - Valdick Salesvaldick.com/files/Mineracao_de_dados.pdf · 4 As informações são dados com significado. "São dados dotados de relevância e propósito" (Drucker](https://reader031.vdocuments.com.br/reader031/viewer/2022030400/5a72789d7f8b9a98538d9a90/html5/thumbnails/22.jpg)
22
. . .
“Não estamos aqui para prever o
futuro ,mas sim para criar a
certeza de tê-lo”
Peter Ferdinand Drucker
E com quais ferramentas?
![Page 23: MINERAÇÃO DE DADOS - Valdick Salesvaldick.com/files/Mineracao_de_dados.pdf · 4 As informações são dados com significado. "São dados dotados de relevância e propósito" (Drucker](https://reader031.vdocuments.com.br/reader031/viewer/2022030400/5a72789d7f8b9a98538d9a90/html5/thumbnails/23.jpg)
23
ESPÉCIES DE ORGANIZAÇÕES
AS QUE FAZEM AS COISAS
ACONTECEREM.
AS QUE OBSERVAM AS COISAS
ACONTECEREM.
AS QUE PERGUNTAM O QUE
ACONTECEU.
![Page 24: MINERAÇÃO DE DADOS - Valdick Salesvaldick.com/files/Mineracao_de_dados.pdf · 4 As informações são dados com significado. "São dados dotados de relevância e propósito" (Drucker](https://reader031.vdocuments.com.br/reader031/viewer/2022030400/5a72789d7f8b9a98538d9a90/html5/thumbnails/24.jpg)
24
REFLEXÃO
“DIGA-ME, POR FAVOR, QUE CAMINHO DEVO TOMAR
PARA SAIR DAQUI ?”, perguntou Alice.
“ISTO DEPENDE DE PARA ONDE VOCÊ QUER IR”,
disse o gato.
“NÃO FAZ DIFERENÇA PARA MIM”, retrucou Alice.
“ENTÃO, NÃO FAZ DIFERENÇA QUE CAMINHO VOCÊ
TOMA”,
respondeu-lhe o gato.
“ALICE NO PAÍS DAS MARAVILHAS”
Lewis Carroll
![Page 25: MINERAÇÃO DE DADOS - Valdick Salesvaldick.com/files/Mineracao_de_dados.pdf · 4 As informações são dados com significado. "São dados dotados de relevância e propósito" (Drucker](https://reader031.vdocuments.com.br/reader031/viewer/2022030400/5a72789d7f8b9a98538d9a90/html5/thumbnails/25.jpg)
25
.....
Comentários ?
![Page 26: MINERAÇÃO DE DADOS - Valdick Salesvaldick.com/files/Mineracao_de_dados.pdf · 4 As informações são dados com significado. "São dados dotados de relevância e propósito" (Drucker](https://reader031.vdocuments.com.br/reader031/viewer/2022030400/5a72789d7f8b9a98538d9a90/html5/thumbnails/26.jpg)
26
NECESSIDADES
DE UM
GESTOR
![Page 27: MINERAÇÃO DE DADOS - Valdick Salesvaldick.com/files/Mineracao_de_dados.pdf · 4 As informações são dados com significado. "São dados dotados de relevância e propósito" (Drucker](https://reader031.vdocuments.com.br/reader031/viewer/2022030400/5a72789d7f8b9a98538d9a90/html5/thumbnails/27.jpg)
27
•INFORMAÇÃO
•ANÁLISE
•DECISÃO
•AÇÃO
•VELOCIDADE
•RESULTADOS
NECESSIDADE DO GESTOR
![Page 28: MINERAÇÃO DE DADOS - Valdick Salesvaldick.com/files/Mineracao_de_dados.pdf · 4 As informações são dados com significado. "São dados dotados de relevância e propósito" (Drucker](https://reader031.vdocuments.com.br/reader031/viewer/2022030400/5a72789d7f8b9a98538d9a90/html5/thumbnails/28.jpg)
28
Informação
NECESSIDADE DO GESTOR
QUANTO MAIOR A QUANTIDADE E QUALIDADE
DAS INFORMAÇÕES DISPONÍVEIS, MAIS FÁCIL
ACHARMOS ONDE ATUAR PARA ALCANÇARMOS
NOSSOS OBJETIVOS.
QUANTO MAIS FÁCIL PUDERMOS
MANIPULAR TAIS INFORMAÇÕES, PERMITINDO
ESTUDAR CENÁRIOS POR DIFERENTES
PERSPECTIVAS, MAIS CLARAS, FÁCEIS E FIÉIS
SERÃO NOSSAS CONCLUSÕES.
Análise
![Page 29: MINERAÇÃO DE DADOS - Valdick Salesvaldick.com/files/Mineracao_de_dados.pdf · 4 As informações são dados com significado. "São dados dotados de relevância e propósito" (Drucker](https://reader031.vdocuments.com.br/reader031/viewer/2022030400/5a72789d7f8b9a98538d9a90/html5/thumbnails/29.jpg)
29
Decisão
NECESSIDADE DO GESTOR
CONCLUSÕES EMBASADAS EM DADOS
REAIS NOS LEVAM A TOMAR DECISÕES
ASSERTIVAS, NA DIREÇÃO EXATA DE NOSSOS
OBJETIVOS.
Ação
TAIS DECISÕES DEVEM SER IMPLANTADAS
DE MANEIRA RÁPIDA E ABRANGENTE, SENDO
TRANSFORMADAS EM AÇÕES.
![Page 30: MINERAÇÃO DE DADOS - Valdick Salesvaldick.com/files/Mineracao_de_dados.pdf · 4 As informações são dados com significado. "São dados dotados de relevância e propósito" (Drucker](https://reader031.vdocuments.com.br/reader031/viewer/2022030400/5a72789d7f8b9a98538d9a90/html5/thumbnails/30.jpg)
30
Velocidade
NECESSIDADE DO GESTOR
AÇÕES QUE POR SUA VEZ DEVEM SER
PROCESSADAS RAPIDAMENTE, COM QUALIDADE,
EM QUANTIDADE E ABRANGÊNCIA.
Resultados
SÓ ASSIM CHEGAMOS AOS RESULTADOS
POSITIVOS QUE BUSCAMOS.
NÃO POR “MÁGICA” E SIM COMO
CONSEQÜÊNCIA LÓGICA E NORMAL DE UM
TRABALHO REALIZADO.
![Page 31: MINERAÇÃO DE DADOS - Valdick Salesvaldick.com/files/Mineracao_de_dados.pdf · 4 As informações são dados com significado. "São dados dotados de relevância e propósito" (Drucker](https://reader031.vdocuments.com.br/reader031/viewer/2022030400/5a72789d7f8b9a98538d9a90/html5/thumbnails/31.jpg)
31
NECESSIDADES
DO
USUÁRIO
![Page 32: MINERAÇÃO DE DADOS - Valdick Salesvaldick.com/files/Mineracao_de_dados.pdf · 4 As informações são dados com significado. "São dados dotados de relevância e propósito" (Drucker](https://reader031.vdocuments.com.br/reader031/viewer/2022030400/5a72789d7f8b9a98538d9a90/html5/thumbnails/32.jpg)
32
“Quero toda a Informação..."
Informação
Integrada
Medias
Importantes
Retorno Gerado
pelo Computador ExperiênciaAnálise
Processo
de
Business
inout
NECESSIDADES DO USUÁRIO
![Page 33: MINERAÇÃO DE DADOS - Valdick Salesvaldick.com/files/Mineracao_de_dados.pdf · 4 As informações são dados com significado. "São dados dotados de relevância e propósito" (Drucker](https://reader031.vdocuments.com.br/reader031/viewer/2022030400/5a72789d7f8b9a98538d9a90/html5/thumbnails/33.jpg)
33
“INFORMAÇÃO NÃO É FONTE DE PODER,
É FONTE DE GESTÃO”
REFLEXÃO
![Page 34: MINERAÇÃO DE DADOS - Valdick Salesvaldick.com/files/Mineracao_de_dados.pdf · 4 As informações são dados com significado. "São dados dotados de relevância e propósito" (Drucker](https://reader031.vdocuments.com.br/reader031/viewer/2022030400/5a72789d7f8b9a98538d9a90/html5/thumbnails/34.jpg)
34
INFORMAÇÕES
CONHECIMENTO
Foco em Resultados
Métrica dos objetivos
Estratégicos
NECESSIDADES CORPORATIVAS
BASE DE
![Page 35: MINERAÇÃO DE DADOS - Valdick Salesvaldick.com/files/Mineracao_de_dados.pdf · 4 As informações são dados com significado. "São dados dotados de relevância e propósito" (Drucker](https://reader031.vdocuments.com.br/reader031/viewer/2022030400/5a72789d7f8b9a98538d9a90/html5/thumbnails/35.jpg)
35
Data Mining
Mineração de Dados
![Page 36: MINERAÇÃO DE DADOS - Valdick Salesvaldick.com/files/Mineracao_de_dados.pdf · 4 As informações são dados com significado. "São dados dotados de relevância e propósito" (Drucker](https://reader031.vdocuments.com.br/reader031/viewer/2022030400/5a72789d7f8b9a98538d9a90/html5/thumbnails/36.jpg)
36
Mineração de Dados
![Page 37: MINERAÇÃO DE DADOS - Valdick Salesvaldick.com/files/Mineracao_de_dados.pdf · 4 As informações são dados com significado. "São dados dotados de relevância e propósito" (Drucker](https://reader031.vdocuments.com.br/reader031/viewer/2022030400/5a72789d7f8b9a98538d9a90/html5/thumbnails/37.jpg)
37
Mineração de Dados - Justificativa
O volume de dados
duplica a cada ano !
![Page 38: MINERAÇÃO DE DADOS - Valdick Salesvaldick.com/files/Mineracao_de_dados.pdf · 4 As informações são dados com significado. "São dados dotados de relevância e propósito" (Drucker](https://reader031.vdocuments.com.br/reader031/viewer/2022030400/5a72789d7f8b9a98538d9a90/html5/thumbnails/38.jpg)
38
DM - MOTIVAÇÃO
Os recursos de análise de dados tradicionais
são inviáveis para acompanhar esta evolução e
velocidade da Tecnologia da Informação em busca
de conhecimento.
“Morrendo de sede por conhecimento
em um oceano de dados”
![Page 39: MINERAÇÃO DE DADOS - Valdick Salesvaldick.com/files/Mineracao_de_dados.pdf · 4 As informações são dados com significado. "São dados dotados de relevância e propósito" (Drucker](https://reader031.vdocuments.com.br/reader031/viewer/2022030400/5a72789d7f8b9a98538d9a90/html5/thumbnails/39.jpg)
39
DATA MINING
O que é?
Mineração de dados (descoberta de conhecimento
em bases de dados):
Extração de informação interessante (não-
trivial, implícita, previamente desconhecida e
potencialmente útil) dos dados armazenados em
grandes massas de dados conhecimento para
tomada de decisão.
![Page 40: MINERAÇÃO DE DADOS - Valdick Salesvaldick.com/files/Mineracao_de_dados.pdf · 4 As informações são dados com significado. "São dados dotados de relevância e propósito" (Drucker](https://reader031.vdocuments.com.br/reader031/viewer/2022030400/5a72789d7f8b9a98538d9a90/html5/thumbnails/40.jpg)
40
DATA MINING
KDD
Knowledge Discovery in Database
Descoberta de Conhecimento em Banco de Dados
![Page 41: MINERAÇÃO DE DADOS - Valdick Salesvaldick.com/files/Mineracao_de_dados.pdf · 4 As informações são dados com significado. "São dados dotados de relevância e propósito" (Drucker](https://reader031.vdocuments.com.br/reader031/viewer/2022030400/5a72789d7f8b9a98538d9a90/html5/thumbnails/41.jpg)
41
DATA MINING
“KDD é o processo, não
trivial, de extração de
informações, implícitas,
previamente
desconhecidas e
potencialmente úteis, a
partir dos dados
armazenados em um banco
de dados”[Frawley , Piatetsky-Shapiro &
Matheus,1991]
![Page 42: MINERAÇÃO DE DADOS - Valdick Salesvaldick.com/files/Mineracao_de_dados.pdf · 4 As informações são dados com significado. "São dados dotados de relevância e propósito" (Drucker](https://reader031.vdocuments.com.br/reader031/viewer/2022030400/5a72789d7f8b9a98538d9a90/html5/thumbnails/42.jpg)
42
DATA MINING
Como identificar conhecimento em
uma grande massa de dados:
– Padrões (“X” acontece se...)
– Exceções (isto é diferente de... por causa de...)
– Tendências (ao longo do tempo, “Y” deve
acontecer...)
– Correlações (se “M” acontece, “N” também deve
acontecer)
![Page 43: MINERAÇÃO DE DADOS - Valdick Salesvaldick.com/files/Mineracao_de_dados.pdf · 4 As informações são dados com significado. "São dados dotados de relevância e propósito" (Drucker](https://reader031.vdocuments.com.br/reader031/viewer/2022030400/5a72789d7f8b9a98538d9a90/html5/thumbnails/43.jpg)
43
DATA MINING
O que é?
Nomes alternativos:
Descoberta (mineração) de conhecimento em
banco de dados (KDD - Knowledge Discovery in
Database ), extração de conhecimento, análise de
dados/padrões, business intelligence, etc.
O que não é data mining?
Processamento de consultas dedutivo.
Sistemas especialistas ou pequenos programas
estatísticos ou de aprendizado de máquina.
![Page 44: MINERAÇÃO DE DADOS - Valdick Salesvaldick.com/files/Mineracao_de_dados.pdf · 4 As informações são dados com significado. "São dados dotados de relevância e propósito" (Drucker](https://reader031.vdocuments.com.br/reader031/viewer/2022030400/5a72789d7f8b9a98538d9a90/html5/thumbnails/44.jpg)
44
DATA MINING - MOTIVAÇÃO
Problema da explosão de dados
Processo de tomada de decisão exige análise de grandes
massas de dados
Solução: Data Warehousing e Data Mining
Data warehousing: Visão multidimensional dos dados para
processamento OLAP
Data mining: Extração de conhecimento interessante (regras,
padrões, restrições) dos dados em grandes bases de dados.
![Page 45: MINERAÇÃO DE DADOS - Valdick Salesvaldick.com/files/Mineracao_de_dados.pdf · 4 As informações são dados com significado. "São dados dotados de relevância e propósito" (Drucker](https://reader031.vdocuments.com.br/reader031/viewer/2022030400/5a72789d7f8b9a98538d9a90/html5/thumbnails/45.jpg)
45
DATA MINING - APLICAÇÕES
Análise de dados e suporte a decisões
Análise de mercado
Marketing sob demanda, relação entre clientes, análise e
segmentação de mercado, análise cruzada de dados, etc.
Análise de risco
Previsão, controle de qualidade, análise competitiva,
análise de seguros
Detecção de fraude
Outras Aplicações
Mineração de texto (news group, email, documentos XML)
![Page 46: MINERAÇÃO DE DADOS - Valdick Salesvaldick.com/files/Mineracao_de_dados.pdf · 4 As informações são dados com significado. "São dados dotados de relevância e propósito" (Drucker](https://reader031.vdocuments.com.br/reader031/viewer/2022030400/5a72789d7f8b9a98538d9a90/html5/thumbnails/46.jpg)
46
Quais são as fontes de dados para Análise de Mercado ?
Transações de cartões de crédito, cartões de fidelidade, cupons
de desconto, serviços de televendas, estudos de comportamento
(questionários públicos, web, etc.)
Marketing sob demanda
Descobrir grupos de “modelos” de clientes que compartilham as
mesmas características: interesses, hábitos de compras, etc.
Determinar padrões de compras.
Análise cruzada de dados.
Associações/corelações entre vendas de produtos
Previsão baseada nas associações determinadas
DM – ANÁLISE DE MERCADO
![Page 47: MINERAÇÃO DE DADOS - Valdick Salesvaldick.com/files/Mineracao_de_dados.pdf · 4 As informações são dados com significado. "São dados dotados de relevância e propósito" (Drucker](https://reader031.vdocuments.com.br/reader031/viewer/2022030400/5a72789d7f8b9a98538d9a90/html5/thumbnails/47.jpg)
47
DM – ANÁLISE DE MERCADO
Preferências do Cliente
Data mining pode mostrar que tipos de clientes compram
que tipos de produtos (clustering ou classificação).
Identificação das necessidades dos clientes
Melhores produtos para diferentes clientes;
Modelos de predição para descobrir que fatores vão atrair
novos clientes
Informações sumárias
Relatórios multidimensionais e estatísticos
![Page 48: MINERAÇÃO DE DADOS - Valdick Salesvaldick.com/files/Mineracao_de_dados.pdf · 4 As informações são dados com significado. "São dados dotados de relevância e propósito" (Drucker](https://reader031.vdocuments.com.br/reader031/viewer/2022030400/5a72789d7f8b9a98538d9a90/html5/thumbnails/48.jpg)
48
Planejamento de finanças e orçamentoAnálise e predição de fluxo de caixa
Análise de contingência para provisão de bens
Análise de séries temporais
Planejamento de recursos:Resume e compara os recursos e os gastos
Competição:Monitorar concorrentes e direções de mercado
Agrupar clientes em classes e elaborar métodos para ajustar preços competitivos com os concorrentes do mercado
DATA MINING – ANÁLISE DE RISCOS
![Page 49: MINERAÇÃO DE DADOS - Valdick Salesvaldick.com/files/Mineracao_de_dados.pdf · 4 As informações são dados com significado. "São dados dotados de relevância e propósito" (Drucker](https://reader031.vdocuments.com.br/reader031/viewer/2022030400/5a72789d7f8b9a98538d9a90/html5/thumbnails/49.jpg)
49
DM – DETECCÃO DE FRAUDES
AplicaçõesLargamente usada em serviços de saúde, cartões de créditos,
telecomunicações (fraude de ligações telefônicas), etc.
TécnicasDados históricos para construir modelos de comportamento
fraudulentos e usar mineração de dados para identificar instâncias
similares
ExemplosSeguro de automóveis: detecta um grupo de pessoas que são
potenciais coletores de sinistros
Lavagem de dinheiro: detecta transações suspeitas de dinheiro
Seguro de saúde: detecta pacientes “profissionais” e grupo de
outores usados para receber seguro destes pacientes
![Page 50: MINERAÇÃO DE DADOS - Valdick Salesvaldick.com/files/Mineracao_de_dados.pdf · 4 As informações são dados com significado. "São dados dotados de relevância e propósito" (Drucker](https://reader031.vdocuments.com.br/reader031/viewer/2022030400/5a72789d7f8b9a98538d9a90/html5/thumbnails/50.jpg)
50
DM – DETECCÃO DE FRAUDES
Detecção inapropriada de tratamento médicoComissão de Seguro de Saúde da Austrália identificou que em muitos casos os tratamentos não eram necessários (economia de $1milhão/ano).
Detecção de fraudes telefônicasModelo de ligações telefônicas: destino da ligação, duração, hora do dia, dia da semana. Análise de padrões que desviam do padrão esperado.
![Page 51: MINERAÇÃO DE DADOS - Valdick Salesvaldick.com/files/Mineracao_de_dados.pdf · 4 As informações são dados com significado. "São dados dotados de relevância e propósito" (Drucker](https://reader031.vdocuments.com.br/reader031/viewer/2022030400/5a72789d7f8b9a98538d9a90/html5/thumbnails/51.jpg)
51
DM - DESCOBERTA DO
CONHECIMENTO EM BD (KDD)
FAYYAD 1996
?
CONHECIMENTO
PADRÕES
DADO
TRANSFORMADO
DATA
MINING
INTERPRETAÇÃO/
AVALIAÇÃO
DADOS
SELEÇÃO
PRÉ-PROCESSAMENTO
DADO
ANALISADO
DADO
PROCESSADO
TRANSFORMAÇÃO
![Page 52: MINERAÇÃO DE DADOS - Valdick Salesvaldick.com/files/Mineracao_de_dados.pdf · 4 As informações são dados com significado. "São dados dotados de relevância e propósito" (Drucker](https://reader031.vdocuments.com.br/reader031/viewer/2022030400/5a72789d7f8b9a98538d9a90/html5/thumbnails/52.jpg)
52
DM - DESCOBERTA DO
CONHECIMENTO EM BD (KDD)
Dados
Conhecimento
Dados
Pré-processados
Dados
Transformados
Regras e
Padrões
Dados
Selecionados
1
1 - SELEÇÃO
2 - PRÉ-PROCESSAMENTO(Limpeza + Enriquecimento)
3 - TRANSFORMAÇÃO
4 - MINERAÇÃO
5 - INTERPRETAÇÃO
2
3
4
5
![Page 53: MINERAÇÃO DE DADOS - Valdick Salesvaldick.com/files/Mineracao_de_dados.pdf · 4 As informações são dados com significado. "São dados dotados de relevância e propósito" (Drucker](https://reader031.vdocuments.com.br/reader031/viewer/2022030400/5a72789d7f8b9a98538d9a90/html5/thumbnails/53.jpg)
53
DM - ETAPAS DO PROCESSO DE KDD
Conhecer o domínio da aplicação.
Conhecimento relevante e metas da aplicação
Criar a base de dados alvo: seleção de dados
Limpeza dos dados e pré-processamento: (até 60% do esforço!)
Transformação dos dados:
Contemplar propriedades importantes e dimensões.
Escolha das funções do data mining
sumarização, classificação, associação, clustering.
Escolha dos algortimos de mineração
Data mining: busca dos padrões de interesse
Avaliação dos padrões descobertos e apresentação do conhecimento
visualização, transformação, remoção de padrões redundantes, etc.
Uso do conhecimento descoberto
![Page 54: MINERAÇÃO DE DADOS - Valdick Salesvaldick.com/files/Mineracao_de_dados.pdf · 4 As informações são dados com significado. "São dados dotados de relevância e propósito" (Drucker](https://reader031.vdocuments.com.br/reader031/viewer/2022030400/5a72789d7f8b9a98538d9a90/html5/thumbnails/54.jpg)
54
DM - ETAPAS DO PROCESSO DE KDD
Data Mining
Descoberta
Modelagem de
Prognóstico
Análise Prévia
Lógica
Condicional
Afinidades e
Associações
Tendências e
Variações
Resultado do
Prognóstico
Previsão
Detecção de
Desvio
Análise de
Ligações
![Page 55: MINERAÇÃO DE DADOS - Valdick Salesvaldick.com/files/Mineracao_de_dados.pdf · 4 As informações são dados com significado. "São dados dotados de relevância e propósito" (Drucker](https://reader031.vdocuments.com.br/reader031/viewer/2022030400/5a72789d7f8b9a98538d9a90/html5/thumbnails/55.jpg)
55
ARQUITETURA DE UM SISTEMA DE
DATA MINING
Data
Warehouse
Data cleaning &
data integration
Filtering
Databases
Database or data warehouse server
Data mining engine
Pattern evaluation
Graphical user interface
Knowledge-base
![Page 56: MINERAÇÃO DE DADOS - Valdick Salesvaldick.com/files/Mineracao_de_dados.pdf · 4 As informações são dados com significado. "São dados dotados de relevância e propósito" (Drucker](https://reader031.vdocuments.com.br/reader031/viewer/2022030400/5a72789d7f8b9a98538d9a90/html5/thumbnails/56.jpg)
56
ALGUMAS TÉCNICAS
DE MINERAÇÃO
DE DADOS
![Page 57: MINERAÇÃO DE DADOS - Valdick Salesvaldick.com/files/Mineracao_de_dados.pdf · 4 As informações são dados com significado. "São dados dotados de relevância e propósito" (Drucker](https://reader031.vdocuments.com.br/reader031/viewer/2022030400/5a72789d7f8b9a98538d9a90/html5/thumbnails/57.jpg)
57
Classificação
Descoberta de Regras de Associação
Clustering
TÉCNICAS DE MINERAÇÃO DE DADOS
![Page 58: MINERAÇÃO DE DADOS - Valdick Salesvaldick.com/files/Mineracao_de_dados.pdf · 4 As informações são dados com significado. "São dados dotados de relevância e propósito" (Drucker](https://reader031.vdocuments.com.br/reader031/viewer/2022030400/5a72789d7f8b9a98538d9a90/html5/thumbnails/58.jpg)
58
Mineração de Dados - Classificação
• Usamos o Indutor, como por exemplo uma Árvore
de decisão (ID3, C4.5), para indicar classes para
estes dados. Assumimos que dados desconhecidos
“próximos” de dados conhecidos terão a mesma
classe dos dados conhecidos.
• O processo pode ser avaliado se usarmos dados
com classes conhecidas, fizermos a sua
classificação e compararmos os resultados
previstos com os obtidos.
![Page 59: MINERAÇÃO DE DADOS - Valdick Salesvaldick.com/files/Mineracao_de_dados.pdf · 4 As informações são dados com significado. "São dados dotados de relevância e propósito" (Drucker](https://reader031.vdocuments.com.br/reader031/viewer/2022030400/5a72789d7f8b9a98538d9a90/html5/thumbnails/59.jpg)
59
Classificação - REGRAS
Regras possuem:
antecedentes (condições) e
conseqüentes (classe):
SE COND1 E COND2 E... ENTÃO CLASSE(A)
Condições relacionam valores dos atributos:
Atributos : Cliente, Data Vencimento, Pagamento, Valor,....
Relações: <, >, =,......
Mineração de Dados - Classificação
![Page 60: MINERAÇÃO DE DADOS - Valdick Salesvaldick.com/files/Mineracao_de_dados.pdf · 4 As informações são dados com significado. "São dados dotados de relevância e propósito" (Drucker](https://reader031.vdocuments.com.br/reader031/viewer/2022030400/5a72789d7f8b9a98538d9a90/html5/thumbnails/60.jpg)
60
Classificação – REGRAS - Exemplo
SE 06:00hs< hora_sinistro < 08:30hs E
oficina
oficinas_suspeitas E
prêmio_seguro < R$ 2300 E
registro_policial = NÃO E
. . . . . . . . . . .
custo_sinistro > 2,4 prêmio_seguro
ENTÃO FRAUDE
Mineração de Dados - Classificação
![Page 61: MINERAÇÃO DE DADOS - Valdick Salesvaldick.com/files/Mineracao_de_dados.pdf · 4 As informações são dados com significado. "São dados dotados de relevância e propósito" (Drucker](https://reader031.vdocuments.com.br/reader031/viewer/2022030400/5a72789d7f8b9a98538d9a90/html5/thumbnails/61.jpg)
61
Classificação - Exemplo
Sexo País Idade Comprar
M França 25 sim
M Inglaterra 21 sim
F Franca 23 sim
F Inglaterra 34 sim
F França 30 não
M Alemanha 21 não
M Alemanha 20 não
F Alemanha 18 não
F França 34 não
M França 55 não
Mineração de Dados - Classificação
![Page 62: MINERAÇÃO DE DADOS - Valdick Salesvaldick.com/files/Mineracao_de_dados.pdf · 4 As informações são dados com significado. "São dados dotados de relevância e propósito" (Drucker](https://reader031.vdocuments.com.br/reader031/viewer/2022030400/5a72789d7f8b9a98538d9a90/html5/thumbnails/62.jpg)
62
Classificação
SE (país = “Alemanha”) ENTÃO (comprar=“não”)
Se (país = “Inglaterra”) ENTÃO (comprar = “sim”)
SE (país = “França” E idade 25) ENTÃO (comprar = “sim”)
SE (país = “França” E idade > 25) ENTÃO (comprar = “não”)
Mineração de Dados - Classificação
![Page 63: MINERAÇÃO DE DADOS - Valdick Salesvaldick.com/files/Mineracao_de_dados.pdf · 4 As informações são dados com significado. "São dados dotados de relevância e propósito" (Drucker](https://reader031.vdocuments.com.br/reader031/viewer/2022030400/5a72789d7f8b9a98538d9a90/html5/thumbnails/63.jpg)
63
Algoritmo ID3 [Quinlan 86]
Mineração de Dados - Classificação
Passos para construção de uma árvore de decisão:
1. Seleciona um atributo como sendo o nodo raiz ;
2. Arcos são criados para todos os diferentes valores do
atributo selecionado no passo 1;
3. Se todos os exemplos de treinamento sobre uma folha
pertencerem a uma mesma classe, esta folha recebe o
nome da classe. Se todas as folhas possuem uma
classe, o algoritmo termina;
4. Senão, o nodo é determinado com um atributo que não
ocorra no trajeto da raiz, e arcos são criados para todos
os valores. O algoritmo retorna ao passo 3.
![Page 64: MINERAÇÃO DE DADOS - Valdick Salesvaldick.com/files/Mineracao_de_dados.pdf · 4 As informações são dados com significado. "São dados dotados de relevância e propósito" (Drucker](https://reader031.vdocuments.com.br/reader031/viewer/2022030400/5a72789d7f8b9a98538d9a90/html5/thumbnails/64.jpg)
64
Mineração de Dados - Classificação
ID Salário Idade Tipo Emprego Classe
1 3.000 30 Autônomo B
2 4.000 35 Indústria B
3 7.000 50 Pesquisa C
4 6.000 45 Autônomo C
5 7.000 30 Pesquisa B
6 6.000 35 Indústria B
7 6.000 35 Autônomo A
8 7.000 30 Autônomo A
9 4.000 45 Indústria B
Salário
Idade
T.Empr.
B
A
C
B
5.000 5.000
40 40
Ind.,Pesq. Autônomo
Árvore de Decisão ou
Árvore de Classificação
(Sal 5.000) Classe = B
(Sal 5.000) (Idade 40) Classe = C
(Sal 5.000) (Idade 40) (TEmpr = Autônomo) Classe = A
(Sal 5.000) (Idade 40) ((TEmpr = Indústria) (TEmpr = Pesquisa)) Classe = B
Regras de Classificação
Exemplo
![Page 65: MINERAÇÃO DE DADOS - Valdick Salesvaldick.com/files/Mineracao_de_dados.pdf · 4 As informações são dados com significado. "São dados dotados de relevância e propósito" (Drucker](https://reader031.vdocuments.com.br/reader031/viewer/2022030400/5a72789d7f8b9a98538d9a90/html5/thumbnails/65.jpg)
65
Algoritmo ID3: restrições
Mineração de Dados - Classificação
O algoritmo ID3 não contempla todos os casos:
• Quando atributos forem numéricos?
– Esquemas de discretização.
– Identificação de categorias discretas em atributos numéricos
(particionamento do atributo).
• Quando dados estiverem incompletos?
– Usar classe “faltando”.
– Substituir valores inexistentes (pré-processamento).
• Complexidade da árvore resultante
– Pruning (poda)
Outros algoritmos: C4.5 / J4.8
![Page 66: MINERAÇÃO DE DADOS - Valdick Salesvaldick.com/files/Mineracao_de_dados.pdf · 4 As informações são dados com significado. "São dados dotados de relevância e propósito" (Drucker](https://reader031.vdocuments.com.br/reader031/viewer/2022030400/5a72789d7f8b9a98538d9a90/html5/thumbnails/66.jpg)
66
Associação
Mineração de Dados
![Page 67: MINERAÇÃO DE DADOS - Valdick Salesvaldick.com/files/Mineracao_de_dados.pdf · 4 As informações são dados com significado. "São dados dotados de relevância e propósito" (Drucker](https://reader031.vdocuments.com.br/reader031/viewer/2022030400/5a72789d7f8b9a98538d9a90/html5/thumbnails/67.jpg)
67
Descoberta de Regras de Associação
Regras de associação ou regras associativas têm a forma
{X1, X2, ..., Xn} Y
significando que se encontrarmos todos os itens X1, X2,
..., Xn numa transação, então temos uma boa chance de
encontrar também Y.
(Freitas,2000)
Mineração de Dados - Associação
![Page 68: MINERAÇÃO DE DADOS - Valdick Salesvaldick.com/files/Mineracao_de_dados.pdf · 4 As informações são dados com significado. "São dados dotados de relevância e propósito" (Drucker](https://reader031.vdocuments.com.br/reader031/viewer/2022030400/5a72789d7f8b9a98538d9a90/html5/thumbnails/68.jpg)
68
Precisamos de métricas que indiquem:
• Significância em uma associação: ela pode existir mas ser muito rara
em uma base de dados (ex. Compra cerveja e fraldas).
– Suporte X Λ Y : número de casos que contém X e Y dividido pelo
número total de registros.
• Confiança em uma associação: o antecedente pode ocorrer várias
vezes na base de dados mas nem sempre com o mesmo conseqüente
associado.
– Confiança X Λ Y : número de registros que contém X e Y dividido pelo
número de registros que contém X.
(Freitas,2000)
Mineração de Dados - Associação
![Page 69: MINERAÇÃO DE DADOS - Valdick Salesvaldick.com/files/Mineracao_de_dados.pdf · 4 As informações são dados com significado. "São dados dotados de relevância e propósito" (Drucker](https://reader031.vdocuments.com.br/reader031/viewer/2022030400/5a72789d7f8b9a98538d9a90/html5/thumbnails/69.jpg)
69
Descoberta de Regras de Associação
dada a regra de associação X Y
X implica Y
se X então Y
se compra X então compra Y,
define-se
(Freitas,2000)
suporte = Número de registros com X e Y
Número total de registros
confiança = Número de registros com X e Y
Número de registros com XGrau de Certeza
Mineração de Dados - Associação
![Page 70: MINERAÇÃO DE DADOS - Valdick Salesvaldick.com/files/Mineracao_de_dados.pdf · 4 As informações são dados com significado. "São dados dotados de relevância e propósito" (Drucker](https://reader031.vdocuments.com.br/reader031/viewer/2022030400/5a72789d7f8b9a98538d9a90/html5/thumbnails/70.jpg)
70
(Freitas,2000)
“ Tarefa é descobrir todas a regras de associação
com suporte ao suporte mínimo (minsup) e
confiança confiança mínima (minconf) , definidas
pelo usuário”.
Mineração de Dados - Associação
![Page 71: MINERAÇÃO DE DADOS - Valdick Salesvaldick.com/files/Mineracao_de_dados.pdf · 4 As informações são dados com significado. "São dados dotados de relevância e propósito" (Drucker](https://reader031.vdocuments.com.br/reader031/viewer/2022030400/5a72789d7f8b9a98538d9a90/html5/thumbnails/71.jpg)
71
Descoberta de Regras de Associação
Cada registro corresponde a uma transação de um cliente,
com itens assumindo valores binários (sim/não), indicando se o
cliente comprou ou não o respectivo item.
num leite café cerveja pão manteiga arroz feijão
1 não sim não sim sim não não
2 sim não sim sim sim não não
3 não sim não sim sim não não
4 sim sim não sim sim não não
5 não não sim não não não não
6 não não não não sim não não
7 não não não sim não não não
8 não não não não não não sim
9 não não não não não sim sim
10 não não não não não sim não
(FREITAS & LAVINGTON 98)
Mineração de Dados - Associação
![Page 72: MINERAÇÃO DE DADOS - Valdick Salesvaldick.com/files/Mineracao_de_dados.pdf · 4 As informações são dados com significado. "São dados dotados de relevância e propósito" (Drucker](https://reader031.vdocuments.com.br/reader031/viewer/2022030400/5a72789d7f8b9a98538d9a90/html5/thumbnails/72.jpg)
72
Descoberta de Regras de Associação
(Freitas, 2000)
SE (café) ENTÃO (pão) sup=0.3 conf.=1
SE (café) ENTÃO (manteiga) sup=0.3 conf.=1
SE (pão) ENTÃO (manteiga) sup=0.4 conf.=0.8
SE (manteiga) ENTÃO (pão) sup=0.4 conf.=0.8
SE (café E pão) ENTÃO (manteiga) sup=0.3 conf.=1
SE (café E manteiga) ENTÃO (manteiga) sup=0.3 conf.=1
SE (café) ENTÃO (manteiga E manteiga) sup=0.3 conf.=1
Mineração de Dados - Associação
![Page 73: MINERAÇÃO DE DADOS - Valdick Salesvaldick.com/files/Mineracao_de_dados.pdf · 4 As informações são dados com significado. "São dados dotados de relevância e propósito" (Drucker](https://reader031.vdocuments.com.br/reader031/viewer/2022030400/5a72789d7f8b9a98538d9a90/html5/thumbnails/73.jpg)
73
Algoritmos de regras de Associação
AIS SETM
Apriori Apriori -TID
Apriori-Hybrid Dense – Miner
MiRABIT
Mineração de Dados - Associação
![Page 74: MINERAÇÃO DE DADOS - Valdick Salesvaldick.com/files/Mineracao_de_dados.pdf · 4 As informações são dados com significado. "São dados dotados de relevância e propósito" (Drucker](https://reader031.vdocuments.com.br/reader031/viewer/2022030400/5a72789d7f8b9a98538d9a90/html5/thumbnails/74.jpg)
74
TÉCNICAS DE MINERAÇÃO DE DADOS
(1) Dado um limiar de suporte minsup, no primeiro passo encontre os itens
que aparecem ao menos numa fração das transações igual a minsup. Este
conjunto é chamado L1, dos itens freqüentes.
(2)Os pares dos itens em L1 se tornam pares candidatos C2 para o segundo
passo. Os pares em C2 cuja contagem alcançar minsup são os pares freqüentes
L2.
(3) As trincas candidatas C3 são aqueles conjuntos {A, B, C} tais que todos os
{A, B}, {A, C} e {B, C} estão em L2. No terceiro passo, conte a ocorrência
das trincas em C3; aquelas cuja contagem alcançar minconf são as trincas
freqüentes, L3.
(4) Proceda da mesma forma para tuplas de ordem mais elevada, até os
conjuntos se tornarem vazios. Li são os conjuntos freqüentes de tamanho i;
Ci+1 é o conjunto de tamanho i+1 tal que cada subconjunto de tamanho i está
em Li.
Algoritmo Apriori
![Page 75: MINERAÇÃO DE DADOS - Valdick Salesvaldick.com/files/Mineracao_de_dados.pdf · 4 As informações são dados com significado. "São dados dotados de relevância e propósito" (Drucker](https://reader031.vdocuments.com.br/reader031/viewer/2022030400/5a72789d7f8b9a98538d9a90/html5/thumbnails/75.jpg)
75
TÉCNICAS DE MINERAÇÃO DE DADOS
Algoritmo Apriori
Conjunto de itens suporte
{leite} 2
{café} 3
{cerveja} 2
{pão} 5
{manteiga} 5
{arroz} 2
{feijão} 2
Conjunto de itens suporte
{café} 3
{pão} 5
{manteiga} 5
C1
L1
L1 será os itens de C1 com
suporte >= 3 (0,3)
![Page 76: MINERAÇÃO DE DADOS - Valdick Salesvaldick.com/files/Mineracao_de_dados.pdf · 4 As informações são dados com significado. "São dados dotados de relevância e propósito" (Drucker](https://reader031.vdocuments.com.br/reader031/viewer/2022030400/5a72789d7f8b9a98538d9a90/html5/thumbnails/76.jpg)
76
TÉCNICAS DE MINERAÇÃO DE DADOS
Algoritmo Apriori
C2 , L2
C3, L3
Conjunto de itens suporte
{café, pão} 3
{café, manteiga} 3
{pão, manteiga} 4
Conjunto de itens suporte
{café, pão, manteiga} 3
Os pares dos itens de L1
tornam-se
Candidatos para o C2
![Page 77: MINERAÇÃO DE DADOS - Valdick Salesvaldick.com/files/Mineracao_de_dados.pdf · 4 As informações são dados com significado. "São dados dotados de relevância e propósito" (Drucker](https://reader031.vdocuments.com.br/reader031/viewer/2022030400/5a72789d7f8b9a98538d9a90/html5/thumbnails/77.jpg)
77
TÉCNICAS DE MINERAÇÃO DE DADOS
Algoritmo Apriori
Regras candidatas com dois itens com o seu grau de certeza(Confiança):
Conjunto de itens: {café, pão}
Se café Então pão conf = 1,0
Se pão Então café conf = 0,6
Conjunto de itens: {café, manteiga}
Se café Então manteiga conf = 1,0
Se manteiga Então café conf = 0,6
Conjunto de itens: {pão, manteiga}
Se pão Então manteiga conf = 0,8
Se manteiga Então pão conf = 0,8
![Page 78: MINERAÇÃO DE DADOS - Valdick Salesvaldick.com/files/Mineracao_de_dados.pdf · 4 As informações são dados com significado. "São dados dotados de relevância e propósito" (Drucker](https://reader031.vdocuments.com.br/reader031/viewer/2022030400/5a72789d7f8b9a98538d9a90/html5/thumbnails/78.jpg)
78
TÉCNICAS DE MINERAÇÃO DE DADOS
Algoritmo Apriori
Regras candidatas com três itens com o seu valor de certeza:
Conjunto de itens: {café, manteiga, pão}
Se café, manteiga Então pão conf = 1,0
Se café, pão Então manteiga conf = 1,0
Se manteiga, pão Então café conf = 0,75
Se café Então manteiga, pão conf = 1,0
Se manteiga Então café, pão conf = 0,6
Se pão Então café, manteiga conf = 0,6
![Page 79: MINERAÇÃO DE DADOS - Valdick Salesvaldick.com/files/Mineracao_de_dados.pdf · 4 As informações são dados com significado. "São dados dotados de relevância e propósito" (Drucker](https://reader031.vdocuments.com.br/reader031/viewer/2022030400/5a72789d7f8b9a98538d9a90/html5/thumbnails/79.jpg)
79
Descoberta de Regras de Associação
Padrões descobertos, minsup = 0,3 e minconf = 0,8:
Se café Então pão conf = 1,0
Se café Então manteiga conf = 1,0
Se pão Então manteiga conf = 0,8
Se manteiga Então pão conf = 0,8
Se café, manteiga Então pão conf = 1,0
Se café, pão Então manteiga conf = 1,0
Se café Então manteiga, pão conf = 1,0
Mineração de Dados - Associação
![Page 80: MINERAÇÃO DE DADOS - Valdick Salesvaldick.com/files/Mineracao_de_dados.pdf · 4 As informações são dados com significado. "São dados dotados de relevância e propósito" (Drucker](https://reader031.vdocuments.com.br/reader031/viewer/2022030400/5a72789d7f8b9a98538d9a90/html5/thumbnails/80.jpg)
80
Clustering
Agrupamento
Mineração de Dados
![Page 81: MINERAÇÃO DE DADOS - Valdick Salesvaldick.com/files/Mineracao_de_dados.pdf · 4 As informações são dados com significado. "São dados dotados de relevância e propósito" (Drucker](https://reader031.vdocuments.com.br/reader031/viewer/2022030400/5a72789d7f8b9a98538d9a90/html5/thumbnails/81.jpg)
81
É o resultado da identificação de um conjunto finito de
categorias (ou grupos - clusters) que contêm objetos
similares.
Grupos esses que não são previamente definidos.
Cluster
Mineração de Dados - Clustering
![Page 82: MINERAÇÃO DE DADOS - Valdick Salesvaldick.com/files/Mineracao_de_dados.pdf · 4 As informações são dados com significado. "São dados dotados de relevância e propósito" (Drucker](https://reader031.vdocuments.com.br/reader031/viewer/2022030400/5a72789d7f8b9a98538d9a90/html5/thumbnails/82.jpg)
82
Análise de Cluster
“Esta técnica agrupa informações homogêneas
de grupos heterogêneos entre os demais e aponta o
item que melhor representa cada grupo, permitindo,
desta forma, que consigamos perceber a
característica de cada grupo.
Instintivamente as pessoas visualizam os dados
segmentados em grupos discretos, como por exemplo,
tipos de plantas ou animais. Na criação desses grupos
discretos pode-se notar a similaridade dos objetos em
cada grupo”.GTI (2002) - Deborah R. Carvalho
Mineração de Dados - Clustering
![Page 83: MINERAÇÃO DE DADOS - Valdick Salesvaldick.com/files/Mineracao_de_dados.pdf · 4 As informações são dados com significado. "São dados dotados de relevância e propósito" (Drucker](https://reader031.vdocuments.com.br/reader031/viewer/2022030400/5a72789d7f8b9a98538d9a90/html5/thumbnails/83.jpg)
83
Marketing: ajuda na descoberta de grupos distintos de clientes, e uso deste conhecimento para criar campanhas dirigidas;
Uso de terras: identificação de áreas de uso similar a partir de uma base de observação via satélite;
Seguros: identificação de grupos de assegurados com alto custo de sinistro;
Planejamento urbano: identificação de grupos de casa de acordo com seu tipo, valor e localização geográfica;
Estudos sobre clientes: identificação dos tipos de clientes em função de pagamentos de duplicatas – Meu Caso.
Análise de Cluster
Mineração de Dados - Clustering
![Page 84: MINERAÇÃO DE DADOS - Valdick Salesvaldick.com/files/Mineracao_de_dados.pdf · 4 As informações são dados com significado. "São dados dotados de relevância e propósito" (Drucker](https://reader031.vdocuments.com.br/reader031/viewer/2022030400/5a72789d7f8b9a98538d9a90/html5/thumbnails/84.jpg)
84
Um bom método de agrupamento (clustering) deve produzir
clusters de qualidade com:
Alta similaridade intra-classe;
Baixa similaridade inter-classes.
A qualidade do resultado de um processo de clustering
depende da medida de similaridade, do método utilizado e de
sua implementação;
A qualidade um um processo de clustering também deve ser
avaliada pela sua habilidade de descobrir alguns ou todos os
padrões escondidos (hidden patterns).
O que é bom Clustering:
Mineração de Dados - Clustering
![Page 85: MINERAÇÃO DE DADOS - Valdick Salesvaldick.com/files/Mineracao_de_dados.pdf · 4 As informações são dados com significado. "São dados dotados de relevância e propósito" (Drucker](https://reader031.vdocuments.com.br/reader031/viewer/2022030400/5a72789d7f8b9a98538d9a90/html5/thumbnails/85.jpg)
85
Medida da qualidade do cluster
Métrica de similaridade / dissimilaridade: expressa em termos de função de distância d(i, j)
Existe uma função de “qualidade” que é uma medida da “adequação” de um cluster;
Existem definições de funções de distância que são diferentes para variáveis intervalares, booleanas, categóricas e proporções;
Pesos devem ser associados às variáveis baseados na aplicação e na semântica dos dados;
É difícil definir “suficientemente similar”, pois tipicamente esta avaliação é subjetiva.
Mineração de Dados - Clustering
![Page 86: MINERAÇÃO DE DADOS - Valdick Salesvaldick.com/files/Mineracao_de_dados.pdf · 4 As informações são dados com significado. "São dados dotados de relevância e propósito" (Drucker](https://reader031.vdocuments.com.br/reader031/viewer/2022030400/5a72789d7f8b9a98538d9a90/html5/thumbnails/86.jpg)
86
Similaridade entre objetos: distâncias
pp
jx
ix
jx
ix
jx
ixjid )||...|||(|),(
2211
Distância típica: de Minkowski;
Onde i = (xi1, xi2, …, xip) e j = (xj1, xj2, …, xjp) são vetores p-dimensionais e q é um inteiro
positivo.
Mineração de Dados - Clustering
![Page 87: MINERAÇÃO DE DADOS - Valdick Salesvaldick.com/files/Mineracao_de_dados.pdf · 4 As informações são dados com significado. "São dados dotados de relevância e propósito" (Drucker](https://reader031.vdocuments.com.br/reader031/viewer/2022030400/5a72789d7f8b9a98538d9a90/html5/thumbnails/87.jpg)
87
Similaridade entre objetos: distâncias
q =1: distância de Manhattan:
q =2: distância euclidiana:
||...||||),(2211 pp j
xi
xj
xi
xj
xi
xjid
)||...|||(|),(22
22
2
11 pp jx
ix
jx
ix
jx
ixjid
Mineração de Dados - Clustering
![Page 88: MINERAÇÃO DE DADOS - Valdick Salesvaldick.com/files/Mineracao_de_dados.pdf · 4 As informações são dados com significado. "São dados dotados de relevância e propósito" (Drucker](https://reader031.vdocuments.com.br/reader031/viewer/2022030400/5a72789d7f8b9a98538d9a90/html5/thumbnails/88.jpg)
88
O método k-means (k-médias)
Dado k, o algoritmo k-means é implementado em
quatro passos:
1. Partição dos objetos em k conjuntos não vazios;
2. Cálculo de pontos “semente” como os
centróides (médias) dos clusters das partições
correntes;
3. Assinalação de cada objeto ao cluster
(centróide) mais próximo de acordo com a
função de distância;
4. Retorno ao passo 2 até que não haja mais
alterações de assinalação.
Mineração de Dados - Clustering
![Page 89: MINERAÇÃO DE DADOS - Valdick Salesvaldick.com/files/Mineracao_de_dados.pdf · 4 As informações são dados com significado. "São dados dotados de relevância e propósito" (Drucker](https://reader031.vdocuments.com.br/reader031/viewer/2022030400/5a72789d7f8b9a98538d9a90/html5/thumbnails/89.jpg)
89
O método k-means (k-médias) - Exemplo
0
1
2
3
4
5
6
7
8
9
10
0 1 2 3 4 5 6 7 8 9 10
0
1
2
3
4
5
6
7
8
9
10
0 1 2 3 4 5 6 7 8 9 10
0
1
2
3
4
5
6
7
8
9
10
0 1 2 3 4 5 6 7 8 9 10
0
1
2
3
4
5
6
7
8
9
10
0 1 2 3 4 5 6 7 8 9 10
Mineração de Dados - Clustering
![Page 90: MINERAÇÃO DE DADOS - Valdick Salesvaldick.com/files/Mineracao_de_dados.pdf · 4 As informações são dados com significado. "São dados dotados de relevância e propósito" (Drucker](https://reader031.vdocuments.com.br/reader031/viewer/2022030400/5a72789d7f8b9a98538d9a90/html5/thumbnails/90.jpg)
90
Estudo de
Caso
Extração de conhecimento na
base de clientes da
Organização Arnon de Mello
![Page 91: MINERAÇÃO DE DADOS - Valdick Salesvaldick.com/files/Mineracao_de_dados.pdf · 4 As informações são dados com significado. "São dados dotados de relevância e propósito" (Drucker](https://reader031.vdocuments.com.br/reader031/viewer/2022030400/5a72789d7f8b9a98538d9a90/html5/thumbnails/91.jpg)
91
Ferramentas Observadas
Estudo de Caso - OAM
Bayesialab
KnowledgeMiner
Miner3D
Mineset 3.2
PolyAnalyst
Weka
WizRule
WizWhy
XpertRule
![Page 92: MINERAÇÃO DE DADOS - Valdick Salesvaldick.com/files/Mineracao_de_dados.pdf · 4 As informações são dados com significado. "São dados dotados de relevância e propósito" (Drucker](https://reader031.vdocuments.com.br/reader031/viewer/2022030400/5a72789d7f8b9a98538d9a90/html5/thumbnails/92.jpg)
92
FAYYAD 1996
?
CONHECIMENTO
PADRÕES
DADO
TRANSFORMADO
DATA
MINING
INTERPRETAÇÃO/
AVALIAÇÃO
DADOS
SELEÇÃO
PRÉ-PROCESSAMENTO
DADO
ANALISADO
DADO
PROCESSADO
TRANSFORMAÇÃO
Estudo de Caso - OAM
SQL Server
Planilha EXCEL
Filtros para os atributos:
Cliente,Vencimento,Baixa,
Valor
![Page 93: MINERAÇÃO DE DADOS - Valdick Salesvaldick.com/files/Mineracao_de_dados.pdf · 4 As informações são dados com significado. "São dados dotados de relevância e propósito" (Drucker](https://reader031.vdocuments.com.br/reader031/viewer/2022030400/5a72789d7f8b9a98538d9a90/html5/thumbnails/93.jpg)
93
Estudo de Caso - OAM
![Page 94: MINERAÇÃO DE DADOS - Valdick Salesvaldick.com/files/Mineracao_de_dados.pdf · 4 As informações são dados com significado. "São dados dotados de relevância e propósito" (Drucker](https://reader031.vdocuments.com.br/reader031/viewer/2022030400/5a72789d7f8b9a98538d9a90/html5/thumbnails/94.jpg)
94
Estudo de Caso - OAM
![Page 95: MINERAÇÃO DE DADOS - Valdick Salesvaldick.com/files/Mineracao_de_dados.pdf · 4 As informações são dados com significado. "São dados dotados de relevância e propósito" (Drucker](https://reader031.vdocuments.com.br/reader031/viewer/2022030400/5a72789d7f8b9a98538d9a90/html5/thumbnails/95.jpg)
95
Estudo de Caso - OAMMineSet - Tools
![Page 96: MINERAÇÃO DE DADOS - Valdick Salesvaldick.com/files/Mineracao_de_dados.pdf · 4 As informações são dados com significado. "São dados dotados de relevância e propósito" (Drucker](https://reader031.vdocuments.com.br/reader031/viewer/2022030400/5a72789d7f8b9a98538d9a90/html5/thumbnails/96.jpg)
96
Estudo de Caso - OAM
![Page 97: MINERAÇÃO DE DADOS - Valdick Salesvaldick.com/files/Mineracao_de_dados.pdf · 4 As informações são dados com significado. "São dados dotados de relevância e propósito" (Drucker](https://reader031.vdocuments.com.br/reader031/viewer/2022030400/5a72789d7f8b9a98538d9a90/html5/thumbnails/97.jpg)
97
Estudo de Caso - OAM
Histograma
Cliente X
Clientes por
quantidade de
transações
financeiras (Nº
de Duplicatas)
Cerca de 75% da
carteira pagam
até 21 dias de
atraso
Cliente Tipo A
pagam entre 0 e
30 dias de atraso
![Page 98: MINERAÇÃO DE DADOS - Valdick Salesvaldick.com/files/Mineracao_de_dados.pdf · 4 As informações são dados com significado. "São dados dotados de relevância e propósito" (Drucker](https://reader031.vdocuments.com.br/reader031/viewer/2022030400/5a72789d7f8b9a98538d9a90/html5/thumbnails/98.jpg)
98
Estudo de Caso - OAM
Dispersão
![Page 99: MINERAÇÃO DE DADOS - Valdick Salesvaldick.com/files/Mineracao_de_dados.pdf · 4 As informações são dados com significado. "São dados dotados de relevância e propósito" (Drucker](https://reader031.vdocuments.com.br/reader031/viewer/2022030400/5a72789d7f8b9a98538d9a90/html5/thumbnails/99.jpg)
99
Estudo de Caso - OAM
Dispersão
O cliente 105414 paga com mais
de 360 dias de atraso e seu
volume é de R$717.544 – Requer
providências imediatas.
![Page 100: MINERAÇÃO DE DADOS - Valdick Salesvaldick.com/files/Mineracao_de_dados.pdf · 4 As informações são dados com significado. "São dados dotados de relevância e propósito" (Drucker](https://reader031.vdocuments.com.br/reader031/viewer/2022030400/5a72789d7f8b9a98538d9a90/html5/thumbnails/100.jpg)
100
Estudo de Caso - OAM
Mapa
![Page 101: MINERAÇÃO DE DADOS - Valdick Salesvaldick.com/files/Mineracao_de_dados.pdf · 4 As informações são dados com significado. "São dados dotados de relevância e propósito" (Drucker](https://reader031.vdocuments.com.br/reader031/viewer/2022030400/5a72789d7f8b9a98538d9a90/html5/thumbnails/101.jpg)
101
Estudo de Caso - OAM
Classificação
![Page 102: MINERAÇÃO DE DADOS - Valdick Salesvaldick.com/files/Mineracao_de_dados.pdf · 4 As informações são dados com significado. "São dados dotados de relevância e propósito" (Drucker](https://reader031.vdocuments.com.br/reader031/viewer/2022030400/5a72789d7f8b9a98538d9a90/html5/thumbnails/102.jpg)
102
Estudo de Caso - OAM
Classificação –
Indutor: Àrvore de decisão
![Page 103: MINERAÇÃO DE DADOS - Valdick Salesvaldick.com/files/Mineracao_de_dados.pdf · 4 As informações são dados com significado. "São dados dotados de relevância e propósito" (Drucker](https://reader031.vdocuments.com.br/reader031/viewer/2022030400/5a72789d7f8b9a98538d9a90/html5/thumbnails/103.jpg)
103
Classificação
![Page 104: MINERAÇÃO DE DADOS - Valdick Salesvaldick.com/files/Mineracao_de_dados.pdf · 4 As informações são dados com significado. "São dados dotados de relevância e propósito" (Drucker](https://reader031.vdocuments.com.br/reader031/viewer/2022030400/5a72789d7f8b9a98538d9a90/html5/thumbnails/104.jpg)
104
Estudo de Caso - OAM
Associação
![Page 105: MINERAÇÃO DE DADOS - Valdick Salesvaldick.com/files/Mineracao_de_dados.pdf · 4 As informações são dados com significado. "São dados dotados de relevância e propósito" (Drucker](https://reader031.vdocuments.com.br/reader031/viewer/2022030400/5a72789d7f8b9a98538d9a90/html5/thumbnails/105.jpg)
105
Estudo de Caso - OAM
O cliente 105414 se mantém na faixa de atraso em (241.5...360)
Regra: Se for cliente 105414 paga com mais de 240 dias de atraso
![Page 106: MINERAÇÃO DE DADOS - Valdick Salesvaldick.com/files/Mineracao_de_dados.pdf · 4 As informações são dados com significado. "São dados dotados de relevância e propósito" (Drucker](https://reader031.vdocuments.com.br/reader031/viewer/2022030400/5a72789d7f8b9a98538d9a90/html5/thumbnails/106.jpg)
106
Estudo de Caso - OAM
Regra1: Se for cliente 108017 paga até 30 dias de atraso
Regra2: Se for cliente 113009 paga no prazo (atraso = 0)
![Page 107: MINERAÇÃO DE DADOS - Valdick Salesvaldick.com/files/Mineracao_de_dados.pdf · 4 As informações são dados com significado. "São dados dotados de relevância e propósito" (Drucker](https://reader031.vdocuments.com.br/reader031/viewer/2022030400/5a72789d7f8b9a98538d9a90/html5/thumbnails/107.jpg)
107
Estudo de Caso - OAM
Clustering
![Page 108: MINERAÇÃO DE DADOS - Valdick Salesvaldick.com/files/Mineracao_de_dados.pdf · 4 As informações são dados com significado. "São dados dotados de relevância e propósito" (Drucker](https://reader031.vdocuments.com.br/reader031/viewer/2022030400/5a72789d7f8b9a98538d9a90/html5/thumbnails/108.jpg)
108
Estudo de Caso - OAM
Clustering
![Page 109: MINERAÇÃO DE DADOS - Valdick Salesvaldick.com/files/Mineracao_de_dados.pdf · 4 As informações são dados com significado. "São dados dotados de relevância e propósito" (Drucker](https://reader031.vdocuments.com.br/reader031/viewer/2022030400/5a72789d7f8b9a98538d9a90/html5/thumbnails/109.jpg)
109
Estudo de Caso - OAM
Clustering
![Page 110: MINERAÇÃO DE DADOS - Valdick Salesvaldick.com/files/Mineracao_de_dados.pdf · 4 As informações são dados com significado. "São dados dotados de relevância e propósito" (Drucker](https://reader031.vdocuments.com.br/reader031/viewer/2022030400/5a72789d7f8b9a98538d9a90/html5/thumbnails/110.jpg)
110
Estudo de Caso - OAM
Clustering