![Page 1: Técnicas de Mineração de Dados Sandra de Amo Faculdade de Computação Universidade Federal de Uberlândia](https://reader035.vdocuments.com.br/reader035/viewer/2022082206/5706384b1a28abb8238f5fc7/html5/thumbnails/1.jpg)
Técnicas de Mineração de Dados
Sandra de AmoFaculdade de Computação
Universidade Federal de Uberlândia
![Page 2: Técnicas de Mineração de Dados Sandra de Amo Faculdade de Computação Universidade Federal de Uberlândia](https://reader035.vdocuments.com.br/reader035/viewer/2022082206/5706384b1a28abb8238f5fc7/html5/thumbnails/2.jpg)
27/04/23 JAI - SBC 2004 2
Técnicas de Mineração Suporte deste curso http://www.deamo.prof.ufu.br/CursoDM.html
Curso Completo DM Notas deste Mini-curso Slides deste Mini-curso Bibliografia, ….
![Page 3: Técnicas de Mineração de Dados Sandra de Amo Faculdade de Computação Universidade Federal de Uberlândia](https://reader035.vdocuments.com.br/reader035/viewer/2022082206/5706384b1a28abb8238f5fc7/html5/thumbnails/3.jpg)
27/04/23 JAI - SBC 2004 3
Plano do CursoAula 1
Introdução
Técnicas de Regras de Associação
Técnicas de Análise de Sequência
![Page 4: Técnicas de Mineração de Dados Sandra de Amo Faculdade de Computação Universidade Federal de Uberlândia](https://reader035.vdocuments.com.br/reader035/viewer/2022082206/5706384b1a28abb8238f5fc7/html5/thumbnails/4.jpg)
27/04/23 JAI - SBC 2004 4
Plano do CursoAula 2
Sequências com Restrições
Execução de um algoritmo
Técnicas de Classificação
![Page 5: Técnicas de Mineração de Dados Sandra de Amo Faculdade de Computação Universidade Federal de Uberlândia](https://reader035.vdocuments.com.br/reader035/viewer/2022082206/5706384b1a28abb8238f5fc7/html5/thumbnails/5.jpg)
27/04/23 JAI - SBC 2004 5
Plano do CursoAula 3
Técnicas de Clustering
Técnicas de Otimização e Implementação
Aspectos Teóricos e Generalização
Aplicações
![Page 6: Técnicas de Mineração de Dados Sandra de Amo Faculdade de Computação Universidade Federal de Uberlândia](https://reader035.vdocuments.com.br/reader035/viewer/2022082206/5706384b1a28abb8238f5fc7/html5/thumbnails/6.jpg)
27/04/23 JAI - SBC 2004 6
Plano do CursoAula 1
Introdução
Técnicas de Regras de Associação
Técnicas de Análise de Sequência
![Page 7: Técnicas de Mineração de Dados Sandra de Amo Faculdade de Computação Universidade Federal de Uberlândia](https://reader035.vdocuments.com.br/reader035/viewer/2022082206/5706384b1a28abb8238f5fc7/html5/thumbnails/7.jpg)
27/04/23 JAI - SBC 2004 7
Mineração de Dados – Por que ? Grandes volumes de dados disponiveis Muitos dados mas pouca informação Decisões são tomadas utilizando intuição.
Necessidade de transformar dados em informação util
Ferramentas de Mineração podem descobrir padrões interessantes « escondidos » nos dados.
![Page 8: Técnicas de Mineração de Dados Sandra de Amo Faculdade de Computação Universidade Federal de Uberlândia](https://reader035.vdocuments.com.br/reader035/viewer/2022082206/5706384b1a28abb8238f5fc7/html5/thumbnails/8.jpg)
27/04/23 JAI - SBC 2004 8
Consulta versus MineraçãoO que é Mineração de Dados
Que produtos são comprados por clientes Classe A ?
Cliente Produto Classe Social Tempo1 Vinho A T1
2 Açúcar B T2
1 Queijo A T1
3 Pão C T3
3 Leite C T3
1 Vinho A T4
1 Queijo A T4
4 Leite C T5
![Page 9: Técnicas de Mineração de Dados Sandra de Amo Faculdade de Computação Universidade Federal de Uberlândia](https://reader035.vdocuments.com.br/reader035/viewer/2022082206/5706384b1a28abb8238f5fc7/html5/thumbnails/9.jpg)
27/04/23 JAI - SBC 2004 9
Consulta e Resultado
Select Clientes.ProdFrom ClientesWhere Clientes. Faixa = ‘A’
Resposta : Vinho, Queijo
![Page 10: Técnicas de Mineração de Dados Sandra de Amo Faculdade de Computação Universidade Federal de Uberlândia](https://reader035.vdocuments.com.br/reader035/viewer/2022082206/5706384b1a28abb8238f5fc7/html5/thumbnails/10.jpg)
27/04/23 JAI - SBC 2004 10
Consulta versus Mineração
Existe ligação entre a classe social e produtos comprados numa mesma transação ?
Cliente Produto Classe Social Tempo1 Vinho A T1
2 Açúcar B T2
1 Queijo A T1
3 Pão C T3
3 Leite C T3
1 Vinho A T4
1 Queijo A T4
4 Leite C T5
![Page 11: Técnicas de Mineração de Dados Sandra de Amo Faculdade de Computação Universidade Federal de Uberlândia](https://reader035.vdocuments.com.br/reader035/viewer/2022082206/5706384b1a28abb8238f5fc7/html5/thumbnails/11.jpg)
27/04/23 JAI - SBC 2004 11
Resultado da Mineração Padrões
Classe A -> vinho, queijo
Classe C -> pão, leite
…
![Page 12: Técnicas de Mineração de Dados Sandra de Amo Faculdade de Computação Universidade Federal de Uberlândia](https://reader035.vdocuments.com.br/reader035/viewer/2022082206/5706384b1a28abb8238f5fc7/html5/thumbnails/12.jpg)
27/04/23 JAI - SBC 2004 12
O que é Mineração ?
Mineração de Dados
Descoberta de Conhecimento (KDD)
KDD = Knowledge Discovery in Databases
![Page 13: Técnicas de Mineração de Dados Sandra de Amo Faculdade de Computação Universidade Federal de Uberlândia](https://reader035.vdocuments.com.br/reader035/viewer/2022082206/5706384b1a28abb8238f5fc7/html5/thumbnails/13.jpg)
27/04/23 JAI - SBC 2004 13
Etapas do Processo de KDD
Limpeza dos Dados Integração dos Dados Seleção Transformação Mineração Avaliação ou Pós-Processamento Visualização dos Resultados
![Page 14: Técnicas de Mineração de Dados Sandra de Amo Faculdade de Computação Universidade Federal de Uberlândia](https://reader035.vdocuments.com.br/reader035/viewer/2022082206/5706384b1a28abb8238f5fc7/html5/thumbnails/14.jpg)
27/04/23 JAI - SBC 2004 14
Tarefas de Mineração
Tarefa ato de descobrir um certo tipo de padrão
Regras de Associação Análise de Sequências Classificação Agrupamento Outliers
![Page 15: Técnicas de Mineração de Dados Sandra de Amo Faculdade de Computação Universidade Federal de Uberlândia](https://reader035.vdocuments.com.br/reader035/viewer/2022082206/5706384b1a28abb8238f5fc7/html5/thumbnails/15.jpg)
27/04/23 JAI - SBC 2004 15
Como avaliar padrões ? O que significa um padrão ser interessante ?
Facil de ser entendido Inesperado
Potencialmente util Confirma uma hipotese feita pelo usuario
Tipos de medidas
Subjetivas : esperadas, inesperadas
Acontece com um certo grau de segurança
Objetivas : suporte, confiança
![Page 16: Técnicas de Mineração de Dados Sandra de Amo Faculdade de Computação Universidade Federal de Uberlândia](https://reader035.vdocuments.com.br/reader035/viewer/2022082206/5706384b1a28abb8238f5fc7/html5/thumbnails/16.jpg)
27/04/23 JAI - SBC 2004 16
Sistemas de Mineração
Intelligent Miner (IBM) DBMiner Enterprise Miner Clementine MineSet Genamics Expressions
![Page 17: Técnicas de Mineração de Dados Sandra de Amo Faculdade de Computação Universidade Federal de Uberlândia](https://reader035.vdocuments.com.br/reader035/viewer/2022082206/5706384b1a28abb8238f5fc7/html5/thumbnails/17.jpg)
27/04/23 JAI - SBC 2004 17
Critérios de Avaliação de Sistemas
Tipo de dados em que se aplica a mineração Tipo de conhecimento minerado Tipo de técnicas de mineração utilizadas Tipo de aplicação a que se destina
![Page 18: Técnicas de Mineração de Dados Sandra de Amo Faculdade de Computação Universidade Federal de Uberlândia](https://reader035.vdocuments.com.br/reader035/viewer/2022082206/5706384b1a28abb8238f5fc7/html5/thumbnails/18.jpg)
27/04/23 JAI - SBC 2004 18
Plano do CursoAula 1
Introdução
Técnicas de Regras de Associação
Técnicas de Análise de Sequência
![Page 19: Técnicas de Mineração de Dados Sandra de Amo Faculdade de Computação Universidade Federal de Uberlândia](https://reader035.vdocuments.com.br/reader035/viewer/2022082206/5706384b1a28abb8238f5fc7/html5/thumbnails/19.jpg)
27/04/23 JAI - SBC 2004 19
Regras de AssociaçãoItens = {Pão, Leite, Açúcar, ... }
Pão, Leite Manteiga
Vinho Queijo
ITEM, ITEM, ITEM ITEM
![Page 20: Técnicas de Mineração de Dados Sandra de Amo Faculdade de Computação Universidade Federal de Uberlândia](https://reader035.vdocuments.com.br/reader035/viewer/2022082206/5706384b1a28abb8238f5fc7/html5/thumbnails/20.jpg)
27/04/23 JAI - SBC 2004 20
Preparação dos Dados
ID Compras1 Pão, ,
2 ,Açucar
34 Manteiga, Açúcar
Leite
Leite
Leite ManteigaManteiga
Leite, Manteiga Suporte = 50%
Confiança = 66,6%
![Page 21: Técnicas de Mineração de Dados Sandra de Amo Faculdade de Computação Universidade Federal de Uberlândia](https://reader035.vdocuments.com.br/reader035/viewer/2022082206/5706384b1a28abb8238f5fc7/html5/thumbnails/21.jpg)
27/04/23 JAI - SBC 2004 21
Medidas de Interesse Suporte de A, B , C D
Confiança de A, B , C D
número de clientes que compraram A,B,C,D número de clientes que compraram A,B,C
número de clientes que compraram A,B,C,D Total de clientes
![Page 22: Técnicas de Mineração de Dados Sandra de Amo Faculdade de Computação Universidade Federal de Uberlândia](https://reader035.vdocuments.com.br/reader035/viewer/2022082206/5706384b1a28abb8238f5fc7/html5/thumbnails/22.jpg)
27/04/23 JAI - SBC 2004 22
Tarefa de MineraçãoDados : BD de transações, N, M
Retorna : regras de associação r
Sup(r) ≥ N
Conf(r) ≥ M
![Page 23: Técnicas de Mineração de Dados Sandra de Amo Faculdade de Computação Universidade Federal de Uberlândia](https://reader035.vdocuments.com.br/reader035/viewer/2022082206/5706384b1a28abb8238f5fc7/html5/thumbnails/23.jpg)
27/04/23 JAI - SBC 2004 23
Algoritmo: duas etapas1. Encontrar todos os I frequentes suporte(I) ≥ N
Itemset = conjunto de itens
2. Conf(A, B C) = suporte(A,B,C) ≥ Msuporte(A,B)
Itemsets
=
![Page 24: Técnicas de Mineração de Dados Sandra de Amo Faculdade de Computação Universidade Federal de Uberlândia](https://reader035.vdocuments.com.br/reader035/viewer/2022082206/5706384b1a28abb8238f5fc7/html5/thumbnails/24.jpg)
27/04/23 JAI - SBC 2004 24
Algoritmo Apriori
1 2 4 51 2 41 2 5Se um itemset é frequente
Todo subitemset é frequente !!
Propriedade Importante
![Page 25: Técnicas de Mineração de Dados Sandra de Amo Faculdade de Computação Universidade Federal de Uberlândia](https://reader035.vdocuments.com.br/reader035/viewer/2022082206/5706384b1a28abb8238f5fc7/html5/thumbnails/25.jpg)
27/04/23 JAI - SBC 2004 25
Apriori – Fase da Geração
1 3 5
1 3 4
1 4 5
2 3 5
2 3 6
2 3 4
2 4 6
3 4 6
2 5 6
F3
1 3 4 5
1 3 5
1 3 4
2 3 5
2 3 6
2 3 5 6
2 3 4
2 3 4 5
2 3 4 6
1 3 4 5
2 3 5 6
2 3 4 5
2 3 4 6C4
3 5 6
![Page 26: Técnicas de Mineração de Dados Sandra de Amo Faculdade de Computação Universidade Federal de Uberlândia](https://reader035.vdocuments.com.br/reader035/viewer/2022082206/5706384b1a28abb8238f5fc7/html5/thumbnails/26.jpg)
27/04/23 JAI - SBC 2004 26
Apriori – Fase da Poda
1 3 5
1 3 4
1 4 5
2 3 5
2 3 6
2 3 4
2 4 6
3 4 6
2 5 6
F3
1 3 4 5
2 3 5 6 2 3 4 6C4
3 5 6
3 4 5 2 3 4 53 4 5
2 3 5
2 3 5
2 3 6
2 3 6
5 62
2 5 6
3 5 6
3 5 6
2 3 4
2 3 4
2 3 62 4 6
2 4 6
3 4 6
3 4 6
C42 3 5 6 2 3 4 6
![Page 27: Técnicas de Mineração de Dados Sandra de Amo Faculdade de Computação Universidade Federal de Uberlândia](https://reader035.vdocuments.com.br/reader035/viewer/2022082206/5706384b1a28abb8238f5fc7/html5/thumbnails/27.jpg)
27/04/23 JAI - SBC 2004 27
Apriori – Fase de Validação
2 3 5 6
2 3 4 6
Banco de Dados
1 3 5 7 8
1 7
8
2 3 4 5 7 8
1 9
Contagem SuporteCandidatos
2 32 3 5 6
2 3 4 6
4 65
2 3 4 6
2 3 4 6
Suporte Mínimo: 50%
2 3 4 6F4 =
![Page 28: Técnicas de Mineração de Dados Sandra de Amo Faculdade de Computação Universidade Federal de Uberlândia](https://reader035.vdocuments.com.br/reader035/viewer/2022082206/5706384b1a28abb8238f5fc7/html5/thumbnails/28.jpg)
27/04/23 JAI - SBC 2004 28
Algoritmo Apriori Entrada : BD de transações, NSaida : F1, F2, F3, …
C1 = Itemsets de tamanho 1F1 = Itemsets frequentes de C1
k : = 1 While Fk não for vazio
Ck+1 := Junta(Fk, Fk)Ck+1 := Poda(Ck, Fk)Fk+1 : = Valida(BD,Ck+1, N)k : = k+1
![Page 29: Técnicas de Mineração de Dados Sandra de Amo Faculdade de Computação Universidade Federal de Uberlândia](https://reader035.vdocuments.com.br/reader035/viewer/2022082206/5706384b1a28abb8238f5fc7/html5/thumbnails/29.jpg)
27/04/23 JAI - SBC 2004 29
Um ExemploId Compras1 1,3,52 1,2,3,5,73 1,2,4,94 1,2,3,5,95 1,3,4,5,6,86 2,7,8
L1 = {1}, {2}, {3},{5}
Suporte minimo = 50%
{1,2}
{1,3}
{1,5}
{2,3}
{2,5}
{3,5}
C2 =
C3 = {1,2,3} {1,2,5} {1,3,5}
{1,2}
{1,3}
{1,5}
{3,5}
L2 =
L3 = {1,3,5}
![Page 30: Técnicas de Mineração de Dados Sandra de Amo Faculdade de Computação Universidade Federal de Uberlândia](https://reader035.vdocuments.com.br/reader035/viewer/2022082206/5706384b1a28abb8238f5fc7/html5/thumbnails/30.jpg)
27/04/23 JAI - SBC 2004 30
Plano do CursoAula 1
Introdução
Técnicas de Regras de Associação
Técnicas de Análise de Sequência
![Page 31: Técnicas de Mineração de Dados Sandra de Amo Faculdade de Computação Universidade Federal de Uberlândia](https://reader035.vdocuments.com.br/reader035/viewer/2022082206/5706384b1a28abb8238f5fc7/html5/thumbnails/31.jpg)
27/04/23 JAI - SBC 2004 31
Sequências
Itens = { TV, Vídeo , DVD, FitaDVD, ... }
{TV ,Vídeo} >> DVD >> FitaDVD
ITEMSET >> ITEMSET >> ITEMSET >> ... >>ITEMSET
![Page 32: Técnicas de Mineração de Dados Sandra de Amo Faculdade de Computação Universidade Federal de Uberlândia](https://reader035.vdocuments.com.br/reader035/viewer/2022082206/5706384b1a28abb8238f5fc7/html5/thumbnails/32.jpg)
27/04/23 JAI - SBC 2004 32
Preparação dos Dados1 , Rádio} ,
2 {Computador}
3 , {Rádio,
4 {Rádio} , {Comp}
5 {Comp} , {Impressora}
{TV
{TV}
{TV} , {DVD}{DVD}
DVD}
![Page 33: Técnicas de Mineração de Dados Sandra de Amo Faculdade de Computação Universidade Federal de Uberlândia](https://reader035.vdocuments.com.br/reader035/viewer/2022082206/5706384b1a28abb8238f5fc7/html5/thumbnails/33.jpg)
27/04/23 JAI - SBC 2004 33
Medidas de Interesse Suporte de < {A} , {B} , {C} , { D} >
número de clientes que compraram A,B,C,D em sequência Total de clientes
![Page 34: Técnicas de Mineração de Dados Sandra de Amo Faculdade de Computação Universidade Federal de Uberlândia](https://reader035.vdocuments.com.br/reader035/viewer/2022082206/5706384b1a28abb8238f5fc7/html5/thumbnails/34.jpg)
27/04/23 JAI - SBC 2004 34
Preparação dos Dados1 , Rádio} >>
2 {Computador}
3 >> {Rádio,
4 {Rádio} >>{Comp}
5 {Comp} >> {Impressora}
{TV
{TV}
{DVD}
DVD}
< {TV} , {DVD} >
Suporte = 40%
![Page 35: Técnicas de Mineração de Dados Sandra de Amo Faculdade de Computação Universidade Federal de Uberlândia](https://reader035.vdocuments.com.br/reader035/viewer/2022082206/5706384b1a28abb8238f5fc7/html5/thumbnails/35.jpg)
27/04/23 JAI - SBC 2004 35
Tarefa de MineraçãoDados : BD de sequências, N
Retorna : Padrões Sequenciais s
Sup(s) ≥ N
![Page 36: Técnicas de Mineração de Dados Sandra de Amo Faculdade de Computação Universidade Federal de Uberlândia](https://reader035.vdocuments.com.br/reader035/viewer/2022082206/5706384b1a28abb8238f5fc7/html5/thumbnails/36.jpg)
27/04/23 JAI - SBC 2004 36
Propriedade Importantedcba hgfe lkjidcb hgfe lkji mdcb hgfe lkji ma Frequente
Frequentes
![Page 37: Técnicas de Mineração de Dados Sandra de Amo Faculdade de Computação Universidade Federal de Uberlândia](https://reader035.vdocuments.com.br/reader035/viewer/2022082206/5706384b1a28abb8238f5fc7/html5/thumbnails/37.jpg)
27/04/23 JAI - SBC 2004 37
Sequências « Ligáveis »
a cb fed ihg
cb fed ihg
cb fed ihg
jcb fed ihg
a
j
Sequência Resultante
![Page 38: Técnicas de Mineração de Dados Sandra de Amo Faculdade de Computação Universidade Federal de Uberlândia](https://reader035.vdocuments.com.br/reader035/viewer/2022082206/5706384b1a28abb8238f5fc7/html5/thumbnails/38.jpg)
27/04/23 JAI - SBC 2004 38
GSP – Fase da Geração
F3
C4
< {1,2}, {3} >< {1,2}, {4} >< {1}, {3,4} >
< {1,3}, {5} >< {2}, {3,4} >< {2}, {3}, {5} >
< {1,2}, {3,4} >
< {1,2}, {3} {5} >
![Page 39: Técnicas de Mineração de Dados Sandra de Amo Faculdade de Computação Universidade Federal de Uberlândia](https://reader035.vdocuments.com.br/reader035/viewer/2022082206/5706384b1a28abb8238f5fc7/html5/thumbnails/39.jpg)
27/04/23 JAI - SBC 2004 39
GSP – Fase da Poda
F3
C4
< {1,2}, {3} >< {1,2}, {4} >< {1}, {3,4} >
< {1,3}, {5} >< {2}, {3,4} >< {2}, {3}, {5} >
< {1,2}, {3,4} >
< {1,2}, {3} {5} >
< {1,2}, {3,4} >< {1,2}, {3,4} >< {1,2}, {3,4} >< {1,2}, {3,4} >
< {1,2}, {3} {5} > C’4 = < {1,2}, {3,4} >
![Page 40: Técnicas de Mineração de Dados Sandra de Amo Faculdade de Computação Universidade Federal de Uberlândia](https://reader035.vdocuments.com.br/reader035/viewer/2022082206/5706384b1a28abb8238f5fc7/html5/thumbnails/40.jpg)
27/04/23 JAI - SBC 2004 40
GSP – Fase de Validação
Contagem SuporteCandidatas
Suporte Mínimo: 50%Banco de Dados
1
2
3
4
< {3,1,5,2}, {5}, {3,5,4} >
< {2}, {3,4} >
< {4,5}, {1,3,2}, {3,5,4,7} >
< {3}, {2,5} >
< {1,2}, {3,4} >< {3,1,5,2}, {5}, {3,5,4} >
< {4,5}, {1,3,2}, {3,5,4,7} >
F4 = < {1,2}, {3,4} >
![Page 41: Técnicas de Mineração de Dados Sandra de Amo Faculdade de Computação Universidade Federal de Uberlândia](https://reader035.vdocuments.com.br/reader035/viewer/2022082206/5706384b1a28abb8238f5fc7/html5/thumbnails/41.jpg)
27/04/23 JAI - SBC 2004 41
Algoritmo GSP [1996]Entrada : BD de sequências, NSaida : F1, F2, F3, …
C1 = Padrões Sequenciais de tamanho 1F1 = Padrões Sequenciais frequentes de C1
k : = 1 While Fk não for vazio
Ck+1 := Junta(Fk, Fk)Ck+1 := Poda(Ck, Fk)Fk+1 : = Valida(BD,Ck+1, N)k : = k+1
![Page 42: Técnicas de Mineração de Dados Sandra de Amo Faculdade de Computação Universidade Federal de Uberlândia](https://reader035.vdocuments.com.br/reader035/viewer/2022082206/5706384b1a28abb8238f5fc7/html5/thumbnails/42.jpg)
27/04/23 JAI - SBC 2004 42
Outros algoritmos Apriori-All, Apriori-Some
[Agrawal – Srikant 1995]
SPADE [M. Zaki, 2001]
PrefixSpan [Han+, 2001]
![Page 43: Técnicas de Mineração de Dados Sandra de Amo Faculdade de Computação Universidade Federal de Uberlândia](https://reader035.vdocuments.com.br/reader035/viewer/2022082206/5706384b1a28abb8238f5fc7/html5/thumbnails/43.jpg)
27/04/23 JAI - SBC 2004 43
Plano do CursoAula 2
Sequências com Restrições
Execução de um algoritmo
Técnicas de Classificação
![Page 44: Técnicas de Mineração de Dados Sandra de Amo Faculdade de Computação Universidade Federal de Uberlândia](https://reader035.vdocuments.com.br/reader035/viewer/2022082206/5706384b1a28abb8238f5fc7/html5/thumbnails/44.jpg)
27/04/23 JAI - SBC 2004 44
Otimizações : Fase de Validação Restrições Min-Max
Taxinomias
MAXMin
< açucar, TV, detergente >< café, DVD, desinfetante > < alimento, Eletro-dom, limpeza >
![Page 45: Técnicas de Mineração de Dados Sandra de Amo Faculdade de Computação Universidade Federal de Uberlândia](https://reader035.vdocuments.com.br/reader035/viewer/2022082206/5706384b1a28abb8238f5fc7/html5/thumbnails/45.jpg)
27/04/23 JAI - SBC 2004 45
Otimização: Fase de GeraçãoRestrições no Formato dos Padrões
[Garofalakis/Shim/Rastogi 1999] Padrões satisfazem expressão regular : TV a* DVD
{TV} - - - - - {DVD}
![Page 46: Técnicas de Mineração de Dados Sandra de Amo Faculdade de Computação Universidade Federal de Uberlândia](https://reader035.vdocuments.com.br/reader035/viewer/2022082206/5706384b1a28abb8238f5fc7/html5/thumbnails/46.jpg)
27/04/23 JAI - SBC 2004 46
Tarefa de MineraçãoDados : BD de transações, N, Expressão R
Retorna : Sequências s
satisfaz R
Sup(s) ≥ N
![Page 47: Técnicas de Mineração de Dados Sandra de Amo Faculdade de Computação Universidade Federal de Uberlândia](https://reader035.vdocuments.com.br/reader035/viewer/2022082206/5706384b1a28abb8238f5fc7/html5/thumbnails/47.jpg)
27/04/23 JAI - SBC 2004 47
Uma idéia para resolver o problemaNa Fase da Geração a partir de Lk e da expressão R gerar sequências de tamanho k+1
Potencialmente frequentes
Verificam a expressão regular R
![Page 48: Técnicas de Mineração de Dados Sandra de Amo Faculdade de Computação Universidade Federal de Uberlândia](https://reader035.vdocuments.com.br/reader035/viewer/2022082206/5706384b1a28abb8238f5fc7/html5/thumbnails/48.jpg)
27/04/23 JAI - SBC 2004 48
Fase da Poda
1 5 8 9L4
1 4 5 8
2 4 5 7
2 3??
Não é frequente OU
Não satisfaz R
Frequentes
ESatisfazem R
![Page 49: Técnicas de Mineração de Dados Sandra de Amo Faculdade de Computação Universidade Federal de Uberlândia](https://reader035.vdocuments.com.br/reader035/viewer/2022082206/5706384b1a28abb8238f5fc7/html5/thumbnails/49.jpg)
27/04/23 JAI - SBC 2004 49
Fase da Poda Quais sequências devem ser podadas ?
As que não têm chance de serem frequentes
Como saber isto só verificando as sequências obtidas nas iterações precedentes ?
1 2 4 5 7
Satisfaz R E não está em F3
![Page 50: Técnicas de Mineração de Dados Sandra de Amo Faculdade de Computação Universidade Federal de Uberlândia](https://reader035.vdocuments.com.br/reader035/viewer/2022082206/5706384b1a28abb8238f5fc7/html5/thumbnails/50.jpg)
27/04/23 JAI - SBC 2004 50
Geração e PodaIteração k+1 Geração : Junta sequências de Lk
Elimina aquelas que não satisfazem R Elimina aquelas que têm subsequência que
satisfaz R não é frequente
![Page 51: Técnicas de Mineração de Dados Sandra de Amo Faculdade de Computação Universidade Federal de Uberlândia](https://reader035.vdocuments.com.br/reader035/viewer/2022082206/5706384b1a28abb8238f5fc7/html5/thumbnails/51.jpg)
27/04/23 JAI - SBC 2004 51
Problema com esta idéiaDois tipos de poda
1. Eliminando sequências que não satisfazem R
Espaço de Busca
2. Eliminando sequências testando suas subsequências
Sequências Podadas
![Page 52: Técnicas de Mineração de Dados Sandra de Amo Faculdade de Computação Universidade Federal de Uberlândia](https://reader035.vdocuments.com.br/reader035/viewer/2022082206/5706384b1a28abb8238f5fc7/html5/thumbnails/52.jpg)
27/04/23 JAI - SBC 2004 52
Como encontrar um meio-termo ?Considerando um “relaxamento” de R Sequências Válidas Sequências Legais com relação a um estado q Sequências Válidas com relação a um estado q
ba dcq
![Page 53: Técnicas de Mineração de Dados Sandra de Amo Faculdade de Computação Universidade Federal de Uberlândia](https://reader035.vdocuments.com.br/reader035/viewer/2022082206/5706384b1a28abb8238f5fc7/html5/thumbnails/53.jpg)
27/04/23 JAI - SBC 2004 53
Algoritmo SPIRITEntrada : BD, N, autômato RSaída : sequências frequentes satisfazendo R
1. Considera “relaxamento” R’ 2. Minera sequências satisfazendo R’3. Testa aquelas que satisfazem R
![Page 54: Técnicas de Mineração de Dados Sandra de Amo Faculdade de Computação Universidade Federal de Uberlândia](https://reader035.vdocuments.com.br/reader035/viewer/2022082206/5706384b1a28abb8238f5fc7/html5/thumbnails/54.jpg)
27/04/23 JAI - SBC 2004 54
Relaxamentos
Sequências Legais com relação a um estado q
Sequências Válidas com relação a um estado q
ba dcq
![Page 55: Técnicas de Mineração de Dados Sandra de Amo Faculdade de Computação Universidade Federal de Uberlândia](https://reader035.vdocuments.com.br/reader035/viewer/2022082206/5706384b1a28abb8238f5fc7/html5/thumbnails/55.jpg)
27/04/23 JAI - SBC 2004 55
Algoritmo SPIRIT - Geração e PodaR’ : relaxamento de RIteração k+1 Geração : “Junta” sequências de Lk Poda : Elimina aquelas que têm subsequência que
satisfaz R’ não é frequente
Junção : depende do tipo de relaxamento considerado.
![Page 56: Técnicas de Mineração de Dados Sandra de Amo Faculdade de Computação Universidade Federal de Uberlândia](https://reader035.vdocuments.com.br/reader035/viewer/2022082206/5706384b1a28abb8238f5fc7/html5/thumbnails/56.jpg)
27/04/23 JAI - SBC 2004 56
Ex: Fase da Geração em SPIRIT(V)
1 2 4 5 7 Valida com respeito ao estado Q
e frequente
Q1 Q2 Q 3Q1 2 4
Q4 Q5
5 7Q1
<2,4,5,7> deve ser valida com respeito a Q1
Deve existir « flecha » de Q parq Q1
![Page 57: Técnicas de Mineração de Dados Sandra de Amo Faculdade de Computação Universidade Federal de Uberlândia](https://reader035.vdocuments.com.br/reader035/viewer/2022082206/5706384b1a28abb8238f5fc7/html5/thumbnails/57.jpg)
27/04/23 JAI - SBC 2004 57
Exemplo
q0
q1
q2
q3
ab
c
c
e
d
a
F2(q0) = <a,c>, <a,e> F2(q1) = <b,c>
F2(q2) = <d,c>, <d,e>
F2(q3) = vazio
q0 : <a,b,c> q0 : <a,d,c>, <a,d,e>,
q1 : <b,b,c>
q2 : <d,d,c>, <d,d,e> Fase da Poda
Nenhuma é podada
![Page 58: Técnicas de Mineração de Dados Sandra de Amo Faculdade de Computação Universidade Federal de Uberlândia](https://reader035.vdocuments.com.br/reader035/viewer/2022082206/5706384b1a28abb8238f5fc7/html5/thumbnails/58.jpg)
27/04/23 JAI - SBC 2004 58
As 4 Variantes de SPIRIT SPIRIT(N) : Nenhuma restrição (GSP)
SPIRIT(L) : Legais c.r. a algum estado de R
SPIRIT(V) : Válidas c.r. a algum estado de R
SPIRIT(R) : Satisfazem o autômato R
![Page 59: Técnicas de Mineração de Dados Sandra de Amo Faculdade de Computação Universidade Federal de Uberlândia](https://reader035.vdocuments.com.br/reader035/viewer/2022082206/5706384b1a28abb8238f5fc7/html5/thumbnails/59.jpg)
27/04/23 JAI - SBC 2004 59
Resultados Experimentais
Algoritmo Tempo (seg) Total Cand. IteraçõesSPITIT(N) 1562,80 5896 13SPIRIT(L) 32,77 1393 10SPIRIT(V) 16 59 5SPIRIT(R) 17,67 52 7
Logs de páginas Web acessadas por usuários de um DCC
URL começando em Home e terminando em PosGradDCC
![Page 60: Técnicas de Mineração de Dados Sandra de Amo Faculdade de Computação Universidade Federal de Uberlândia](https://reader035.vdocuments.com.br/reader035/viewer/2022082206/5706384b1a28abb8238f5fc7/html5/thumbnails/60.jpg)
27/04/23 JAI - SBC 2004 60
Plano do CursoAula 2
Sequências com Restrições
Técnicas de Classificação
Execução de um algoritmo
![Page 61: Técnicas de Mineração de Dados Sandra de Amo Faculdade de Computação Universidade Federal de Uberlândia](https://reader035.vdocuments.com.br/reader035/viewer/2022082206/5706384b1a28abb8238f5fc7/html5/thumbnails/61.jpg)
27/04/23 JAI - SBC 2004 61
ClassificaçãoNome Idade Renda Profissão ClasseDaniel ≤ 30 Média Estudante SimJoão 31..50 Média-Alta Professor Sim
Carlos 31..50 Média-Alta Engenheiro SimMaria 31..50 Baixa Vendedora NãoPaulo ≤ 30 Baixa Porteiro NãoOtavio > 60 Média-Alta Aposentado Não
SE.
Idade ≤ 30 Renda é Média Compra-Produto-Eletrônico = SIM. E ENTÃO
![Page 62: Técnicas de Mineração de Dados Sandra de Amo Faculdade de Computação Universidade Federal de Uberlândia](https://reader035.vdocuments.com.br/reader035/viewer/2022082206/5706384b1a28abb8238f5fc7/html5/thumbnails/62.jpg)
27/04/23 JAI - SBC 2004 62
Etapas do Processo
REGRAS
Classificador
Amostras Classificadas Banco de
Testes
REGRAS CONFIÁVEIS
![Page 63: Técnicas de Mineração de Dados Sandra de Amo Faculdade de Computação Universidade Federal de Uberlândia](https://reader035.vdocuments.com.br/reader035/viewer/2022082206/5706384b1a28abb8238f5fc7/html5/thumbnails/63.jpg)
27/04/23 JAI - SBC 2004 63
Árvore de Decisão IDADE
RENDA PROFISSÃO
≤ 30
BM M-A A
>60 51-6031-50
Med Prof VendEng
Não
SimSim Sim SimNão Não
Sim
Sim Sim
Se Idade ≤ 30 e Renda é Baixa então Não compra Eletrônico
Se Idade = 31-50 e Prof é Médico então compra Eletrônico
![Page 64: Técnicas de Mineração de Dados Sandra de Amo Faculdade de Computação Universidade Federal de Uberlândia](https://reader035.vdocuments.com.br/reader035/viewer/2022082206/5706384b1a28abb8238f5fc7/html5/thumbnails/64.jpg)
27/04/23 JAI - SBC 2004 64
Como criar uma Árvore de Decisão
C1CASO 1A B C CLASSEa1 b1 c1 Xa1 b2 c1 Xa2 b1 c1 Xa2 b2 c2 Xa1 b2 c2 X
![Page 65: Técnicas de Mineração de Dados Sandra de Amo Faculdade de Computação Universidade Federal de Uberlândia](https://reader035.vdocuments.com.br/reader035/viewer/2022082206/5706384b1a28abb8238f5fc7/html5/thumbnails/65.jpg)
27/04/23 JAI - SBC 2004 65
Como criar uma Árvore de DecisãoA B C CLASSE
a1 b1 c1 Xa1 b2 c1 Xa2 b1 c1 Ya2 b2 c2 Xa1 b2 c2 Y
A B C CLASSEa1 b1 c1 Xa1 b2 c1 Xa1 b2 c2 Y
CASO 2
LISTA-ATRIBUTOS = {
Atributo-Teste =
O que mais reduz a entropia
A B C CLASSEa2 b1 c1 Ya2 b2 c2 X
A
a1 a2
A, B, C }
![Page 66: Técnicas de Mineração de Dados Sandra de Amo Faculdade de Computação Universidade Federal de Uberlândia](https://reader035.vdocuments.com.br/reader035/viewer/2022082206/5706384b1a28abb8238f5fc7/html5/thumbnails/66.jpg)
27/04/23 JAI - SBC 2004 66
Como criar uma Árvore de Decisão
A B C CLASSE
a1 b2 c2 Y
A B C CLASSEa1 b1 c1 Xa1 b2 c1 Xa1 b2 c2 YA B C CLASSE
a1 b1 c1 X
a1 b2 c1 X
LISTA-ATRIBUTOS = {
Atributo-Teste =
O que mais reduz a entropia = C
Aa1 a2
B, C }
C
c1 c2
X Y
![Page 67: Técnicas de Mineração de Dados Sandra de Amo Faculdade de Computação Universidade Federal de Uberlândia](https://reader035.vdocuments.com.br/reader035/viewer/2022082206/5706384b1a28abb8238f5fc7/html5/thumbnails/67.jpg)
27/04/23 JAI - SBC 2004 67
Qual é o Atributo-Teste ? Divide-se o nó segundo cada atributo.
Para cada divisão calcula-se a entropia produzida caso fosse escolhido este atributo.
Considera-se o atributo cuja divisão resulta numa maior redução da entropia.
![Page 68: Técnicas de Mineração de Dados Sandra de Amo Faculdade de Computação Universidade Federal de Uberlândia](https://reader035.vdocuments.com.br/reader035/viewer/2022082206/5706384b1a28abb8238f5fc7/html5/thumbnails/68.jpg)
27/04/23 JAI - SBC 2004 68
Informação ganha na divisão Entrop(A) = -NC1 log2 NC1 - NC2 log2 NC2
Tot Tot Tot Tot Entrop(D) = -(NF1 * Entrop(F1) + NF2 * Entrop(F2))
Tot Tot
Info(Divisão) = Entrop(A) – Entrop (D)
Maior Info(Divisão) Atributo escolhido
![Page 69: Técnicas de Mineração de Dados Sandra de Amo Faculdade de Computação Universidade Federal de Uberlândia](https://reader035.vdocuments.com.br/reader035/viewer/2022082206/5706384b1a28abb8238f5fc7/html5/thumbnails/69.jpg)
27/04/23 JAI - SBC 2004 69
Um ExemploAparência Temperatura Humidade Vento Classe
Sol Quente Alta Não Ruim
Sol Quente Alta Sim Ruim
Encoberto Quente Alta Não Bom
Chuvoso Agradavel Alta Não Bom
Chuvoso Frio Normal Não Bom
Chuvoso Frio Normal Sim Ruim
Encoberto Frio Normal Sim Bom
Sol Agradavel Alta Não Ruim
Sol Frio Normal Não Bom
Chuvoso Agradavel Normal Não Bom
Sol Agradavel Normal Sim Bom
Encoberto Agradavel Alta Sim Bom
Encoberto Quente Normal Não Bom
Chuvoso Agradavel Alta Sim Ruim
![Page 70: Técnicas de Mineração de Dados Sandra de Amo Faculdade de Computação Universidade Federal de Uberlândia](https://reader035.vdocuments.com.br/reader035/viewer/2022082206/5706384b1a28abb8238f5fc7/html5/thumbnails/70.jpg)
27/04/23 JAI - SBC 2004 70
1a divisão possível : Aparência APARÊNCIA
Sol ChuvaEnc
BomBomBom
Bom Bom
BomBomBom
BomBom
RuimRuim Ruim
Ruim
Entrop(D) = 5/14 * Entrop(F1) + 4/14*Entrop(F2) + 5/14*Entrop(F3)
Entrop(F1) = -3/5*log2(3/5) - 2/5*log2 (2/5) = 0.971Entrop(F2) = - 4/4*log2 (4/4) = 0
Entrop(F3) = - 3/5*log2(3/5) - 2/5*log2(2/5) = 0.971
= 0.693
![Page 71: Técnicas de Mineração de Dados Sandra de Amo Faculdade de Computação Universidade Federal de Uberlândia](https://reader035.vdocuments.com.br/reader035/viewer/2022082206/5706384b1a28abb8238f5fc7/html5/thumbnails/71.jpg)
27/04/23 JAI - SBC 2004 71
Redução da Entropia
Entrop(A) = - (9/14 * log2 (9/14) + 5/14* log2(5/14)) = = 0.940
INFO(APARÊNCIA) = Entrop(A) – Entrop(D) = = 0.940 - 0.693 = 0.247
![Page 72: Técnicas de Mineração de Dados Sandra de Amo Faculdade de Computação Universidade Federal de Uberlândia](https://reader035.vdocuments.com.br/reader035/viewer/2022082206/5706384b1a28abb8238f5fc7/html5/thumbnails/72.jpg)
27/04/23 JAI - SBC 2004 72
Comparando as 4 possibilidades Info(Aparência) = 0.247
Info(Temperatura) = 0.029
Info(Humidade) = 0.152
Info(Vento) = 0.020
![Page 73: Técnicas de Mineração de Dados Sandra de Amo Faculdade de Computação Universidade Federal de Uberlândia](https://reader035.vdocuments.com.br/reader035/viewer/2022082206/5706384b1a28abb8238f5fc7/html5/thumbnails/73.jpg)
27/04/23 JAI - SBC 2004 73
Redes Neurais
2
I1
I3
I2
Camada Intermediaria
Camada de Output
Camada de Input
w323
Conjunto de unidades
input output
Conceito de Neurônio Artificial
![Page 74: Técnicas de Mineração de Dados Sandra de Amo Faculdade de Computação Universidade Federal de Uberlândia](https://reader035.vdocuments.com.br/reader035/viewer/2022082206/5706384b1a28abb8238f5fc7/html5/thumbnails/74.jpg)
27/04/23 JAI - SBC 2004 74
Rede Neural e Classificação
∑ INPUT Ij na unidade j
+ θj
w0j
w1j
w2j
x0
x2
x1
Output Oj
Função de AtivaçãoOutputs da Camada precedente
Pesos Média ponderadados outputs recebidos
tendência
![Page 75: Técnicas de Mineração de Dados Sandra de Amo Faculdade de Computação Universidade Federal de Uberlândia](https://reader035.vdocuments.com.br/reader035/viewer/2022082206/5706384b1a28abb8238f5fc7/html5/thumbnails/75.jpg)
27/04/23 JAI - SBC 2004 75
Backpropagation – Fase de IDA
I1
I3
I2
C1
C2
C3
Classe C1
δ1
δ2
δ3
1 ?
0 ?
0 ?
![Page 76: Técnicas de Mineração de Dados Sandra de Amo Faculdade de Computação Universidade Federal de Uberlândia](https://reader035.vdocuments.com.br/reader035/viewer/2022082206/5706384b1a28abb8238f5fc7/html5/thumbnails/76.jpg)
27/04/23 JAI - SBC 2004 76
Backpropagation – Fase de Volta
I1
I3
I2
C1
C2
C3
Ajusta pesos
w22
w32
w12w12
w32
w22
Ajusta pesos
w22
w32
w12w12
w32
w22
![Page 77: Técnicas de Mineração de Dados Sandra de Amo Faculdade de Computação Universidade Federal de Uberlândia](https://reader035.vdocuments.com.br/reader035/viewer/2022082206/5706384b1a28abb8238f5fc7/html5/thumbnails/77.jpg)
27/04/23 JAI - SBC 2004 77
Condições de Parada Epoca = tempo necessário para que todas
as amostras sejam analisadas.
Processo se repete até que: Os reajustes dos pesos são “muito pequenos”. Só uma “pequena” porcentagem de amostras
foram mal classificadas pela rede. Um número “máximo” de épocas foi atingido.
![Page 78: Técnicas de Mineração de Dados Sandra de Amo Faculdade de Computação Universidade Federal de Uberlândia](https://reader035.vdocuments.com.br/reader035/viewer/2022082206/5706384b1a28abb8238f5fc7/html5/thumbnails/78.jpg)
27/04/23 JAI - SBC 2004 78
Backpropagation Objetivo: obter uma rede neural treinada
Centenas de milhares de épocas são necessárias
para a convergência dos pesos.
Teoricamente, convergência não é garantida.
Na prática, os pesos convergem depois de um grande número de épocas.
![Page 79: Técnicas de Mineração de Dados Sandra de Amo Faculdade de Computação Universidade Federal de Uberlândia](https://reader035.vdocuments.com.br/reader035/viewer/2022082206/5706384b1a28abb8238f5fc7/html5/thumbnails/79.jpg)
27/04/23 JAI - SBC 2004 79
Ida : Como são calculados os outputs I1
I2
I3
iw2i
w3i
w1i
Oi = F( w1i*I1 + w2i*I2 + w3i*I3 + θi )
Oi
F(x) = 1/(1+e-x)
![Page 80: Técnicas de Mineração de Dados Sandra de Amo Faculdade de Computação Universidade Federal de Uberlândia](https://reader035.vdocuments.com.br/reader035/viewer/2022082206/5706384b1a28abb8238f5fc7/html5/thumbnails/80.jpg)
27/04/23 JAI - SBC 2004 80
Volta: Cálculo dos Erros
δi Erro em unidade da última camadaTi (0-1) ?
Ei = δi(1- δi)(Ti – δi)
i
i2
3
wi1
wi2
wi3
E’i = δi(1- δi)(E1*wi1+E2*wi2+E3wi3)
Erro em unidade da camada intermediária1
![Page 81: Técnicas de Mineração de Dados Sandra de Amo Faculdade de Computação Universidade Federal de Uberlândia](https://reader035.vdocuments.com.br/reader035/viewer/2022082206/5706384b1a28abb8238f5fc7/html5/thumbnails/81.jpg)
27/04/23 JAI - SBC 2004 81
Reajustes dos pesos e tendências Novo peso wij
wiji j
Novo-wij = Velho-wij + λ EjOi
Nova Tendência θj
λ = Taxa de Aprendizado λ(t) = 1/t
Evita que o processo fique parado num “mínimo local”
Novo-θj = Velho- θj + λ Ej
t = iteração atual
![Page 82: Técnicas de Mineração de Dados Sandra de Amo Faculdade de Computação Universidade Federal de Uberlândia](https://reader035.vdocuments.com.br/reader035/viewer/2022082206/5706384b1a28abb8238f5fc7/html5/thumbnails/82.jpg)
27/04/23 JAI - SBC 2004 82
Exemplo1
0
1
1
2
3
4
5
6
w14
w24
w34
w46
w56
w14
Amostra classificada na classe C = 1
W14 W15 W24 W25 W34 W35 W46 W56 θ4 θ5 θ6
0.2 -0.3 0.4 0.1 -0.5 0.2 -0.3 -0.2 -0.4 0.2 0.1
![Page 83: Técnicas de Mineração de Dados Sandra de Amo Faculdade de Computação Universidade Federal de Uberlândia](https://reader035.vdocuments.com.br/reader035/viewer/2022082206/5706384b1a28abb8238f5fc7/html5/thumbnails/83.jpg)
27/04/23 JAI - SBC 2004 83
Exemplo Ida
Volta
Unidade Input Output4 0.2 + 0 – 0.5 – 0.4 = - 0.7 1/1+e0.7 = 0.3325 -0.3 + 0 + 0.2 + 0.2 = 0.1 1/1+e-0.1 = 0.5256 (-0.3)(0.332) – (0.2)(0.525) + 0.1 = - 0.105 1/1+e0.105 = 0.474
Unidade Erro6 (0.474)(1 - 0.474)(1 - 0.474) = 0.13115 (0.525)(1 - 0.525)( 0.1311)(-0.2) = -0.00654 (0.332)(1 - 0.332)( 0.1311)(-0.3) = -0.0087
![Page 84: Técnicas de Mineração de Dados Sandra de Amo Faculdade de Computação Universidade Federal de Uberlândia](https://reader035.vdocuments.com.br/reader035/viewer/2022082206/5706384b1a28abb8238f5fc7/html5/thumbnails/84.jpg)
27/04/23 JAI - SBC 2004 84
Ex: Ajustes dos Pesos e TendênciasAntigo Valor Reajustado
W46 = -0.3 -0.3 + (0.90)(1.3311)(0.332) = -0.261
w56 = -0.2 -0.2 + (0.90)(1.3311)(0.525) = -1.138
w14 = 0.2 0.2 + (0.90)(-0.0087)(1) = 0.192
w15 = -0.3 -0.3 + (0.90)(-0.0065)(1) = -0.306
w24 = 0.4 0.4 + (0.90)(-0.0087)(0) = 0.4
w25 = 0.1 0.1 + (0.90)(-0.0065)(0) = 0.1
w34 = -0.5 -0.5 + (0.90)(-0.0087)(1) = -0.508
w35 = 0.2 0.2 + (0.90)(-0.0065)(1) = 0.194
θ6 = 0.1 0.1 + (0.90)(1.1311) = 0.218
θ5 = 0.2 0.2 + (0.90)(-0.0065) = 0.194
θ4 = -0.4 -0.4 + (0.90)(-0.0087) = -0.408
![Page 85: Técnicas de Mineração de Dados Sandra de Amo Faculdade de Computação Universidade Federal de Uberlândia](https://reader035.vdocuments.com.br/reader035/viewer/2022082206/5706384b1a28abb8238f5fc7/html5/thumbnails/85.jpg)
27/04/23 JAI - SBC 2004 85
Vantagens e Desvantagens Fase de treinamento demorada Muitos parâmetros, determinados empiricamente
Fraca interpretabilidade
Alta tolerância a ruídos
Resultados Confiáveis
![Page 86: Técnicas de Mineração de Dados Sandra de Amo Faculdade de Computação Universidade Federal de Uberlândia](https://reader035.vdocuments.com.br/reader035/viewer/2022082206/5706384b1a28abb8238f5fc7/html5/thumbnails/86.jpg)
27/04/23 JAI - SBC 2004 86
Plano do CursoAula 2
Sequências com Restrições
Técnicas de Classificação
Execução de um algoritmo
![Page 87: Técnicas de Mineração de Dados Sandra de Amo Faculdade de Computação Universidade Federal de Uberlândia](https://reader035.vdocuments.com.br/reader035/viewer/2022082206/5706384b1a28abb8238f5fc7/html5/thumbnails/87.jpg)
27/04/23 JAI - SBC 2004 87
Intelligent Miner – Janela Principal
![Page 88: Técnicas de Mineração de Dados Sandra de Amo Faculdade de Computação Universidade Federal de Uberlândia](https://reader035.vdocuments.com.br/reader035/viewer/2022082206/5706384b1a28abb8238f5fc7/html5/thumbnails/88.jpg)
27/04/23 JAI - SBC 2004 88
Mineração
![Page 89: Técnicas de Mineração de Dados Sandra de Amo Faculdade de Computação Universidade Federal de Uberlândia](https://reader035.vdocuments.com.br/reader035/viewer/2022082206/5706384b1a28abb8238f5fc7/html5/thumbnails/89.jpg)
27/04/23 JAI - SBC 2004 89
Resultados da Mineração
![Page 90: Técnicas de Mineração de Dados Sandra de Amo Faculdade de Computação Universidade Federal de Uberlândia](https://reader035.vdocuments.com.br/reader035/viewer/2022082206/5706384b1a28abb8238f5fc7/html5/thumbnails/90.jpg)
27/04/23 JAI - SBC 2004 90
Estatística
![Page 91: Técnicas de Mineração de Dados Sandra de Amo Faculdade de Computação Universidade Federal de Uberlândia](https://reader035.vdocuments.com.br/reader035/viewer/2022082206/5706384b1a28abb8238f5fc7/html5/thumbnails/91.jpg)
27/04/23 JAI - SBC 2004 91
Plano do CursoAula 3
Técnicas de Clustering
Técnicas de Otimização e Implementação
Aspectos Teóricos e Generalização
Aplicações
![Page 92: Técnicas de Mineração de Dados Sandra de Amo Faculdade de Computação Universidade Federal de Uberlândia](https://reader035.vdocuments.com.br/reader035/viewer/2022082206/5706384b1a28abb8238f5fc7/html5/thumbnails/92.jpg)
27/04/23 JAI - SBC 2004 92
Agrupamento -Análise de Clusters
a F 1 0 1 1b M 0 0 1 1c F 1 1 1 0d F 1 0 0 0e M 1 1 0 1
a2 a3
a1
a11
a4
a7
a9a10a5
Número de Clusters = 3 Conceito = Doença
Doença X
Doença Z
Doença Y
a8
a6
a1
.
.
.
a2
Nome Sexo Sintomas
![Page 93: Técnicas de Mineração de Dados Sandra de Amo Faculdade de Computação Universidade Federal de Uberlândia](https://reader035.vdocuments.com.br/reader035/viewer/2022082206/5706384b1a28abb8238f5fc7/html5/thumbnails/93.jpg)
27/04/23 JAI - SBC 2004 93
Clusterização versus Classificação Classificação
Aprendizado Supervisionado Amostras de treinamento são classificadas Número de Classes é conhecido
Aprendizado por Exemplo Clusterização
Aprendizado Não Supervisionado Aprendizado por Observação
![Page 94: Técnicas de Mineração de Dados Sandra de Amo Faculdade de Computação Universidade Federal de Uberlândia](https://reader035.vdocuments.com.br/reader035/viewer/2022082206/5706384b1a28abb8238f5fc7/html5/thumbnails/94.jpg)
27/04/23 JAI - SBC 2004 94
Dados de Treinamento
x11 x12 x13 ... x1n
x21 x22 x23 ... x2n
x31 x32 x33 ... x3n
... ... ... ... ...xp1 xp2 xp3 ... xpn
0 0 ... 0d(x1,x2) 0 ... 0d(x1,x3) d(x2,x 3) ... 0
... ... ... 0d(x1,xp) d(x2,x p) ... 0
Matriz de dados padronizados Matriz de dissimilaridade
Distância Euclidiana D(x,y) = (x1-y1)2 + (x2-y2)2 + .... + (xp – yp)2
Outras distâncias : Manhattan, Minkowski, Ponderada
![Page 95: Técnicas de Mineração de Dados Sandra de Amo Faculdade de Computação Universidade Federal de Uberlândia](https://reader035.vdocuments.com.br/reader035/viewer/2022082206/5706384b1a28abb8238f5fc7/html5/thumbnails/95.jpg)
27/04/23 JAI - SBC 2004 95
Métodos de Clusterização Particionamento (k-means, k-medóides,..)
Hierárquicos Aglomerativos (BIRCH, CURE, CHAMELEON, ROCK...)
Hierárquicos Divisórios (DIANA)
Baseados em Densidade (DBSCAN,OPTICS, DENCLUE)
![Page 96: Técnicas de Mineração de Dados Sandra de Amo Faculdade de Computação Universidade Federal de Uberlândia](https://reader035.vdocuments.com.br/reader035/viewer/2022082206/5706384b1a28abb8238f5fc7/html5/thumbnails/96.jpg)
27/04/23 JAI - SBC 2004 96
Particionamento
BD com n amostras
K = número de clusters desejado ( parâmetro )
K ≤ n
![Page 97: Técnicas de Mineração de Dados Sandra de Amo Faculdade de Computação Universidade Federal de Uberlândia](https://reader035.vdocuments.com.br/reader035/viewer/2022082206/5706384b1a28abb8238f5fc7/html5/thumbnails/97.jpg)
27/04/23 JAI - SBC 2004 97
Hierárquicos Aglomerativos
BD com n amostras
K = número de clusters desejado ( parâmetro )
K ≤ n
![Page 98: Técnicas de Mineração de Dados Sandra de Amo Faculdade de Computação Universidade Federal de Uberlândia](https://reader035.vdocuments.com.br/reader035/viewer/2022082206/5706384b1a28abb8238f5fc7/html5/thumbnails/98.jpg)
27/04/23 JAI - SBC 2004 98
K-means
1ª Iteração2ª Iteração
+
+
+
![Page 99: Técnicas de Mineração de Dados Sandra de Amo Faculdade de Computação Universidade Federal de Uberlândia](https://reader035.vdocuments.com.br/reader035/viewer/2022082206/5706384b1a28abb8238f5fc7/html5/thumbnails/99.jpg)
27/04/23 JAI - SBC 2004 99
Clustering Using REpresentatives (CURE) No início, cada amostra é um cluster.
número de clusters = número de amostras Calcula-se distância entre os clusters. Clusters próximos são reunidos num único cluster. Repete-se o processo de cálculo da distância entre
clusters e reunião de clusters próximos. O processo termina quando se atinge o número pré-
fixado de clusters.
![Page 100: Técnicas de Mineração de Dados Sandra de Amo Faculdade de Computação Universidade Federal de Uberlândia](https://reader035.vdocuments.com.br/reader035/viewer/2022082206/5706384b1a28abb8238f5fc7/html5/thumbnails/100.jpg)
27/04/23 JAI - SBC 2004 100
Distância entre Clusters
CURE
![Page 101: Técnicas de Mineração de Dados Sandra de Amo Faculdade de Computação Universidade Federal de Uberlândia](https://reader035.vdocuments.com.br/reader035/viewer/2022082206/5706384b1a28abb8238f5fc7/html5/thumbnails/101.jpg)
27/04/23 JAI - SBC 2004 101
Calculo da Distância entre Clusters CURE
+ +
Coeficiente de Retração
Numero de elementos escolhidos em cada cluster
Parâmetros de Entrada
![Page 102: Técnicas de Mineração de Dados Sandra de Amo Faculdade de Computação Universidade Federal de Uberlândia](https://reader035.vdocuments.com.br/reader035/viewer/2022082206/5706384b1a28abb8238f5fc7/html5/thumbnails/102.jpg)
27/04/23 JAI - SBC 2004 102
Parâmetros de Ajuste Representantes : capturam o formato do cluster Retração em direção do centro de gravidade:
Diminuir a influência de ruidos Coeficientes de retração :
Valores pequenos : favorecem clusters de formato não convexo, menos compacto
Valores grandes : aproximam os representantes do centro do cluster, favorecem clusters convexos, de forma esférica.
![Page 103: Técnicas de Mineração de Dados Sandra de Amo Faculdade de Computação Universidade Federal de Uberlândia](https://reader035.vdocuments.com.br/reader035/viewer/2022082206/5706384b1a28abb8238f5fc7/html5/thumbnails/103.jpg)
27/04/23 JAI - SBC 2004 103
Vantagens e Desvantagens CURE detecta clusters de formato arbitrário K-means detecta clusters de formato esférico
CURE é robusto quanto a outliers
Desvantagem de CURE : complexidade O(n2), n= tamanho do banco de dados
![Page 104: Técnicas de Mineração de Dados Sandra de Amo Faculdade de Computação Universidade Federal de Uberlândia](https://reader035.vdocuments.com.br/reader035/viewer/2022082206/5706384b1a28abb8238f5fc7/html5/thumbnails/104.jpg)
27/04/23 JAI - SBC 2004 104
Plano do CursoAula 3
Técnicas de Clustering
Técnicas de Otimização e Implementação
Aspectos Teóricos e Generalização
Aplicações
![Page 105: Técnicas de Mineração de Dados Sandra de Amo Faculdade de Computação Universidade Federal de Uberlândia](https://reader035.vdocuments.com.br/reader035/viewer/2022082206/5706384b1a28abb8238f5fc7/html5/thumbnails/105.jpg)
27/04/23 JAI - SBC 2004 105
Otimização (Apriori-GSP) Gerenciamento de Buffer
Otimização 1 : reduzir n° de testes na fase de geração n° de testes na fase de poda n° de testes na fase de validação
Otimização 2 : reduzir tamanho do BD
Otimização 3 : reduzir n° de varridas no BD
Otimização 4 : reduzir n° de candidatos gerados
![Page 106: Técnicas de Mineração de Dados Sandra de Amo Faculdade de Computação Universidade Federal de Uberlândia](https://reader035.vdocuments.com.br/reader035/viewer/2022082206/5706384b1a28abb8238f5fc7/html5/thumbnails/106.jpg)
27/04/23 JAI - SBC 2004 106
Gerenciamento de Buffer Se Fk e Ck+1 cabem em memoria principal:
geração e poda realizadas em memoria principal Se Fk cabe e Ck+1 não cabe: Gera-se o numero maximo de candidatos que cabem
em memoria principal Poda-se estes candidatos Se sobra espaço, gera-se mais, poda-se, … Contagem do suporte Candidatos frequentes são armazenados em disco.
![Page 107: Técnicas de Mineração de Dados Sandra de Amo Faculdade de Computação Universidade Federal de Uberlândia](https://reader035.vdocuments.com.br/reader035/viewer/2022082206/5706384b1a28abb8238f5fc7/html5/thumbnails/107.jpg)
27/04/23 JAI - SBC 2004 107
Gerenciamento do Buffer Se Lk e Ck+1 não cabem na memoria principal Ordena-se e estoca-se Lk em disco Carrega-se um bloco de Lk em memoria
principal, onde os k-2 primeiros elementos são idênticos.
Junta e calcula suporte Frequentes são armazenados em disco
![Page 108: Técnicas de Mineração de Dados Sandra de Amo Faculdade de Computação Universidade Federal de Uberlândia](https://reader035.vdocuments.com.br/reader035/viewer/2022082206/5706384b1a28abb8238f5fc7/html5/thumbnails/108.jpg)
27/04/23 JAI - SBC 2004 108
Exemplo
1 2 31 2 41 2 51 2 61 2 71 3 41 3 51 3 6
L3 Capacidade da Memoria : 3 itemsets de tamanho 3 + 1 pagina para contagem do suporte
Primeiro bloco : <1,2,3>, <1,2,4>, <1,2,5>
Gerados : <1,2,3,4>, <1,2,3,5>, <1,2,4,5>
Suporte é avaliado na pagina extra
Segundo bloco : <1,2,3>, <1,2,6>, <1,2,7>
![Page 109: Técnicas de Mineração de Dados Sandra de Amo Faculdade de Computação Universidade Federal de Uberlândia](https://reader035.vdocuments.com.br/reader035/viewer/2022082206/5706384b1a28abb8238f5fc7/html5/thumbnails/109.jpg)
27/04/23 JAI - SBC 2004 109
Otimização 1 - Árvore Hash1
2
3
1
2
3
1
2
3
1
2
3
1
2
3
Tabelas Hash
Folhas : armazena padrões
![Page 110: Técnicas de Mineração de Dados Sandra de Amo Faculdade de Computação Universidade Federal de Uberlândia](https://reader035.vdocuments.com.br/reader035/viewer/2022082206/5706384b1a28abb8238f5fc7/html5/thumbnails/110.jpg)
27/04/23 JAI - SBC 2004 110
Como armazenar padrões na Árvore
Pão, LeitePão, AçucarPão, ManteigaLeite, AçúcarLeite, ManteigaAçúcar, Manteiga
Pão, LeitePão, AçucarPão, ManteigaAçúcar, Manteiga
Leite, AçúcarLeite, Manteiga
h(i1) = 2h(i1) = 1
h(Pão) = h(Açucar) = 1
h(Manteiga) = h(Leite) = 2N = Número maximo de elementos na folha = 3
![Page 111: Técnicas de Mineração de Dados Sandra de Amo Faculdade de Computação Universidade Federal de Uberlândia](https://reader035.vdocuments.com.br/reader035/viewer/2022082206/5706384b1a28abb8238f5fc7/html5/thumbnails/111.jpg)
27/04/23 JAI - SBC 2004 111
Como armazenar padrões na Árvore
Pão, LeitePão, ManteigaAçúcar, Manteiga
Leite, AçúcarLeite, Manteiga
h(i1) = 2h(i1) = 1
Pão, Açúcar
h(i2) = 1 h(i2) = 2
![Page 112: Técnicas de Mineração de Dados Sandra de Amo Faculdade de Computação Universidade Federal de Uberlândia](https://reader035.vdocuments.com.br/reader035/viewer/2022082206/5706384b1a28abb8238f5fc7/html5/thumbnails/112.jpg)
27/04/23 JAI - SBC 2004 112
Geração de candidatos
1
< 1, 4, 8 >< 3, 6, 8 >< 1, 2, 4 >
2
1 2
1 2
1 2
2
< 1, 2, 5 >< 2, 4, 7 >
< 6, 8, 10 >< 2, 4, 6 >
x 2 2
< 6, 8, 9 >
1
2 2 y
< 3, 6, 8 > < 6, 8, 9 > x < 3, 6, 8, 9 >
< 3, 6, 8 >< 1, 2, 4 >
< 6, 8, 10 >< 2, 4, 6 >
xx
<3, 6, 8, 10 ><1, 2, 4, 6>
![Page 113: Técnicas de Mineração de Dados Sandra de Amo Faculdade de Computação Universidade Federal de Uberlândia](https://reader035.vdocuments.com.br/reader035/viewer/2022082206/5706384b1a28abb8238f5fc7/html5/thumbnails/113.jpg)
27/04/23 JAI - SBC 2004 113
Poda dos Candidatos
1
{ 1, 4, 8 }{ 3, 6, 8 }{ 1, 2, 4 }
2
1 2
1 2
1 2
2
{ 1, 2, 5 }{ 2, 4, 7 }
{ 6, 8, 10 }{ 2, 4, 6 }
{ 6, 8, 9 }
1
{ 1, 2, 5, 6 }Candidato:
Sub-itemset: { 1, 2, 5 }
{ 1, 2, 5 }{ 2, 4, 7 }
{ 1, 2, 5 }{ 1, 2, 5 }{ 1, 2, 5 }{ 1, 2, 6 }{ 1, 2, 6 }{ 1, 2, 6 }{ 1, 2, 6 }
h(n) = 1 se n é ímpar
h(n) = 2 se n é par
Folhas : máximo de 3 elementos
![Page 114: Técnicas de Mineração de Dados Sandra de Amo Faculdade de Computação Universidade Federal de Uberlândia](https://reader035.vdocuments.com.br/reader035/viewer/2022082206/5706384b1a28abb8238f5fc7/html5/thumbnails/114.jpg)
27/04/23 JAI - SBC 2004 114
Validação dos Candidatos
1
{ 1, 4, 8 } - 0{ 3, 6, 8 } - 0{ 1, 2, 6 } - 0
2
1 2
1 2
1 2
2
{ 1, 2, 5 } - 0{ 2, 4, 7 } - 0
{ 6, 8, 10 } - 0{ 2, 4, 6 } - 0
{ 6, 8, 9 } - 0
1
{ 1, 2, 5, 6 }
Transação do banco
{ 1, 5, 9 } - 0 { 2, 5, 6 } - 0
{ 1, 2, 5, 6 }{ 1, 2, 5, 6 }{ 1, 2, 5, 6 }{ 1, 2, 5, 6 }{ 1, 2, 5, 6 }{ 1, 2, 5, 6 }
{ 1, 2, 5 } - 1{ 2, 4, 7 } - 0{ 1, 2, 5 } - 1{ 2, 4, 7 } - 0
{ 1, 4, 8 } - 0{ 3, 6, 8 } - 0{ 1, 2, 6 } - 1
{ 1, 4, 8 } - 0{ 3, 6, 8 } - 0{ 1, 2, 6 } - 1
{ 1, 2, 5, 6 }{ 1, 2, 5, 6 }{ 1, 2, 5, 6 }
{ 2, 5, 6 } - 1{ 2, 5, 6 } - 1
![Page 115: Técnicas de Mineração de Dados Sandra de Amo Faculdade de Computação Universidade Federal de Uberlândia](https://reader035.vdocuments.com.br/reader035/viewer/2022082206/5706384b1a28abb8238f5fc7/html5/thumbnails/115.jpg)
27/04/23 JAI - SBC 2004 115
2 – Redução do tamanho do BD Iteração k
t : transação do BD não suporta nenhum padrão de tamanho k
Iteração k+1 t : não suporta nenhum padrão de tamanho k +1
t pode ser eliminada do BD na iteração k
![Page 116: Técnicas de Mineração de Dados Sandra de Amo Faculdade de Computação Universidade Federal de Uberlândia](https://reader035.vdocuments.com.br/reader035/viewer/2022082206/5706384b1a28abb8238f5fc7/html5/thumbnails/116.jpg)
27/04/23 JAI - SBC 2004 116
3 - Redução de « varridas » no BD Método convencional : BD é varrido N vezes
N = número de iterações.
Método de Particionamento do BD [Savarese+ 1995]BD é varrido 2 vezes
![Page 117: Técnicas de Mineração de Dados Sandra de Amo Faculdade de Computação Universidade Federal de Uberlândia](https://reader035.vdocuments.com.br/reader035/viewer/2022082206/5706384b1a28abb8238f5fc7/html5/thumbnails/117.jpg)
27/04/23 JAI - SBC 2004 117
Método do Particionamento Apriori/GSP em memória principal
Encontra padrões frequentes locais
Frequente local
Testa os padrões frequentes locais
Frequente Global
Frequente em ao menos um Local
DB
![Page 118: Técnicas de Mineração de Dados Sandra de Amo Faculdade de Computação Universidade Federal de Uberlândia](https://reader035.vdocuments.com.br/reader035/viewer/2022082206/5706384b1a28abb8238f5fc7/html5/thumbnails/118.jpg)
27/04/23 JAI - SBC 2004 118
4: Redução de candidatos gerados Restrições de expressão regular (Garofalakis+ 1999)
Restrições de gramática livre do contexto (Antunes-Oliveira 2002)
< pedido1, pedido2, fatura1, fatura2 >
Itemsets: restrição de item (Agrawal-Srikant 1997)
(Pão AND Leite) OR (Açúcar AND Café AND ¬ Sal)
![Page 119: Técnicas de Mineração de Dados Sandra de Amo Faculdade de Computação Universidade Federal de Uberlândia](https://reader035.vdocuments.com.br/reader035/viewer/2022082206/5706384b1a28abb8238f5fc7/html5/thumbnails/119.jpg)
27/04/23 JAI - SBC 2004 119
Plano do CursoAula 3
Técnicas de Clustering
Técnicas de Otimização e Implementação
Aspectos Teóricos e Generalização
Aplicações
![Page 120: Técnicas de Mineração de Dados Sandra de Amo Faculdade de Computação Universidade Federal de Uberlândia](https://reader035.vdocuments.com.br/reader035/viewer/2022082206/5706384b1a28abb8238f5fc7/html5/thumbnails/120.jpg)
27/04/23 JAI - SBC 2004 120
Técnica Crescimento-Poda-Validação Quadro Geral
L = Linguagem de Especificação de PadrõesEx : < a, b, c, d >
Q = Condição de SeleçãoQuais padrões de L são interessantes ?
Tarefa de Mineração S = { p Є L | p satisfaz Q }
![Page 121: Técnicas de Mineração de Dados Sandra de Amo Faculdade de Computação Universidade Federal de Uberlândia](https://reader035.vdocuments.com.br/reader035/viewer/2022082206/5706384b1a28abb8238f5fc7/html5/thumbnails/121.jpg)
27/04/23 JAI - SBC 2004 121
Como percorrer o espaço de busca ? Do mais geral ao mais específico
Relação de especialização entre os padrõesO que caracteriza um padrão ser mais geral do que outro ?Ex: < {b}, {e} > é mais geral que < {a,b}, {c,d}, {a,e} >
Ordem Parcial em L : p ≤ q se p é mais geral que q Reflexiva : p ≤ p Antissimétrica: Se p ≤ q e q ≤ p então p = q Transitiva : Se p ≤ q e q ≤ r então p ≤ r
![Page 122: Técnicas de Mineração de Dados Sandra de Amo Faculdade de Computação Universidade Federal de Uberlândia](https://reader035.vdocuments.com.br/reader035/viewer/2022082206/5706384b1a28abb8238f5fc7/html5/thumbnails/122.jpg)
27/04/23 JAI - SBC 2004 122
Propriedade de Antimonotonia ≤ é antimonotônica com relação à condição Q Se p ≤ q e q satisfaz Q então p satisfaz Q
Se um padrão q é interessante então todos os padrões mais gerais p também são interessantes.
Exemplo: Q : p satisfaz Q se suporte(p) ≥ α ( 0 ≤ α ≤ 1 dado ) p ≤ q e suporte(q) ≥ α então suporte(p) ≥ α
q
p
![Page 123: Técnicas de Mineração de Dados Sandra de Amo Faculdade de Computação Universidade Federal de Uberlândia](https://reader035.vdocuments.com.br/reader035/viewer/2022082206/5706384b1a28abb8238f5fc7/html5/thumbnails/123.jpg)
27/04/23 JAI - SBC 2004 123
Algoritmo Geral
Mais gerais
Mais específicos
![Page 124: Técnicas de Mineração de Dados Sandra de Amo Faculdade de Computação Universidade Federal de Uberlândia](https://reader035.vdocuments.com.br/reader035/viewer/2022082206/5706384b1a28abb8238f5fc7/html5/thumbnails/124.jpg)
27/04/23 JAI - SBC 2004 124
Algoritmo Level Search1. C1:= {q Є L | não existe p Є L, p < q }2. i:= 13. While Ci ≠ vazio
1. Fi = {p Є Ci | p satisfaz Q}2. Ci+1 := {p Є L | para todo q < p tem-se que q Є Uj ≤ i Fj}
– Uj ≤ i Cj
1. i:= i+1
4. Retorna Uj ≤ i Fj
![Page 125: Técnicas de Mineração de Dados Sandra de Amo Faculdade de Computação Universidade Federal de Uberlândia](https://reader035.vdocuments.com.br/reader035/viewer/2022082206/5706384b1a28abb8238f5fc7/html5/thumbnails/125.jpg)
27/04/23 JAI - SBC 2004 125
Exemplo 1: Regras de Associação Linguagem L :
alfabeto = conjunto de itens IL = conjunto de itemsets sobre I
Relação de Especialização : I, J Є L I ≤ J se I está contido em J C1 = itemsets mais gerais possíveis
= itemsets unitários
![Page 126: Técnicas de Mineração de Dados Sandra de Amo Faculdade de Computação Universidade Federal de Uberlândia](https://reader035.vdocuments.com.br/reader035/viewer/2022082206/5706384b1a28abb8238f5fc7/html5/thumbnails/126.jpg)
27/04/23 JAI - SBC 2004 126
Exemplo 2: Sequências Linguagem L :
alfabeto = conjunto de itens IL = conjunto de sequências de itemsets de I
Relação de Especialização : I, J Є L I ≤ J se I está contida em J C1 = sequências mais gerais possíveis
= sequências unitárias < {a} >
![Page 127: Técnicas de Mineração de Dados Sandra de Amo Faculdade de Computação Universidade Federal de Uberlândia](https://reader035.vdocuments.com.br/reader035/viewer/2022082206/5706384b1a28abb8238f5fc7/html5/thumbnails/127.jpg)
27/04/23 JAI - SBC 2004 127
Novo : Episódios [Mannila+ 1997] Coleção de eventos que ocorrem durante um
intervalo de tempo
Episódio = grafo Vértices = eventos Arestas especificam a ordem temporal de
precedência dos eventos
Banco de dados : longa sequência de eventos
![Page 128: Técnicas de Mineração de Dados Sandra de Amo Faculdade de Computação Universidade Federal de Uberlândia](https://reader035.vdocuments.com.br/reader035/viewer/2022082206/5706384b1a28abb8238f5fc7/html5/thumbnails/128.jpg)
27/04/23 JAI - SBC 2004 128
Novo : Episódios [Mannila+ 1997]Tarefa de MineraçãoDados : uma longa sequência de eventos S,
N > 0, 0 ≤ M ≤ 1
Encontrar todos os episodios ocorrendo em S, num intervalo de largura N e com frequência superior a M.
![Page 129: Técnicas de Mineração de Dados Sandra de Amo Faculdade de Computação Universidade Federal de Uberlândia](https://reader035.vdocuments.com.br/reader035/viewer/2022082206/5706384b1a28abb8238f5fc7/html5/thumbnails/129.jpg)
27/04/23 JAI - SBC 2004 129
Episódios
E B E C E E A B D C E A EAFD
A
B
C
BB A C A C
![Page 130: Técnicas de Mineração de Dados Sandra de Amo Faculdade de Computação Universidade Federal de Uberlândia](https://reader035.vdocuments.com.br/reader035/viewer/2022082206/5706384b1a28abb8238f5fc7/html5/thumbnails/130.jpg)
27/04/23 JAI - SBC 2004 130
Episódios Linguagem L :
alfabeto = conjunto de eventos EL = conjunto dos grafos etiquetados em E
Relação de Especialização : G, G’ Є L G ≤ G’ se G é isomorfo a um subgrafo de G’ C1 = Grafos mais gerais possíveis
= grafos unitarios
![Page 131: Técnicas de Mineração de Dados Sandra de Amo Faculdade de Computação Universidade Federal de Uberlândia](https://reader035.vdocuments.com.br/reader035/viewer/2022082206/5706384b1a28abb8238f5fc7/html5/thumbnails/131.jpg)
27/04/23 JAI - SBC 2004 131
Plano do CursoAula 3
Técnicas de Clustering
Técnicas de Otimização e Implementação
Aspectos Teóricos e Generalização
Aplicações
![Page 132: Técnicas de Mineração de Dados Sandra de Amo Faculdade de Computação Universidade Federal de Uberlândia](https://reader035.vdocuments.com.br/reader035/viewer/2022082206/5706384b1a28abb8238f5fc7/html5/thumbnails/132.jpg)
27/04/23 JAI - SBC 2004 132
Aplicações Marketing Medicina Telecomunicações Agropecuária Meteorologia Web Mining Bioinformática
![Page 133: Técnicas de Mineração de Dados Sandra de Amo Faculdade de Computação Universidade Federal de Uberlândia](https://reader035.vdocuments.com.br/reader035/viewer/2022082206/5706384b1a28abb8238f5fc7/html5/thumbnails/133.jpg)
27/04/23 JAI - SBC 2004 133
Mineração na Web (Web Mining) Mineração do Uso da Web
Descobrir padrões de comportamento de navegação dos usuários da Internet.
melhorar arquitetura dos site distribuição de material publicitário no site
Mineração do Conteudo da Web
![Page 134: Técnicas de Mineração de Dados Sandra de Amo Faculdade de Computação Universidade Federal de Uberlândia](https://reader035.vdocuments.com.br/reader035/viewer/2022082206/5706384b1a28abb8238f5fc7/html5/thumbnails/134.jpg)
27/04/23 JAI - SBC 2004 134
Mineração do Uso da WebDados = Arquivo de Logs
u1 (s1, d1) t1
u2 (s2, d2) t2
u3 (s3, d3) t3
IdUser (IP) End. Origem End. Destino Tempo
< (s1,d1), (s2,d2), (s3,d3), ... >
![Page 135: Técnicas de Mineração de Dados Sandra de Amo Faculdade de Computação Universidade Federal de Uberlândia](https://reader035.vdocuments.com.br/reader035/viewer/2022082206/5706384b1a28abb8238f5fc7/html5/thumbnails/135.jpg)
27/04/23 JAI - SBC 2004 135
Sequência de Páginas Visitadas
B O
A
C
D
E
G
H W
U V
1
2
43
56
7
89
10
11
12
13 14 15
< A B C D EBC G WH AG O U O V >
A = (null, A) B = (A, B) C = (B, C) ….
![Page 136: Técnicas de Mineração de Dados Sandra de Amo Faculdade de Computação Universidade Federal de Uberlândia](https://reader035.vdocuments.com.br/reader035/viewer/2022082206/5706384b1a28abb8238f5fc7/html5/thumbnails/136.jpg)
27/04/23 JAI - SBC 2004 136
Transformação das Sequências
Sequências Maximais Para Frente
< A B C D > < A B E G H > < A B E G W > < A O U > < A O V >
Arquivo de Logs Sequências Maximais para Frente
Arquivo de Logs
![Page 137: Técnicas de Mineração de Dados Sandra de Amo Faculdade de Computação Universidade Federal de Uberlândia](https://reader035.vdocuments.com.br/reader035/viewer/2022082206/5706384b1a28abb8238f5fc7/html5/thumbnails/137.jpg)
27/04/23 JAI - SBC 2004 137
Padrões Sequenciais Sequências de referência : <a1, a2, …, an>
Sequência de referência suportada por sequência maximal para frente
A B C E F D< >
![Page 138: Técnicas de Mineração de Dados Sandra de Amo Faculdade de Computação Universidade Federal de Uberlândia](https://reader035.vdocuments.com.br/reader035/viewer/2022082206/5706384b1a28abb8238f5fc7/html5/thumbnails/138.jpg)
27/04/23 JAI - SBC 2004 138
Esquema Geral do Processo Transformação do Bando de Dados de logs
num arquivo de sequências maximais para frente.
Mineração das sequências de referência frequentes.
Seleção das maximais
![Page 139: Técnicas de Mineração de Dados Sandra de Amo Faculdade de Computação Universidade Federal de Uberlândia](https://reader035.vdocuments.com.br/reader035/viewer/2022082206/5706384b1a28abb8238f5fc7/html5/thumbnails/139.jpg)
27/04/23 JAI - SBC 2004 139
Algoritmo MF para Transformação
B O
A
C E
G
H W
U V
1
2
43
56
7
89
10
11
12
13 14 15
Mov String Y SeqMax
1
2
3
6
4
5
7
8
AB
ABC
ABCD
ABC
ABE
AB
ABEGABEGH
-
-
-
ABCD
-
-
--
9 ABEG ABEGH
D
![Page 140: Técnicas de Mineração de Dados Sandra de Amo Faculdade de Computação Universidade Federal de Uberlândia](https://reader035.vdocuments.com.br/reader035/viewer/2022082206/5706384b1a28abb8238f5fc7/html5/thumbnails/140.jpg)
27/04/23 JAI - SBC 2004 140
Topicos Importantes de Estudo Mineração Interativa Mineração Incremental Linguagens de Mineração Ferramentas de Visualização Gerenciamento de ruidos e dados incompletos Eficiência e Escalabilidade dos algoritmos de
mineração.
![Page 141: Técnicas de Mineração de Dados Sandra de Amo Faculdade de Computação Universidade Federal de Uberlândia](https://reader035.vdocuments.com.br/reader035/viewer/2022082206/5706384b1a28abb8238f5fc7/html5/thumbnails/141.jpg)
27/04/23 JAI - SBC 2004 141
Exercicio 1{1,3,5,7,8}{3,4,5,7}{2,3,5,6}
{2,4,5,8,9}{2,3,5,11}{1,2,3,7,9}
F1 = {2}, {3}, {5}, {7}
Suporte = 50%
C1 = {1}, {2}, {3}, {4} ,{5}, {6 },{7}, {8}, {9},{11}
C2 = {2 3}, {2 5}, {2 7}, {3 5}, {3 7}, {5 7}
F2 = {2,3}, {2 5}, {3 5}, {3 7}
C3 = {2,3,5}, {3,5,7}
Apos a poda : C3 = {2,3,5}
F3 = vazio
![Page 142: Técnicas de Mineração de Dados Sandra de Amo Faculdade de Computação Universidade Federal de Uberlândia](https://reader035.vdocuments.com.br/reader035/viewer/2022082206/5706384b1a28abb8238f5fc7/html5/thumbnails/142.jpg)
27/04/23 JAI - SBC 2004 142
Exercicio 2
q0 q1 q2
q3
0 1
1 32 5
F2(q0) = <0,1> <0,2> F2(q1) = <1,2>
F2(q2) = <5,1> <5,3>
Fase da Geração
Q0: <0,1,2>Q1: <1,5,2>, <1,5,3> <2,3,5>
F2(q3) = <3,5>
Q2: <5,3,5> Q3: <1,1,2> <3,5,1> <3,5,3>
Fase da Poda
Podadas : <1,5,2>
<1,5,3> <2,3,5><1,1,2> <2,3,5>
![Page 143: Técnicas de Mineração de Dados Sandra de Amo Faculdade de Computação Universidade Federal de Uberlândia](https://reader035.vdocuments.com.br/reader035/viewer/2022082206/5706384b1a28abb8238f5fc7/html5/thumbnails/143.jpg)
27/04/23 JAI - SBC 2004 143
FIM Suporte deste curso http://www.deamo.prof.ufu.br/CursoDM.html
Curso Completo DM Notas deste Mini-curso Slides deste Mini-curso Bibliografia, ….
Questões ?