![Page 1: Kamila T. Lyra Karina C. S. Nishimura Thiago P. Colonhezi William S. Soares](https://reader036.vdocuments.com.br/reader036/viewer/2022062512/552fc12c497959413d8d1b16/html5/thumbnails/1.jpg)
Data Mining, Data Warehousing e OLAP
Kamila T. LyraKarina C. S. Nishimura
Thiago P. ColonheziWilliam S. Soares
![Page 2: Kamila T. Lyra Karina C. S. Nishimura Thiago P. Colonhezi William S. Soares](https://reader036.vdocuments.com.br/reader036/viewer/2022062512/552fc12c497959413d8d1b16/html5/thumbnails/2.jpg)
Data Warehouse Banco de dados de informações
empresariais. Processamento de consulta e não de
transações. Torna informações acessíveis e claras para o
uso. Consultas sem impacto nos dados
operacionais. Maneira de obter informações corporativas
para tomada de decisões.
![Page 3: Kamila T. Lyra Karina C. S. Nishimura Thiago P. Colonhezi William S. Soares](https://reader036.vdocuments.com.br/reader036/viewer/2022062512/552fc12c497959413d8d1b16/html5/thumbnails/3.jpg)
Data WarehouseOrigem Anos 80 Bancos de dados comerciais para SADs No inicio eram apenas subconjuntos dos
dados operacionais que eram copiados para o banco de apoio a decisões regularmente.
![Page 4: Kamila T. Lyra Karina C. S. Nishimura Thiago P. Colonhezi William S. Soares](https://reader036.vdocuments.com.br/reader036/viewer/2022062512/552fc12c497959413d8d1b16/html5/thumbnails/4.jpg)
Data WarehouseDefinições
“Data Warehouse é uma coleção de dados orientada por assuntos, integrada, variante no tempo, e não
volátil que tem por objetivo dar suporte aos processos de tomada de decisão.”
Inmon(1997)“Poder faz dinheiro. Conhecimento é poder. Data
Warehouse aumenta o conhecimento. Portanto, Data Warehouse faz dinheiro.”
Knowles (1996)
![Page 5: Kamila T. Lyra Karina C. S. Nishimura Thiago P. Colonhezi William S. Soares](https://reader036.vdocuments.com.br/reader036/viewer/2022062512/552fc12c497959413d8d1b16/html5/thumbnails/5.jpg)
Data Warehouse X BD Operacional
![Page 6: Kamila T. Lyra Karina C. S. Nishimura Thiago P. Colonhezi William S. Soares](https://reader036.vdocuments.com.br/reader036/viewer/2022062512/552fc12c497959413d8d1b16/html5/thumbnails/6.jpg)
Data warehouseArquitetura
![Page 7: Kamila T. Lyra Karina C. S. Nishimura Thiago P. Colonhezi William S. Soares](https://reader036.vdocuments.com.br/reader036/viewer/2022062512/552fc12c497959413d8d1b16/html5/thumbnails/7.jpg)
Data WarehouseData Marts
Os Data Marts são subconjuntos de dados, dentro de um Data Warehouse, projetados para dar suporte a negócios de unidade organizacionais especificas (NIMER, 1998).
![Page 8: Kamila T. Lyra Karina C. S. Nishimura Thiago P. Colonhezi William S. Soares](https://reader036.vdocuments.com.br/reader036/viewer/2022062512/552fc12c497959413d8d1b16/html5/thumbnails/8.jpg)
Data Warehouse Finalizando Data Warehouse é um ambiente adaptado
para apenas um objetivo. Desafios:
◦ Consultas claras e rápidas.◦ Disponibilizar metadados.
Sistemas de gestão: Business Intelligence◦ Núcleo do apoio á decisões.
![Page 9: Kamila T. Lyra Karina C. S. Nishimura Thiago P. Colonhezi William S. Soares](https://reader036.vdocuments.com.br/reader036/viewer/2022062512/552fc12c497959413d8d1b16/html5/thumbnails/9.jpg)
OLAP (Online AnalyticalProcessing)
![Page 10: Kamila T. Lyra Karina C. S. Nishimura Thiago P. Colonhezi William S. Soares](https://reader036.vdocuments.com.br/reader036/viewer/2022062512/552fc12c497959413d8d1b16/html5/thumbnails/10.jpg)
Keneth Iverson – 1962 “A Programming Language” - APL Necessidade de relatórios dinâmicos Tecnologia OLAP – década de 90. Popularidade
OLAP -Origem
![Page 11: Kamila T. Lyra Karina C. S. Nishimura Thiago P. Colonhezi William S. Soares](https://reader036.vdocuments.com.br/reader036/viewer/2022062512/552fc12c497959413d8d1b16/html5/thumbnails/11.jpg)
Processamento Analítico Online◦ Manipular e analisar um grande volume de dados
sob múltiplas perspectivas Otimização de consulta e relatório BI- síntese de informações corporativas
◦ visões comparativas e personalizadas: Apresenta as informações via um modelo de dados
natural e intuitivo.◦ análises históricas; e ◦ elaboração de cenários.
OLAP - Definição
![Page 12: Kamila T. Lyra Karina C. S. Nishimura Thiago P. Colonhezi William S. Soares](https://reader036.vdocuments.com.br/reader036/viewer/2022062512/552fc12c497959413d8d1b16/html5/thumbnails/12.jpg)
Tipos básicos de dados: ◦ Medidas:
Dados numéricos, como quantidades e médias Parâmetros utilizados na tomada de decisões dimensão especial utilizada para realizar
comparações.◦ Dimensões:
Uma unidade de análise que agrupa dados de negócio relacionados.
OLAP - Definição
![Page 13: Kamila T. Lyra Karina C. S. Nishimura Thiago P. Colonhezi William S. Soares](https://reader036.vdocuments.com.br/reader036/viewer/2022062512/552fc12c497959413d8d1b16/html5/thumbnails/13.jpg)
Conceitos – chave:◦ Cubo: estrutura multidimensional de dados do
negócio.◦ Membro: subconjunto de uma dimensão.◦ Hierarquia: Uma estrutura em árvore lógica que
organiza os membros de uma dimensão.
OLAP - Definição
![Page 14: Kamila T. Lyra Karina C. S. Nishimura Thiago P. Colonhezi William S. Soares](https://reader036.vdocuments.com.br/reader036/viewer/2022062512/552fc12c497959413d8d1b16/html5/thumbnails/14.jpg)
OLAP – Representação dos Dados
![Page 15: Kamila T. Lyra Karina C. S. Nishimura Thiago P. Colonhezi William S. Soares](https://reader036.vdocuments.com.br/reader036/viewer/2022062512/552fc12c497959413d8d1b16/html5/thumbnails/15.jpg)
Conceitos-chave◦ Drill-up: diminuir o nível de detalhamento◦ Drill-down: aumentar o nível de detalhamento◦ Slice and Dice: reorganizar os dados
OLAP - Definição
![Page 16: Kamila T. Lyra Karina C. S. Nishimura Thiago P. Colonhezi William S. Soares](https://reader036.vdocuments.com.br/reader036/viewer/2022062512/552fc12c497959413d8d1b16/html5/thumbnails/16.jpg)
OLAP - Multidimensionalidade Uma dimensão
Duas Dimensões
![Page 17: Kamila T. Lyra Karina C. S. Nishimura Thiago P. Colonhezi William S. Soares](https://reader036.vdocuments.com.br/reader036/viewer/2022062512/552fc12c497959413d8d1b16/html5/thumbnails/17.jpg)
Três Dimensões
OLAP - Multidimensionalidade
![Page 18: Kamila T. Lyra Karina C. S. Nishimura Thiago P. Colonhezi William S. Soares](https://reader036.vdocuments.com.br/reader036/viewer/2022062512/552fc12c497959413d8d1b16/html5/thumbnails/18.jpg)
Quatro Dimensões
OLAP - Multidimensionalidade
![Page 19: Kamila T. Lyra Karina C. S. Nishimura Thiago P. Colonhezi William S. Soares](https://reader036.vdocuments.com.br/reader036/viewer/2022062512/552fc12c497959413d8d1b16/html5/thumbnails/19.jpg)
Exemplo: aplicações bancárias OLTP: Ponto de vista do cliente.
◦ inserção, alteração, remoção de dados individuais.
OLAP: Ponto de vista do Gerente.◦ Análise global de contas correntes com diversas
visões. Ex: Saber qual é o desempenho de contas correntes que
tenham cheque especial e tenham utilizado o valor máximo dos mesmos em um determinado período de tempo em algumas regiões.
OLAP e OLTP
![Page 20: Kamila T. Lyra Karina C. S. Nishimura Thiago P. Colonhezi William S. Soares](https://reader036.vdocuments.com.br/reader036/viewer/2022062512/552fc12c497959413d8d1b16/html5/thumbnails/20.jpg)
MOLAP: os dados são armazenados em cubos multimensionais.
ROLAP: manipula os dados armazenados no banco de dados relacional para dar a aparência de funcionalidade slice and dice do OLAP tradicional.
HOLAP: combinação do MOLAP e ROLAP.
OLAP – Principais Tipos
![Page 21: Kamila T. Lyra Karina C. S. Nishimura Thiago P. Colonhezi William S. Soares](https://reader036.vdocuments.com.br/reader036/viewer/2022062512/552fc12c497959413d8d1b16/html5/thumbnails/21.jpg)
São utilizados por gestores de qualquer nível da organização;
Análise, navegação e visualização de dados corporativos:◦ Alto desempenho◦ Consistente◦ Interativa◦ Dinâmica◦ Perspectivas diferentes
OLAP - Vantagens
![Page 22: Kamila T. Lyra Karina C. S. Nishimura Thiago P. Colonhezi William S. Soares](https://reader036.vdocuments.com.br/reader036/viewer/2022062512/552fc12c497959413d8d1b16/html5/thumbnails/22.jpg)
Escolha de uma ferramenta OLAP inadequada pode ocasionar severas consequências para um projeto de datawarehouse.
Não existe nenhuma característica peculiar que dite como a ferramenta deve ser construída, qual tecnologia deva ser usada e que funcionalidades devem ser implementadas
OLAP - Desvantagens
![Page 23: Kamila T. Lyra Karina C. S. Nishimura Thiago P. Colonhezi William S. Soares](https://reader036.vdocuments.com.br/reader036/viewer/2022062512/552fc12c497959413d8d1b16/html5/thumbnails/23.jpg)
Data Mining
![Page 24: Kamila T. Lyra Karina C. S. Nishimura Thiago P. Colonhezi William S. Soares](https://reader036.vdocuments.com.br/reader036/viewer/2022062512/552fc12c497959413d8d1b16/html5/thumbnails/24.jpg)
◦ Grande disponibilidade de dados armazenados eletronicamente
◦ Existem informações úteis, invisíveis, nesses grandes volumes de dados;
◦ Aproveitar para prever um conhecimento futuro (ir além do armazenamento explícito de dados).
Introdução - Data Mining
![Page 25: Kamila T. Lyra Karina C. S. Nishimura Thiago P. Colonhezi William S. Soares](https://reader036.vdocuments.com.br/reader036/viewer/2022062512/552fc12c497959413d8d1b16/html5/thumbnails/25.jpg)
◦ Data mining (mineração de dados), é o processo de extração de conhecimento de grandes bases de dados, convencionais ou não.
◦ Utiliza técnicas de inteligência artificial que procuram relações de similaridade ou discordância entre dados.
◦ Seu objetivo é encontrar, automaticamente, padrões, anomalias e regras com o propósito de transformar dados, aparentemente ocultos, em informações úteis para a tomada de decisão e/ou avaliação de resultados.
Data Mining
![Page 26: Kamila T. Lyra Karina C. S. Nishimura Thiago P. Colonhezi William S. Soares](https://reader036.vdocuments.com.br/reader036/viewer/2022062512/552fc12c497959413d8d1b16/html5/thumbnails/26.jpg)
Evolução do Data MiningEvolução Perguntas Tecnologia disponível Características
Coleção de dados 1960
“Qual foi meu rendimento total nos últimos cinco anos ?”
Computadores, Fitas, discos
Retrospectiva, Dados estáticos como resposta
Acessos aos dados 1980
“Qual foi meu rendimento no Brasil no
último janeiro ?”
RDBMS, SQL,
ODBC
Restropectiva, dados dinâmicos a nível de registos como resposta
Data warehousing & suporte a
decisão 1990
“Qual foi meu rendimento no Brasil no último janeiro? Do sul
até o nordeste
Processamento analítico on-line, banco de dados multidimencionais, data
warehousing
Retrospectiva, dados dinâmicos
em múltiplos níveis como resposta
Data Mining Atualmente
“Porque alguns produtos são mais vendidos na
região sul ?”
Algoritmos avançados, computadores
multiprocessados, B.D. grandes e poderosos
Prospectivo, Informações
(perspectivas) como resposta.
![Page 27: Kamila T. Lyra Karina C. S. Nishimura Thiago P. Colonhezi William S. Soares](https://reader036.vdocuments.com.br/reader036/viewer/2022062512/552fc12c497959413d8d1b16/html5/thumbnails/27.jpg)
◦ Seleção.
◦ Pré-processamento.
◦ Transformação.
◦ Data mining.
◦ Interpretação e Avaliação.
Processo – Data Mining
![Page 28: Kamila T. Lyra Karina C. S. Nishimura Thiago P. Colonhezi William S. Soares](https://reader036.vdocuments.com.br/reader036/viewer/2022062512/552fc12c497959413d8d1b16/html5/thumbnails/28.jpg)
Processo - Data Mining• Seleção
• Selecionar ou segmentar dados de acordo com critérios definidos:
• Ex.: Todas pessoas que possuem ensino superior.
• Pré-processamento • Estágio de limpeza dos dados, onde informações julgadas
desnecessárias são removidas.• Reconfiguração dos dados para assegurar formatos
consistentes (identificação)•Ex. : graduação: “Graduação”, “Mestrado” ou
Doutorado.
![Page 29: Kamila T. Lyra Karina C. S. Nishimura Thiago P. Colonhezi William S. Soares](https://reader036.vdocuments.com.br/reader036/viewer/2022062512/552fc12c497959413d8d1b16/html5/thumbnails/29.jpg)
Processo - Data Mining• Transformação
• Transforma-se os dados em formatos utilizáveis. Esta depende da técnica data mining usada.• Ex: rede neural converter valor literal em
valor numérico • Disponibilizar os dados de maneira usável e
navegável.
• Data mining• É a verdadeira extração dos padrões de
comportamento dos dados• Utilizando a definição de fatos, medidas de
padrões, estados e o relacionamento entre eles.
![Page 30: Kamila T. Lyra Karina C. S. Nishimura Thiago P. Colonhezi William S. Soares](https://reader036.vdocuments.com.br/reader036/viewer/2022062512/552fc12c497959413d8d1b16/html5/thumbnails/30.jpg)
Processo – Data Mining• Interpretação e Avaliação• Identificado os padrões pelo sistema, estes são
interpretados em conhecimentos, os quais darão suporte a tomada de decisões humanas• Ex.: Tarefas de previsões e classificações
![Page 31: Kamila T. Lyra Karina C. S. Nishimura Thiago P. Colonhezi William S. Soares](https://reader036.vdocuments.com.br/reader036/viewer/2022062512/552fc12c497959413d8d1b16/html5/thumbnails/31.jpg)
Indução◦ Regras indutivas
É o processo de olhar uma série de dados e, a partir dela gerar padrões;
Pode-se trabalhar com dados numéricos ou não; Hipóteses;
Técnicas
![Page 32: Kamila T. Lyra Karina C. S. Nishimura Thiago P. Colonhezi William S. Soares](https://reader036.vdocuments.com.br/reader036/viewer/2022062512/552fc12c497959413d8d1b16/html5/thumbnails/32.jpg)
Árvores de decisão◦ Representação simples do conhecimento;◦ Utilização de regras condicionais;◦ A partir de um conjunto de valores decide SIM ou
NÃO.
Técnicas
![Page 33: Kamila T. Lyra Karina C. S. Nishimura Thiago P. Colonhezi William S. Soares](https://reader036.vdocuments.com.br/reader036/viewer/2022062512/552fc12c497959413d8d1b16/html5/thumbnails/33.jpg)
Redes Neurais◦ É uma abordagem computacional que envolve
estruturas matemáticas com a habilidade de aprender;
◦ Elementos interconectados e possuem entrada e saída do processamento;
◦ São organizados em camadas que aprendem pela modificação da conexão
Técnicas
![Page 34: Kamila T. Lyra Karina C. S. Nishimura Thiago P. Colonhezi William S. Soares](https://reader036.vdocuments.com.br/reader036/viewer/2022062512/552fc12c497959413d8d1b16/html5/thumbnails/34.jpg)
Redes Neurais
Técnicas
![Page 35: Kamila T. Lyra Karina C. S. Nishimura Thiago P. Colonhezi William S. Soares](https://reader036.vdocuments.com.br/reader036/viewer/2022062512/552fc12c497959413d8d1b16/html5/thumbnails/35.jpg)
• Open Source: Implementada na linguagem JAVA.
• Classificação• Um classificador (ou modelo de classificação) é
utilizado para identificar a classe à qual pertence uma determinada observação de uma base de dados, a partir de suas características (seus atributos).
Ferramenta WEKA
![Page 36: Kamila T. Lyra Karina C. S. Nishimura Thiago P. Colonhezi William S. Soares](https://reader036.vdocuments.com.br/reader036/viewer/2022062512/552fc12c497959413d8d1b16/html5/thumbnails/36.jpg)
Exemplo – Entrada de dados• O Software WEKA utiliza o arquivo .arff para a entrada de dados o qual
possui a seguinte estrutura:
@relation Censo @attribute Escolaridade {Graduacao, Mestrado, Doutorado}@attribute Idade {>30, <=30}@attribute Rido {Sim, Nao} @dataMestrado,>30,SimDoutorado,<=30,SimMestrado,<=30,NaoDoutorado,>30,SimGraduacao,<=30,NaoGraduacao,>30,Nao
![Page 37: Kamila T. Lyra Karina C. S. Nishimura Thiago P. Colonhezi William S. Soares](https://reader036.vdocuments.com.br/reader036/viewer/2022062512/552fc12c497959413d8d1b16/html5/thumbnails/37.jpg)
Exemplo – Saida de dados
Arvore de Decisão
Matriz de Confusão=== Confusion Matrix ===
a b <-- classified as 4 5 | a = Sim 6 3 | b = Nao