aula 2 - analiseintdados-2015
Post on 07-Jan-2016
24 Views
Preview:
DESCRIPTION
TRANSCRIPT
-
Analise Inteligente de Dados-OZ@
UniTiva-2015
Analise Inteligente de Dados
Aula 2
Orlando Zacarias
-
O Que Bussiness Intelligence
Business Intelligence - Termo global para referenciando todos os processos, tcnicas e ferramentas que suportam
a tomada de decises em negcio baseadas em
tecnologias de informao
Pode ser expressa em termos de:
uma simples folha de clculo
Queries
OLAP
OLAP (processamento analtico online) o processamento por computador o qual permite que um usurio com facilidade e
selectivamente extraia e visualize dados de diferentes pontos
de vista
data mining
visualizao
Analise Inteligente de Dados-OZ@
UniTiva-2015
2
-
O Que Bussiness Intelligence (cont.)
O valor da informao para
a tomada de
decises
aumenta do
fundo para o
topo
Analise Inteligente de Dados-OZ@
UniTiva-2015
3
-
O Que Bussiness Intelligence (cont.)
A data mart a camada de acesso do ambiente de data warehouse que
utilizado para obter dados para os usurios
A data mart um subconjunto do armazenamento de dados que
normalmente orientado para uma linha
de negcios especfico ou equipe
Data marts so pequenas fatias de data warehouse
Analise Inteligente de Dados-OZ@
UniTiva-2015
4
-
Conceitos Importantes de KDD/ECBA
Termos e conceitos fundamentais tem haver com:
O que padro?
O que um modelo?
Onde se utilizam os modelos?
O que um modelo correcto?
O que so Preditores e o que predio?
Amostragem
Analise Inteligente de Dados-OZ@
UniTiva-2015
5
-
Conceitos Importantes de KDD/ECBA (cont.)
Padro: Expresso E numa linguagem L, descrevendo factos
num subconjunto FE pertencente a F
E constitui um padro se constitui uma descrio mais simples do que a enumerao de todos os
factos em FE
A aprendizagem pode ser descrita, geralmente de ponto de vista matemtico, como a
compresso de conjuntos de dados
Se tivermos um algoritmo que crie uma descrio dum conjunto de dados que seja efectivamente menor do que o conjunto de dados original, pode dizer-se que algo foi aprendido!!
Analise Inteligente de Dados-OZ@
UniTiva-2015
6
-
Conceitos Importantes de KDD/ECBA (cont.)
A definio de Padro centrado em BD e DW:
Evento ou combinao de eventos numa base de dados que ocorrem mais
vezes do que seria de esperar
Isto quer normalmente dizer que a ocorrncia actual significativamente
diferente da que seria de esperar
aleatoriamente
Analise Inteligente de Dados-OZ@
UniTiva-2015
7
-
Conceitos Importantes de KDD/ECBA (cont.)
Por exemplo no problema para determinar o prximo nmero da sequncia seguinte:
1212121 ....? R: 2
Muito fcil: o padro 12 encontrado vezes suficientes para haver confiana de que
existe um modelo predictivo que diz: Se 1, ento 2 seguir-lhe-
Tambm: Se 2, ento 1 seguir-lhe
Mas, pode ser mais complicado: Se o conjunto for 121?
Se for 1212123121212?
Analise Inteligente de Dados-OZ@
UniTiva-2015
8
-
Conceitos Importantes de KDD/ECBA (cont.)
Um modelo representa alguma caracterstica importante da coisa maior que est a ser
modelada, no a descreve completamente.
Para aplicaes de negcio, um modelo pode ser algo como uma equao
matemtica, um conjunto de regras que
descrevem segmentos de clientes,
representaes computacionais duma
arquitectura de redes neuronais, etc.
Analise Inteligente de Dados-OZ@
UniTiva-2015
9
-
Conceitos Importantes de KDD/ECBA (cont.)
A definio de Modelo centrado em BD e DW:
Descrio da base de dados histrica original a partir da qual foi construdo, que
pode ser aplicado com sucesso a novos
dados, por forma a fazer predies acerca
de valores em falta ou fazer declaraes
acerca dos valores esperados.
Analise Inteligente de Dados-OZ@
UniTiva-2015
10
-
Conceitos Importantes de KDD/ECBA (cont.)
Diferena entre padres e modelos:
Os padres so conduzidos pelos dados e geralmente reflectem os prprios dados
O modelo geralmente reflecte um propsito e pode no ser necessariamente induzido/conduzido
pelos dados, sendo uma descrio de alto nvel
E.g.: Um modelo do mundo fsico utilizando as equaes da fsica Newtoniana, poder explicar a
rapidez da queda de qualquer objecto ou ainda o
quanto poder voar
Analise Inteligente de Dados-OZ@
UniTiva-2015
11
-
Conceitos Importantes de KDD/ECBA (cont.)
Diferena entre padres e modelos:
Os modelos so mais complexos do que os padres, podem usualmente ocorrer muitas
verses destes. Um modelo geralmente contm
diversos/muitos padres
E.g.: Um modelo de comportamento de clientes pode ser muito complexo e conter centenas de
padres que foram encontrados na base de
dados
Analise Inteligente de Dados-OZ@
UniTiva-2015
12
-
Conceitos Importantes de KDD/ECBA (cont.)
Onde so utilizados os modelos?
Podemos tomar alguns exemplos de problemas de negcio que podero
beneficiar da existncia de modelos:
Seleco
Aquisio
Reteno
Extenso
Analise Inteligente de Dados-OZ@
UniTiva-2015
13
-
Onde Utilizar de Modelos?
Na Seleco: o negcio pretende por exemplo seleccionar novos clientes a organizao tem uma lista de possveis candidatos a clientes, mas
no sabe
quais sero os desejveis; necessrio concentrar-se nos clientes que se tornaro bons clientes
a lista pode ser adquirida a partir de vrias fontes: lista de endereos, endereos para cupons, base de dados
de censos ou aleatoriamente a partir da lista telefnica
h informao limitada acerca dos clientes, um desafio construo de um modelo de predio
h que recorrer informao histrica da prpria base de dados e, a partir desta, detectar os padres e construir um modelo dos hbitos dos prprios clientes;
depois extrapolar para os possveis novos clientes
Analise Inteligente de Dados-OZ@
UniTiva-2015
14
-
Exemplo do Seleco
No sector das telecomunicaes, pretende-se seleccionar possveis novos bons clientes, para
chamadas de longa distncia
Criar um modelo da rentabilidade dos prprios clientes, dados um conjunto de
campos que a determinam (chamados
predictores ou variveis independentes), a
partir dos prprios dados histricos
Utilizar este modelo com seus padres, para avaliao dos possveis futuros clientes
Analise Inteligente de Dados-OZ@
UniTiva-2015
15
-
Onde Utilizar de Modelos?
Na Aquisio: depois de seleccionados os clientes, h que efectiv-los (torna-los efectivos)
normalmente efectuada atravs de alguma oferta ou produto em que o cliente poder estar
interessado (desconto, simplificao de facturao,
amostra de produto, etc.)
Note-se que nem todos os clientes seleccionados tero o mesmo perfil, assim, para os mais lucrativos
podero ser utilizadas estratgias mais caras, ao
contrrio de outros
o desafio modelar a tctica que resulte em esforo mnimo (e despesa) mas que resulte no sim oferta
Analise Inteligente de Dados-OZ@
UniTiva-2015
16
-
Onde Utilizar de Modelos?
o modelo poder ser do tipo: probabilidade de aquisio x tctica x atributos do cliente
o cliente ter 90% de probabilidade de ser conquistado se lhe for oferecida um bnus de
50, 60%, se tiver um desconto de 10% e de 1%, caso lhe sejam simplesmente enviados
prospectos por correio
estes modelos podem ser baseados em experincias passadas de outras ofertas feitas
(again dasdos historicos)
Analise Inteligente de Dados-OZ@
UniTiva-2015
17
-
Onde Utilizar de Modelos?
Processo de Reteno: reter os clientes que foram conquistados
Dada a competitividade do mercado actual, grande a facilidade com que um competidor pode
contactar e roubar um cliente; a lealdade do cliente
algo que deve ser activamente encorajada e seguido no mercado bancrio e de comunicaes mveis, quase 1 em
cada 3 clientes so perdidos para os competidores, em
cada ano, sendo perdidos normalmente os mais
lucrativos o custo de aquisio , normalmente
bastante alto
Analise Inteligente de Dados-OZ@
UniTiva-2015
18
-
Processo de Reteno
Ter um modelo dos clientes que estamos em risco de perder ser de grande valia:
corrigir os motivos de insatisfao do cliente ou adiantar-se numa oferta antes do contacto dum
competidor, muito mais eficaz do que reagir, j
depois do cliente ter decidido por outro fornecedor
O modelo poder dividir-se em duas partes:
um modelo para saber quais os clientes em risco
outro modelo para determinar que estratgia de reteno ser a mais eficaz
Mais uma vez, h que recorrer informao histrica da prpria base de dados. Saber quais os clientes
descontentes e que estratgias foram bem sucedidas
na sua reteno extremamente importante....
Analise Inteligente de Dados-OZ@ UniTiva-2015
19
-
Onde Utilizar de Modelos?
Para Extenso: refere-se ao processo de extensao dos servios ou produtos que se vendem aos clientes a
outros, para alm dos originais
Nesta fase, tal como na anterior, j temos disponvel muitos dados acerca do cliente - facto que no se verificava nas
duas primeiras fases - e que os nossos competidores no
tm (eles podero estar na fase 1 e 2). Com esta
informao, e desde que utilizada eficazmente, estaremos
em vantagem perante os nossos concorrentes
A extenso tambm denominada de cross-selling
Analise Inteligente de Dados-OZ@
UniTiva-2015
20
-
Para Extenso
Por Exemplo: um banco, pretende vender a um cliente que contraiu um emprstimo para habitao,
um seguro de vida
A modelao dos clientes que podero estar interessados em outros produtos importante, pois
que o cliente pode facilmente ser inundado com
ofertas de produtos, para os quais no tenha o
mnimo interesse e no responder tambm a outras
ofertas de produtos que at desejaria
Claro que se no for sugerido ao cliente algo de que este necessite, deixaremos a porta aberta aos nossos competidores
Analise Inteligente de Dados-OZ@
UniTiva-2015
21
-
Conceito de Modelo Correcto
O que um Modelo Correcto?
Se for possvel conhecer precisamente o estado actual de tudo no universo num dado momento, ser ento possvel
criar um modelo que prediga rigorosamente todos os
eventos futuros
Pierre Laplace
LEMBREMO-NOS, QUE O NOSSO OBJECTIVO ATRAVS DE
UM MODELO, TENTAR APROXIMAR O MAXIMO POSSIVEL DA
REALIDADE... MODELO REALMENTE MODELO E NUNCA SERA TOTALMENTE IGUAL A REALIDADE.....
Analise Inteligente de Dados-OZ@
UniTiva-2015
22
-
Conceito de Modelo Correcto
A afirmao do slide anterior pode se integrar na mecnica quntica, princpio de incerteza de
Heisenberg conjudado com os desenvolvimentos mais recentes relativos dos sistemas caticos
Entretanto, muitos autores perseguem a ideia que debaixo de toda a complexidade de eventos que
ocorrem, muitas vezes mesmo sem significado, pode
existir um modelo bem definido que, sendo descoberto,
explicaria e poderia predizer muito do que observamos
na natureza .....
Deixemos de filosofias e nos focalizemos nas questes como:
Existe um modelo perfeito?
Pode um modelo ser melhor do que outro?
Como poderemos avaliar que modelo ser melhor?
Analise Inteligente de Dados-OZ@
UniTiva-2015
23
-
Modelo Perfeito
O modelo perfeito, se que tal coisa existe, deveria ter vrias caractersticas importantes:
Poderia ser sempre utilizado para fazer as previses correctas
No se degradaria com o tempo
Poderia ser utilizado com os dados mais mo, no requerendo um volume de dados
extraordinrio
Deveria ser mais simples e pequeno do que os dados utilizados para a modelao
Analise Inteligente de Dados-OZ@
UniTiva-2015
24
-
Modelo Perfeito
No h modelo perfeito:
no mundo real: h sempre dados
relevantes que no puderam ser
recolhidos, ou os dados contm erros
ou valores em falta e quase todos os
modelos construdos so susceptveis
de serem alterados ao longo do
tempo!!
Analise Inteligente de Dados-OZ@
UniTiva-2015
25
-
Dados em Falta
Um dos maiores problemas na recolha dos dados do mundo real, a partir dos quais
construimos modelos predictivos, no ter os
dados certos, na quantidade devida
Pessoas com dieta pobre em gorduras desde a nascena leva a taxa muito baixa de ataques do
corao
Mas ...? Como conseguir estes dados? (no contexto Moz?)
Soluo: recolha pr-activa dos dados em campanhas de marketing de teste
O volume de informao disponvel pode ser insuficiente para a construo de um bom modelo
ex. predizer o nome de algum, sabendo o seu nmero de telefone?
Analise Inteligente de Dados-OZ@
UniTiva-2015
26
-
Dados em Falta
Importante recordar:
no importa quo grande seja a base de dados ou o esforo feito, sucede sempre que
falte algo que poderia melhorar o
desempenho do modelo em construo
Podem faltar predictores, outras vezes faltam registos
O segredo reside no reconhecimento de que no mundo real o modelo ser baseado
sempre em dados em falta e fazer
compensaes para isso
Analise Inteligente de Dados-OZ@ UniTiva-2015
27
-
Registos, Predictores e Predio em Modelao Predictiva
Registo - Estrutura de dados ao nvel atmico que suporta os dados pertinentes aos indivduos na base de dados.
Um registo corresponde a uma linha de uma tabela
numa base de dados desnormalizada. Cada registo
feito de valores para cada campo que contm,
incluindo os campos predictores e o campo predio
Varivel Independente, Campo Predictor ou de Entrada - Campo que pode ser utilizado para construir um modelo
de predio. Alguma funo dos valores do predictor do
registo produzem o valor de predio para esse registo
Geralmente, chamamos predictores aos campos quando so utilizados para explorao ou predio.
Analise Inteligente de Dados-OZ@
UniTiva-2015
28
-
Registos, Predictores e Predio em Modelao Predictiva
Varivel Dependente, Campo Predio, de alvo ou de sada - o campo que contm
o resultado conhecido, passado tcnica
de Data Mining para que o modelo seja
construdo - o valor que eventualmente
esperamos predizer
Geralmente, trata-se dum campo semelhante a qualquer outro, excepto na forma como
manejado pelo processo de criao do modelo
de predio
Analise Inteligente de Dados-OZ@
UniTiva-2015
29
-
Tipos de Predictores
Em qualquer base de dados h diversos tipos de colunas (aqui chamamos de variveis dependentes ou
independentes e predictores)
Os tipos de dados so os permitidos pela base de dados e, usualmente, podem ser uma dezena ou mais
No entanto, para as tcnicas de data mining, teremos, como em sinal, dois grandes tipos: contnuos e
descontnuos (aqui denominados de categricos)
Dependendo do tipo das variveis, especialmente da possibilidade de ordenao, poderemos aplicar ou no
alguns algoritmos de data mining
Analise Inteligente de Dados-OZ@
UniTiva-2015
30
-
Tipos de Predictores
O tipo de predictor pode ter tambm um impacto importante na forma de como
pr-processar os (pre-processamento dos)
dados
Predictores Contnuos - hipoteticamente, podem ter um nmero infinito de valores
ou categorias. A idade de uma pessoa
pode ser medida em dias, horas, segundos,
milissegundos, microssegundos, ...
Analise Inteligente de Dados-OZ@
UniTiva-2015
31
-
Tipos de Predictores
Predictores Categricos - podem ter um nmero finito de valores ou categorias
Nominais (deriva de nome) - cujos valores ou categorias no tm qualquer
relacionamento particular uns com os outros
(ex. cores de um sapato). No se pode
estabelecer qualquer ordem
Ordinais - podem ser ordenados, como o nome indica. Ex. sapatos de criana,
adolescente e de adulto. No permitem, de
qualquer modo, saber quo maior ou menor
a ordem relativa
Analise Inteligente de Dados-OZ@
UniTiva-2015
32
-
Tipos de Predictores
Intervalo - tem aqui sentido uma distncia numrica entre valores. Por Exemplo:
Sapato de tamanho 42 2 nmeros acima
do 40
Hierarquia: Contnuos, intervalo, ordinais e nominais
tambm possvel, e muitas vezes desejvel ou obrigatrio, fazer a converso dos tipos de
predictores (na altura de pre-processamento)
Analise Inteligente de Dados-OZ@
UniTiva-2015
33
-
Amostragem
os padres existentes nos dados que procuramos podem
provavelmente ser
reconhecidos sem ter que
considerar todos os exemplos de
cada uma das
combinaes possveis de
predictores
Analise Inteligente de Dados-OZ@
UniTiva-2015
34
-
Amostragem
Independentemente do tamanho da base de dados, no encontraremos decerto um
exemplo de cada possvel cliente e de todos
os predictores que descrevam essa pessoa
Outras vezes, no podemos utilizar todos os dados disponveis por ser difcil process-los ou
armazen-los: temos de efectuar uma
amostragem
Mesmo com uma pequena amostra , muitas vezes, e surpreendemente, possvel extrair um
padro
Analise Inteligente de Dados-OZ@
UniTiva-2015
35
-
Problemas com a Amostragem: Polarizao
Quando se faz a amostragem, importante reconhecer certas diferenas na forma como a mostra pode ser
obtida, verificar se a amostra feita num processo verdadeiramente aleatrio
Muitas vezes a polarizao est presente na maneira como a amostra colhida. H que verificar qual o
universo de amostragem e de anlise. o clssico
problema das sondagens eleitorais... Contactam-se
pessoas que tem telefone e... temos a j a
polarizao (tendncia) no processo: nem todos os
eleitores tero telefone
H, claro, a tendncia de reduzir o trabalho ou custos do processo. Mas, deve-se ter em mente que a qualidade dos dados a analisar influeciar
directamente a qualidade do modelo e padres
obtidos Analise Inteligente de Dados-OZ@
UniTiva-2015
36
-
Tecnicas para Amostragem
Como efectuar ento a amostragem?
Round Robin - Forma mais simples de amostragem: buscar todos os n-simos registos
da base de dados
Problema: a seleco da amostra depender da forma como os dados residem na base de dados. A amostra pode ser polarizada se houver um padro na
forma como os dados esto armazenados
consecutivamente na base de dados
Imaginemos que, num sistema MPP (massive parallel computing), os dados so distribudos de acordo com um determinado padro, por forma a balancear a
carga pelos diversos ns. Neste caso, a nossa amostra
poder ser polarizada.
Analise Inteligente de Dados-OZ@ UniTiva-2015
37
-
Tecnicas para Amostragem
Amostragem Estratificada - Em casos em que temos um valor de uma coluna utilizada na
predio, que particularmente importante
Exemplo: numa campanha de mailing, consideremos o predictor relativo ao resultado do contacto.
Normalmente teremos valores usuais de 1% ou menos.
Se a amostra for perfeitamente aleatria, teremos um nmero de registos com resposta positiva muito
pequeno, tornando difcil extrair padres relativos a
caractersticas dos clientes que responderam
positivamente
Melhor efectuar uma amostra com nmero de registos sensivelmente idntico. Depois de construdo o modelo, h que corrigi-lo para as concentraes
originais
Analise Inteligente de Dados-OZ@
UniTiva-2015
38
-
Tecnicas para Amostragem
Amostragem em Grupo (Cluster) - Para assegurar que todos os subgrupos importantes
na base de dados so representados
A base de dados original dividida em grupos e um nmero equivalente de registos
de cada grupo retirado
Por Exemplo: com clientes, poderemos dividi-los em grupos por qualidades scio-econmicas
similares. Depois bastar seleccionar alguns
registos de cada um dos grupos para termos a
certeza de que todos os grupos mais
importantes estaro representados no modelo
Analise Inteligente de Dados-OZ@
UniTiva-2015
39
-
Tecnicas para Amostragem
Normalmente, a amostragem aleatria adequada, se a
amostra e a base de dados for
suficientemente grande. Em casos
em que alguns subgrupos
importantes tiverem poucos
registos, ser necessrio utilizar esta
abordagem para termos a certeza
de que haver uma cobertura
adequada dos grupos na amostra
Analise Inteligente de Dados-OZ@
UniTiva-2015
40
-
Adicionando Mais Conceitos Estatsticos
Aprendizagem e Contedo Informacional
Probabilidade
Independncia
Causalidade e colinearidade
Teste do Qui-Quadrado
Analise Inteligente de Dados-OZ@
UniTiva-2015
41
-
Aprendizagem como Compresso de Conjuntos de Dados
Na maioria dos casos, a aprendizagem pode ser descrita, de ponto de vista matemtico, como a
compresso de conjunto de dados. Retirado de Data Mining, Pieter Adrians and Dolf Zantinge
Se um algoritmo cria uma descrio do conjunto de dados que efectivamente menor do que os dados
originais, podemos dizer que se aprendeu alguma
coisa
H uma relao entre a complexidade dos dados e a capacidade de aprendizagem: em geral, conjuntos de dados complexos so difceis de
comprimir e assim de se perceberem
Analise Inteligente de Dados-OZ@
UniTiva-2015
42
-
Aprendizagem como Compresso de Conjuntos de Dados
Conjuntos de dados pouco complexos, podem ser facilmente comprimidos e aprendidos
Mas nem todos os dados compressveis so de fcil aprendizagem (dados encriptados)
O relacionamento entre complexidade e a capacidade de aprendizagem formulado pelo princpio de
Rissanen, chamado de princpio da descrio de
tamanho mnimo: A melhor teoria para explicar um conjunto de dados aquela que minimize a soma do
comprimento, em bits, da descrio da teoria, mais o tamanho, em bits, dos dados, quando codificados com a ajuda da teoria
Analise Inteligente de Dados-OZ@
UniTiva-2015
43
-
Aprendizagem como Compresso de Conjuntos de Dados
Por outras palavras: se for encontrada alguma regularidade
num conjunto de dados e a
descrio dessa regularidade em
conjunto com a descrio das
excepes for ainda menor do que o
conjunto de dados original, ento
encontrou-se algo de valor
Analise Inteligente de Dados-OZ@
UniTiva-2015
44
-
Contedo Informacional de uma Mensagem
Introduzida por Shannon e enuncia:
Se tivermos n mensagens cada uma das quais com igual probabilidade de
ocorrncia, cada mensagem ter
probabilidade 1/n de ocorrer, ento o
contedo informacional de cada
mensagem ser log2 1/n = - log2 n
Analise Inteligente de Dados-OZ@
UniTiva-2015
45
-
Rudo e Redundncia
O rudo pode criar problemas nas operaes de Data Mining.
Nos conjuntos de dados o rudo manifesta-se por:
Erros em valores de campos
Falta de valores em campos
Inconsistncias
Transformaes indevidas
Analise Inteligente de Dados-OZ@
UniTiva-2015
46
-
Rudo e Redundncia
Nem sempre os ruidos constituiem problema!!
H algo de positivo no rudo, pode conter
informao: se h muito rudo numa dada base
de dados, h que concluir que dever haver
razes para ele estar l. Pode limpar-se, mas isso
no resolve o problema base: a forma como a
organizao est a lidar com a informao -
como as aplicaes esto construdas e como
so utilizadas. O rudo indica que h que alterar a
forma como se est a trabalhar com os sistemas
de informao nessa organizao.
Analise Inteligente de Dados-OZ@
UniTiva-2015
47
-
Probabilidade
Conceito crtico em estatstica e em todas as tcnicas de data mining
Apesar de familiar, no deve ser depreciado, pois atravs dele possvel efectuar predies e detectar
padres
Probabilidade a priori - Aquela que existe antes de qualquer informao ser conhecida
E.g. Para predizer a cotao de uma aco no dia seguinte, iremos dar como valor mais provvel o de fecho do dia anterior
Analise Inteligente de Dados-OZ@
UniTiva-2015
48
-
Probabilidade
Probabilidade Condicional - Temos mais informao disponvel. Desta forma, podem ser colocadas
condies para o evento que alteraro a probabilidade deste ocorrer
E.g. Poderemos ter uma probabilidade a priori de 1 / 1 000 000 de ocorrer uma transaco fraudulenta com carto de crdito. Mas, se colocarmos a condio de s
olharmos para transaces de equipamento electrnico
(com alto valor e fcil revenda), encontraremos uma
taxa 10 vezes maior de transaces fraudulentas, ou seja
de 1 / 100 000.
Analise Inteligente de Dados-OZ@
UniTiva-2015
49
-
Independncia
Em estatstica dois eventos so considerados independentes um do outro se a probabilidade de
ambos ocorrerem for igual probabilidade de um
multiplicada pela probabilidade do outro
E.g. pessoa com camisa e gravata de duas cores e insensvel s cores. Haver 50% de probabilidade de
vestir cada cor de camisa ou gravata. Tambem haver
25 % de probabilidade de vestir qualquer combinao
de cores de camisa / gravata
Se os fenmenos no forem independentes, quer dizer que h relacionamento entre predictores, podendo haver relaes de causalidade ou colinearidade
E.g. se a pessoa do exemplo acima, for sensvel s cores e tiver sentido de moda
Analise Inteligente de Dados-OZ@
UniTiva-2015
50
-
Relacionamentos
Causalidade - A ocorrncia de um fenmeno causa o outro
importante pois que se trata de um relacionamento mais previsvel ao
longo do tempo, em locais diferentes e
sob uma variedade de condies
diferentes
No exemplo anterior, a escolha de uma cor de camisa causa a escolha
da cor da gravata.
Analise Inteligente de Dados-OZ@
UniTiva-2015
51
-
Relacionamentos
Colinearidade - Efeito no qual um predictor parece andar de mos dadas com outro,
mas no realmente a causa
No nosso pas, o advento do frio parece no ser independente de aumento macio de vendas nos
supermercados, especialmente de brinquedos
Poderemos dizer que o abaixamento de temperatura causa directa do aumento de
vendas?
Provavelmente, no. a poca do Natal a causa real, apesar de a temperatura parecer ser tambm
um bom predictor
Predictor colienar pode ser usada sempre que nao estiver disponivel o predictor real...
Analise Inteligente de Dados-OZ@
UniTiva-2015
52
-
Teste do Qui-Quadrado
Utilizado largamente para verificar se h relacionamento entre duas colunas de
uma base de dados. Faz uso do
enunciado do princpio de
independncia
Este teste mede a diferena entre o nmero de ocorrncias esperadas de
uma combinao de predictores,
supostos independentes e o nmero de
ocorrncias que efectivamente ocorrem.
Na realidade no mede a diferena, mas
o quadrado das diferenas.
Analise Inteligente de Dados-OZ@
UniTiva-2015
53
top related