introdução à analise de dados - aula 3 - agregação de dados

34
AGREGAÇÃO DE DADOS Alexandre Duarte - http://alexandre.ci.ufpb.br/ensino/iad

Upload: alexandre-duarte

Post on 05-Jun-2015

466 views

Category:

Education


3 download

DESCRIPTION

Slides da aula sobre Agregação de dados do curso "Introdução à Análise de Dados" do centro de informática da ufpb.

TRANSCRIPT

Page 1: Introdução à Analise de Dados - aula 3 - Agregação de Dados

AGREGAÇÃO DE DADOSAlexandre Duarte - http://alexandre.ci.ufpb.br/ensino/iad

Page 2: Introdução à Analise de Dados - aula 3 - Agregação de Dados

OBJETIVOS DA AULA

• Apresentar a primeira etapa do processo de transformação de dados em informação

• Descrever os diferentes níveis de agregação de dados

• Exibir erros comuns na análise de dados agregados

Page 3: Introdução à Analise de Dados - aula 3 - Agregação de Dados

NÍVEIS DE AGREGAÇÃO

Fato Série Multi-sérieMulti-série

somávelRegistros

de sumárioTransações individuais

Habilidade para explorar os dados- +

Page 4: Introdução à Analise de Dados - aula 3 - Agregação de Dados

NÍVEIS DE AGREGAÇÃOAno 2000 2001 2002 2003 2004 2005 2006 2007 2008

Total 19795 23005 31711 40.728 50440 60953 74143 93321 120312

Masculino 12534 16452 19362 24726 28567 31110 39001 48710 61291

Feminino 7261 6553 12349 16002 21873 29843 35142 44611 59021

Regular 9929 14021 17364 20035 27854 34201 36472 52012 60362

Decaf 6744 6833 10201 13462 17033 19921 21094 23716 38657

Mocha 3122 2151 4146 7231 5553 6831 16577 17593 21293

Page 5: Introdução à Analise de Dados - aula 3 - Agregação de Dados

FATO• Um fato (factoid) é um ponto único de informação

• Calculado a partir dos dados crus, é escolhido para enfatizar um ponto específico

• Não possibilita qualquer exploração dos dados

!36.7% do café vendido em 2000 foi consumido por mulheres.

Page 6: Introdução à Analise de Dados - aula 3 - Agregação de Dados

SÉRIE

• Apresenta um tipo de informação (variável dependente) comparado com outra (variável independente)

• Frequentemente a variável independente é o tempo

Page 7: Introdução à Analise de Dados - aula 3 - Agregação de Dados

SÉRIE

• Neste exemplo, o total de vendas depende do ano

• Ou seja, o ano é independente (escolha um ano) e o total de vendas é dependente (baseado nesta escolha, o consumo foi de x)

Ano 2000 2001 2002 2003 2004 2005 2006 2007 2008

Total 19795 23005 31711 40.728 50440 60953 74143 93321 120312

Page 8: Introdução à Analise de Dados - aula 3 - Agregação de Dados

SÉRIE

• Uma série também pode ser baseada em valores contínuos, como temperatura.

Temperatura da Água (C) Tempo até uma queimadura de 1o grau

116 35 minutos122 1 mínuto131 5 segundos140 2 segundos149 1 segundo154 Instantâneo

Page 9: Introdução à Analise de Dados - aula 3 - Agregação de Dados

SÉRIE

• Ou ser uma seqüência de valores não-contíguos, mas relacionados em uma mesma categoria

Planeta Massa relativa á da Terra

Mercúrio 0.0553Vênus 0.815Terra 1Marte 0.107Júpiter 317.8

Saturno 95.2Urano 14.5

Netuno 17.1

Page 10: Introdução à Analise de Dados - aula 3 - Agregação de Dados

SÉRIE• Em muitos casos uma série possui apenas uma variável

dependente para cada variável independente

• Em outras palavras, há apenas um valor para o consumo total de café para cada ano

• Este tipo de informação geralmente é exibido utilizando um gráfico de barras, de colunas ou de série temporal

Page 11: Introdução à Analise de Dados - aula 3 - Agregação de Dados

SÉRIETotal de vendas

0

35000

70000

105000

140000

2000 2001 2002 2003 2004 2005 2006 2007 2008

Page 12: Introdução à Analise de Dados - aula 3 - Agregação de Dados

MULTI-SÉRIE• Uma multi-série é um conjunto de dados que possui vários itens

de informação dependente para um único item de informação independente

• Com esse conjunto de dados sabemos que em 2001 foram servidas 16.452 doses de café para homens e 14.021 doses de café regular (com cafeína e açúcar)

Ano 2000 2001 2002 2003 2004 2005 2006 2007 2008

Masculino 12534 16452 19362 24726 28567 31110 39001 48710 61291Regular 9929 14021 17364 20035 27854 34201 36472 52012 60362

Page 13: Introdução à Analise de Dados - aula 3 - Agregação de Dados

MULTI-SÉRIE• Porém, não sabemos como combinar essas duas informações

de forma útil: elas não são relacionadas!

• Não temos como dizer qual o percentual de cafés regulares servidos para homens

• Multi-série são simplesmente várias séries em um mesmo gráfico ou tabela

• Podemos exibi-las juntas mas não temos como combiná-las de forma significativa

Page 14: Introdução à Analise de Dados - aula 3 - Agregação de Dados

MULTI-SÉRIE

0

17500

35000

52500

70000

2000 2001 2002 2003 2004 2005 2006 2007 2008

Masculino Regular

Page 15: Introdução à Analise de Dados - aula 3 - Agregação de Dados

MULTI-SÉRIE SOMÁVEL

• Como o próprio nome já sugere, uma multi-série somável diz respeito a uma estatística em particular (sexo, tipo de café) segmentada em subgrupos

Ano 2000 2001 2002 2003 2004 2005 2006 2007 2008

Masculino 12534 16452 19362 24726 28567 31110 39001 48710 61291

Feminino 7261 6553 12349 16002 21873 29843 35142 44611 59021

Page 16: Introdução à Analise de Dados - aula 3 - Agregação de Dados

MULTI-SÉRIE SOMÁVEL

• Como sabemos que um bebedor de café é homem ou mulher, podemos somar estes valores para obter uma observação sobre o total de consumo e com isso exibir porcentagens

Consumo de Café por sexo em 2001

28%

72%

Homem Mulher

Page 17: Introdução à Analise de Dados - aula 3 - Agregação de Dados

MULTI-SÉRIE SOMÁVELConsumo total de café, por sexo

0

35000

70000

105000

140000

2000 2001 2002 2003 2004 2005 2006 2007 2008

Masculino Feminino

Page 18: Introdução à Analise de Dados - aula 3 - Agregação de Dados

MULTI-SÉRIE SOMÁVEL• Um desafio ao se utilizar multi-séries é entender quais séries podem

ser combinadas.

• Não há nada nesta tabela que nos diga como combinar estas informações - processamento humano!

Ano 2000 2001 2002 2003 2004 2005 2006 2007 2008Total 19795 23005 31711 40.728 50440 60953 74143 93321 120312

Masculino 12534 16452 19362 24726 28567 31110 39001 48710 61291Feminino 7261 6553 12349 16002 21873 29843 35142 44611 59021Regular 9929 14021 17364 20035 27854 34201 36472 52012 60362Decaf 6744 6833 10201 13462 17033 19921 21094 23716 38657Mocha 3122 2151 4146 7231 5553 6831 16577 17593 21293

Page 19: Introdução à Analise de Dados - aula 3 - Agregação de Dados

É DIFÍCIL EXPLORAR DADOS RESUMIDOS

• 36.7% das cafés vendidos em 2000 foram consumidos por mulheres

• Foram vendidos 9.929 cafés regulares em 200

• Portanto, mulheres compraram 3643.9 cafés regulares em 2010

Page 20: Introdução à Analise de Dados - aula 3 - Agregação de Dados

É DIFÍCIL EXPLORAR DADOS RESUMIDOS

• Errado!

• O fato do resultado ser uma fração já nos mostra que isso não é uma boa idéia (ninguém compra .9 xícaras de café)

• Este tipo de inferência só pode ser feita se soubermos como uma categoria (tipo de café) é distribuída em uma outra categoria (sexo).

• A única forma de explorar realmente os dados e poder responder novas questões é analisar os dados crus

• Depois é preciso saber como agregá-los corretamente

Page 21: Introdução à Analise de Dados - aula 3 - Agregação de Dados

REGISTROS DE SUMÁRIO

Nome Sexo Regular Decaf Mocha Total

Pedro M 2 3 1 6Maria F 4 0 0 4José M 1 2 4 7

Joana F 3 1 0 4Belinha F 1 0 0 1

João M 2 1 3 6Biu M 3 1 0 4Jacó M 0 0 1 1Total 5M, 3F 16 8 9 33

Page 22: Introdução à Analise de Dados - aula 3 - Agregação de Dados

REGISTROS DE SUMÁRIO

• Esse tipo de tabela é bastante familiar para qualquer um que já usou o Excel

• Tivemos 5 consumidores do sexo masculino e 3 do feminino

• Vendemos 16 cafés regulares, 8 decaf e 9 mochas, totalizando 33 cafés

Page 23: Introdução à Analise de Dados - aula 3 - Agregação de Dados

REGISTROS DE SUMÁRIO

• Mas o mais importante é que podemos combinar categorias de dados para responder mais perguntas exploratória

• Por exemplo “Mulheres preferem algum tipo específico de café?”

Page 24: Introdução à Analise de Dados - aula 3 - Agregação de Dados

REGISTROS DE SUMÁRIO

• Olhando esta tabela podemos "afirmar" que mulheres preferem café regular e homens não têm uma preferência específica.

SexoMédia de Regulares

Média de Decaf

Média de Mocha

M 1.60 1.40 1.80F 2.67 0.33 0.00

Total 2.29 1.14 1.14

Page 25: Introdução à Analise de Dados - aula 3 - Agregação de Dados

REGISTROS DE SUMÁRIO• Mesmo agora ainda temos algum nível de agregação

• Resumimos os dados em várias dimensões - sexo e tipo de café - ao agregá-los por nome de cliente.

• Apesar desses ainda não serem os dados crus, já estamos bem próximos disso.

• Uma vantagem desse agrupamento é reduzir o tamanho do conjunto de dados

Page 26: Introdução à Analise de Dados - aula 3 - Agregação de Dados

USANDO VISUALIZAÇÃO PARA REVELAR VARIAÇÕES

• É comum agregar registros de sumário ou dados crus para podermos exibi-los mais facilmente.

• Considere as seguintes transações

Nome Regular Decaf Mocha

Pedro 2 3 1Maria 4 0 0José 1 2 4

Joana 3 1 0Belinha 1 0 0

João 2 1 3Biu 3 1 0Jacó 0 0 1Total 16 8 9

Médias

2 1 1.125

Page 27: Introdução à Analise de Dados - aula 3 - Agregação de Dados

USANDO VISUALIZAÇÃO PARA REVELAR VARIAÇÕES

Média de xícaras consumidas

0

0.5

1

1.5

2

Regular Decaf Mocha

Page 28: Introdução à Analise de Dados - aula 3 - Agregação de Dados

USANDO VISUALIZAÇÃO PARA REVELAR VARIAÇÕES

• A média esconde detalhes!

• É possível que algumas pessoas tenham tomado uma única dose de um determinado café e outras tenham tomando várias doses.

• Existem formas mais adequadas para observar as variações de forma a melhor exibir a forma de uma informação

• Se mantemos os dados crus podemos entrelaçar mais de uma variável dependente a cada variável independente.

Page 29: Introdução à Analise de Dados - aula 3 - Agregação de Dados

USANDO VISUALIZAÇÃO PARA REVELAR VARIAÇÕES

Freq

uênc

ia de

cad

a ev

ento

0

1

2

3

1 2 3 4 5 6 7

Moda: o número mais frequente de cafés consumidos é 4

Média: o número médio de cafés por cliente é 4.12

Page 30: Introdução à Analise de Dados - aula 3 - Agregação de Dados

USANDO VISUALIZAÇÃO PARA REVELAR VARIAÇÕES

• A média foi 4.12 porém o histograma demonstra que há 3 clientes que bebem muito café!

• Quando se tem os dados crus é possível identificar exceções e pontos fora da curva (outliers) e contar uma história mais precisa.

• Porém, estes ainda não são os dados crus!

Page 31: Introdução à Analise de Dados - aula 3 - Agregação de Dados

TRANSAÇÕES INDIVIDUAIS• Estas transações podem ser

agregadas por qualquer coluna.

• O tempo também pode ser agregado em intervalos (hora, dia, ano, etc)

• Os dados que vimos lá no início da aula podem ser facilmente gerados a partir de um conjunto de transações como estas

• Mas é impossível fazer o caminho inverso!

Hora Nome Sexo Café

17:00 Pedro M Regular17:01 Maria F Regular17:02 José M Mocha17:03 Joana F Decaf17:04 Belinha F Regular17:05 João M Regular17:06 Biu M Mocha17:07 Jacó M Decaf

Page 32: Introdução à Analise de Dados - aula 3 - Agregação de Dados

DECIDINDO COMO AGREGAR OS DADOS

• Quando agregamos dados crus como estes para gerar sumários como os que vimos hoje nós perdemos a história dos dados

• Por exemplo, quando agrupamos as transações individuais para fazer uma totalização anual, nós:

• Removemos os nomes dos clientes, tornando os dados anônimos

• Agrupamos os horários de compras, gerando um sumário por ano

Page 33: Introdução à Analise de Dados - aula 3 - Agregação de Dados

DECIDINDO COMO AGREGAR OS DADOS

• Qualquer um desses dois itens de dados poderia ser utilizado para identificar que alguém consome uma quantidade muito grande de café

• E se ao invés de café, estivéssemos vendendo bebidas alcóolicas?

• Deveríamos alertar um cliente que bebe demais?

• Se um cliente se envolve em um acidente, os registros do seu consumo de bebidas alcóolicas poderiam ser utilizados como prova contra ele?

Page 34: Introdução à Analise de Dados - aula 3 - Agregação de Dados

REFERÊNCIAS

• Data + Design: A simple introduction to preparing an visualizing information, Tina Chiasson et al