análise exploratória de dados 1a parte - cpgccmarcelo.menezes.reis/aula02cpgcc.pdferros de...

35
1 FONTES DE ERRO, HIPÓTESES, ANÁLISE EXPLORATÓRIA DE DADOS – 1ª PARTE

Upload: others

Post on 08-Aug-2020

3 views

Category:

Documents


1 download

TRANSCRIPT

Page 1: Análise Exploratória de Dados 1a parte - CPGCCmarcelo.menezes.reis/Aula02CPGCC.pdfErros de registro: problemas de ortografia, digitação (facilmente identificáveis), valores discrepantes

1

FONTES DE ERRO, HIPÓTESES, ANÁLISE EXPLORATÓRIA DE

DADOS – 1ª PARTE

Page 2: Análise Exploratória de Dados 1a parte - CPGCCmarcelo.menezes.reis/Aula02CPGCC.pdfErros de registro: problemas de ortografia, digitação (facilmente identificáveis), valores discrepantes

Fontes de erro

2

Mesmos dados

População

incorreta

Page 3: Análise Exploratória de Dados 1a parte - CPGCCmarcelo.menezes.reis/Aula02CPGCC.pdfErros de registro: problemas de ortografia, digitação (facilmente identificáveis), valores discrepantes

“Prescrição”

3

Listar fontes

de variação

Definir

população

Objetivos:

1º passo

Formular

hipóteses

ANTES

Page 4: Análise Exploratória de Dados 1a parte - CPGCCmarcelo.menezes.reis/Aula02CPGCC.pdfErros de registro: problemas de ortografia, digitação (facilmente identificáveis), valores discrepantes

Hipóteses de Pesquisa

“Para homens acima de 40 anos com hipertensão crônica, uma dose diária de 100 mg desta nova droga reduzirá em 10 mm de mercúrio (em média) a pressão sanguínea diastólica “.

“Para homens acima de 40 anos com hipertensão crônica, uma dose diária de 100 mg desta nova droga reduzirá em 10 mm de mercúrio (em média) a pressão sanguínea diastólica comparada a uma dose equivalente de metropolol“.

“Esta nova variedade de tijolo refratário apresentará um ponto de fusão 200º C maior (em média) do que a variedade atualmente usada”.

4

Page 5: Análise Exploratória de Dados 1a parte - CPGCCmarcelo.menezes.reis/Aula02CPGCC.pdfErros de registro: problemas de ortografia, digitação (facilmente identificáveis), valores discrepantes

5

AED - Conceito

Necessário organizá-los!

Necessário resumi-los!

Dados

Interpretação e tomada

de decisões.

Page 6: Análise Exploratória de Dados 1a parte - CPGCCmarcelo.menezes.reis/Aula02CPGCC.pdfErros de registro: problemas de ortografia, digitação (facilmente identificáveis), valores discrepantes

6

Objetivo

Estudar comportamento INDIVIDUAL das variáveis.

Estudar RELACIONAMENTO entre as variáveis.

Page 7: Análise Exploratória de Dados 1a parte - CPGCCmarcelo.menezes.reis/Aula02CPGCC.pdfErros de registro: problemas de ortografia, digitação (facilmente identificáveis), valores discrepantes

7

Escolha das técnicas de AED

Nível de mensuração das variáveis.

Objetivo da análise:

Comportamento individual da variável.

Comportamento da variável em função de uma ou mais variáveis (ferramentas múltiplas).

Número de variáveis envolvidas.

Tamanho do conjunto de dados.

Tempo disponível para a apresentação dos resultados.

Grau de conhecimento estatístico do público alvo.

Page 8: Análise Exploratória de Dados 1a parte - CPGCCmarcelo.menezes.reis/Aula02CPGCC.pdfErros de registro: problemas de ortografia, digitação (facilmente identificáveis), valores discrepantes

8

Nível de mensuração

Qualitativas

Tabelas de freqüência ou percentuais

Gráficos (barras, setores, linhas)

Quantitativas

Tabelas de freqüência ou percentuais

Gráficos (diagrama de pontos, histograma,

diagrama em caixas, linhas)

Medidas de síntese: média, mediana,

desvio padrão

Page 9: Análise Exploratória de Dados 1a parte - CPGCCmarcelo.menezes.reis/Aula02CPGCC.pdfErros de registro: problemas de ortografia, digitação (facilmente identificáveis), valores discrepantes

9

Nível de mensuração

Variáveis QUANTITATIVAS: Discretas - lista finita (geralmente, números inteiros).

Exemplo: quantidade de máquinas ligadas.

Contínuas - infinitos resultados possíveis (um intervalo dos números reais).

Exemplo: tempo de resposta (em segundos).

Page 10: Análise Exploratória de Dados 1a parte - CPGCCmarcelo.menezes.reis/Aula02CPGCC.pdfErros de registro: problemas de ortografia, digitação (facilmente identificáveis), valores discrepantes

10

Mensuração de variáveis

Como medir satisfação com o trabalho?

classificar: “satisfeito” / “não satisfeito”

grau de satisfação: escala de 0 a 10

grau de satisfação: escala de 1 a 5 associada a adjetivos

grau de satisfação: escala construída com vários itens de um questionário

Page 11: Análise Exploratória de Dados 1a parte - CPGCCmarcelo.menezes.reis/Aula02CPGCC.pdfErros de registro: problemas de ortografia, digitação (facilmente identificáveis), valores discrepantes

11

Nível de mensuração

Qual é o nível de

mensuração de cada

variável no conjunto

ao lado?

Page 12: Análise Exploratória de Dados 1a parte - CPGCCmarcelo.menezes.reis/Aula02CPGCC.pdfErros de registro: problemas de ortografia, digitação (facilmente identificáveis), valores discrepantes

12

Pré-análise dos dados

Dados perdidos: não foram registrados para um ou mais dos integrantes do conjunto.

Até 5% aceitável.

Erros de registro: problemas de ortografia, digitação (facilmente identificáveis), valores discrepantes (quando resultante de erros).

Inconsistências: sua identificação já faz parte da análise dos dados.

Importante para mineração de dados.

Page 13: Análise Exploratória de Dados 1a parte - CPGCCmarcelo.menezes.reis/Aula02CPGCC.pdfErros de registro: problemas de ortografia, digitação (facilmente identificáveis), valores discrepantes

13

Recodificação e Transformação

Criar novas variáveis usando condições fixadas.

Recodificação:

Qualitativa para qualitativa.

Quantitativa para qualitativa (categorização).

Quantitativa contínua para classes (agrupamento em classes)

Transformação:

Quantitativa para quantitativa (operação matemática).

Page 14: Análise Exploratória de Dados 1a parte - CPGCCmarcelo.menezes.reis/Aula02CPGCC.pdfErros de registro: problemas de ortografia, digitação (facilmente identificáveis), valores discrepantes

Distribuição de frequências

14

Valores possíveis

da variável Número de ocorrências

de cada valor

Marca Freq %

Gradiente 215 8.6

Panasonic 774 30.96

Phillips 401 16.04

Samsung 754 30.16

Toshiba 356 14.24

Total 2500 100

Vendas das marcas

150

250

350

450

550

650

750

850

Gradiente Panasonic Phillips Samsung Toshiba

Marcas

Fre

ên

cia

Ou Quantidades e %

Page 15: Análise Exploratória de Dados 1a parte - CPGCCmarcelo.menezes.reis/Aula02CPGCC.pdfErros de registro: problemas de ortografia, digitação (facilmente identificáveis), valores discrepantes

15

Distribuição de frequências - variáveis qualitativas

Marca Freq %

Gradiente 215 8.6

Panasonic 774 30.96

Phillips 401 16.04

Samsung 754 30.16

Toshiba 356 14.24

Total 2500 100

Marca dos produtos vendidos em 2500 transações

Fonte: hipotética

Page 16: Análise Exploratória de Dados 1a parte - CPGCCmarcelo.menezes.reis/Aula02CPGCC.pdfErros de registro: problemas de ortografia, digitação (facilmente identificáveis), valores discrepantes

16

Gráfico de barras

Vendas das marcas

150

250

350

450

550

650

750

850

Gradiente Panasonic Phillips Samsung Toshiba

Marcas

Fre

ên

cia

Page 17: Análise Exploratória de Dados 1a parte - CPGCCmarcelo.menezes.reis/Aula02CPGCC.pdfErros de registro: problemas de ortografia, digitação (facilmente identificáveis), valores discrepantes

17

Gráfico de barras

Vendas das marcas

0

100

200

300

400

500

600

700

800

900

Gradiente Panasonic Phillips Samsung Toshiba

Marcas

Fre

ên

cia

Page 18: Análise Exploratória de Dados 1a parte - CPGCCmarcelo.menezes.reis/Aula02CPGCC.pdfErros de registro: problemas de ortografia, digitação (facilmente identificáveis), valores discrepantes

18

Gráfico em setores (circular ou pizza)

Vendas das marcas9%

31%

16%

30%

14%

Gradiente

Panasonic

Phillips

Samsung

Toshiba

Page 19: Análise Exploratória de Dados 1a parte - CPGCCmarcelo.menezes.reis/Aula02CPGCC.pdfErros de registro: problemas de ortografia, digitação (facilmente identificáveis), valores discrepantes

Distribuição de frequência múltipla

19

Tabulação

Cruzada

Dupla

Classificação

Tabela de

Contingências

Valores variável 1

Valores variável 2

Frequências cruzamentos

Page 20: Análise Exploratória de Dados 1a parte - CPGCCmarcelo.menezes.reis/Aula02CPGCC.pdfErros de registro: problemas de ortografia, digitação (facilmente identificáveis), valores discrepantes

20

Tabela de contingências

Região

Marca Gradiente Panasonic Philips Samsung Toshiba Total

Centro 25 146 52 82 60 365

Extr.Sul 42 79 65 218 52 456

Leste 48 183 91 142 72 536

Norte 24 148 34 43 53 302

Sudeste 76 218 159 269 119 841

Total 215 774 401 754 356 2500

Podem ser calculados percentuais em relação aos totais das linhas,

das colunas, ou ao total geral.

Page 21: Análise Exploratória de Dados 1a parte - CPGCCmarcelo.menezes.reis/Aula02CPGCC.pdfErros de registro: problemas de ortografia, digitação (facilmente identificáveis), valores discrepantes

21

Tabela de contingências

Marca

Região Gradiente Panasonic Phillips Samsung Toshiba

Centro 1.00 5.84 2.08 3.28 2.40

Extr.Sul 1.68 3.16 2.60 8.72 2.08

Leste 1.92 7.32 3.64 5.68 2.88

Norte 0.96 5.92 1.36 1.72 2.12

Sudeste 3.04 8.72 6.36 10.76 4.76

Marca

Região Gradiente Panasonic Phillips Samsung Toshiba Total

Centro 6.85 40.00 14.25 22.47 16.44 100.00

Extr.Sul 9.21 17.32 14.25 47.81 11.40 100.00

Leste 8.96 34.14 16.98 26.49 13.43 100.00

Norte 7.95 49.01 11.26 14.24 17.55 100.00

Sudeste 9.04 25.92 18.91 31.99 14.15 100.00

Perfil linha

Marca

Região Gradiente Panasonic Phillips Samsung Toshiba

Centro 11.63 18.86 12.97 10.88 16.85

Extr.Sul 19.53 10.21 16.21 28.91 14.61

Leste 22.33 23.64 22.69 18.83 20.22

Norte 11.16 19.12 8.48 5.70 14.89

Sudeste 35.35 28.17 39.65 35.68 33.43

Total 100.00 100.00 100.00 100.00 100.00

Perfil coluna

Page 22: Análise Exploratória de Dados 1a parte - CPGCCmarcelo.menezes.reis/Aula02CPGCC.pdfErros de registro: problemas de ortografia, digitação (facilmente identificáveis), valores discrepantes

22

Apresentação gráfica

0

50

100

150

200

250

300

350

Gradiente Panasonic Phillips Samsung Toshiba

Fre

qu

ên

cia

Marcas de eletrodomésticos

Distribuição das marcas por região

Centro

Extr.Sul

Leste

Norte

Sudeste

Page 23: Análise Exploratória de Dados 1a parte - CPGCCmarcelo.menezes.reis/Aula02CPGCC.pdfErros de registro: problemas de ortografia, digitação (facilmente identificáveis), valores discrepantes

23

Apresentação gráfica

0%

10%

20%

30%

40%

50%

60%

70%

80%

90%

100%

Gradiente Panasonic Phillips Samsung Toshiba

Fre

qu

ên

cia

Marcas de eletrodomésticos

Distribuição das marcas por região

Sudeste

Norte

Leste

Extr.Sul

Centro

Page 24: Análise Exploratória de Dados 1a parte - CPGCCmarcelo.menezes.reis/Aula02CPGCC.pdfErros de registro: problemas de ortografia, digitação (facilmente identificáveis), valores discrepantes

24

Distribuição de frequências - variáveis quantitativas

Nível de mensuração da variável quantitativa:

DISCRETA: semelhante às variáveis qualitativas.

Tabela de freqüências e histograma para dados não agrupados.

CONTÍNUA: necessário agrupar os dados para possibilitar o resumo do conjunto e melhor visualização.

Tabelas de freqüência e histograma para dados agrupados, diagramas em caixa.

Page 25: Análise Exploratória de Dados 1a parte - CPGCCmarcelo.menezes.reis/Aula02CPGCC.pdfErros de registro: problemas de ortografia, digitação (facilmente identificáveis), valores discrepantes

25

Tabela de frequências - dados não agrupados

Semelhante às qualitativas: registrar os valores possíveis e contar o número de ocorrências de cada um.

Numa rede de computadores, a quantidade de máquinas que costumam estar ligadas, por dia

20 26 21 21 20 21 23 22 24 22

22 22 23 23 23 22 23 22 24 21

Page 26: Análise Exploratória de Dados 1a parte - CPGCCmarcelo.menezes.reis/Aula02CPGCC.pdfErros de registro: problemas de ortografia, digitação (facilmente identificáveis), valores discrepantes

26

Distribuição de Frequências

Máquinas

em uso

20

21

22

23

24

25

26

Total

Freqüência

(absoluta)

2

4

6

5

2

0

1

20

Proporção

0,10 (10%)

0,20 (20%)

0,30 (30%)

0,25 (25%)

0,10 (10%)

0

0,05 ( 5%)

1 (100%)

Page 27: Análise Exploratória de Dados 1a parte - CPGCCmarcelo.menezes.reis/Aula02CPGCC.pdfErros de registro: problemas de ortografia, digitação (facilmente identificáveis), valores discrepantes

27

Histograma

20 21 22 23 24 25 26

0,10

0,20

0,30

0,25

0,10

0,05

Máquinas em uso

Page 28: Análise Exploratória de Dados 1a parte - CPGCCmarcelo.menezes.reis/Aula02CPGCC.pdfErros de registro: problemas de ortografia, digitação (facilmente identificáveis), valores discrepantes

28

Tabela de frequências para dados agrupados

Recomendável para grande conjuntos de variáveis QUANTITATIVAS.

PERDE-SE informação sobre o conjunto original para obter sua compactação.

Page 29: Análise Exploratória de Dados 1a parte - CPGCCmarcelo.menezes.reis/Aula02CPGCC.pdfErros de registro: problemas de ortografia, digitação (facilmente identificáveis), valores discrepantes

29

Tabela de frequências para dados agrupados

Passos para construção:

Determinar o intervalo do conjunto.

Dividir o intervalo em k classes: k = 5 × log n (para n > 100)

Contar frequência dentro das classes.

Tempo (em segundos) para carga de um aplicativo num sistema compartilhado (50 observações):

5,2 6,4 5,7 8,3 7,0 5,4 4,8 9,1 5,5 6,2 4,9 5,7

6,3 5,1 8,4 6,2 8,9 7,3 5,4 4,8 5,6 6,8 5,0 6,7

8,2 7,1 4,9 5,0 8,2 9,9 5,4 5,6 5,7 6,2 4,9 5,1

6,0 4,7 18,1 5,3 4,9 5,0 5,7 6,3 6,0 6,8 7,3 6,9

6,5 5,9

Page 30: Análise Exploratória de Dados 1a parte - CPGCCmarcelo.menezes.reis/Aula02CPGCC.pdfErros de registro: problemas de ortografia, digitação (facilmente identificáveis), valores discrepantes

30

5,2 6,4 5,7 8,3 7,0 5,4 4,8 9,1 5,5 6,2 4,9 5,7 6,3 5,1 8,4 6,2 8,9 7,3 5,4 4,8 5,6 6,8 5,0 6,7 8,2 7,1 4,9 5,0 8,2 9,9 5,4 5,6 5,7 6,2 4,9 5,1 6,0 4,7 18,1 5,3 4,9 5,0 5,7 6,3 6,0 6,8 7,3 6,9 6,5 5,9

4,7 18,1

4 19 5 6 7 ...

Page 31: Análise Exploratória de Dados 1a parte - CPGCCmarcelo.menezes.reis/Aula02CPGCC.pdfErros de registro: problemas de ortografia, digitação (facilmente identificáveis), valores discrepantes

31

Tabela de freqüências

Page 32: Análise Exploratória de Dados 1a parte - CPGCCmarcelo.menezes.reis/Aula02CPGCC.pdfErros de registro: problemas de ortografia, digitação (facilmente identificáveis), valores discrepantes

32

Histograma do tempo (em segundos) para carga de um aplicativo num sistema

compartilhado (50 observações). Histogram: Falhas

4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19

X < Category Boundary

0

2

4

6

8

10

12

14

16

18

20

No.

of

obs.

Page 33: Análise Exploratória de Dados 1a parte - CPGCCmarcelo.menezes.reis/Aula02CPGCC.pdfErros de registro: problemas de ortografia, digitação (facilmente identificáveis), valores discrepantes

33

Diagrama de pontos Distribution for variable: Falhas

4 6 8 10 12 14 16 18 20

Falhas

0,0

0,5

1,0

1,5

2,0

2,5

3,0

3,5

4,0

4,5

Page 34: Análise Exploratória de Dados 1a parte - CPGCCmarcelo.menezes.reis/Aula02CPGCC.pdfErros de registro: problemas de ortografia, digitação (facilmente identificáveis), valores discrepantes

34

Gráfico de linhas Companhia aérea

Meses

me

ro d

e p

assa

ge

iro

s

0

100

200

300

400

500

600

700

0

100

200

300

400

500

600

700

0 10 20 30 40 50 60 70 80 90 100 110 120 130 140 150

Page 35: Análise Exploratória de Dados 1a parte - CPGCCmarcelo.menezes.reis/Aula02CPGCC.pdfErros de registro: problemas de ortografia, digitação (facilmente identificáveis), valores discrepantes

35

Diagrama de Dispersão

y = 0,7485x + 135,03

y = -0,0435x2 + 1,8279x + 129,66

100

110

120

130

140

150

160

170

180

0 10 20 30

Experiência (anos)

Sa

lári

o a

nu

al