análise exploratória de dados - 2006 r - lig -07

64
Análise Análise Exploratória de Exploratória de Dados - 2006 Dados - 2006 R - LIG -07 R - LIG -07

Upload: internet

Post on 16-Apr-2015

113 views

Category:

Documents


3 download

TRANSCRIPT

Page 1: Análise Exploratória de Dados - 2006 R - LIG -07

Análise Exploratória de Análise Exploratória de Dados - 2006Dados - 2006

R - LIG -07R - LIG -07

Page 2: Análise Exploratória de Dados - 2006 R - LIG -07

summary(notas) Min. 1st Qu. Median Mean 3rd Qu. Max. 3.60 4.80 5.70 5.69 6.30 8.20

Resultados da Prova 1 turma MAA: 20 alunos - 2005

Page 3: Análise Exploratória de Dados - 2006 R - LIG -07

Resultados da Prova 1 turma MAA: 38 alunos - 2006

Min. 1,8Q1 5,35Q2 6,75Q3 8,075Max. 9,5Média 6,45Desvio-padrão2,13

Page 4: Análise Exploratória de Dados - 2006 R - LIG -07

ObjetivosObjetivos

Definir e construir gráficos de Definir e construir gráficos de quantis. quantis.

Trabalhar com transformações de Trabalhar com transformações de variáveis buscando “simetrizar” os variáveis buscando “simetrizar” os dados.dados.

Definir medidas de assimetria.Definir medidas de assimetria.

Page 5: Análise Exploratória de Dados - 2006 R - LIG -07

Gráficos de quantisGráficos de quantis

É possível construir uma representação É possível construir uma representação gráfica dos quantis de uma distribuição de gráfica dos quantis de uma distribuição de freqüências, chamada gráfico de quantis.freqüências, chamada gráfico de quantis.

No eixo das abscissas colocamos os No eixo das abscissas colocamos os valores de valores de p p e no eixo das ordenadas os e no eixo das ordenadas os valores de valores de q(p).q(p).

Depois, unimos os pontos obtidos por Depois, unimos os pontos obtidos por segmentos de retas, para que se possa segmentos de retas, para que se possa obter obter q(p) q(p) para todo para todo p.p.

Page 6: Análise Exploratória de Dados - 2006 R - LIG -07

GráficosGráficos de quantis: exemplo de quantis: exemplo

Considere os dados sobre os 30 Considere os dados sobre os 30 municípios mais populosos do Brasil municípios mais populosos do Brasil em em dados2bm.txt.dados2bm.txt.

dados=read.table(“http://www.im.ufrj.br/~flavia/dados=read.table(“http://www.im.ufrj.br/~flavia/aed06/dados2bm.txt”,header=T)aed06/dados2bm.txt”,header=T)

Defina o vetor de valores de Defina o vetor de valores de pp da da seguinte forma:seguinte forma:

prop=c(0:10)prop=c(0:10) prop=prop/10prop=prop/10

Page 7: Análise Exploratória de Dados - 2006 R - LIG -07

GráficosGráficos de quantis: exemplo de quantis: exemplo

Calcule os quantis correspondentes aos Calcule os quantis correspondentes aos valores em prop para os tamanhos das valores em prop para os tamanhos das populações:populações:

quantis=quantile(dados$pop10mil,prop)quantis=quantile(dados$pop10mil,prop) Finalmente, trace o gráfico usando a Finalmente, trace o gráfico usando a

função função plot:plot: plot(prop,quantis,main=“Gráfico de plot(prop,quantis,main=“Gráfico de

quantis dos dados sobre quantis dos dados sobre população”,sub=“30 maiores municípios população”,sub=“30 maiores municípios brasileiros”)brasileiros”)

Page 8: Análise Exploratória de Dados - 2006 R - LIG -07

volta

Page 9: Análise Exploratória de Dados - 2006 R - LIG -07

Para que os pontos sejam unidos por segmentos, insira o argumento type=“l” na função plot.

Page 10: Análise Exploratória de Dados - 2006 R - LIG -07

Para que ambos pontos e linhas entre pontos apareçam no gráfico, insira o argumento type=“b” na função plot.

Page 11: Análise Exploratória de Dados - 2006 R - LIG -07

Gráficos de quantis (cont.)Gráficos de quantis (cont.)

O gráfico de quantis pode ser útil para O gráfico de quantis pode ser útil para verificar se a distribuição dos dados é verificar se a distribuição dos dados é simétrica (ou aproximadamente simétrica (ou aproximadamente simétrica).simétrica).

Se os dados forem aproximadamente Se os dados forem aproximadamente simétricos, os pontos no topo superior simétricos, os pontos no topo superior direito do gráfico de quantis comportam-direito do gráfico de quantis comportam-se como os pontos do canto inferior se como os pontos do canto inferior esquerdo.esquerdo.

Page 12: Análise Exploratória de Dados - 2006 R - LIG -07

Gráficos de quantis (cont.)Gráficos de quantis (cont.)

Se os dados forem assimétricos à direita, Se os dados forem assimétricos à direita, os pontos do topo superior direito são os pontos do topo superior direito são mais inclinados do que os pontos no canto mais inclinados do que os pontos no canto inferior esquerdo.inferior esquerdo.

No exemplo anterior, claramente No exemplo anterior, claramente percebemos uma assimetria positiva.percebemos uma assimetria positiva.

Page 13: Análise Exploratória de Dados - 2006 R - LIG -07

Gráficos de quantis: exemploGráficos de quantis: exemplo

Vejamos um exemplo com dados Vejamos um exemplo com dados aproximadamente simétricos.aproximadamente simétricos.

source(“http://www.im.ufrj.br/~flavia/source(“http://www.im.ufrj.br/~flavia/aed06/exemplo2a7.txt”)aed06/exemplo2a7.txt”)

volta

Page 14: Análise Exploratória de Dados - 2006 R - LIG -07

Gráficos de quantis: exemploGráficos de quantis: exemplo

Vejamos um exemplo de conjunto de Vejamos um exemplo de conjunto de dados com assimetria negativa.dados com assimetria negativa.

source(“http://www.im.ufrj.br/~flavia/source(“http://www.im.ufrj.br/~flavia/aed06/exemplo3a7.txt”)aed06/exemplo3a7.txt”)

volta

Page 15: Análise Exploratória de Dados - 2006 R - LIG -07

Exercício 1Exercício 1

Construa o gráfico Construa o gráfico de quantis, para os de quantis, para os dados do exemplo dados do exemplo 13: emissão de 13: emissão de dióxido de dióxido de Carbono.Carbono.

volta

Page 16: Análise Exploratória de Dados - 2006 R - LIG -07

TransformaçõesTransformações

Diversas técnicas estatísticas são Diversas técnicas estatísticas são baseadas na suposição de que os baseadas na suposição de que os dados provêm de uma distribuição dados provêm de uma distribuição normal ou, pelo menos, normal ou, pelo menos, aproximadamente simétrica.aproximadamente simétrica.

Page 17: Análise Exploratória de Dados - 2006 R - LIG -07
Page 18: Análise Exploratória de Dados - 2006 R - LIG -07

TransformaçõesTransformações

Porém, em muitas situações, os Porém, em muitas situações, os dados em que estamos interessados dados em que estamos interessados apresentam assimetria e/ou podem apresentam assimetria e/ou podem conter valores atípicos.conter valores atípicos.

Page 19: Análise Exploratória de Dados - 2006 R - LIG -07
Page 20: Análise Exploratória de Dados - 2006 R - LIG -07

Transformações (cont.)Transformações (cont.)

Existem métodos estatísticos que Existem métodos estatísticos que são desenvolvidos para dados não são desenvolvidos para dados não normais.normais.

Porém, se quisermos utilizar algum Porém, se quisermos utilizar algum método para dados normais, quando os método para dados normais, quando os dados não parecem ter esse tipo de dados não parecem ter esse tipo de comportamento, o que se pode fazer é comportamento, o que se pode fazer é uma transformação desses dados uma transformação desses dados visando a simetrização .visando a simetrização .

Page 21: Análise Exploratória de Dados - 2006 R - LIG -07

Transformações (cont.)Transformações (cont.)

Uma família de transformações Uma família de transformações freqüentemente explorada éfreqüentemente explorada é

0,

0),ln(

0,

psex

psex

psex

xp

p

p

Normalmente, o que se faz é experimentar valoresde p na seqüência ...,-3,-2,-1,-1/2,-1/3,-1/4,0,1/4,1/3,1/2,1,2,3,...

Page 22: Análise Exploratória de Dados - 2006 R - LIG -07

Transformações (cont.)Transformações (cont.)

Para cada valor de Para cada valor de pp construímos construímos gráficos apropriados (histogramas, gráficos apropriados (histogramas, boxplots, quantis,...) para os dados boxplots, quantis,...) para os dados originais e transformados, de forma a originais e transformados, de forma a poder escolher o valor de poder escolher o valor de pp apropriado.apropriado.

Para dados positivos, a distribuição é Para dados positivos, a distribuição é geralmente assimétrica à direita.geralmente assimétrica à direita.

Page 23: Análise Exploratória de Dados - 2006 R - LIG -07

Transformações (cont.)Transformações (cont.)

Para essas distribuições, a Para essas distribuições, a transformação sugerida com 0<transformação sugerida com 0<p<p<1 1 é apropriada, pois valores grandes é apropriada, pois valores grandes de de xx decrescem mais, relativamente decrescem mais, relativamente a valores pequenos.a valores pequenos.

Para distribuições assimétricas à Para distribuições assimétricas à esquerda experimente valores de esquerda experimente valores de p p maiores que 1.maiores que 1.

Page 24: Análise Exploratória de Dados - 2006 R - LIG -07

Dados sobre emissão de Dados sobre emissão de dióxido de carbonodióxido de carbono

Vimos que a distribuição das Vimos que a distribuição das emissões de dióxido de carbono é emissões de dióxido de carbono é bastante assimétrica à direita.bastante assimétrica à direita.

Proponha uma distribuição que torne Proponha uma distribuição que torne os dados aproximadamente os dados aproximadamente simétricos.simétricos.

Page 25: Análise Exploratória de Dados - 2006 R - LIG -07

Continuação do exemploContinuação do exemplo

Pela sugestão anterior, devemos buscar por um valor de p que esteja entre 0 e 1.

Aqui, teríamos problema com a transformação logarítmica,pois há uma observação com emissão 0.

Na figura a seguir, foi solicitado um boxplot para valores de pque variaram da seguinte forma: 1/2,1/3,1/4,1/5, 1/6 e 1/7.

Page 26: Análise Exploratória de Dados - 2006 R - LIG -07
Page 27: Análise Exploratória de Dados - 2006 R - LIG -07

Continuação do exemploContinuação do exemplo

É possível verificar, a partir da figura É possível verificar, a partir da figura anterior, que os valores de anterior, que os valores de pp entre entre 1/5 e ¼ são os que resultaram numa 1/5 e ¼ são os que resultaram numa distribuição aproximadamente distribuição aproximadamente simétrica.simétrica.

Podemos continuar e escolher um Podemos continuar e escolher um valor de valor de pp entre 1/5 e ¼, por entre 1/5 e ¼, por exemplo, (1/5+1/4)/2.exemplo, (1/5+1/4)/2.

Page 28: Análise Exploratória de Dados - 2006 R - LIG -07
Page 29: Análise Exploratória de Dados - 2006 R - LIG -07
Page 30: Análise Exploratória de Dados - 2006 R - LIG -07

Exercício 2Exercício 2

Analise a distribuição dos dados Analise a distribuição dos dados sobre notas em Estatística sobre notas em Estatística (dados3bm.txt) quanto à assimetria, (dados3bm.txt) quanto à assimetria, construindo um gráfico de quantis construindo um gráfico de quantis para estes dados.para estes dados.

Page 31: Análise Exploratória de Dados - 2006 R - LIG -07
Page 32: Análise Exploratória de Dados - 2006 R - LIG -07

Exercício 2 (conclusão)Exercício 2 (conclusão)

Pelo gráfico de quantis dos dados Pelo gráfico de quantis dos dados sobre notas em Estatística, podemos sobre notas em Estatística, podemos perceber que a distribuição é perceber que a distribuição é aproximadamente simétrica.aproximadamente simétrica.

Isto pode ser confirmado pelo Isto pode ser confirmado pelo boxplot e pelo histograma das notas.boxplot e pelo histograma das notas.

Page 33: Análise Exploratória de Dados - 2006 R - LIG -07
Page 34: Análise Exploratória de Dados - 2006 R - LIG -07

Exercício 3Exercício 3

Análise a forma da distribuição da Análise a forma da distribuição da variável densidade demográfica em variável densidade demográfica em dados sobre o Brasil (dados1bm.txt).dados sobre o Brasil (dados1bm.txt).

Proponha uma transformação Proponha uma transformação buscando tornar a distribuição buscando tornar a distribuição aproximadamente simétrica. aproximadamente simétrica.

Page 35: Análise Exploratória de Dados - 2006 R - LIG -07

Exercicio 3(cont.)Exercicio 3(cont.)

Construindo o boxplot de densidade Construindo o boxplot de densidade demográfica, percebe-se, demográfica, percebe-se, claramente, forte assimetria positiva. claramente, forte assimetria positiva.

Page 36: Análise Exploratória de Dados - 2006 R - LIG -07

TransformaçõesTransformações

Como os dados são todos positivos, Como os dados são todos positivos, podemos começar tentando a podemos começar tentando a transformação logarítmica.transformação logarítmica.

boxplot(log(dados$dd))boxplot(log(dados$dd))

Page 37: Análise Exploratória de Dados - 2006 R - LIG -07
Page 38: Análise Exploratória de Dados - 2006 R - LIG -07
Page 39: Análise Exploratória de Dados - 2006 R - LIG -07

Exercício 4Exercício 4

Trabalhe com a base de dados sobre Trabalhe com a base de dados sobre veículos. veículos.

Para cada variável entre preço, Para cada variável entre preço, tamanho e motor, analise as tamanho e motor, analise as distribuições quanto à assimetria.distribuições quanto à assimetria.

Nos casos onde há assimetria, Nos casos onde há assimetria, proponha, se possível, uma proponha, se possível, uma transformação de simetrização.transformação de simetrização.

Page 40: Análise Exploratória de Dados - 2006 R - LIG -07

Leitura e organização dos dadosLeitura e organização dos dados

dados=read.table(“http://www.im.ufrj.br/~flavia/aed06/dados=read.table(“http://www.im.ufrj.br/~flavia/aed06/dados7bm.txt”,header=T)dados7bm.txt”,header=T)

Page 41: Análise Exploratória de Dados - 2006 R - LIG -07

ContinuaçãoContinuação

É possível verificar que a distribuição É possível verificar que a distribuição da variável preço apresenta da variável preço apresenta assimetria positiva.assimetria positiva.

Tente a transformação logarítmica, Tente a transformação logarítmica, pois os preços são todos positivos.pois os preços são todos positivos.

Page 42: Análise Exploratória de Dados - 2006 R - LIG -07
Page 43: Análise Exploratória de Dados - 2006 R - LIG -07
Page 44: Análise Exploratória de Dados - 2006 R - LIG -07

Exercício 5Exercício 5

Considere a variável CO(gás carbônico Considere a variável CO(gás carbônico nos dados sobre poluição nos dados sobre poluição (dados4bm.txt).(dados4bm.txt).

Calcule as principais medidas de Calcule as principais medidas de posição e dispersão.posição e dispersão.

Construa um histograma, ramo-e-Construa um histograma, ramo-e-folhas e boxplot.folhas e boxplot.

Comente sobre a forma da Comente sobre a forma da distribuição desta variável.distribuição desta variável.

Page 45: Análise Exploratória de Dados - 2006 R - LIG -07

dados=read.table(”http://www.im.ufrj.br/~flavia/aed06/dados4bm.txt",header=T)

names(dados)[1] "data" "CO" "O3" "temp" "umid"

summary(dados$CO)

Min. 1st Qu. Median Mean 3rd Qu. Max. 4.700 6.300 7.200 7.464 8.025 12.500

sd(dados$CO) [1] 1.543912

range(dados$CO) [1] 4.7 12.5

IQR(dados$CO) [1] 1.725

Page 46: Análise Exploratória de Dados - 2006 R - LIG -07
Page 47: Análise Exploratória de Dados - 2006 R - LIG -07
Page 48: Análise Exploratória de Dados - 2006 R - LIG -07

4 | 77 5 | 12 5 | 55677789 6 | 1111122222222233333444444 6 | 5666677777899999999 7 | 00122233444 7 | 5566777778888899999999 8 | 012334 8 | 55678999 9 | 0114 9 | 557 10 | 1333 10 | 8 11 | 4 11 | 69 12 | 0 12 | 5

Ramo-e-folhas

Page 49: Análise Exploratória de Dados - 2006 R - LIG -07
Page 50: Análise Exploratória de Dados - 2006 R - LIG -07

Forma da distribuiçãoForma da distribuição

Os dados apresentam assimetria Os dados apresentam assimetria positiva não muito acentuada.positiva não muito acentuada.

Verifique como fica a distribuição na Verifique como fica a distribuição na escala logarítmica desta variável.escala logarítmica desta variável.

Repita esta análise uni-variada para Repita esta análise uni-variada para as outras variáveis dos dados sobre as outras variáveis dos dados sobre poluição (ozônio, umidade, poluição (ozônio, umidade, temperatura).temperatura).

Page 51: Análise Exploratória de Dados - 2006 R - LIG -07

Medidas de assimetriaMedidas de assimetria

1. Coeficiente de assimetria de Pearson:

s

medxskP

)(3

médiadesvio-padrão

mediana

Page 52: Análise Exploratória de Dados - 2006 R - LIG -07

Medidas de assimetriaMedidas de assimetria

Uma outra media Uma outra media de assimetria é de assimetria é dada por:dada por: 3

1

3)(1

s

xxn

sk

m

ii

esquerdaàassimetriahouversesk

direitaàassimetriahouversesk

simetriahouversesk

,0

,0

,0

o mesmo vale para skP

Page 53: Análise Exploratória de Dados - 2006 R - LIG -07

Calcular as medidas de assimetria para os Calcular as medidas de assimetria para os exemplos trabalhados no início da aulaexemplos trabalhados no início da aula

Exemplo 1: dados sobre as Exemplo 1: dados sobre as populações dos 30 maiores populações dos 30 maiores municípios brasileiros.municípios brasileiros.

> skp=3*(mean(dados[,2])-median(dados[,2]))/sd(dados[,2])> skp[1] 0.9827185

Page 54: Análise Exploratória de Dados - 2006 R - LIG -07

continuaçãocontinuação

scubo=0 for (i in 1:30){scubo=scubo+(dados[i,2]-mean(dados[,2]))^3} > scubo=scubo/30 > sk=scubo/(sd(dados[,2])^3) > sk [1] 3.393688

Como confirmado, ambas apresentam valor maior que zero indicandoassimetria à direita.

Fig. Ex1.

Page 55: Análise Exploratória de Dados - 2006 R - LIG -07

Exemplo 2:Exemplo 2: Lembre que o segundo exemplo ilustrou Lembre que o segundo exemplo ilustrou

dados simétricos gerados artificialmente dados simétricos gerados artificialmente no vetor no vetor x. (exemplo2a7.txt)x. (exemplo2a7.txt)

> skp=3*(mean(x)-median(x))/sd(x)> skp[1] 0.071745> scubo=0> for (i in 1:1000){scubo=scubo+(x[i]-mean(x))^3}> scubo=scubo/n> sk=scubo/(sd(x)^3)> sk[1] -0.0001131420 Conforme o esperado, ambos são

aproximadamente zero. Fig. Ex2.

Page 56: Análise Exploratória de Dados - 2006 R - LIG -07

Exemplo 3:Exemplo 3: O terceiro exemplo ilustrou dados com O terceiro exemplo ilustrou dados com

assimetria negativa gerados artificialmente assimetria negativa gerados artificialmente no vetor no vetor x. (exemplo3a7.txt)x. (exemplo3a7.txt)

Conforme o esperado, ambos são menores que zero.

skp=3*(mean(x)-median(x))/sd(x)> skp[1] -0.6805239> scubo=0> for (i in 1:100){scubo=scubo+(x[i]-mean(x))^3}> scubo=scubo/100> sk=scubo/(sd(x)^3)> sk[1] -7.27931

Fig. Ex3.

Page 57: Análise Exploratória de Dados - 2006 R - LIG -07

Exemplo 4: medidas de assimetria para Exemplo 4: medidas de assimetria para

emissões de dióxidoemissões de dióxido de carbonode carbono> x=dados$emissao> skp=3*(mean(x)-median(x))/sd(x)> skp[1] 1.348357

> scubo=0> for (i in 1:72){scubo=scubo+(x[i]-mean(x))^3}> scubo=scubo/72> sk=scubo/(sd(x)^3)> sk[1] 2.349014

Como esperado, ambos sãomaiores que zero.

Figura ex4.

Page 58: Análise Exploratória de Dados - 2006 R - LIG -07

Medidas de achatamento ou curtoseMedidas de achatamento ou curtose

Na figura a seguir temos duas distribuições de freqüênciascom mesma média, mesma variância e simétricas.

Page 59: Análise Exploratória de Dados - 2006 R - LIG -07

Apesar das distribuições apresentarem a mesma média, mesma variância e simetria, verifica-se que na vizinhança da média elas diferem quanto às freqüências, uma distribuição apresentandovalores maiores.

Dizemos que essas distribuições diferem quantoa um novo aspecto conhecido como “achatamento” ou curtose.

Page 60: Análise Exploratória de Dados - 2006 R - LIG -07

Medida de curtoseMedida de curtose

Uma medida usada para avaliar o grau de Uma medida usada para avaliar o grau de achatamento de uma distribuição de achatamento de uma distribuição de freqüências é dada por:freqüências é dada por:

padrão.-desviooéonde,

)(1

41

4

ss

xxn

k

n

ii

Page 61: Análise Exploratória de Dados - 2006 R - LIG -07

Medida de curtoseMedida de curtose

Se Se k=3, k=3, dizemos que a distribuição é dizemos que a distribuição é mesocúrtica.mesocúrtica.

Se kSe k<3, <3, dizemos que a distribuição é dizemos que a distribuição é platicúrtica (mais achatada).platicúrtica (mais achatada).

Se Se k>3, k>3, dizemos que a distribuição é dizemos que a distribuição é leptocúrtica.leptocúrtica.

Page 62: Análise Exploratória de Dados - 2006 R - LIG -07

Exemplo: Calcular a medida de curtose para Exemplo: Calcular a medida de curtose para os dados sobre emissões.os dados sobre emissões.

s4=0for (i in 1:72){s4=s4+(dados$emissao[i]-mean(dados$emissao))^4}s4=s4/72k=s4/(sd(dados$emissao)^4)k9.19315

Como k>3, temos uma distribuição leptocúrtica.

Page 63: Análise Exploratória de Dados - 2006 R - LIG -07
Page 64: Análise Exploratória de Dados - 2006 R - LIG -07

A curtose para dados provenientes de uma distribuição normal(curva em forma de sino) é aproximadamente igual a 3, pois aCurtose de uma distribuição normal é 3.

Uma distribuição normal é a referência para uma distribuição mesocúrtica.