análise exploratória de dados - 2006 r - lig -07

Post on 16-Apr-2015

113 Views

Category:

Documents

3 Downloads

Preview:

Click to see full reader

TRANSCRIPT

Análise Exploratória de Análise Exploratória de Dados - 2006Dados - 2006

R - LIG -07R - LIG -07

summary(notas) Min. 1st Qu. Median Mean 3rd Qu. Max. 3.60 4.80 5.70 5.69 6.30 8.20

Resultados da Prova 1 turma MAA: 20 alunos - 2005

Resultados da Prova 1 turma MAA: 38 alunos - 2006

Min. 1,8Q1 5,35Q2 6,75Q3 8,075Max. 9,5Média 6,45Desvio-padrão2,13

ObjetivosObjetivos

Definir e construir gráficos de Definir e construir gráficos de quantis. quantis.

Trabalhar com transformações de Trabalhar com transformações de variáveis buscando “simetrizar” os variáveis buscando “simetrizar” os dados.dados.

Definir medidas de assimetria.Definir medidas de assimetria.

Gráficos de quantisGráficos de quantis

É possível construir uma representação É possível construir uma representação gráfica dos quantis de uma distribuição de gráfica dos quantis de uma distribuição de freqüências, chamada gráfico de quantis.freqüências, chamada gráfico de quantis.

No eixo das abscissas colocamos os No eixo das abscissas colocamos os valores de valores de p p e no eixo das ordenadas os e no eixo das ordenadas os valores de valores de q(p).q(p).

Depois, unimos os pontos obtidos por Depois, unimos os pontos obtidos por segmentos de retas, para que se possa segmentos de retas, para que se possa obter obter q(p) q(p) para todo para todo p.p.

GráficosGráficos de quantis: exemplo de quantis: exemplo

Considere os dados sobre os 30 Considere os dados sobre os 30 municípios mais populosos do Brasil municípios mais populosos do Brasil em em dados2bm.txt.dados2bm.txt.

dados=read.table(“http://www.im.ufrj.br/~flavia/dados=read.table(“http://www.im.ufrj.br/~flavia/aed06/dados2bm.txt”,header=T)aed06/dados2bm.txt”,header=T)

Defina o vetor de valores de Defina o vetor de valores de pp da da seguinte forma:seguinte forma:

prop=c(0:10)prop=c(0:10) prop=prop/10prop=prop/10

GráficosGráficos de quantis: exemplo de quantis: exemplo

Calcule os quantis correspondentes aos Calcule os quantis correspondentes aos valores em prop para os tamanhos das valores em prop para os tamanhos das populações:populações:

quantis=quantile(dados$pop10mil,prop)quantis=quantile(dados$pop10mil,prop) Finalmente, trace o gráfico usando a Finalmente, trace o gráfico usando a

função função plot:plot: plot(prop,quantis,main=“Gráfico de plot(prop,quantis,main=“Gráfico de

quantis dos dados sobre quantis dos dados sobre população”,sub=“30 maiores municípios população”,sub=“30 maiores municípios brasileiros”)brasileiros”)

volta

Para que os pontos sejam unidos por segmentos, insira o argumento type=“l” na função plot.

Para que ambos pontos e linhas entre pontos apareçam no gráfico, insira o argumento type=“b” na função plot.

Gráficos de quantis (cont.)Gráficos de quantis (cont.)

O gráfico de quantis pode ser útil para O gráfico de quantis pode ser útil para verificar se a distribuição dos dados é verificar se a distribuição dos dados é simétrica (ou aproximadamente simétrica (ou aproximadamente simétrica).simétrica).

Se os dados forem aproximadamente Se os dados forem aproximadamente simétricos, os pontos no topo superior simétricos, os pontos no topo superior direito do gráfico de quantis comportam-direito do gráfico de quantis comportam-se como os pontos do canto inferior se como os pontos do canto inferior esquerdo.esquerdo.

Gráficos de quantis (cont.)Gráficos de quantis (cont.)

Se os dados forem assimétricos à direita, Se os dados forem assimétricos à direita, os pontos do topo superior direito são os pontos do topo superior direito são mais inclinados do que os pontos no canto mais inclinados do que os pontos no canto inferior esquerdo.inferior esquerdo.

No exemplo anterior, claramente No exemplo anterior, claramente percebemos uma assimetria positiva.percebemos uma assimetria positiva.

Gráficos de quantis: exemploGráficos de quantis: exemplo

Vejamos um exemplo com dados Vejamos um exemplo com dados aproximadamente simétricos.aproximadamente simétricos.

source(“http://www.im.ufrj.br/~flavia/source(“http://www.im.ufrj.br/~flavia/aed06/exemplo2a7.txt”)aed06/exemplo2a7.txt”)

volta

Gráficos de quantis: exemploGráficos de quantis: exemplo

Vejamos um exemplo de conjunto de Vejamos um exemplo de conjunto de dados com assimetria negativa.dados com assimetria negativa.

source(“http://www.im.ufrj.br/~flavia/source(“http://www.im.ufrj.br/~flavia/aed06/exemplo3a7.txt”)aed06/exemplo3a7.txt”)

volta

Exercício 1Exercício 1

Construa o gráfico Construa o gráfico de quantis, para os de quantis, para os dados do exemplo dados do exemplo 13: emissão de 13: emissão de dióxido de dióxido de Carbono.Carbono.

volta

TransformaçõesTransformações

Diversas técnicas estatísticas são Diversas técnicas estatísticas são baseadas na suposição de que os baseadas na suposição de que os dados provêm de uma distribuição dados provêm de uma distribuição normal ou, pelo menos, normal ou, pelo menos, aproximadamente simétrica.aproximadamente simétrica.

TransformaçõesTransformações

Porém, em muitas situações, os Porém, em muitas situações, os dados em que estamos interessados dados em que estamos interessados apresentam assimetria e/ou podem apresentam assimetria e/ou podem conter valores atípicos.conter valores atípicos.

Transformações (cont.)Transformações (cont.)

Existem métodos estatísticos que Existem métodos estatísticos que são desenvolvidos para dados não são desenvolvidos para dados não normais.normais.

Porém, se quisermos utilizar algum Porém, se quisermos utilizar algum método para dados normais, quando os método para dados normais, quando os dados não parecem ter esse tipo de dados não parecem ter esse tipo de comportamento, o que se pode fazer é comportamento, o que se pode fazer é uma transformação desses dados uma transformação desses dados visando a simetrização .visando a simetrização .

Transformações (cont.)Transformações (cont.)

Uma família de transformações Uma família de transformações freqüentemente explorada éfreqüentemente explorada é

0,

0),ln(

0,

psex

psex

psex

xp

p

p

Normalmente, o que se faz é experimentar valoresde p na seqüência ...,-3,-2,-1,-1/2,-1/3,-1/4,0,1/4,1/3,1/2,1,2,3,...

Transformações (cont.)Transformações (cont.)

Para cada valor de Para cada valor de pp construímos construímos gráficos apropriados (histogramas, gráficos apropriados (histogramas, boxplots, quantis,...) para os dados boxplots, quantis,...) para os dados originais e transformados, de forma a originais e transformados, de forma a poder escolher o valor de poder escolher o valor de pp apropriado.apropriado.

Para dados positivos, a distribuição é Para dados positivos, a distribuição é geralmente assimétrica à direita.geralmente assimétrica à direita.

Transformações (cont.)Transformações (cont.)

Para essas distribuições, a Para essas distribuições, a transformação sugerida com 0<transformação sugerida com 0<p<p<1 1 é apropriada, pois valores grandes é apropriada, pois valores grandes de de xx decrescem mais, relativamente decrescem mais, relativamente a valores pequenos.a valores pequenos.

Para distribuições assimétricas à Para distribuições assimétricas à esquerda experimente valores de esquerda experimente valores de p p maiores que 1.maiores que 1.

Dados sobre emissão de Dados sobre emissão de dióxido de carbonodióxido de carbono

Vimos que a distribuição das Vimos que a distribuição das emissões de dióxido de carbono é emissões de dióxido de carbono é bastante assimétrica à direita.bastante assimétrica à direita.

Proponha uma distribuição que torne Proponha uma distribuição que torne os dados aproximadamente os dados aproximadamente simétricos.simétricos.

Continuação do exemploContinuação do exemplo

Pela sugestão anterior, devemos buscar por um valor de p que esteja entre 0 e 1.

Aqui, teríamos problema com a transformação logarítmica,pois há uma observação com emissão 0.

Na figura a seguir, foi solicitado um boxplot para valores de pque variaram da seguinte forma: 1/2,1/3,1/4,1/5, 1/6 e 1/7.

Continuação do exemploContinuação do exemplo

É possível verificar, a partir da figura É possível verificar, a partir da figura anterior, que os valores de anterior, que os valores de pp entre entre 1/5 e ¼ são os que resultaram numa 1/5 e ¼ são os que resultaram numa distribuição aproximadamente distribuição aproximadamente simétrica.simétrica.

Podemos continuar e escolher um Podemos continuar e escolher um valor de valor de pp entre 1/5 e ¼, por entre 1/5 e ¼, por exemplo, (1/5+1/4)/2.exemplo, (1/5+1/4)/2.

Exercício 2Exercício 2

Analise a distribuição dos dados Analise a distribuição dos dados sobre notas em Estatística sobre notas em Estatística (dados3bm.txt) quanto à assimetria, (dados3bm.txt) quanto à assimetria, construindo um gráfico de quantis construindo um gráfico de quantis para estes dados.para estes dados.

Exercício 2 (conclusão)Exercício 2 (conclusão)

Pelo gráfico de quantis dos dados Pelo gráfico de quantis dos dados sobre notas em Estatística, podemos sobre notas em Estatística, podemos perceber que a distribuição é perceber que a distribuição é aproximadamente simétrica.aproximadamente simétrica.

Isto pode ser confirmado pelo Isto pode ser confirmado pelo boxplot e pelo histograma das notas.boxplot e pelo histograma das notas.

Exercício 3Exercício 3

Análise a forma da distribuição da Análise a forma da distribuição da variável densidade demográfica em variável densidade demográfica em dados sobre o Brasil (dados1bm.txt).dados sobre o Brasil (dados1bm.txt).

Proponha uma transformação Proponha uma transformação buscando tornar a distribuição buscando tornar a distribuição aproximadamente simétrica. aproximadamente simétrica.

Exercicio 3(cont.)Exercicio 3(cont.)

Construindo o boxplot de densidade Construindo o boxplot de densidade demográfica, percebe-se, demográfica, percebe-se, claramente, forte assimetria positiva. claramente, forte assimetria positiva.

TransformaçõesTransformações

Como os dados são todos positivos, Como os dados são todos positivos, podemos começar tentando a podemos começar tentando a transformação logarítmica.transformação logarítmica.

boxplot(log(dados$dd))boxplot(log(dados$dd))

Exercício 4Exercício 4

Trabalhe com a base de dados sobre Trabalhe com a base de dados sobre veículos. veículos.

Para cada variável entre preço, Para cada variável entre preço, tamanho e motor, analise as tamanho e motor, analise as distribuições quanto à assimetria.distribuições quanto à assimetria.

Nos casos onde há assimetria, Nos casos onde há assimetria, proponha, se possível, uma proponha, se possível, uma transformação de simetrização.transformação de simetrização.

Leitura e organização dos dadosLeitura e organização dos dados

dados=read.table(“http://www.im.ufrj.br/~flavia/aed06/dados=read.table(“http://www.im.ufrj.br/~flavia/aed06/dados7bm.txt”,header=T)dados7bm.txt”,header=T)

ContinuaçãoContinuação

É possível verificar que a distribuição É possível verificar que a distribuição da variável preço apresenta da variável preço apresenta assimetria positiva.assimetria positiva.

Tente a transformação logarítmica, Tente a transformação logarítmica, pois os preços são todos positivos.pois os preços são todos positivos.

Exercício 5Exercício 5

Considere a variável CO(gás carbônico Considere a variável CO(gás carbônico nos dados sobre poluição nos dados sobre poluição (dados4bm.txt).(dados4bm.txt).

Calcule as principais medidas de Calcule as principais medidas de posição e dispersão.posição e dispersão.

Construa um histograma, ramo-e-Construa um histograma, ramo-e-folhas e boxplot.folhas e boxplot.

Comente sobre a forma da Comente sobre a forma da distribuição desta variável.distribuição desta variável.

dados=read.table(”http://www.im.ufrj.br/~flavia/aed06/dados4bm.txt",header=T)

names(dados)[1] "data" "CO" "O3" "temp" "umid"

summary(dados$CO)

Min. 1st Qu. Median Mean 3rd Qu. Max. 4.700 6.300 7.200 7.464 8.025 12.500

sd(dados$CO) [1] 1.543912

range(dados$CO) [1] 4.7 12.5

IQR(dados$CO) [1] 1.725

4 | 77 5 | 12 5 | 55677789 6 | 1111122222222233333444444 6 | 5666677777899999999 7 | 00122233444 7 | 5566777778888899999999 8 | 012334 8 | 55678999 9 | 0114 9 | 557 10 | 1333 10 | 8 11 | 4 11 | 69 12 | 0 12 | 5

Ramo-e-folhas

Forma da distribuiçãoForma da distribuição

Os dados apresentam assimetria Os dados apresentam assimetria positiva não muito acentuada.positiva não muito acentuada.

Verifique como fica a distribuição na Verifique como fica a distribuição na escala logarítmica desta variável.escala logarítmica desta variável.

Repita esta análise uni-variada para Repita esta análise uni-variada para as outras variáveis dos dados sobre as outras variáveis dos dados sobre poluição (ozônio, umidade, poluição (ozônio, umidade, temperatura).temperatura).

Medidas de assimetriaMedidas de assimetria

1. Coeficiente de assimetria de Pearson:

s

medxskP

)(3

médiadesvio-padrão

mediana

Medidas de assimetriaMedidas de assimetria

Uma outra media Uma outra media de assimetria é de assimetria é dada por:dada por: 3

1

3)(1

s

xxn

sk

m

ii

esquerdaàassimetriahouversesk

direitaàassimetriahouversesk

simetriahouversesk

,0

,0

,0

o mesmo vale para skP

Calcular as medidas de assimetria para os Calcular as medidas de assimetria para os exemplos trabalhados no início da aulaexemplos trabalhados no início da aula

Exemplo 1: dados sobre as Exemplo 1: dados sobre as populações dos 30 maiores populações dos 30 maiores municípios brasileiros.municípios brasileiros.

> skp=3*(mean(dados[,2])-median(dados[,2]))/sd(dados[,2])> skp[1] 0.9827185

continuaçãocontinuação

scubo=0 for (i in 1:30){scubo=scubo+(dados[i,2]-mean(dados[,2]))^3} > scubo=scubo/30 > sk=scubo/(sd(dados[,2])^3) > sk [1] 3.393688

Como confirmado, ambas apresentam valor maior que zero indicandoassimetria à direita.

Fig. Ex1.

Exemplo 2:Exemplo 2: Lembre que o segundo exemplo ilustrou Lembre que o segundo exemplo ilustrou

dados simétricos gerados artificialmente dados simétricos gerados artificialmente no vetor no vetor x. (exemplo2a7.txt)x. (exemplo2a7.txt)

> skp=3*(mean(x)-median(x))/sd(x)> skp[1] 0.071745> scubo=0> for (i in 1:1000){scubo=scubo+(x[i]-mean(x))^3}> scubo=scubo/n> sk=scubo/(sd(x)^3)> sk[1] -0.0001131420 Conforme o esperado, ambos são

aproximadamente zero. Fig. Ex2.

Exemplo 3:Exemplo 3: O terceiro exemplo ilustrou dados com O terceiro exemplo ilustrou dados com

assimetria negativa gerados artificialmente assimetria negativa gerados artificialmente no vetor no vetor x. (exemplo3a7.txt)x. (exemplo3a7.txt)

Conforme o esperado, ambos são menores que zero.

skp=3*(mean(x)-median(x))/sd(x)> skp[1] -0.6805239> scubo=0> for (i in 1:100){scubo=scubo+(x[i]-mean(x))^3}> scubo=scubo/100> sk=scubo/(sd(x)^3)> sk[1] -7.27931

Fig. Ex3.

Exemplo 4: medidas de assimetria para Exemplo 4: medidas de assimetria para

emissões de dióxidoemissões de dióxido de carbonode carbono> x=dados$emissao> skp=3*(mean(x)-median(x))/sd(x)> skp[1] 1.348357

> scubo=0> for (i in 1:72){scubo=scubo+(x[i]-mean(x))^3}> scubo=scubo/72> sk=scubo/(sd(x)^3)> sk[1] 2.349014

Como esperado, ambos sãomaiores que zero.

Figura ex4.

Medidas de achatamento ou curtoseMedidas de achatamento ou curtose

Na figura a seguir temos duas distribuições de freqüênciascom mesma média, mesma variância e simétricas.

Apesar das distribuições apresentarem a mesma média, mesma variância e simetria, verifica-se que na vizinhança da média elas diferem quanto às freqüências, uma distribuição apresentandovalores maiores.

Dizemos que essas distribuições diferem quantoa um novo aspecto conhecido como “achatamento” ou curtose.

Medida de curtoseMedida de curtose

Uma medida usada para avaliar o grau de Uma medida usada para avaliar o grau de achatamento de uma distribuição de achatamento de uma distribuição de freqüências é dada por:freqüências é dada por:

padrão.-desviooéonde,

)(1

41

4

ss

xxn

k

n

ii

Medida de curtoseMedida de curtose

Se Se k=3, k=3, dizemos que a distribuição é dizemos que a distribuição é mesocúrtica.mesocúrtica.

Se kSe k<3, <3, dizemos que a distribuição é dizemos que a distribuição é platicúrtica (mais achatada).platicúrtica (mais achatada).

Se Se k>3, k>3, dizemos que a distribuição é dizemos que a distribuição é leptocúrtica.leptocúrtica.

Exemplo: Calcular a medida de curtose para Exemplo: Calcular a medida de curtose para os dados sobre emissões.os dados sobre emissões.

s4=0for (i in 1:72){s4=s4+(dados$emissao[i]-mean(dados$emissao))^4}s4=s4/72k=s4/(sd(dados$emissao)^4)k9.19315

Como k>3, temos uma distribuição leptocúrtica.

A curtose para dados provenientes de uma distribuição normal(curva em forma de sino) é aproximadamente igual a 3, pois aCurtose de uma distribuição normal é 3.

Uma distribuição normal é a referência para uma distribuição mesocúrtica.

top related