r – medidas de dispersão análise exploratória de dados

60
R – Medidas de R – Medidas de Dispersão Dispersão Análise Exploratória Análise Exploratória de Dados de Dados

Upload: internet

Post on 18-Apr-2015

108 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: R – Medidas de Dispersão Análise Exploratória de Dados

R – Medidas de R – Medidas de DispersãoDispersão

Análise Exploratória de Análise Exploratória de Dados Dados

Page 2: R – Medidas de Dispersão Análise Exploratória de Dados

Objetivos da aulaObjetivos da aula

Definir e calcular medidas de dispersão: Definir e calcular medidas de dispersão: amplitude amostral, distância entre amplitude amostral, distância entre quartis, desvio-médio, variância e desvio-quartis, desvio-médio, variância e desvio-padrão.padrão.

Definir e calcular o coeficiente de variação Definir e calcular o coeficiente de variação amostral.amostral.

Definir e calcular quantis de uma Definir e calcular quantis de uma distribuição de freqüências.distribuição de freqüências.

Page 3: R – Medidas de Dispersão Análise Exploratória de Dados

Exemplo 1Exemplo 1

Suponha que um grupo de 120 Suponha que um grupo de 120 estudantes foi aleatoriamente distribuído estudantes foi aleatoriamente distribuído em 6 grupos de 20.em 6 grupos de 20.

Cada grupo recebeu um tipo de Cada grupo recebeu um tipo de treinamento e depois todos foram treinamento e depois todos foram submetidos a um mesmo teste.submetidos a um mesmo teste.

Ao teste é atribuída uma nota de zero a Ao teste é atribuída uma nota de zero a 10.10.

Page 4: R – Medidas de Dispersão Análise Exploratória de Dados

Exemplo 1 (continuação)Exemplo 1 (continuação)

Os dados (fictícios) com as notas dos Os dados (fictícios) com as notas dos testes para os seis grupos estão no testes para os seis grupos estão no arquivo arquivo notas.txt.notas.txt.

notas<-read.table(“m:\\natalie\\aed\\notas<-read.table(“m:\\natalie\\aed\\notas.txt”)notas.txt”)

names(notas)<-c(“G1”,”G2”,”G3”,”G4”,”G5”,”G6”)names(notas)<-c(“G1”,”G2”,”G3”,”G4”,”G5”,”G6”)

Page 5: R – Medidas de Dispersão Análise Exploratória de Dados

Exemplo 1 (continuação)Exemplo 1 (continuação)

Calcule a média e a mediana das notas Calcule a média e a mediana das notas para cada grupo.para cada grupo.

É possível ver que todos os grupos É possível ver que todos os grupos apresentam a mesma média 5 e a mesma apresentam a mesma média 5 e a mesma mediana 5.mediana 5.

Será que podemos afirmar que as Será que podemos afirmar que as performances foram iguais para os performances foram iguais para os diferentes grupos?diferentes grupos?

Page 6: R – Medidas de Dispersão Análise Exploratória de Dados

> mean(notas$G1) 5> median(notas$G1) 5> mean(notas$G2) 5> median(notas$G2) 5> mean(notas$G3) 5> median(notas$G3) 5> mean(notas$G4) 5> median(notas$G4) 5> mean(notas$G5) 5> median(notas$G5) 5> mean(notas$G6) 5> median(notas$G6) 5

Page 7: R – Medidas de Dispersão Análise Exploratória de Dados

Dotchart das notasDotchart das notas

Para responder a pergunta anterior, Para responder a pergunta anterior, podemos construir numa única janela os podemos construir numa única janela os diagramas de pontos para observar os diagramas de pontos para observar os diferentes grupos.diferentes grupos.

Obs.: As notas foram digitadas em ordem Obs.: As notas foram digitadas em ordem crescente.crescente.

Para que todos os diagramas fiquem na Para que todos os diagramas fiquem na mesma janela, podemos usar mesma janela, podemos usar par(mfrow=c(2,3))par(mfrow=c(2,3))

Page 8: R – Medidas de Dispersão Análise Exploratória de Dados

Dotchart das notasDotchart das notas

Page 9: R – Medidas de Dispersão Análise Exploratória de Dados

ComparaçãoComparação

Pela figura podemos ver que há diferenças Pela figura podemos ver que há diferenças entre os desempenhos dos diferentes grupos.entre os desempenhos dos diferentes grupos.

Por exemplo, no grupo 1 não houve variação: Por exemplo, no grupo 1 não houve variação: todos os 20 estudantes obtiveram nota 5.todos os 20 estudantes obtiveram nota 5.

Já no grupo 6, nenhum estudante obteve nota 5: Já no grupo 6, nenhum estudante obteve nota 5: ou as notas foram 1 e 2 ou 8 e 9.ou as notas foram 1 e 2 ou 8 e 9.

Enfim, a partir deste exemplo, percebe-se a Enfim, a partir deste exemplo, percebe-se a necessidade de outras medidas para necessidade de outras medidas para caracterizar um conjunto de dados além de caracterizar um conjunto de dados além de medidas tais como média e mediana.medidas tais como média e mediana.

Page 10: R – Medidas de Dispersão Análise Exploratória de Dados

Medidas de DispersãoMedidas de Dispersão

É necessário caracterizar o conjunto É necessário caracterizar o conjunto também usando medidas que avaliam a também usando medidas que avaliam a variabilidade dos dados no conjunto.variabilidade dos dados no conjunto.

A seguir, apresentaremos algumas A seguir, apresentaremos algumas medidas de dispersão comuns.medidas de dispersão comuns.

Page 11: R – Medidas de Dispersão Análise Exploratória de Dados

Amplitude Amostral RAmplitude Amostral R

A amplitude amostral é uma das medidas A amplitude amostral é uma das medidas de dispersão mais simples. de dispersão mais simples.

É dada pela diferença entre os valores É dada pela diferença entre os valores máximo e mínimo observados na amostra.máximo e mínimo observados na amostra.

Se Se xx é o vetor que contém os dados, é o vetor que contém os dados, podemos calcular a amplitude amostral podemos calcular a amplitude amostral como como amplitude<-max(x)-min(x).amplitude<-max(x)-min(x).

Page 12: R – Medidas de Dispersão Análise Exploratória de Dados

Amplitude amostral Amplitude amostral (continuação)(continuação)

Obtenha a amplitude amostral dos Obtenha a amplitude amostral dos diferentes grupos.diferentes grupos.

É claro que no grupo 1 a amplitude É claro que no grupo 1 a amplitude amostral é zero.amostral é zero.

Vemos que nos grupos 2, 4 e 6, a Vemos que nos grupos 2, 4 e 6, a amplitude é 8; e nos grupos 3 e 5 são amplitude é 8; e nos grupos 3 e 5 são respectivamente 2 e 3.respectivamente 2 e 3.

Page 13: R – Medidas de Dispersão Análise Exploratória de Dados

Desvantagens da amplitude Desvantagens da amplitude amostralamostral

A grande desvantagem da amplitude A grande desvantagem da amplitude amostral como medida para caracterizar a amostral como medida para caracterizar a dispersão num conjunto de dados é que dispersão num conjunto de dados é que ela só leva em conta o mínimo e o ela só leva em conta o mínimo e o máximo dos dados, ignorando todo o máximo dos dados, ignorando todo o resto.resto.

Observe que há diferenças nos grupos 2, Observe que há diferenças nos grupos 2, 4 e 6. Porém, todos eles têm a mesma 4 e 6. Porém, todos eles têm a mesma amplitude amostral.amplitude amostral.

Page 14: R – Medidas de Dispersão Análise Exploratória de Dados

Função Função range()range()

Se Se xx é um vetor numérico, a função é um vetor numérico, a função range(x)range(x) retorna o valor mínimo e o valor retorna o valor mínimo e o valor máximo em máximo em x.x.

AssimAssim, range(x)[2]-range(x)[1] , range(x)[2]-range(x)[1] é é equivalente àequivalente à max(x)-min(x). max(x)-min(x).

Page 15: R – Medidas de Dispersão Análise Exploratória de Dados

Intervalo Inter-Quartílico ou Intervalo Inter-Quartílico ou Distância entre quartis Distância entre quartis

Uma medida de dispersão um pouco mais Uma medida de dispersão um pouco mais refinada que a amplitude amostral é a refinada que a amplitude amostral é a distância entre quartis (IIQ ou DEQ).distância entre quartis (IIQ ou DEQ).

Depois de ordenada a amostra, divide-se Depois de ordenada a amostra, divide-se ela em quatro partes de freqüência ela em quatro partes de freqüência relativa ¼. Tomam-se então os valores relativa ¼. Tomam-se então os valores que correspondem à freqüência relativa que correspondem à freqüência relativa acumulada de ¼ e ¾, que são chamados acumulada de ¼ e ¾, que são chamados respectivamente de primeiro e terceiro respectivamente de primeiro e terceiro quartis (Q1 e Q3). quartis (Q1 e Q3).

Page 16: R – Medidas de Dispersão Análise Exploratória de Dados
Page 17: R – Medidas de Dispersão Análise Exploratória de Dados

Distância entre quartisDistância entre quartis

IIQ=Q3-Q1IIQ=Q3-Q1No No R,R, podemos calcular a distância entre podemos calcular a distância entre

quartis para um vetor de dados quartis para um vetor de dados xx da da seguinte forma:seguinte forma:

iiiiq<-IQR(x)q<-IQR(x) Para as notas do exemplo temos os Para as notas do exemplo temos os

valores 0.00 4.00 2.00 6.00 2.05 8.00 para valores 0.00 4.00 2.00 6.00 2.05 8.00 para as distâncias entre quartis dos grupos 1, as distâncias entre quartis dos grupos 1, 2, 3, 4, 5 e 6, respectivamente.2, 3, 4, 5 e 6, respectivamente.

Page 18: R – Medidas de Dispersão Análise Exploratória de Dados

Distância entre quartis Distância entre quartis (continuação)(continuação)

Podemos ver que a distância entre quartis Podemos ver que a distância entre quartis apresenta diferenças que não foram apresenta diferenças que não foram detectadas pela amplitude amostral entre os detectadas pela amplitude amostral entre os diferentes grupos.diferentes grupos.

Mas, esta medida, ainda tem a desvantagem Mas, esta medida, ainda tem a desvantagem de só levar em conta dois valores do de só levar em conta dois valores do conjunto, ignorando os extremos e o meio.conjunto, ignorando os extremos e o meio.

Page 19: R – Medidas de Dispersão Análise Exploratória de Dados

Função Função quantile(x,p)quantile(x,p)

A função A função quantile(x,p)quantile(x,p) retorna o valor que retorna o valor que na distribuição de freqüências tem na distribuição de freqüências tem freqüência relativa acumulada freqüência relativa acumulada p, 0<p<1p, 0<p<1..

Assim, pedir Assim, pedir IRQ(x)IRQ(x) é equivalente à pedir é equivalente à pedir quantile(x,0.75)-quantile(x,0.25).quantile(x,0.75)-quantile(x,0.25).

Page 20: R – Medidas de Dispersão Análise Exploratória de Dados
Page 21: R – Medidas de Dispersão Análise Exploratória de Dados

Desvio médio Desvio médio

É uma medida de dispersão que leva em É uma medida de dispersão que leva em conta todos os valores no conjunto de conta todos os valores no conjunto de dados.dados.

Primeiro vamos definir desvio absoluto da Primeiro vamos definir desvio absoluto da média.média.

Se Se x1,x2,...,xnx1,x2,...,xn são os valores observados são os valores observados no vetor no vetor xx, um desvio absoluto da média é , um desvio absoluto da média é o módulo da diferença entre o módulo da diferença entre xi e mean(x): xi e mean(x): |xi-mean(x)| |xi-mean(x)|

Page 22: R – Medidas de Dispersão Análise Exploratória de Dados

Desvio médio Desvio médio

O desvio médio (dm) é definido como a média aritmética O desvio médio (dm) é definido como a média aritmética dos desvios absolutos da média no vetor x, isto é, dos desvios absolutos da média no vetor x, isto é, dm=Soma |xi-mean(x)|/n.dm=Soma |xi-mean(x)|/n.

Para calcular os desvios médios das notas para os Para calcular os desvios médios das notas para os diferentes grupos podemos pedir diferentes grupos podemos pedir

dms<-c(0,0,0,0,0,0) #define um vetor nulo com 6 posiçõesfor (i in 1:6){for (j in 1:20){dms[i]<-dms[i]+abs(notas[j,i]-mean(notas[,i]))}} # armazena os totais dos desvios absolutos da média # correspondentes a cada grupodms<-dms/20 #calcula a média

Page 23: R – Medidas de Dispersão Análise Exploratória de Dados

Desvio médio Desvio médio

n

ii xx

ndm

1

1

Page 24: R – Medidas de Dispersão Análise Exploratória de Dados

Desvio médio (cont.)Desvio médio (cont.)

Os comandos foram armazenados no Os comandos foram armazenados no arquivo arquivo desviomedio.txtdesviomedio.txt. Para calcular os . Para calcular os desvios médios, digite:desvios médios, digite:

source(“m:\\natalie\\aed\\desviomedio.txt”) source(“m:\\natalie\\aed\\desviomedio.txt”)

Depois peça para listar Depois peça para listar dmsdms, o vetor que , o vetor que contém os desvios médios absolutos para contém os desvios médios absolutos para os seis grupos.os seis grupos.

Page 25: R – Medidas de Dispersão Análise Exploratória de Dados

Desvios médios no exemploDesvios médios no exemplo

Para as notas nos seis grupos podemos Para as notas nos seis grupos podemos ver que os desvios médios são, ver que os desvios médios são, respectivamente, respectivamente, 0.00 1.80 0.60 2.70 0.91 3.600.00 1.80 0.60 2.70 0.91 3.60

Page 26: R – Medidas de Dispersão Análise Exploratória de Dados

VariânciaVariância

É a média dos desvios da média tomados É a média dos desvios da média tomados ao quadrado.ao quadrado.

Veremos na disciplina Introdução à Veremos na disciplina Introdução à Estatística, que no caso particular da Estatística, que no caso particular da variância, é comum adotar o denominador variância, é comum adotar o denominador da média em da média em n-1n-1..

O O RR possui uma função própria para calcular possui uma função própria para calcular a variância com denominador a variância com denominador n-1n-1 dada por dada por var(x),var(x), se x é o vetor contendo os valores se x é o vetor contendo os valores cuja variância está para ser calculada.cuja variância está para ser calculada.

Page 27: R – Medidas de Dispersão Análise Exploratória de Dados

Variância amostralVariância amostral

1

1

2

2

n

xx

s

n

ii

Page 28: R – Medidas de Dispersão Análise Exploratória de Dados

Variância de Variância de notasnotas

Neste exemplo, temos para os grupos, Neste exemplo, temos para os grupos, respectivamente, as variâncias respectivamente, as variâncias (arredondadas para duas casas decimais): (arredondadas para duas casas decimais): 0.00 5.47 0.63 9.58 1.11 0.00 5.47 0.63 9.58 1.11 13.8913.89

No No R,R, peça peça var(notas[,i]),var(notas[,i]), onde onde i=1,2,3,4,5,6i=1,2,3,4,5,6; para obter cada variância.; para obter cada variância.

Page 29: R – Medidas de Dispersão Análise Exploratória de Dados

Desvio-padrãoDesvio-padrão

É a raiz quadrada positiva da variância: É a raiz quadrada positiva da variância: sqrt(var(x)) sqrt(var(x)) ou ou sd(x)sd(x)..

Neste exemplo, temos os seguintes Neste exemplo, temos os seguintes desvios-padrão (arredondados para duas desvios-padrão (arredondados para duas casas decimais): 0.00 2.34 0.79 3.09 1.06 casas decimais): 0.00 2.34 0.79 3.09 1.06 3.733.73

Page 30: R – Medidas de Dispersão Análise Exploratória de Dados

ResumoResumo

Grupo R DEQ dm s2 s

1 0 0 0 0 0

2 8 4.00 1.80 5.47 2.34

3 2 2.00 0.60 0.63 0.79

4 8 6.00 2.70 9.58 3.09

5 3 2.05 0.91 1.11 1.06

6 8 8.00 3.60 13.89 3.73

Page 31: R – Medidas de Dispersão Análise Exploratória de Dados

Histogramas na escala das freqüências

Page 32: R – Medidas de Dispersão Análise Exploratória de Dados

Histogramas com as escalas uniformizadas

Page 33: R – Medidas de Dispersão Análise Exploratória de Dados

Coeficiente de Variação Coeficiente de Variação AmostralAmostral

É uma medida da variação relativa em um É uma medida da variação relativa em um conjunto de valores numéricos.conjunto de valores numéricos.

Costuma ser expresso em termos Costuma ser expresso em termos percentuais.percentuais.

Mede a dispersão dos dados em relação à Mede a dispersão dos dados em relação à média aritmética.média aritmética.

É definido por CV=(DP/média)x100%, É definido por CV=(DP/média)x100%, onde DP é o desvio-padrão dos dados e onde DP é o desvio-padrão dos dados e média é a média aritmética dos dados.média é a média aritmética dos dados.

Page 34: R – Medidas de Dispersão Análise Exploratória de Dados

Exemplo 2: Considere os três Exemplo 2: Considere os três conjuntos de dados abaixo:conjuntos de dados abaixo:

A B C12 4.65 55115 11.65 55423 10.65 55522 11.65 56223 0.65 56216 3.65 561

Page 35: R – Medidas de Dispersão Análise Exploratória de Dados

Exemplo 2: (cont.)Exemplo 2: (cont.)

Calcule a variância de cada um dos três conjuntos de dados.

dadosA<-c(12,15,23,22,23,16)dadosB<-c(0.65,3.65,11.65,10.65,11.65,4.65)dadosC<-c(551,554,555,562,562,561)var(dadosA)22.7var(dadosB)22.7var(dadosC)22.7

mean(dadosA)18.5mean(dadosB)7.15mean(dadosC)557.5

Os comandos estão em exemplo2.txt

Page 36: R – Medidas de Dispersão Análise Exploratória de Dados

Exemplo 2: (cont.)Exemplo 2: (cont.)

dotchart(dadosA,main="A")dotchart(dadosB,main="B")dotchart(dadosC,main="C")

Page 37: R – Medidas de Dispersão Análise Exploratória de Dados

Exemplo 2: coeficiente de Exemplo 2: coeficiente de variaçãovariação

CV para o conjunto A:CV para o conjunto A:sqrt(var(dadosA))*100/mean(dadosA) sqrt(var(dadosA))*100/mean(dadosA) 25.75%25.75%CV para o conjunto B:CV para o conjunto B:sqrt(var(dadosB))*100/mean(dadosB) sqrt(var(dadosB))*100/mean(dadosB) 66.66% 66.66%CV para o conjunto C:CV para o conjunto C:sqrt(var(dadosC))*100/mean(dadosCsqrt(var(dadosC))*100/mean(dadosC) 0.85%) 0.85%Conclusão: O conjunto C é o que apresenta Conclusão: O conjunto C é o que apresenta

menor variabilidade relativa à média.menor variabilidade relativa à média.

Page 38: R – Medidas de Dispersão Análise Exploratória de Dados

Quantis de uma distribuição de Quantis de uma distribuição de freqüênciasfreqüências

Tanto a média como o desvio-padrão Tanto a média como o desvio-padrão podem não ser medidas adequadas para podem não ser medidas adequadas para representar um conjunto de dados, pois:representar um conjunto de dados, pois:

(i) são afetados, de forma exagerada, por (i) são afetados, de forma exagerada, por valores extremos;valores extremos;

(ii) apenas com estes dois valores não (ii) apenas com estes dois valores não temos idéia da simetria ou assimetria da temos idéia da simetria ou assimetria da distribuição dos dados.distribuição dos dados.

Page 39: R – Medidas de Dispersão Análise Exploratória de Dados

Quantis de uma distribuição de Quantis de uma distribuição de freqüências (2)freqüências (2)

Por exemplo, vimos que a mediana é Por exemplo, vimos que a mediana é o valor que deixa 50% dos dados o valor que deixa 50% dos dados (depois de ordenados) abaixo dela e (depois de ordenados) abaixo dela e 50%, acima dela.50%, acima dela.

Analogamente, podemos definir Analogamente, podemos definir outras medidas, variando o outras medidas, variando o percentual 50% (abaixo e acima de), percentual 50% (abaixo e acima de), para um percentual qualquer.para um percentual qualquer.

Page 40: R – Medidas de Dispersão Análise Exploratória de Dados

Quantis de uma distribuição de Quantis de uma distribuição de freqüências (3)freqüências (3)

De um modo geral, podemos definir uma De um modo geral, podemos definir uma medida chamada QUANTIL de ordem medida chamada QUANTIL de ordem pp, ou , ou p-quantil, p-quantil, onde onde pp é uma proporção é uma proporção qualquer, 0qualquer, 0<p<<p<1, tal que 1001, tal que 100pp% das % das observações sejam menores do que o observações sejam menores do que o pp--quantil.quantil.

NOTAÇÃO: NOTAÇÃO: q(p)q(p)

Page 41: R – Medidas de Dispersão Análise Exploratória de Dados
Page 42: R – Medidas de Dispersão Análise Exploratória de Dados

Quantis Especiais: QUARTISQuantis Especiais: QUARTIS

qq(0,25),q(0,50) e q(0,75)(0,25),q(0,50) e q(0,75)q(0,25):q(0,25): primeiro quartil (Q1) ou vigésimo- primeiro quartil (Q1) ou vigésimo-

quinto percentil;quinto percentil;q(0,50):q(0,50): segundo quartil (Q2), ou mediana segundo quartil (Q2), ou mediana

ou qüinquagésimo percentil;ou qüinquagésimo percentil;q(0,75):q(0,75): terceiro quartil (Q3) ou terceiro quartil (Q3) ou

septuagésimo-quinto percentil.septuagésimo-quinto percentil.

Page 43: R – Medidas de Dispersão Análise Exploratória de Dados
Page 44: R – Medidas de Dispersão Análise Exploratória de Dados

Quantis Especiais: DECISQuantis Especiais: DECIS

q(0,1),q(0,2),q(0,3),...,q(0,9)q(0,1),q(0,2),q(0,3),...,q(0,9)q(0,1):q(0,1): primeiro decil (D1) ou décimo primeiro decil (D1) ou décimo

percentil;percentil;q(0,2):q(0,2): segundo decil (D2), ou vigésimo segundo decil (D2), ou vigésimo

percentil;percentil;q(0,3):q(0,3): terceiro decil (D3), ou trigésimo terceiro decil (D3), ou trigésimo

percentil;percentil;etc.etc.

Page 45: R – Medidas de Dispersão Análise Exploratória de Dados
Page 46: R – Medidas de Dispersão Análise Exploratória de Dados

Quantis Especiais: PERCENTISQuantis Especiais: PERCENTIS

q(0,01),q(0,02),q(0,03),...,q(0,99)q(0,01),q(0,02),q(0,03),...,q(0,99)q(0,01):q(0,01): primeiro percentil; primeiro percentil;q(0,02):q(0,02): segundo percentil; segundo percentil;q(0,03):q(0,03): terceiro percentil; terceiro percentil;etc.etc.

Page 47: R – Medidas de Dispersão Análise Exploratória de Dados

Determinação dos quantis usando Determinação dos quantis usando o o RR

A função apropriada do A função apropriada do R R para obter os para obter os quantis de um vetor numérico quantis de um vetor numérico xx é a função é a função quantile.quantile.

Se Se xx é o vetor contendo os dados, e é o vetor contendo os dados, e desejamos determinar os três quartis, desejamos determinar os três quartis, pedimos pedimos quantile(x,c(0.25,0.5,0.75)).quantile(x,c(0.25,0.5,0.75)).

Se desejamos o quinto e o nonagésimo-Se desejamos o quinto e o nonagésimo-quinto percentis, pedimos quinto percentis, pedimos quantile(x,c(0.05,0.95)) etc.quantile(x,c(0.05,0.95)) etc.

Page 48: R – Medidas de Dispersão Análise Exploratória de Dados

Exemplo 3: Emissão de Dióxido Exemplo 3: Emissão de Dióxido de Carbonode Carbono

Os dados no arquivo Os dados no arquivo dados13bm.txt dados13bm.txt fornecem emissões de dióxido de carbono fornecem emissões de dióxido de carbono "per capita", para uma amostra de 72 "per capita", para uma amostra de 72 países. Os dados são do ano de 1995.países. Os dados são do ano de 1995.

Fonte: Fonte: Stabilizing The Atmosphere: Stabilizing The Atmosphere: Population, Consumption and Greenhouse Population, Consumption and Greenhouse GasesGases. .

Page 49: R – Medidas de Dispersão Análise Exploratória de Dados

Exemplo 3: Emissão de Dióxido Exemplo 3: Emissão de Dióxido de Carbono (cont.)de Carbono (cont.)

Determine os três quartis, os decis, a Determine os três quartis, os decis, a média e o desvio-padrão das emissões média e o desvio-padrão das emissões registradas para os 72 países em 1995. registradas para os 72 países em 1995.

Page 50: R – Medidas de Dispersão Análise Exploratória de Dados

Exemplo 3: Emissão de Dióxido Exemplo 3: Emissão de Dióxido de Carbono (cont.)de Carbono (cont.)

dados<-read.table(”m:\\natalie\\aed\\dados<-read.table(”m:\\natalie\\aed\\dados13bm.txt",header=T)dados13bm.txt",header=T)

names(dados)names(dados) [1] "pais" "emissao"[1] "pais" "emissao"quantile(dados$emissao,c(0.25,0.5,0.75)) quantile(dados$emissao,c(0.25,0.5,0.75)) 25% 50% 75% 25% 50% 75% 0.0675 0.4150 1.4725 0.0675 0.4150 1.4725 quantile(dados$emissao,c(0.1,0.2,.3,.4,.5,.6,.7,.8,0.9))quantile(dados$emissao,c(0.1,0.2,.3,.4,.5,.6,.7,.8,0.9))10% 20% 30% 40% 50% 60% 70% 80% 90% 10% 20% 30% 40% 50% 60% 70% 80% 90% 0.02 0.05 0.14 0.28 0.42 0.87 1.26 1.99 3.020.02 0.05 0.14 0.28 0.42 0.87 1.26 1.99 3.02

Page 51: R – Medidas de Dispersão Análise Exploratória de Dados

Exemplo 3: Emissão de Dióxido Exemplo 3: Emissão de Dióxido de Carbono (cont.)de Carbono (cont.)

> mean(dados$emissao)> mean(dados$emissao)[1] 1.174167[1] 1.174167> sqrt(var(dados$emissao))> sqrt(var(dados$emissao))[1] 1.689093[1] 1.689093

Page 52: R – Medidas de Dispersão Análise Exploratória de Dados

Histograma das emissõesHistograma das emissões

Page 53: R – Medidas de Dispersão Análise Exploratória de Dados
Page 54: R – Medidas de Dispersão Análise Exploratória de Dados

Dados em histograma das Dados em histograma das emissõesemissões

$breaks [1] 0 1 2 3 4 5 6 7 8 9$counts[1] 46 12 6 3 2 1 0 1 1$mids[1] 0.5 1.5 2.5 3.5 4.5 5.5 6.5 7.5 8.5

round(histEmissao$counts/72,digits=2)# freqüências relativas[1] 0.64 0.17 0.08 0.04 0.03 0.01 0.00 0.01 0.01# freqüências relativas acumuladas0.64 0.81 0.89 0.93 0.96 0.97 0.97 0.98 1.00

Page 55: R – Medidas de Dispersão Análise Exploratória de Dados

Quantis para dados agrupadosQuantis para dados agrupados

Uma aproximação para obter o Uma aproximação para obter o p-p-quantil quantil quando os dados estão agrupados em quando os dados estão agrupados em classes é a seguinte. classes é a seguinte.

Passo 1: Encontre a classe que contém o Passo 1: Encontre a classe que contém o p-quantil. Seja [a,b[ o intervalo da classe e p-quantil. Seja [a,b[ o intervalo da classe e FFpp a freqüência relativa acumulada desta a freqüência relativa acumulada desta

classe.classe.Passo 2: Calcule Passo 2: Calcule q(p) q(p) como a+m(p-Fcomo a+m(p-Fp-1p-1), ),

onde m é dado por (b-a)/(Fonde m é dado por (b-a)/(Fpp- F- Fp-1p-1).).

Page 56: R – Medidas de Dispersão Análise Exploratória de Dados

Quantis para dados agrupadosQuantis para dados agrupados

)()(

)()( 1

1

ppp

FpFF

abapq

(a,b) - classe que compreende q(p);Fp - freqüência acumulada da classe (a,b);Fp-1 - freqüência acumulada da classe imediatamente anterior

Page 57: R – Medidas de Dispersão Análise Exploratória de Dados

Caso agrupado (comparação)Caso agrupado (comparação)

O O RR nos forneceu como terceiro quartil para nos forneceu como terceiro quartil para emissões o valor: 1.4725 emissões o valor: 1.4725

Para usar a aproximação sugerida no slide Para usar a aproximação sugerida no slide anterior vemos que a classe que contém o anterior vemos que a classe que contém o primeiro quartil é a classe [1,2[ e que primeiro quartil é a classe [1,2[ e que F=0,81 e F anterior é 0,64. Logo, o terceiro F=0,81 e F anterior é 0,64. Logo, o terceiro quartil é aproximadamente quartil é aproximadamente 1+(0.75-0.64)/(0.81-0.64)=1.647059. 1+(0.75-0.64)/(0.81-0.64)=1.647059.

Page 58: R – Medidas de Dispersão Análise Exploratória de Dados

Dados agrupadosDados agrupados

Ao tentar obter aproximações para Ao tentar obter aproximações para quantis mais baixos desta distribuição, quantis mais baixos desta distribuição, obteremos resultados pobres, pois as obteremos resultados pobres, pois as classes mais baixas apresentam uma classes mais baixas apresentam uma freqüência muito alta neste exemplo.freqüência muito alta neste exemplo.

Este tipo de aproximação será necessário Este tipo de aproximação será necessário quando não dispusermos dos dados quando não dispusermos dos dados brutos.brutos.

Page 59: R – Medidas de Dispersão Análise Exploratória de Dados

AtividadeAtividade

Trabalhe com os dados sobre Trabalhe com os dados sobre temperaturas médias mensais de temperaturas médias mensais de Cananéia e Ubatuba no estado de São Cananéia e Ubatuba no estado de São Paulo.Paulo.

Selecione as temperaturas de janeiro, Selecione as temperaturas de janeiro, para as duas cidades, ao longo dos anos para as duas cidades, ao longo dos anos estudados. estudados.

Determine os quartis das temperaturas Determine os quartis das temperaturas médias de janeiro para as duas cidadesmédias de janeiro para as duas cidades

Page 60: R – Medidas de Dispersão Análise Exploratória de Dados

Atividade (continuação)Atividade (continuação)

Repita a atividade anterior para os outros Repita a atividade anterior para os outros meses do ano.meses do ano.

Faça um resumo dos resultados obtidos Faça um resumo dos resultados obtidos numa tabela.numa tabela.