r - lig-05 análise exploratória de dados - 2006. objetivos da aula definir e calcular medidas de...

58
R - LIG-05 R - LIG-05 Análise Exploratória de Análise Exploratória de Dados - 2006 Dados - 2006

Upload: internet

Post on 17-Apr-2015

127 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: R - LIG-05 Análise Exploratória de Dados - 2006. Objetivos da aula Definir e calcular medidas de dispersão: amplitude amostral, distância entre quartis,

R - LIG-05R - LIG-05

Análise Exploratória de Análise Exploratória de Dados - 2006Dados - 2006

Page 2: R - LIG-05 Análise Exploratória de Dados - 2006. Objetivos da aula Definir e calcular medidas de dispersão: amplitude amostral, distância entre quartis,

Objetivos da aulaObjetivos da aula

Definir e calcular medidas de dispersão: Definir e calcular medidas de dispersão: amplitude amostral, distância entre amplitude amostral, distância entre quartis, desvio-médio, variância e desvio-quartis, desvio-médio, variância e desvio-padrão.padrão.

Definir e calcular o coeficiente de variação Definir e calcular o coeficiente de variação amostral.amostral.

Definir e calcular quantis de uma Definir e calcular quantis de uma distribuição de freqüências.distribuição de freqüências.

Page 3: R - LIG-05 Análise Exploratória de Dados - 2006. Objetivos da aula Definir e calcular medidas de dispersão: amplitude amostral, distância entre quartis,

Exemplo 1Exemplo 1

Suponha que um grupo de 120 estudantes Suponha que um grupo de 120 estudantes foi aleatoriamente distribuído em 6 grupos foi aleatoriamente distribuído em 6 grupos de 20.de 20.

Cada grupo recebeu um tipo de Cada grupo recebeu um tipo de treinamento e depois todos foram treinamento e depois todos foram submetidos a um mesmo teste.submetidos a um mesmo teste.

Ao teste é atribuída uma nota de zero a Ao teste é atribuída uma nota de zero a 10.10.

Page 4: R - LIG-05 Análise Exploratória de Dados - 2006. Objetivos da aula Definir e calcular medidas de dispersão: amplitude amostral, distância entre quartis,

Exemplo 1 (continuação)Exemplo 1 (continuação)

Os dados (fictícios) com as notas dos Os dados (fictícios) com as notas dos testes para os seis grupos estão no testes para os seis grupos estão no arquivo arquivo notas.txt.notas.txt.notas=read.table(“http://www.im.ufrj/~flavia/aed06/notas.txt”)notas=read.table(“http://www.im.ufrj/~flavia/aed06/notas.txt”)

names(notas)=c(“G1”,”G2”,”G3”,”G4”,”G5”,”G6”)names(notas)=c(“G1”,”G2”,”G3”,”G4”,”G5”,”G6”)

Page 5: R - LIG-05 Análise Exploratória de Dados - 2006. Objetivos da aula Definir e calcular medidas de dispersão: amplitude amostral, distância entre quartis,

Exemplo 1 (continuação)Exemplo 1 (continuação)

Calcule a média e a mediana das notas Calcule a média e a mediana das notas para cada grupo.para cada grupo.

É possível ver que todos os grupos É possível ver que todos os grupos apresentam a mesma média 5 e a mesma apresentam a mesma média 5 e a mesma mediana 5.mediana 5.

Será que podemos afirmar que as Será que podemos afirmar que as performances foram iguais para os performances foram iguais para os diferentes grupos?diferentes grupos?

Page 6: R - LIG-05 Análise Exploratória de Dados - 2006. Objetivos da aula Definir e calcular medidas de dispersão: amplitude amostral, distância entre quartis,

> mean(notas)G1 G2 G3 G4 G5 G6 5 5 5 5 5 5

medianaNotas<-matrix(0,1,6)# cria o vetor medianaNotas com todas as entradas nulas# de dimensão 1 por 6for (i in 1:6) {medianaNotas[1,i]=median(notas[,i])}# para i variando de 1 a 6 atribui a medianaNotas da #coluna i a mediana das notas do i-ésimo grupo.> medianaNotas [,1] [,2] [,3] [,4] [,5] [,6][1,] 5 5 5 5 5 5

Page 7: R - LIG-05 Análise Exploratória de Dados - 2006. Objetivos da aula Definir e calcular medidas de dispersão: amplitude amostral, distância entre quartis,

Ramo e folhas das notasRamo e folhas das notas

Para responder a pergunta anterior, Para responder a pergunta anterior, podemos construir os ramo-e-folhas das podemos construir os ramo-e-folhas das notas para observar a variação das notas para observar a variação das mesmas nos diferentes grupos.mesmas nos diferentes grupos.

Page 8: R - LIG-05 Análise Exploratória de Dados - 2006. Objetivos da aula Definir e calcular medidas de dispersão: amplitude amostral, distância entre quartis,

Ramo e folhas das notasRamo e folhas das notas> stem(notas$G1) 5 | 00000000000000000000

> stem(notas$G4,scale=2)

1 | 0000 2 | 00 3 | 00 4 | 0 5 | 00 6 | 0 7 | 00 8 | 00 9 | 0000

> stem(notas$G6,scale=2) 1 | 000000 2 | 0000 3 | 4 | 5 | 6 | 7 | 8 | 0000 9 | 000000

> stem(notas$G2) 0 | 00 2 | 00000 4 | 000000 6 | 00000 8 | 00

> stem(notas$G3) 4 | 000000 4 | 5 | 00000000 5 | 6 | 000000

> stem(notas$G5) 3 | 56789 4 | 0248 5 | 00268 6 | 012345

Page 9: R - LIG-05 Análise Exploratória de Dados - 2006. Objetivos da aula Definir e calcular medidas de dispersão: amplitude amostral, distância entre quartis,

ComparaçãoComparação

Pelos ramos-e-folhas de cada grupo podemos Pelos ramos-e-folhas de cada grupo podemos ver que há diferenças entre as respectivas ver que há diferenças entre as respectivas performances.performances.Por exemplo, no grupo 1 não houve variação: Por exemplo, no grupo 1 não houve variação: todos os 20 estudantes obtiveram nota 5.todos os 20 estudantes obtiveram nota 5.Já no grupo 6, nenhum estudante obteve nota 5: Já no grupo 6, nenhum estudante obteve nota 5: ou as notas foram 1 e 2 ou 8 e 9.ou as notas foram 1 e 2 ou 8 e 9.Enfim, a partir deste exemplo, percebe-se a Enfim, a partir deste exemplo, percebe-se a necessidade de outras medidas para necessidade de outras medidas para caracterizar um conjunto de dados além de caracterizar um conjunto de dados além de medidas tais como média e mediana.medidas tais como média e mediana.

Page 10: R - LIG-05 Análise Exploratória de Dados - 2006. Objetivos da aula Definir e calcular medidas de dispersão: amplitude amostral, distância entre quartis,

Medidas de DispersãoMedidas de Dispersão

É necessário caracterizar o conjunto É necessário caracterizar o conjunto também usando medidas que avaliam a também usando medidas que avaliam a variabilidade dos dados no conjunto.variabilidade dos dados no conjunto.

A seguir, apresentaremos algumas A seguir, apresentaremos algumas medidas de dispersão comuns.medidas de dispersão comuns.

Page 11: R - LIG-05 Análise Exploratória de Dados - 2006. Objetivos da aula Definir e calcular medidas de dispersão: amplitude amostral, distância entre quartis,

Amplitude Amostral RAmplitude Amostral R

A amplitude amostral é uma das medidas A amplitude amostral é uma das medidas de dispersão mais simples. de dispersão mais simples.

É dada pela diferença entre os valores É dada pela diferença entre os valores máximo e mínimo observados na amostra.máximo e mínimo observados na amostra.

Se Se xx é o vetor que contém os dados, é o vetor que contém os dados, podemos calcular a amplitude amostral podemos calcular a amplitude amostral como como amplitude<-max(x)-min(x).amplitude<-max(x)-min(x).

Page 12: R - LIG-05 Análise Exploratória de Dados - 2006. Objetivos da aula Definir e calcular medidas de dispersão: amplitude amostral, distância entre quartis,

Amplitude amostral Amplitude amostral (continuação)(continuação)

Obtenha a amplitude amostral dos Obtenha a amplitude amostral dos diferentes grupos.diferentes grupos.

É claro que no grupo 1 a amplitude É claro que no grupo 1 a amplitude amostral é zero.amostral é zero.

Vemos que nos grupos 2, 4 e 6, a Vemos que nos grupos 2, 4 e 6, a amplitude é 8; e nos grupos 3 e 5 são amplitude é 8; e nos grupos 3 e 5 são respectivamente 2 e 3.respectivamente 2 e 3.

Page 13: R - LIG-05 Análise Exploratória de Dados - 2006. Objetivos da aula Definir e calcular medidas de dispersão: amplitude amostral, distância entre quartis,

Amplitude amostral nos gruposAmplitude amostral nos grupos

amplitudeNotas<-matrix(0,1,6)# cria o vetor amplitudeNotas com entradas nulas de dimensão# 1 por 6for (i in 1:6) {amplitudeNotas[1,i]=max(notas[,i])-min(notas[,i])}# atribui a cada entrada do vetor amplitudeNotas a diferença entre a # nota máxima e mínima do respectivo grupo> amplitudeNotas [,1] [,2] [,3] [,4] [,5] [,6][1,] 0 8 2 8 3 8

Page 14: R - LIG-05 Análise Exploratória de Dados - 2006. Objetivos da aula Definir e calcular medidas de dispersão: amplitude amostral, distância entre quartis,

Desvantagens da amplitude Desvantagens da amplitude amostralamostral

A grande desvantagem da amplitude A grande desvantagem da amplitude amostral como medida para caracterizar a amostral como medida para caracterizar a dispersão num conjunto de dados é que dispersão num conjunto de dados é que ela só leva em conta o mínimo e o ela só leva em conta o mínimo e o máximo dos dados, ignorando todo o máximo dos dados, ignorando todo o resto.resto.

Observe que há diferenças nos grupos 2, Observe que há diferenças nos grupos 2, 4 e 6. Porém, todos eles têm a mesma 4 e 6. Porém, todos eles têm a mesma amplitude amostral.amplitude amostral.

Page 15: R - LIG-05 Análise Exploratória de Dados - 2006. Objetivos da aula Definir e calcular medidas de dispersão: amplitude amostral, distância entre quartis,

Ramo e folhas dos grupos 2, 4 e 6Ramo e folhas dos grupos 2, 4 e 6> stem(notas$G4,scale=2)

1 | 0000 2 | 00 3 | 00 4 | 0 5 | 00 6 | 0 7 | 00 8 | 00 9 | 0000

> stem(notas$G6,scale=2) 1 | 000000 2 | 0000 3 | 4 | 5 | 6 | 7 | 8 | 0000 9 | 000000

> stem(notas$G2,scale=2) 1 | 00 2 | 3 | 00000 4 | 5 | 000000 6 | 7 | 00000 8 | 9 | 00

Page 16: R - LIG-05 Análise Exploratória de Dados - 2006. Objetivos da aula Definir e calcular medidas de dispersão: amplitude amostral, distância entre quartis,

Função Função range()range()

Se Se xx é um vetor numérico, a função é um vetor numérico, a função range(x)range(x) retorna o valor mínimo e o valor retorna o valor mínimo e o valor máximo em máximo em x.x.

AssimAssim, range(x)[2]-range(x)[1] , range(x)[2]-range(x)[1] é é equivalente àequivalente à max(x)-min(x). max(x)-min(x).

Page 17: R - LIG-05 Análise Exploratória de Dados - 2006. Objetivos da aula Definir e calcular medidas de dispersão: amplitude amostral, distância entre quartis,

Amplitude interquartílica ou Amplitude interquartílica ou Distância entre quartis (DEQ)Distância entre quartis (DEQ)Uma medida de dispersão um pouco mais Uma medida de dispersão um pouco mais refinada que a amplitude amostral é a refinada que a amplitude amostral é a distância entre quartis (DEQ).distância entre quartis (DEQ).Depois de ordenada a amostra, divide-se Depois de ordenada a amostra, divide-se ela em quatro partes de freqüência ela em quatro partes de freqüência relativa ¼. Tomam-se então os valores relativa ¼. Tomam-se então os valores que correspondem à freqüência relativa que correspondem à freqüência relativa acumulada de ¼ e ¾, que são chamados acumulada de ¼ e ¾, que são chamados respectivamente de primeiro e terceiro respectivamente de primeiro e terceiro quartis (Q1 e Q3). quartis (Q1 e Q3).

Page 18: R - LIG-05 Análise Exploratória de Dados - 2006. Objetivos da aula Definir e calcular medidas de dispersão: amplitude amostral, distância entre quartis,
Page 19: R - LIG-05 Análise Exploratória de Dados - 2006. Objetivos da aula Definir e calcular medidas de dispersão: amplitude amostral, distância entre quartis,

Distância entre quartisDistância entre quartis

DEQ=Q3-Q1DEQ=Q3-Q1No No RR podemos calcular a distância entre podemos calcular a distância entre quartis para um vetor de dados quartis para um vetor de dados xx da da seguinte forma seguinte forma deq<-IQR(x)deq<-IQR(x) Para as notas do exemplo temos os Para as notas do exemplo temos os valores 0.00 4.00 2.00 6.00 2.05 8.00 para valores 0.00 4.00 2.00 6.00 2.05 8.00 para as distâncias entre quartis dos grupos 1, as distâncias entre quartis dos grupos 1, 2, 3, 4, 5 e 6, respectivamente.2, 3, 4, 5 e 6, respectivamente.

Page 20: R - LIG-05 Análise Exploratória de Dados - 2006. Objetivos da aula Definir e calcular medidas de dispersão: amplitude amostral, distância entre quartis,

Valores observados de DEQ para Valores observados de DEQ para os diferentes gruposos diferentes grupos

DEQNotas<-matrix(0,1,6)# cria o vetor amplitudeNotas com entradas nulas de dimensão# 1 por 6for (i in 1:6) {DEQNotas[1,i]=IQR(notas[,i])}# atribui a cada entrada do vetor DEQNotas a distância entre # quartis do respectivo grupo> DEQNotas [,1] [,2] [,3] [,4] [,5] [,6][1,] 0 4 2 6 2.05 8

Page 21: R - LIG-05 Análise Exploratória de Dados - 2006. Objetivos da aula Definir e calcular medidas de dispersão: amplitude amostral, distância entre quartis,

Distância entre quartis Distância entre quartis (continuação)(continuação)

Podemos ver que a distância entre quartis Podemos ver que a distância entre quartis apresenta diferenças que não foram apresenta diferenças que não foram detectadas pela amplitude amostral entre detectadas pela amplitude amostral entre os diferentes grupos.os diferentes grupos.

Mas, esta medida, ainda tem a Mas, esta medida, ainda tem a desvantagem de só levar em conta dois desvantagem de só levar em conta dois valores do conjunto, ignorando os valores do conjunto, ignorando os extremos e o meio.extremos e o meio.

Page 22: R - LIG-05 Análise Exploratória de Dados - 2006. Objetivos da aula Definir e calcular medidas de dispersão: amplitude amostral, distância entre quartis,

Função Função quantile(x,p)quantile(x,p)

A função A função quantile(x,p)quantile(x,p) retorna o quantil de retorna o quantil de ordem ordem p, p, q(p)q(p), , considerando a considerando a distribuição de freqüências dos valores no distribuição de freqüências dos valores no vetor vetor x, 0<p<1x, 0<p<1..

Assim, pedir Assim, pedir IQR(x)IQR(x) é equivalente à pedir é equivalente à pedir quantile(x,0.75)-quantile(x,0.25) que quantile(x,0.75)-quantile(x,0.25) que retornará Q3-Q1.retornará Q3-Q1.

Page 23: R - LIG-05 Análise Exploratória de Dados - 2006. Objetivos da aula Definir e calcular medidas de dispersão: amplitude amostral, distância entre quartis,

Desvio médio Desvio médio

É uma medida de dispersão que leva em É uma medida de dispersão que leva em conta todos os valores no conjunto de dados.conta todos os valores no conjunto de dados.

Primeiro vamos definir desvio absoluto da Primeiro vamos definir desvio absoluto da média.média.

Se Se x1,x2,...,xnx1,x2,...,xn são os valores observados e são os valores observados e x

é a correspondente média aritmética, então um é a correspondente média aritmética, então um desvio absoluto da média é dado por:desvio absoluto da média é dado por:

xxi

Page 24: R - LIG-05 Análise Exploratória de Dados - 2006. Objetivos da aula Definir e calcular medidas de dispersão: amplitude amostral, distância entre quartis,

Desvio médio Desvio médio

O desvio médio absoluto (DMA) é definido como a O desvio médio absoluto (DMA) é definido como a média aritmética dos desvios absolutos da média no média aritmética dos desvios absolutos da média no vetor x, isto é, vetor x, isto é,

n

ii xx

nDMA

1

||1

Page 25: R - LIG-05 Análise Exploratória de Dados - 2006. Objetivos da aula Definir e calcular medidas de dispersão: amplitude amostral, distância entre quartis,

Desvio médio absoluto Desvio médio absoluto

dma<-c(0,0,0,0,0,0)#atribui à dma um vetor nulo de dimensão 6for (i in 1:6){for (j in 1:20){dma[i]<-dma[i]+abs(notas[j,i]-mean(notas[,i]))}}#acumula em cada grupo (i variando de 1 a 6) os desvios absolutos da média #(j variando de 1 a 20)dma<-dma/20#calcula a média, dividindo por 20 que é o número de notas em cada #grupo

Page 26: R - LIG-05 Análise Exploratória de Dados - 2006. Objetivos da aula Definir e calcular medidas de dispersão: amplitude amostral, distância entre quartis,

Desvios médios no exemploDesvios médios no exemplo

Para as notas nos seis grupos podemos Para as notas nos seis grupos podemos ver que os desvios médios são, ver que os desvios médios são, respectivamente, respectivamente, 0.00 1.80 0.60 2.70 0.91 3.600.00 1.80 0.60 2.70 0.91 3.60

Page 27: R - LIG-05 Análise Exploratória de Dados - 2006. Objetivos da aula Definir e calcular medidas de dispersão: amplitude amostral, distância entre quartis,

Variância amostralVariância amostral

É a média dos desvios da média tomados ao É a média dos desvios da média tomados ao quadrado.quadrado.Veremos na disciplina Introdução à Veremos na disciplina Introdução à Estatística, que no caso particular da Estatística, que no caso particular da variância, é comum adotar o denominador variância, é comum adotar o denominador da média em da média em n-1n-1..O O RR possui uma função própria para calcular possui uma função própria para calcular a variância com denominador a variância com denominador n-1n-1 dada por dada por var(x),var(x), se se xx é o vetor contendo os valores é o vetor contendo os valores cuja variância está para ser calculada.cuja variância está para ser calculada.

Page 28: R - LIG-05 Análise Exploratória de Dados - 2006. Objetivos da aula Definir e calcular medidas de dispersão: amplitude amostral, distância entre quartis,

Variância amostralVariância amostral

2

1

2 )(1

1

n

ii xx

ns

Page 29: R - LIG-05 Análise Exploratória de Dados - 2006. Objetivos da aula Definir e calcular medidas de dispersão: amplitude amostral, distância entre quartis,

Variância de Variância de notasnotas

Neste exemplo, temos para os grupos, Neste exemplo, temos para os grupos, respectivamente, as variâncias respectivamente, as variâncias (arredondadas para duas casas decimais): (arredondadas para duas casas decimais): 0.00 5.47 0.63 9.58 1.11 13.890.00 5.47 0.63 9.58 1.11 13.89

Page 30: R - LIG-05 Análise Exploratória de Dados - 2006. Objetivos da aula Definir e calcular medidas de dispersão: amplitude amostral, distância entre quartis,

>vetVar<-c(0,0,0,0,0,0) #vetVar é criado como um vetor #nulo de dimensão 6>for (i in 1:6){vetVar[i]<-var(notas[,i])}#cada entrada de vetVar recebe a variãncia amostral do #grupo correspondente> vetVar[1] 0 5.473684 0.631579 9.578947 1.114737 13.894737

Page 31: R - LIG-05 Análise Exploratória de Dados - 2006. Objetivos da aula Definir e calcular medidas de dispersão: amplitude amostral, distância entre quartis,

Desvio-padrãoDesvio-padrão

É a raiz quadrada positiva da variância: É a raiz quadrada positiva da variância: sqrt(var(x)) sqrt(var(x)) ou ou sd(x)sd(x)..

Neste exemplo temos os seguintes Neste exemplo temos os seguintes desvios-padrão (arredondados para duas desvios-padrão (arredondados para duas casas decimais): 0.00 2.34 0.79 3.09 1.06 casas decimais): 0.00 2.34 0.79 3.09 1.06 3.733.73

> sqrt(vetVar)[1] 0 2.3395906 0.7947194 3.0949875 1.0558110 3.7275645

Page 32: R - LIG-05 Análise Exploratória de Dados - 2006. Objetivos da aula Definir e calcular medidas de dispersão: amplitude amostral, distância entre quartis,

ResumoResumo

Grupo R DEQ DMA s2 s

1 0 0 0 0 0

2 8 4.00 1.80 5.47 2.34

3 2 2.00 0.60 0.63 0.79

4 8 6.00 2.70 9.58 3.09

5 3 2.05 0.91 1.11 1.06

6 8 8.00 3.60 13.89 3.73

Page 33: R - LIG-05 Análise Exploratória de Dados - 2006. Objetivos da aula Definir e calcular medidas de dispersão: amplitude amostral, distância entre quartis,

Histogramas na escala das freqüências

Page 34: R - LIG-05 Análise Exploratória de Dados - 2006. Objetivos da aula Definir e calcular medidas de dispersão: amplitude amostral, distância entre quartis,

Histogramas com as escalas uniformizadas

Page 35: R - LIG-05 Análise Exploratória de Dados - 2006. Objetivos da aula Definir e calcular medidas de dispersão: amplitude amostral, distância entre quartis,

Coeficiente de Variação Coeficiente de Variação AmostralAmostral

É uma medida da variação relativa em um É uma medida da variação relativa em um conjunto de valores numéricos.conjunto de valores numéricos.

Costuma ser expresso em termos Costuma ser expresso em termos percentuais.percentuais.

Mede a dispersão dos dados em relação à Mede a dispersão dos dados em relação à média aritmética.média aritmética.

É definido por CV=(DP/média)x100%, onde É definido por CV=(DP/média)x100%, onde DP é o desvio-padrão dos dados, média é a DP é o desvio-padrão dos dados, média é a média aritmética dos dados.média aritmética dos dados.

Page 36: R - LIG-05 Análise Exploratória de Dados - 2006. Objetivos da aula Definir e calcular medidas de dispersão: amplitude amostral, distância entre quartis,

Exemplo 2: Considere os três Exemplo 2: Considere os três conjuntos de dados abaixo:conjuntos de dados abaixo:

A B C12 4.65 55115 11.65 55423 10.65 55522 11.65 56223 0.65 56216 3.65 561

Page 37: R - LIG-05 Análise Exploratória de Dados - 2006. Objetivos da aula Definir e calcular medidas de dispersão: amplitude amostral, distância entre quartis,

Exemplo 2: (cont.)Exemplo 2: (cont.)

Calcule a variância de cada um dos três conjuntos de dados.

dadosA<-c(12,15,23,22,23,16)dadosB<-c(0.65,3.65,11.65,10.65,11.65,4.65)dadosC<-c(551,554,555,562,562,561)var(dadosA)22.7var(dadosB)22.7var(dadosC)22.7

mean(dadosA)18.5mean(dadosB)7.15mean(dadosC)557.5

Os comandos estão em exemplo2.txt

Page 38: R - LIG-05 Análise Exploratória de Dados - 2006. Objetivos da aula Definir e calcular medidas de dispersão: amplitude amostral, distância entre quartis,

Exemplo 2: (cont.)Exemplo 2: (cont.)

dotchart(dadosA,main="A")dotchart(dadosB,main="B")dotchart(dadosC,main="C")

Page 39: R - LIG-05 Análise Exploratória de Dados - 2006. Objetivos da aula Definir e calcular medidas de dispersão: amplitude amostral, distância entre quartis,

Exemplo 2: coeficiente de Exemplo 2: coeficiente de variaçãovariação

CV para o conjunto A: CV para o conjunto A: sqrt(var(dadosA))*100/mean(dadosA) sqrt(var(dadosA))*100/mean(dadosA) 25.75%25.75%

CV para o conjunto B: CV para o conjunto B: sqrt(var(dadosB))*100/mean(dadosB) sqrt(var(dadosB))*100/mean(dadosB) 66.66% 66.66%

CV para o conjunto C: CV para o conjunto C: sqrt(var(dadosC))*100/mean(dadosCsqrt(var(dadosC))*100/mean(dadosC) 0.85%) 0.85%

Conclusão: O conjunto C é o que apresenta Conclusão: O conjunto C é o que apresenta menor variabilidade relativa à média.menor variabilidade relativa à média.

Page 40: R - LIG-05 Análise Exploratória de Dados - 2006. Objetivos da aula Definir e calcular medidas de dispersão: amplitude amostral, distância entre quartis,

Quantis de uma distribuição de Quantis de uma distribuição de freqüênciasfreqüências

Tanto a média como o desvio-padrão Tanto a média como o desvio-padrão podem não ser medidas adequadas para podem não ser medidas adequadas para representar um conjunto de dados, pois:representar um conjunto de dados, pois:

(i) são afetados, de forma exagerada por (i) são afetados, de forma exagerada por valores extremos;valores extremos;

(ii) apenas com estes dois valores não (ii) apenas com estes dois valores não temos idéia da simetria ou assimetria da temos idéia da simetria ou assimetria da distribuição dos dados.distribuição dos dados.

Page 41: R - LIG-05 Análise Exploratória de Dados - 2006. Objetivos da aula Definir e calcular medidas de dispersão: amplitude amostral, distância entre quartis,

Quantis de uma distribuição de Quantis de uma distribuição de freqüências (2)freqüências (2)

Por exemplo, vimos que a mediana é Por exemplo, vimos que a mediana é o valor que deixa 50% dos dados o valor que deixa 50% dos dados (depois de ordenados) abaixo dela e (depois de ordenados) abaixo dela e 50%, acima dela.50%, acima dela.

Analogamente, podemos definir Analogamente, podemos definir outras medidas, variando o outras medidas, variando o percentual 50% (abaixo e acima de), percentual 50% (abaixo e acima de), para um percentual qualquer.para um percentual qualquer.

Page 42: R - LIG-05 Análise Exploratória de Dados - 2006. Objetivos da aula Definir e calcular medidas de dispersão: amplitude amostral, distância entre quartis,

Quantis de uma distribuição de Quantis de uma distribuição de freqüências (3)freqüências (3)

De um modo geral, podemos definir uma De um modo geral, podemos definir uma medida chamada QUANTIL de ordem medida chamada QUANTIL de ordem pp, , comcom pp representando uma proporção representando uma proporção qualquer, 0qualquer, 0<p<<p<1, tal que 1001, tal que 100pp% das % das observações sejam menores do que o observações sejam menores do que o quantil de ordem p.quantil de ordem p.

NOTAÇÃO: NOTAÇÃO: q(p)q(p)

Page 43: R - LIG-05 Análise Exploratória de Dados - 2006. Objetivos da aula Definir e calcular medidas de dispersão: amplitude amostral, distância entre quartis,
Page 44: R - LIG-05 Análise Exploratória de Dados - 2006. Objetivos da aula Definir e calcular medidas de dispersão: amplitude amostral, distância entre quartis,

Quantis Especiais: QUARTISQuantis Especiais: QUARTIS

São três medidas (Q1, Q2 e Q3) que repartem a São três medidas (Q1, Q2 e Q3) que repartem a distribuição em quatro intervalos de freqüência distribuição em quatro intervalos de freqüência relativa ¼:relativa ¼:qq(0,25),q(0,50) e q(0,75)(0,25),q(0,50) e q(0,75)q(0,25):q(0,25): primeiro quartil (Q1) ou vigésimo-quinto primeiro quartil (Q1) ou vigésimo-quinto percentil;percentil;q(0,50):q(0,50): segundo quartil (Q2), ou mediana ou segundo quartil (Q2), ou mediana ou qüinquagésimo percentil;qüinquagésimo percentil;q(0,75):q(0,75): terceiro quartil (Q3) ou septuagésimo- terceiro quartil (Q3) ou septuagésimo-quinto percentil.quinto percentil.

Page 45: R - LIG-05 Análise Exploratória de Dados - 2006. Objetivos da aula Definir e calcular medidas de dispersão: amplitude amostral, distância entre quartis,
Page 46: R - LIG-05 Análise Exploratória de Dados - 2006. Objetivos da aula Definir e calcular medidas de dispersão: amplitude amostral, distância entre quartis,

Quantis Especiais: DECISQuantis Especiais: DECIS

São 9 medidas que repartem a distribuição em São 9 medidas que repartem a distribuição em 10 intervalos de freqüência relativa 1/10:10 intervalos de freqüência relativa 1/10:

q(0,1),q(0,2),q(0,3),...,q(0,9)q(0,1),q(0,2),q(0,3),...,q(0,9)

q(0,1):q(0,1): primeiro decil (D1) ou décimo percentil; primeiro decil (D1) ou décimo percentil;

q(0,2):q(0,2): segundo decil (D2), ou vigésimo segundo decil (D2), ou vigésimo percentil;percentil;

q(0,3):q(0,3): terceiro decil (D3), ou trigésimo percentil; terceiro decil (D3), ou trigésimo percentil;

etc.etc.

Page 47: R - LIG-05 Análise Exploratória de Dados - 2006. Objetivos da aula Definir e calcular medidas de dispersão: amplitude amostral, distância entre quartis,
Page 48: R - LIG-05 Análise Exploratória de Dados - 2006. Objetivos da aula Definir e calcular medidas de dispersão: amplitude amostral, distância entre quartis,

Quantis Especiais: PERCENTISQuantis Especiais: PERCENTIS

q(0,01),q(0,02),q(0,03),...,q(0,99)q(0,01),q(0,02),q(0,03),...,q(0,99)

q(0,01):q(0,01): primeiro percentil; primeiro percentil;

q(0,02):q(0,02): segundo percentil; segundo percentil;

q(0,03):q(0,03): terceiro percentil; terceiro percentil;

etc.etc.

Page 49: R - LIG-05 Análise Exploratória de Dados - 2006. Objetivos da aula Definir e calcular medidas de dispersão: amplitude amostral, distância entre quartis,

Determinação dos quantis usando Determinação dos quantis usando o o RR

A função apropriada do A função apropriada do R R para obter os para obter os quantis de um vetor numérico quantis de um vetor numérico xx é a função é a função quantile.quantile.

Se Se xx é o vetor contendo os dados, e é o vetor contendo os dados, e desejamos determinar os três quartis, desejamos determinar os três quartis, pedimos pedimos quantile(x,c(0.25,0.5,0.75)).quantile(x,c(0.25,0.5,0.75)).

Se desejamos o quinto e o nonagésimo-Se desejamos o quinto e o nonagésimo-quinto percentis, pedimos quinto percentis, pedimos quantile(x,c(0.05,0.95)), etc.quantile(x,c(0.05,0.95)), etc.

Page 50: R - LIG-05 Análise Exploratória de Dados - 2006. Objetivos da aula Definir e calcular medidas de dispersão: amplitude amostral, distância entre quartis,

Exemplo 3: Emissão de Dióxido Exemplo 3: Emissão de Dióxido de Carbonode Carbono

Os dados no arquivo Os dados no arquivo dados13bm.txt dados13bm.txt fornecem emissões de dióxido de carbono fornecem emissões de dióxido de carbono "per capita", para uma amostra de 72 "per capita", para uma amostra de 72 países. Os dados são do ano de 1995. países. Os dados são do ano de 1995.

Fonte: Fonte: Stabilizing The Atmosphere: Stabilizing The Atmosphere: Population, Consumption and Greenhouse Population, Consumption and Greenhouse GasesGases. .

Page 51: R - LIG-05 Análise Exploratória de Dados - 2006. Objetivos da aula Definir e calcular medidas de dispersão: amplitude amostral, distância entre quartis,

Exemplo 3: Emissão de Dióxido Exemplo 3: Emissão de Dióxido de Carbono (cont.)de Carbono (cont.)

Determine os três quartis, os decis, a Determine os três quartis, os decis, a média e o desvio-padrão das emissões média e o desvio-padrão das emissões registradas para os 72 países em 1995. registradas para os 72 países em 1995.

Page 52: R - LIG-05 Análise Exploratória de Dados - 2006. Objetivos da aula Definir e calcular medidas de dispersão: amplitude amostral, distância entre quartis,

Exemplo 3: Emissão de Dióxido Exemplo 3: Emissão de Dióxido de Carbono (cont.)de Carbono (cont.)

dados=read.table(”http://www.im.ufrj/~flavia/aed06/dados13bm.txt",header=T)dados=read.table(”http://www.im.ufrj/~flavia/aed06/dados13bm.txt",header=T)

names(dados)names(dados)

[1] "pais" "emissao"[1] "pais" "emissao"

quantile(dados$emissao,c(0.25,0.5,0.75)) quantile(dados$emissao,c(0.25,0.5,0.75))

25% 50% 75% 25% 50% 75%

0.0675 0.4150 1.4725 0.0675 0.4150 1.4725

quantile(dados$emissao,c(0.1,0.2,.3,.4,.5,.6,.7,.8,0.9))quantile(dados$emissao,c(0.1,0.2,.3,.4,.5,.6,.7,.8,0.9))

10% 20% 30% 40% 50% 60% 70% 80% 90% 10% 20% 30% 40% 50% 60% 70% 80% 90%

0.02 0.05 0.14 0.28 0.42 0.87 1.26 1.99 3.020.02 0.05 0.14 0.28 0.42 0.87 1.26 1.99 3.02

Page 53: R - LIG-05 Análise Exploratória de Dados - 2006. Objetivos da aula Definir e calcular medidas de dispersão: amplitude amostral, distância entre quartis,

Exemplo 3: Emissão de Dióxido Exemplo 3: Emissão de Dióxido de Carbono (cont.)de Carbono (cont.)

> mean(dados$emissao)> mean(dados$emissao)

[1] 1.174167[1] 1.174167

> sqrt(var(dados$emissao))> sqrt(var(dados$emissao))

[1] 1.689093[1] 1.689093

Page 54: R - LIG-05 Análise Exploratória de Dados - 2006. Objetivos da aula Definir e calcular medidas de dispersão: amplitude amostral, distância entre quartis,

Histograma das emissõesHistograma das emissões

Page 55: R - LIG-05 Análise Exploratória de Dados - 2006. Objetivos da aula Definir e calcular medidas de dispersão: amplitude amostral, distância entre quartis,

Quantis para dados agrupadosQuantis para dados agrupados

Uma aproximação para obter o quantil de ordem p Uma aproximação para obter o quantil de ordem p quando os dados estão agrupados em classes é a quando os dados estão agrupados em classes é a seguinte. seguinte.

Passo 1: Encontre a classe que contém o p-quantil. Passo 1: Encontre a classe que contém o p-quantil. Seja [aSeja [app,a,ap+1p+1[ esse intervalo e F[ esse intervalo e Fpp a freqüência relativa a freqüência relativa

acumulada desta classe.acumulada desta classe.

Passo 2: Encontre o comprimento desse intervalo (cPasso 2: Encontre o comprimento desse intervalo (cpp), ),

a freqüência relativa dessa classe (fa freqüência relativa dessa classe (fpp) e a freqüência ) e a freqüência

relativa acumulada da classe anterior (Frelativa acumulada da classe anterior (Fp-1p-1).).

Passo 3: Calcule Passo 3: Calcule q(p) q(p) comocomo)()( 1 p

p

pp Fp

f

capq

Page 56: R - LIG-05 Análise Exploratória de Dados - 2006. Objetivos da aula Definir e calcular medidas de dispersão: amplitude amostral, distância entre quartis,

Quantis para dados agrupadosQuantis para dados agrupados

)()( 1 pp

pp Fp

f

capq

(ap,ap+1) - classe que contém q(p);Fp - freqüência relativa acumulada da classe (ap,ap+1) cp – a amplitude da classefp – a freqüência relativa da classe eFP-1- freqüência relativa acumulada da classe imediatamente anterior

Page 57: R - LIG-05 Análise Exploratória de Dados - 2006. Objetivos da aula Definir e calcular medidas de dispersão: amplitude amostral, distância entre quartis,

AtividadeAtividade

Trabalhe com os dados sobre Trabalhe com os dados sobre temperaturas médias mensais de temperaturas médias mensais de Cananéia e Ubatuba no estado de São Cananéia e Ubatuba no estado de São Paulo.Paulo.

Selecione as temperaturas de janeiro, Selecione as temperaturas de janeiro, para as duas cidades, ao longo dos anos para as duas cidades, ao longo dos anos estudados. estudados.

Determine os quartis das temperaturas Determine os quartis das temperaturas médias de janeiro para as duas cidadesmédias de janeiro para as duas cidades

Page 58: R - LIG-05 Análise Exploratória de Dados - 2006. Objetivos da aula Definir e calcular medidas de dispersão: amplitude amostral, distância entre quartis,

Atividade (continuação)Atividade (continuação)

Repita a atividade anterior para os outros Repita a atividade anterior para os outros meses do ano.meses do ano.

Faça um resumo dos resultados obtidos Faça um resumo dos resultados obtidos numa tabela e num gráfico.numa tabela e num gráfico.