medidas descritivas e graficos
TRANSCRIPT
MAE0217 - Estatıstica Descritiva
Fabio Rampazzo Mathias
Fernando Henrique Ferraz Pereira da Rosa
Matheus Moreira Costa
Vagner Aparecido Pedro Junior
Paulo Eduardo Bani de Carvalho
25 de setembro de 2003
Lista 2
1. Os dados a seguir referem-se a medidas de prostaglandina (pg/ml) e calcio(ml/dl) em pacientes com cancer apresentando ou nao hipercalcemia.
IPGE Calcium status1 500.00 13.30 hyper2 500.00 11.20 hyper3 301.00 13.40 hyper4 272.00 11.50 hyper5 226.00 11.40 hyper6 183.00 11.60 hyper7 183.00 11.70 hyper8 177.00 12.10 hyper9 136.00 12.50 hyper
10 118.00 12.20 hyper11 60.00 18.00 hyper12 254.00 10.10 nohyper13 172.00 9.40 nohyper14 168.00 9.30 nohyper15 150.00 8.60 nohyper16 148.00 10.50 nohyper17 144.00 10.30 nohyper18 130.00 10.50 nohyper19 121.00 10.20 nohyper20 100.00 9.70 nohyper21 88.00 9.20 nohyper
(a) Classifique as variaveis envolvidas no estudo, o tamanho amostral eas populacoes de interesse.
1
Numero do paciente: varıavel quantitativa discreta. Mean SerumCalcium: variavel quantitativa contınua. Mean Plasma IPGE: varia-vel quantitativa discreta. Tamanho da amostra: 21 (11 com hiper-calcemia e 10 com hipercalcemia). Populacoes de interesse: pacientescom e sem hipercalcemia.
(b) Realize uma analise descritiva dos dados de prostalglandina em cadagrupo de pacientes. Calcule medidas resumo (media, mediana, desviopadrao, coeficiente de variacao) e faca o box-plot.
IPGE (pg/ml)Pacientes com Hipercalcemia Pacientes sem Hipercalcemia
Media: 241.45 Media: 147.5Mediana: 183 Mediana: 146
Desvio Padrao: 144.46 Desvio Padrao: 46.17Coeficiente de Variacao: 59.83 Coeficiente de Variacao: 31.3
Mınimo: 60 Mınimo: 88Maximo: 500 Maximo: 254
com hipercalcemia sem hipercalcemia
100
200
300
400
500
Prostalglandina por Grupos
IPG
E (
mg/
ml)
(c) E conhecido que os limites normais para os nıveis de calcio estaoentre 8.5 a 10.5 mg/dl. De acordo com esses limites voce concorda
2
com a classificacao dos pacientes quanto a hipercalcemia? Justifiquecalculando a proporcao de pacientes de cada grupo que estao dentroe fora destes limites.
De acordo como esses limites a classificacao esta correta pois 100%dos pacientes classificados como tendo hipercalcemia estao acima dolimite e 100% dos pacientes sem hipercalcemia estao no intervalo de8.5 a 10.5.
(d) Existe indicacao de efeito da hipercalcemia na resposta de prostal-glandina? Discuta os resultados de sua analise descritiva.
As medidas resumo e o grafico box-plot mostra que ha uma claraindicacao de um efeito da hipercalcemia na resposta da protalglan-dina. Em particular, os pacientes sem hipercalcemia tendem a teruma quantidade de prostalglandina bem abaixo da quantidade apre-sentada no caso dos pacientes com hipercalcemia.
2. As concentracoes de oxido de nitrogenio de hidrocarbono (em µg/m3)foram determinadas em uma area urbana, em locais e horarios especıficos.Os dados sao mostrados a seguir:
Day Nitrogen.Oxides Hydrocarbons1 1 104 1082 2 116 1183 3 84 894 4 77 715 5 61 666 6 84 837 7 81 888 8 72 769 9 61 68
10 10 97 9611 11 84 81
(a) Classifique as variaveis em estudo, a amostra e a populacao de inte-resse.
Dia: variavel quantitativa discreta.Oxido de nitrogenio: variavel quan-titative discreta. Hidrocarbono: variavel quantitativa discreta. Amos-tra sistematica, pois area horarios e locais foram determinados sis-tematicamente. Populacao de interesse: concentracao de Oxido deNitrogenio e Hidrocarbonos no ar.
(b) Realize uma analise descritiva dos dados. Calcule medidas e des-vios padrao para cada variavel e para a variavel diferenca entre asconcentracoes dos poluentes.
Essas medidas podem ser observadas na tabela 1 e os boxplots nafigura 1 .
3
media dp
Oxido de Nitrogenio 83.73 16.89Hidrocarbonos 85.82 16.44
Diferenca −2.09 4.28
Tabela 1: Medidas resumo
Óxido de Nitrogenio Hidrocarbonos
6070
8090
100
110
120
Concentração de cada poluente
−6
−4
−2
02
46
Diferença entre as concentrações de poluentes
Figura 1: Box-plots
(c) As duas classes de poluentes estao presentes nas mesmas concentra-coes? Justifique.
Sim. A analise descritiva mostra que nao ha diferenca significativaentre a media dos dois poluentes, visto que a aparente diferenca entreas medias e suprimida pela variacao dos dados.
3. Uma pesquisa foi conduzida para estudar a variabilidade de respostas fi-siologicas do fitoplancton marinho do litoral Sul de Sao Paulo. Diversasvariaveis foram investigadas em amostras de agua submetidas a 4 situ-acoes experimentais (30% e 100% de Luminosidade x Nutrientes e SemNutrientes) e na condicao natural. Os dados a seguir referem-se a medidas
de clorofila a (mg.m−3).
c30SN c30N c100SN c100N1 6.20 12.70 7.00 8.302 4.80 11.30 4.40 7.103 3.00 9.30 3.80 11.704 5.60 9.50 5.00 10.005 7.10 11.70 5.50 8.506 4.80 15.30 3.20 12.30
(a) Classifique as variaveis em estudo. Qual e a populacao alvo do es-tudo? A populacao alvo do estudo e o fitoplancon do litoral Sul de
4
Sao Paulo. As variaveis sao qualitativas discretas (tipo de tratamentorecebido) e quantativas contınuas (medidas de clorofila a).
(b) Considerando os dados de clorofila a mensurada em amostras de aguana condicao natural os seguintes intervalos foram obtidos:
(media ± 2 desvios padrao) = (1.79, 6.52)
Calcule este intervalo para os grupos experimentais em estudo. Avariacao das respostas de clorofila a nas situacoes experimentais e amesma que na condicao natural?
intervalos media dpc30SN (2.43;8.07) 5.25 1.41c30N (7.19;16.1) 11.63 2.22
c100SN (2.12;7.51) 4.82 1.35c100N (5.55;13.7) 9.65 2.05
A variacao e ligeiramente maior no caso de luminosidade a 30% e odobro no caso de luminosidade a 100%.
(c) Considere ainda o seguinte intervalo calculado para as amostras deagua na condicao natural:
(media ± 2 desvios padrao) = (3.50, 4.81)
Qual a utilidade desse intervalo? Justifique e interprete.
Esse intervalo e util para indicar qual a variabilidade da media amos-tral. Sob normalidade, 95% das vezes em que tomarmos uma amostrae calcularmos sua media, ela vai estar nesse intervalo.
(d) Ha indicacao de que o conteudo de nutrientes influencia a medida declorofila a? Realize uma analise descritiva dos dados.
As medidas resumo e o grafico Box-plot (figura 2) mostram imediatamenteque o conteudo de nutrientes influencia claramente a medida de clorofila
a.
4. A tabela abaixo apresenta dados da vida util de 100 baterias para automo-veis (em meses). Construa o histograma e determine medidas de tendenciacentral e dispersao. Comente os resultados.
Considerando que os midpoints dos intervalos sao representativos das ob-servacoes encontradas naquela classe, obtemos com a ajuda do R umamedia de 12.08 e uma mediana de 13.5. Da mesma forma obtemos umdesvio-padrao de 4.05 e um coeficiente de variacao de 33.5.
O histograma e as medidas de centralidade e dispersao sugerem uma distri-buicao assimetrica dos dados para o lado direito, indicando que as bateriastendem a durar um periodo superior a 6 meses.
5
100N 100SN 30N 30SN
46
810
1214
Níveis de clorofila a (mg.m^−3)
Figura 2: Box-plots de acordo com o tratamento dado
Durabilidade Numero de Baterias0 – 3 23 – 6 56 – 9 159 – 12 25
12 – 15 3015 – 20 23
5. Um laboratorio clınico precisa se decidir por um entre tres instrumen-tos (A,B e C) que sera utilizado para fazer dosagens quımicas no san-gue. Foram preparadas solucoes contendo uma concentracao conhecida(10mg/ml) da substancia a ser dosada. Os resultados obtidos com cadainstrumento seguem abaixo.
A: 5 10 7 15 16 12 4 8 10 13
B: 11 10 11 10 12 9 10 8 9 10
C: 9 10 8 9 9 8 10 11 7 9
6
Vida útil das baterias
mêses
Den
sity
0 5 10 15 20
0.00
0.02
0.04
0.06
0.08
0.10
(a) Determine a media o desvio padrao para os tres instrumentos.
media dpA 10.00 4.06B 10.00 1.15C 9.00 1.15
Em medidas clınicas, tres termos sao utilizados frequentemente: pre-cisao, nao-viciado e exatidao.
i. Precisao: refere-se a dispersao de um conjunto de observacoes.Quanto menor a variabilidade maior a precisao.
ii. Nao-viciado: refere-se a tendencia de um conjunto de medidasser igual a um verdadeiro valor.
iii. Para um instrumento ser Exato suas leituras precisam ser tantoprecisas quanto nao-viciadas.
(b) Descreva os instrumentos em termos destas definicoes.
Os instrumentos B e C sao os mais precisos. Os instrumentos A e Bsao nao-viciados, pois mediram a media corretamente. O instrumentoB pode ser considerado exato.
(c) Qual instrumento voce recomendaria ao laboratorio? Justifique.
7
O instrumento B, pois alem de ser nao viciado apresenta uma baixavariabilidade.
6. O valor de contas telefonicas (R$) foi avaliado para um conjunto de do-micılios de acordo com o tempo de residencia na cidade (em anos). Oesquema de 5 pontos esta apresentado a seguir:
2312 3910 65
Menos de 3 anos
2511 389 92
De 3 a 10 anos
1210 218 98
Mais de 10 anos
(a) Construa graficos Box-plot para representar a distribuicao destes da-dos. Comente.
Menos de 3 anos De 3 a 10 anos Mais de 10 anos
2040
6080
100
Valor das contas por grupo
Figura 3: Box-plot, item a
(b) Com base nestes dados apresente uma estimativa do valor medianode contas telefonicas na cidade, independente do tempo de residenciana cidade.
8
Uma forma de obter essa estimativa e tomar a media das medianas,temos entao: 20.
(c) Suponha que o numero de domıcilios em cada grupo de tempo deresidencia e: 17, 35 e 350, respectivaemente. Como voce incorporariaesta informacao no grafico Box-plot? Desenhe o grafico.
Podemos incorporar essa informacao no grafico variando a largurados Box-plots.
Menos de 3 anos De 3 a 10 anos Mais de 10 anos
2040
6080
100
Valor das contas por grupo
Figura 4: Box-plot, item b
(d) Com esta nova informacao como voce “chutaria” um valor para ovalor mediano de contas telefonicas na cidade. Justifique.
Sabendo essa informacao poderıamos fazer uma media ponderada dasmedianas pelo tamanho da amostra. No caso teriamos uma medianaglobal de 13.6. Outra opcao seria ponderar pela raiz quadrada dotamanho da amostra, o que daria uma mediana global de 16.3
7. Responda as questoes a seguir:
(a) Se a nota media de um grupo de alunos no vestibular e 78 pontos, nomaximo que proporcao dos alunos pode ter obtido nota 120 ou mais?
9
P (X ≥ 120) ≤X
120=
78
120≈ 0.65
(b) Se embalagens de cafe de 1kg quando preenchidas por um processadortem um peso medio de 0.97kg e desvio padrao de 0.01kg, pelo menosque percentual de pacotes devem conter entre 0.93kg e 1.01kg decafe?
Pela desigualdade de Chebyshev:
P (Y − ks ≤ Yi ≤ Y + ks) ≥ 1 −1
k2
P (0.97− 4 × 0.01 ≤ Yi ≤ 0.97 + 4 × 0.01) ≥ 1 −1
16P (0.93 ≤ Yi ≤ 1.01) ≥ 0.9375
(c) Em uma industria a maquina M1 controla o diametro dos parafusos,conservando a linha d eproducao com diametros medios de 2.49mm edesvio padrao de 0.012mm. A maquina M2 controla o peso dos para-fursos, adotando uma media de 0.75mg e desvio padrao de 0.002mg.Qual das duas maquinas e relativamente mais precisa?
Vamos calcular o coeficiente de variacao para as duas maquinas:
cvM1= 0.482 cvM2
= 0.267
Como cvM2< cvM1
, concluımos que a maquina 2 e mais precisa.
(d) Em cinco dias, o numero medio de pedidos de frango e de carne em
um restaurante foi de 46 e 23, respectivaemente. E possıvel que emum destes dias ocorreram 200 pedidos de frangos? E 130 pedidos decarnes? Justifique.
No caso dos frangos:
X = 46
∑5
i=1Xi
5= 46
Abrindo a somatoria:
X1 + X2 + X3 + X4 + X5 = 230
Como a soma de 5 parcelas tem que resultar 230, podemos ter umaparcela valendo 200 e a soma das outras valendo 30:
X1 = 200 ⇒ 200+X2+X3+X4+X5 = 230 ⇒ X2+X3+X4+X5 = 30
Para as carnes:
X = 23sumi=15Xi
5= 23
10
Abrindo a somatoria:
X1 + X2 + X3 + X4 + X5 = 115
Como a soma de 5 parcelas tem que resultar em 115, seria impossıveltermos um dia com 130 pedidos:
X1 = 130 ⇒ 130+X2+X3+X4+X5 = 115 ⇒ X2+X3+X4+X5 = −15
(e) Considere os dados do arquivo PULSE do Minitab. Calcule a ampli-tude de variacao e o intervalo interquantil para a variavel DIF=Pulse2-Pulse1 para cada nıvel da variavel RAN. Comente os resultados.
O intervalo interquartis (Q3 −Q1) de DIF=Pulse2-Pulse1 e: 46.5. Aamplitude de variacao seria: max(DIF )−min(DIF ) = 48−(−14) =62.
(f) Os tempos (min) de cinco atletas em duas modalidades de provas decorrida foram:
Modalidade A: 18.2 18 17.4 17.6 18.1
Modalidade B: 20 20.2 19.9 20.5 20.1
Calcule a media e desvio padrao para os dados originais. Agora,adicione 2min a cada tempo e refaca os calculos. E novamente, mul-tiplique cada tempo por 3min e refaca os calculos. Que propriedadesvoce verificou para estas estatısticas?
A = 17, 875 SA = 0, 36443
B = 20, 150 SB = 0, 24044
Somando 2 aos eventos de A e de B, temos:
A2 = 19, 875 SA2= 0, 36443
B2 = 22, 150 SB2= 0, 24044
Note que:
A2 = A + 2 e SA = SA2
B2 = B + 2 e SB = SB2
Multiplicando por 3 os eventos de A e de B:
A3 = 53, 625SA3= 1, 0933
A3 = 60, 425SA3= 0, 72133
Podemos notar que:
A3 = 3 × A e SA ≈ 3 × SA3
B3 = 3 × B e SB ≈ 3 × SB3
11
Com todas essas observacoes, concluımos uma operacao aplicada aoseventos, a media ira se alterar de acordo com a operacao. Ja o des-vio padrao, so ira se alterar se multiplicarmos os eventos por umaconstante, que no caso, ficara o desvio padrao multiplicado por estaconstante.
(g) Apresente tres situacoes especıficas em que o calculo de cada umadas medias aritmetica, geometrica e harmonica e apropriado.
A media aritmetica e a mais indicada para estimacao de esperancade uma variavel aleatoria, para ponderacao entre notas e para cal-cular medias amostrais em geral. A media geometrica e uma mediamais adequada para preservar a proporcionalidade entre os dados,como no caso da media de taxas, de razoes e de ındices. A mediaharmonica valoriza a regularidade, e adequada quando da medidadas acoes de varios indivıduos quando ocorre a colaboracao com asoutras, como por exemplo, o desenvolvimento de um software pordiversos desenvolvedores.
8. Visite o site da Fundacao SEADE e comente sobre os dados de expectati-vas de vida de acordo com o sexo para o municıpio de Sao Paulo e outrascidades do estado. Tambem pequise no site o plano amostral adotado napesquisa PED. Neste caso, como os dados de meses consecutivos podemser acumulados?
Nos podemos observar, que de 1980 a 2000, a expectativa de vida dapopulacao do Estado de Sao Paulo cresceu aproximadamente 3 anos. Nacapital paulista, a expectativa de vida obteve um acrescimo de apenas 2anos, ja nos demais municıpios, este indicador passa dos 3,2 anos.
Comparando entre os sexos, o homem sempre teve sua expectativa abaixodas mulheres. Apesar de naturalmente as mulheres ”viverem”mais do queos homens, existe um fator muito significativo na formulacao do indicador,que seria a violencia, caracterıstica essa que atinge muito mais a camadamasculina. Podemos observar, que mesmo nos anos 80, a diferenca jaera muito grande, com 63,30 e 70,02 para homens e mulheres respectiva-mente. No ano 2000, podemos perceber que esta diferenca ainda e notavel,atingindo 66,75 e 75,57.
A Pesquisa de Emprego e Desemprego (PED) adota um plano amostralmuito particular. O indivıduos participantes da pesquisa sao os que com-poem a chamada Populacao em Idade Ativa (PIA), estes por sua vez, saoos indiıduos que possuem dez anos e mais de idade. Na PED, sao entre-vistados 3.000 domicilios por vez dentro de uma sistematica censitaria. AFundacao SEADE e o DIEESE, subdividiram homogeneamente a regiaometropolitana de Sao Paulo e, mes a mes, escolhem ao acaso uma regiaopara aplicarem a pesquisa, respeitando uma norma que diz que uma areanao pode ser pesquisada duas vezes consecutivas.
A PED utiliza os seguintes parametros para caracterizar a PIA: procuraefetiva de trabalho; disponibilidade para trabalhar, com procura em ate
12
12 meses; situacao de trabalho; tipo de trabalho exercido; e necessidadede mudanca de trabalho. A combinacao de todos estes fatores resultamna diferenciacao dos seguintes segmentos da PIA:
• PEA - Populacao Economicamente Ativa;
• Ocupados - indivıduos que possuem trabalho remunerado exercidoregularmente;
• Desempregados
– Desemprego Aberto - pessoas que procuram trabalho nos ultimos30 dias
– Desemprego Oculto pelo Trabalho Precario - pessoas que parasobreviver, exerceram algum trabalho de forma descontınua eirregular.
– Desemprego Oculto pelo Desalento e Outros: pessoas que naopossuem trabalho e nem procuram nos ultimos 30 dias.
• Inativos: populacao maior de 10 anos que nao estao ocupados oudesempregados.
Os dados dos meses consecutivos, podem ser somados normalmente paraformar uma acumulacao de dados, pois como as escolhas das regioes e feitaao acaso, as variaveis se tornam independentes.
Sobre
A versao eletronica desse arquivo pode ser obtida em http://www.feferraz.
net
Copyright (c) 1999-2005 Fernando Henrique Ferraz Pereira da Rosa.
E dada permiss~ao para copiar, distribuir e/ou modificar este documento
sob os termos da Licenca de Documentac~ao Livre GNU (GFDL), vers~ao 1.2,
publicada pela Free Software Foundation;
Uma copia da licenca em esta inclusa na sec~ao intitulada
"Sobre / Licenca de Uso".
13