medidas descritivas e graficos

13
MAE0217 - Estat ´ ıstica Descritiva abio Rampazzo Mathias Fernando Henrique Ferraz Pereira da Rosa Matheus Moreira Costa Vagner Aparecido Pedro Junior Paulo Eduardo Bani de Carvalho 25 de setembro de 2003 Lista 2 1. Os dados a seguir referem-se a medidas de prostaglandina (pg/ml) e c´ alcio (ml/dl) em pacientes com cˆ ancer apresentando ou n˜ ao hipercalcemia. IPGE Calcium status 1 500.00 13.30 hyper 2 500.00 11.20 hyper 3 301.00 13.40 hyper 4 272.00 11.50 hyper 5 226.00 11.40 hyper 6 183.00 11.60 hyper 7 183.00 11.70 hyper 8 177.00 12.10 hyper 9 136.00 12.50 hyper 10 118.00 12.20 hyper 11 60.00 18.00 hyper 12 254.00 10.10 nohyper 13 172.00 9.40 nohyper 14 168.00 9.30 nohyper 15 150.00 8.60 nohyper 16 148.00 10.50 nohyper 17 144.00 10.30 nohyper 18 130.00 10.50 nohyper 19 121.00 10.20 nohyper 20 100.00 9.70 nohyper 21 88.00 9.20 nohyper (a) Classifique as vari´ aveis envolvidas no estudo, o tamanho amostral e as popula¸ oes de interesse. 1

Upload: daphne-gilly

Post on 25-Oct-2015

22 views

Category:

Documents


3 download

TRANSCRIPT

Page 1: Medidas Descritivas e Graficos

MAE0217 - Estatıstica Descritiva

Fabio Rampazzo Mathias

Fernando Henrique Ferraz Pereira da Rosa

Matheus Moreira Costa

Vagner Aparecido Pedro Junior

Paulo Eduardo Bani de Carvalho

25 de setembro de 2003

Lista 2

1. Os dados a seguir referem-se a medidas de prostaglandina (pg/ml) e calcio(ml/dl) em pacientes com cancer apresentando ou nao hipercalcemia.

IPGE Calcium status1 500.00 13.30 hyper2 500.00 11.20 hyper3 301.00 13.40 hyper4 272.00 11.50 hyper5 226.00 11.40 hyper6 183.00 11.60 hyper7 183.00 11.70 hyper8 177.00 12.10 hyper9 136.00 12.50 hyper

10 118.00 12.20 hyper11 60.00 18.00 hyper12 254.00 10.10 nohyper13 172.00 9.40 nohyper14 168.00 9.30 nohyper15 150.00 8.60 nohyper16 148.00 10.50 nohyper17 144.00 10.30 nohyper18 130.00 10.50 nohyper19 121.00 10.20 nohyper20 100.00 9.70 nohyper21 88.00 9.20 nohyper

(a) Classifique as variaveis envolvidas no estudo, o tamanho amostral eas populacoes de interesse.

1

Page 2: Medidas Descritivas e Graficos

Numero do paciente: varıavel quantitativa discreta. Mean SerumCalcium: variavel quantitativa contınua. Mean Plasma IPGE: varia-vel quantitativa discreta. Tamanho da amostra: 21 (11 com hiper-calcemia e 10 com hipercalcemia). Populacoes de interesse: pacientescom e sem hipercalcemia.

(b) Realize uma analise descritiva dos dados de prostalglandina em cadagrupo de pacientes. Calcule medidas resumo (media, mediana, desviopadrao, coeficiente de variacao) e faca o box-plot.

IPGE (pg/ml)Pacientes com Hipercalcemia Pacientes sem Hipercalcemia

Media: 241.45 Media: 147.5Mediana: 183 Mediana: 146

Desvio Padrao: 144.46 Desvio Padrao: 46.17Coeficiente de Variacao: 59.83 Coeficiente de Variacao: 31.3

Mınimo: 60 Mınimo: 88Maximo: 500 Maximo: 254

com hipercalcemia sem hipercalcemia

100

200

300

400

500

Prostalglandina por Grupos

IPG

E (

mg/

ml)

(c) E conhecido que os limites normais para os nıveis de calcio estaoentre 8.5 a 10.5 mg/dl. De acordo com esses limites voce concorda

2

Page 3: Medidas Descritivas e Graficos

com a classificacao dos pacientes quanto a hipercalcemia? Justifiquecalculando a proporcao de pacientes de cada grupo que estao dentroe fora destes limites.

De acordo como esses limites a classificacao esta correta pois 100%dos pacientes classificados como tendo hipercalcemia estao acima dolimite e 100% dos pacientes sem hipercalcemia estao no intervalo de8.5 a 10.5.

(d) Existe indicacao de efeito da hipercalcemia na resposta de prostal-glandina? Discuta os resultados de sua analise descritiva.

As medidas resumo e o grafico box-plot mostra que ha uma claraindicacao de um efeito da hipercalcemia na resposta da protalglan-dina. Em particular, os pacientes sem hipercalcemia tendem a teruma quantidade de prostalglandina bem abaixo da quantidade apre-sentada no caso dos pacientes com hipercalcemia.

2. As concentracoes de oxido de nitrogenio de hidrocarbono (em µg/m3)foram determinadas em uma area urbana, em locais e horarios especıficos.Os dados sao mostrados a seguir:

Day Nitrogen.Oxides Hydrocarbons1 1 104 1082 2 116 1183 3 84 894 4 77 715 5 61 666 6 84 837 7 81 888 8 72 769 9 61 68

10 10 97 9611 11 84 81

(a) Classifique as variaveis em estudo, a amostra e a populacao de inte-resse.

Dia: variavel quantitativa discreta.Oxido de nitrogenio: variavel quan-titative discreta. Hidrocarbono: variavel quantitativa discreta. Amos-tra sistematica, pois area horarios e locais foram determinados sis-tematicamente. Populacao de interesse: concentracao de Oxido deNitrogenio e Hidrocarbonos no ar.

(b) Realize uma analise descritiva dos dados. Calcule medidas e des-vios padrao para cada variavel e para a variavel diferenca entre asconcentracoes dos poluentes.

Essas medidas podem ser observadas na tabela 1 e os boxplots nafigura 1 .

3

Page 4: Medidas Descritivas e Graficos

media dp

Oxido de Nitrogenio 83.73 16.89Hidrocarbonos 85.82 16.44

Diferenca −2.09 4.28

Tabela 1: Medidas resumo

Óxido de Nitrogenio Hidrocarbonos

6070

8090

100

110

120

Concentração de cada poluente

−6

−4

−2

02

46

Diferença entre as concentrações de poluentes

Figura 1: Box-plots

(c) As duas classes de poluentes estao presentes nas mesmas concentra-coes? Justifique.

Sim. A analise descritiva mostra que nao ha diferenca significativaentre a media dos dois poluentes, visto que a aparente diferenca entreas medias e suprimida pela variacao dos dados.

3. Uma pesquisa foi conduzida para estudar a variabilidade de respostas fi-siologicas do fitoplancton marinho do litoral Sul de Sao Paulo. Diversasvariaveis foram investigadas em amostras de agua submetidas a 4 situ-acoes experimentais (30% e 100% de Luminosidade x Nutrientes e SemNutrientes) e na condicao natural. Os dados a seguir referem-se a medidas

de clorofila a (mg.m−3).

c30SN c30N c100SN c100N1 6.20 12.70 7.00 8.302 4.80 11.30 4.40 7.103 3.00 9.30 3.80 11.704 5.60 9.50 5.00 10.005 7.10 11.70 5.50 8.506 4.80 15.30 3.20 12.30

(a) Classifique as variaveis em estudo. Qual e a populacao alvo do es-tudo? A populacao alvo do estudo e o fitoplancon do litoral Sul de

4

Page 5: Medidas Descritivas e Graficos

Sao Paulo. As variaveis sao qualitativas discretas (tipo de tratamentorecebido) e quantativas contınuas (medidas de clorofila a).

(b) Considerando os dados de clorofila a mensurada em amostras de aguana condicao natural os seguintes intervalos foram obtidos:

(media ± 2 desvios padrao) = (1.79, 6.52)

Calcule este intervalo para os grupos experimentais em estudo. Avariacao das respostas de clorofila a nas situacoes experimentais e amesma que na condicao natural?

intervalos media dpc30SN (2.43;8.07) 5.25 1.41c30N (7.19;16.1) 11.63 2.22

c100SN (2.12;7.51) 4.82 1.35c100N (5.55;13.7) 9.65 2.05

A variacao e ligeiramente maior no caso de luminosidade a 30% e odobro no caso de luminosidade a 100%.

(c) Considere ainda o seguinte intervalo calculado para as amostras deagua na condicao natural:

(media ± 2 desvios padrao) = (3.50, 4.81)

Qual a utilidade desse intervalo? Justifique e interprete.

Esse intervalo e util para indicar qual a variabilidade da media amos-tral. Sob normalidade, 95% das vezes em que tomarmos uma amostrae calcularmos sua media, ela vai estar nesse intervalo.

(d) Ha indicacao de que o conteudo de nutrientes influencia a medida declorofila a? Realize uma analise descritiva dos dados.

As medidas resumo e o grafico Box-plot (figura 2) mostram imediatamenteque o conteudo de nutrientes influencia claramente a medida de clorofila

a.

4. A tabela abaixo apresenta dados da vida util de 100 baterias para automo-veis (em meses). Construa o histograma e determine medidas de tendenciacentral e dispersao. Comente os resultados.

Considerando que os midpoints dos intervalos sao representativos das ob-servacoes encontradas naquela classe, obtemos com a ajuda do R umamedia de 12.08 e uma mediana de 13.5. Da mesma forma obtemos umdesvio-padrao de 4.05 e um coeficiente de variacao de 33.5.

O histograma e as medidas de centralidade e dispersao sugerem uma distri-buicao assimetrica dos dados para o lado direito, indicando que as bateriastendem a durar um periodo superior a 6 meses.

5

Page 6: Medidas Descritivas e Graficos

100N 100SN 30N 30SN

46

810

1214

Níveis de clorofila a (mg.m^−3)

Figura 2: Box-plots de acordo com o tratamento dado

Durabilidade Numero de Baterias0 – 3 23 – 6 56 – 9 159 – 12 25

12 – 15 3015 – 20 23

5. Um laboratorio clınico precisa se decidir por um entre tres instrumen-tos (A,B e C) que sera utilizado para fazer dosagens quımicas no san-gue. Foram preparadas solucoes contendo uma concentracao conhecida(10mg/ml) da substancia a ser dosada. Os resultados obtidos com cadainstrumento seguem abaixo.

A: 5 10 7 15 16 12 4 8 10 13

B: 11 10 11 10 12 9 10 8 9 10

C: 9 10 8 9 9 8 10 11 7 9

6

Page 7: Medidas Descritivas e Graficos

Vida útil das baterias

mêses

Den

sity

0 5 10 15 20

0.00

0.02

0.04

0.06

0.08

0.10

(a) Determine a media o desvio padrao para os tres instrumentos.

media dpA 10.00 4.06B 10.00 1.15C 9.00 1.15

Em medidas clınicas, tres termos sao utilizados frequentemente: pre-cisao, nao-viciado e exatidao.

i. Precisao: refere-se a dispersao de um conjunto de observacoes.Quanto menor a variabilidade maior a precisao.

ii. Nao-viciado: refere-se a tendencia de um conjunto de medidasser igual a um verdadeiro valor.

iii. Para um instrumento ser Exato suas leituras precisam ser tantoprecisas quanto nao-viciadas.

(b) Descreva os instrumentos em termos destas definicoes.

Os instrumentos B e C sao os mais precisos. Os instrumentos A e Bsao nao-viciados, pois mediram a media corretamente. O instrumentoB pode ser considerado exato.

(c) Qual instrumento voce recomendaria ao laboratorio? Justifique.

7

Page 8: Medidas Descritivas e Graficos

O instrumento B, pois alem de ser nao viciado apresenta uma baixavariabilidade.

6. O valor de contas telefonicas (R$) foi avaliado para um conjunto de do-micılios de acordo com o tempo de residencia na cidade (em anos). Oesquema de 5 pontos esta apresentado a seguir:

2312 3910 65

Menos de 3 anos

2511 389 92

De 3 a 10 anos

1210 218 98

Mais de 10 anos

(a) Construa graficos Box-plot para representar a distribuicao destes da-dos. Comente.

Menos de 3 anos De 3 a 10 anos Mais de 10 anos

2040

6080

100

Valor das contas por grupo

Figura 3: Box-plot, item a

(b) Com base nestes dados apresente uma estimativa do valor medianode contas telefonicas na cidade, independente do tempo de residenciana cidade.

8

Page 9: Medidas Descritivas e Graficos

Uma forma de obter essa estimativa e tomar a media das medianas,temos entao: 20.

(c) Suponha que o numero de domıcilios em cada grupo de tempo deresidencia e: 17, 35 e 350, respectivaemente. Como voce incorporariaesta informacao no grafico Box-plot? Desenhe o grafico.

Podemos incorporar essa informacao no grafico variando a largurados Box-plots.

Menos de 3 anos De 3 a 10 anos Mais de 10 anos

2040

6080

100

Valor das contas por grupo

Figura 4: Box-plot, item b

(d) Com esta nova informacao como voce “chutaria” um valor para ovalor mediano de contas telefonicas na cidade. Justifique.

Sabendo essa informacao poderıamos fazer uma media ponderada dasmedianas pelo tamanho da amostra. No caso teriamos uma medianaglobal de 13.6. Outra opcao seria ponderar pela raiz quadrada dotamanho da amostra, o que daria uma mediana global de 16.3

7. Responda as questoes a seguir:

(a) Se a nota media de um grupo de alunos no vestibular e 78 pontos, nomaximo que proporcao dos alunos pode ter obtido nota 120 ou mais?

9

Page 10: Medidas Descritivas e Graficos

P (X ≥ 120) ≤X

120=

78

120≈ 0.65

(b) Se embalagens de cafe de 1kg quando preenchidas por um processadortem um peso medio de 0.97kg e desvio padrao de 0.01kg, pelo menosque percentual de pacotes devem conter entre 0.93kg e 1.01kg decafe?

Pela desigualdade de Chebyshev:

P (Y − ks ≤ Yi ≤ Y + ks) ≥ 1 −1

k2

P (0.97− 4 × 0.01 ≤ Yi ≤ 0.97 + 4 × 0.01) ≥ 1 −1

16P (0.93 ≤ Yi ≤ 1.01) ≥ 0.9375

(c) Em uma industria a maquina M1 controla o diametro dos parafusos,conservando a linha d eproducao com diametros medios de 2.49mm edesvio padrao de 0.012mm. A maquina M2 controla o peso dos para-fursos, adotando uma media de 0.75mg e desvio padrao de 0.002mg.Qual das duas maquinas e relativamente mais precisa?

Vamos calcular o coeficiente de variacao para as duas maquinas:

cvM1= 0.482 cvM2

= 0.267

Como cvM2< cvM1

, concluımos que a maquina 2 e mais precisa.

(d) Em cinco dias, o numero medio de pedidos de frango e de carne em

um restaurante foi de 46 e 23, respectivaemente. E possıvel que emum destes dias ocorreram 200 pedidos de frangos? E 130 pedidos decarnes? Justifique.

No caso dos frangos:

X = 46

∑5

i=1Xi

5= 46

Abrindo a somatoria:

X1 + X2 + X3 + X4 + X5 = 230

Como a soma de 5 parcelas tem que resultar 230, podemos ter umaparcela valendo 200 e a soma das outras valendo 30:

X1 = 200 ⇒ 200+X2+X3+X4+X5 = 230 ⇒ X2+X3+X4+X5 = 30

Para as carnes:

X = 23sumi=15Xi

5= 23

10

Page 11: Medidas Descritivas e Graficos

Abrindo a somatoria:

X1 + X2 + X3 + X4 + X5 = 115

Como a soma de 5 parcelas tem que resultar em 115, seria impossıveltermos um dia com 130 pedidos:

X1 = 130 ⇒ 130+X2+X3+X4+X5 = 115 ⇒ X2+X3+X4+X5 = −15

(e) Considere os dados do arquivo PULSE do Minitab. Calcule a ampli-tude de variacao e o intervalo interquantil para a variavel DIF=Pulse2-Pulse1 para cada nıvel da variavel RAN. Comente os resultados.

O intervalo interquartis (Q3 −Q1) de DIF=Pulse2-Pulse1 e: 46.5. Aamplitude de variacao seria: max(DIF )−min(DIF ) = 48−(−14) =62.

(f) Os tempos (min) de cinco atletas em duas modalidades de provas decorrida foram:

Modalidade A: 18.2 18 17.4 17.6 18.1

Modalidade B: 20 20.2 19.9 20.5 20.1

Calcule a media e desvio padrao para os dados originais. Agora,adicione 2min a cada tempo e refaca os calculos. E novamente, mul-tiplique cada tempo por 3min e refaca os calculos. Que propriedadesvoce verificou para estas estatısticas?

A = 17, 875 SA = 0, 36443

B = 20, 150 SB = 0, 24044

Somando 2 aos eventos de A e de B, temos:

A2 = 19, 875 SA2= 0, 36443

B2 = 22, 150 SB2= 0, 24044

Note que:

A2 = A + 2 e SA = SA2

B2 = B + 2 e SB = SB2

Multiplicando por 3 os eventos de A e de B:

A3 = 53, 625SA3= 1, 0933

A3 = 60, 425SA3= 0, 72133

Podemos notar que:

A3 = 3 × A e SA ≈ 3 × SA3

B3 = 3 × B e SB ≈ 3 × SB3

11

Page 12: Medidas Descritivas e Graficos

Com todas essas observacoes, concluımos uma operacao aplicada aoseventos, a media ira se alterar de acordo com a operacao. Ja o des-vio padrao, so ira se alterar se multiplicarmos os eventos por umaconstante, que no caso, ficara o desvio padrao multiplicado por estaconstante.

(g) Apresente tres situacoes especıficas em que o calculo de cada umadas medias aritmetica, geometrica e harmonica e apropriado.

A media aritmetica e a mais indicada para estimacao de esperancade uma variavel aleatoria, para ponderacao entre notas e para cal-cular medias amostrais em geral. A media geometrica e uma mediamais adequada para preservar a proporcionalidade entre os dados,como no caso da media de taxas, de razoes e de ındices. A mediaharmonica valoriza a regularidade, e adequada quando da medidadas acoes de varios indivıduos quando ocorre a colaboracao com asoutras, como por exemplo, o desenvolvimento de um software pordiversos desenvolvedores.

8. Visite o site da Fundacao SEADE e comente sobre os dados de expectati-vas de vida de acordo com o sexo para o municıpio de Sao Paulo e outrascidades do estado. Tambem pequise no site o plano amostral adotado napesquisa PED. Neste caso, como os dados de meses consecutivos podemser acumulados?

Nos podemos observar, que de 1980 a 2000, a expectativa de vida dapopulacao do Estado de Sao Paulo cresceu aproximadamente 3 anos. Nacapital paulista, a expectativa de vida obteve um acrescimo de apenas 2anos, ja nos demais municıpios, este indicador passa dos 3,2 anos.

Comparando entre os sexos, o homem sempre teve sua expectativa abaixodas mulheres. Apesar de naturalmente as mulheres ”viverem”mais do queos homens, existe um fator muito significativo na formulacao do indicador,que seria a violencia, caracterıstica essa que atinge muito mais a camadamasculina. Podemos observar, que mesmo nos anos 80, a diferenca jaera muito grande, com 63,30 e 70,02 para homens e mulheres respectiva-mente. No ano 2000, podemos perceber que esta diferenca ainda e notavel,atingindo 66,75 e 75,57.

A Pesquisa de Emprego e Desemprego (PED) adota um plano amostralmuito particular. O indivıduos participantes da pesquisa sao os que com-poem a chamada Populacao em Idade Ativa (PIA), estes por sua vez, saoos indiıduos que possuem dez anos e mais de idade. Na PED, sao entre-vistados 3.000 domicilios por vez dentro de uma sistematica censitaria. AFundacao SEADE e o DIEESE, subdividiram homogeneamente a regiaometropolitana de Sao Paulo e, mes a mes, escolhem ao acaso uma regiaopara aplicarem a pesquisa, respeitando uma norma que diz que uma areanao pode ser pesquisada duas vezes consecutivas.

A PED utiliza os seguintes parametros para caracterizar a PIA: procuraefetiva de trabalho; disponibilidade para trabalhar, com procura em ate

12

Page 13: Medidas Descritivas e Graficos

12 meses; situacao de trabalho; tipo de trabalho exercido; e necessidadede mudanca de trabalho. A combinacao de todos estes fatores resultamna diferenciacao dos seguintes segmentos da PIA:

• PEA - Populacao Economicamente Ativa;

• Ocupados - indivıduos que possuem trabalho remunerado exercidoregularmente;

• Desempregados

– Desemprego Aberto - pessoas que procuram trabalho nos ultimos30 dias

– Desemprego Oculto pelo Trabalho Precario - pessoas que parasobreviver, exerceram algum trabalho de forma descontınua eirregular.

– Desemprego Oculto pelo Desalento e Outros: pessoas que naopossuem trabalho e nem procuram nos ultimos 30 dias.

• Inativos: populacao maior de 10 anos que nao estao ocupados oudesempregados.

Os dados dos meses consecutivos, podem ser somados normalmente paraformar uma acumulacao de dados, pois como as escolhas das regioes e feitaao acaso, as variaveis se tornam independentes.

Sobre

A versao eletronica desse arquivo pode ser obtida em http://www.feferraz.

net

Copyright (c) 1999-2005 Fernando Henrique Ferraz Pereira da Rosa.

E dada permiss~ao para copiar, distribuir e/ou modificar este documento

sob os termos da Licenca de Documentac~ao Livre GNU (GFDL), vers~ao 1.2,

publicada pela Free Software Foundation;

Uma copia da licenca em esta inclusa na sec~ao intitulada

"Sobre / Licenca de Uso".

13