apostila de estatistica

Upload: ricardo-b-de-oliveira

Post on 11-Jul-2015

226 views

Category:

Documents


0 download

TRANSCRIPT

ROMEU MAGNANI MARISA VEIGA CAPELA

NDICE I. II. III. IV. V. VI. VII. VIII. Estatstica Descritiva.................................. Distribuio de Probabilidade................... Distribuio Amostral................................ Estimao de parmetro............................ Teste de hipteses..................................... Comparao de varias mdias................. Regresso e Correlao........................... Funes linearizveis................................ 1 13 20 23 28 36 46 58

Sugestes bibliogrficas

Bussab O.W., Morettin, P.A. Estatstica Bsica. Atual Ed., 1987 Costa Neto, P.L.O. Estatstica. Ed. Edgard Blucher, 1987 Fonseca, J.S. Curso de Estatstica. Ed. Atlas, 1998 Lapponi, J.C. Estatstica usando o Excel. Ed. Lapponi, 2000 Lopes, P.A. Probabilidade e Estatstica. Reichmann&Affonso Editores, 1999 Vieira. S., Hoffmann, R. Estatstica Experimental. Ed. Atlas, 1989

I. ESTATSTICA DESCRITIVA

1. INTRODUO A Estatstica Descritiva trata da maneira de apresentar um conjunto de dados em tabelas ou grficos e do modo de resumir as informaes contidas nesses dados, atravs de certas medidas como mdia, varincia, desvio padro, coeficiente de variao, etc. 2. TIPOS DE VARIVEIS Algumas variveis so qualitativas e outras quantitativas. Uma varivel qualitativa pode ser apenas um nome (varivel qualitativa nominal) ou estabelecer uma ordem (varivel qualitativa ordinal). As variveis quantitativas, mais importantes neste curso, so classificadas em discreta (se referem em geral a contagens) ou contnua (podem assumir qualquer valor de um intervalo de nmeros reais). Exemplo 1: Na tabela abaixo so apresentados 60 valores de cada uma de 6 variveis, que representam informaes sobre alunos do sexo masculino cursando graduao em Qumica, em determinado ano (classifique essas variveis conforme o tipo) No. do aluno 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 No. de irmos 2 3 2 1 3 0 0 5 3 5 4 3 2 3 2 3 2 2 3 3 2 3 2 1 3 2 2 1 2 2 2 3 Altura (m) 1,71 1,72 1,69 1,62 1,77 1,55 1,66 1,63 1,73 1,70 1,82 1,73 1,80 1,77 1,73 1,71 1,74 1,71 1,74 1,71 1,88 1,76 1,62 1,67 1,64 1,77 1,73 1,80 1,73 1,66 1,79 1,80 Peso (kg) 70,9 76,2 72,6 60,0 71,3 53,6 65,8 65,0 87,8 73,8 81,3 72,2 74,7 73,4 69,1 98,1 71,2 67,3 69,0 79,7 85,7 83,4 64,0 72,1 63,5 69,2 76,8 91,2 64,8 68,2 82,5 105,71

Idade (anos) 18 20 18 22 19 19 20 19 19 22 20 19 24 19 21 21 18 19 21 18 18 19 20 23 19 19 23 20 21 19 20 20

Origem* AR AR OL CP CP OL AR OL OL AR OL OL AR OL OL AR OL OE AR OL OL CP OL AR CP OE OL OL OE OL OL AR

Grau de instruo do pai 2o. grau 2o. grau Superior 2o. grau 2o. grau 2o. grau 2o. grau 2o. grau Superior Superior 2o. grau Superior 2o. grau 2o. grau 2o. grau 2o. grau Superior 2o. grau Superior 2o. grau 2o. grau Superior Superior Superior Superior 1o. grau Superior 2o. grau Nenhum Superior Superior 1o. grau

1,63 1,77 1,86 1,66 1,82 1,85 1,69 1,58 1,77 1,76 1,67 1,75 1,80 1,71 1,78 1,70 1,75 1,75 1,81 1,71 1,74 1,78 1,89 1,82 1,76 1,76 1,64 1,65 *AR: Araraquara e regio (at 50km) OL: Outros Locais do Estado

No. do aluno 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60

No. de irmos 3 2 1 0 1 6 2 3 3 0 4 4 1 2 3 2 1 3 1 4 2 1 5 2 0 4 2 0

Altura

Peso

Idade

Origem*

61,8 21 OL 79,4 20 OL 87,2 19 AR 59,9 25 OL 82,2 20 OL 79,2 21 AR 69,4 22 CP 62,0 22 OL 80,6 18 CP 70,4 19 OL 65,9 18 OL 74,9 21 CP 83,4 18 OL 77,4 18 OL 78,6 19 OL 78,6 24 CP 81,9 22 CP 74,0 21 AR 77,2 23 AR 70,0 22 CP 79,0 18 AR 83,4 21 OL 92,2 21 CP 94,6 20 AR 67,1 20 OL 72,0 19 CP 65,2 20 OL 71,7 18 OL CP: Capital OE: Outros Estados

Grau de instruo do pai 2o. grau 2o. grau Superior 2o. grau 2o. grau 2o. grau Superior 1o. grau Superior Superior Superior 1o. grau 2o. grau Superior Superior 2o. grau 2o. grau 2o. grau Superior 2o. grau Superior 2o. grau Superior 2o. grau 2o. grau Superior 2o. grau 1o. grau

3. DISTRIBUIO DE FREQNCIAS Muitas vezes, obtm-se informa es relevantes sobre uma varivel atravs de sua distribuio de freqncias. Esta uma tabela contendo valores distintos da varivel e as freqncias correspondentes. A freqncia pode ser absoluta (n0 de vezes que o valor aparece no conjunto de dados) ou relativa (n0 de vezes que o valor aparece dividido pelo total de valores) ou percentual (a freqncia relativa multiplicada por 100). Pode ser til tambm o grfico da distribuio. Os grficos recomendados dependem do tipo de varivel. No caso das variveis quantitativas, em especial a varivel contnua, so observadas as freqncias em intervalos de valores, em vez de freqncias individuais. Para varivel quantitativa de grande importncia a distribuio de freqncias acumuladas. Uma freqncia acumulada a soma das freqncias at determinado valor (ou intervalo de valores) Exemplo 2: Distribuies de freqncias da varivel origem do exemplo 1 e grfico em pizza. Origem AR OL OE CP Total Freqncia Freq. Relativa Freq. Percentual 15 30 3 12 60 0,25 0,50 0,05 0,20 1,002

25% 50% 5% 20% 100%

20% 5%

25% AR OL OE CP 50%

Exemplo 3: Distribuies de freqncias da varivel discreta nmero de irmos da tabela do exemplo 1, grfico de freqncias e grfico de freqncias acumuladas. N0 de Freqncia irmos 6 0 9 1 20 2 16 3 5 4 3 5 1 6 Total 6020 Frequncia 15 10 5 0 0 1 2 3 4 5 6 No. de irmos Frequncia acumulada

Freqncia acumulada6 15 35 51 56 59 60

Freqncia relativa0,100 0,150 0,333 0,267 0,083 0,050 0,017

Freq. relativa acumulada0,100 0,250 0,583 0,850 0,933 0,983 1,000

1,00060 45 30 15 0 0 1 2 3 4 5 6 No. de irmos

Observao: Os grficos de freqncia absoluta, freqncia relativa e freqncia percentual tm o mesmo aspecto. Isso ocorre porque essas freqncias so proporcionais. Uma distribuio de freqncias de varivel contnua diferente. A faixa que engloba todos os valores da varivel dividida em diversos intervalos, de preferncia de mesma amplitude. A freqncia se refere ao nmero de valores da varivel em cada intervalo. Um critrio empregado aqui o de considerar os intervalos fechados direita, isto , incluem o valor da extrema direita e no incluem o valor esquerda. s vezes conveniente substituir o intervalo pelo seu ponto mdio. Exemplo 4: As alturas da tabela do exemplo 1, colocadas em ordem crescente, so: 1,55; 1,58; 1,62; 1,62; 1,63; 1,63; 1,64; 1,64; 1,65; 1,66; 1,66; 1,66; 1,67; 1,67; 1,69; 1,69; 1,70; 1,70; 1,71; 1,71; 1,71; 1,71; 1,71; 1,71; 1,72; 1,73; 1,73; 1,73; 1,73; 1,73; 1,74; 1,74; 1,74; 1,75; 1,75; 1,75; 1,76; 1,76; 1,76; 1,76; 1,77; 1,77; 1,77; 1,77; 1,77; 1,78; 1,78; 1,79; 1,80; 1,80; 1,80; 1,80; 1,81; 1,82; 1,82; 1,82; 1,85; 1,86; 1,88; 1,89; Variao total: 1,89-1,55=0,34 metros. Uma sugesto usar 60 7 ou 8 intervalos. Tomando como variao total 0,35m e adotando 7 intervalos, cada um ter amplitude 0,35/7=0,05 m. A distribuio de freqncias absolutas (simples e acumulada) e a distribuio de freqncias relativas (simples e acumulada) so dadas abaixo, assim como os grficos das distribuies de freqncias relativas. Intervalos de alturas 1,55 | 1,60 1,60 | 1,65 1,65 | 1,70 1,70 | 1,75 1,75 | 1,80 1,80 | 1,85 1,85 | 1,90 Total Ponto mdio 1,575 1,625 1,675 1,725 1,775 1,825 1,875 Freq. 2 7 9 18 16 5 3 60 Freq. acum. 2 9 18 36 52 57 60 Freq. relativa 0,033 0,117 0,150 0,300 0,267 0,083 0,050 1,000 Freq. relativa acumulada 0,033 0,150 0,300 0,600 0,867 0,950 1,000 Densidade de freq. rel. 0,667 2,333 3,000 6,000 5,333 1,667 1,000

3

0,30 0,20 0,10 0,00 1,575 1,625 1,675 1,725 1,775 1,825 1,875 Altura Freq. rel. acumuladaFrequncia relativa

1,00 0,80 0,60 0,40 0,20 0,00 1,575 1,625 1,675 1,725 1,775 1,825 1,875 Altura

O grfico em colunas retangulares acima chamado Histograma, enquanto que o grfico de freqncias acumuladas recebe o nome de Ogiva de Galton. No grfico de freqncias simples, as alturas dos retngulos so proporcionais as alturas dos retngulos do grfico de freqncias relativas. Portanto, eles tm o mesmo aspecto. Para as freqncias acumuladas tambm ocorre uma proporcionalidade das alturas. Na tabela de distribuies de freqncias da varivel altura foi includa uma coluna de densidade de freqncia relativa. Esta obtida pela diviso da freqncia relativa pela amplitude do intervalo de alturas correspondente. Desse modo, no histograma da densidade de freqncia, a rea de cada retngulo igual a freqncia relativa correspondente e a rea total igual a soma das freqncias relativas que 1. Em termos percentuais, a rea de cada retngulo a porcentagem de alturas no intervalo base do retngulo. Ateno: A compreenso do conceito de densidade de freqncia relativa fundamental para o entendimento de tpicos mais avanados de Estatstica. Na figura tem-se o histograma da densidade de 6,5 freqncias relativas das alturas de 6,0 um grande nmero de alunos de 5,5 graduao do sexo masculino. A 5,0 base de cada retngulo (intervalo de 4,5 alturas) igual a 0,02 m e os 4,0 nmeros indicados representam uma 3,5 parte dos pontos mdios dos 3,0 intervalos. No eixo vertical esto 2,5 representadas as densidades de 2,0 freqncias relativas, cuja unidade 1,5 1/m. Ento, a rea do retngulo de 1,0 ponto mdio 1,71 0,5 aproximadamente igual a 0,02 x 5,5= 0,0 0,11. Em outras palavras, 11% dos alunos tm alturas no intervalo de Altura 1,70 a 1,72 m. No intervalo de 1,72 a 1,78 m esto aproximadamente 35,5% das alturas. Um problema interessante determinar a altura, tal que, o conjunto de todas as alturas menores do que ela representa 2% do total. A resposta a altura de aproximadamente 1,60 m.Densidade1,55 1,59 1,63 1,67 1,71 1,75 1,79 1,83 1,87 1,91

4. RELAO ENTRE DUAS VARIVEIS At aqui as variveis foram analisadas individualmente. Muitas vezes interessa verificar se h alguma associao entre duas ou mais variveis. Com apenas duas variveis pode ser usado o grfico de disperso. Exemplo 5: Na figura abaixo est representado o grfico de disperso das variveis altura e peso da tabela do exemplo 1. Parece haver uma dependncia entre as variveis, pois conforme a altura aumenta, o peso tambm aumenta.

4

110 Peso 90 70 50 1,50

1,60

1,70 Altura

1,80

1,90

4. USANDO O EXCEL Funes CONT.SE(matriz*; valor) Conta o n0 de vezes que determinado valor (n0 ou no) aparece em uma matriz de dados. FREQNCIA(matriz; Quando o valor de referncia uma clula, d a Freqncia valores de referncia) acumulada. Para a freqncia absoluta preciso marcar primeiro o intervalo de sada, inserir a funo FREQUNCIA e pressionar ao mesmo tempo CONTROL+SHIFT+ENTER MXIMO(matriz) valor mximo de uma matriz de dados MNIMO(matriz) valor mnimo de uma matriz de dados CONT.VALORES(matriz) Total de valores numricos de uma matriz de dados*conjunto de clulas de uma planilha dispostos s em linha, s em coluna ou tanto em linha como em coluna.

Ferramentas de anlise HISTOGRAMA

Forma a distribuio de freqncia e constri o Histograma.

PROBLEMAS: 1) Abra uma pasta no Excel e coloque a tabela do exemplo 1 em uma planilha. Em seguida, use as funes indicadas acima para resolver os exemplos de 2 a 5. 2) Resolva novamente o exemplo 4 usando a ferramenta HISTOGRAMA. 3) Estude as distribuies de freqncias das outras variveis da tabela do exemplo 1: peso, idade e grau de instruo do pai (neste caso, use o grfico de colunas agrupadas). PROBLEMA PROPOSTO PP1) Considere os dados da tabela abaixo, referentes a 50 estudantes do sexo feminino matriculadas no curso de Qumica do IQAr em 1998. Construa para cada varivel as distribuies de freqncias e os respectivos grficos. Faa o grfico de disperso para o par de variveis altura e peso. Que concluses podem ser obtidas se os resultados para as variveis da tabela do exemplo 1 forem comparados com os obtidos aqui? N0 Peso (kg) 1 55,6 2 62,0 3 61,0 4 70,0 5 67,0 6 49,0 7 70,0 Altura (m) 1,64 1,70 1,68 1,69 1,65 1,60 1,68 idade (anos) 20 22 23 21 23 22 235

N0 Peso (kg) 26 53,0 27 63,0 28 70,0 29 48,0 30 51,0 31 85,0 32 57,0

Altura (m) 1,65 1,72 1,78 1,59 1,59 1,73 1,65

idade (anos) 22 21 22 20 21 19 21

8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25

63,0 60,0 52,0 58,0 50,0 55,0 57,0 50,0 70,0 48,0 70,0 54,0 48,5 52,0 42,0 67,0 58,0 57,0

1,64 1,71 1,65 1,70 1,62 1,65 1,67 1,56 1,59 1,60 1,70 1,61 1,55 1,70 1,58 1,62 1,68 1,66

21 22 21 20 27 21 18 21 23 19 19 25 20 22 19 19 18 18

33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50

65,0 48,0 60,0 64,0 49,0 65,0 57,0 55,0 54,0 57,0 45,0 62,0 89,0 50,0 51,0 48,0 53,0 73,0

1,60 1,65 1,68 1,58 1,60 1,70 1,67 1,55 1,65 1,80 1,60 1,70 1,65 1,70 1,60 1,62 1,64 1,74

21 21 32 20 19 22 19 21 22 19 20 24 31 21 18 21 21 22

6

5. MEDIDAS DE POSIO As medidas de posio mais conhecidas so: mdia, mediana e moda. So valores em torno dos quais os dados se distribuem, por isso so conhecidas como medidas de tendncia central. Se uma varivel x possui os n valores: x1, x 2, ..., xn, a mdia aritmtica, que representaremos aqui por m, ou m(x) quando houver necessidade de identificar a varivel x, m( x ) = x1 + x2+ L+

xn

n

=

1 (x 1 + x 2 n

+ L+

xn) =

1 n xi n i=1

A mediana, med, o valor que ocupa a posio central da srie de dados, quando estes so colocados em ordem crescente ou decrescente, e a moda, mo, o valor com maior freqncia. Pode haver mais de uma moda. Exemplo 6: Se uma varivel tm valores iguais a: 10, 15, 18, 22, 22, 30, a mdia m, a mediana med e a moda so, respectivamente, iguais a 10 + 15 + 18 + 22 + 22 + 30 m= = 19,5 6 18 + 22 med = = 20 (pois existem dois valores centrais) 2 moda = 22 Exemplo 7: Considerando as alturas dos alunos na tabela do exemplo 1, tem-se, em metros, 1 103,95 (171 + 1 72 + 1 69 + 162 + ... + 1 64 + 165 ) = , , , , , , 60 60 med = 1,735 moda = 1,71 m==

1 733 ,

Essas medidas de posio podem ser determinadas pela distribuio de freqncias do exemplo 4 tomando o ponto mdio dos intervalos. Tem-se: 1 m= (2 1 575 + 7 1 625 + 9 1,675 + 18 1725 + 16 1,775 + 5 1,825 + 3 1,875 ) , , , 60 103,80 = = 1,730 60 med = 1,725 moda = 1,725 6. MEDIDAS DE DISPERSO As medidas disperso so valores que mostram o quanto os dados esto dispersos em relao ao centro da distribuio de freqncia (em geral, a mdia). As principais medidas de disperso so: varincia e desvio padro, mas existem outras, tais como: amplitude total, desvio mdio e coeficiente de variao. Se uma varivel x possui os n valores: x1, x2, ..., xn, a varincia, indicada por Var ou Var(x), definida por Var ( x ) = 1 [( x1 m) 2 + (x 2 n m) 2 + L+

( x n m)

2

=

1 n ( xi n i= 1

m)

2

Entendendo (x i - m) como o desvio de xi em relao mdia m, ento a varincia a mdia7

desses desvios ao quadrado. O desvio padro, dp(x), a raiz quadrada da varincia, isto , dp( x ) = Var (x )

Quanto as outras medidas de disperso, a amplitude total a diferena entre o maior e o menor valor da srie de dados, o desvio mdio a mdia dos desvios tomados sempre como positivos e o coeficiente de variao, CV, o quociente entre o desvio padro e a mdia, multiplicado por 100. CV = dp( x ) 100% x

Exemplo 8: Considerando os dados do exemplo 6, tem-se Var=

1 [(10 19,5) 2 + (15 19,5 )2 6 1 [( 9,5) 2 + ( 4,5) 2 + ( 15 )2 , 6 235,5 = 39,25 6

+ (18 19,5 )

2

+

(22 19,5) 22

+ (22 19,5 ) = = + ( 2,5 ) 2

2

+ ( 30 19,5) 2 +

]

+ ( 2,5 )

(10,5)2 ]

Observe que os desvios so iguais a -9,5; -4,5; -1,5; 2,5; 2,5; 10,5 e a soma desses desvios igual a zero (isso acontece sempre). O valor 235,5 a Soma de Quadrados dos Desvios. O desvio padro igual a dp = 39 ,25 = 6,2650 amplitude total = 30 - 10 = 20 9,5 + 4,5 + 1,5 + 2,5 + 2,5 + 10,5 desvio mdio = desvio mdio = = 5,1667 6 6,2650 coeficiente de variao = CV = 100 = 32,13 % 19,5 Exemplo 9: Para a distribuio de freqncias da varivel x = altura do exemplo 4, tem-se: Var Var= =

1 [ 2 (1575 1 730 )2 , , 60 0,2935 2 = 0,0049 m 60=

+

7 (1,625 1730 ) 2 ,

+ L+

3.(1 875 1,730 )2 ] ,

Desvio padro

0,0049

=

0,070 m

0,070 100 = 4,04 % 1730 , Amplitude Total= 1,875 1,575 = 0,030 m CV = 7. POPULAO E AMOSTRA Os mtodos estatsticos so prprios para o estudo de populaes. Populao um conjunto de dados que descreve algum fenmeno de interesse, ou seja, dados que tm, em comum, determinada caracterstica. Amostra um subconjunto de dados selecionados de uma populao. Pretende-se, a partir da amostra, estudar a populao. Portanto, uma amostra deve ter as mesmas caractersticas que a populao de onde foi retirada. Existem procedimentos adequados de amostragem.8

Considerando uma populao formada por um conjunto muito grande de valores, fcil imaginar que o grfico da densidade de freqncia (ver exemplo 4) poderia ser representado por uma linha contnua como nas figuras abaixo. Em cada uma delas a rea abaixo da curva igual a 1. O grfico a esquerda simtrico em torno do eixo que contm a mdia e representa uma densidade de freqncia terica, chamada distribuio normal, que ser estudada adiante.

Densidade

mdia x

Densidade

x

As medidas de posio e de disperso, definidas nos itens 5 e 6, so vlidas tanto para populao como para amostra, mas, para a amostra, a varincia e o desvio padro tem como denominador (n1) em lugar de n. Exemplo 10: No exemplo 8, o correto seria Var =

235,5 = 47,1000 e 5

dp = 6,8629 .

Entretanto, no exemplo 9 faz pouca diferena dividir por 60 ou 60 -1=59.

8. MEDIDAS DE ASSIMETRIA E CURTOSE O coeficiente de assimetria e o coeficiente de curtose so medidas relacionadas com a forma da distribuio de freqncia ou da densidade de freqncia. A assimetria uma medida da falta de simetria da distribuio. A curtose indica o grau de achatamento de uma densidade de freqncia em relao distribuio normal citada no item anterior. Nos grficos acima, o primeiro tem coeficiente de assimetria e coeficiente de curtose iguais a zero (pois trata-se de uma distribuio normal). No outro grfico, tanto o coeficiente de assimetria como o de curtose so grandes. Para um conjunto de valores xi, com i=1,2,...,n, o coeficiente de assimetria definido por x x 2 n ( is ) (n 1)(n 2) onde s = dp(x) o desvio padro do conjunto xi considerado como amostra. O coeficiente de curtose dado por [ x x 4 n(n + 1) 3(n 1)2 ( i ) ] (n 1)(n 2 )(n 3 ) s (n 2)(n 3)

9

9. USANDO O EXCEL Funes: MDIA(matriz) MED(matriz) MODO(matriz) DESVQ(matriz) DESVPAD(matriz) VAR(matriz) CURT(matriz) DISTORO(matriz)

Mdia de um conjunto de dados Mediana Moda Soma de quadrados dos desvios em relao mdia Desvio padro amostral Varincia de uma amostra Coeficiente de curtose Coeficiente de assimetria

Observao: as funes a seguir se referem a populao e usam n em vez de n-1 no denominador. VARP(matriz) Varincia de uma populao DESVPADP(matriz) Desvio padro populacional Ferramentas de anlise ESTATSTICA DESCRITIVA

Fornece informaes sobre a tendncia central e disperso dos dados

PROBLEMAS: Todas as questes a seguir se referem aos dados da tabela do exemplo 1 (considerados como amostra). 4) Determine as medidas de tendncia central e de disperso para a varivel n0 de irmos. Use as funes apropriadas. 5) Repita o problema anterior para a varivel peso. 6) Use a ferramenta ESTATSTICA DESCRITIVA para resolver os problemas 4) e 5) PROBLEMAS ADICIONAIS: 7) Acione a ajuda do Excel para conhecer as funes ALEATRIO e ALEATRIOENTRE. Use essas funes para sortear 10 alunos da tabela do exemplo 1. Determine a mdia, varincia e desvio padro das idades dos alunos sorteados. Obtenha ajuda sobre a funo PROCV e verifique como us-la para copiar as idades dos alunos sorteados. PROBLEMAS PROPOSTOS PP2) Complete o problema proposto 1 com as medidas expostas aqui. Como ficam as concluses anteriores? PP3) Procure na literatura um conjunto de dados (mais de 30) de uma varivel e faa um estudo usando os procedimentos da Estatstica Descritiva. Escreva um pequeno relatrio contendo: a) Objetivo da pesquisa b) Resultado (Coloque os resultados em tabelas e grficos de acordo com as normas da ABNT - consulte a Biblioteca) c) Concluso d) Referncia bibliogrfica (fonte do conjunto de dados) Apndice: Normas da ABNT para construo de tabelas e figuras (ou grficos).

10

COMPLEMENTOS 10. TEOREMA DE CHEBYSHEV (aplicao do desvio padro) Dado um nmero k, maior do que 1, ento pelo menos (1-1/k2) dos valores de uma amostra ou populao pertencero ao intervalo de k desvios padro antes e k desvios padro alm da mdia. Este intervalo tem extremos (m k dp) e (m + k dp) . Exemplo 11: Para as alturas da tabela do exemplo 1, obteve-se no exemplos 7 e 9, a mdia 1,73 e o desvio padro 0,070, respectivamente. Seja o intervalo 1,73 k. 0,070 Pelo teorema de Chebyshev tem-se: Se k=2, pelo menos 1-1/4 = 3/4 (75%) dos valores esto no intervalo 1,732(0,070) (isto , entre 1,59 m e 1,87 m). Na realidade, este intervalo contm 93,3% das alturas, como pode ser verificado pela tabela do exemplo 1. Se k=3, pelo menos 1-1/9 = 8/9 (88,9%) das alturas esto no intervalo 1,733(0,070) (isto , entre 1,52 e 1,94). Na realidade este intervalo contm 100% das alturas. 11. MEDIDAS DE ORDENAMENTO A mediana uma medida de ordem tal que metade das observaes so menores que ela. Existem outras medidas de ordenamento que podem ser teis. Para cada uma dessas medidas, uma proporo p das observaes menor do que ela. Por exemplo, os quartis dividem uma srie de dados em quatro partes. Para cada p, entre 0 e 1, determinado um percentil. Exemplo 11: Seja a srie de valores: 45; 33; 40; 36; 31; 49; 37; 30; 48; 38; 43 Srie ordenada ordem ordem porcentual 30 31 33 36 37 38 40 43 45 48 49 1 2 3 4 5 6 7 8 9 10 11 0,0 0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9 1,0

Tomando, por exemplo, o n 0 43, 70% dos valores da srie so menores que ele e 30% maiores. O percentil de p=0,70 (ou 70%) 43. Os quartis so : 10 quartil (ou percentil de 0,25) = 34,5 (25% dos valores so menores do que 34,5) 20 quartil (ou mediana) = 38 (50% dos valores so menores do que 38) 30 quartil (ou percentil de 0,75) = 44 (75% dos valores so menores do que 44) Funes ORDEM(n0 ; matriz; ordem*) ORDEM.PORCENTUAL(matriz; n0; decimais**) PERCENTIL(matriz; p) Posio de um n0 em uma matriz de dados Posio percentual de um n0

o percentil em matriz de dados correspondente a p (030 a distribuio amostral de p se aproxima de uma distribuio normal de mdia = p e varincia 2 = p(1-p)/n.21

Exemplo 5: No exemplo anterior, retirando-se 200 bolas da caixa, com reposio de cada bola, qual a probabilidade da proporo de bolas brancas ser menor do que 60%? (R: 0,0228) 4. USANDO O EXCEL PROBLEMAS: 1) Uma caixa contm bolas numeradas 6 e 9, na mesma proporo. Forme a distribuio amostral de mdias de amostras aleatrias de tamanho 3. Calcule a mdia e a varincia da distribuio. 2) Qual a probabilidade da mdia de uma amostra de tamanho 100 retirada da populao do exemplo anterior estar entre 6,5 e 7,8? 3) (Amostragem normal) Com a ferramenta GERAO DE NMERO ALEATRIO obter 1000 alturas de uma distribuio normal de mdia 1,62 m e desvio padro 0,08 m. Forme a distribuio de freqncias, calcule a mdia e o desvio padro. 4) Considere as alturas do problema 3 como sendo uma populao. Com a ferramenta AMOSTRAGEM, sorteie amostras de tamanhos 5, 10, 30 e 120. Calcule a mdia e desvio padro de cada amostra. 5) Considerando o problema 1, forme a distribuio amostral de varincias. Calcule a mdia dessa distribuio amostral. Observe que a mdia das varincias amostrais igual a varincia populacional. Isso justifica a diviso por (n-1) em lugar de (n) no clculo da varincia da amostra. 6) Estude no Excel, com a Ferramenta de Anlise AMOSTRAGEM, como funciona o mtodo de amostragem peridico.

22

IV. ESTIMAO DE PARMETROS

1. INTERVALO DE CONFIANA PARA A MDIA POPULACIONAL 10 caso: A varincia populacional 2 conhecida Seja x uma varivel aleatria de mdia (desconhecida) e desvio padro (conhecido). Do captulo anterior tem-se que a distribuio amostral de mdias x de amostras de tamanho n, quando x normal ou n suficientemente grande, tambm normal de mdia e desvio padro . n Na figura ao lado apresentado um intervalo simtrico em torno da mdia , de extremos e 0 e + e 0 , de tal modo que a probabilidade de x estar neste intervalo 1 , isto ,P( e 0 x + e 0 ) = 1 1-

Pela distribuio normal padro calcula-se e0 ( + e 0 ) = z 0 , portanto e 0 = z 0 . n n Assim P( x z 0

/2 -e 0z0

/2 0

+e 0-z 0

_

x z

x + z0 ) = 1 e fica definido um intervalo de extremos n n n

x z0

que poder conter ou no a mdia populacional . Como esta um parmetro e no uma varivel aleatria, no tem sentido dizer que "a probabilidade cair no intervalo 1-", por isso diz-se que os extremos acima definem um intervalo de confiana para a mdia . A interpretao ser reforada no exemplo a seguir. Exemplo 1: Sabe-se que uma varivel x =altura de alunos tem desvio padro = 0,09m . Se em uma amostra de 36 alunos foi encontrada a mdia x =1,70 m, qual o intervalo de 95% de confiana para a mdia de x? E o intervalo de 90%? (com uma amostra grande como esta no necessrio conhecer o desvio padro populacional, pode ser usado o desvio padro amostral s) Se 1-=0,95 =0,05, ento z0=1,96 (ver tabela no apndice) e um intervalo de 0,09 , 95% de confiana para tem extremos 1 70 196 , , = 1 70 0,029 , ou seja 36 1,670<