manual de a aplicada a mpc

Upload: renata-d-s-salem

Post on 07-Jul-2015

3.541 views

Category:

Documents


1 download

TRANSCRIPT

METODOLOGIA DA PESQUISA CIENTFICA, PARA TEMAS MILITARES.

ESTATSTICA APLICADA

EsAO

METODOLOGIA DA PESQUISA CIENTFICA, PARA TEMAS MILITARES. Volume 1

ESTATSTICA APLICADA

Clayton Amaral Domingues - Cap Art

por

1 Edio

RIO DE JANEIRO EDITORA EsAO --2004

2004 by Domingues, Clayton Amaral.

Diagramao: Clayton Amaral Domingues Cap Art

Reviso: Jos Fernando Chagas Madeira Maj Com Luiz Eduardo Possdio Santos Cap MB Clayton Amaral Domingues Cap Art

Dados Internacionais de Catalogao na Publicao (CIP) D 671 Domingues, Clayton Amaral. Estatstica aplicada: metodologia da pesquisa cientfica para temas militares/ Clayton Amaral Domingues. - Rio de janeiro: EsAO, 2004. 85 p. ; il. ; 21 cm. Inclui Bibliografia 1. Estatstica metodologia. 2 Pesquisa metodologia. I Ttulo. CDD 310

Escola de Aperfeioamento de Oficiais Avenida Duque de Caxias, 2071. Rio de Janeiro/ RJ - CEP 21615-220

SUMRIO 1 2 2.1 2.1.1 2.1.2 2.2 2.2.1 2.2.2 2.2.3 2.3 2.3.1 CAPTULO 1 - INTRODUO CINCIA ESTATSTICA......................... CAPTULO 2 - ESTATSTICA DESCRITIVA.................................................. INTRODUO ESTATSTICA DESCRITIVA............................................. VARIVEIS QUALITATIVAS............................................................................ VARIVEIS QUANTITATIVAS......................................................................... TCNICAS DE DESCRIO GRFICA.......................................................... DESCRIO GRFICA DAS VARIVEIS QUALITATIVAS...................... DESCRIO GRFICA DAS VARIVEIS QUANTITATIVAS DISCRETAS........................................................................................................... 1 4 4 5 5 6 7 9

DESCRIO GRFICA DAS VARIVEIS QUANTITATIVAS CONTNUAS.......................................................................................................... 13 CARACTERSTICAS DE UMA DISTRIBUIO DE FREQNCIAS...... MEDIDAS DE POSIO..................................................................................... 19 19 19 21 23 24 25 25 25 27 28 28 30 31

2.3.1.1 MDIA.................................................................................................................... 2.3.1.2 MEDIANA.............................................................................................................. 2.3.1.3 MODA..................................................................................................................... 2.3.1.4 QUARTIS E PERCENTIS.................................................................................... 2.3.2 MEDIDAS DE DISPERSO................................................................................ 2.3.2.1 A AMPLITUDE TOTAL...................................................................................... 2.3.2.2 A VARINCIA....................................................................................................... 2.3.2.3 O DESVIO-PADRO............................................................................................ 2.3.2.4 O COEFICIENTE DE VARIAO.................................................................... 2.3.3 2.3.4 2.3.5 3 3.1 3.2 3.2.1 MEDIDAS DE ASSIMETRIA.............................................................................. MEDIDAS DE ACHATAMENTO OU CURTOSE............................................ CONSIDERAES SOBRE MEDIDAS DE ASSIMETRIA E CURTOSE....

CAPTULO 3 - AMOSTRAGEM......................................................................... 32 INTRODUO....................................................................................................... 32 AMOSTRAGEM.................................................................................................... AMOSTRAGEM NO ALEATRIA................................................................. 33 33 33 33 33 33 34 34

3.2.1.1 AMOSTRAGEM INTENCIONAL...................................................................... 3.2.1.2 AMOSTRAGEM VOLUNTRIA....................................................................... 3.2.2 AMOSTRAGEM ALEATRIA........................................................................... 3.2.2.1 AMOSTRAGEM ALEATRIA SIMPLES........................................................ 3.2.2.2 AMOSTRAGEM SISTEMTICA....................................................................... 3.2.2.3 AMOSTRAGEM ESTRATIFICADA..................................................................

3.2.2.4 AMOSTRAGEM POR CONGLOMERADOS.................................................... 35 4 4.1 4.1.1 4.1.2 4.2 4.2.1 4.2.2 4.2.3 4.3 4.3.1 4.3.2 4.3.3 4.3.4 5 5.1 5.2 5.3 5.4 6 6.1 6.2 6.3 6.4 6.5 6.6 6.7 6.8 6.9 CAPTULO 4 - PROBABILIDADE..................................................................... ESPAO AMOSTRAL ......................................................................................... EVENTOS............................................................................................................... EVENTOS COMPLEMENTARES...................................................................... EVENTOS INDEPENDENTES............................................................................ EVENTOS MUTUAMENTE EXCLUSIVOS..................................................... 38 38 39 40 41 41 EXPERIMENTO ALEATRIO........................................................................... 38

PROBABILIDADE................................................................................................. 39

EMPREGO DA PROBABILIDADE PARA COMPROVAO DE HIPTESES............................................................................................................ 43 ALFA (ERRO TIPO I) .......................................................................................... 44 BETA (ERRO TIPO II) ........................................................................................ SIGNIFICADO....................................................................................................... PODER.................................................................................................................... CAPTULO 5 DISTRIBUIO BINOMIAL E NORMAL........................... VARIVEL ALEATRIA................................................................................... DISTRIBUIO DE PROBABILIDADE........................................................... DISTRIBUIO BINOMIAL.............................................................................. DISTRIBUIO NORMAL - CURVA NORMAL............................................ CAPTULO 6 CORRELAO E REGRESSO............................................ INTRODUO...................................................................................................... COEFICIENTE DE CORRELAO DE PEARSON....................................... CORRELAO E CAUSA................................................................................... TRANSFORMAO Z DO r ...................................................................... REGRESSO LINEAR......................................................................................... CORRELAO PARCIAL.................................................................................. REGRESSO MLTIPLA................................................................................... ANEXO I - ESTATSTICA DESCRITIVA......................................................... ANEXO II - COMPARAES ENTRE AMOSTRAS...................................... ANEXO IV - TABELA DE NMEROS ALEATRIOS................................... 45 46 46 49 49 49 51 55 57 57 57 60 61 63 65 66 69 70 72

INTERPRETAO DE r ................................................................................. 60

LINHA DE MELHOR AJUSTAMENTO E ERRO DE PREDIO............... 64

ANEXO III - RELAO ENTRE VARIVEIS................................................. 71 ANEXO V - REA SUBTENDIDA PELA CURVA NORMAL REDUZIDA DE 0 A Z.................................................................................................................. 73 ANEXO VI - VALORES CRTICOS DOS COEFICIENTES DE CORRELAO 74 ANEXO VII TABELA PARA TRANSFORMAO DE r PARA Z................. 75

Captulo 1A Cincia Estatstica1. INTRODUO CINCIA ESTATSTICA Podemos considerar a Estatstica como a cincia que se preocupa com a organizao, descrio, anlise e interpretao dos dados experimentais, visando tomada de decises. A razo pela qual consideramos a Estatstica uma ferramenta importante para a tomada de decises est no fato de que ela no deve ser considerada como um fim em si prpria, mas como um instrumento (ferramenta) fornecedor de informaes que subsidiaro a tomada de melhores decises, baseadas em fatos e dados. A Estatstica , portanto, uma cincia meio que tem utilidade em outros variados campos do conhecimento. Evidentemente, tanto a parte de organizao e descrio dos dados como aquela que diz respeito a sua anlise e interpretao so importantes. razovel tambm que, para realizar-se a anlise e interpretao dos dados observados, procede-se primeiramente a sua organizao e descrio. Neste contexto, podemos considerar a Cincia Estatstica como dividida basicamente em duas partes: a Estatstica Descritiva que se preocupa com a organizao e descrio dos dados experimentais, e a Estatstica Indutiva*(so tambm utilizados as termos Estatstica Inferencial ou Inferncia Estatstica, ou, ainda, Induo Estatstica), que cuida da anlise e interpretao dos dados. A Estatstica Descritiva na sua funo de organizao e descrio dos dados tem as seguintes atribuies: A obteno dos dados estatsticos feita normalmente atravs de questionrio ou de observao direta de uma populao ou amostra. A organizao dos dados consiste na ordenao e crtica quanto correo dos valores observados, falhas humanas, omisses, abandono de dados duvidosos etc. A reduo dos dados - O entendimento e a compreenso de grande quantidade de dados atravs da simples leitura de seus valores individuais uma tarefa extremamente rdua e difcil mesmo para o mais experimentado pesquisador. A Estatstica Descritiva apresenta duas formas bsicas para a reduo do nmero de dados com os quais devemos trabalhar, chamadas varivel discreta e varivel contnua. A representao dos dados Os dados estatsticos podem ser mais facilmente compreendidos quando apresentados por meio de uma representao grfica, o que permite a visualizao instantnea dos mesmos.

2

CINCIA ESTATSTICA

A obteno de algumas informaes que auxiliam a descrio do fenmeno observado (mdias, propores, tendncias, ndices, taxas, coeficientes) que facilitam a descrio dos fenmenos observados. Para darmos prosseguimento a apresentao da Estatstica Descritiva, tratada mais detalhadamente no captulo 2, interessante que se entenda dois conceitos: Dados brutos - uma seqncia de valores numricos no organizados, obtidos diretamente da observao de um fenmeno coletivo; Rol - uma seqncia ordenada de dados brutos. Uma vez que o conceito usual do que seja a Estatstica se relaciona, em geral, com o que chamaremos de Estatstica Descritiva, queremos deixar bem claro desde j qual a finalidade da Estatstica Indutiva, que ser tratada no volume 2. Para tanto, dois conceitos fundamentais devem ser apresentados: o de populao ou universo e o de amostra. Uma populao ou universo, no sentido geral, um conjunto de elementos com pelo menos uma caracterstica comum. Essa caracterstica comum deve delimitar inequivocamente quais os elementos que pertencem populao e quais os que no pertencem. Assim, por exemplo, podemos estar interessados em realizar uma pesquisa sobre a idade dos militares do Comando Militar do Leste. Logo, a populao fsica que nos interessa examinar aquela constituda pela totalidade dos militares existentes no Comando Militar do Leste. Isso parece extremamente simples, mas na verdade ainda no temos exatamente caracterizada a populao que nos interessa. Ser ela constituda apenas por aqueles que, no momento atual, esto na ativa? Ou deveremos incluir tambm os que j esto na reserva? Alm de tudo, temos tambm o problema de definir a caracterstica comum que distingue perfeitamente cada um dos elementos da populao que realmente nos interessa pesquisar (do Efetivo Profissional ou tambm deveramos incluir os do Efetivo Varivel?). Uma vez perfeitamente caracterizada a populao, o passo seguinte o levantamento de dados acerca da caracterstica (ou caractersticas) de interesse no estudo em questo. Grande parte das vezes, porm, no conveniente, ou mesmo nem possvel, realizar o levantamento dos dados referentes a todos os elementos da populao. Devemos ento limitar nossas observaes a uma parte da populao, isto , a uma amostra proveniente dessa populao. Uma amostra , pois, um subconjunto necessariamente finito de uma populao, pois todos os seus elementos sero examinados para efeito da realizao do estudo estatstico desejado. O objetivo da Estatstica Indutiva tirar concluses sobre populaes com base nos resultados observados em amostras extradas dessas populaes. O prprio termo "indutiva" decorre da existncia de um processo de induo, isto , um processo de raciocnio em que, partindo-se do conhecimento de uma parte, procura-se tirar concluses sobre a realidade, no todo (o oposto ocorre nos processos de deduo, em que, partindo-se do conhecimento do todo, conclumos exatamente sobre o que deve ocorrer em uma parte) .

3

CINCIA ESTATSTICA

fcil perceber que um processo de induo no pode ser exato. Ao induzir, portanto, estamos sempre sujeitos a erro. A Estatstica Indutiva, entretanto, ir nos dizer at que ponto poderemos estar errando em nossas indues e com que probabilidade. Esse fato fundamental para que uma induo (ou inferncia) possa ser considerada estatstica, e faz parte dos objetivos da Estatstica Indutiva. intuitivo que, quanto maior a amostra, mais precisas e mais confiveis devero ser as indues realizadas sobre a populao. Levando esse raciocnio ao extremo, concluiramos que os resultados mais perfeitos seriam obtidos pelo exame completo de toda a populao, ao qual se denomina censo ou recenseamento. Ocorre, em realidade, que diversas razes levam, em geral, necessidade de recorrer-se apenas aos elementos de uma amostra. Entre elas, podemos citar o custo do levantamento de dados e o tempo necessrio para realiz-lo, especialmente se a populao for muito grande, ou, ento, podemos no ter acesso fcil ou possvel a todos os elementos da populao, etc. Um outro problema que surge paralelamente o de amostragem. claro que, se nossas concluses referentes populao iro basear-se no resultado de amostras, certos cuidados bsicos devem ser tomados no processo de obteno dessas amostras, ou seja, no processo de amostragem. Muitas vezes, erros grosseiros e concluses falsas ocorrem devido a falhas na amostragem. Esse problema ser tratado com maior destaque no Cap. 3. Em resumo, um estudo estatstico completo, que recorra s tcnicas da Estatstica Indutiva, ir envolver tambm, direta ou indiretamente, tpicos de Estatstica Descritiva, Clculo de Probabilidades e Amostragem. Assim, para se desenvolver um curso razovel de Estatstica, todos esses assuntos devem ser abordados em maior ou menor grau, dentro de uma seqncia, conforme indicado no diagrama da Fig. 1. Amostragem

Estatstica Descritiva Estatstica Indutiva

Clculo de Probabilidades

Figura 1 - Esquema geral de um curso de Estatstica.

As trs ferramentas necessrias para a Inferncia Estatstica sero abordadas neste volume, para que no Volume 2 possamos abordar os aspectos da inferncia e dos testes de hipteses com mais profundidade. Os ANEXOS I, II e III, indicam as anlises inferenciais adequadas para as diversas situaes de pesquisa, porm, no descrevem os procedimentos a serem adotados em cada situao particular. Isso ocorre devido ao fato de que a deciso final depende no somente das restries matemticas, mas tambm dos objetivos do estudo e da prpria natureza dos achados que sero produzidos. Contudo, importante ter em mente que as tabulaes apresentadas constituem um mapa de referncia para auxiliar o pesquisador na escolha do procedimento mais adequado para cada situao de pesquisa.

Captulo 2Estatstica Descritiva2.1 INTRODUO ESTATSTICA DESCRITIVA Vimos, no Cap. 1, que a Estatstica trabalha com informaes referentes ao conjuntos de elementos observados. Nos problemas de Estatstica Indutiva, esses elementos constituem uma amostra retirada da populao que se deseja estudar. Em muitos casos, entretanto, o conjunto observado pode constituir a populao inteira. Para iniciarmos o tratamento dos dados preciso antes que se tenha(m) bem definida(s) qual(is) a(s) caracterstica(s) de interesse que dever(o) ser verificada(s). Ou seja, no iremos trabalhar estatisticamente com os elementos existentes, mas com alguma(s) caracterstica(s) desses elementos que seja(m) fundamental(is) ao nosso estudo. Por exemplo, o conjunto de elementos a ser estudado pode ser a populao de uma Brigada. Este o conjunto dos elementos, fisicamente definido e considerado. claro que no iremos nem poderemos fazer qualquer tratamento matemtico com os militares que formam esse conjunto. preciso definir qual(is) caracterstica(s) desses militares nos interessa(m) averiguar. Essa caracterstica poder ser, digamos, a idade dos militares. A idade uma varivel cujos valores (dados numericamente organizados em alguma escala de unidade), dependero dos elementos considerados. Ou seja, se houver n elementos fisicamente considerados no estudo, esses elementos fornecero n valores da varivel idade, os quais sero ento tratados convenientemente pela Estatstica Descritiva. No presente captulo, vamos apenas tratar do caso de variveis unidimensionais, ou seja, quando apenas uma caracterstica de interesse est associada a cada elemento do conjunto examinado. Esta caracterstica poder ser qualitativa ou quantitativa. Teremos, portanto, variveis qualitativas ou quantitativas, como nos exemplos que seguem no Quadro 1. VARIVEL DADO Sexo M,F. (QUALITATIVA) grupo sangneo A, B, AB,O Categorias ordenadas grau de dor, I, F, FR, S, A. ORDINAL (QUALITATIVA) escores em geral E, MB, B, R, I. Espectro ordenado com Flexes de brao 0a+ INTERVALAR intervalos quantificveis (QUANTITATIVA) Peso 0a+ Espectro ordenado com Fora - 1.

Classificao Praticamente simtrica Moderadamente assimtrica Fortemente assimtrica

Quadro 16 - Classificao da distribuio de freqncia em relao a sua assimetria.

29 Consideraes a respeito da assimetria

ESTATSTICA DESCRITIVA

Nos exemplos abaixo poderemos verificar o formato e as caractersticas de sries estatsticas com um mesmo nmero de elementos. Consideremos que os conceitos de uma pista Tiro de Ao Reflexa obedeam a seguinte ordenao de valores (sendo o nmero de tiros executado por cada militar igual a 22):

DISTRIBUIO A classe 02 06 10 14 18 06 10 14 18 22 xi4 8 12 16 20

fi6 12 24 30 6

RESULTADO DO TIRO DE AO REFLEXA DE SOLDADOS DE UMA BATERIA DE OBUSESNr 35 30 25 20 15 10 5 0 I R B MB E Conceitos

S Onde: X= 12,92 Md= 13,5 S= 5,0087

A= 3(X Md)

=

78

A= -.347 Ass. Negativa moderada

Figura 17a Assimetria negativa moderada.

DISTRIBUIO B classe 02 06 10 14 18 06 10 14 18 22 xi 4 8 12 16 20 = fi 5 21 26 21 5 78Nr 30 25 20 15 10 5 0

RESULTADO DO TIRO DE AO REFLEXA DE SOLDADOS DE UMA BATERIA DE OBUSES

A= 3(X Md)

Onde: X= 12 Md= 12 S= 4,1478I R B MB E Conceitos

S

A= 0 Simtrica

Figura 17b Assimetria nula.

DISTRIBUIO C classe 02 06 10 14 18 06 10 14 18 22 xi 4 8 12 16 20 = fi 6 30 24 12 6 78Nr 35 30 25 20 15 10 5 0

RESULTADO DO TIRO DE AO REFLEXA DE SOLDADOS DE UMA BATERIA DE OBUSES

A= 3(X Md)

Onde: X= 11,08 Md= 10,5 S= 3,6039I R B MB E Conceitos

S

A= +.483 Ass.Positiva moderada

Figura 17c Assimetria positiva moderada.

30 2.3.4 MEDIDAS DE ACHATAMENTO OU CURTOSE

ESTATSTICA DESCRITIVA

As medidas de curtose caracterizam a forma da distribuio quanto a seu achatamento. A comparao feita em relao distribuio normal, modelo terico de distribuio estudado pelo Clculo de Probabilidades (veja o captulo 4). As Fig. 18a, Fig. 18b, e Fig. 18c, apresentam os trs tipos caractersticos de distribuio:classe 5 15 25 35 45 55 65 75 85 95 105 110 115 = classe 5 15 25 35 45 55 65 75 85 95 105 110 115 = classe 5 15 25 35 45 55 65 75 85 95 105 110 115 = xi 4 7 9 11 12 13 13 13 12 11 9 7 4 125 xi 4 7 9 11 12 13 13 13 12 11 9 7 4 125 xi 0 0 1 2 6 24 59 24 6 2 1 0 0 125FLEXES DE BRAO REALIZADAS POR SOLDADOS DA 1 COMPANIA DE FUZILEIROS70 60 50 40 30 20 10 0 5 15 25 35 45 55 65 75 85 95 105 110 115 Repeties

Nr

Figura 18a Distribuio Platicrtica.

Nr 70 60 50 40 30 20 10 0

FLEXES DE BRAO REALIZADAS POR SOLDADOS DA 2 COMPANIA DE FUZILEIROS

5

15

25

35

45

55

65

75

85

95

105

110

115

Repeties

Figura 18b Distribuio Mesocrtica.FLEXES DE BRAO REALIZADAS POR SOLDADOS DA 3 COMPANIA DE FUZILEIROSNr 70 60 50 40 30 20 10 0 5 15 25 35 45 55 65 75 85 95 105 110 115 Repeties

Figura 18c Distribuio Leptocrtica.

31

ESTATSTICA DESCRITIVA

Como dito anteriormente, a classificao quanto curtose d-se em funo do achatamento da distribuio de freqncias. Deste modo, uma distribuio normal tem um achatamento mediano, o que chamamos distribuio mesocrtica (forma de boca de sino). As distribuies mais achatadas que a normal so denominadas platicrticas (forma de prato) e as menos achatadas so denominadas leptocrticas (forma de chapu mexicano). A caracterizao do achatamento de uma distribuio s tem sentido, em termos prticos, se a distribuio for pelo menos aproximadamente simtrica. Desta forma possvel verificar que: a. distribuies platicrticas apresentam os dados bem dispersos em relao mdia, o que caracteriza uma forma de distribuio heterognia. b. distribuies mesocrticas apresentam os dados normalmente dispersos em relao mdia, o que caracteriza uma forma de distribuio normal. c. distribuies leptocrticas apresentam os dados muito prximos da mdia, o que caracteriza uma forma de distribuio homognia Entre as possveis medidas de achatamento, mencionaremos apenas o coeficiente percentlico de curtose, dado pela frmula abaixo: Classificao quanto curtose C = 0,263 curva mesocrtica C < 0,263 curva leptocrtica C > 0,263 curva platicrtica

C=

Q3 - Q1 2(P90 - P10)

Onde: Q1 = 1 quartil; Q3 = 3 quartil; P10 = Percentil 10 e P90 = percentil 90

Quadro 17 - Classificao da distribuio de freqncia em relao a sua curtose.

2.3.5 CONSIDERAES SOBRE MEDIDAS DE ASSIMETRIA E CURTOSE No volume 2 trataremos sobre a Estatstica Inferencial, onde veremos duas categorias de testes estatsticos: os paramtricos e os no-paramtricos. Neste momento importante que se diga que a primeira categoria, testes paramtricos, possuem trs pressupostos bsicos sobre a distribuio dos dados: a. a populao estudada deve possuir uma distribuio normal; b. a amostra extrada deve ter as mesmas variaes na varivel estudada; e c. as observaes devem ser independentes. Sempre que estes pressupostos so alcanados, os testes paramtricos aumentam as chances de se rejeitar a hiptese nula, o que denominamos poder do teste (trataremos este conceito no item 4.3 do captulo 4), desta forma os testes de assimetria e curtose tratados no presente captulo crescem em importncia no sentido de que, para comprovarmos o pressuposto a., deveremos verificar se a amostra, com a qual estamos trabalhando, simtrica e mesocrtica, caractersticas da distribuio normal.

Captulo 3Amostragem3.1 INTRODUO A busca de informaes a respeito de um fenmeno qualquer necessria para lastrear a tomada de decises que envolvem este fenmeno. Em particular quando este fenmeno aleatrio, a busca de informaes direcionada para estabelecer a forma da distribuio da varivel que descreve o fenmeno e os parmetros desta distribuio. Existem dois processos de abordagem para a soluo deste problema. O primeiro processo consiste em aplicar um Censo, o que identifica diretamente a forma da distribuio da varivel e seus parmetros.O segundo processo consiste em obter estas informaes indiretamente, atravs da Estimao (por meio de amostras). Quando razovel a aplicao de um censo, o problema est resolvido.Vamos desenvolver o segundo processo, com o objetivo de estimar os parmetros da distribuio. A estimao um processo que consiste em avaliar os parmetros de uma distribuio atravs de estimadores obtidos em uma amostra, com base no clculo de probabilidades (instrumental que viabiliza avaliar parmetros da distribuio a partir dos estimadores).. A qualidade de uma estimao depende basicamente da representatividade da amostra que consiste na capacidade de a amostra reproduzir as caractersticas importantes da populao. Vamos examinar a seguinte situao. A nutricionista de uma escola militar foi encarregada de avaliar a qualidade nutritiva de uma sopa preparada por um fornecedor (contratado), que ser servida a seus alunos. Algumas reclamaes de alunos sugerem que a sopa no est satisfazendo o padro de qualidade nutricional exigido pela escola. Se, de fato, a sopa no atender o padro de qualidade contratado, a escola devolve a sopa e exige o pagamento da multa contratual. O procedimento vivel nesta situao fazer esta avaliao atravs de uma amostra. Note que se a nutricionista tiver o cuidado de mexer suficientemente a sopa, conseguir um bom grau de homogeneidade no produto e uma pequena amostra retirada nestas condies ir conter os ingredientes aproximadamente na mesma proporo em que figuram na sopa. Neste caso, a amostra bem representativa da populao, o que permitir nutricionista fazer a avaliao com alto grau de preciso. No entanto, se a nutricionista no tiver o cuidado de mexer a sopa, pode ocorrer que a amostra selecionada no seja representativa da populao, o que conduzir a um erro de avaliao e a suas conseqncias.

33

AMOSTRAGEM

Se a nutricionista, mesmo mexendo a sopa, desconfia do grau de homogeneidade da sopa, a maneira de conseguir boa representatividade consiste em aumentar o tamanho da amostra. A anlise desta situao leva-nos a concluir que populaes com pequeno grau de variabilidade de seus elementos podem ser estudadas a partir de pequenas amostras. medida que esta variabilidade aumenta, necessrio aumentar o tamanho da amostra aleatria para manter sua representatividade. 3.2 AMOSTRAGEM o conjunto de tcnicas utilizadas para a seleo de uma amostra. Este conjunto de tcnicas pode ser subdividido em dois grupos bsicos: a amostragem aleatria e a amostragem no aleatria. 3.2.1 AMOSTRAGEM NO ALEATRIA: 3.2.1.1 AMOSTRAGEM INTENCIONAL Ocorre quando o pesquisador seleciona intencionalmente os componentes da amostra. 3.2.1.2 AMOSTRAGEM VOLUNTRIA Ocorre quando o componente da populao se oferece voluntariamente para participar da amostra independentemente do julgamento do pesquisador. Estas amostras no permitem o controle da variabilidade amostral, o que inviabiliza o controle da qualidade da estimao. 3.2.2 AMOSTRAGEM ALEATRIA: 3.2.2.1 AMOSTRAGEM ALEATRIA SIMPLES aquela em que se atribui aos grupos de mesma quantidade de elementos a mesma probabilidade de participar da amostra. Em particular, cada elemento da populao tem a mesma probabilidade de participar da amostra. Para se obter uma amostra aleatria simples, caso a populao seja finita, podemos atribuir a cada elemento um nmero. Fichas com esses nmeros podem ser misturadas em uma urna. O sorteio das fichas identifica os elementos que devero participar da amostra, garantindo a mesma chance para cada um deles. Uma maneira equivalente de sortear os elementos da amostra consiste no uso de uma Tabela de Nmeros Aleatrios (TNA) (ANEXO IV). Esta tabela contm nmeros previamente sorteados, de forma que, se iniciarmos em um ponto qualquer dessa tabela e anotarmos os nmeros na seqncia das linhas ou colunas a partir deste ponto inicial. Por exemplo, dada uma populao finita de 500 sargentos da Vila Militar dos quais nos interessa uma caracterstica comum (possuidores do Curso de Aperfeioamento de Sargentos), pelo Almanaque podemos coloc-los em ordem de antiguidade, e escolhida uma amostra de 30 sargentos, procede-se da seguinte forma:

34

AMOSTRAGEM

Primeiramente adotaremos um critrio para a leitura da TNA: comearemos lendo os nmeros da direita para a esquerda, de cima para baixo, tomados 3 a 3 (a populao tem n=500) ; e o ponto inicial ser o nmero contido na 5 linha e 3 coluna. Notemos que o nmero correspondente ao ponto inicial igual a 8. Logo passaremos a ler os nmeros com 3 dgitos tomando o cuidado de observar que os nmeros formados devem iniciar por 0, 1, 2, 3, 4 e 5(caso o nmero seja 500) .

116; 9; 467; 586; 082; 066; 69; 047; 56; 184; 6; 451; 112; 353; 245; 5; 041; 134; 322; 017; 031; 329; 69; 192; 75; 401; 65; 429; 7; 274; 99; 009; 5976; 100; 98; 243; 007; 56; 241; 004; 302; 046; 299; 053.Ordenados os nmeros obtidos da TNA poderemos selecionar os sargentos baseados na antiguidade.

004; 007; 009; 017; 031; 041; 046; 047; 053; 066; 082; 100; 112; 116; 134; 184; 192; 241; 243; 245; 274; 299; 302; 322; 329; 353; 401; 429; 451; 467.

3.2.2.2 AMOSTRAGEM SISTEMTICA Quando se conhece uma listagem dos elementos da populao pode-se obter uma amostra aleatria de n elementos dividindo-se o nmero de elementos da populao pelo tamanho da amostra. Usando o nmero inteiro mais prximo anterior a esse resultado, selecionamos os elementos da lista que ocorrem com esta periodicidade. Por exemplo, dada uma populao finita de 1000 oficiais do CML dos quais nos interessa uma caracterstica comum (possuidores do Curso de Aperfeioamento de Oficiais), pelo Almanaque podemos coloc-los em ordem de antiguidade e escolhida uma amostra de 30 oficiais, procede-se da seguinte forma: 1. Dividimos o N da populao (1000) pelo valor de n da amostra (30) y = 1000 / 30 = 33,33 que aproximadamente 33. 2. Sorteia-se um nmero ao acaso entre 1 e 33, atravs de uma urna ou pela Tabela de Nmeros Aleatrios. Digamos que o resultado foi 12; 3. O primeiro elemento a ser relacionado na amostra seria o oficial que ocupasse a 12 posio na lista; o segundo seria o 45; o terceiro seria o 78; e assim somaramos o nmero 33 at obtermos os 30 elementos da amostra. 3.2.2.3 AMOSTRAGEM ESTRATIFICADA Pode ocorrer que a populao seja formada por subgrupos diferentes, mas cada um deles homogneo (por Pelotes, SU, U, por faixa etria, etc...). Neste caso, vamos selecionar aleatoriamente uma quantidade de cada grupo para formar a amostra, proporcional ao tamanho desse grupo.

35

AMOSTRAGEM

Por exemplo, dada uma populao finita de 10000 soldado do efetivo varivel incorporados no CML dos quais nos interessa uma caracterstica comum (resultado no 1 TAF) sabendo-se que esto dispostos em pelotes em suas respectivas Unidades podemos coloc-los em ordem de antiguidade e escolhida uma amostra de 600 soldados, procede-se da seguinte forma: 1. Inicialmente precisamos saber quantos Pelotes existem no CML, suporemos 33 homens por Peloto, o que nos dar um valor aproximado de 303 pelotes. 2. Dividiremos ento o n amostral (600) pelo nmero de Pelotes para sabermos quantos soldados de cada peloto deveremos avaliar. y = 500 / 33 = 1,98 que aproximadamente 2. 3. O prximo passo ser determinarmos randomicamente de que posies no peloto sero retirados os 2 elementos, o que pode ser feito por sorteio de 1 a 33 ou pela Tabela de nmeros Aleatrios (suporemos que foram sorteados os nmeros 7 e 32). 4. O primeiro elemento a ser relacionado de cada peloto ser o 7 militar da listagem do peloto; e o segundo ser o 32. 5. Notemos, porm, que se tomarmos 2 soldados por Peloto ao final da seleo teremos 606 soldados, sendo que a amostra necessria de 600 soldados. Uma opo seria um sorteio de descarte de 6 soldados relacionados, no entanto, julgamos que um n amostral maior do que o previsto implicar em uma maior preciso na estimao, recomendamos portanto que se mantenham os 606 soldados na amostra. 3.2.2.4 AMOSTRAGEM POR CONGLOMERADOS Em algumas situaes, podemos identificar um grupo de elementos que tenha aproximadamente a mesma composio de populao. Neste caso, pode ser interessante realizar a amostragem usando somente os elementos desse grupo. Considerando-se que existe uma formao comum aos soldados do Efetivo Varivel (EV) durante o Perodo Bsico de Instruo, e ainda que os Objetivos de Instruo so comuns s Armas, Quadro e Servio, possivelmente no seria necessria uma amostragem mbito nacional para se verificar o estado da tropa, no tocante a estes objetivos comuns de instruo, bastaria verificar o estado atual dos soldados de um determinado Comando Militar de rea para que se obter inferncias sobre todos Soldados EV do Exrcito. 3.3 FRMULAS PARA A DETERMINAO DO TAMANHO DA AMOSTRA Ao iniciarmos um estudo normalmente nos deparamos com a dvida de qual o tamanho amostral necessrio para que possamos generalizar os resultados de nossa pesquisa, ou mesmo para termos a certeza de que a amostra selecionada ir bem representar a populao interesse. Para iniciarmos a amostragem propriamente dita devemos: a. nos certificar se a populao de interesse finita ou infinita (podemos considerar que uma populao infinita se N > 10000); b. estipular uma margem de erro para rejeio da hiptese nula, normalmente = 0, 05 (trataremos deste tipo de erro no Cap. 4); e c. estipular a margem de erro admitida entre a mdia amostra X e a mdia populacional

36

AMOSTRAGEM

Para um melhor ajuste do tamanho amostral deve-se ainda levar em considerao a proporo esperada de sucesso do evento estudado (p) em relao ao seu insucesso (q), sendo p = 1 q . O Quadro 18 apresenta 2 frmulas para o clculo do n amostral levando em considerao se a populao finita ou infinita. POPULAO INFINITA n = z( /2) . p.q.N e Onde: n= z( /2)= p= q= N= e = POPULAO FINITA n= z( /2) . p.q.N e ( N-1) + z( /2) . p.q.N

Nmero de elementos da amostra; Probabilidade aceita para o erro tipo I Proporo esperada de sucesso do evento; Proporo esperada de insucesso do evento; Nmero de elementos da populao; Erro padro de estimativa ao quadrado, onde e= X - ;Quadro 18 Frmulas para o clculo do tamanho amostral.

Quando no se dispe de informaes sobre o valor de p deve-se realizar uma pramostragem com n1 elementos. Se o valor de n calculado nestas condies, for menor que n1, a pr-amostra j conter um nmero suficiente de elementos para garantir a preciso determinada. Caso valor de n for maior que n1, completa-se a pr-amostra selecionando-se (nn1) elementos. Em algumas situaes, o problema pode conter uma informao a respeito de p. Neste caso, esta informao poder ser utilizada no clculo de n. Se no houver informaes a respeito de p e no pudermos realizar uma a pramostragem, o clculo de n com p=0,5, levar a um tamanho da amostra com o conseqente problema de custo de amostragem associado (a amostra ser muito grande). Exemplo 1. Um pesquisador pretende avaliar a proporo de militares que respondero sim a uma determinada pergunta, com 95% de confiana de que no errar por mais de 3%. Para isto, selecionou ao acaso uma pr-amostra (n1 = 100 militares), e a proporo de respostas sim foi de 20% (20 dos 100). O clculo do n amostral que bem representar a populao de estudo, para a margem de erro adotada est descrito no Quadro 19. Onde: n1= z( /2)= p= q= N= e = Dado que: 100 (1,96) pois (1- =95%) 0,2 0,8 INFINITA (0,03) Logo: n = z( . p.q.N e n= (1,96) . 0,2 . 0,8 . (0,03) /2)

n= 683 militares Portanto necessitaramos entrevistar mais 583 militares (683 - 100)

Quadro 19 Clculo do tamanho amostral para populao infinita.

37

AMOSTRAGEM

Exemplo 2. Um pesquisador est interessado em estimar a proporo de militares que faz uso do protweb em suas OM. Para isto, amostrou 80 militares de um cadastro de N = 400, cujas funes poderiam ser otimizadas pelo uso da ferramenta, consultando-os por telefone, e verificando que 30 faziam uso dirio do protweb. Caso desejasse determine o tamanho da amostra necessria para estimar esta proporo com 90% de confiana, e com erro um mximo de 4% em relao proporo populacional deveria executar os clculos conforme o Quadro 20. Onde: n1 = z( /2)= p= q= N= e = z( /2) . p.q.N e ( N-1) + z( /2) . p.q.N Logo n= (1,64) . 0,375. 0,625 . 400 (0,04) . 399 +(1,64) . 0,375. 0,625.400 n= 199 militares Portanto necessitaria entrevistar mais 119 militares (199-80) Dado que: n =

30 (1,64) pois (1- =90%) 30/80=0,375 0,625 400 (0,04)

Quadro 20 Clculo do tamanho amostral para populao finita (pr-amostra menor que a amostra necessria)

Exemplo 3. Um pesquisador est interessado em estimar a proporo de militares que faz uso do protweb nas OM da Vila Militar do Rio de Janeiro (N= 400 militares). No sendo possvel realizar uma pr-amostragem, e no existindo estudo anterior que lhe permitisse estimar o valor de p, foi obrigado a considerar p=0,5 (ou seja, 50% dos militares faz uso e 50% no faz uso do protweb). Caso desejasse determine o tamanho da amostra necessria para estimar esta proporo com 90% de confiana, e com erro um mximo de 4% em relao proporo populacional deveria executar os clculos conforme o Quadro 21. Onde: n1 = z( /2)= p= q= N= e = z( /2) . p.q.N e ( N-1) + z( /2) . p.q.N Logo n= (1,64) . 0,5. 0,5 . 400 (0,04) . 399 +(1,64) . 0,5. 0,5.400 n= 352,78 = 353 militares Portanto necessitaria entrevistar mais 353 militares Notemos a diferena em relao ao estudo que foi realizado com pr-amostragem. (353-199=154) Dado que: n =

---(1,64) pois (1- =90%) 0,5 0,5 400 (0,04)

Quadro 21 Clculo do tamanho amostral para populao finita (sem possibilidade de pr-amostragem)

Captulo 4ProbabilidadeEmbora o clculo das probabilidades pertena ao campo da Matemtica, sua incluso neste manual se justifica pelo fato de a maioria dos fenmenos de que trata a Estatstica ser de natureza aleatria ou probabilstica. Conseqentemente, o conhecimento dos aspectos fundamentais do clculo de probabilidades uma necessidade essencial para o estudo da Estatstica Indutiva ou Inferencial. Procuramos resumir aqui os conhecimentos que julgamos necessrios para termos um ponto de apoio em nossos primeiros passos no caminho da Estatstica Inferencial. Esses passos sero apresentados no captulo seguinte, que trata da conceituao de varivel aleatria e das duas principais distribuies de probabilidades de variveis discretas e contnuas. 4.1 EXPERIMENTO ALEATRIO Em quase tudo, em maior ou menor grau, vislumbramos o acaso. Assim, da afirmao provvel que o meu time ganhe a partida de hoje pode resultar: a) que, apesar do favoritismo, ele perca; b) que, como pensamos, ele ganhe; c) que empate. Como vimos, o resultado final depende do acaso. Fenmenos como esse so chamados fenmenos aleatrios ou experimentos aleatrios, que so aqueles que, mesmo repetidos vrias, vezes sob condies semelhantes, apresentam resultados imprevisveis. 4.1.1 ESPAO AMOSTRAL (S) A cada experimento correspondem, em geral, um conjunto de vrios resultados possveis que recebe o nome de espao amostral, notado por S..Assim, ao lanarmos uma moeda, h dois resultados possveis: ocorrer cara ou ocorrer coroa. J ao lanarmos um dado h seis resultados possveis: 1, 2, 3, 4, 5 ou 6. Os dois experimentos citados anteriormente tm os seguintes espaos amostrais: a) Lanamento de uma moeda: S = {Ca, Co} b) Lanamento de um dado: S = {1, 2, 3, 4, 5, 6}. Do mesmo modo, como em dois lanamentos sucessivos de uma moeda podemos obter cara nos dois lanamentos, ou cara no primeiro e coroa no segundo, ou coroa no primeiro e cara no segundo, ou coroa nos dois lanamentos, o espao amostral : S = {(Ca, Ca), (Ca, Co), (Co, Ca), (Co, Co)}. Cada um dos elementos de S recebe o nome de ponto amostral. 2 um ponto amostral de S. 2 S

39 4.1.2 EVENTOS

PROBABILIDADE

Chamamos de evento qualquer subconjunto do espao amostral S de um experimento aleatrio (os eventos so denotados por letras arbicas maisculas). Assim, qualquer que seja E, se E S (E est contido em S), ento E um evento de S.

Se E = S, E chamado evento certo (com probabilidade 1 ou 100%). Se E S e E um conjunto unitrio, E chamado evento elementar. Se E = , E chamado evento impossvel. Exemplo: No lanamento de um dado, onde S = {l, 2, 3, 4, 5, 6}, temos: A = {2, 4, 6} S; logo; A um evento de S. B = {l, 2, 3, 4, 5, 6} S; logo, B um evento certo de S (B = S). C = {4} S; logo, C um evento elementar de S. D = S; logo, D um evento impossvel de S. Um evento sempre definido por uma sentena. Assim, os eventos acima podem ser definidos pelas sentenas: Obter um nmero par na face superior. Obter um nmero menor ou igual a 6 na face superior. Obter o nmero 4 na face superior. Obter um nmero maior que 6 na face superior. 4.2 PROBABILIDADE Dado um experimento aleatrio, sendo S o seu espao amostral, vamos admitir que todos os elementos de S tenham a mesma chance de acontecer, ou seja, que S um conjunto equiprovvel. Chamamos de probabilidade de um evento A (A P(A) = n(A) n(S) S) o nmero real P(A), tal que:

onde: n(A) o nmero de elementos de A; n(S) o nmero de elementos de S.

Exemplos: a. Considerando o lanamento de uma moeda e o evento A obter cara , temos: Dado que: P(A) = n(A) n(S) Onde : Logo : P(A) = n(A) = 1 = 50,00% S = {Ca, Co} n(S) = 2 n(A) = 1 A = {Ca} n(S) 2 Ou seja, a probabilidade de se obter cara no lanamento de uma moeda de ou 50,00%.

40

PROBABILIDADE

b. Considerando o lanamento de um dado, vamos calcular a probabilidade do evento A obter um nmero par na face superior : Dado que: P(A) = n(A) n(S) Onde : Logo : S = {1, 2, 3, 4, 5, 6} n(S) = 6 P(A) = n(A) = 3 = 1 = 50,00% A = {2, 4, 6} n(S) 6 2 n(A) = 3 Ou seja, a probabilidade de se obter um nmero par na face superior de um dado lanado de ou 50,00% c. Considerando o lanamento de um dado, vamos calcular a probabilidade do evento B obter um nmero menor ou igual a 6 na face superior : Dado que: P(A) = n(A) n(S) Onde : Logo : S = {1, 2, 3, 4, 5, 6} n(S) = 6 P(A) = n(A) = 6 = 1 = 100,00% B= {1, 2, 3, 4, 5, 6} n{B) = 6 n(S) 6 Ou seja, a probabilidade de se obter um nmero menor ou igual a 6 na face superior de um dado lanado de 1 ou 100,00% (a probabilidade do evento certo igual a 1). d. Considerando o lanamento de um dado, vamos calcular a probabilidade do evento C obter um nmero maior que 6 na face superior : Dado que: P(A) = n(A) n(S) Onde : Logo : S = {1, 2, 3, 4, 5, 6} n(S) = 6 P(A) = n(A) = 0 = 0 = 0,00% n(S) 6 C= n(D) = 0 Ou seja, a probabilidade de se obter um nmero maior que 6 na face superior de um dado lanado de 0 ou 0,00% (a probabilidade do evento impossvel igual a zero). 4.2.1 EVENTOS COMPLEMENTARES Sabemos que um evento pode ocorrer ou no. Sendo p a probabilidade de que ele ocorra (sucesso) e q a probabilidade de que ele no ocorra (insucesso), para um mesmo evento existe sempre a relao: p+q=1 q=1-p Assim, se a probabilidade de se realizar um evento e p = 1/5, a probabilidade de que ele no ocorra : q = 1 p q = 1- 1/5 q = 4/5 Sabemos que a probabilidade de tirar o valor 4 no lanamento de um dado : p = 1/6 Logo, a probabilidade de no tirar o valor 4 no lanamento de um dado : q = 5/6

41 4.2.2 EVENTOS INDEPENDENTES

PROBABILIDADE

Dizemos que dois eventos so independentes quando a realizao ou a no-realizao de um dos eventos no afeta a probabilidade da realizao do outro e vice-versa. Por exemplo, quando lanamos dois dados, o resultado obtido em um deles independe do resultado obtido no outro. Se dois eventos so independentes, a probabilidade de que eles se realizem simultaneamente igual ao produto das probabilidades de realizao dos dois eventos. Assim, sendo p1 a probabilidade de realizao do primeiro evento e p2 a probabilidade de realizao do segundo evento, a probabilidade de que tais eventos se realizem simultaneamente dada por: P(1;2) = p1 . p2 Exemplo: Considerando o lanamento de dois dados, vamos calcular a probabilidade do evento D obter o nmero 1 no primeiro dado e o nmero 3 no segundo dado : Dado que: P(1;2) = p1 . p2 Onde : Logo : p1 = 1/ 6 P(1;2) = 1 . 1 = 1 p2 = 1/ 6 6 6 36 Ou seja, a probabilidade de se obter o nmero 1 no primeiro dado e o nmero 3 no segundo dado, lanados ao mesmo tempo de 1/36 ou 2,78%. 4.2.3 EVENTOS MUTUAMENTE EXCLUSIVOS Dizemos que dois ou mais eventos so mutuamente exclusivos quando a realizao de um exclui a realizao do(s) outro(s). Assim, no lanamento de uma moeda, o evento tirar cara e o evento tirar coroa so mutuamente exclusivos, j que, ao se realizar um deles, o outro no se realiza. Se dois eventos so mutuamente exclusivos, a probabilidade de que um ou outro se realize igual soma das probabilidades de que cada um deles se realize: P(1;2) = p1+

p2

a. Considerando o lanamento de um dado, vamos calcular a probabilidade do evento E obter o nmero 2 ou o nmero 3 : Dado que: P(1;2) = p1 + p2 Onde : Logo : p1 = 1/ 6 P(1;2) = 1 + 1 = 1 p2 = 1/ 6 6 6 3 Ou seja, a probabilidade de se obter o nmero 2 ou o nmero 3 no lanamento de um dado de 1/3 ou 33,33%.

42

PROBABILIDADE

b. Considerando o lanamento de um dado, vamos calcular a probabilidade do evento E obter o nmero 1 ou o nmero 6 : Dado que: P(1;2) = p1 + p2 Onde : Logo : p1 = 1/ 6 P(1;2) = 1 + 1 = 1 p2 = 1/ 6 6 6 3 Ou seja, a probabilidade de se obter o nmero 2 ou o nmero 3 no lanamento de um dado de 1/3 ou 33,33%. EXERCCIOS RESOLVIDOS 1) Qual a probabilidade de sair o s de ouros quando retiramos uma carta de um baralho de 52 cartas? Como s h um s de ouros, o nmero de elementos do evento 1, logo: p = 1/52 2) Qual a probabilidade de sair um rei quando retiramos uma carta de um baralho de 52 cartas? Como h 4 reis, o nmero de elementos do evento 4; logo: p = 4/52 = 1/13 3) Em um lote de 12 peas, 4 so defeituosas. Sendo retirada uma pea, calcule: a. a probabilidade de essa pea ser defeituosa, temos: p = 4/12 = 1/3 b. a probabilidade de essa pea no ser defeituosa. Sendo este evento e o anterior complementares, temos: p =1 - 4/12 = 2/3 4) No lanamento de dois dados, calcule a probabilidade de se obter soma igual a 5. O evento formado pelos elementos (1, 4), (2, 3), (3, 2) e (4, 1). Como o nmero de elementos de S 36, temos: Sendo: n(A)=4 n(S)=36 logo p = 4/36 = 1/9

5) De dois baralhos de 52 cartas retiram-se, simultaneamente, uma carta do primeiro baralho e uma carta do segundo. Qual a probabilidade de a carta do primeiro baralho ser um rei e a do segundo ser o 5 de paus? Temos: Dado que: P(R;5) = pR . p5 Onde : Logo : pR = 4/ 52 = 1/ 13 P(R;5)= 1 . 1 = 1 p5 = 1/52 13 52 676

43

PROBABILIDADE

6) Uma urna A contm: 3 bolas brancas, 4 pretas, 2 verdes; uma urna B contm: 5 bolas brancas, 2 pretas, 1 verde; uma urna C contm: 2 bolas brancas, 3 pretas, 4 verdes. Uma bola retirada de cada urna. Qual a probabilidade de as trs bolas retiradas da primeira, segunda e terceira urnas serem, respectivamente, branca, preta e verde? Temos: p1 = 3/9 = 1/ 3 ; p2= 2/8 = 1/4 ; p3 = 4/9 Como os trs eventos so independentes e simultneos, vem: P(1;2;3) = p1 . p2 . p3 P(1;2;3) =1/3 . 1/4 .4/9 = 1/27 7) De um baralho de 52 cartas retiram-se, ao acaso, duas cartas sem reposio. Qual a probabilidade de a primeira carta ser o s de paus e a segunda ser o rei de paus? A probabilidade de sair o s de paus na primeira carta : pA = 1/52 Aps a retirada da primeira carta, restam 51 cartas no baralho, j que a carta retirada no foi reposta. Assim, a probabilidade de a segunda carta ser o rei de paus : PR = 1/51 Como esses eventos so independentes, temos: P(A;R) = pA . pR P(A;R) =1/52 . 1/51 = 1/2652 4.3 EMPREGO DA PROBABILIDADE PARA COMPROVAO DE HIPTESES Normalmente se pergunta quais as chances de que certas coisas aconteam. Usamos a probabilidade nos eventos dirios. Quais so as chances de que chova? Ouvimos um meteorologista dizer que a probabilidade de chuva de 90/o. Queremos saber se isto significa que ir chover em 90% dos lugares ou, melhor, que as chances so de 90% de que ir chover onde estamos. Os termos probabilidade subjetiva ou probabilidade personalstica so usados para descrever esse conceito. Um segundo conceito de probabilidade chamado de eventos igualmente provveis. Por exemplo, ao jogarmos um dado, as chances dos nmeros de 1 a 6 ocorrerem so igualmente provveis. A terceira abordagem da probabilidade envolve o limite da freqncia relativa. Para ilustrar, suponha que joguemos uma moeda 100 vezes esperaramos 50 caras, mas se obtivermos 45, ento fr= 0,45. Jogando 1000 vezes, esperaramos 500 caras, entretanto, podemos obter 490 caras, fr= 0,490. Se jogarmos 100000, e obtivssemos 49995 caras, fr=0,49995, note que, quanto maior o valor de n, o limite da freqncia relativa tende a probabilidade real do evento ocorrer, ou seja, 0,5. Em um teste estatstico, extramos uma amostra de uma populao de sujeitos e eventos. Usamos afirmativas de probabilidade para descrever a confiana que depositamos nos achados estatsticos.

44

PROBABILIDADE

Freqentemente, encontraremos um teste estatstico seguido pelo enunciado da probabilidade tal como p < 0,05. Esta interpretao seria que uma diferena ou relao deste tamanho seria esperada menos do que 5 vezes em 100, como um resultado de chance. 4.3.1 ALFA ( ) Em pesquisa, o teste estatstico comparado a uma tabela de probabilidade para aquela estatstica, a qual lhe dir qual a chance de ocorrncia. O experimentador pode estabelecer um nvel aceitvel de chance de ocorrncia ( ) antes do estudo. Este nvel de chance de ocorrncia pode variar de baixo a alto, mas nunca ser eliminado. Em pesquisa comportamental, alfa (a probabilidade de ocorrncia de chance) freqentemente de 0,05 ou 0,01 (as possibilidades de que os achados so devidos chance so ou de 5 em 100 ou de 1 em 100). Em um estudo o experimentador pode cometer 2 tipos de erro: O erro tipo I rejeitar a hiptese nula quando a hiptese nula verdadeira. Por exemplo, um pesquisador conclui que existe diferena entre dois mtodos de treinamento, mas na verdade no existe. O erro tipo II no rejeitar a hiptese nula quando a hiptese nula falsa. No exemplo anterior um pesquisador poder concluir que no existe diferena entre os dois mtodos de treinamento, mas na verdade existe. A Tab.13 chamada de tabela da verdade, a qual demonstra erros tipo I e II. Como voc pode ver, aceitar uma hiptese nula verdadeira, ou rejeitar uma falsa a deciso correta. Controlamos os erros tipo I estabelecendo alfa. Por exemplo, se alfa estabelecido em 0,05, ento, se 100 experimentos so realizados, uma hiptese nula verdadeira de no-diferena ou de no relao entre as variveis, seria rejeitada somente em 5 ocasies. Embora as chances do erro ainda existam, o experimentador especificou-as exatamente pelo estabelecimento de alfa antes do estudo. Tabela 13 - Tabela da verdade Aceitao Rejeio Ho verdadeira Deciso correta Erro tipoII ( ) Ho falsa Erro tipoI ( ) Deciso correta

Deve-se de estipular o tamanho do erro tipo I que se est disposto a cometer, antes do inicio de um experimento. Por exemplo, mais importante que evitemos concluir que um mtodo de treinamento melhor do que o outro, quando ele realmente no (Tipo I), do que concluirmos que um mtodo no melhor do que outro quando ele realmente (Tipo II)?

45

PROBABILIDADE

Por exemplo, em um estudo do efeito de um remdio para o cncer, o experimentador pode no querer aceitar a hiptese nula de nenhum efeito , se existe alguma chance da droga fazer efeito. Assim, o experimentador pode estabelecer um alfa de 0,30 sempre, embora as chances de acontecer um erro tipo I possam ser aumentadas. O experimentador est garantindo que a droga tem todas as oportunidades de mostrar sua efetividade. Por outro lado, estabelecer um alfa de 0,001 diminui enormemente as chances do erro tipo I ocorrer. No podemos dizer onde estabelecer o alfa; entretanto, podemos dizer que os nveis 0,05 ou 0,01 so amplamente utilizados na comunidade cientfica. Se o alfa for movido para cima ou para baixo, certifique-se de justificar a razo. Mesmo quando os experimentadores estabelecem o alfa em um nvel especfico (p. ex., 0,05) antes da pesquisa, eles freqentemente relatam o alfa para os efeitos especficos do estudo no nvel que ocorreu (p. ex., p 0,012). No h nada de errado com este procedimento, na medida em que esto somente demonstrando em que grau o nvel de probabilidade excedeu o nvel especificado. Uma abordagem mais adequada pode ser a de relatar o nvel exato de probabilidade (p. ex., p 0,024) associado com o teste estatstico (p. ex., r; t). Ento avaliaremos o significado da diferena ou relao. Usando a informao estatstica (significncia e significado), o pesquisador deve interpretar os resultados dentro da teoria e hipteses que foram formuladas. Em vez de tomar uma deciso somente estatstica, esta abordagem coloca a responsabilidade da tomada de deciso onde ela deve estar no pesquisador que colocou o estudo em um modelo terico, e que considerou pesquisas relacionadas. 4.3.2 BETA ( ) Embora a magnitude do erro tipo I seja especificada pelo alfa, podemos tambm conter o erro tipo II, cuja magnitude determinada por beta ( ). Observando a Fig. 19 , podemos notar a sobreposio da distribuio de escores na varivel dependente para X (a distribuio da amostragem se a hiptese nula verdadeira) e Y (a distribuio da amostragem se a hiptese nula falsa).Distribuio da amostragem sob Ho Distribuio da amostragem se Ho falsa

1-

Y X Figura 17. reas de distribuio do erro tipo II

46

PROBABILIDADE

Pela especificao do alfa, indicamos que a mdia de Y (dado uma certa distribuio) deve ser em uma distncia especificada da mdia de X antes da hiptese nula ser rejeitada. Entretanto, se a mdia de Y localiza-se em algum lugar entre a mdia de X e o Y especificado, voc poder estar cometendo um erro tipo II ( ); isto , voc no rejeita a hiptese nula quando, de fato, existe uma diferena verdadeira. Como podemos ver, existe uma relao entre alfa e beta; por exemplo, medida que alfa diminudo, beta torna-se maior. 4.3.3 SIGNIFICADO (tamanho do efeito) Alm de reportar a significncia dos resultados, estudiosos precisam se preocupar com o significado dos resultados em suas pesquisas. O significado da diferena entre duas mdias pede ser estimado de vrias formas, mas uma forma que tem ganhado muita ateno recentemente o tamanho do efeito (sugerido por Cohen,1969). A frmula do Tamanho do Efeito (TE) : TE = (M1 - M2 )/ s Esta frmula subtrai a mdia de um grupo (M1) da mdia do segundo grupo (M2 ), e divide a diferena pelo desvio-padro. Isto coloca a diferena entre as mdias na mtrica comum chamada de unidades de desvio-padro , a qual pode ser comparada s orientaes para a pesquisa comportamental sugeridas por Cohen (1969): 0,2 ou menos um TE pequeno; 0,5 aproximadamente um TE moderado; 0,8 ou maior um TE grande. 4.3.4 PODER Poder a probabilidade de rejeitar a hiptese nula quando esta falsa (p. ex., detectando uma diferena real), ou a probabilidade de tomar a deciso correta. Ter poder na anlise estatstica importante porque isto aumenta as chances de rejeitar a hiptese nula falsa. claro que, at certo ponto, na pesquisa comportamental, a hiptese nula sempre falsa! O que este enunciado reflete que em pesquisa comportamental as mdias dos dois grupos nunca so as mesmas. Assim, se suficientes sujeitos so obtidos (uma forma de obter poder), quaisquer duas mdias podem ser declaradas significativamente diferentes. As questes mais interessantes em pesquisa comportamental so: 1. O quanto uma diferena importante na teoria e/ou na prtica? 2. Quantos sujeitos so necessrios para declarar uma diferena importante como significante? Entendendo o conceito de poder pode-se responder s duas questes anteriores. Se um pesquisador pode identificar o tamanho de um importante efeito por meio de pesquisas prvias ou simplesmente estimar um tamanho do efeito (p. ex., 0,5 um TE moderado, tambm chamado delta, ), estabelecer quanto de poder aceitvel (p. ex., uma estimativa comum em cincia comportamental 0,8), ento o tamanho da amostra necessrio para o estudo pode ser estimado.

47

PROBABILIDADE

As Figuras 20 e 21 oferecem uma viso da relao entre o tamanho da amostra, (eixo y), o poder (eixo x), e o tamanho do efeito (curva TE), quando alfa 0,05 ou 0,01. Considere o seguinte exemplo: No planejamento de um estudo, o investigador ter dois grupos que sero randomicamente formados, mas ele no sabe quantos sujeitos so necessrios para cada grupo para detectar uma diferena significativa entre os tratamentos. Entretanto, existem vrios estudos relacionados e o investigador calculou um TE mdio = 0,70 favorecendo o grupo experimental nos resultados desses estudos. O investigador decide estabelecer alfa = 0,05 e quer proteger beta em 4 vezes o nvel de alfa (assim, beta 0,20) porque Cohen (1988) sugeriu que em cincias comportamentais, a seriedade do erro do tipo I para o tipo II dever ter a razo de 1 para 4 (0,05 x 4 = 0,20). Uma vez que o poder 1 - beta (1,0 - 0,2 = 0,8), ento o poder estabelecido em 0,8 (freqentemente recomendado como poder adequado em pesquisa comportamental, Green, 1991, p. 502). n para 400 cada grupo300 200 TE=0,4 100 TE=0,5 TE=0,6 050 TE=0,7 TE=0,8 500 TE=0,2 TE=0,3

0,3

0,4

0,5

0,6

0,7

0,8

0,9

Poder

Figura 20 - Curva do tamanho do efeito para = 0,05, teste bicaudal.

n para cada grupo

500 400 300 200

TE=0,2 TE=0,3

TE=0,4 TE=0,5

100

TE=0,6 TE=0,7 TE=0,8

050

0,3

0,4

0,5

0,6

0,7

0,8

0,9

Poder

Figura 21 - Curva do tamanho do efeito para = 0,01, teste bicaudal.

48

PROBABILIDADE

Quando as informaes prvias so conhecidas (alfa, TE e poder), ento o nmero de sujeitos necessrios em cada um dos dois grupos pode ser estimado da Fig. 20 Deve-se ler a curva TE 0,70 por onde atravessa o eixo x (poder) em 0,8, e ento, ler atravs do eixo y (tamanho da amostra) e observar que 30 sujeitos sero necessrios para cada grupo. Conforme o nmero de sujeitos em cada grupo reduzido, o poder reduzido (dado o mesmo TE). Analisando a Fig. 21 (alfa = 0,01), nota-se que para o mesmo nvel de poder (0,8) e TE (0,70), o nmero de sujeitos necessrios aumenta de 30 (como na Fig. 20, onde alfa 0,05) para 50. Pode-se verificar, que para um alfa mais rigoroso (p. ex., 0,05 a 0,01), um maior nmero de sujeitos requerido para detectar uma diferena significativa.

Captulo 5Distribuies Binomial e NormalO que pretendemos neste captulo, apresentar dois modelos tericos de distribuio de probabilidade, aos quais um experimento aleatrio estudado possa ser adaptado, o que permitir a soluo de grande nmero de problemas prticos. 5.1 VARIVEL ALEATRIA Suponhamos um espao amostral S, e que, a cada ponto amostral seja atribudo um nmero. Fica, ento, definida uma funo chamada varivel aleatria, indicada por uma letra maiscula, sendo seus valores indicados por letras minsculas. Assim, se o espao amostral relativo ao lanamento simultneo de duas moedas 4 {(Ca, Ca), (Ca, Co), (Co, Ca), (Co, Co)} e se X representa o nmero de caras que aparecem, a cada ponto amostral podemos associar um nmero para X, de acordo com a Tab. 14. Tabela 14 - Resultados possveis do lanamento simultneo de 2 moedas. Ponto amostral (Ca, Ca) (Ca, Co) (Co, Ca) (Co, Co) total 5.2 DISTRIBUIO DE PROBABILIDADE Consideremos a distribuio de freqncias relativa ao nmero de punies semanais em uma companhia, durante o primeiro semestre do ano de instruo, de acordo com a Tab. 15. Tabela 15 - Punies disciplinares durante o primeiro semestre do ano de instruo. Nmero de punies 0 1 2 3 4 5 6 7 8 total fi 2 3 4 1 5 2 1 2 6 26 Probabilidade de ocorrncia 7,69% 11,53% 15,38% 3,85% 19,23% 7,69% 3,85% 7,69% 23,08% 100,00% x 2 1 1 0 4

50

DISTRIBUIES BINOMIAL E NORMAL Em suma, pode-se extrair da Tab. 15 as seguintes observaes: a. a probabilidade estimada de no ocorrer punio disciplinar de 7,69%; b. a probabilidade estimada de ocorrer uma punio disciplinar de 11,53%; c. a probabilidade estimada de ocorrerem duas punies disciplinares de 15,38%; e d. ocorrerem oito punies disciplinares de 23,08%.

Da Tab. 15 poderamos escrever a Tab. 16, denominada tabela de distribuio de probabilidade. Tabela 16 - Probabilidade de ocorrncia de punies disciplinares durante o primeiro semestre do ano de instruo Nmero de punies 0 1 2 3 4 5 6 7 8 total fi 2 3 4 1 5 2 1 2 6 26 Probabilidade de ocorrncia 7,69% 11,53% 15,38% 3,85% 19,23% 7,69% 3,85% 7,69% 23,08% 100,00%

Seja X uma varivel aleatria que pode assumir os valores x1, x2, x3,...,xn, a cada valor xi correspondem pontos do espao amostral. Associamos, ento, a cada valor xi a probabilidade fri de ocorrncia de tais pontos no espao amostral. Assim, temos: fri = 1 Os valores x1, x2, x3,...,xn, e suas correspondentes fr1, fr2, fr3,..., frn, definem uma distribuio de probabilidade. Assim, voltando Tab. 16, temos a Tab. 17: Tabela 17 - Verificao das freqncias em que aparece o resultado cara Ponto amostral (Ca, Ca) (Ca, Co) (Co, Ca) (Co, Co) total x 2 1 1 0 4 P(X)=fri 1/2 .1/2=1/4 1/2 .1/2=1/4 1/2 .1/2=1/4 1/2 .1/2=1/4

Verifiquemos que os pontos amostrais (Ca, Co) e (Co, Ca) apresentam cara uma vez, de forma que a probabilidade de sair cara uma vez 1/4 + 1/4 = 2/4.

51

DISTRIBUIES BINOMIAL E NORMAL

Logo, podemos escrever a Tab. 17, conforme sua distribuio de probabilidades, de acordo com a Tab. 18: Tabela 18 - Verificao das freqncias em que aparece o resultado cara. Nmero de caras 2 1 0 fri fri 1/4 2/4 1/4 1

Ao definirmos a distribuio de probabilidade, estabelecemos uma correspondncia unvoca entre os valores da varivel aleatria X e os valores da varivel P. Esta correspondncia define uma funo; os valores x (i = 1, 2 n) formam o domnio da funo e os valores P (i = 1, 2, 3, ..., n), o seu conjunto imagem. Essa funo, assim definida, denominada funo probabilidade representada por: f(x) = P (X = xi) A funo P (X = xi) determina a distribuio de probabilidade da varivel aleatria X. Assim, ao lanarmos um dado, a varivel aleatria X, definida por pontos de um dado , pode tomar os valores 1, 2, 3, ..., 6. Como a cada um destes valores est associada uma e uma s probabilidade de realizao e P(xi) = 1, fica definida uma funo de probabilidade, da qual resulta a distribuio de probabilidade Tab. 19: Tabela 19 - Distribuio de probabilidade do lanamento de um dado. X 1 2 3 4 5 6 5.3 DISTRIBUIO BINOMIAL Vamos, neste item, considerar experimentos que satisfaam as seguintes condies: (n). a. O experimento deve ser repetido, nas mesmas condies, um nmero finito de vezes P(X) 1/6 1/6 1/6 1/6 1/6 1/6 1

P(X)=

b. As provas repetidas devem ser independentes, isto , o resultado de uma no deve afetar os resultados das sucessivas. c. Em cada prova deve aparecer um dos dois possveis resultados: sucesso e insucesso. d. No decorrer do experimento, a probabilidade p do sucesso e a probabilidade q (q = 1p) do insucesso manter-se-o constantes. Resolveremos problemas do tipo: determinar a probabilidade de se obterem k sucessos em n tentativas. O experimento obteno de caras em cinco lanamentos sucessivos e independentes de uma moeda satisfaz essas condies.

52

DISTRIBUIES BINOMIAL E NORMAL

Sabemos que, quando da realizao de um experimento qualquer em uma nica tentativa, se a probabilidade de realizao de um evento (sucesso) p, a probabilidade de no-realizao desse mesmo evento (insucesso) 1 - p = q. Suponhamos, agora, que realizemos a mesma prova n vezes sucessivas e independentes. A probabilidade de que um evento se realize k vezes nas provas dada pela funo: f(X) = P(X = k) = n! k! (n- k)! . pk . qn-k

na qual: P(X = k) a probabilidade de que o evento se realize k vezes em n provas; p a probabilidade de que o evento se realize em uma s prova sucesso; q a probabilidade de que o evento no se realize no decurso dessa prova n! o coeficiente binomial de n sobre k. k! (n- k)! Essa funo, denominada lei binomial, define a distribuio binomial. EXERCCIOS RESOLVIDOS

insucesso;

1) Uma moeda lanada 5 vezes seguidas e independentes. Calcule a probabilidade de serem obtidas 5 caras nessas 5 provas. Pela lei binomial, podemos escrever: Dado que: P(X = k) = n! . pk . qn-k k! (n- k)! Onde: n=5 Logo: k=3 P(X = 3) = 5! . (1/2)3 . (1/2)5-2 3! (5- 3)! p=1/2 q=1/2 P(X = 3) = 5x4x3x2x1 . 1/8 . 1/4 3x2x1x2x1 P(X = 3) = 5/16 2) Dois times de futebol, A e B, jogam entre si 6 vezes. Encontre a probabilidade de o time A ganhar 4 jogos. Pela lei binomial, podemos escrever: Dado que: P(X = k) = Onde: n=6 k=4 p=1/3 q=2/3 n! . pk . qn-k k! (n- k)! Logo: P(X = 4) = 6! . (1/3)4 . (2/3)6-4 4! (6- 4)! P(X = 4) = 6x5x4x3x2x1 . 1/81 . 4/9 4x3x2x1x2x1 P(X = 4) = 20/243

53

DISTRIBUIES BINOMIAL E NORMAL

5.4 DISTRIBUIO NORMAL - CURVA NORMAL Entre as distribuies tericas de varivel aleatria contnua, uma das mais empregadas a distribuio normal descrita na Fig. 22.

Figura 22 - Aspecto grfico de uma distribuio normal.

X

Para uma perfeita compreenso da distribuio normal, observe a Fig. 22 e procure visualizar as seguintes propriedades: a. A varivel aleatria X pode assumir todo e qualquer valor real; b. A representao grfica da distribuio normal uma curva em forma de sino, simtrica em torno da mdia (X), que recebe o nome de curva normal ou de Gauss; c. A rea total limitada pela curva e pelo eixo das abscissas igual a 1, j que essa rea corresponde probabilidade de a varivel aleatria X assumir qualquer valor real; d. A curva normal assinttica em relao ao eixo das abscissas, isto , aproxima-se indefinidamente do eixo das abscissas sem, contudo, alcan-lo; e e. Como a curva simtrica em torno da X, a probabilidade de ocorrer valor maior do que a mdia igual probabilidade de ocorrer valor menor do que a mdia, isto , ambas as probabilidades so iguais a 0,5. Escrevemos: P(X> X) = P(X < X) = 0,5. Quando temos em mos uma varivel aleatria com distribuio normal, nosso principal interesse obter a probabilidade de essa varivel aleatria assumir um valor em um determinado intervalo. Vejamos como proceder, por meio de um exemplo concreto. Seja X a varivel aleatria que representa os dimetros dos cartuchos de 9mm produzidos por certa mquina, supondo que essa varivel tenha distribuio normal com mdia X = 9 mm e desvio padro S = 0,04 mm. Pode haver interesse em conhecer a probabilidade de um cartucho ter um dimetro com valor entre 9 e 9,05 mm fcil notar que essa probabilidade, indicada p P(9 < X < 9,05), correspondente rea hachurada na Fig. 23.

54

DISTRIBUIES BINOMIAL E NORMAL

9 9,05Figura 23 - Probabilidade de X encontrar-se entre 9mm e 9,05mm.

O clculo direto dessa probabilidade exige um conhecimento de Matemtica mais avanado do que aquele que dispomos no curso de 2 grau. Entretanto, podemos contornar facilmente esse problema. Basta aceitar, sem demonstrao, que, se X uma varivel aleatria com distribuio normal de mdia X e desvio padro s, ento a varivel z tem distribuio normal reduzida, isto , tem distribuio normal de mdia o e desvio padro 1. z = xi X s As probabilidades associadas distribuio normal padronizada so encontradas em tabelas, no havendo necessidade de serem calculadas. O Anexo V contm uma tabela de distribuio normal reduzida, que nos d a probabilidade de Z tomar qualquer valor entre a mdia 0 e um dado valor z, isto : P(0 < Z < z) Temos, ento, que se X uma varivel aleatria com distribuio normal de mdia X e desvio padro s, podemos escrever: P(X< X < x) = P(0 < Z < z), com z = xi X s Voltemos, ento, ao nosso problema. Queremos calcular P(9 < X < 9,05). Para obter essa probabilidade, precisamos, em primeiro lugar, calcular o valor de z que corresponde a x = 9,05 (x = 9 z = 0, pois X = 9). Temos, ento: z = xi X = 9,05 9 = 0,05 = 1,25 s 0,04 0,04 donde: P(9 < X < 9,05) = P(0 < X < 1,25) Procuremos, agora, no Anexo V o valor de z = 1,25. Na primeira coluna encontramos o valor 1,2. Em seguida, encontramos, na primeira linha, o valor 5, que corresponde ao ltimo algarismo do nmero 1,25. Na interseco da linha e coluna correspondentes encontramos o valor 0,3944, o que nos permite escrever: P(0 < Z < 1,25) = 0,3944

55

DISTRIBUIES BINOMIAL E NORMAL

Assim, a probabilidade de uma munio 9mm ,fabricada por essa mquina, apresentar um dimetro entre a mdia 9mm e o valor x = 9,05mm 0,3944. Escrevemos, ento: P(9 < X < 9,05) = P(0 < Z < 1,25) = 0,3944 ou 39,44% EXERCCIOS RESOLVIDOS 1. Determine as probabilidades: 1.a. P( -1,25 < Z < 0) A probabilidade procurada corresponde parte hachurada da figura: Sabemos que: P(0 < Z < 1,25) = 0,3944 Pela simetria da curva, temos:- 1,25 0

P( - 1,25 < Z< 0) = P(0 0,6 ) = P( Z > 0) - P( 0 < Z < 0,6) Como:0 0,6

P( Z > 0) = 0,5 e P( 0 < Z < 0,6) = 0,2258 Obtemos: P( Z > 0,6 ) = 0,5 0,2258 = 0,2742

1.e. P(Z < 0,92) A probabilidade procurada corresponde parte hachurada da figura: Temos que P( Z < 0,92 ) = P( Z < 0) + P( 0 < Z < 0,92) Como:0 0,92

P( Z < 0) = 0,5 e P( 0 < Z < 0,92) = 0,3212 Obtemos: P( Z > 0,6 ) = 0,5 + 0,3212= 0,8212

2. Admitindo-se que 500 alunos de um curso de ps-graduao esto distribudos normalmente em torno de um grau final de curso 8,5 e com desvio padro de 0,8, e em se querendo selecionar 10% destes alunos para realizarem um curso de aperfeioamento, que nota deveria ser o ponto de corte para a seleo? Devemos inicialmente determinar os valores da varivel de distribuio reduzida. Assim: Temos que zxi deve conter todos os valores menores que o ponto de corte que de 10,00%, logo, devemos encontrar o valor de z que represente 40% dos valores maiores que a mdia (0,4000) por interpolao o zxi = 1,28 . 40,00% / 39,97% zxi = 1,2810 Se ento zxi = xi X s xi = zxi . s +X

0

zxi

logo: xi = 1,2810 . 0,8 + 8,5= 9,5248

Captulo 6Correlao e Regresso6.1 INTRODUO Este captulo discute brevemente vrios tipos de correlao, a significncia dos coeficientes correlacionais, bem como o uso de correlaes para previses, incluindo as correlaes parciais. A correlao uma tcnica estatstica utilizada para determinar o relacionamento entre duas ou mais variveis. Freqentemente um pesquisador est interessado no grau de relacionamento entre variveis. A correlao pode envolver duas variveis (correlao simples), tais como o relacionamento entre a altura e o peso, como tambm trs ou mais variveis (correlao mltipla), como quando algum investiga o relacionamento entre um critrio (varivel dependente) tal como fora muscular e duas ou mais variveis determinantes (variveis independentes), como o peso corporal, porcentagem de gordura, resistncia muscular. 6.2 COEFICIENTE DE CORRELAO DE PEARSON O coeficiente de correlao de Pearson (r) um valor quantitativo do relacionamento entre duas ou mais variveis, podendo variar entre 0,00 (correlao nula) e 1,00 (correlao perfeita) tanto na direo positiva quanto na negativa. Portanto, - 1,00 < r < +1,00. Nesse tipo de correlao, existe uma varivel critrio (ou dependente) e uma varivel preditora (ou independente). O r pode ser calculado pela frmula: r= n XY ( X).( Y) n X ( X) n Y ( Y)

De acordo com a fora da relao entre as variveis, a correlao pode ser positiva, negativa ou nula. Quando os escores de cada par ordenado so plotados em um grfico de disperso, formam uma elipse, que quanto mais prxima de uma reta, mais perfeita ser a correlao entre as variveis, conforme as Fig. 24a e Fig. 24c. Quando virtualmente no existe relao entre variveis, a correlao tende a 0,00. Isso denota independncia entre os grupos de escores, que no exibem um padro discernvel, conforme a Fig. 24b.CORRELAO POSITIVAY 145 130 115 100 85 70 55 40 20 30 40 50 60 70 X

CORRELAO NULAY 145 130 115 100 85 70 55 40 20 30 40 50 60 70 XY 145 130 115 100 85 70 55 40 20

CORRELAO NEGATIVA

30

40

50

60

70 X

Figura 24a Correlao positiva

Figura 24b Correlao nula

Figura 24c Correlao negativa

58

CORRELAO E REGRESSO

Uma correlao positiva existe, quando uma pequena quantidade da varivel X associada com uma pequena quantidade da varivel Y , e uma grande quantidade da varivel X associada com uma grande quantidade da varivel Y. A Tab. 20 apresenta o clculo de r para as variveis: peso corporal (X) e fora muscular (Y). Tabela 20 Clculo do coeficiente de correlao de Pearson. i1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16

Peso Fora (X) (Y)30 32 34 36 38 40 42 44 46 48 50 52 54 56 58 60 720 58 68 65 78 80 76 92 90 100 98 103 104 114 112 115 120 1473

XY1740 2176 2210 2808 3040 3040 3864 3960 4600 4704 5150 5408 6156 6272 6670 7200 68998

X900 1024 1156 1296 1444 1600 1764 1936 2116 2304 2500 2704 2916 3136 3364 3600 33760

Y3364 4624 4225 6084 6400 5776 8464 8100 10000 9604 10609 10816 12996 12544 13225 14400 141231 Sendo:

Clculo de rn X ( X) n = 16 X = 720 e ( X)= 518400 Y = 1473 e ( Y)= 2169729 XY = 68998 X = 33760 Y = 141231 r = n XY ( X).( Y) n Y ( Y)

r= r=

16. 68998 720. 1473 16. 33760 518400 16. 141231 2169729 1103968 1060560 540160 518400 2259696 2169729 43408 147,5127 . 299,945

r=

=

r = 0,98107

A Fig. 25 uma ilustrao grfica da correlao positiva (r = 0,98107) quase perfeita.CORRELAO ENTRE FORA MUSCULAR E PESO CORPORALLb 145 130 115 100 X=92,1 85 70 55 40 20

X=4530 40 50 60 70 Kg

figura 25 Grfico de disperso da relao fora muscular X peso corporal.

O peso corporal e a fora muscular esto correlacionados positivamente nos sujeitos mais pesados, j que esses so geralmente mais fortes do que os mais leves. A correlao no perfeita porque encontramos sujeitos mais leves que so mais fortes do que sujeitos mais pesados, como por exemplo os sujeitos: 2 e 3; 5 e 6; 7 e 8; 9 e 10; 13 e 14.

59

CORRELAO E REGRESSO

Uma correlao negativa existe, quando uma pequena quantidade da varivel X associada com uma grande quantidade da varivel Y , e uma grande quantidade da varivel X associada com uma pequena quantidade da varivel Y. A Tab.21 apresenta o clculo de r para as variveis: peso corporal (X) e flexo na barra (Y). Tabela 21 Clculo do coeficiente de correlao de Pearson. i1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 Peso (X) 50 55 60 65 70 75 80 85 90 95 100 105 110 115 120 125 1400 Flexes (Y) 20 18 16 15 14 13 12 10 8 7 6 5 4 3 2 1 154

XY1000 990 960 975 980 975 960 850 720 665 600 525 440 345 240 125 11350

X2500 3025 3600 4225 4900 5625 6400 7225 8100 9025 10000 11025 12100 13225 14400 15625 131000

Y400 324 256 225 196 169 144 100 64 49 36 25 16 9 4 1 2018 Sendo:

Clculo de rn X ( X) n = 16 X = 1400e ( X)= 1960000 Y = 154 e ( Y)= 23716 XY = 11350 X = 131000 Y = 2018 r = n XY ( X).( Y) n Y ( Y)

r=

16. 11350 1400. 154 16. 131000 1960000 16. 2018 23716 181600 215600 2096000 1960000 32288 23716 34000 368,782 . 92,585

r= r=

=

r = 0,99579

A Fig. 26 uma ilustrao grfica da correlao positiva (r = 0,99579) quase perfeita.CORRELAO ENTRE PESO CORPORAL E FLEXES NA BARRANr 21 18 15 12 X=9,6 9 6 3 0 45 55

X=4565 75 85 95 105 115 125 Kg

figura 26 Grfico de disperso da relao peso corporal X flexes na barra.

A flexo na barra executada pela suspenso do peso corporal at o queixo passar acima da barra, desta forma, o peso corporal pode fornecer uma tendncia, indicando freqentemente que pessoas mais pesadas tendem a executar um nmero menor de barras do que as pessoas mais leves.

60 6.3 CORRELAO E CAUSA

CORRELAO E REGRESSO

Uma correlao entre duas variveis no significa, necessariamente, que uma varivel causa a outra. Por exemplo, podemos citar um estudo que pretendesse verificar a relao entre o posto/graduao de militares e seu desempenho no tiro prtico de pistola. Muito provavelmente encontraramos capites com muito bons resultados e recrutas com pssimos resultados. Pesquisadores inexperientes (ou desatentos) talvez conclussem que quanto maior o posto/graduao, melhor seria o resultado no teste de tiro prtico de pistola. Desta forma, bastaria que promovssemos todos os recrutas ao posto de coronel para que s houvesse excelentes atiradores de pistola no Exrcito (parece lgico?!). No se pretende dizer que uma varivel no possa ser a causa de outra, mas que no se pode inferir somente com o resultado de uma correlao. No exemplo ilustrativo acima, dever-se-ia levar em considerao outras variveis que provavelmente tenham correlao com o resultado do tiro, tais como: experincia do atirador (quanto mais se pratica melhor tende a ser o resultado) e o nervosismo do atirador (com a prtica prolongada o atirador tende a ficar menos nervoso durante a performance, melhorando seu resultado). A nica forma de demonstrar uma causa com um experimento no qual uma varivel independente pode ser manipulada para produzir um efeito, e as variveis intervenientes podem ser controladas. Alm de se verificar o valor de r, e se positivo ou negativo, deve-se entender o que significa, em termos de ser alto ou baixo, satisfatrio ou insatisfatrio. 6.4 INTERPRETAO DE r Existem muitas formas de se interpretar o r, sendo um dos critrios sua significncia (confiabilidade), que representa a probabilidade de obter-se uma relao similar se o estudo fosse repetido n vezes. O nvel significncia pode ser estabelecido por meio de clculos matemticos ou, simplesmente, consultando a Tabela r (Anexo VI). Para tal, deve-se selecionar o nvel desejado, tais como 0,05 ou 0,01, e ler a tabela de acordo com os graus de liberdade (gl) adequados [gl so baseados no nmero de sujeitos (n) corrigidos para tendncias amostrais (2 variveis)], que, para r, gl= n -2 . Para o exemplo de correlao entre o peso corporal e as flexes na barra (r = 0,99579), os graus de liberdade so n - 2 = 16 - 2 = 14, (onde n refere-se ao nmero de pares de escores). Ao ler-se a tabela no gl 14, vemos que necessria uma correlao de 0,4863 para a significncia de um teste bi-caudal no nvel 0,5 (e 0,5742 no nvel 0,01). Logo se pode concluir que uma correlao de r = 0,98107 significante. (Explicaremos teste uni-caudal ou bi-caudal na seo sobre a interpretao de t no Volume II). A correlao necessria para um determinado nvel de significncia diminui com o aumento do nmero de sujeitos, logo, coeficientes de correlao muito baixos podem ser significantes para uma amostra ampla de sujeitos. No nvel 0,05, uma correlao de 0,4227 significante com 20 gl, r = 0,2500 significante com 60 gl, e 0,1946 significante com 100 gl. Por outro lado, uma maior correlao exigida para a significncia no nvel 0,01 do que no nvel 0,05.

61

CORRELAO E REGRESSO

O nvel 0,05 significa que se 100 experimentos fossem conduzidos, assumiria-se a possibilidade de se rejeitar a hiptese nula (de que no existe relao), pelo acaso, somente em 5 das 100 ocasies. No nvel 0,01, esperasse cometer este erro somente uma vez a cada 100 experimentos devido ao acaso. Logo, o teste de significncia no nvel 0,01 mais preciso do que no nvel 0,05, e, portanto, uma correlao maior exigida para a significncia no nvel 0,01. A Estatstica pode responder se os efeitos so confiveis, e se eles so significantes. O critrio mais comumente usado para a interpretao de r , conforme sua significncia, o coeficiente de determinao (r2), que indica a poro da variao total em uma medida que pode ser explicada, ou devida variao na outra medida. Para uma correlao de 0,70 entre duas variveis, apenas cerca da metade (49%) da variao (ou influncias) em um teste associada com a outra. Se r = 0,80, ento 64% da performance em um teste so associados com, ou explicados pelos, fatores envolvidos na performance do outro teste. A variao no explicada (1,0 - r2) refere-se variao em uma varivel (dependente) que no ocorre em funo da manipulao da outra varivel (independente). Com uma correlao de 0,70, existe 49% de variao comum (explicada), e 51% (1,00 - 0,702) de variao de erro (no explicada). Quando se utiliza o coeficiente de determinao para interpretar os coeficientes de correlao, fica evidente que uma relao mais substancial necessria para explicar uma grande quantidade de variao comum. A Tabela 22 apresenta a relao entre o coeficiente de correlao e as variaes explicadas e no explicadas um breve exemplo Tabela 22 Relao entre r e as variaes explicadas e no explicadas r 0,900 0,800 0,700 0,600 0,500 0,400 0.300 Explicada 81% 64% 49% 36% 25% 16% 9% Variao No Explicada 19% 36% 51% 64% 75% 84% 91%

O tamanho comparativo das correlaes devidas ao coeficiente de determinao tambm pode ser observado. Uma correlao de 0,90 no simplesmente trs vezes maior do que uma correlao de 0,30; nove vezes maior (0,300 = 0,09, ou 9%, e 0,900= 0,81, ou 81%). 6.5 TRANSFORMAO Z DO r Um pesquisador pode estar interessado em determinar a mdia de duas ou mais correlaes. estatisticamente insuficiente tentar calcular a mdia dos coeficientes por eles mesmos, porque a distribuio de amostras dos coeficientes de correlao no normal, pois quanto maior for a correlao mais desviada se torna a distribuio.

62

CORRELAO E REGRESSO

O mtodo mais satisfatrio de aproximao da normalidade de uma distribuio de amostras de relaes lineares pela transformao dos r para valores Z (transformao Z de Fisher). Tal procedimento envolve o uso de logaritmos naturais. Todavia, no necessitamos utilizar a frmula de Fisher para calcular as transformaes, basta utilizar a Tabela para transformao de r para z, localizando o valor Z correspondente para qualquer coeficiente de correlao em particular. Suponha, por exemplo, que obtivemos correlaes entre a distncia percorrida e a freqncia cardaca durante a corrida do TAF (correr-caminhar por 12 minutos) em quatro grupos de sujeitos de diferentes de idades. Para combinarmos essas correlaes de amostras a fim de se obter uma estimativa vlida e confivel da relao entre essas duas variveis, devese proceder conforme a Tab. 23. Tabela 23 Clculo da mdia dos coeficientes de correlao (transformao Z). Grupo etrio 18-25 26-33 34-40 41-47 n 33 35 34 35 r 0,700 0,835 0,770 0,735 Z 0,867 1,204 1,020 0,929 = n-3 30 32 31 32 125 Z com peso 26,010 38,528 31,620 29,728 125,886

Passos da utilizao dos valores Z para o clculo da correlao mdia. a. converter cada correlao para um valor Z utilizando a Tabela para transformao de r para z (Anexo VII); b. contrapesar os valores Z multiplicando-os pelos graus de liberdade para cada amostra, que nesse processo n 3; c. somar os valores contrapesados de Z; d. calcular a mdia do valor Z dividindo-se pela amostra total [ (n-3)]: 125,886/125 = 1,007. e. converter o valor mdio do Z contrapesado a uma correlao mdia consultando-se novamente a Tabela para transformao de r para z, Z = 1,007 o r mdio 0,765. A transformao Z tambm utilizada para os testes estatsticos (tais como aqueles para a significncia do coeficiente de correlao) e para determinar a significncia da diferena entre dois coeficientes de correlao. Alguns autores afirmam que para calcular a mdia das correlaes pela transformao Z, deve-se primeiro estabelecer que no existem diferenas significativas entre as correlaes testadas. Uma comparao de diferenas poderia ser feita utilizando um teste de qui-quadrado para os valores de Z com contrapeso (o qui-quadrado uma tcnica no-paramtrica discutida no Volume 2).

63 6.6 REGRESSO LINEAR

CORRELAO E REGRESSO

Um dos propsitos da correlao pode ser a previso. Sempre que se deseja estudar determinada varivel dependente (sobre a qual deseja-se fazer uma estimativa) , em funo de uma varivel independente, utiliza-se uma equao de predio (regresso) baseada na correlao entre X e Y. Quanto mais alta for a relao entre as duas variveis, mais precisamente poder-se- prever Y a partir de X. Geralmente utilizam-se as frmulas abaixo descritas para o clculo da linha de melhor ajustamento (reta de regresso) Y= a+bX Sendo: a = Xy bXx b= r (Sy/Sx) Onde: Y = varivel dependente (critrio) a = o ponto de interseco b = a inclinao da linha de regresso X = varivel independente (preditor) Xy e Sy = mdia e desvio padro de y Xx e Sx= mdia e desvio padro de x r = correlao entre X e Y

Quadro 22 Frmula da regresso linear

A letra a da frmula de regresso indica a interseco da linha de regresso no eixo y. Em outras palavras, a o valor de Y quando X = 0. A inclinao da linha (b) significa a quantidade de mudana em Y que acompanha uma mudana de 1 unidade de X. Utilizando os dados da Tab. 20, peso corporal (X) e fora muscular (Y).onde a correlao entre o peso corporal (X) e fora muscular (Y) foi r = 0,98107. As mdias e os desvios-padro so os seguintes: Medida X S r Peso45,00 9,522 0,98107

Fora92,06 19,361 0,98107

Sendo: Y= a+bX Onde: b = r (Sy/Sx)= 0,98107 . (19,361/9,522) b = 1,995 a = Xy bXx = 92,06 - 1,995 . 45,00 a = 2,285 Logo : Y = 2,285 + 1,995.X

Quadro 23 Clculo da equao de regresso linear

Para qualquer peso corporal (X), podemos calcular o escore de fora muscular (Y) predito. Por exemplo, um sujeito pesando 100 Kg teria um escore Y (fora predita): Y = 2,285 + 1,995.X = 2,285 + 1,995.100 Y = 201,785 Quando prevemos a fora muscular a partir do peso corporal a correlao (r = 0,98107) menor do que 1.00, ou seja a correlao no perfeita. Deste modo possvel dizer que existe um erro na estimativa de Y a partir de X, o qual chamaremos de erro de predio.

64

CORRELAO E REGRESSO

6.7 LINHA DE MELHOR AJUSTAMENTO E ERRO DE PREDIO A Fig. 25 mostra que a disperso dos escores de peso e fora no forma uma linha reta, mas sim uma elipse. Conseqentemente, devemos calcular uma linha de melhor ajustamento para prever Y a partir dos escores X. Para tal pode-se eleger um escore X alto (60Kg), e um baixo (30kg) e aplicamos a frmula de predio. Para um peso corporal de 60kg, prediz-se Y = 2,285 + 1,995.60= 121,99. Para um peso corporal de 30Kg, predize-se Y= 2,285 + 1,995.30 = 62,14. Deve-se ento, plotar esses dois valores previstos no grfico de disperso e conect-los com uma linha reta. Essa linha passa pela interseco das mdias X e Y A Fig. 27 mostra essa linha de melhor ajustamento. Desta forma, pode-se notar que os escores no se situam na linha reta, mas em torno da mesma. Quanto mais prximo da perfeio estiver o nvel de correlao entre as variveis X e Y, mais prximos da linha de melhor ajustamento estaro os escores plotados.Lb Kg

CORRELAO ENTRE FORA MUSCULAR E PESO CORPORAL

120

100

X=92,1

80

60

40

20

a= (0; 2,285)0 0 20 40

X=4560 80 100 120 Kg

Figura 27 Regresso linear da relao fora muscular X peso corporal.

Na construo dessa linha de melhor ajustamento, selecionamos um alto peso corporal (60) e um peso corporal baixo (30) e predizemos seus valores Y Quando examinamos seus valores Y reais, vemos que existe algum erro na predio. O escore de fora previsto para o sujeito de 60kg foi de 121,99Kg, mas ele obteve apenas 120Kg, uma diferena de -1,99Kg. Ao mesmo tempo, esperava-se que o sujeito de 30Kg obtivesse 62,14Kg no dinammetro, e na verdade ele obteve 58Kg, uma diferena de 4,14Kg. Essas diferenas entre o escore Y previsto e o real representam erros de predio e so chamados de escores residuais. Se computssemos todos os escores residuais, a mdia seria zero e o desvio-padro seria o erro de predio padro, ou erro de estimativa padro (Sy.x).

65

CORRELAO E REGRESSO Uma forma mais simples de se obter o erro de predio padro utilizar a frmula Sy.x = Sy 1-r Sendo: Sy.x = erro de predio padro Sy = desvio padro de Y r = correlao entre X e Y

Quadro 24 Frmula do erro de predio padro (Sy.x).

O erro de predio padro interpretado da mesma forma que o desvio-padro. O valor predito (fora) de um sujeito, mais ou menos o erro de estimativa padro, ocorrer aproximadamente 68 vezes em 100. Para o exemplo utilizado at o presente momento, um sujeito de 50Kg teria uma fora predita de Y = 2,285 + 1,995.50 = 102,04 Kg mais ou menos o erro de predio. Sendo: Sy.x = Sy Onde: Sy = 19,361 e r = 0,98107 1-r Logo:

Sy.x = 19,361 1 - 0,98107 Sy.x = 19,361 . .013759 Sy.x= 2.66

Quadro 25 Clculo de Sy.x para fora muscular X peso corporal.

Ao medirmos a fora muscular de um sujeito de 50Kg, provavelmente encontraremos uma fora muscular variando: entre 99.38 Kg e 104,70 Kg (Y + Sy.x ) em 68,26% dos casos; entre 96,72 Kg e 107,36 Kg (Y + 2Sy.x ) em 95,44% dos casos; e entre 94,06 Kg e 110,02 Kg (Y + 3Sy.x ) em 99,74% dos casos. Este intervalo chamado de amplitude de predio Quanto maior a correlao, menor ser o erro de predio. Alm disso, quanto menor o desvio padro do critrio, menor ser o erro. 6.8 CORRELAO PARCIAL Quando existe pouca ou nenhuma correlao entre duas variveis X e Y, que no seja causada por sua dependncia comum a uma terceira varivel Z, a correlao entre X e Y algumas vezes equivocada, e pode ser difcil de interpretar. Por exemplo, em uma ampla faixa etria (18 a 47 anos), a correlao entre duas variveis como resultado no tiro prtico de pistola dos sujeitos e seu posto/graduao ser, quase certamente, positiva e provavelmente alta, em funo do fator experincia no esporte (anos de prtica) com o qual elas esto altamente correlacionadas.

66

CORRELAO E REGRESSO

Na verdade, a correlao pode diminuir muito se a variabilidade causada pelas diferenas de experincia for eliminada, podendo-se controlar esse fator por meio de duas formas: selecionar apenas sujeitos da mesma idade, ou eliminar-se os efeitos da idade estatisticamente mantendo-a constante. O smbolo para a correlao parcial r12.3 o qual significa a correlao entre as variveis 1 e 2 com a varivel 3 mantida constante Lembremos novamente a correlao entre o resultado do tiro prtico de pistola e o posto/graduao do sujeito. Esse um