testes nao cos

Upload: evertonperoni

Post on 11-Jul-2015

301 views

Category:

Documents


0 download

TRANSCRIPT

MTODOS ESTATSTICOS E DELINEAMENTO EXPERIMENTAL

TESTES NO PARAMTRICOS

Armando Mateus Ferreira

ndice

1 2

Introduo................................................................................................................. 2 Testes de Aleatoriedade............................................................................................ 3 2.1 Teste das sequncias (runs) .............................................................................. 3 3 Testes de localizao ................................................................................................ 7 3.1 Teste do sinal (sign).......................................................................................... 8 3.2 Teste de Wilcoxon (Wilcoxon signed rank) ................................................... 12 3.3 Teste de Wilcoxon para duas amostras emparelhadas.................................... 17 3.4 Teste de Mann-Whitney-Wilcoxon para duas amostras................................. 19 3.4.1 Aproximao do teste Mann-Whitney-Wilcoxon distribuio normal 22 4 Anlise de varincia ............................................................................................... 25 4.1 Teste de Kruskal-Wallis ................................................................................. 26 A estatstica de teste : ........................................................................................... 27 4.2 Teste de Friedman .......................................................................................... 33 5 Coeficiente de correlao de Spearman.................................................................. 36

1

TESTES NO PARAMTRICOS

1 IntroduoOs testes de hiptese recebem a designao de testes paramtricos se satisfazem simultaneamente as seguintes duas condies: Os testes incidem explicitamente sobre um parmetro de uma ou mais populaes (por exemplo, sobre a mdia ou valor esperado, ou sobre a varincia); A distribuio de probabilidades da estatstica de teste pressupe uma forma particular das distribuies populacionais de onde as amostras foram recolhidas. Por exemplo, a distribuio da estatstica de teste do teste t-Student para comparar as mdias de duas amostras pressupe que as amostras foram retiradas de uma populao que se distribui segundo uma funo de probabilidades Normal, e alm disso pressupe tambm que as varincias das duas amostras so homogneas1. Os erros ou resduos i (tal que xi = + i ) tm distribuio normal; Os erros ou resduos i tm varincia finita e constante 2 ; Os erros ou resduos i so independentes.

Assim, se algum destes pressupostos violado, ento os testes tradicionais vistos anteriormente no tm rigor estatstico, e devero ser evitados, e em sua substituio dever-se-o utilizar testes que no exigem o cumprimento de tais pressupostos. Estes testes designam-se por testes no paramtricos. Os testes no paramtricos no esto condicionados por qualquer distribuio de probabilidades dos dados em anlise, sendo tambm designados por distribution-free tests. Tal como no estatisticamente rigorosa a utilizao de testes paramtricos quando no se cumprem os pressupostos necessrios, tambm dever ser evitada a utilizao dos testes no paramtricos em situaes em que prevalecem as condies de utilizao dos testes paramtricos, pois estes (paramtricos) so mais potentes que os testes no paramtricos. Trate-se de um teste paramtrico ou no paramtrico, para l dos pressupostos acima referidos, qualquer teste de hipteses s tem validade estatstica se as amostras sobre as que esto a ser aplicados forem aleatrias. Assim, dentro dos testes no paramtricos, veremos alguns que se aplicam para verificar a aleatoriedade das amostras.

1

A frmula de Welsh para calcular os graus de liberdade do teste de comparao de duas amostras cujas varincias no so homogneas resulta se a violao deste pressuposto no muito acentuada. Se as varincias so muito diferentes, prefervel usar um teste no paramtrico.

2

Para verificar a forma de distribuio das populaes, a fim de se decidir pela utilizao de um teste paramtrico ou por um teste no paramtrico, podem usar-se os testes de bondade ou qualidade de ajustamento das amostras a funes de distribuio de probabilidades, tais como o teste do qui-quadrado, o teste de Kolmogorov-Smirnov, teste de Shapiro-Wilk. A maioria dos programas estatsticos tm estes testes implementados.

2 Testes de AleatoriedadeImagine-se que em vinte lanamentos de uma moeda ao ar, se observa a seguinte sequncia alternada da face sada: cara-coroa-cara-coroa-cara-coroa-cara-coroa-etc, sempre com a mesma regularidade. Facilmente se percebe que este resultado no aleatrio. O que inslito neste resultado no o facto de se terem registado 10 caras e 10 coroas, mas sim o facto de as faces terem sado sempre de modo alternado. Em geral, a no aleatoriedade pode ocorrer de muitas formas: misturas de populaes com diferentes mdias ou diferentes varincias, correlao positiva ou negativa entre observaes sucessivas, periodicidade, etc. Nos grficos seguintes esquematizam-se algumas situaes de no aleatoriedade.Dis tribui o aleatria Obs erva es c orrelac ionadas pos itivam ente

Obs erva es c orrelac ionadas negativam ente

Obs erva es provenientes de duas popula es

2.1 Teste das sequncias (runs)Este teste aplica-se em conjuntos de observaes classificadas dicotomicamente (geralmente 0 ou 1, que podem ser as codificaes de variveis no numricas). Contudo, a amostra em anlise pode ser uma amostra contnua, mas devendo classificarse neste caso cada uma das observaes por um critrio dicotmico. Por exemplo, pode

3

usar-se o teste das sequncias para testar se as observaes se distribuem aleatoriamente abaixo (codificado com 0) ou acima (codificado com 1) de um valor mdio ou de um valor mediano. Define-se por sequncia um conjunto de observaes idnticas (por exemplo, 1,1,1,...) que precedido ou sucedido por um conjunto de observaes de outro tipo (por exemplo, 0,0,...). Cada um destes conjuntos pode conter uma s observao. Por exemplo, o conjunto de observaes 0,1,1,0,1,0,1,1 contm 8 observaes e 6 sequncias ou runs. Em geral, uma amostra de dimenso N (com N 0 observaes codificadas com o valor 0 e N1 observaes codificadas com o valor 1), apresentar r N sequncias. O teste de hipteses : H 0 : A amostra aleatriaH1 : A amostra no aleatria

A estatstica do teste baseia-se no nmero de sequncias contidas na amostra (geralmente designado por R). Geralmente o teste bilateral: rejeita-se a hiptese nula quando h poucas sequncias diferentes (esta situao levada a extrema, conduziria a uma nica sequncia, ou a duas sequncias, que equivaleria mistura de duas populaes); tambm se rejeita a hiptese nula quando h muitas sequncias diferentes: na situao extrema haveria tantas sequncias quantas as observaes, o que significa que a seguir a uma observao codificada com 0, viria obrigatoriamente uma observao codificada com 1. Por exemplo, se na amostra 10, 10, 10, 15, 15, 15 codificarmos as observaes da seguinte forma: 0, para observaes abaixo da mediana; 1 para observaes acima da mediana; conclui-se que existem apenas 2 sequncias, o que eventualmente um sinal de no aleatoriedade. Existem tabelas para a distribuio do nmero de sequncias, em funo do nmero de observaes em cada uma das duas categorias em que amostra clasificada. Admitindo que a hiptese nula verdadeira (amostra aleatria), a distribuio de R pode ser aproximada pela distribuio Normal com parmetros:

R =

2.N A .N B +1 N

R =

2.N A .N B . ( 2.N A .N B N ) N 2 . ( N 1)

Nestas condies, a estatstica de teste :

4

Z= Exemplo 1:

R R

R

~ N ( 0,1)

Em N = 25 lanamentos sucessivos de uma moeda ao ar registaram-se os seguintes resultados (em que E representa a sada de Cara e C a sada de Coroa): E, E, C, C, E, C, E, E, C, E, C, C, E, E, E, C, E, E, C, E, E, C, C, E, C Pretende-se verificar se a amostra aleatria. H 0 : A amostra aleatria N E = 14 N C = 11 R = 16 Na tabela de distribuio do nmero de sequncias, para NC = 11 e N E = 14 , e para = 5% , os nmeros crticos de sequncias so 8 e 19, isto , a regio crtica para R < 8 R > 19 e a regio de aceitao para 8 R 19 . Como R = 16 , conclui-se que se deve aceitar a hiptese nula.Fazendo a aproximao normal, teramos:H1 : A amostra no aleatria

R =

2.N A .N B 2 14 11 +1 = + 1 = 13.32 N 252.N A .N B . ( 2.N A .N B N ) 2 14 11 ( 2 14 11 25 ) = = 2.4106 2 N . ( N 1) 252 24

R =

A estatstica de teste ento: Z= R R

R

=

16 13.32 = 1.1118 2.4106

Deciso: Fixando um nvel de significncia, por exemplo = 5% , e admitindo que o teste de natureza bilateral (o que corresponde a que R pode afastar-se de R em ambos os sentidos), o valor crtico Z 0.05 = 1.96 ; como Z = 1.1118 < Z 0.05 = 1.96 , conclui-se que no se deve rejeitar a hiptese de que a amostra aleatria. A mesma deciso pode ser tomada estimando o valor de probabilidade limite:

p value = Pr ( Z < Z calc ) = Pr ( Z < 1.1118 ) = 0.2662 , pelo que se aceita H 0 .

5

Exemplo 2:

Na tabela seguinte apresentam-se o peso nascena (PN) e o peso aos 45 dias (P45) de um lote de 30 borregos; a varivel RESIDUOS contm os resduos da equao de regresso P 45 = 2.79 + 2.54 PN :PN 1.2 1.2 1.4 1.6 2.0 2.0 2.0 2.2 2.2 2.4 2.4 2.4 2.6 2.6 2.8 3.0 3.0 3.0 3.2 3.2 3.2 3.2 3.4 3.4 3.6 3.6 3.8 3.8 4.0 4.2 P45 9.62 4.20 6.74 7.69 6.20 8.63 7.46 7.21 8.39 7.11 8.00 8.49 9.35 10.71 9.69 10.42 10.71 11.40 13.67 12.64 6.91 7.70 11.33 12.00 11.12 10.91 14.18 13.50 14.00 13.64 RESIDUOS 3.782 -1.638 0.394 0.836 -1.670 0.760 -0.410 -1.168 0.012 -1.776 -0.886 -0.396 -0.044 1.316 -0.212 0.010 0.300 0.990 2.752 1.722 -4.008 -3.218 -0.096 0.574 -0.814 -1.024 1.738 1.058 1.050 0.182 GRUPO 1 0 1 1 0 1 0 0 1 0 0 0 0 1 0 1 1 1 1 1 0 0 0 1 0 0 1 1 1 1

Pretende-se verificar se os resduos se distribuem aleatoriamente em torno do valor zero (que um dos pressupostos da regresso linear). Isto : H0 : H1 : Os resduos distribuem-se aleatoriamente em torno de 0 Os resduos no se distribuem aleatoriamente em torno de 0

Para efectuar o teste das sequncias, temos de classificar cada um dos resduos numa varivel dicotmica: 0, se o resduo inferior a zero; 1, caso contrrio (coluna GRUPO). Note-se que a amostra est ordenada em termos da varivel PN.

6

A partir do quadro anterior, calcula-se: N 0 = 14 N1 = 16 R = 15 Na tabela de distribuio do nmero de sequncias, para N 0 = 14 e N1 = 16 , e para = 5% , os nmeros crticos de sequncias so 10 e 22, isto , a regio crtica para R < 10 R > 22 e a regio de aceitao para 10 R 22 . Como R = 15 , conclui-se que se deve aceitar a hiptese nula. Fazendo a aproximao normal, teramos:

R =

2.N A .N B 2 14 16 +1 = + 1 = 15.9333 N 302.N A .N B . ( 2.N A .N B N ) N . ( N 1)2

R =

=

2 14 16 ( 2 14 16 30 ) 302 29

= 2.6786

A estatstica de teste ento:Z= R R

R

=

15 15.9333 = 0.3484 2.6786

Deciso: Fixando um nvel de significncia, por exemplo = 5% , e admitindo que o teste de natureza bilateral (o que corresponde a que R pode afastar-se de R em ambos os sentidos), o valor crtico Z 0.05 = 1.96 ; como Z = 0.3484 < Z 0.05 = 1.96 , conclui-se que no se deve rejeitar a hiptese de que a amostra aleatria. A probabilidade limite p value = 0.7275 , pelo que se dever aceitar a hiptese nula com um nvel de significncia de 0.7275.

3 Testes de localizaoO valor esperado, esperana matemtica ou mdia o parmetro de localizao mais frequentemente utilizado em inferncia estatstica. No entanto, a mediana populacional (vamos represent-la por ), que corresponde tambm a um valor central das distribuies, pode constituir uma alternativa mdia, uma vez que: menos influenciada por valores extremos (consideremos a seguinte amostra, com 5 observaes: 2, 13, 13, 14, 15; a mdia 11.4, enquanto que a mediana ~

7

13; o valor extremo 2, muito afastado do contexto das restantes, afecta bastante a mdia, causando um enviezamento deste parmetro; a mediana no afectada); Quando as distribuies so assimtrica, a mediana situa-se numa posio mais prxima do valor mais observado, podendo por isso ter mais sentido como medida da tendncia central; Quando as distribuies so simtricas, a mediana populacional e a mdia ou valor esperado coincidem, possuindo assim o mesmo mrito como medida de tendncia central.

Alguns testes no paramtricos acerca de um parmetro de localizao utilizam a mediana como esse parmetro. Estes testes constituem uma alternativa aos testes paramtricos acerca da mdia.

3.1 Teste do sinal (sign)O teste do sinal desenvolve-se com base em amostras aleatrias provenientes de populaes contnuas. Na hiptese nula admite-se que a mediana populacional possui um determinado valor particular, 0 :H 0 : = 0~ ~ ~

H1 : 0~ ~ ~ ~

~

~

(note-se que a hiptese alternativa pode ser unilateral, > 0 ou < 0 ). A estatstica de teste Y = nmero de observaes abaixo (ou acima) de 0 . Se a hiptese nula for verdadeira e a amostra for aleatria, o nmero de observaes com valor inferior (ou superior) a 0 uma varivel aleatria binomial com parmetro p = 0.5 . Ento, o teste de hiptese equivalente a testar: H 0 : p = 0.5 H1 : p 0.5~ ~

(tratando-se de um teste unilateral, a hiptese alternativa ser H1 : p < 0.5 ou H1 : p > 0.5 ). Os valores crticos para estabelecer a regio de aceitao e a regio crtica so obtidos pelo clculo das probabilidades de funo binomial. Se o teste bilateral, pretende-se estabelecer a regio crtica: Pr Y Yci Y Ycs p = 0.5 = Bi ( N ; p ) +k =0

(

)

Yci

k =Yks

Bi ( N ; p )

N

8

em que Yci e Ycs so respectivamente os valores de Y = nmero de observaes abaixo (ou acima) de 0 correspondentes a uma probabilidade (nvel de significncia), ek =Yks~

Bi ( N ; p )

N

a probabilidade binomial acumulada (correspondente a ~

2

na cauda

superior da distribuio). Note-se que Yci e Ycs so simtricos em relao a 0 . O nome do teste (sinal ou sign) provm de, ao fazer os clculos, se registavam tradicionalmente por ou por + as observaes inferiores ou superiores a 0 . Este teste tem a vantagem de poder aplicar-se a dados de tipo dicotmico que no podem registar-se numa escala numrica, mas que podem representar mediante respostas negativas ou positivas. Por exemplo, pode ser usada em ensaios em que se registam resultados qualitativos do tipo fracasso ou xito.~

Exemplo:Admita-se que a produo mediana de leite (em ordenha, aps retirar borregos) de um determinado rebanho de ovelhas Merino da Beira Baixa de 60 litros/animal e ano. Numa amostra de 12 ovelhas retiradas desse rebanho obtiveram-se as seguintes produes por animal e ano: 44.0; 46.6; 48.2; 51.8; 60.3; 61.7; 63.6; 72.7; 77.4; 82.4; 96.1; 105.6 Pretende-se verificar:H 0 : = 60~

H1 : 60

~

A hiptese nula estabelece que a produo mediana de 60 litros; se esta hiptese verdadeira, 50% do rebanho ter uma produo inferior (e 50% ter uma produo superior a 60 l); isto , o anterior teste pode escrever-se como: H 0 : p = 0.5 H1 : p 0.5

Nestas condies, se o tamanho da populao for muito grande em relao amostra, o nmero de animais com produo inferior a 60 l numa amostra de 12 animais, segue uma distribuio binomial (12;0.5 ) . No exemplo, Y=4 (nmero de animais com produo inferior a 60). No grfico seguinte apresentam-se as probabilidades de acontecerem 0, 1, 2, ..., 12 sucessos numa prova de Bernoulli com p = 0.5 (cada uma destas probabilidades dada pela expresso: Pr k B ( N ; p ) = CkN p k (1 p )

(

)

N k

).

9

Assim, para um nvel de significncia = 5% , e sendo o teste bilateral, a hiptese nula seria rejeitada se na amostra ocorrerem menos de 3 ou mais de 9 animais com produo inferior a 60 l.

0.1934

0.2256

0.1208

0.1934 0.1208

0.0537

Rejeio 0.0161 0.0029 0.0002

0.0537

Rejei o 0.0161 0.0029 11 0.0002 12

0

1

2

3

4

5

6

7

8

9

10

N animais c om produ o < 60

Este valor (ou quantil da distribuio binomial) pode ser calculado com a funo CRIT .BINOM ( N ; p; ) :

(como se trata de um teste bilateral, o quantil que define o limite superior da regio de aceitao calcula-se colocando-o mesma distncia que separa o quantil inferior e a mdia). A deciso do teste tambm se pode efectuar, calculando a probabilidade limite (que geralmente todos os programas estatsticos apresentam nos testes de hiptese). Na folha de clculo Excel, a funo DISTRBINOM ( k ; N ; p; cumulativo ) calcula a funo de distribuio cumulativa de probabilidades binomial, at a k sucessos:

10

Tratando-se de um teste bilateral, a probabilidade limite ser dupla desta (isto , p value = 2 0.19385 = 0.3877 ). Se o tamanho da amostra muito grande, o clculo das probabilidades da funo binomial pode ser aproximado pela funo de distribuio normal estandardizada, sendo:

= N. p = N . p. (1 p )e estatstica de teste :Z=

~

( k + 0.5) 0.5.N N . p. (1 p )

No exemplo apresentado, esta aproximao : Z=

( k + 0.5 ) 0.5 N = ( 4 + 0.5) 0.5 12 = 0.8660 12 0.5 0.5 N . p. (1 p )

Para = 5% , os quantis da distribuio normal que estabelecem as regies de aceitao e de rejeio da hiptese nula so Z 0.05 = 1.96 , donde se conclui que se deve aceitar H 0 . O valor da probabilidade limite, pela aproximao normal p value = 0.3865 , valor muito aproximado ao estimado com a funo binomial.

11

3.2 Teste de Wilcoxon (Wilcoxon signed rank)No teste do sinal os dados so transformados em contagens de uma varivel dicotmica, geralmente representados por - e por +, correspondentes s observaes abaixo ou acima da mediana 0 . Ao proceder desta forma perde-se a informao relativa s diferenas de valor entre as observaes e a mediana. Por exemplo, se 0 = 10 , no teste do sinal indiferente que uma observao tenha o valor 15 ou o valor 20: no clculo da estatstica de teste, em ambos os casos seria contabilizada como uma observao +, isto , acima de 0 . No teste de Wilcoxon, a magnitude das diferenas tida em conta, exigindo-se contudo que a populao seja de natureza contnua e simtrica. Nestas condies, o teste de Wilcoxon mais potente que o teste do sinal. Tal como no teste do sinal, considere-se o seguinte teste de hipteses:~ ~ ~

H0 : = 0

~

~

H1 : 0~ ~ ~ ~

~

~

(note-se que a hiptese alternativa pode ser unilateral, > 0 ou < 0 ). Se a populao for contnua e simtrica, a amostra for aleatria e H 0 for verdadeira, ento as diferenas:di = xi 0~

devero distribuir-se de forma simtrica em torno de 0. Ou seja, observar-se-o diferenas positivas e negativas com valores absolutos da mesma ordem de grandeza, e em nmero aproximadamente igual. A avaliao relativa da magnitude das diferenas di pode ser efectuada ordenando de forma crescente, de 1 a N, os seus valores absolutos di e atribuindo a cada um destes o respectivo nmero de ordem (em ingls esta ordenao designa-se por rank, de onde vem o nome do teste), com o sinal negativo ou positivo, consoante di sejam negativo ou positivo. Se a populao for simtrica em torno de 0 e H 0 for verdadeira, a soma dos nmeros de ordem referentes s diferenas di negativas dever ser aproximadamente igual soma dos nmeros de ordem referentes s diferenas di positivas. Uma situao contrria a esta beneficia uma das hipteses alternativas. Por exemplo, se a soma dos nmeros de ordem relativos s diferenas positivas for muito maior do que a soma dos nmeros de ordem das diferenas negativas, ento a hiptese alternativa H1 : > 0 tornar-se- plausvel. A estatstica de teste de Wilcoxon baseada, justamente, na propriedade que acaba de ser enunciada.~ ~ ~

12

Os passos para o clculo da estatstica de teste de Wilcoxon so: Calculam-se as diferenas di = xi 0 ; Ordenam-se as diferenas di por ordem crescente dos respectivos valores absolutos di ; Atribui-se um nmero de ordem sequencialmente a cada di ; os nmeros de ordem referentes a di so precedidos do sinal +; os nmeros de ordem referentes a di negativos so precedidos do sinal -; Quando o valor absoluto de duas ou mais diferenas o mesmo (isto , quando existem empates ou ties), o nmero de ordem atribudo a cada uma dessas diferenas com o mesmo valor absoluto d i a mdia aritmtica dos nmeros de ordem que tais observaes receberiam se no estivessem empatadas. Sejam por exemplo as diferenas ordenadas a sequncia 1, 3, -3, 5, 7, -7, -7, 8; os respectivos nmeros de ordem seriam 1, 2.5, 2.5, 4, 6, 6, 6, 8. Quando existem zeros, isto , quando di = 0 , estes valores devem ignorar-se, e consequentemente, reduzir o tamanho da amostra em tantas unidades, tantos os zeros que existam. Calcula-se a estatstica de teste, geralmente designada por T, e que resulta da soma dos nmeros de ordem positivos (caso em que a estatstica de teste se representa por T+ ) ou dos nmeros de ordem negativos (a estatstica de teste representada por T ).~

Note-se que a estatstica de teste toma sempre um valor no negativo, e para uma amostra de tamanho N a soma de todos os nmeros de ordem : T+ + T = N . ( N + 1) 2

Se a hiptese nula verdadeira, as distribuies de T+ e T so simtricas em torno do valor esperado: N . ( N + 1) 4 de modo que seria indiferente usar de T+ ou T como estatstica de teste. Contudo, por comodidade, em cada uma das seguintes situaes de hiptese alternativa, usual considerar: Hiptese nula~ ~

Hiptese alternativa

< 0 = 0 0~ ~ ~ ~

~

~

Estatstica de teste usual T+ Mnimo de T+ ou TT

> 0

13

Existem tabelas com os valores crticos de T+ ou T para decidir acerca da significncia do teste. Para amostras com N 15 demonstra-se que a distribuio amostral de T+ (ou T ) se aproxima da distribuio normal de parmetros: Mdia:

T =+

N . ( N + 1) 4 N . ( N + 1)( 2.N + 1) 24

Varincia:

2 T =+

Se existem empates a varincia deve ser corrigida, sendo neste caso a expresso para clculo da varincia: Varincia:

2 T+

N . ( N + 1)( 2.N + 1) ui3 ui = 24 48

em que ui representa o nmero de empates no i-simo grupo de observaes iguais. Quando se faz a aproximao funo de distribuio normal, a estatstica de teste :T+ T+ N . ( N + 1) 4 ~ N ( 0,1) N . ( N + 1)( 2.N + 1) 24 T+

Z=

T

=

+

Exemplo 1: Os seguintes dados referem-se aos pesos ao nascimento de uma amostra de 9 borregos: 1.9, 2.0, 2.2, 2.8, 3.1, 3.1, 3.3, 3.4, 3.7 Pretende-se averiguar se podemos considerar que o peso mediano dos borregos nascena neste rebanho de 3.3 kg. O teste de hipteses :H 0 : = 3.3~

H1 : 3.3

~

No seguinte quadro apresenta-se o clculo da estatstica de teste T+ e T , conforme atrs descrito. Chama-se a ateno para a existncia de dois empates e um zero; o zero deve ser ignorado, considerando N = 8 ; as diferenas das observaes para a mediana 0 = 3.3 correspondentes aos empates seriam a 2 e 3 diferenas, se no houvesse empate; assim, ambas tero nmero de ordem 2.5.

14

xi3.3 3.4 3.1 3.1 3.7 2.8 2.2 2 1.9

di = xi 00 0.1 -0.2 -0.2 0.4 -0.5 -1.1 -1.3 -1.4

~

di0 0.1 0.2 0.2 0.4 0.5 1.1 1.3 1.4

Ordem (+) Ordem (-) 1 2.5 2.5 4 5 6 7 8

T+ = 5

T = 31

Para amostras at 15 observaes existem tabelas dos valores crticos da distribuio das estatsticas T+ e T , isto , os valores das probabilidades tais que Pr (T+ < te ) ePr (T > td ) . Na tabela em anexo, para um tamanho de amostra N = 8 , verifica-se que Pr (T+ < 5 ) = Pr (T > 31) = 0.039 , ou seja, p value = 0.078 Assim, a hiptese nula no

rejeitada ao nvel de significncia de 5%.

Caso no se disponha da tabela, ou se opte por fazer a aproximao funo de distribuio normal, devem calcular-se os parmetros desta: Mdia:

T =+

N . ( N + 1) 8 9 = = 18 4 4

Varincia (note-se que existem duas diferenas empatadas, pelo que se deve fazer a correco da varincia):

2 T+

N . ( N + 1)( 2.N + 1) ui3 ui 8 9 17 23 2 = = = 50.875 24 48 24 48

A estatstica de teste ento:Z= T+ T+ = 5 18 = 1.8226 50.875

T

+

Para um nvel de significncia = 5% , e tratando-se de um teste bilateral, o quantil crtico da distribuio normal N ( 0,1) Z 0.05 = 1.96 , pelo que se conclui que no h evidncia estatstica para rejeitar a hiptese nula. A partir da estatstica Z = 1.8226 tambm se pode calcular a probabilidade limite: p value = 0.0684 , sendo a deciso a mesma que anteriormente.

15

Exemplo 2: Os dados seguintes referem-se ao peso vivo aos 45 dias de um lote de borregos: 4.2 6.2 7.2 7.2 7.2 7.7 8 8.5 8.5 8.6 9.5 10.4 10.7 11.1 11.3 12.6 13.6 13.7 14 14.1

Pretende-se verificar se o peso mediano aos 45 dias de idade dos borregos deste rebanho de 10 kg. O teste de hipteses pretendido :H 0 : = 10~

H1 : 10

~

No seguinte quadro apresenta-se o clculo da estatstica de teste T+ e T , conforme atrs descrito. Chama-se a ateno para a existncia de alguns empates; devido a estes empates, os nmeros de ordem das diferenas so 7.5 para os dois pesos 8.5 (pois seriam a 7 e 8 observaes, e em caso de empate, recebem a mdia dos nmeros de ordem que receberiam se no houvesse empate), e 13 para os trs pesos 7.2 kg (se no houvesse empate, seriam os nmeros de ordem 12, 13 e 14, cuja mdia 13).

xi10.4 9.5 10.7 11.1 11.3 8.6 8.5 8.5 8 7.7 12.6 7.2 7.2 7.2 13.6 13.7 6.2 14 14.1 4.2

di = xi 00.4 -0.5 0.7 1.1 1.3 -1.4 -1.5 -1.5 -2 -2.3 2.6 -2.8 -2.8 -2.8 3.6 3.7 -3.8 4 4.1 -5.8

~

di0.4 0.5 0.7 1.1 1.3 1.4 1.5 1.5 2 2.3 2.6 2.8 2.8 2.8 3.6 3.7 3.8 4 4.1 5.8

Ordem (+) Ordem (-) 1 2 3 4 5 6 7.5 7.5 9 10 11 13 13 13 15 16 17 18 19 20

T+ = 92

T = 118

16

O valor esperado de T : N . ( N + 1) 20 21 = = 105 4 4 Note-se que T+ = 92 e T = 118 so simtricos em torno do valor esperado(105). A fim de calcular a estatstica de teste para proceder deciso do teste, temos em primeiro lugar de fazer a aproximao funo de distribuio normal. Os parmetros so: Mdia:

T =+

N . ( N + 1) 20 21 = = 105 4 4

Varincia (note-se que existem dois grupos de observaes iguais, respectivamente com 2 e com 3 observaes):3 3 N . ( N + 1)( 2.N + 1) ui3 ui 20 21 41 ( 2 + 3 ) ( 2 + 3) = = 716.875 24 48 24 48

2 T =+

A estatstica de teste ento:Z= T+ T+ = 92 105 = 0.4855 716.875

T

+

Para um nvel de significncia = 5% , e tratando-se de um teste bilateral, o quantil crtico da distribuio normal N ( 0,1) Z 0.05 = 1.96 , pelo que se conclui que no h evidncia estatstica para rejeitar a hiptese nula. A partir da estatstica Z = 0.4855 tambm se pode calcular a probabilidade limite: p value = 0.6273 , sendo a deciso a mesma que anteriormente.

3.3 Teste de Wilcoxon para duas amostras emparelhadasQuando se tm pares de observaes ( X 1 , Y1 ) ,..., ( X N , YN ) , e as diferenas di = X i Yi tm distribuio normal, usa-se o teste paramtrico t-Student para comparar as mdias de duas amostras emparelhadas. Porm, se as diferenas di = X i Yi no se distribuem normalmente, pode usar-se o teste de Wilcoxon sobre as diferenas, desde que estas tenham um comportamento contnuo e simtrico. Neste caso, o teste de hipteses :

17

H 0 : d = 0 em que d a mdia das diferenas di = X i Yi .

H1 : d 0

A estatstica de teste min (T+ ; T ) , isto , o valor mnimo da soma dos nmeros de ordem associados aos valores positivos ou negativos de di 0 . Exemplo: Existem diversos mtodos de estimao do volume de madeira produzido pelas rvores, nomeadamente modelos de estimao baseados no dimetro basal e modelos de estimao baseados no dimetro altura do peito (dap). Pretende-se comparar um mtodo de estimao baseado no dimetro basal com outro mtodo baseado no dap. Para tal, os volumes (m3) de madeira dos mesmas 15 pinheiros foram estimados pelos dois mtodos: Basal 1.06 1.08 1.12 0.98 1.05 0.85 1.06 0.87 1.03 1.1 0.95 0.78 1.23 1.04 0.88 Dap 1.12 0.97 1.15 1.07 0.89 0.98 1.13 0.82 1.15 1.25 0.86 0.83 1.05 0.89 1.02 Como exposto, pretendendo testar se as estimativas pelos dois mtodos so idnticas, ento a mdia das diferenas entre as observaes ser nula, e o teste de hipteses : H 0 : d = 0 H1 : d 0

em que d a mdia das diferenas di = Vbasali Vdapi . No quadro seguinte apresentam-se os clculo do teste:

Vbasali1.06 1.08 1.12 0.98 1.05 0.85 1.06 0.87 1.03 1.1 0.95 0.78 1.23 1.04 0.88

Vdapi1.12 0.97 1.15 1.07 0.89 0.98 1.13 0.82 1.15 1.25 0.86 0.83 1.05 0.89 1.02

di = Vbasali Vdapi-0.06 0.11 -0.03 -0.09 0.16 -0.13 -0.07 0.05 -0.12 -0.15 0.09 -0.05 0.18 0.15 -0.14

di0.06 0.11 0.03 0.09 0.16 0.13 0.07 0.05 0.12 0.15 0.09 0.05 0.18 0.15 0.14

Ordem (+) Ordem (-) 4 8 1 6.5 14 10 5 2.5 9 12.5 6.5 2.5 15 12.5 11

T+ = 58.5 T = 61.5

18

A fim de calcular a estatstica de teste para proceder deciso do teste, temos em primeiro lugar de fazer a aproximao funo de distribuio normal. Os parmetros desta aproximao so:

Mdia:

T =+

N . ( N + 1) 15 16 = = 60 4 4

Varincia (note-se que existem trs grupos de observaes iguais, cada um com 2 observaes):

2 T+

3 3 3 N . ( N + 1)( 2.N + 1) ui3 ui 15 16 31 ( 2 + 2 + 2 ) ( 2 + 2 + 2 ) = = = 309.625 24 48 24 48

A estatstica de teste ento:Z= T+ T+ = 58.5 60 = 0.0853 309.625

T

+

Para um nvel de significncia = 5% , e tratando-se de um teste bilateral, o quantil crtico da distribuio normal N ( 0,1) Z 0.05 = 1.96 , pelo que se conclui que no h evidncia estatstica para rejeitar a hiptese nula. A partir da estatstica Z = 0.0853 tambm se pode calcular a probabilidade limite: p value = 0.932 , sendo a deciso a mesma que anteriormente.

3.4 Teste de Mann-Whitney-Wilcoxon para duas amostrasO teste de Mann-Whitney-Wilcoxon (ou teste M-W-W) um teste no-paramtrico alternativo ao teste t-Student para comparar as mdias de duas amostras independentes. O nico pressuposto exigido para a aplicao do teste M-W-W que as duas amostras sejam independentes e aleatrias, e que as variveis em anlise sejam numricas ou ordinais (os pressupostos para a aplicabilidade do teste t-Student so mais exigentes: as populaes de onde as amostras provm tm distribuio normal; as amostras so independentes e aleatrias; as populaes tm uma varincia comum). Sejam N1 e N 2 os tamanhos das duas amostras. O teste de hipteses subjacente : H0: As duas amostras tm distribuies idnticas H1: As duas amostras tm distribuies diferentes Nota: o teste de hipteses tambm pode expressar-se pela comparao de medianas:

19

H 0 : 1 = 2

~

~

H1 : 1 2

~

~

A estatstica de teste U calculada como se descreve em seguida.

As observaes das duas amostras so combinadas numa nica varivel de tamanho N1 + N 2 , sendo identificadas as respectivas provenincias. O conjunto de observaes assim constitudo pela juno das duas amostras ordenado por ordem crescente, atribuindo o nmero de ordem 1 observao menor e o nmero de ordem N1 + N 2 observao maior. Caso haja empates ou ties, a cada uma das observaes empatadas atribudo o nmero de ordem mdio que essas observaes teriam se no estivessem empatadas. De seguida, calculam-se as somas dos nmeros de ordem das observaes de cada amostra:W1 : W2 :

soma dos nmeros de ordem das observaes da amostra 1; soma dos nmeros de ordem das observaes da amostra 2;

Calculam-se as quantidades:

U1 = N1.N 2 +

N 2 . ( N 2 + 1) W2 2 N1. ( N1 + 1) W1 2

U 2 = N1.N 2 + A estatstica de teste :

U = min (U1 ,U 2 )

A hiptese nula estabelece que as duas amostras tm a mesma distribuio, e se tal acontecer, as mdias (e tambm as medianas) das duas amostras so iguais. Suponhamos que, na realidade, as duas amostras tm distribuio diferente, e consideremos uma situao extrema em que tal acontece, que seria numa situao em que todas as observaes de uma das amostras so inferiores menor observao da outra amostra, tal como se ilustra no grfico seguinte:

Numa situao destas, provavelmente estaremos na disposio de aceitar a hiptese alternativa como verdadeira, ou seja, deveremos rejeitar a hiptese nula. 20

Consideremos as duas amostras acima representadas graficamente; a partir deste grfico possvel estabelecer os nmeros de ordem (no interessam os valores xi , mas sim a ordem ou lugar que cada observao ocupa) de cada uma das amostras (cada ponto representa uma observao): Amostra 1 Amostra 2 1 11 3 3 3 5.5 5.5 7 8.5 8.5 10 12.5 12.5 14.5 14.5 16.5 16.5 18.5 18.5 20W1 = 55 W2 = 155

U1 = N1.N 2 +

N 2 . ( N 2 + 1) 10 11 W2 = 10 10 + 155 = 0 2 2 N1. ( N1 + 1) 10 11 W1 = 10 10 + 55 = 100 2 2

U 2 = N1.N 2 +

A estatstica de teste ento U = min (U1 ,U 2 ) = min ( 0,100 ) = 0 Se, pelo contrrio, tivssemos duas amostras cujas observaes fossem iguais aos pares (a primeira observao da amostra A igual primeira observao da amostra B; etc), as distribuies das duas amostras seriam exactamente iguais, sendo iguais os nmeros de ordem das observaes em ambas as amostras, situao em que se deveria aceitar a hiptese nula:

A partir deste grfico possvel estabelecer os nmeros de ordem de cada uma das amostras: Amostra A Amostra B 1.5 1.5 3.5 3.5 5.5 5.5 9.5 9.5 9.5 9.5 9.5 9.5 13.5 16.5 16.5 19.5 WA = 105 13.5 16.5 16.5 19.5 WB = 105

U A = N A .N B +

N B . ( N B + 1) 10 11 WB = 10 10 + 105 = 50 2 2 N A . ( N A + 1) 10 11 WA = 10 10 + 105 = 50 2 2

U B = N A .N B +

A estatstica de teste ento U = min (U A ,U B ) = min ( 50,50 ) = 50 Isto , valores grandes da estatstica U so favorveis aceitao da hiptese nula, e valores pequenos de U so favorveis no aceitao da hiptese nula 21

Existem tabelas dos quantis da distribuio U de Mann-Whitney-Wilcoxon. Contudo, chama-se a ateno para que se deve ter o cuidado de verificar qual a estatstica U a que se refere a tabela. Esta chamada de ateno prende-se com o facto de que alguns autores consideram a estatstica U como sendo a estatstica atrs apresentada ( U = min (U1 ,U 2 ) ); outros autores consideram como sendo o valor W1 (ou W2 ) atrs calculados; outros ainda consideram a estatstica U = N1.N 2 U1 ou U = N1.N 2 U 2 (por exemplo, Zar, 1999) O programa SPSS utiliza a estatstica U = min (U1 ,U 2 ) aqui descrita. O programa MINITAB considera a estatstica U = W1 . Em anexo apresenta-se a tabela dos valores crticos da estatstica U = min (U1 ,U 2 ) , atrs descrita, e apresentada por Johnson e Kuby (1999).

3.4.1 Aproximao do teste Mann-Whitney-Wilcoxon distribuio normalSe ambas as amostras em anlise tm tamanhos iguais ou superiores a 10 observaes, pode fazer-se a aproximao funo de distribuio normal, com parmetros:

Valor esperado:

U =2 U =

N1.N 2 2 N1.N 2 . ( N1 + N 2 + 1) 12

Varincia:

Se existem empates ou ties nos nmeros de ordem, deve fazer-se uma correco no clculo da varincia; sendo ui os nmeros de nmeros de ordem empatados, a expresso para clculo da varincia deve ser:

Varincia:

2 U =

3 3 N1.N 2 N N ( ui ui ) N2 N 12

A estatstica de teste ento:

Z=

U U2 U

~ N ( 0,1)

Exemplo:Num ensaio delineado com o objectivo de estimar os efeitos da inalao prolongada de xido de cdmio, 15 cobaias foram sujeitas em laboratrio a um ambiente contaminado 22

com este xido, e 10 cobaias estiveram num ambiente normal sem essa contaminao (grupo de controlo). A varivel de interesse a concentrao de hemoglobina aps o ensaio: Animais expostos 14.4 14.2 13.8 16.5 14.1 16.6 15.9 15.6 14.1 15.3 15.7 16.7 13.7 15.3 14.0 Grupo de controlo 17.4 16.2 17.1 17.5 15.0 16.0 16.9 15.0 16.3 16.8

Pretende-se averiguar se a inalao prolongada de xido de cdmio altera o nvel de hemoglobina. O teste de hipteses pode expressar-se pela comparao de medianas:H 0 : 1 = 2~ ~

H1 : 1 2

~

~

No quadro seguinte apresentam-se os clculos de Wcadmio e Wcontrolo :Teor de hemoglobina Grupo 13.7 Cdmio 13.8 Cdmio 14.0 Cdmio 14.1 Cdmio 14.1 Cdmio 14.2 Cdmio 14.4 Cdmio 15.0 Controlo 15.0 Controlo 15.3 Cdmio 15.3 Cdmio 15.6 Cdmio 15.7 Cdmio 15.9 Cdmio 16.0 Controlo 16.2 Controlo 16.3 Controlo Ordem (Cdmio) Ordem (Controlo) 1 2 3 4.5 4.5 6 7 8.5 8.5 10.5 10.5 12 13 14 15 16 17

23

16.5 16.6 16.7 16.8 16.9 17.1 17.4 17.5

Cdmio Cdmio Cdmio Controlo Controlo Controlo Controlo Controlo

18 19 20 21 22 23 24 25

Wcadmio = 145

Wcontrolo = 180

U cad = N cad .N ctr +

N ctr . ( N ctr + 1) 10 11 Wctr = 15 10 + 180 = 25 2 2 N cad . ( N cad + 1) 15 16 Wcad = 15 10 + 145 = 125 2 2

U ctr = N cad .N ctr +

A estatstica de teste U = min (U cad ,U ctr ) = 25 Para um nvel de significncia = 5% , e N1 = 15 e N 2 = 10 , o quantil crtico da distribuio U de Mann-Whitney-Wilcoxon U ( 0.05;15;10) = 45 , e como a estatstica de teste U = 25 inferior a este valor crtico2, deve rejeitar-se a hiptese nula de que as duas amostras tm a mesma mediana, ou seja, deve concluir-se que a exposio ao xido de crmio afecta o nvel de hemoglobina nas cobaias. Usando a aproximao distribuio normal, temos:

Valor esperado:

U =2 U =

N1.N 2 15 10 = = 75 2 2 N1.N 2 . ( N1 + N 2 + 1) 15 10 (15 + 10 + 1) = = 325 12 12

Varincia:

Note-se que existem 3 grupos de nmeros de ordem empatados, cada um com 2 empates; so nomeadamente os nmeros de ordem 4.5, 8.5 e 10.5. Assim, a varincia deve ser calculada em funo de um factor de correco devida existncia destes empates. A varincia a considerar deve ser a de seguida calculada, e no a anterior:

Varincia:

3 3 N1.N 2 N N ( ui ui ) = N2 N 12 3 3 3 3 15 10 25 25 ( 2 2 ) + ( 2 2 ) + ( 2 2 ) = 2 12 25 25 = 324.625 2 U

2

Como atrs se referiu, a rejeio da hiptese nula para valores pequenos da estatstica de teste U .

24

Note-se que os valores da varincia e da varincia corrigida so muito prximos; s numa situao de existirem muitos nmeros de ordem empatados que estes dois valores diferem apreciavelmente. A estatstica de teste ento:

Z=

U U

2 U

=

25 75 = 2.7751 324.625

Para um nvel de significncia = 5% , e tratando-se de um teste bilateral, o quantil crtico da distribuio normal N ( 0,1) Z 0.05 = 1.96 , pelo que se conclui que se deve rejeitar a hiptese nula. A partir da estatstica Z = 2.7751 tambm se pode calcular a probabilidade limite: p value = 0.0055 , sendo a deciso a mesma que anteriormente.

4 Anlise de varinciaA anlise de varincia (ANOVA) uma metodologia estatstica cujo objectivo comparar k > 2 amostras ou tratamentos, a fim de verificar se h diferenas significativas entre as mdias dos tratamentos que sejam resultado dos efeitos dos tratamentos. O modelo linear subjacente a uma anlise de varincia : xij = + i + ij em que xij cada uma das j = 1,..., N i observaes do tratamento i , com i = 1,..., k , a mdia global de todas as N observaes, i o efeito do tratamento i , isto , a parte da variabilidade que pode ser imputada ao facto de cada uma das amostras ter sido objecto de um tratamento diferente, e ij a variabilidade residual ou erro experimental, isto , a parte da variabilidade que no pode ser imputada aos tratamentos. Recordemo-nos que os pressupostos subjacentes ao teste paramtrico t-Student para comparar as mdias de duas amostras, H 0 : 1 = 2 , so: i) ii) iii) cada uma das duas amostras provm de uma populao normal; 2 as varincias so homogneas, 12 = 2 . Os resduos so independentes, com distribuio normal e com varincia finita e constante.

Se estes pressupostos so violados, deve usar-se um teste no paramtrico. De modo similar, quando se pretendem comparar k > 2 mdias amostrais, H 0 : 1 = 2 = ... = k , pela metodologia de anlise de varincia, os pressupostos so uma extenso dos anteriores:

25

cada uma das k amostras provm de uma populao normal; 2 as varincias das k amostras so homogneas, 12 = 2 = ... = k2 e constantes; Os erros ou resduos ij (tal que xij = + i + ij , sendo i o efeito do tratamento)

tm distribuio normal; Os erros ou resduos ij tm varincia finita e constante 2 (esta propriedade denomina-se por homoscedasticidade); Os erros ou resduos ij so independentes.

Est provado que a ANOVA uma metodologia estatstica bastante robusta, relativamente a pressupostos das distribuies das populaes e da homogeneidade das varincias das amostras ou tratamentos. Se os tamanhos N i de cada uma das amostras (isto , o nmero de repeties) so iguais para todas as amostras, a ANOVA robusta no que se refere homogeneidade das varincias. Se os tamanhos N i so bastante diferentes, ento a probabilidade de cometer erro do tipo I afasta-se do nvel de significncia , sendo este afastamento dependente da heterogeneidade das varincias: se as varincias maiores esto associadas s amostras com maior nmero de repeties, a probabilidade de erro tipo I ser menor que ; se as maiores varincias esto associadas s amostras de menor dimenso, ento a probabilidade de erro tipo I maior que . A validade da ANOVA apenas ligeiramente afectada pela violao do pressuposto da normalidade (simetria e achatamento), especialmente se N i so grandes. Se as populaes subjacentes so muito achatadas (platicrticas) e N i so pequenos, a potncia da ANOVA diminuir. Se as populaes so pouco achatadas (muito elevadas no centro da distribuio ou leptocrticas) e os tamanhos N i so pequenos, a potncia do teste aumenta. Assim, a validade do teste da ANOVA prevalece vlido a no ser que as violaes dos pressupostos sejam muito graves, situao em que se dever usar um teste de anlise de varincia no paramtrico que no exige tais pressupostos.

4.1 Teste de Kruskal-WallisO teste de Kruskal-Wallis ou anlise de varincia pelos nmeros de ordem (ranks) pode ser utilizado nos casos em que se utiliza o teste paramtrico da ANOVA, sendo apenas ligeiramente menos potente. Alm disso, deve ser utilizado nas situaes em que a ANOVA paramtrica no pode ser utilizada, nomeadamente quando as k amostras no provm de populaes normais, ou quando as varincias so muito heterogneas. Quando k = 2 , o teste de Kruskal-Wallis idntico ao teste de Mann-WhitneyWilcoxon.26

Sejam k as amostras em anlise, cada um com N i repeties, e N = N i o nmeroi =1

k

total de observaes. Pretende-se verificar se as k amostras (ou tratamentos, como geralmente so designados) tm distribuies idnticas. O teste de hipteses :H0 : H1 :

As distribuies das k amostras so idnticas; As distribuies das k amostras diferem na localizao.

(note-se que, semelhana dos demais testes no paramtricos, a formulao do teste de hipteses no deve usar os parmetros populacionais). A estatstica de teste :H=k 12 Ri2 3. ( N + 1) N . ( N + 1) i =1 N i

onde Ri a soma dos nmeros de ordem das N i observaes do grupo ou tratamento i (note-se que a soma de todos os nmeros de ordem de todos os tratamentos deve ser igual a N . ( N + 1) 2 ). Se existem nmeros de ordem empatados, a estatstica de teste deve ser corrigida para esta situao. Para tal, calcula-se o factor de correco:

C = 1

(um i =1

3 i

u)

N3 N

e a estatstica de teste corrigida :Hc = H C

onde ui o nmero de empates em cada grupo, e m o nmero de grupos de nmeros de ordem empatados. Note-se que H c ser pouco diferente de H , quando os ui so pequenos comparativamente a N . Para atribuir os nmeros de ordem s observaes, procede-se tal como no teste de Mann-Whitney-Wilcoxon, isto , juntam-se as observaes de todos os tratamentos, e ordenam-se todas as observaes. Quando existem observaes iguais (empates ou ties), o nmero de ordem a atribuir a cada uma das observaes empatadas o nmero de ordem mdio dos nmeros de ordem que essas observaes teriam se no estivessem empatadas.

27

A estatstica H (ou H c ) avalia em que medida as k amostras ou tratamentos diferem, relativamente aos respectivos nmeros de ordem. Esta ideia pode mais facilmente percebe-se se dermos expresso de clculo de H uma forma equivalente:H=k 12 ni . Ri R N . ( N + 1) i =1

(

)

2

em que R i a mdia dos nmeros de ordem da i.sima amostra e R a mdia de todos os nmeros de ordem (isto , R = ( n + 1) 2 . Como facilmente se percebe, a estatstica H nula quando todas as mdias dos nmeros de ordem so iguais, e aumenta medida que as mdias dos nmeros de ordem das amostras diferem. Isto , para valores grandes de H deve rejeitar-se a hiptese nula. Assim, a regio de rejeio est toda localizada na cauda superior da distribuio de H . Os valores crticos da distribuio da estatstica de teste H (ou H c ) apresentam-se na tabela em anexo, para k 5 tratamentos. Para grandes amostras, ou k > 5 tratamentos, a estatstica de teste H (ou H c ) aproxima-se a uma distribuio 2 (qui-quadrado) com k 1 graus de liberdade. Como atrs se referiu a propsito da regio de rejeio, esta est localizada na cauda superior da distribuio.Exemplo 1:

Considere os seguintes 3 tratamentos, A, B, C, cada um com 7 repeties: Tratamento A Tratamento B Tratamento C 9 11 18 13 13 13 11 12 12 10 15 16 9 8 10 14 12 16 10 12 15

Pretende-se averiguar se trs tratamentos conduzem a resultados iguais, isto :H0 : H1 :

Os trs tratamentos tm a mesma distribuio; Os trs tratamentos no tm a mesma distribuio.

28

No quadro seguinte apresentam-se os nmeros de ordem atribudos a cada uma das observaes, aps ter juntado e ordenado todas as observaes dos trs tratamentos:x 8 9 9 10 10 10 11 11 12 12 12 12 13 13 13 14 15 15 16 16 18 Tratamento B A A A A C A B B B B C A B C A B C C C C Ordem 1 2.5 2.5 5 5 5 7.5 7.5 10.5 10.5 10.5 10.5 14 14 14 16 17.5 17.5 19.5 19.5 21

Aps ter atribudo os nmeros de ordem, conveniente separar de novo as observaes por tratamento, a fim de prosseguir com os clculos:Tratamento A Ordem x 9 2.5 9 2.5 10 5 10 5 11 7.5 13 14 14 16 Tratamento B Ordem x 8 1 11 7.5 12 10.5 12 10.5 12 10.5 13 14 15 17.5 Tratamento C Ordem 10 5 12 10.5 13 14 15 17.5 16 19.5 16 19.5 18 21

x

R1 = 52.5

R2 = 71.5

R3 = 107

A estatstica de teste (sem correco devida aos empates) :H=k 12 Ri2 12 52.52 + 71.52 + 107 2 3. ( N + 1) = 3 22 = 5.6790 N . ( N + 1) i =1 N i 21 22 7

Como existem m = 7 grupos de observaes empatadas, respectivamente com 2, 3, 2, 4, 3, 2 e 2 observaes, deve fazer-se a correco da estatstica de teste; o factor de correco :

29

C = 1

(um i =1

3 i

u)

N3 N = 0.9857

(2 = 1

3

2 ) + ( 33 3) + ( 23 2 ) + ( 43 4 ) + ( 33 3) + ( 23 2 ) + ( 23 2 ) 213 21

A estatstica de teste corrigida ento:Hc = H 5.6790 = = 5.7614 C 0.9857

Para um nvel de significncia = 5% , e para trs tratamentos, cada um com 7 repeties, o valor crtico da distribuio da estatstica H H ( 0.05;7;7;7 ) = 5.819 ; como a estatstica de teste H c = 5.7614 < H ( 0.05;7;7;7 ) = 5.819 , conclui-se que no h evidncia estatstica para rejeitar a hiptese nula. Procedendo aproximao distribuio 2 , para um nvel de significncia = 5% e para = k 1 = 3 1 = 2 graus de liberdade, o valor crtico (20.05;2) = 5.9915 ; comoH c = 5.7614 < (20.05;2) = 5.9915 , conclui-se que no se deve rejeitar a hiptese nula. O

valor da probabilidade limite p value = 0.0561 .

Exemplo 2:

Num estudo de limnologia mediu-se o pH de oito amostras de gua de cada uma de quatro barragens. Os valores so os seguintes: Barragem 1 7.68 7.69 7.70 7.70 7.72 7.73 7.73 7.76 Barragem 2 7.71 7.73 7.74 7.74 7.78 7.78 7.80 7.81 Barragem 3 7.74 7.75 7.77 7.78 7.80 7.81 7.84 7.86 Barragem 4 7.71 7.71 7.74 7.79 7.81 7.85 7.87 7.91

Pretende-se averiguar se as guas das quatro origens tm o mesmo valor de pH, isto :H0 : H1 :

O valor do pH da gua o mesmo nas 4 barragens; O valor do pH da gua no o mesmo nas 4 barragens.

Cada um dos quatro tratamentos (barragens) tem N i = 8 (i=1,2,3,4) observaes, sendo N = 32 . No quadro seguinte apresentam-se os clculos dos nmeros de ordem de cada observao, aps ter juntado num nico vector todas as 32 observaes : 30

pH 7.68 7.69 7.70 7.70 7.71 7.71 7.71 7.72 7.73 7.73 7.73 7.74 7.74 7.74 7.74 7.75 7.76 7.77 7.78 7.78 7.78 7.79 7.80 7.80 7.81 7.81 7.81 7.84 7.85 7.86 7.87 7.91

Barragem 1 1 1 1 2 4 4 1 1 1 2 2 2 3 4 3 1 3 2 2 3 4 2 3 2 3 4 3 4 3 4 4

Nmero de ordem 1 2 3.5 3.5 6 6 6 8 10 10 10 13.5 13.5 13.5 13.5 16 17 18 20 20 20 22 23.5 23.5 26 26 26 28 29 30 31 32

Aps ter ordenado por ordem crescente todas as observaes, e atribudo os respectivos nmeros de ordem, conveniente dispor novamente as observaes isoladas por tratamento, a fim de facilitar os clculos subsequentes:PH 7.68 7.69 7.70 7.70 7.72 7.73 7.73 7.76 Ordem 1 2 3.5 3.5 8 10 10 17 pH 7.71 7.73 7.74 7.74 7.78 7.78 7.80 7.81 Ordem 6 10 13.5 13.5 20 20 23.5 26 pH 7.74 7.75 7.77 7.78 7.80 7.81 7.84 7.86 Ordem 13.5 16 18 20 23.5 26 28 30 pH 7.71 7.71 7.74 7.79 7.81 7.85 7.87 7.91 Ordem 6 6 13.5 22 26 29 31 32

R1 = 55

R2 = 132.5

R3 = 175

R4 = 165.5

A estatstica de teste (sem correco devida aos empates) :

31

k 552 + 132.52 + 1752 + 165.52 Ri2 12 12 H = 3. ( N + 1) = 32 33 3 33 8 N . ( N + 1) i =1 N i

= 12.6428 Como existem m = 7 grupos de observaes empatadas, respectivamente com 2, 3, 3, 4, 3, 2 e 3 observaes, deve fazer-se a correco da estatstica de teste; o factor de correco :

C = 1

(um i =1

3 i

u)

N3 N = 0.9949

(2 = 1

3

2 ) + ( 33 3) + ( 33 3) + ( 43 4 ) + ( 33 3) + ( 23 2 ) + ( 33 3) 323 32

A estatstica de teste corrigida ento: Hc = H 12.6428 = = 12.7076 C 0.9949

Para um nvel de significncia = 5% e para = k 1 = 4 1 = 3 graus de liberdade, e fazendo a aproximao distribuio 2 , o valor crtico (20.05;3) = 7.815 ; como H c = 12.7076 > (20.05;3) = 7.815 , deve rejeitar-se a hiptese nula. O valor crtico da distribuio 2 est tabelado (tabela em anexo), ou pode usar-se a funo INV .CHI ( ; ) da folha de clculo EXCEL:

A probabilidade limite pode calcular-se para o valor da estatstica de teste, com a funo DIST .CHI ( H c ; ) da folha de clculo:

32

Isto , p value = 0.0053 , sendo a concluso a de rejeitar H 0 .

4.2 Teste de FriedmanO teste de Friedman um teste no paramtrico que pode ser efectuado para analisar os resultados de um delineamento experimental em blocos casualizados, quando no so cumpridos os pressupostos necessrios anlise de varincia paramtrica, nomeadamente no que se refere normalidade e homoscedasticidade. Se os pressupostos de aplicabilidade da anlise de varincia paramtrica so cumpridos, a utilizao do teste de Friedman menos potente que o teste paramtrico correspondente; assim, se k = 3 , a potncia do teste de Friedman de 72% comparativamente potncia do teste paramtrico; para um grande nmero de tratamentos, esta percentagem pode ir at cerca de 95%. Contudo, o inverso tambm vlido. Assim, se os pressupostos no se verificam, deve usar-se o teste de Friedman. O teste de hiptese, , tal como no teste de Kruskal-Wallis: H0 : H1 : As distribuies das k amostras so idnticas; As distribuies das k amostras diferem na localizao.

Seja um delineamento em blocos casualizados, com k tratamentos e b blocos. Dentro de cada um dos b blocos, as observaes so ordenadas por ordem crescente, e atribudos nmeros de ordem. De seguida, somam-se os nmeros de ordem (atribudos por bloco) dentro de cada um dos tratamentos ( Ri ). A estatstica de teste (aqui designada por 2 ) calculada pela expresso: 2 =k 12 Ri2 3.b.( k + 1) b.k . ( k + 1) i =1

Para k = 2 , o teste Fr de Friedman equivalente ao teste de Wilcoxon. Se b = 2 , deve usar-se o coeficiente de correlao no paramtrico de Spearman..

33

A expresso anterior pode escrever-se como:k 12 = b Ri R b.k . ( k + 1) i =12

(

)

2

em que Ri a mdia dos nmeros de ordem do i.simo tratamento e R a mdia global dos nmeros de ordem. A estatstica 2 vale zero quando todos os tratamentos tm a mesma mdia dos nmeros de ordem, e aumenta medida que as mdias dos nmeros de ordem dos diferentes tratamentos diferem. Os valores crticos da distribuio da estatstica 2 encontram-se tabelados (tabela em anexo) para at 6 tratamentos e 10 blocos. Para valores de k e de b superiores, a estatstica 2 deve ser aproximada pela distribuio 2 , com k 1 graus de liberdade. Os programas SPSS e MINITAB consideram esta estatstica de teste. Porm, est demostrado que esta aproximao distribuio 2 demasiado conservadora, isto , com muita propenso para causar erro do tipo II, ou seja, pouco potente. A aproximao:

( b 1) . 2 Fr = b. ( k 1) 2com distribuio F de Fisher, com

( k 1)

e

( k 1)( b 1)

graus de liberdade

geralmente superior. Contudo, a maioria dos programas estatsticos continua a usar a aproximao distribuio 2 .

Exemplo:Num ensaio de alimentao de porcos, pretende-se avaliar o efeito de 4 dietas alimentares. Cada animal em teste mantido isolado numa jaula. As jaulas so agrupadas em grupos de 4, tendo-se constitudo 5 grupos (blocos) de 4 jaulas. Cada bloco ou grupo de jaulas so mantidas em condies que podem ser consideradas idnticas em termos ambientais (luz, temperatura, rudo, etc). Em cada um dos blocos, atribudo de modo completamente aleatrio uma das quatro dietas a cada um dos animais do bloco de jaulas, de modo que em cada bloco de jaulas h um animal com cada uma das quatro dietas. A varivel resposta o ganho de peso de cada um dos animais (unidade experimental): Dieta 1 7.0 9.9 8.5 5.1 10.3 Dieta 2 5.3 5.7 4.7 3.5 7.7 Dieta 3 4.9 7.6 5.5 2.8 8.4 Dieta 4 8.8 8.9 8.1 3.3 9.1

Bloco 1 Bloco 2 Bloco 3 Bloco 4 Bloco 5

34

O teste de hipteses : H 0 : Os ganhos de peso so iguais para as quatro dietas; H1 : Os ganhos de peso no so iguais para as quatro dietas. Tal como atrs exposto, ordenam-se as observaes e so atribudos nmeros de ordem dentro de cada bloco. Na tabela seguinte, apresentam-se, entre parntesis, os nmeros de ordem atribudos a cada uma das observaes, dentro de cada um dos blocos. De seguida, somam-se os nmeros de ordem por tratamento ou dieta ( Ri ): Dieta 1 7.0 (3) 9.9 (4) 8.5 (4) 5.1 (4) 10.3 (4) R1 = 19 Dieta 2 5.3 (2) 5.7 (1) 4.7 (1) 3.5 (3) 7.7 (1) R2 = 8 Dieta 3 4.9 (1) 7.6 (2) 5.5 (2) 2.8 (1) 8.4 (2) R3 = 8 Dieta 4 8.8 (4) 8.9 (3) 8.1 (3) 3.3 (2) 9.1 (3) R4 = 15

Bloco 1 Nmero de ordem Bloco 2 Nmero de ordem Bloco 3 Nmero de ordem Bloco 4 Nmero de ordem Bloco 5 Nmero de ordem Ri

Sendo b = 5 blocos e k = 4 , tratamentos, N = 20 , o clculo da estatstica de teste de Friedman : 2 =k 12 12 Ri2 3.b.( k + 1) = 5 4 5 (192 + 82 + 82 + 152 ) 3 5 5 = 10.68 b.k . ( k + 1) i =1

Para um nvel de significncia = 5% , o valor crtico da distribuio 2 (20.05;3) = 7.8147 ; como 2 = 10.68 > (20.05;3) = 7.8147 , deve rejeitar-se a hiptese nula. Chegar-se- mesma concluso de rejeio da hiptese nula se calcularmos a probabilidade limite: p value = 0.0136 . Caso se pretenda usar a aproximao distribuio F , calcula-se a estatstica:

( b 1) . 2 Fr = b. ( k 1) 2

=

4 10.68 = 9.8889 5 3 10.68

Como Fr = 9.8889 > F( 0.05;3;12) = 3.49 (o valor crtico da distribuio F pode calcular-se com a funo INVF ( 0.05;3;12 ) da folha de clculo), rejeita-se a hiptese nula. A probabilidade limite para a estatstica Fr = 9.8889 p value = 0.0254 (pode calcularse com a funo DISTF ( 9.8889;3;12 ) da folha de clculo).

35

5 Coeficiente de correlao de SpearmanO coeficiente de correlao linear r entre as variveis X e Y mede o grau de associao ou de relao linear mtua entre as variveis X e Y, e calculado pela expresso:

r=

x y i =1 i i

N

xi yii =1 i =1

N

N

N

N N xi x 2 i =1 i N i =1

2

2 N N yi y 2 i =1 i N i =1

O coeficiente de correlao adimensional e situa-se no intervalo 1 r 1 . A validade estatstica do coeficiente de correlao linear pressupe que as duas variveis so aleatrias e provm de uma populao normal bivariada. Caso este pressuposto seja gravemente violado, aconselhado quantificar o grau de associao ou correlao entre as variveis X e Y usando um coeficiente no paramtrico, baseado nos nmeros de ordem (rank) dos pares (X,Y) das observaes em cada uma das variveis. O coeficiente de correlao de Spearman, ou rank correlacion calculado pela seguinte expresso: 6 di2i =1 N

rs = 1

N3 N

onde di a diferena entre os nmeros de ordem das observaes xi e yi , isto , di = n ordem de xi n ordem de yi . O coeficiente de correlao rs adimensional e situa-se no intervalo 1 r 1 . Se existem observaes empatadas, o valor do coeficiente de correlao corrigido :N3 N N 2 di u x u y 6 i =1 N3 N N3 N 2 u x 2 u y 6 6

( rs )c =

em que:

36

ux =

(um i =1

3 xi

u xi

) a soma do nmero de observaes com nmeros de ordem das observaes X empatadas;

12

yx =

(um i =1

3 yi

u yi

) a soma do nmero de observaes com nmeros de ordem das observaes Y empatadas.

12

Existem tabelas de significncia do coeficiente de correlao de Spearman (em anexo). Contudo, a significncia do coeficiente de regresso, isto , o teste de hipteses:H 0 : X e Y no esto correlacionadas; H1 : X e Y esto correlacionadas.

equivalente a:H 0 : rs = 0 H1 : rs 0

pode mais rigorosamente ser decidido pela aproximao da distribuio do coeficiente rs funo de distribuio normal, pela expresso:Z= N 3 1+ r ln ~ N ( 0,1) 2 1 r

Exemplo 1:As variveis X e Y so respectivamente as classificaes (em percentagem) em Matemtica e em Biologia de uma turma de 10 alunos. Para calcular o coeficiente rs , foram atribudos os nmeros de ordem a cada valor xi e yi : Aluno 1 2 3 4 5 6 7 8 9 10 Mat. ( xi ) 57 45 72 78 53 63 86 98 59 71 Ordem xi 3 1 7 8 2 5 9 10 4 6 Biol. ( yi ) 83 37 41 84 56 85 77 87 70 59 Ordem yi 7 1 2 8 3 9 6 10 5 4di di2 16 0 25 0 1 16 9 0 1 4

-4 0 5 0 -1 -4 3 0 -1 2

Como se verifica, em nenhuma das variveis existem empates. Aplicando a expresso de clculo, temos:

37

rs = 1

6 di2i =1

N

N N3

= 1

6 72 = 0.5636 103 10

Consultando a tabela de significncia dos coeficientes de correlao de Spearman em anexo, para uma amostra de N = 10 observaes e para um nvel de significncia = 5% , rs significativo, isto , existe correlao ou associao entre X e Y, para valores rs > 0.648 . Assim, devemos concluir que no existe, no exemplo apresentado, correlao significativa entre as classificaes obtidas em Matemtica e em Biologia. Procedendo aproximao distribuio normal, tem-se:Z= N 3 7 1+ r 1 + 0.5636 ln ln = = 1.6882 2 1 r 2 1 0.5636

que conduz probabilidade limite p value = 0.0914 .

Exemplo 2:Em estudos de ornitologia considera-se haver uma associao entre a envergadura das asas e o comprimento da cauda das aves. Os seguintes dados referem-se envergadura de asas (X, em cm) e o comprimento da cauda (Y, em cm) de uma espcie de tordos: X Y 10.4 7.4 10.8 7.6 11.1 7.9 10.2 7.2 10.3 7.4 10.2 7.1 10.7 7.4 10.5 7.2 10.8 7.8 11.2 7.7 10.6 7.8 11.4 8.3

Em ambas as variveis existem observaes empatadas; na varivel X existem 2 grupos, cada um com 2 observaes; na varivel Y existem 3 grupos, havendo dois grupos com 2 observaes e um com 3 observaes. Para calcular o coeficiente rs , foram atribudos os nmeros de ordem a cada valor xi e yi : Tordo 1 2 3 4 5 6 7 8 9 10 11 12 Asa ( xi ) 10.4 10.8 11.1 10.2 10.3 10.2 10.7 10.5 10.8 11.2 10.6 11.4 Ordem xi 4 8.5 10 1.5 3 1.5 7 5 8.5 11 6 12 Cauda ( yi ) Ordem yi 7.4 7.6 7.9 7.2 7.4 7.1 7.4 7.2 7.8 7.7 7.8 8.3 5 7 11 2.5 5 1 5 2.5 9.5 8 9.5 12 -1 1.5 -1 -1 -2 0.5 2 2.5 -1 3 -3.5 0di di2

1 2.25 1 1 4 0.25 4 6.25 1 9 12.25 0

38

Como existem observaes empatadas, vamos em primeiro lugar calcular:

u

x

=

(um i =1 m

3 xi

u xi

12

) (2 =

3

2 ) + ( 23 2 )

123

=1

y

x

=

(ui =1

3 yi

u yi

12

) (2 =

2 ) + ( 33 3) + ( 23 2 )

12

=3

O coeficiente de correlao corrigido devido a empates :123 12 42 1 3 6 = = N3 N N3 N 123 12 123 12 2 u x 2 u y 2 1 2 3 6 6 6 6 = 0.8511 N3 N N 2 di u x u y 6 i =1

( rs )c

Este valor significativo, pois

( rs )c = 0.8511 > ( rs )( 0.05;12) = 0.587

(valor crtico

tabelado); ou, pela aproximao normal, chaga-se mesma concluso: Z= N 3 9 1+ r 1 + 0.8511 ln ln = = 3.7804 2 1 r 2 1 0.8511

sendo p value = 0.0002 .

39

Bibliografia

Daniel, Wayne W. (1995) Bioestadstica. Base para el anlisis de las ciencias de la salud. Editorial Limusa, Mxico. Devore, Jay L. (2000) Probability and Statistics for engineering and the sciences. Duxbury, Australia. Guimares, Rui Campos; Cabral, Jos A. Sarsfield (1997) Estatstica. McGraw-Hill, Portugal. Hicks, Charles R. e Turner Jr., Kenneth V. (1999) Fundamental concepts in the design of experiments. Fifth edition. Oxford University Press, USA. Johnson, Robert e Kuby, Patricia (1999) Elementary statistics. Eighth edition. Duxbury, USA. McClave, James T. e Sincich, Terry (2000) Statistics. Eighth Edition. Prentice Hall, USA. Montgomery, Douglas C. (2001) Design and analysis of experiments. 5.th edition. John Wiley and Sons, USA. Montgomery, Douglas C. e Runger, George C. (1999) Applied statistics and probability for engineers. Second edition. John Wiley and Sons, USA. Snedecor, George W. e Cochran, William G. (1980) Statistical methods. Seventh edition. Iowa State University Press, USA. Walpone, Ronald E. (1999) Probabilidad y Estadstica para ingenieros. Sexta edicin. Prentice Hall, Mxico. Zar, Jerrold H. (1999) Biostatistical analysis. Fourth edition. Prentice Hall, USA.

40