testes nao parametricos

41
MÉTODOS ESTATÍSTICOS E DELINEAMENTO EXPERIMENTAL TESTES NÃO PARAMÉTRICOS Armando Mateus Ferreira

Upload: luciano-goncalves

Post on 22-Nov-2015

36 views

Category:

Documents


0 download

TRANSCRIPT

  • MTODOS ESTATSTICOS E DELINEAMENTO EXPERIMENTAL

    TESTES NO PARAMTRICOS

    Armando Mateus Ferreira

  • 1

    ndice

    1 Introduo................................................................................................................. 2 2 Testes de Aleatoriedade............................................................................................ 3

    2.1 Teste das sequncias (runs) .............................................................................. 3 3 Testes de localizao ................................................................................................ 7

    3.1 Teste do sinal (sign).......................................................................................... 8 3.2 Teste de Wilcoxon (Wilcoxon signed rank) ................................................... 12 3.3 Teste de Wilcoxon para duas amostras emparelhadas.................................... 17 3.4 Teste de Mann-Whitney-Wilcoxon para duas amostras................................. 19

    3.4.1 Aproximao do teste Mann-Whitney-Wilcoxon distribuio normal 22 4 Anlise de varincia ............................................................................................... 25

    4.1 Teste de Kruskal-Wallis ................................................................................. 26 A estatstica de teste : ........................................................................................... 27

    4.2 Teste de Friedman .......................................................................................... 33 5 Coeficiente de correlao de Spearman.................................................................. 36

  • 2

    TESTES NO PARAMTRICOS

    1 Introduo Os testes de hiptese recebem a designao de testes paramtricos se satisfazem simultaneamente as seguintes duas condies:

    Os testes incidem explicitamente sobre um parmetro de uma ou mais populaes (por exemplo, sobre a mdia ou valor esperado, ou sobre a varincia);

    A distribuio de probabilidades da estatstica de teste pressupe uma forma particular das distribuies populacionais de onde as amostras foram recolhidas. Por exemplo, a distribuio da estatstica de teste do teste t-Student para comparar as mdias de duas amostras pressupe que as amostras foram retiradas de uma populao que se distribui segundo uma funo de probabilidades Normal, e alm disso pressupe tambm que as varincias das duas amostras so homogneas1.

    Os erros ou resduos i (tal que i ix = + ) tm distribuio normal; Os erros ou resduos i tm varincia finita e constante 2 ; Os erros ou resduos i so independentes.

    Assim, se algum destes pressupostos violado, ento os testes tradicionais vistos anteriormente no tm rigor estatstico, e devero ser evitados, e em sua substituio dever-se-o utilizar testes que no exigem o cumprimento de tais pressupostos. Estes testes designam-se por testes no paramtricos. Os testes no paramtricos no esto condicionados por qualquer distribuio de probabilidades dos dados em anlise, sendo tambm designados por distribution-free tests. Tal como no estatisticamente rigorosa a utilizao de testes paramtricos quando no se cumprem os pressupostos necessrios, tambm dever ser evitada a utilizao dos testes no paramtricos em situaes em que prevalecem as condies de utilizao dos testes paramtricos, pois estes (paramtricos) so mais potentes que os testes no paramtricos. Trate-se de um teste paramtrico ou no paramtrico, para l dos pressupostos acima referidos, qualquer teste de hipteses s tem validade estatstica se as amostras sobre as que esto a ser aplicados forem aleatrias. Assim, dentro dos testes no paramtricos, veremos alguns que se aplicam para verificar a aleatoriedade das amostras.

    1 A frmula de Welsh para calcular os graus de liberdade do teste de comparao de duas amostras cujas varincias no so homogneas resulta se a violao deste pressuposto no muito acentuada. Se as varincias so muito diferentes, prefervel usar um teste no paramtrico.

  • 3

    Para verificar a forma de distribuio das populaes, a fim de se decidir pela utilizao de um teste paramtrico ou por um teste no paramtrico, podem usar-se os testes de bondade ou qualidade de ajustamento das amostras a funes de distribuio de probabilidades, tais como o teste do qui-quadrado, o teste de Kolmogorov-Smirnov, teste de Shapiro-Wilk. A maioria dos programas estatsticos tm estes testes implementados.

    2 Testes de Aleatoriedade Imagine-se que em vinte lanamentos de uma moeda ao ar, se observa a seguinte sequncia alternada da face sada: cara-coroa-cara-coroa-cara-coroa-cara-coroa-etc, sempre com a mesma regularidade. Facilmente se percebe que este resultado no aleatrio. O que inslito neste resultado no o facto de se terem registado 10 caras e 10 coroas, mas sim o facto de as faces terem sado sempre de modo alternado. Em geral, a no aleatoriedade pode ocorrer de muitas formas: misturas de populaes com diferentes mdias ou diferentes varincias, correlao positiva ou negativa entre observaes sucessivas, periodicidade, etc. Nos grficos seguintes esquematizam-se algumas situaes de no aleatoriedade.

    2.1 Teste das sequncias (runs) Este teste aplica-se em conjuntos de observaes classificadas dicotomicamente (geralmente 0 ou 1, que podem ser as codificaes de variveis no numricas). Contudo, a amostra em anlise pode ser uma amostra contnua, mas devendo classificar-se neste caso cada uma das observaes por um critrio dicotmico. Por exemplo, pode

    Distribuio aleatria Observaes correlacionadas positivamente

    Observaes correlacionadas negativamente Observaes provenientes de duas populaes

  • 4

    usar-se o teste das sequncias para testar se as observaes se distribuem aleatoriamente abaixo (codificado com 0) ou acima (codificado com 1) de um valor mdio ou de um valor mediano. Define-se por sequncia um conjunto de observaes idnticas (por exemplo, 1,1,1,...) que precedido ou sucedido por um conjunto de observaes de outro tipo (por exemplo, 0,0,...). Cada um destes conjuntos pode conter uma s observao. Por exemplo, o conjunto de observaes 0,1,1,0,1,0,1,1 contm 8 observaes e 6 sequncias ou runs. Em geral, uma amostra de dimenso N (com 0N observaes codificadas com o valor 0 e 1N observaes codificadas com o valor 1), apresentar r N sequncias. O teste de hipteses :

    0 :H A amostra aleatria 1 :H A amostra no aleatria A estatstica do teste baseia-se no nmero de sequncias contidas na amostra (geralmente designado por R). Geralmente o teste bilateral: rejeita-se a hiptese nula quando h poucas sequncias diferentes (esta situao levada a extrema, conduziria a uma nica sequncia, ou a duas sequncias, que equivaleria mistura de duas populaes); tambm se rejeita a hiptese nula quando h muitas sequncias diferentes: na situao extrema haveria tantas sequncias quantas as observaes, o que significa que a seguir a uma observao codificada com 0, viria obrigatoriamente uma observao codificada com 1. Por exemplo, se na amostra 10, 10, 10, 15, 15, 15 codificarmos as observaes da seguinte forma: 0, para observaes abaixo da mediana; 1 para observaes acima da mediana; conclui-se que existem apenas 2 sequncias, o que eventualmente um sinal de no aleatoriedade. Existem tabelas para a distribuio do nmero de sequncias, em funo do nmero de observaes em cada uma das duas categorias em que amostra clasificada. Admitindo que a hiptese nula verdadeira (amostra aleatria), a distribuio de R pode ser aproximada pela distribuio Normal com parmetros:

    2. . 1A BRN N

    N = +

    ( )( )22. . . 2. .

    . 1A B A B

    R

    N N N N NN N

    = Nestas condies, a estatstica de teste :

  • 5

    ( )~ 0,1RR

    RZ = N

    Exemplo 1: Em 25N = lanamentos sucessivos de uma moeda ao ar registaram-se os seguintes resultados (em que E representa a sada de Cara e C a sada de Coroa):

    E, E, C, C, E, C, E, E, C, E, C, C, E, E, E, C, E, E, C, E, E, C, C, E, C Pretende-se verificar se a amostra aleatria.

    0 :H A amostra aleatria 1 :H A amostra no aleatria

    1411

    16

    E

    C

    NNR

    ==

    =

    Na tabela de distribuio do nmero de sequncias, para 11CN = e 14EN = , e para

    5% = , os nmeros crticos de sequncias so 8 e 19, isto , a regio crtica para 8 19R R< > e a regio de aceitao para 8 19R . Como 16R = , conclui-se que

    se deve aceitar a hiptese nula. Fazendo a aproximao normal, teramos:

    2. . 2 14 111 1 13.3225

    A BR

    N NN

    = + = + =

    ( )( )

    ( )2 2

    2. . . 2. . 2 14 11 2 14 11 252.4106

    . 1 25 24A B A B

    R

    N N N N NN N

    = = = A estatstica de teste ento:

    16 13.32 1.11182.4106

    R

    R

    RZ = = =

    Deciso: Fixando um nvel de significncia, por exemplo 5% = , e admitindo que o teste de natureza bilateral (o que corresponde a que R pode afastar-se de R em ambos os sentidos), o valor crtico 0.05 1.96= Z ; como 0.051.1118 1.96Z = < =Z , conclui-se que no se deve rejeitar a hiptese de que a amostra aleatria. A mesma deciso pode ser tomada estimando o valor de probabilidade limite:

    ( ) ( )Pr Pr 1.1118 0.2662calcp value Z = < = < =Z Z , pelo que se aceita 0H .

  • 6

    Exemplo 2: Na tabela seguinte apresentam-se o peso nascena (PN) e o peso aos 45 dias (P45) de um lote de 30 borregos; a varivel RESIDUOS contm os resduos da equao de regresso 45 2.79 2.54P PN= + :

    Pretende-se verificar se os resduos se distribuem aleatoriamente em torno do valor zero (que um dos pressupostos da regresso linear). Isto :

    0 :H Os resduos distribuem-se aleatoriamente em torno de 0

    1 :H Os resduos no se distribuem aleatoriamente em torno de 0 Para efectuar o teste das sequncias, temos de classificar cada um dos resduos numa varivel dicotmica: 0, se o resduo inferior a zero; 1, caso contrrio (coluna GRUPO). Note-se que a amostra est ordenada em termos da varivel PN.

    PN P45 RESIDUOS GRUPO1.2 9.62 3.782 11.2 4.20 -1.638 01.4 6.74 0.394 11.6 7.69 0.836 12.0 6.20 -1.670 02.0 8.63 0.760 12.0 7.46 -0.410 02.2 7.21 -1.168 02.2 8.39 0.012 12.4 7.11 -1.776 02.4 8.00 -0.886 02.4 8.49 -0.396 02.6 9.35 -0.044 02.6 10.71 1.316 12.8 9.69 -0.212 03.0 10.42 0.010 13.0 10.71 0.300 13.0 11.40 0.990 13.2 13.67 2.752 13.2 12.64 1.722 13.2 6.91 -4.008 03.2 7.70 -3.218 03.4 11.33 -0.096 03.4 12.00 0.574 13.6 11.12 -0.814 03.6 10.91 -1.024 03.8 14.18 1.738 13.8 13.50 1.058 14.0 14.00 1.050 14.2 13.64 0.182 1

  • 7

    A partir do quadro anterior, calcula-se:

    0

    1

    1416

    15

    NNR

    ===

    Na tabela de distribuio do nmero de sequncias, para 0 14N = e 1 16N = , e para

    5% = , os nmeros crticos de sequncias so 10 e 22, isto , a regio crtica para 10 22R R< > e a regio de aceitao para 10 22R . Como 15R = , conclui-se

    que se deve aceitar a hiptese nula. Fazendo a aproximao normal, teramos:

    2. . 2 14 161 1 15.933330

    A BR

    N NN

    = + = + =

    ( )( )

    ( )2 2

    2. . . 2. . 2 14 16 2 14 16 302.6786

    . 1 30 29A B A B

    R

    N N N N NN N

    = = = A estatstica de teste ento:

    15 15.9333 0.34842.6786

    R

    R

    RZ = = =

    Deciso: Fixando um nvel de significncia, por exemplo 5% = , e admitindo que o teste de natureza bilateral (o que corresponde a que R pode afastar-se de R em ambos os sentidos), o valor crtico 0.05 1.96= Z ; como 0.050.3484 1.96Z = < =Z , conclui-se que no se deve rejeitar a hiptese de que a amostra aleatria. A probabilidade limite 0.7275p value = , pelo que se dever aceitar a hiptese nula com um nvel de significncia de 0.7275.

    3 Testes de localizao O valor esperado, esperana matemtica ou mdia o parmetro de localizao mais frequentemente utilizado em inferncia estatstica. No entanto, a mediana populacional

    (vamos represent-la por ~ ), que corresponde tambm a um valor central das

    distribuies, pode constituir uma alternativa mdia, uma vez que:

    menos influenciada por valores extremos (consideremos a seguinte amostra, com 5 observaes: 2, 13, 13, 14, 15; a mdia 11.4, enquanto que a mediana

  • 8

    13; o valor extremo 2, muito afastado do contexto das restantes, afecta bastante a mdia, causando um enviezamento deste parmetro; a mediana no afectada);

    Quando as distribuies so assimtrica, a mediana situa-se numa posio mais

    prxima do valor mais observado, podendo por isso ter mais sentido como medida da tendncia central;

    Quando as distribuies so simtricas, a mediana populacional e a mdia ou

    valor esperado coincidem, possuindo assim o mesmo mrito como medida de tendncia central.

    Alguns testes no paramtricos acerca de um parmetro de localizao utilizam a mediana como esse parmetro. Estes testes constituem uma alternativa aos testes paramtricos acerca da mdia.

    3.1 Teste do sinal (sign) O teste do sinal desenvolve-se com base em amostras aleatrias provenientes de populaes contnuas. Na hiptese nula admite-se que a mediana populacional possui

    um determinado valor particular, ~

    0 :

    ~ ~ ~ ~

    0 0 1 0: :H H =

    (note-se que a hiptese alternativa pode ser unilateral, ~ ~

    0 > ou ~ ~

    0 < ).

    A estatstica de teste Y = nmero de observaes abaixo (ou acima) de ~

    0 . Se a hiptese nula for verdadeira e a amostra for aleatria, o nmero de observaes

    com valor inferior (ou superior) a ~

    0 uma varivel aleatria binomial com parmetro 0.5p = . Ento, o teste de hiptese equivalente a testar:

    0 1: 0.5 : 0.5H p H p=

    (tratando-se de um teste unilateral, a hiptese alternativa ser 1 : 0.5H p < ou

    1 : 0.5H p > ). Os valores crticos para estabelecer a regio de aceitao e a regio crtica so obtidos pelo clculo das probabilidades de funo binomial. Se o teste bilateral, pretende-se estabelecer a regio crtica:

    ( ) ( ) ( )0

    Pr 0.5 ; ;ci

    i s

    ks

    Y N

    c ck k Y

    Y Y Y Y p Bi N p Bi N p= =

    = = +

  • 9

    em que ic

    Y e sc

    Y so respectivamente os valores de Y = nmero de observaes abaixo

    (ou acima) de ~

    0 correspondentes a uma probabilidade (nvel de significncia), e ( );

    ks

    N

    k YBi N p

    = a probabilidade binomial acumulada (correspondente a 2 na cauda

    superior da distribuio). Note-se que ic

    Y e sc

    Y so simtricos em relao a ~

    0 . O nome do teste (sinal ou sign) provm de, ao fazer os clculos, se registavam

    tradicionalmente por ou por + as observaes inferiores ou superiores a~

    0 . Este teste tem a vantagem de poder aplicar-se a dados de tipo dicotmico que no podem registar-se numa escala numrica, mas que podem representar mediante respostas negativas ou positivas. Por exemplo, pode ser usada em ensaios em que se registam resultados qualitativos do tipo fracasso ou xito. Exemplo: Admita-se que a produo mediana de leite (em ordenha, aps retirar borregos) de um determinado rebanho de ovelhas Merino da Beira Baixa de 60 litros/animal e ano. Numa amostra de 12 ovelhas retiradas desse rebanho obtiveram-se as seguintes produes por animal e ano:

    44.0; 46.6; 48.2; 51.8; 60.3; 61.7; 63.6; 72.7; 77.4; 82.4; 96.1; 105.6 Pretende-se verificar:

    ~ ~

    0 1: 60 : 60H H = A hiptese nula estabelece que a produo mediana de 60 litros; se esta hiptese verdadeira, 50% do rebanho ter uma produo inferior (e 50% ter uma produo superior a 60 l); isto , o anterior teste pode escrever-se como:

    0 1: 0.5 : 0.5H p H p= Nestas condies, se o tamanho da populao for muito grande em relao amostra, o nmero de animais com produo inferior a 60 l numa amostra de 12 animais, segue uma distribuio binomial ( )12;0.5 . No exemplo, Y=4 (nmero de animais com produo inferior a 60). No grfico seguinte apresentam-se as probabilidades de acontecerem 0, 1, 2, ..., 12 sucessos numa prova de Bernoulli com 0.5p = (cada uma destas probabilidades dada pela expresso: ( )( ) ( )Pr ; 1 N kN kkk B N p C p p = ).

  • 10

    Assim, para um nvel de significncia 5% = , e sendo o teste bilateral, a hiptese nula seria rejeitada se na amostra ocorrerem menos de 3 ou mais de 9 animais com produo inferior a 60 l.

    Este valor (ou quantil da distribuio binomial) pode ser calculado com a funo ( ). ; ;CRIT BINOM N p :

    (como se trata de um teste bilateral, o quantil que define o limite superior da regio de aceitao calcula-se colocando-o mesma distncia que separa o quantil inferior e a mdia). A deciso do teste tambm se pode efectuar, calculando a probabilidade limite (que geralmente todos os programas estatsticos apresentam nos testes de hiptese). Na folha de clculo Excel, a funo ( ); ; ;DISTRBINOM k N p cumulativo calcula a funo de distribuio cumulativa de probabilidades binomial, at a k sucessos:

    0.00

    02

    0.00

    29

    0.01

    61 0.05

    37

    0.12

    08

    0.19

    34 0.22

    56

    0.19

    34

    0.12

    08

    0.05

    37

    0.01

    61

    0.00

    29

    0.00

    02

    0 1 2 3 4 5 6 7 8 9 10 11 12

    N animais com produo < 60

    RejeioRejeio

  • 11

    Tratando-se de um teste bilateral, a probabilidade limite ser dupla desta (isto ,

    2 0.19385 0.3877p value = = ). Se o tamanho da amostra muito grande, o clculo das probabilidades da funo binomial pode ser aproximado pela funo de distribuio normal estandardizada, sendo:

    ~.N p =

    ( ). . 1N p p =

    e estatstica de teste :

    ( )( )

    0.5 0.5.

    . . 1

    k NZ

    N p p+ =

    No exemplo apresentado, esta aproximao :

    ( )( )

    ( )0.5 0.5 4 0.5 0.5 12 0.866012 0.5 0.5. . 1

    k NZ

    N p p+ + = = =

    Para 5% = , os quantis da distribuio normal que estabelecem as regies de aceitao e de rejeio da hiptese nula so 0.05 1.96= Z , donde se conclui que se deve aceitar

    0H . O valor da probabilidade limite, pela aproximao normal 0.3865p value = , valor muito aproximado ao estimado com a funo binomial.

  • 12

    3.2 Teste de Wilcoxon (Wilcoxon signed rank) No teste do sinal os dados so transformados em contagens de uma varivel dicotmica, geralmente representados por - e por +, correspondentes s observaes abaixo ou

    acima da mediana ~

    0 . Ao proceder desta forma perde-se a informao relativa s diferenas de valor entre as observaes e a mediana. Por exemplo, se

    ~

    0 10 = , no teste do sinal indiferente que uma observao tenha o valor 15 ou o valor 20: no clculo da estatstica de teste, em ambos os casos seria contabilizada como uma observao +,

    isto , acima de ~

    0 . No teste de Wilcoxon, a magnitude das diferenas tida em conta, exigindo-se contudo que a populao seja de natureza contnua e simtrica. Nestas condies, o teste de Wilcoxon mais potente que o teste do sinal. Tal como no teste do sinal, considere-se o seguinte teste de hipteses:

    ~ ~ ~ ~

    0 10 0: :H H =

    (note-se que a hiptese alternativa pode ser unilateral, ~ ~

    0 > ou ~ ~

    0 < ). Se a populao for contnua e simtrica, a amostra for aleatria e 0H for verdadeira, ento as diferenas:

    ~

    0i id x = devero distribuir-se de forma simtrica em torno de 0. Ou seja, observar-se-o diferenas positivas e negativas com valores absolutos da mesma ordem de grandeza, e em nmero aproximadamente igual. A avaliao relativa da magnitude das diferenas id pode ser efectuada ordenando de forma crescente, de 1 a N, os seus valores absolutos id e atribuindo a cada um destes o respectivo nmero de ordem (em ingls esta ordenao designa-se por rank, de onde vem o nome do teste), com o sinal negativo ou positivo, consoante id sejam negativo ou positivo.

    Se a populao for simtrica em torno de ~

    0 e 0H for verdadeira, a soma dos nmeros de ordem referentes s diferenas id negativas dever ser aproximadamente igual soma dos nmeros de ordem referentes s diferenas id positivas. Uma situao contrria a esta beneficia uma das hipteses alternativas. Por exemplo, se a soma dos nmeros de ordem relativos s diferenas positivas for muito maior do que a soma dos

    nmeros de ordem das diferenas negativas, ento a hiptese alternativa ~ ~

    1 0:H > tornar-se- plausvel. A estatstica de teste de Wilcoxon baseada, justamente, na propriedade que acaba de ser enunciada.

  • 13

    Os passos para o clculo da estatstica de teste de Wilcoxon so:

    Calculam-se as diferenas ~ 0i id x = ; Ordenam-se as diferenas id por ordem crescente dos respectivos valores

    absolutos id ;

    Atribui-se um nmero de ordem sequencialmente a cada id ; os nmeros de ordem referentes a id so precedidos do sinal +; os nmeros de ordem referentes a id negativos so precedidos do sinal -;

    Quando o valor absoluto de duas ou mais diferenas o mesmo (isto , quando existem empates ou ties), o nmero de ordem atribudo a cada uma dessas diferenas com o mesmo valor absoluto id a mdia aritmtica dos nmeros de ordem que tais observaes receberiam se no estivessem empatadas. Sejam por exemplo as diferenas ordenadas a sequncia 1, 3, -3, 5, 7, -7, -7, 8; os respectivos nmeros de ordem seriam 1, 2.5, 2.5, 4, 6, 6, 6, 8.

    Quando existem zeros, isto , quando 0id = , estes valores devem ignorar-se, e consequentemente, reduzir o tamanho da amostra em tantas unidades, tantos os zeros que existam.

    Calcula-se a estatstica de teste, geralmente designada por T, e que resulta da soma dos nmeros de ordem positivos (caso em que a estatstica de teste se representa por T+ ) ou dos nmeros de ordem negativos (a estatstica de teste representada por T ).

    Note-se que a estatstica de teste toma sempre um valor no negativo, e para uma amostra de tamanho N a soma de todos os nmeros de ordem :

    ( ). 12

    N NT T+

    ++ = Se a hiptese nula verdadeira, as distribuies de T+ e T so simtricas em torno do valor esperado:

    ( ). 14

    N N +

    de modo que seria indiferente usar de T+ ou T como estatstica de teste. Contudo, por comodidade, em cada uma das seguintes situaes de hiptese alternativa, usual considerar:

    Hiptese nula Hiptese alternativa Estatstica de teste usual ~ ~

    0 < T+ ~ ~

    0 Mnimo de T+ ou T ~ ~

    0 = ~ ~

    0 > T

  • 14

    Existem tabelas com os valores crticos de T+ ou T para decidir acerca da significncia do teste. Para amostras com 15N demonstra-se que a distribuio amostral de T+ (ou T ) se aproxima da distribuio normal de parmetros:

    Mdia: ( ). 14T

    N N ++=

    Varincia: ( )( )2 . 1 2. 124T

    N N N ++ +=

    Se existem empates a varincia deve ser corrigida, sendo neste caso a expresso para clculo da varincia:

    Varincia: ( )( ) 32 . 1 2. 124 48

    i iT

    u uN N N ++ +=

    em que iu representa o nmero de empates no i-simo grupo de observaes iguais. Quando se faz a aproximao funo de distribuio normal, a estatstica de teste :

    ( )( )( ) ( )

    . 14 ~ 0,1

    . 1 2. 124

    T

    T

    N NTT

    ZN N N

    +

    +

    +++= = + + N

    Exemplo 1: Os seguintes dados referem-se aos pesos ao nascimento de uma amostra de 9 borregos:

    1.9, 2.0, 2.2, 2.8, 3.1, 3.1, 3.3, 3.4, 3.7 Pretende-se averiguar se podemos considerar que o peso mediano dos borregos nascena neste rebanho de 3.3 kg. O teste de hipteses :

    ~ ~

    0 1: 3.3 : 3.3H H = No seguinte quadro apresenta-se o clculo da estatstica de teste T+ e T , conforme atrs descrito. Chama-se a ateno para a existncia de dois empates e um zero; o zero deve ser ignorado, considerando 8N = ; as diferenas das observaes para a mediana

    0 3.3 = correspondentes aos empates seriam a 2 e 3 diferenas, se no houvesse empate; assim, ambas tero nmero de ordem 2.5.

  • 15

    ix ~

    0i id x = id Ordem (+) Ordem (-) 3.3 0 0 3.4 0.1 0.1 1 3.1 -0.2 0.2 2.5 3.1 -0.2 0.2 2.5 3.7 0.4 0.4 4 2.8 -0.5 0.5 5 2.2 -1.1 1.1 6 2 -1.3 1.3 7

    1.9 -1.4 1.4 8

    5T+ = 31T = Para amostras at 15 observaes existem tabelas dos valores crticos da distribuio das estatsticas T+ e T , isto , os valores das probabilidades tais que ( )Pr eT t+ < e

    ( )Pr dT t > . Na tabela em anexo, para um tamanho de amostra 8N = , verifica-se que ( ) ( )Pr 5 Pr 31 0.039T T+ < = > = , ou seja, 0.078p value = Assim, a hiptese nula no

    rejeitada ao nvel de significncia de 5%. Caso no se disponha da tabela, ou se opte por fazer a aproximao funo de distribuio normal, devem calcular-se os parmetros desta:

    Mdia: ( ). 1 8 9 184 4T

    N N ++ = = =

    Varincia (note-se que existem duas diferenas empatadas, pelo que se deve

    fazer a correco da varincia):

    ( )( ) 3 32 . 1 2. 1 8 9 17 2 2 50.87524 48 24 48

    i iT

    u uN N N ++ + = = =

    A estatstica de teste ento:

    5 18 1.822650.875

    T

    T

    TZ

    +

    +

    + = = = Para um nvel de significncia 5% = , e tratando-se de um teste bilateral, o quantil crtico da distribuio normal ( )0,1N 0.05 1.96= Z , pelo que se conclui que no h evidncia estatstica para rejeitar a hiptese nula. A partir da estatstica 1.8226Z = tambm se pode calcular a probabilidade limite:

    0.0684p value = , sendo a deciso a mesma que anteriormente.

  • 16

    Exemplo 2: Os dados seguintes referem-se ao peso vivo aos 45 dias de um lote de borregos:

    4.2 7.7 9.5 12.6 6.2 8 10.4 13.6 7.2 8.5 10.7 13.7 7.2 8.5 11.1 14 7.2 8.6 11.3 14.1

    Pretende-se verificar se o peso mediano aos 45 dias de idade dos borregos deste rebanho de 10 kg. O teste de hipteses pretendido :

    ~ ~

    0 1: 10 : 10H H = No seguinte quadro apresenta-se o clculo da estatstica de teste T+ e T , conforme atrs descrito. Chama-se a ateno para a existncia de alguns empates; devido a estes empates, os nmeros de ordem das diferenas so 7.5 para os dois pesos 8.5 (pois seriam a 7 e 8 observaes, e em caso de empate, recebem a mdia dos nmeros de ordem que receberiam se no houvesse empate), e 13 para os trs pesos 7.2 kg (se no houvesse empate, seriam os nmeros de ordem 12, 13 e 14, cuja mdia 13).

    ix ~

    0i id x = id Ordem (+) Ordem (-) 10.4 0.4 0.4 1 9.5 -0.5 0.5 2 10.7 0.7 0.7 3 11.1 1.1 1.1 4 11.3 1.3 1.3 5 8.6 -1.4 1.4 6 8.5 -1.5 1.5 7.5 8.5 -1.5 1.5 7.5 8 -2 2 9

    7.7 -2.3 2.3 10 12.6 2.6 2.6 11 7.2 -2.8 2.8 13 7.2 -2.8 2.8 13 7.2 -2.8 2.8 13 13.6 3.6 3.6 15 13.7 3.7 3.7 16 6.2 -3.8 3.8 17 14 4 4 18

    14.1 4.1 4.1 19 4.2 -5.8 5.8 20

    92T+ = 118T =

  • 17

    O valor esperado de T :

    ( ). 1 20 21 1054 4

    N N + = = Note-se que 92T+ = e 118T = so simtricos em torno do valor esperado(105). A fim de calcular a estatstica de teste para proceder deciso do teste, temos em primeiro lugar de fazer a aproximao funo de distribuio normal. Os parmetros so:

    Mdia: ( ). 1 20 21 1054 4T

    N N ++ = = =

    Varincia (note-se que existem dois grupos de observaes iguais,

    respectivamente com 2 e com 3 observaes):

    ( )( ) ( ) ( )3 332 2 3 2 3. 1 2. 1 20 21 41 716.87524 48 24 48

    i iT

    u uN N N ++ ++ + = = =

    A estatstica de teste ento:

    92 105 0.4855716.875

    T

    T

    TZ

    +

    +

    + = = = Para um nvel de significncia 5% = , e tratando-se de um teste bilateral, o quantil crtico da distribuio normal ( )0,1N 0.05 1.96= Z , pelo que se conclui que no h evidncia estatstica para rejeitar a hiptese nula. A partir da estatstica 0.4855Z = tambm se pode calcular a probabilidade limite:

    0.6273p value = , sendo a deciso a mesma que anteriormente.

    3.3 Teste de Wilcoxon para duas amostras emparelhadas Quando se tm pares de observaes ( ) ( )1 1, ,..., ,N NX Y X Y , e as diferenas i i id X Y= tm distribuio normal, usa-se o teste paramtrico t-Student para comparar as mdias de duas amostras emparelhadas. Porm, se as diferenas i i id X Y= no se distribuem normalmente, pode usar-se o teste de Wilcoxon sobre as diferenas, desde que estas tenham um comportamento contnuo e simtrico. Neste caso, o teste de hipteses :

  • 18

    0 0 1 0: :d dH H = em que d a mdia das diferenas i i id X Y= . A estatstica de teste ( )min ;T T+ , isto , o valor mnimo da soma dos nmeros de ordem associados aos valores positivos ou negativos de 0id . Exemplo: Existem diversos mtodos de estimao do volume de madeira produzido pelas rvores, nomeadamente modelos de estimao baseados no dimetro basal e modelos de estimao baseados no dimetro altura do peito (dap). Pretende-se comparar um mtodo de estimao baseado no dimetro basal com outro mtodo baseado no dap. Para tal, os volumes (m3) de madeira dos mesmas 15 pinheiros foram estimados pelos dois mtodos: Basal 1.06 1.08 1.12 0.98 1.05 0.85 1.06 0.87 1.03 1.1 0.95 0.78 1.23 1.04 0.88Dap 1.12 0.97 1.15 1.07 0.89 0.98 1.13 0.82 1.15 1.25 0.86 0.83 1.05 0.89 1.02 Como exposto, pretendendo testar se as estimativas pelos dois mtodos so idnticas, ento a mdia das diferenas entre as observaes ser nula, e o teste de hipteses : 0 1: 0 : 0d dH H = em que d a mdia das diferenas i ii basal dapd V V= . No quadro seguinte apresentam-se os clculo do teste:

    ibasalV

    idapV

    i ii basal dapd V V= id Ordem (+) Ordem (-)

    1.06 1.12 -0.06 0.06 4 1.08 0.97 0.11 0.11 8 1.12 1.15 -0.03 0.03 1 0.98 1.07 -0.09 0.09 6.5 1.05 0.89 0.16 0.16 14 0.85 0.98 -0.13 0.13 10 1.06 1.13 -0.07 0.07 5 0.87 0.82 0.05 0.05 2.5 1.03 1.15 -0.12 0.12 9 1.1 1.25 -0.15 0.15 12.5 0.95 0.86 0.09 0.09 6.5 0.78 0.83 -0.05 0.05 2.5 1.23 1.05 0.18 0.18 15 1.04 0.89 0.15 0.15 12.5 0.88 1.02 -0.14 0.14 11

    58.5T+ = 61.5T =

  • 19

    A fim de calcular a estatstica de teste para proceder deciso do teste, temos em primeiro lugar de fazer a aproximao funo de distribuio normal. Os parmetros desta aproximao so:

    Mdia: ( ). 1 15 16 604 4T

    N N ++ = = =

    Varincia (note-se que existem trs grupos de observaes iguais, cada um com

    2 observaes):

    ( )( ) ( ) ( )3 3 332 2 2 2 2 2 2. 1 2. 1 15 16 31 309.62524 48 24 48

    i iT

    u uN N N ++ + + ++ + = = =

    A estatstica de teste ento:

    58.5 60 0.0853309.625

    T

    T

    TZ

    +

    +

    + = = = Para um nvel de significncia 5% = , e tratando-se de um teste bilateral, o quantil crtico da distribuio normal ( )0,1N 0.05 1.96= Z , pelo que se conclui que no h evidncia estatstica para rejeitar a hiptese nula. A partir da estatstica 0.0853Z = tambm se pode calcular a probabilidade limite:

    0.932p value = , sendo a deciso a mesma que anteriormente.

    3.4 Teste de Mann-Whitney-Wilcoxon para duas amostras O teste de Mann-Whitney-Wilcoxon (ou teste M-W-W) um teste no-paramtrico alternativo ao teste t-Student para comparar as mdias de duas amostras independentes. O nico pressuposto exigido para a aplicao do teste M-W-W que as duas amostras sejam independentes e aleatrias, e que as variveis em anlise sejam numricas ou ordinais (os pressupostos para a aplicabilidade do teste t-Student so mais exigentes: as populaes de onde as amostras provm tm distribuio normal; as amostras so independentes e aleatrias; as populaes tm uma varincia comum). Sejam 1N e 2N os tamanhos das duas amostras. O teste de hipteses subjacente :

    H0: As duas amostras tm distribuies idnticas H1: As duas amostras tm distribuies diferentes

    Nota: o teste de hipteses tambm pode expressar-se pela comparao de medianas:

  • 20

    ~ ~ ~ ~

    0 11 2 1 2: :H H = A estatstica de teste U calculada como se descreve em seguida.

    As observaes das duas amostras so combinadas numa nica varivel de tamanho 1 2N N+ , sendo identificadas as respectivas provenincias.

    O conjunto de observaes assim constitudo pela juno das duas amostras

    ordenado por ordem crescente, atribuindo o nmero de ordem 1 observao menor e o nmero de ordem 1 2N N+ observao maior. Caso haja empates ou ties, a cada uma das observaes empatadas atribudo o nmero de ordem mdio que essas observaes teriam se no estivessem empatadas.

    De seguida, calculam-se as somas dos nmeros de ordem das observaes de

    cada amostra:

    1 :W soma dos nmeros de ordem das observaes da amostra 1;

    2 :W soma dos nmeros de ordem das observaes da amostra 2;

    Calculam-se as quantidades:

    ( )2 21 1 2 2

    . 1.

    2N N

    U N N W+= +

    ( )1 1

    2 1 2 1

    . 1.

    2N N

    U N N W+= +

    A estatstica de teste :

    ( )1 2min ,U U U= A hiptese nula estabelece que as duas amostras tm a mesma distribuio, e se tal acontecer, as mdias (e tambm as medianas) das duas amostras so iguais. Suponhamos que, na realidade, as duas amostras tm distribuio diferente, e consideremos uma situao extrema em que tal acontece, que seria numa situao em que todas as observaes de uma das amostras so inferiores menor observao da outra amostra, tal como se ilustra no grfico seguinte:

    Numa situao destas, provavelmente estaremos na disposio de aceitar a hiptese alternativa como verdadeira, ou seja, deveremos rejeitar a hiptese nula.

  • 21

    Consideremos as duas amostras acima representadas graficamente; a partir deste grfico possvel estabelecer os nmeros de ordem (no interessam os valores ix , mas sim a ordem ou lugar que cada observao ocupa) de cada uma das amostras (cada ponto representa uma observao): Amostra 1 1 3 3 3 5.5 5.5 7 8.5 8.5 10 1 55W = Amostra 2 11 12.5 12.5 14.5 14.5 16.5 16.5 18.5 18.5 20 2 155W =

    ( )2 21 1 2 2

    . 1 10 11. 10 10 155 02 2

    N NU N N W

    + = + = + =

    ( )1 12 1 2 1

    . 1 10 11. 10 10 55 1002 2

    N NU N N W

    + = + = + = A estatstica de teste ento ( ) ( )1 2min , min 0,100 0U U U= = = Se, pelo contrrio, tivssemos duas amostras cujas observaes fossem iguais aos pares (a primeira observao da amostra A igual primeira observao da amostra B; etc), as distribuies das duas amostras seriam exactamente iguais, sendo iguais os nmeros de ordem das observaes em ambas as amostras, situao em que se deveria aceitar a hiptese nula:

    A partir deste grfico possvel estabelecer os nmeros de ordem de cada uma das amostras: Amostra A 1.5 3.5 5.5 9.5 9.5 9.5 13.5 16.5 16.5 19.5 105AW = Amostra B 1.5 3.5 5.5 9.5 9.5 9.5 13.5 16.5 16.5 19.5 105BW =

    ( ). 1 10 11. 10 10 105 502 2

    B BA A B B

    N NU N N W

    + = + = + =

    ( ). 1 10 11. 10 10 105 502 2

    A AB A B A

    N NU N N W

    + = + = + = A estatstica de teste ento ( ) ( )min , min 50,50 50A BU U U= = = Isto , valores grandes da estatstica U so favorveis aceitao da hiptese nula, e valores pequenos de U so favorveis no aceitao da hiptese nula

  • 22

    Existem tabelas dos quantis da distribuio U de Mann-Whitney-Wilcoxon. Contudo, chama-se a ateno para que se deve ter o cuidado de verificar qual a estatstica U a que se refere a tabela. Esta chamada de ateno prende-se com o facto de que alguns autores consideram a estatstica U como sendo a estatstica atrs apresentada ( ( )1 2min ,U U U= ); outros autores consideram como sendo o valor 1W (ou 2W ) atrs calculados; outros ainda consideram a estatstica 1 2 1.U N N U= ou 1 2 2.U N N U= (por exemplo, Zar, 1999) O programa SPSS utiliza a estatstica ( )1 2min ,U U U= aqui descrita. O programa MINITAB considera a estatstica 1U W= . Em anexo apresenta-se a tabela dos valores crticos da estatstica ( )1 2min ,U U U= , atrs descrita, e apresentada por Johnson e Kuby (1999).

    3.4.1 Aproximao do teste Mann-Whitney-Wilcoxon distribuio normal

    Se ambas as amostras em anlise tm tamanhos iguais ou superiores a 10 observaes, pode fazer-se a aproximao funo de distribuio normal, com parmetros:

    Valor esperado: 1 2.2U

    N N =

    Varincia: ( )1 2 1 22 . . 112U

    N N N N + +=

    Se existem empates ou ties nos nmeros de ordem, deve fazer-se uma correco no clculo da varincia; sendo iu os nmeros de nmeros de ordem empatados, a expresso para clculo da varincia deve ser:

    Varincia: ( )3 32 1 2 2.12 i iUN N u uN N

    N N =

    A estatstica de teste ento:

    ( )2

    ~ 0,1UU

    UZ = N

    Exemplo: Num ensaio delineado com o objectivo de estimar os efeitos da inalao prolongada de xido de cdmio, 15 cobaias foram sujeitas em laboratrio a um ambiente contaminado

  • 23

    com este xido, e 10 cobaias estiveram num ambiente normal sem essa contaminao (grupo de controlo). A varivel de interesse a concentrao de hemoglobina aps o ensaio:

    Animais expostos Grupo de controlo 14.4 17.4 14.2 16.2 13.8 17.1 16.5 17.5 14.1 15.0 16.6 16.0 15.9 16.9 15.6 15.0 14.1 16.3 15.3 16.8 15.7 16.7 13.7 15.3 14.0

    Pretende-se averiguar se a inalao prolongada de xido de cdmio altera o nvel de hemoglobina. O teste de hipteses pode expressar-se pela comparao de medianas:

    ~ ~ ~ ~

    0 11 2 1 2: :H H = No quadro seguinte apresentam-se os clculos de cadmioW e controloW :

    Teor de hemoglobina Grupo Ordem (Cdmio) Ordem (Controlo) 13.7 Cdmio 1 13.8 Cdmio 2 14.0 Cdmio 3 14.1 Cdmio 4.5 14.1 Cdmio 4.5 14.2 Cdmio 6 14.4 Cdmio 7 15.0 Controlo 8.5 15.0 Controlo 8.5 15.3 Cdmio 10.5 15.3 Cdmio 10.5 15.6 Cdmio 12 15.7 Cdmio 13 15.9 Cdmio 14 16.0 Controlo 15 16.2 Controlo 16 16.3 Controlo 17

  • 24

    16.5 Cdmio 18 16.6 Cdmio 19 16.7 Cdmio 20 16.8 Controlo 21 16.9 Controlo 22 17.1 Controlo 23 17.4 Controlo 24 17.5 Controlo 25

    145cadmioW = 180controloW =

    ( ). 1 10 11. 15 10 180 252 2

    ctr ctrcad cad ctr ctr

    N NU N N W

    + = + = + =

    ( ). 1 15 16. 15 10 145 1252 2

    cad cadctr cad ctr cad

    N NU N N W

    + = + = + = A estatstica de teste ( )min , 25cad ctrU U U= = Para um nvel de significncia 5% = , e 1 15N = e 2 10N = , o quantil crtico da distribuio U de Mann-Whitney-Wilcoxon ( )0.05;15;10 45U = , e como a estatstica de teste 25U = inferior a este valor crtico2, deve rejeitar-se a hiptese nula de que as duas amostras tm a mesma mediana, ou seja, deve concluir-se que a exposio ao xido de crmio afecta o nvel de hemoglobina nas cobaias. Usando a aproximao distribuio normal, temos:

    Valor esperado: 1 2. 15 10 752 2U

    N N = = =

    Varincia: ( ) ( )1 2 1 22 . . 1 15 10 15 10 1 32512 12U

    N N N N + + + += = = Note-se que existem 3 grupos de nmeros de ordem empatados, cada um com 2 empates; so nomeadamente os nmeros de ordem 4.5, 8.5 e 10.5. Assim, a varincia deve ser calculada em funo de um factor de correco devida existncia destes empates. A varincia a considerar deve ser a de seguida calculada, e no a anterior:

    Varincia:

    2 Como atrs se referiu, a rejeio da hiptese nula para valores pequenos da estatstica de teste U .

    ( )( ) ( ) ( )

    3 32 1 2

    2

    3 3 3 3

    2

    .12

    25 25 2 2 2 2 2 215 1012 25 25

    324.625

    i iU

    N N u uN NN N

    = + + =

    =

  • 25

    Note-se que os valores da varincia e da varincia corrigida so muito prximos; s numa situao de existirem muitos nmeros de ordem empatados que estes dois valores diferem apreciavelmente. A estatstica de teste ento:

    2

    25 75 2.7751324.625

    U

    U

    UZ = = =

    Para um nvel de significncia 5% = , e tratando-se de um teste bilateral, o quantil crtico da distribuio normal ( )0,1N 0.05 1.96= Z , pelo que se conclui que se deve rejeitar a hiptese nula. A partir da estatstica 2.7751Z = tambm se pode calcular a probabilidade limite:

    0.0055p value = , sendo a deciso a mesma que anteriormente.

    4 Anlise de varincia A anlise de varincia (ANOVA) uma metodologia estatstica cujo objectivo comparar 2k > amostras ou tratamentos, a fim de verificar se h diferenas significativas entre as mdias dos tratamentos que sejam resultado dos efeitos dos tratamentos. O modelo linear subjacente a uma anlise de varincia :

    ij i ijx = + + em que ijx cada uma das 1,..., ij N= observaes do tratamento i , com 1,...,i k= , a mdia global de todas as N observaes, i o efeito do tratamento i , isto , a parte da variabilidade que pode ser imputada ao facto de cada uma das amostras ter sido objecto de um tratamento diferente, e ij a variabilidade residual ou erro experimental, isto , a parte da variabilidade que no pode ser imputada aos tratamentos. Recordemo-nos que os pressupostos subjacentes ao teste paramtrico t-Student para comparar as mdias de duas amostras, 0 1 2:H = , so:

    i) cada uma das duas amostras provm de uma populao normal; ii) as varincias so homogneas, 2 21 2 = . iii) Os resduos so independentes, com distribuio normal e com varincia

    finita e constante. Se estes pressupostos so violados, deve usar-se um teste no paramtrico. De modo similar, quando se pretendem comparar 2k > mdias amostrais,

    0 1 2: ... kH = = = , pela metodologia de anlise de varincia, os pressupostos so uma extenso dos anteriores:

  • 26

    cada uma das k amostras provm de uma populao normal; as varincias das k amostras so homogneas, 2 2 21 2 ... k = = = e constantes; Os erros ou resduos ij (tal que ij i ijx = + + , sendo i o efeito do tratamento)

    tm distribuio normal; Os erros ou resduos ij tm varincia finita e constante 2 (esta propriedade

    denomina-se por homoscedasticidade); Os erros ou resduos ij so independentes.

    Est provado que a ANOVA uma metodologia estatstica bastante robusta, relativamente a pressupostos das distribuies das populaes e da homogeneidade das varincias das amostras ou tratamentos. Se os tamanhos iN de cada uma das amostras (isto , o nmero de repeties) so iguais para todas as amostras, a ANOVA robusta no que se refere homogeneidade das varincias. Se os tamanhos iN so bastante diferentes, ento a probabilidade de cometer erro do tipo I afasta-se do nvel de significncia , sendo este afastamento dependente da heterogeneidade das varincias: se as varincias maiores esto associadas s amostras com maior nmero de repeties, a probabilidade de erro tipo I ser menor que ; se as maiores varincias esto associadas s amostras de menor dimenso, ento a probabilidade de erro tipo I maior que . A validade da ANOVA apenas ligeiramente afectada pela violao do pressuposto da normalidade (simetria e achatamento), especialmente se iN so grandes. Se as populaes subjacentes so muito achatadas (platicrticas) e iN so pequenos, a potncia da ANOVA diminuir. Se as populaes so pouco achatadas (muito elevadas no centro da distribuio ou leptocrticas) e os tamanhos iN so pequenos, a potncia do teste aumenta. Assim, a validade do teste da ANOVA prevalece vlido a no ser que as violaes dos pressupostos sejam muito graves, situao em que se dever usar um teste de anlise de varincia no paramtrico que no exige tais pressupostos.

    4.1 Teste de Kruskal-Wallis O teste de Kruskal-Wallis ou anlise de varincia pelos nmeros de ordem (ranks) pode ser utilizado nos casos em que se utiliza o teste paramtrico da ANOVA, sendo apenas ligeiramente menos potente. Alm disso, deve ser utilizado nas situaes em que a ANOVA paramtrica no pode ser utilizada, nomeadamente quando as k amostras no provm de populaes normais, ou quando as varincias so muito heterogneas. Quando 2k = , o teste de Kruskal-Wallis idntico ao teste de Mann-Whitney-Wilcoxon.

  • 27

    Sejam k as amostras em anlise, cada um com iN repeties, e 1

    k

    ii

    N N=

    = o nmero total de observaes. Pretende-se verificar se as k amostras (ou tratamentos, como geralmente so designados) tm distribuies idnticas. O teste de hipteses :

    0 :H As distribuies das k amostras so idnticas;

    1 :H As distribuies das k amostras diferem na localizao. (note-se que, semelhana dos demais testes no paramtricos, a formulao do teste de hipteses no deve usar os parmetros populacionais).

    A estatstica de teste :

    ( ) ( )2

    1

    12 3. 1. 1

    ki

    i i

    RH NN N N=

    = ++ onde iR a soma dos nmeros de ordem das iN observaes do grupo ou tratamento i (note-se que a soma de todos os nmeros de ordem de todos os tratamentos deve ser igual a ( ). 1 2N N + ). Se existem nmeros de ordem empatados, a estatstica de teste deve ser corrigida para esta situao. Para tal, calcula-se o factor de correco:

    ( )3

    131

    m

    ii

    u uC

    N N=

    =

    e a estatstica de teste corrigida :

    cHHC

    = onde iu o nmero de empates em cada grupo, e m o nmero de grupos de nmeros de ordem empatados. Note-se que cH ser pouco diferente de H , quando os iu so pequenos comparativamente a N . Para atribuir os nmeros de ordem s observaes, procede-se tal como no teste de Mann-Whitney-Wilcoxon, isto , juntam-se as observaes de todos os tratamentos, e ordenam-se todas as observaes. Quando existem observaes iguais (empates ou ties), o nmero de ordem a atribuir a cada uma das observaes empatadas o nmero de ordem mdio dos nmeros de ordem que essas observaes teriam se no estivessem empatadas.

  • 28

    A estatstica H (ou cH ) avalia em que medida as k amostras ou tratamentos diferem, relativamente aos respectivos nmeros de ordem. Esta ideia pode mais facilmente percebe-se se dermos expresso de clculo de H uma forma equivalente:

    ( ) ( )2112 .. 1k

    i ii

    H n R RN N =

    = + em que iR a mdia dos nmeros de ordem da i.sima amostra e R a mdia de todos os nmeros de ordem (isto , ( )1 2R n= + . Como facilmente se percebe, a estatstica H nula quando todas as mdias dos nmeros de ordem so iguais, e aumenta medida que as mdias dos nmeros de ordem das amostras diferem. Isto , para valores grandes de H deve rejeitar-se a hiptese nula. Assim, a regio de rejeio est toda localizada na cauda superior da distribuio de H . Os valores crticos da distribuio da estatstica de teste H (ou cH ) apresentam-se na tabela em anexo, para 5k tratamentos. Para grandes amostras, ou 5k > tratamentos, a estatstica de teste H (ou cH ) aproxima-se a uma distribuio 2 (qui-quadrado) com 1k graus de liberdade. Como atrs se referiu a propsito da regio de rejeio, esta est localizada na cauda superior da distribuio. Exemplo 1: Considere os seguintes 3 tratamentos, A, B, C, cada um com 7 repeties: Tratamento A 9 13 11 10 9 14 10 Tratamento B 11 13 12 15 8 12 12 Tratamento C 18 13 12 16 10 16 15 Pretende-se averiguar se trs tratamentos conduzem a resultados iguais, isto :

    0 :H Os trs tratamentos tm a mesma distribuio;

    1 :H Os trs tratamentos no tm a mesma distribuio.

  • 29

    No quadro seguinte apresentam-se os nmeros de ordem atribudos a cada uma das observaes, aps ter juntado e ordenado todas as observaes dos trs tratamentos:

    Aps ter atribudo os nmeros de ordem, conveniente separar de novo as observaes por tratamento, a fim de prosseguir com os clculos:

    Tratamento A Tratamento B Tratamento C x Ordem x Ordem x Ordem

    9 2.5 8 1 10 5 9 2.5 11 7.5 12 10.5

    10 5 12 10.5 13 14 10 5 12 10.5 15 17.5 11 7.5 12 10.5 16 19.5 13 14 13 14 16 19.5 14 16 15 17.5 18 21

    1 52.5R = 2 71.5R = 3 107R = A estatstica de teste (sem correco devida aos empates) :

    ( ) ( )2 2 2 2

    1

    12 12 52.5 71.5 1073. 1 3 22 5.6790. 1 21 22 7

    ki

    i i

    RH NN N N=

    + += + = =+ Como existem 7m = grupos de observaes empatadas, respectivamente com 2, 3, 2, 4, 3, 2 e 2 observaes, deve fazer-se a correco da estatstica de teste; o factor de correco :

    x Tratamento Ordem8 B 19 A 2.59 A 2.5

    10 A 510 A 510 C 511 A 7.511 B 7.512 B 10.512 B 10.512 B 10.512 C 10.513 A 1413 B 1413 C 1414 A 1615 B 17.515 C 17.516 C 19.516 C 19.518 C 21

  • 30

    ( ) ( ) ( ) ( ) ( ) ( ) ( ) ( )3 3 3 3 3 3 3 313 3

    2 2 3 3 2 2 4 4 3 3 2 2 2 21 1

    21 210.9857

    m

    ii

    u uC

    N N=

    + + + + + + = = =

    A estatstica de teste corrigida ento:

    5.6790 5.76140.9857c

    HHC

    = = = Para um nvel de significncia 5% = , e para trs tratamentos, cada um com 7 repeties, o valor crtico da distribuio da estatstica H ( )0.05;7;7;7 5.819H = ; como a estatstica de teste ( )0.05;7;7;75.7614 5.819cH H= < = , conclui-se que no h evidncia estatstica para rejeitar a hiptese nula. Procedendo aproximao distribuio 2 , para um nvel de significncia 5% = e para 1 3 1 2k = = = graus de liberdade, o valor crtico ( )20.05;2 5.9915 = ; como

    ( )20.05;25.7614 5.9915cH = < = , conclui-se que no se deve rejeitar a hiptese nula. O

    valor da probabilidade limite 0.0561p value = . Exemplo 2: Num estudo de limnologia mediu-se o pH de oito amostras de gua de cada uma de quatro barragens. Os valores so os seguintes:

    Barragem 1 Barragem 2 Barragem 3 Barragem 4 7.68 7.71 7.74 7.71 7.69 7.73 7.75 7.71 7.70 7.74 7.77 7.74 7.70 7.74 7.78 7.79 7.72 7.78 7.80 7.81 7.73 7.78 7.81 7.85 7.73 7.80 7.84 7.87 7.76 7.81 7.86 7.91

    Pretende-se averiguar se as guas das quatro origens tm o mesmo valor de pH, isto :

    0 :H O valor do pH da gua o mesmo nas 4 barragens;

    1 :H O valor do pH da gua no o mesmo nas 4 barragens. Cada um dos quatro tratamentos (barragens) tem 8iN = (i=1,2,3,4) observaes, sendo 32N = . No quadro seguinte apresentam-se os clculos dos nmeros de ordem de cada observao, aps ter juntado num nico vector todas as 32 observaes :

  • 31

    Aps ter ordenado por ordem crescente todas as observaes, e atribudo os respectivos nmeros de ordem, conveniente dispor novamente as observaes isoladas por tratamento, a fim de facilitar os clculos subsequentes: PH Ordem pH Ordem pH Ordem pH Ordem

    7.68 1 7.71 6 7.74 13.5 7.71 6 7.69 2 7.73 10 7.75 16 7.71 6 7.70 3.5 7.74 13.5 7.77 18 7.74 13.5 7.70 3.5 7.74 13.5 7.78 20 7.79 22 7.72 8 7.78 20 7.80 23.5 7.81 26 7.73 10 7.78 20 7.81 26 7.85 29 7.73 10 7.80 23.5 7.84 28 7.87 31 7.76 17 7.81 26 7.86 30 7.91 32

    1 55R = 2 132.5R = 3 175R = 4 165.5R = A estatstica de teste (sem correco devida aos empates) :

    pH Barragem Nmero de ordem7.68 1 17.69 1 27.70 1 3.57.70 1 3.57.71 2 67.71 4 67.71 4 67.72 1 87.73 1 107.73 1 107.73 2 107.74 2 13.57.74 2 13.57.74 3 13.57.74 4 13.57.75 3 167.76 1 177.77 3 187.78 2 207.78 2 207.78 3 207.79 4 227.80 2 23.57.80 3 23.57.81 2 267.81 3 267.81 4 267.84 3 287.85 4 297.86 3 307.87 4 317.91 4 32

  • 32

    ( ) ( )2 2 2 2 2

    1

    12 12 55 132.5 175 165.53. 1 3 33. 1 32 33 8

    12.6428

    ki

    i i

    RH NN N N=

    + + += + = + =

    Como existem 7m = grupos de observaes empatadas, respectivamente com 2, 3, 3, 4, 3, 2 e 3 observaes, deve fazer-se a correco da estatstica de teste; o factor de correco :

    ( ) ( ) ( ) ( ) ( ) ( ) ( ) ( )3 3 3 3 3 3 3 313 3

    2 2 3 3 3 3 4 4 3 3 2 2 3 31 1

    32 320.9949

    m

    ii

    u uC

    N N=

    + + + + + + = = =

    A estatstica de teste corrigida ento:

    12.6428 12.70760.9949c

    HHC

    = = = Para um nvel de significncia 5% = e para 1 4 1 3k = = = graus de liberdade, e fazendo a aproximao distribuio 2 , o valor crtico ( )20.05;3 7.815 = ; como

    ( )20.05;312.7076 7.815cH = > = , deve rejeitar-se a hiptese nula.

    O valor crtico da distribuio 2 est tabelado (tabela em anexo), ou pode usar-se a funo ( ). ;INV CHI da folha de clculo EXCEL:

    A probabilidade limite pode calcular-se para o valor da estatstica de teste, com a funo

    ( ). ;cDIST CHI H da folha de clculo:

  • 33

    Isto , 0.0053p value = , sendo a concluso a de rejeitar 0H .

    4.2 Teste de Friedman O teste de Friedman um teste no paramtrico que pode ser efectuado para analisar os resultados de um delineamento experimental em blocos casualizados, quando no so cumpridos os pressupostos necessrios anlise de varincia paramtrica, nomeadamente no que se refere normalidade e homoscedasticidade. Se os pressupostos de aplicabilidade da anlise de varincia paramtrica so cumpridos, a utilizao do teste de Friedman menos potente que o teste paramtrico correspondente; assim, se 3k = , a potncia do teste de Friedman de 72% comparativamente potncia do teste paramtrico; para um grande nmero de tratamentos, esta percentagem pode ir at cerca de 95%. Contudo, o inverso tambm vlido. Assim, se os pressupostos no se verificam, deve usar-se o teste de Friedman. O teste de hiptese, , tal como no teste de Kruskal-Wallis:

    0 :H As distribuies das k amostras so idnticas;

    1 :H As distribuies das k amostras diferem na localizao. Seja um delineamento em blocos casualizados, com k tratamentos e b blocos. Dentro de cada um dos b blocos, as observaes so ordenadas por ordem crescente, e atribudos nmeros de ordem. De seguida, somam-se os nmeros de ordem (atribudos por bloco) dentro de cada um dos tratamentos ( iR ). A estatstica de teste (aqui designada por 2 ) calculada pela expresso:

    ( ) ( )2 2112 3. . 1

    . . 1

    k

    ii

    R b kb k k =

    = ++ Para 2k = , o teste rF de Friedman equivalente ao teste de Wilcoxon. Se 2b = , deve usar-se o coeficiente de correlao no paramtrico de Spearman..

  • 34

    A expresso anterior pode escrever-se como:

    ( ) ( )2

    2

    1

    12. . 1

    k

    ii

    b R Rb k k =

    = + em que iR a mdia dos nmeros de ordem do i.simo tratamento e R a mdia global dos nmeros de ordem. A estatstica 2 vale zero quando todos os tratamentos tm a mesma mdia dos nmeros de ordem, e aumenta medida que as mdias dos nmeros de ordem dos diferentes tratamentos diferem. Os valores crticos da distribuio da estatstica 2 encontram-se tabelados (tabela em anexo) para at 6 tratamentos e 10 blocos. Para valores de k e de b superiores, a estatstica 2 deve ser aproximada pela distribuio 2 , com 1k graus de liberdade. Os programas SPSS e MINITAB consideram esta estatstica de teste. Porm, est demostrado que esta aproximao distribuio 2 demasiado conservadora, isto , com muita propenso para causar erro do tipo II, ou seja, pouco potente. A aproximao:

    ( )( )2

    2

    1 .. 1r

    bF

    b k =

    com distribuio F de Fisher, com ( )1k e ( )( )1 1k b graus de liberdade geralmente superior. Contudo, a maioria dos programas estatsticos continua a usar a aproximao distribuio 2 . Exemplo: Num ensaio de alimentao de porcos, pretende-se avaliar o efeito de 4 dietas alimentares. Cada animal em teste mantido isolado numa jaula. As jaulas so agrupadas em grupos de 4, tendo-se constitudo 5 grupos (blocos) de 4 jaulas. Cada bloco ou grupo de jaulas so mantidas em condies que podem ser consideradas idnticas em termos ambientais (luz, temperatura, rudo, etc). Em cada um dos blocos, atribudo de modo completamente aleatrio uma das quatro dietas a cada um dos animais do bloco de jaulas, de modo que em cada bloco de jaulas h um animal com cada uma das quatro dietas. A varivel resposta o ganho de peso de cada um dos animais (unidade experimental): Dieta 1 Dieta 2 Dieta 3 Dieta 4 Bloco 1 7.0 5.3 4.9 8.8 Bloco 2 9.9 5.7 7.6 8.9 Bloco 3 8.5 4.7 5.5 8.1 Bloco 4 5.1 3.5 2.8 3.3 Bloco 5 10.3 7.7 8.4 9.1

  • 35

    O teste de hipteses :

    0 :H Os ganhos de peso so iguais para as quatro dietas;

    1 :H Os ganhos de peso no so iguais para as quatro dietas. Tal como atrs exposto, ordenam-se as observaes e so atribudos nmeros de ordem dentro de cada bloco. Na tabela seguinte, apresentam-se, entre parntesis, os nmeros de ordem atribudos a cada uma das observaes, dentro de cada um dos blocos. De seguida, somam-se os nmeros de ordem por tratamento ou dieta ( iR ): Dieta 1 Dieta 2 Dieta 3 Dieta 4 Bloco 1 Nmero de ordem

    7.0 (3)

    5.3 (2)

    4.9 (1)

    8.8 (4)

    Bloco 2 Nmero de ordem

    9.9 (4)

    5.7 (1)

    7.6 (2)

    8.9 (3)

    Bloco 3 Nmero de ordem

    8.5 (4)

    4.7 (1)

    5.5 (2)

    8.1 (3)

    Bloco 4 Nmero de ordem

    5.1 (4)

    3.5 (3)

    2.8 (1)

    3.3 (2)

    Bloco 5 Nmero de ordem

    10.3 (4)

    7.7 (1)

    8.4 (2)

    9.1 (3)

    iR 1 19R = 2 8R = 3 8R = 4 15R = Sendo 5b = blocos e 4k = , tratamentos, 20N = , o clculo da estatstica de teste de Friedman :

    ( ) ( ) ( )2 2 2 2 2 2112 123. . 1 19 8 8 15 3 5 5 10.68. . 1 5 4 5k

    ii

    R b kb k k =

    = + = + + + =+ Para um nvel de significncia 5% = , o valor crtico da distribuio 2

    ( )20.05;3 7.8147 = ; como ( )2 20.05;310.68 7.8147 = > = , deve rejeitar-se a hiptese nula.

    Chegar-se- mesma concluso de rejeio da hiptese nula se calcularmos a probabilidade limite: 0.0136p value = . Caso se pretenda usar a aproximao distribuio F , calcula-se a estatstica:

    ( )( )

    2

    2

    1 . 4 10.68 9.8889. 1 5 3 10.68r

    bF

    b k = = =

    Como ( )0.05;3;129.8889 3.49rF = > =F (o valor crtico da distribuio F pode calcular-se com a funo ( )0.05;3;12INVF da folha de clculo), rejeita-se a hiptese nula. A probabilidade limite para a estatstica 9.8889rF = 0.0254p value = (pode calcular-se com a funo ( )9.8889;3;12DISTF da folha de clculo).

  • 36

    5 Coeficiente de correlao de Spearman O coeficiente de correlao linear r entre as variveis X e Y mede o grau de associao ou de relao linear mtua entre as variveis X e Y, e calculado pela expresso:

    1 1

    1

    2 2

    2 21 1

    1 1

    N N

    i iNi i

    i ii

    N N

    i iN Ni i

    i ii i

    x yx y

    Nr

    x yx y

    N N

    = ==

    = == =

    =

    O coeficiente de correlao adimensional e situa-se no intervalo 1 1r . A validade estatstica do coeficiente de correlao linear pressupe que as duas variveis so aleatrias e provm de uma populao normal bivariada. Caso este pressuposto seja gravemente violado, aconselhado quantificar o grau de associao ou correlao entre as variveis X e Y usando um coeficiente no paramtrico, baseado nos nmeros de ordem (rank) dos pares (X,Y) das observaes em cada uma das variveis. O coeficiente de correlao de Spearman, ou rank correlacion calculado pela seguinte expresso:

    2

    13

    61

    N

    ii

    s

    dr

    N N=

    =

    onde id a diferena entre os nmeros de ordem das observaes ix e iy , isto ,

    i i id n ordem de x n ordem de y= . O coeficiente de correlao sr adimensional e situa-se no intervalo 1 1r . Se existem observaes empatadas, o valor do coeficiente de correlao corrigido :

    ( )3

    2

    1

    3 3

    6

    2 26 6

    N

    i x yi

    s c

    x y

    N N d u ur

    N N N Nu u

    =

    =

    em que:

  • 37

    ( )31

    12

    i i

    m

    x xi

    x

    u uu =

    = a soma do nmero de observaes com nmeros de ordem das

    observaes X empatadas;

    ( )31

    12

    i i

    m

    y yi

    x

    u uy =

    = a soma do nmero de observaes com nmeros de ordem das

    observaes Y empatadas. Existem tabelas de significncia do coeficiente de correlao de Spearman (em anexo). Contudo, a significncia do coeficiente de regresso, isto , o teste de hipteses:

    0 :H X e Y no esto correlacionadas;

    1 :H X e Y esto correlacionadas. equivalente a: 0 1: 0 : 0s sH r H r= pode mais rigorosamente ser decidido pela aproximao da distribuio do coeficiente

    sr funo de distribuio normal, pela expresso:

    ( )3 1ln ~ 0,12 1

    N rZr

    + = N Exemplo 1: As variveis X e Y so respectivamente as classificaes (em percentagem) em Matemtica e em Biologia de uma turma de 10 alunos. Para calcular o coeficiente sr , foram atribudos os nmeros de ordem a cada valor ix e iy :

    Aluno Mat. ( ix ) Ordem ix Biol. ( iy ) Ordem iy id 2id 1 57 3 83 7 -4 16 2 45 1 37 1 0 0 3 72 7 41 2 5 25 4 78 8 84 8 0 0 5 53 2 56 3 -1 1 6 63 5 85 9 -4 16 7 86 9 77 6 3 9 8 98 10 87 10 0 0 9 59 4 70 5 -1 1 10 71 6 59 4 2 4

    Como se verifica, em nenhuma das variveis existem empates. Aplicando a expresso de clculo, temos:

  • 38

    2

    13 3

    66 721 1 0.5636

    10 10

    N

    ii

    s

    dr

    N N=

    = = =

    Consultando a tabela de significncia dos coeficientes de correlao de Spearman em anexo, para uma amostra de 10N = observaes e para um nvel de significncia

    5% = , sr significativo, isto , existe correlao ou associao entre X e Y, para valores 0.648sr > . Assim, devemos concluir que no existe, no exemplo apresentado, correlao significativa entre as classificaes obtidas em Matemtica e em Biologia. Procedendo aproximao distribuio normal, tem-se:

    3 1 7 1 0.5636ln ln 1.68822 1 2 1 0.5636

    N rZr

    + + = = = que conduz probabilidade limite 0.0914p value = . Exemplo 2: Em estudos de ornitologia considera-se haver uma associao entre a envergadura das asas e o comprimento da cauda das aves. Os seguintes dados referem-se envergadura de asas (X, em cm) e o comprimento da cauda (Y, em cm) de uma espcie de tordos: X 10.4 10.8 11.1 10.2 10.3 10.2 10.7 10.5 10.8 11.2 10.6 11.4 Y 7.4 7.6 7.9 7.2 7.4 7.1 7.4 7.2 7.8 7.7 7.8 8.3 Em ambas as variveis existem observaes empatadas; na varivel X existem 2 grupos, cada um com 2 observaes; na varivel Y existem 3 grupos, havendo dois grupos com 2 observaes e um com 3 observaes. Para calcular o coeficiente sr , foram atribudos os nmeros de ordem a cada valor ix e iy : Tordo Asa ( ix ) Ordem ix Cauda ( iy ) Ordem iy id 2id 1 10.4 4 7.4 5 -1 1 2 10.8 8.5 7.6 7 1.5 2.25 3 11.1 10 7.9 11 -1 1 4 10.2 1.5 7.2 2.5 -1 1 5 10.3 3 7.4 5 -2 4 6 10.2 1.5 7.1 1 0.5 0.25 7 10.7 7 7.4 5 2 4 8 10.5 5 7.2 2.5 2.5 6.25 9 10.8 8.5 7.8 9.5 -1 1 10 11.2 11 7.7 8 3 9 11 10.6 6 7.8 9.5 -3.5 12.25 12 11.4 12 8.3 12 0 0

  • 39

    Como existem observaes empatadas, vamos em primeiro lugar calcular:

    ( ) ( ) ( )3 3 31 2 2 2 2 112 12

    i i

    m

    x xi

    x

    u uu =

    + = = =

    ( ) ( ) ( ) ( )3 3 3 31 2 2 3 3 2 2 312 12

    i i

    m

    y yi

    x

    u uy =

    + + = = =

    O coeficiente de correlao corrigido devido a empates :

    ( )3 3

    2

    1

    3 3 3 3

    12 12 42 1 36 612 12 12 122 2 2 1 2 3

    6 6 6 6

    0.8511

    N

    i x yi

    s c

    x y

    N N d u ur

    N N N Nu u

    =

    = =

    =

    Este valor significativo, pois ( ) ( )( )0.05;120.8511 0.587s scr r= > = (valor crtico tabelado); ou, pela aproximao normal, chaga-se mesma concluso:

    3 1 9 1 0.8511ln ln 3.78042 1 2 1 0.8511

    N rZr

    + + = = = sendo 0.0002p value = .

  • 40

    Bibliografia Daniel, Wayne W. (1995) Bioestadstica. Base para el anlisis de las ciencias de la

    salud. Editorial Limusa, Mxico. Devore, Jay L. (2000) Probability and Statistics for engineering and the sciences.

    Duxbury, Australia. Guimares, Rui Campos; Cabral, Jos A. Sarsfield (1997) Estatstica. McGraw-Hill,

    Portugal. Hicks, Charles R. e Turner Jr., Kenneth V. (1999) Fundamental concepts in the design

    of experiments. Fifth edition. Oxford University Press, USA. Johnson, Robert e Kuby, Patricia (1999) Elementary statistics. Eighth edition. Duxbury,

    USA. McClave, James T. e Sincich, Terry (2000) Statistics. Eighth Edition. Prentice Hall,

    USA. Montgomery, Douglas C. (2001) Design and analysis of experiments. 5.th edition.

    John Wiley and Sons, USA. Montgomery, Douglas C. e Runger, George C. (1999) Applied statistics and probability

    for engineers. Second edition. John Wiley and Sons, USA. Snedecor, George W. e Cochran, William G. (1980) Statistical methods. Seventh

    edition. Iowa State University Press, USA. Walpone, Ronald E. (1999) Probabilidad y Estadstica para ingenieros. Sexta edicin.

    Prentice Hall, Mxico. Zar, Jerrold H. (1999) Biostatistical analysis. Fourth edition. Prentice Hall, USA.