análise de dados categorizados métodos não...
TRANSCRIPT
1
Métodos Não-Paramétricos
Isabel Fraga AlvesDepartamento de Estatística e Investigação
Operacional
Isabel Fraga Alves FCUL/ DEIO - Estatística Aplicada: Métodos Não-Paramétricos 1ºAno/2ºSem (2009/2010) 2
Programa
Introdução
Análise de Dados Categorizados
• Teste do Qui-Quadrado• Teste de Ajustamento
• Tabelas de Contingência• Teste de Independência
• Teste de Homogeneidade
Estatística Não-Paramétrica
• Introdução: O problema geral da localização relativo a 2 amostras
• Amostras emparelhadas• Teste dos Sinais (pequenas e grandes amostras)
• Teste de Wilcoxon (pequenas e grandes amostras)
• Uso das “Ordens” para Comparar Populações: Amostras Independentes• 2 Populações: O Teste de Mann-Whitney (pequenas e grandes amostras)
• Mais de 2 Populações:
• O Teste de Kruskal-Wallis (pequenas e grandes amostras)
• Teste de Friedman (pequenas e grandes amostras)
• Uso das “Ordens” para Testar Independência e Aleatoriedade• Teste de Spearman (pequenas e grandes amostras)
• Teste dos “Runs” para Aleatoriedade (pequenas e grandes amostras)
Isabel Fraga Alves FCUL/ DEIO - Estatística Aplicada: Métodos Não-Paramétricos 1ºAno/2ºSem (2009/2010) 3
Bibliografia
CONOVER, W. J. (1999) - Practical Nonparametric Statistics, 3rd ed. Wiley.
DANIEL, W. W. (1990) - Applied Nonparametric Statistics, 2nd ed. PWS-Kent.
Graça Martins, M. E. (2005) – Introdução à Probabilidade e à Estatística – Com complementos de Excel, SPE.
DeGroot, Morris H. - Probability and statistics (1986 ) - 2nd ed Massachusetts Addison-Wesley.
Pestana e Velosa (2006) - Introdução à Probabilidade e à Estatística, I, Fundação Gulbenkian. 2ª ed.
SIEGEL, S. and Castellan, N. Y. (1988) - Nonparametric Statistics for the Behavioral Sciences. McGraw-Hill.
* Wackerly, D., Mendenhall, W. and Scheaffer, L. (2007) –Mathematical Statistics with Applications. Duxbury Press; 7th ed.
* Manual Recomendado para consulta das Tabelas ao longo dos slides.
Isabel Fraga Alves FCUL/ DEIO - Estatística Aplicada: Métodos Não-Paramétricos 1ºAno/2ºSem (2009/2010) 4
Introdução
O que é a Estatística ?
Estudo da Incerteza
Como a quantificar? Que podemos fazer com ela?
As experiências repetidas
sob o que pensamos serem as condições
não resultam sempre da mesma forma…!
Isabel Fraga Alves FCUL/ DEIO - Estatística Aplicada: Métodos Não-Paramétricos 1ºAno/2ºSem (2009/2010) 5
Tipos de Experiências
Causais ou Determinísticas
Ex: Deixar cair uma pedra no rio
Aleatória ou Estocástica
Ex: O Tempo que vou Esperar pelo Autocarro
Como posso “prever” o resultado?
Com Estatística quantificamos e medimos o “imprevisível”!
Isabel Fraga Alves FCUL/ DEIO - Estatística Aplicada: Métodos Não-Paramétricos 1ºAno/2ºSem (2009/2010) 6
Estatística: produz afirmações numéricas relativamente a situações sujeitas a INCERTEZA.
Exemplos:
• Quem irá ganhar as próximas eleições?
• Estarão os clientes da PT satisfeitos com o serviço
prestado?
• Qual das duas pastas dentífricas é mais eficiente que a
outra para prevenir as cáries?
• Qual a previsão da quantidade de precipitação para o
próximo inverno?
• Após a monitorização de pacientes com doenças
cardíacas, como decidir acerca dos factores que
afectam a sua saúde ?
2
Isabel Fraga Alves FCUL/ DEIO - Estatística Aplicada: Métodos Não-Paramétricos 1ºAno/2ºSem (2009/2010) 7
Como e Que Respostas ?
Para responder a estas perguntas frequentemente usamos modelos probabilísticos, que são modelos matemáticos para lidar com incerteza.
São recolhidos Dados para explorar uma População, o objectivo de nosso estudo.
Quando é recolhida uma amostra grande é necessário produzir resumos das informações nela contidas. Existem ferramentas gráficas e numéricas que são normalmente utilizadas pelos estatísticos
•AMOSTRA
•Estatística Descritiva
Inferência Estatística - faz generalizações válidas para a População, a partir de Amostras.
(enquanto na Previsão - é apresentada uma afirmação sobre o Futuro.)
Dados - observações de determinadas quantidades de interesse.
Variáveis - incerteza acerca dos seus verdadeiros valores.
Isabel Fraga Alves FCUL/ DEIO - Estatística Aplicada: Métodos Não-Paramétricos 1ºAno/2ºSem (2009/2010) 8
Tipos de Variáveis
VARIÁVEL
QUALITATIVAQUANTITATIVA
DISCRETANOMINALORDINAL
CONTÍNUA
Isabel Fraga Alves FCUL/ DEIO - Estatística Aplicada: Métodos Não-Paramétricos 1ºAno/2ºSem (2009/2010) 9
Tipos de Variáveis (cont.)
QUANTITATIVA vs. QUALITATIVA : variáveis com / sem representação numérica e ordenação natural única (por exemplo, a pressão arterial versus religião).
DISCRETA vs. CONTÍNUA: variáveis quantitativas com / sem lacunas conceptuais entre os seus valores (por exemplo, número de crianças numa família versus pressão arterial).
ORDINAL vs. NOMINAL: variáveis qualitativas com / sem ordenação (eventualmente não única) dos seus valores (a satisfação do cliente versus religião).
Isabel Fraga Alves FCUL/ DEIO - Estatística Aplicada: Métodos Não-Paramétricos 1ºAno/2ºSem (2009/2010) 10
De modo geral,
as variáveis qualitativas estão mais ligadas aos
modelos não-paramétricos
enquanto que
as variáveis quantitativas aos modelos
paramétricos.
Tipos de Variáveis (cont.)
Isabel Fraga Alves FCUL/ DEIO - Estatística Aplicada: Métodos Não-Paramétricos 1ºAno/2ºSem (2009/2010) 11
As variáveis qualitativas podem ainda ser classificadas de acordo com:
VARIÁVEL CATEGORIZADA – (Categórica, Nominal ou de Classe)• nomes das pessoas ou coisas; as letras do alfabeto; o sexo, masculino ou feminino,
macho ou fêmea; o estado civil, solteiro, casado, divorciado, viúvo; o curso, primário, secundário, colegial, universitário, pós-graduação, etc.
Representa o nível mais simples e mais elementar de medição. Os indivíduos de uma população ou amostra são medidos mediante uma certa característica que pode ser categoria, nome ou classe.
Características binárias ou dicotomizadas: • presente ou ausente, 1 ou 0, positivo ou negativo, vivo ou morto, sim ou não, benigno
ou maligno, etc.
Essas características são mutuamente exclusivas, isto é, cada indivíduo só pode se enquadrar em um único nome, categoria ou classe, e também são exaustivas, pois devem atingir todos os indivíduos da população ou amostra em estudo, sem excepção.
A variável categórica é qualitativa e não se presta aos cálculos aritméticos comuns: soma, subtracção, multiplicação e divisão. Apresenta as seguintes propriedades de equivalência (=): reflexiva (x=x); simétrica
(x=y então y=x); transitiva (x=y e y=z então x=z).
Tipos de Variáveis (cont.)
Isabel Fraga Alves FCUL/ DEIO - Estatística Aplicada: Métodos Não-Paramétricos 1ºAno/2ºSem (2009/2010) 12
VARIÁVEL ORDINAL –
• no alfabeto, A,B,C,D ou D,C,B,A; em números de ordem, 1,2,3 ou 3,2,1; no sexo, F,M ou M,F; no curso, primário- secundário-superior ou superior-secundário-primário; em uma quantificação, leve-moderado-intenso ou intenso-moderado-leve; em cruzes, +,++,+++,++++ ou ++++,+++,++,+; na ordenação de dados numéricos, 11,18,23,29,35 ou 35,29,23,18,11; etc.
Os indivíduos de uma população ou amostra são classificados de acordo com as diversas categorias de uma determinada característica e em seguida são ordenados. Esta ordenação pode ser crescente oudecrescente, ou igualmente, ascendente ou descendente.
A variável ordinal também é qualitativa.
• Sabe-se que um indivíduo ou coisa é maior ou menor do que outro, porém não se sabe o quanto é maior nem o quanto é menor. São comuns as expressões comparativas: maior, menor; superior, inferior; primeiro, último; mais intenso, menos intenso; mais alto, mais baixo; preferível; etc.
Na escala ordinal utilizam-se as comparações maior do que (>) e menor do que (<). As operações aritméticas comuns (adição, subtracção, multiplicação e divisão) não são aplicáveis.
Na ordenação, a relação maior do que (>) apresenta a propriedade transitiva (se x>y e y>z então x>z).
Tipos de Variáveis (cont.)
3
Isabel Fraga Alves FCUL/ DEIO - Estatística Aplicada: Métodos Não-Paramétricos 1ºAno/2ºSem (2009/2010) 13
VARIÁVEL INTERVALAR –
• os valores de idade, altura, peso, pressão arterial, frequência cardíaca, exames laboratoriais, medidas diversas, etc.
A escala intervalar é verdadeiramente quantitativa. A medição é feita directamente em números reais, obtidos mediante a comparação com um determinado valor fixo, denominado unidade. O nome intervalar está ligado aos intervalos entre as categorias da variável e aqui se sabe exactamente o quanto uma categoria é menor ou maior que outra, ou ainda se há igualdade entre elas.
As operações aritméticas comuns (soma, subtracção, multiplicação e divisão) são aplicáveis.
A variável intervalar reúne todas as propriedades dos dois tipos anteriores de mensuração: as de equivalência (=), reflexiva (x=x), simétrica (x=y então y=x) e transitiva (x=y e y=z então x=z) e a de ordenação (>), transitiva (x>y e y>z então x>z).
Tipos de Variáveis (cont.)
ESTATÍSTICA NÃO
PARAMÉTRICA
Extremamente interessante para
análises de dados qualitativos.
Isabel Fraga Alves FCUL/ DEIO - Estatística Aplicada: Métodos Não-Paramétricos 1ºAno/2ºSem (2009/2010) 15
MEDIDAS DE TENDÊNCIA CENTRAL - Localização
Média
Mediana
Moda
Média Amostral - é a soma de todos os valores de uma amostra dividida pelo nº de elementos da amostra (dimensão).
É aplicada em variáveis quantitativas.
A média amostral é a contrapartida empírica do Valor Médio da População ou da Variável, m.
1
1 n
i
i
X Xn
1 2 ( . .) - , , , namostra aleatoria a a X X X
1 2 - , , , namostra observada x x x
1
1 n
i
i
x xn
Isabel Fraga Alves FCUL/ DEIO - Estatística Aplicada: Métodos Não-Paramétricos 1ºAno/2ºSem (2009/2010) 16
Mediana Amostral - É o valor da amostra que ocupa a posição central, quando todos os valores estão ordenados em ordem crescente ou decrescente.
Se n for ímpar, a mediana ( Med ) será o valor que ocupa a posição central na amostra ordenada. Esta posição pode ser calculada por (n+1)/2.
Se n for par, a Med será calculada pela média aritmética dos dois valores centrais na amostra ordenada da amostra. A posição de cada um desses dois valores centrais pode ser calculada por n/2 e n/2+1.
A Mediana é muito utilizada nos cálculos não-paramétricos.
MEDIDAS DE TENDÊNCIA CENTRAL - Localização
1:
2
: 1:2 2
1
2
nn
n nn n
x n impar
Med
x x n par
1: 2: :
ordenada -
n n n n
amostra observada
x x x
Isabel Fraga Alves FCUL/ DEIO - Estatística Aplicada: Métodos Não-Paramétricos 1ºAno/2ºSem (2009/2010) 17
MEDIDAS DE TENDÊNCIA CENTRAL - Localização
Moda - É o valor da variável que corresponde à frequência máxima.
A moda pode ter um ou mais valores, unimodal, bimodal,...,multimodal, conforme existam uma, duas, ou mais frequências iguais, dos valores da variável.
Dados:
25, 22, 28, 32, 35, 55, 83, 83, 98, 99, 43, 46, 51 (n=13)
média
mediana
moda
53.9x
1 2
-
( , , , )
(25, 22, 28, 32, 35, 55, 83, 83, 98, 99, 43, 46, 51 )
n
amostra observada
x x x
1: 2: :
ordenada -
(22, 25, 28, 32, 35, 43, 46, 51, 55, 83, 83, 98, 99)
n n n n
amostra observada
x x x
46Med
83Mo
Isabel Fraga Alves FCUL/ DEIO - Estatística Aplicada: Métodos Não-Paramétricos 1ºAno/2ºSem (2009/2010) 18
Localização: Mediana vs. Média
Razões para usar a mediana:
• É menos influenciada por valores extremos
• Se as distribuições são simétricas, a média e a
mediana populacional coincidem
Média vs. Mediana• 5 6 6 7 7 8 10
• Média = 7 Med = 7
• 5 6 6 7 7 8 50
• Média = 8.43 Med = 7
4
Isabel Fraga Alves FCUL/ DEIO - Estatística Aplicada: Métodos Não-Paramétricos 1ºAno/2ºSem (2009/2010) 19
Distinguir
• Metodologias Paramétricas
&
• Metodologias Não-Paramétricas
Explicar uma
• Variedade de Testes Não-Paramétricos
Resolver
• Problemas de Testes de Hipóteses usando Testes Não-Paramétricos
Objectivos do Curso
Isabel Fraga Alves FCUL/ DEIO - Estatística Aplicada: Métodos Não-Paramétricos 1ºAno/2ºSem (2009/2010) 20
Quadro Geral
Até este ponto, todos os testes que têm utilizado estão
sujeitos a suposições sobre a distribuição subjacente aos
dados. Especificamente, é assumido que os dados são normais
para usar o teste-t, por exemplo.
Poder-se-ia usar a teoria de grandes amostras e o Teorema
do Limite Central, mas isso ainda apenas se verifica
Assintoticamente
O que é que acontece se não estamos dispostos ou não é sensato
fazer as suposições de normalidade sobre a distribuição subjacente
e temos uma amostra de dimensão pequena ?
n
TESTE DE HIPÓTESES
Trata-se de uma técnica para se
fazer a inferência estatística sobre
uma população a partir de uma
amostra
Isabel Fraga Alves FCUL/ DEIO - Estatística Aplicada: Métodos Não-Paramétricos 1ºAno/2ºSem (2009/2010) 22
E muitos mais…!
Testes de Hipóteses - Metodologias
Teste de
Hipóteses -
metodologias
Não-ParamétricasParamétricas
Teste - z
Teste
Kruskal-Wallis
Teste Wilcoxon
Teste - t ANOVA
etc
etc
Amostra emparelhada
Teste-t
emparelhado
Testes de Hipóteses - Metodologias
Isabel Fraga Alves FCUL/ DEIO - Estatística Aplicada: Métodos Não-Paramétricos 1ºAno/2ºSem (2009/2010) 24
Estatística Não-Paramétrica
Muitos dos testes estatísticos não-paramétricos
respondem à mesma série de questões tal como os
testes paramétricos.
• Com testes não-paramétricos as hipóteses podem ser
flexibilizadas consideravelmente.
• Por conseguinte, são utilizados métodos não-paramétricos
para situações que violem os pressupostos de procedimentos
paramétricos.
5
Isabel Fraga Alves FCUL/ DEIO - Estatística Aplicada: Métodos Não-Paramétricos 1ºAno/2ºSem (2009/2010) 25
Testes Paramétricos
Testes Paramétricos• Incidem explicitamente sobre um ou mais parâmetros de uma
ou mais populações;
• A distribuição de probabilidades da estatística de teste pressupõe
uma forma particular das distribuições populacionais;
• As variâncias são homogéneas;
• Os erros ou resíduos são aleatórios e independentes e têm
distribuição normal com variância finita e constante.
Isabel Fraga Alves FCUL/ DEIO - Estatística Aplicada: Métodos Não-Paramétricos 1ºAno/2ºSem (2009/2010) 26
Testes Não-Paramétricos
Testes Não Paramétricos
• Requerem menos pressupostos em relação à
população;
• Não exigem normalidade;
• Não se baseiam em parâmetros da distribuição (logo, não
necessitam variâncias homogéneas);
• Ligeiramente menos eficientes que os testes
paramétricos;
• Baseiam-se nas estatísticas ordinais (e não nos
valores das observações);
• Mais fáceis de aplicar.
Isabel Fraga Alves FCUL/ DEIO - Estatística Aplicada: Métodos Não-Paramétricos 1ºAno/2ºSem (2009/2010) 27
Testes Não-Paramétricos
Poucos Pressupostos Relativos à População
Facilidade de implementação
Maior Perceptibilidade
Aplicável em Situações Não Abrangidas Pela Normal
Mais Eficientes quando as Populações não têm Distribuição Normal
Os resultados podem ser tão exactos como nos procedimentos paramétricos
Vantagens
As hipóteses testadas por testes não-paramétricos tendem a ser
menos específicas;
Não têm Parâmetros, Dificultando Comparações Quantitativas
entre Populações
Escasso Aproveitamento de Informação da Amostra
Pode ser de Difícil Cálculo à mão para Grandes Amostras
Tabelas não amplamente disponíveis
Desvantagens
Isabel Fraga Alves FCUL/ DEIO - Estatística Aplicada: Métodos Não-Paramétricos 1ºAno/2ºSem (2009/2010) 28
• Não incorpora as suposições restritivas, características dos
testes paramétricos.
• Os dados não precisam estar normalmente distribuídos
(Distribution-Free). É necessário, apenas, que eles sejam
ordenáveis.
• Muitas vezes, são baseados nas ordens das observações e não
nos seus valores, como no caso paramétrico.
• Podem ser aplicados para variáveis quantitativas e qualitativas.
• Menos sensíveis aos erros de medida e rápidos para pequenas
amostras.
Estatística Não-Paramétrica - Distribuição Livre
TESTE DE HIPÓTESES
Trata-se de uma técnica para se
fazer a inferência estatística sobre
uma população a partir de uma
amostra
Isabel Fraga Alves FCUL/ DEIO - Estatística Aplicada: Métodos Não-Paramétricos 1ºAno/2ºSem (2009/2010) 30
PRINCIPAIS CONCEITOS
HIPÓTESE ESTATÍSTICA• Trata-se de uma suposição quanto ao valor de um parâmetro
populacional, ou quanto à natureza da distribuição de probabilidade de uma variável populacional.
TESTE DE HIPÓTESES• É uma regra de decisão para rejeitar ou não rejeitar uma
hipótese estatística com base nos elementos amostrais
6
Isabel Fraga Alves FCUL/ DEIO - Estatística Aplicada: Métodos Não-Paramétricos 1ºAno/2ºSem (2009/2010) 31
TEORIA POPPERIANA - Falseabilidade (ou refutabilidade)
“Science can't prove anything. It can only disprove things.”
A ciência não pode provar nada. Só pode refutar coisas.
• Considere o exemplo do famoso Cisne Negro (black swan):
• Um cientista gasta sua vida observando cisnes. Observa que todos
os cisnes que jamais viu são brancos. Com base nesta evidência
empírica, ele postula uma teoria de que “todos os cisnes são
brancos”.
• Um dia viaja para a Austrália e vê - UPS! - um Cisne Negro.
• A sua teoria é refutada. Mas isso não significa que não era
ciência quando a estabeleceu. Agora, pode estabelecer uma teoria
nova: “Os cisnes podem ser brancos ou pretos”.
Isabel Fraga Alves FCUL/ DEIO - Estatística Aplicada: Métodos Não-Paramétricos 1ºAno/2ºSem (2009/2010) 32
Karl Popper(1902- 1994) - UM FILÓSOFO INOVADOR
Sir Karl Raimund Popper foi filósofo da ciência austríaco naturalizado britânico e um professor da London School of Economics.
Formou-se em matemática, física e filosofia da ciência britânica.
Uma das pessoas mais influentes da filosofia da Ciência durante o século XX.
POPPER E A REFUTAÇÃO
• Uma hipótese só é científica se puder ser colocada em questão (“refutada”).
• Isto significa que deve ser sempre possível realizar uma observação que prove que a hipótese é falsa
• Uma teoria científica não poderá em nenhuma circunstância ser declarada “verdadeira”
A teoria científica mais não é do que uma hipótese; uma conjectura, que um dia será refutada e substituída por uma outra.
“ What really makes science grow is new ideas, including false ideas.” –Karl Popper
SÓ APRENDEMOS QUANDO ERRAMOS.
OS ESTATÍSTICOS NÃO PERGUNTAM QUAL É A PROBABILIDADE DE ESTAREM CERTOS,
MAS A PROBABILIDADE DE ESTAREM ERRADOS.
• Para fazerem isso estabelecem uma hipótese nula.
Isabel Fraga Alves FCUL/ DEIO - Estatística Aplicada: Métodos Não-Paramétricos 1ºAno/2ºSem (2009/2010) 33
Data Analysis and Research for Sport and Exercise Science: A Student GuideBy Craig Williams, Chris Wragg, Routledge ed., 2003. pag 6
Isabel Fraga Alves FCUL/ DEIO - Estatística Aplicada: Métodos Não-Paramétricos 1ºAno/2ºSem (2009/2010) 34
PRINCIPAIS CONCEITOS
TIPOS DE HIPÓTESES
• H0, hipótese nula, a hipótese estatística a ser testada
• H1, hipótese alternativa
A HIPÓTESE NULA É UMA AFIRMAÇÃO DE COMO O MUNDO
DEVERIA SER, SE NOSSA SUPOSIÇÃO ESTIVESSE ERRADA.
• Ex: A hipótese nula expressa uma igualdade, enquanto a
hipótese alternativa é dada por uma desigualdade.
0 1: 1.5 . : 1.5H m vs H mm m
Isabel Fraga Alves FCUL/ DEIO - Estatística Aplicada: Métodos Não-Paramétricos 1ºAno/2ºSem (2009/2010) 35
Testes de Hipóteses – Erros
EXISTEM DOIS TIPOS DE ERRO:
• Erro tipo 1 - rejeição de uma hipótese nula verdadeira
• Erro tipo II – não rejeição de uma hipótese nula falsa
• “não rejeiçao ” “não rejeição”
• A probabilidade do erro tipo I é denominada
“nível de significância” do teste.
Isabel Fraga Alves FCUL/ DEIO - Estatística Aplicada: Métodos Não-Paramétricos 1ºAno/2ºSem (2009/2010) 36
Realidade
Decisão
H0 verdadeira H0 falsa
Não rejeitar
H0
Decisão
correctaErro tipo II
Rejeitar
H0
Erro tipo I
Decisão
correcta
= P( erro tipo I ) = P(rejeitar H0| H0 verdadeira) = P(ET RR | H0 verd.)
nível de significância ou tamanho do teste
= P(erro tipo II)= P(não rejeitar H0| H0 falsa) = P(ET RA | H0 falsa)
1- = potência do teste Probabilidade de não cometermos um erro do tipo II
Testes de Hipóteses – Erros
ET:= Estatística de Teste
RR:= Região de Rejeição
RA:= Região de Não Rejeição
REGRA de TESTE: ET RR então Rejeitar H0
7
Isabel Fraga Alves FCUL/ DEIO - Estatística Aplicada: Métodos Não-Paramétricos 1ºAno/2ºSem (2009/2010) 37
p -Value
O resultado foi significativo?
Quão pequeno tem de ser o p-value, para se rejeitar a
hipótese nula?
• Se p-value < 5 % estatisticamente significativo.
• Se p-value < 1 % altamente significativo.
Os investigadores devem
• resumir os dados,
• dizer qual o teste usado e
• reportar o p-value (em vez de apenas o comparar com os valores de 1 % ou 5 % )
No caso de se estabelecer à partida o nível de significância e se o
TESTE indicar a aceitação de H0, diz-se que
Ao nível de significância não se pode rejeitar H0 .
Isabel Fraga Alves FCUL/ DEIO - Estatística Aplicada: Métodos Não-Paramétricos 1ºAno/2ºSem (2009/2010) 38
TIPOS DE TESTE
Qui-Quadrado
Teste dos Sinais
Teste de Wilcoxon
Teste de Mann-Whitney
Teste de Kruskal-Wallis
Teste de Spearman
Isabel Fraga Alves FCUL/ DEIO - Estatística Aplicada: Métodos Não-Paramétricos 1ºAno/2ºSem (2009/2010) 39
TESTE DO QUI-QUADRADO - Teste de Independência
Testes não paramétricos que medem o grau de dependência entre duas variáveis aleatórias.
Não assumem nenhum tipo de distribuição.
Assume observações de frequência de variáveis categóricas. As variáveis da amostra estão “divididas” em categorias.
As observações das duas variáveis são agrupadas em classes independentes (disjuntas).
Tipicamente, os dados do teste estão representados em tabelas de contingência 2 x 2. No entanto podemos ter mais do que 2 dimensões.
Testes a estudar
• Teste do Χ2 (qui-quadrado)
• Teste exacto de Fisher
Isabel Fraga Alves FCUL/ DEIO - Estatística Aplicada: Métodos Não-Paramétricos 1ºAno/2ºSem (2009/2010) 40
TESTE DO QUI-QUADRADO - Teste de Independência
Dados bivariados (Xi, Yi), i=1, ...,n, tendo (X, Y) f.d. conjunta F(x,y) com marginais F1(x) = F(x,+∞) e F2(y)=F(+∞,y).
Pretendemos testar
• H0: F(x,y)=F1(x) F2(y) (x,y)R2 vs. H1: F(x,y)≠F1(x) F2(y) para algum (x,y)R2
Isto é, face a uma amostra aleatória (Xi, Yi), i=1,...,n,pretendemos testar a independência do par (X,Y).
Para obter a estatística de teste começamos por dividir o suporte da variável aleatória X em L classes A1, A2, ..., AL, disjuntas e o suporte da variável aleatória Y em C classes B1, B2, ..., BC, disjuntas.
Representemos por
• Nij= # { (Xk, Yk): Xk Ai ; Yk Bj },i=1,…,L; j=1,…,C.
Isabel Fraga Alves FCUL/ DEIO - Estatística Aplicada: Métodos Não-Paramétricos 1ºAno/2ºSem (2009/2010) 41
TESTE DO QUI-QUADRADO - Teste de Independência
X\Y B1 B2 … Bj … BC
A1N11 N12 … N1j … N1C N1 .
A2N21 N22 … N22 … N2C N2 .
…
AiNi1 Ni2 … Nij … NiC Ni .
…
ALNL1 NL2 … NL2 … NLC NL .
N .1 N . 2 N . j N .CN..=n
[ ; ]ij i jp P X A Y B
.
.
[ ]
[ ]
i i
j j
p X A
p Y B
0 . . 1 . .: , ( , ) . : ( , ),ij i j ij i jH p p p i j vs H i j p p p
1
L
j ij
i
N N
1
C
i ij
j
N N
Isabel Fraga Alves FCUL/ DEIO - Estatística Aplicada: Métodos Não-Paramétricos 1ºAno/2ºSem (2009/2010) 42
TESTE DO QUI-QUADRADO - Teste de Independência
Com as frequências esperadas eij desconhecidas, utiliza-se
Estatística de Teste (ET):
Regra de Decisão:
Ao nível , Rejeitar a hipótese nula de Independência se o valor da
• ET (quantil da qui-quadrado com (L-1) x (C-1) graus de liberdade)
2
2
0 ( 1)
1 1
( ), tem uma distribuição assintótica de um .
L Cij ij
LC
i j ij
N esob H
e
[ ; ]ij i jp P X A Y B . .[ ] [ ]i i j jp X A p Y B
. .ij ij i je np np p
. . ... .
ˆ ˆ ˆ ˆ j i jiij ij i j
N N NNe np np p n
n n n
2
2 2
0 ( 1)( 1)
1 1
ˆ( ), tem uma distribuição assintótica de um .
ˆ
L Cij ij
L C
i j ij
N eX sob H
e
1
2 ( 1)( 1)L C
8
Isabel Fraga Alves FCUL/ DEIO - Estatística Aplicada: Métodos Não-Paramétricos 1ºAno/2ºSem (2009/2010) 43
TESTE DO QUI-QUADRADO - Teste de Independência
Regra prática:
Como a distribuição da estatística de teste é assintótica,
convém que as células não tenham valores esperados
muito pequenos.
Como regra prática, utiliza-se a seguinte:
• No máximo, 20% das células podem ter frequência esperada <5
• e nenhuma célula deve ter frequência esperada <1.
Isabel Fraga Alves FCUL/ DEIO - Estatística Aplicada: Métodos Não-Paramétricos 1ºAno/2ºSem (2009/2010) 44
TESTE DO QUI-QUADRADO - Teste de Independência
Exemplo 6: Dependência entre bairro e escolha do
sabor de pasta de dentes
Dados: H0: a preferência pelo sabor
independente do bairro;
H1: a preferência pelo sabor depende do
bairro
= 5%
2(L-1)(C-1)= 2(4-1)(3-1) = 2(6)
Frequência esperada = (soma da linha i) x (soma da coluna j)/(total de observações)
. .ˆ i j
ij
N Ne
n
Sabor
Bairros
A B C
Limão 70 44 86 200
Chocolate 50 30 45 125
Hortelã 10 6 34 50
Menta 20 20 85 125
150 100 250 500
2
2 2
0 ( 1)( 1)
1 1
ˆ( ), tem uma distribuição assintótica de um .
ˆ
L Cij ij
L C
i j ij
N eX sob H
e
Isabel Fraga Alves FCUL/ DEIO - Estatística Aplicada: Métodos Não-Paramétricos 1ºAno/2ºSem (2009/2010) 45
TESTE DO QUI-QUADRADO - Teste de Independência
Exemplo 6: (cont.)Tabela de frequências esperadas
x2 =37.88
20.95(6)=12.6
x2 > 20.95(6)
Decisão: rejeita-se H0.
SABOR
BAIRRO
A B C
Limão 60 40 100
Chocolate 37.5 25 62.5
Hortelã 15 10 25
Menta 37.5 25 62.5
Isabel Fraga Alves FCUL/ DEIO - Estatística Aplicada: Métodos Não-Paramétricos 1ºAno/2ºSem (2009/2010) 46
Em 1956, o número de pessoas que morreram de tuberculose em Inglaterra e Gales foi
5375. Destas, 3804 foram homens e 1571 eram mulheres; 3534 homens e 1319 mulheres
morreram de tuberculose do sistema respiratório, enquanto o restante morreu de outras
formas de tuberculose. Os dados estão na seguinte tabela de contingência:
H0 : tipo de tuberculose (TB) que causa a morte a estes indivíduos é independente
do seu sexo.e11 = (4853 x 3804) / 5375 = 3434.6; etc.
Χ2 = (3534 – 3434.6)2 / 3434.6 + (1319 – 1418.4)2 / 1418.4 + … + (252 – 152.6)2 / 152.6 = 101.35
Para =0.05 temos Χ20.95(1)(1)=3.84. Rejeitamos H0 se Χ2 > 3.84 o que é o caso.
Conclusão: Há evidência de uma associação entre tipo de TB e sexo.
Observação: p-value < 0.00001.
Exemplo com tabela de contingência 2 x 2
Homens Mulheres Total
TB no SR 3534 1319 4853
Outras TB 270 252 522
Total 3804 1571 5375
Isabel Fraga Alves FCUL/ DEIO - Estatística Aplicada: Métodos Não-Paramétricos 1ºAno/2ºSem (2009/2010) 47
Correcção de Yates para tabelas 2x2
No caso específico de tabelas 2 x 2 devemos usar a
Correcção de Yates para continuidade.
Para o problema anterior, Yates Χ2 = 100.39.
22 22
1 1
ˆ( 0.5)*
ˆ
ij ij
i j ij
N eX
e
Isabel Fraga Alves FCUL/ DEIO - Estatística Aplicada: Métodos Não-Paramétricos 1ºAno/2ºSem (2009/2010) 48
No R, temos:x<-matrix(c(3534,1319,270,252),ncol=2,byrow=T)
et<-chisq.test(x)
names(et)
et
et$expected
#quantil
qchisq(0.05,1, ncp=0, lower.tail = F)
#p-valor
pchisq(100.3915,1, ncp=0, lower.tail = F)
#density
plot(density(rchisq(500,df=1)))
points(qchisq(0.05,1, ncp=0, lower.tail = F),0,pch=19,col=2)
TESTE DO QUI-QUADRADO - Teste de Independência
9
Isabel Fraga Alves FCUL/ DEIO - Estatística Aplicada: Métodos Não-Paramétricos 1ºAno/2ºSem (2009/2010) 49
Teste Exacto de Fisher
O teste ideal para aplicar com tabelas de contingência de dados pequenos esparsos e não balanceados.
Embora seja aplicável noutras situações, vamos sempre usar em tabelas 2 x 2 .
É um teste exacto, portanto um p-value exacto.
A ideia geral é considerando a tabela de observações, “gerar” as tabelas com as mesmas margens, que são mais extremas que a observada, na mesma direcção da nossa observação ie, que a proporção TB do tipo SR nas mulheres é menor que proporção TB tipo SR nos homens.
Teste Exato de Fisher
Característica
(sim)
Característica
(não)
Total
Population 1 a A-a A
Population 2 b B-b B
a+b A+B-a-b
Isabel Fraga Alves FCUL/ DEIO - Estatística Aplicada: Métodos Não-Paramétricos 1ºAno/2ºSem (2009/2010) 50
H0: a proporção com a característica de interesse é a mesma nas duas
populações
Bilateral
H1: a proporção com a característica de interesse não é a mesma nas duas
populações (no R: fisher.test(x))
Unilateral
H1: a proporção com a característica de interesse na população 1 é menor que
na população 2 (no R: fisher.test(x,alternative=“less”))
H1: a proporção com a característica de interesse na população 1 é maior que
na população 2 (no R: fisher.test(x,alternative=“greater”))
Teste Exacto de Fisher (cont.)
Para o exemplo anterior temos no R:
x<-matrix(c(3534,1319,270,252),ncol=2,byrow=T)
fisher.test(x)
Fisher's Exact Test for Count Data
data: x
p-value < 2.2e-16
alternative hypothesis: true odds ratio is not equal
to 1
95 percent confidence interval:
2.073019 3.014822
sample estimates:
odds ratio
2.500202
Teste dos Sinais
Contrapartida não-paramétrica para
Teste-t para amostras
emparelhadas
Isabel Fraga Alves FCUL/ DEIO - Estatística Aplicada: Métodos Não-Paramétricos 1ºAno/2ºSem (2009/2010) 53
Amostras Emparelhadas - O Teste dos Sinais
População X População Y
1 1 2 2( , ),( , ), , ( , )n nX Y X Y X Y
0 1: localizaçao de localizaçao de . : localizaçao de localizaçao de
( > ) ou ( < )
H X Y vs H X Y
0 , 0 0 1/ 2;sobH P D P D
0: =# : 0 ; , ( , 1/ 2),
com :
i iM D D sob H M Binomial n p
p P X Y
Diferenças: : ; : ;i i iD X Y D X Y
0 1: ( ) 0 . : ( ) 0
( > ) ou ( < )
H Med D vs H Med D
Isabel Fraga Alves FCUL/ DEIO - Estatística Aplicada: Métodos Não-Paramétricos 1ºAno/2ºSem (2009/2010) 54
Amostras Emparelhadas - O Teste dos Sinais (pequenas amostras)
Região de Rejeição para:
• Unilateral Rejeitar para os maiores valores de M (m)
• Unilateral Rejeitar para os menores valores de M (m)
• Bilateral Rejeitar para os menores e maiores valores de M (m)
No R:
P[Binomial(n,1/2)<=m]=pbinom(q=m,size=n,prob=.5,lower.tail = F)
Observação: Sempre que se verificarem ligações, isto e, valores Xi=Yi, esses valores são desprezados, diminuindo-se a dimensão da amostra.
( ,1/ 2) ,P Binomp valu ia ml ne
0 1: 1/ 2 . : 1/ 2 (ou 1/ 2 ou 1/ 2)H p vs H p p p
( ,1/ 2) ,P Binomp valu ia ml ne
1 : 1/ 2 H p
1 : 1/ 2 H p
1 : 1/ 2 H p
2 ( ,1/ 2) 2 ( ,1/ 2) ,p value mP Binomial n ou P Binomial n m
10
Isabel Fraga Alves FCUL/ DEIO - Estatística Aplicada: Métodos Não-Paramétricos 1ºAno/2ºSem (2009/2010) 55
Exemplo - Cancro pancreático
Quando os pacientes têm Cancro pancreático, muitas vezes a
cirurgia é necessária para remover a parte do pâncreas que tem o
cancro. Quando estas cirurgias são concluídas, o cirurgião tem a
opção de fazer uma cirurgia mais complexa para preservar o baço
(preservação baço) ou para remover o baço como parte de
cirurgia (Esplenectomia).
Um estudo foi feito para comparar as duas opções cirúrgicas em
termos de resultados de saúde, ónus de custo e tempo na equipa
cirúrgica.
Isabel Fraga Alves FCUL/ DEIO - Estatística Aplicada: Métodos Não-Paramétricos 1ºAno/2ºSem (2009/2010) 56
Questão
Uma pergunta para cada técnica é determinar o efeito da cirurgia sobre a contagem de plaquetas em pacientes. As plaquetas estão envolvidas na coagulação dos pacientes; por vezes, aos pacientes em cirurgia são dados medicamentos para limitar a quantidade de coagulação durante a cirurgia.
Uma grande mudança no número de plaquetas pode ser um sinal de que a cirurgia foi particularmente difícil.
Para cada técnica, os cirurgiões pretendiam determinar se há uma diferença significativa na pre e post contagem de plaquetas de cirurgia.
Isabel Fraga Alves FCUL/ DEIO - Estatística Aplicada: Métodos Não-Paramétricos 1ºAno/2ºSem (2009/2010) 57
Exemplo - Cancro pancreático(cont.)
Em primeiro lugar, vamos ver o
grupo de preservação baço
Observe que temos
observações emparelhadas para
cada um dos pacientes
Estamos interessados na
diferença entre duas medições
Será que efectivamente há uma
diferença?
Paciente Pre Post Dif
1 260 223 37
2 216 149 67
3 427 224 203
4 217 181 36
5 613 708 -95
6 245 197 48
7 371 303 68
8 236 168 68
9 421 312 109
10 677 521 156
11 363 202 161
Isabel Fraga Alves FCUL/ DEIO - Estatística Aplicada: Métodos Não-Paramétricos 1ºAno/2ºSem (2009/2010) 58
Histograma
Uma vez que temos dados emparelhados, poderíamos utilizar o teste-t emparelhado.
O que se pode dizer sobre a distribuição das diferenças?
A suposição de normalidadedo t-teste emparelhado parece adequada?
A diferença na contagem de plaquetas pode ser variável e
conter outliers…
Isabel Fraga Alves FCUL/ DEIO - Estatística Aplicada: Métodos Não-Paramétricos 1ºAno/2ºSem (2009/2010) 59
A hipótese nula para a nossa investigação é que não há nenhuma diferença na contagem de plaquetas, antes e após a cirurgia.
Para o t-teste de duas amostras, isto seria escrito como H0: diferença média (pre-post) é igual a zero (d = 0)
Neste caso, temos outliers, portanto, a média não é uma boa medida de tendência central.
Que medida se deve usar alternativamente?
Como podemos estabelecer e testar a hipótese nulaadequada?
Exemplo - Cancro pancreático(cont.)
Isabel Fraga Alves FCUL/ DEIO - Estatística Aplicada: Métodos Não-Paramétricos 1ºAno/2ºSem (2009/2010) 60
Teste dos Sinais
O teste não-paramétrico mais simples é o Teste dos Sinais
H0: mediana de diferenças (pre-post) = 0
H1: mediana de diferenças (pre-post) ≠ 0
Sob a hipótese nula, seria de esperar o mesmo número de sinais positivos e negativos.
Se a maioria ou todas as diferenças são positivas, haveria algumas provas contra a hipótese nula.
Até que ponto podem ser significativas?
0: ; , 0 0 1/ 2;i i i i iD X Y sobH P D P D
0: =# : 0 ; , ( , 1/ 2),
com :
i iM D D sob H M Binomial n p
p P X Y
11
Isabel Fraga Alves FCUL/ DEIO - Estatística Aplicada: Métodos Não-Paramétricos 1ºAno/2ºSem (2009/2010) 61
Teste dos Sinais
Agora incluímos a coluna dos SINAIS
Se não houve realmente nenhum efeito da terapia, seria de esperar que iria haver um número igual de sinais (+ , - )
O que se pode ver sobre os sinais das diferenças?
Há uma diferença significativa entre os dois grupos?
Como se pode calcular o p-value ?
Paciente Pre Post Dif SINAL
1 260 223 37 +
2 216 149 67 +
3 427 224 203 +
4 217 181 36 +
5 613 708 -95 -
6 245 197 48 +
7 371 303 68 +
8 236 168 68 +
9 421 312 109 +
10 677 521 156 +
11 363 202 161 +
Isabel Fraga Alves FCUL/ DEIO - Estatística Aplicada: Métodos Não-Paramétricos 1ºAno/2ºSem (2009/2010) 62
Teste dos Sinais
O p-value é a probabilidade de se obter o valor observado ou algo mais
extremo sob a hipótese nula
• (p = 1/2).
Para o Teste dos Sinais, esta é a probabilidade do número observado de
sinais positivos ou mais. Para fazer o teste bilateral, devemos ter em
conta também os valores extremos do outro lado.
Hipótese nula e alternativa:
p-value:
0 1: 1/ 2 . : 1/ 2H p vs H p
2 ( ,1/2) , 11, 10P Binomial np valu ne m m
> 2*pbinom(q=10, size=11, prob=.5, lower.tail = F)
[1] 0.0009765625
Isabel Fraga Alves FCUL/ DEIO - Estatística Aplicada: Métodos Não-Paramétricos 1ºAno/2ºSem (2009/2010) 63
Exemplo - Cancro pancreático(conclusão) Teste dos Sinais
Dados Emparelhados, = 5%
Hipóteses• H0: mediana das diferenças = 0 (p = 1/2)
• H1: mediana das diferenças ≠ 0 (p ≠ 1/2)
M teve o valor observado de m = 10 (# sinais +)• p-value = 0.001
Rejeitar a hipótese nula
Conclusão:Há uma diferença significativa entre os valores de plaquetas pré e
pós-cirurgia para pacientes que tinham a cirurgia de
preservação baço.
Isabel Fraga Alves FCUL/ DEIO - Estatística Aplicada: Métodos Não-Paramétricos 1ºAno/2ºSem (2009/2010) 64
Teste dos Sinais – Grandes amostras
n “grande” , ie, n +
Nas aplicações, para n 25
/ 2(0,1)
(1 ) 1/ 2
dM np M n
np p n
N
/ 2(0,1)
1/ 2
M nZ
n
N
Isabel Fraga Alves FCUL/ DEIO - Estatística Aplicada: Métodos Não-Paramétricos 1ºAno/2ºSem (2009/2010) 65
Teste dos Sinais – Grandes amostras
Hipótese nula e alternativa
bilateral:
p-value:
Região de Rejeição, ao nível
de significância :
0 1: 1/ 2 . : 1/ 2H p vs H p
/2 /2 /22 2 2{1 ( )},
1/2 1/2 1/2
/2 /22 2 2 ( ).
1/2 1/2
M n n nP P Z z z z
n n n
M n nou P
m mp value
mP Z z z
n n
1
/2 /2 /2, : (1 /2),quantil da Normal(0,1)Z z ou Z z z
/ 2 / 2
/ 2z/ 2z
Isabel Fraga Alves FCUL/ DEIO - Estatística Aplicada: Métodos Não-Paramétricos 1ºAno/2ºSem (2009/2010) 66
Teste dos Sinais – Grandes amostras
Hipótese nula e alternativa unilateral :
p-value:
Região de Rejeição, ao nível de significância :
0 1: 1/ 2 . : 1/ 2H p vs H p
/2 /2 /2
1 ( ), .1/2 1/2 1/2
m mp
M n n nP P Z z z z
n n nvalue
1 / 2, : (1 ), quantil da Normal(0,1), :
1/ 2
M nZ z z Z
n
z
12
Isabel Fraga Alves FCUL/ DEIO - Estatística Aplicada: Métodos Não-Paramétricos 1ºAno/2ºSem (2009/2010) 67
Teste dos Sinais – Grandes amostras
Hipótese nula e alternativa unilateral :
p-value:
Região de Rejeição, ao nível de significância :
0 1: 1/ 2 . : 1/ 2H p vs H p
/ 2 / 2 / 2
( ), .1/ 2 1/ 2 1/ 2
m mp
M n n nP P Z z z z
nvalue
n n
1 / 2, : (1 ), quantil da Normal(0,1), :
1/ 2
M nZ z z Z
n
z
Isabel Fraga Alves FCUL/ DEIO - Estatística Aplicada: Métodos Não-Paramétricos 1ºAno/2ºSem (2009/2010) 68
Teste dos Sinais – Grandes amostras
EXEMPLO - Sessenta alunos matricularam-se num curso de inglês. Na primeira aula aplica-se umteste que mede o conhecimento da língua. Após seis meses, aplica-se um segundo teste. Osresultados mostram que 35 alunos apresentaram melhora (35 +), 20 se conduziram melhor noprimeiro teste (20 -) e 5 não apresentaram modificações (5 “0”). Será que o curso melhorou oconhecimento de inglês?
H0: O curso não alterou o conhecimento de inglês
H1: O curso melhorou o conhecimento de inglês= 5%
Cálculo da variávelm - número de sinais positivos (35);
n – tamanho da amostra descontado os empates (60-5=55)
Z1-0.05= Z0.95= 1.64, logo se rejeita Ho, ie, o curso não melhorou o conhecimento de inglês
No R: > qnorm(0.95)
/ 2
1/ 2
M nZ
n
/ 2 35 55/ 22.02
1/ 2 1/ 2 55
nz
m
n
Teste de Wilcoxon
Contrapartida não-paramétrica para
Teste-t para amostras
emparelhadas
Isabel Fraga Alves FCUL/ DEIO - Estatística Aplicada: Métodos Não-Paramétricos 1ºAno/2ºSem (2009/2010) 70
Amostras Emparelhadas - O Teste de Wilcoxon(pequenas amostras)
População X População Y
O Teste de Wilcoxon é uma extensão do Teste de Sinais. É mais interessante pois leva em consideração a magnitude da diferença para cada par.
O teste de sinal analisa apenas o sinal das diferenças, mas o Teste de Wilcoxon usa o sinal e ordena as diferenças.
1 1 2 2( , ),( , ), , ( , )n nX Y X Y X Y
0 1: distribuiçao de distribuiçao de . : localizaçao de localizaçao de
(Teste Bilateral)
H X Y vs H X Y
( > ) ou ( < ) (Teste Uni late ral)
: ; : ;i i iDiferenças D X Y D X Y
0 1: ( ) 0 . : ( ) 0
( > ) o
(Teste Bilateral
u ( < )
)
(Teste Unilateral)
H Med D vs H Med D
Isabel Fraga Alves FCUL/ DEIO - Estatística Aplicada: Métodos Não-Paramétricos 1ºAno/2ºSem (2009/2010) 71
Teste de Wilcoxon (Pequenas Amostras Emparelhadas)
1. Obter as diferenças, Di = Xi - Yi
2. Obter os Valores Absolutos das diferenças, |Di |
3. Desprezar as diferenças de Valor 0 (empates) diminuindo do mesmo número de unidades, a dimensão da amostra.
4. Atribuir Ordens, onde a Menor = 1
5. Atribuir Ordens para diferenças „-‟ e „+‟
6. Somar as Ordens „+‟ (T+) & Ordens „-‟ (T-)
• Estatística de Teste
• T- ou T+ (Teste Unilateral)
• Estatística de Teste
• T:=min(T- , T+) (Teste Bilateral)
Isabel Fraga Alves FCUL/ DEIO - Estatística Aplicada: Métodos Não-Paramétricos 1ºAno/2ºSem (2009/2010) 72
Teste de Wilcoxon (Pequenas Amostras Emparelhadas)
Motivação para a Região de Rejeição:
• Sob a validade de H0,• é de esperar que a soma das ordens positivas (T+) não
difira grandemente da soma das ordens negativas (T-).
• Uma soma “grande” para as ordens positivas (T+) relativamente a soma das ordens negativas (T-), implica que a Mediana das Diferenças, Med(D), tenha uma pequena probabilidade de ser igual a zero.
13
Isabel Fraga Alves FCUL/ DEIO - Estatística Aplicada: Métodos Não-Paramétricos 1ºAno/2ºSem (2009/2010) 73
Teste de Wilcoxon (Pequenas Amostras Emparelhadas)
Rejeitar Ho se T ≤ T0 (Tabela 9), com
T:=min(T- , T+)
Ho: Med(D) =0 (As distribuições de X e de Y são idênticas)
Teste Bilateral
H1: Med(D) 0 (As distribuições de X e de Y diferem na localização)
No R: wilcox.test(x,y,alternative = c("two.sided"),paired =T)
Isabel Fraga Alves FCUL/ DEIO - Estatística Aplicada: Métodos Não-Paramétricos 1ºAno/2ºSem (2009/2010) 74
Teste de Wilcoxon (Pequenas Amostras Emparelhadas)
Rejeitar H0 se T- ≤ T0
Ho: Med(D) = 0 (As distribuições de X e de Y são idênticas)
Teste Unilateral
H1: Med(D) > 0(A distribuição de X tem
localização à direita da
localização de Y)
H1: Med(D) < 0(A distribuição de Y tem
localização à direita da
localização de X)
Rejeitar H0 se T+ ≤ T0
Isabel Fraga Alves FCUL/ DEIO - Estatística Aplicada: Métodos Não-Paramétricos 1ºAno/2ºSem (2009/2010) 75
Teste de Wilcoxon (Grandes Amostras Emparelhadas)
n “grande” , ie, n +
Nas aplicações, para n 25
( 1) / 4(0,1)
( 1)(2 1) / 24
dT n n
n n n
N
( 1) / 4(0,1)
( 1)(2 1) / 24
T n nZ
n n n
N
Isabel Fraga Alves FCUL/ DEIO - Estatística Aplicada: Métodos Não-Paramétricos 1ºAno/2ºSem (2009/2010) 76
Teste de Wilcoxon (Grandes Amostras Emparelhadas)
1
/ 2 / 2 / 2, : (1 / 2),z ou z z Z Z quantil da N(0,1)
ie, Rejeitar Ho se |Z| > z/2
Teste Bilateral
Ho: Med(D) = 0 (As distribuições de X e de Y são idênticas)
H1: Med(D) 0 (As distribuições de X e de Y diferem na localização)
( 1) / 4:
( 1)(2 1) / 24
n n
n n n
+TZ
p-value:
Região de Rejeição, ao nível de significância :
2 2{1 ( )}.P Z z z / 2 / 2
/ 2z/ 2z
Isabel Fraga Alves FCUL/ DEIO - Estatística Aplicada: Métodos Não-Paramétricos 1ºAno/2ºSem (2009/2010) 77
Teste de Wilcoxon (Grandes Amostras Emparelhadas)
1, : (1 )z z Z
Teste Unilateral
Ho: Med(D) = 0 (As distribuições de X e de Y são idênticas)
H1: Med(D)> 0(localização de X à direita
da localização de Y)
p-value:
Região de Rejeição, ao nível de significância :
1 ( ).P z z Z
H1: Med(D)< 0 (localização
de X à esquerda da
localização de Y)
1, : (1 )z z Z
( ).P z z Zp-value:
z
z
Isabel Fraga Alves FCUL/ DEIO - Estatística Aplicada: Métodos Não-Paramétricos 1ºAno/2ºSem (2009/2010) 78
Exemplo - Cancro pancreático
Agora, podemos analisar o grupo que teve intervenção cirúrgica com Esplenectomia
Novamente, temos observações emparelhadassobre cada um dos pacientes, e estamos interessados na diferença entre duas medições de plaquetas.
Será que há uma diferença significativa?
Patient Pre Post
1 492 375
2 297 382
3 272 325
4 367 585
5 206 181
6 284 237
7 338 273
8 212 243
9 161 147
10 384 326
11 224 214
12 251 292
13 224 263
14
Isabel Fraga Alves FCUL/ DEIO - Estatística Aplicada: Métodos Não-Paramétricos 1ºAno/2ºSem (2009/2010) 79
Exemplo - Cancro pancreático - Teste de Wilcoxon
A hipótese nula para a nossa investigação é que não há nenhuma diferença na contagem de plaquetas, antes e após a cirurgia com Esplenectomia .
• H0: Med(D) = 0
• H1: Med(D) ≠ 0
Rejeitar Ho se T ≤ T0 (Tabela 9), com T:=min(T- , T+)
Valor observado de T = 44
T0 (Tabela 9): n=13
• Two-sided p=0.10• T0=21
• Então: T >T0,
não se rejeita H0.
Conclusão: Não há nenhuma evidência de uma diferença entre o pré e pós contagem plaquetas para os pacientes que tinham uma Esplenectomia durante sua cirurgia.
Pacient
e
Pre Post Di |Di| Ordem T+ T-
1 492 375 117 117 12 12
2 297 382 -85 85 11 11
3 272 325 -53 53 8 8
4 367 585 -218 218 13 13
5 206 181 25 25 3 3
6 284 237 47 47 7 7
7 338 273 65 65 10 10
8 212 243 -31 31 4 4
9 161 147 14 14 2 2
10 384 326 58 58 9 9
11 224 214 10 10 1 1
12 251 292 -41 41 6 6
13 224 263 -39 39 5 5
44 47
No R:
x=c(492,297,272,367,206,284,338,212,161,384,224,251,224)
y=c(375,382,325,585,181,237,273,243,147,326,214,292,263)
wilcox.test(x, y ,alternative = c("two.sided"),paired =T)
Isabel Fraga Alves FCUL/ DEIO - Estatística Aplicada: Métodos Não-Paramétricos 1ºAno/2ºSem (2009/2010) 80
Conclusões
Os nossos testes de hipóteses mostram que:• os doentes a partir do grupo de preservação baço tinham uma
mudança significativa na sua contagem de plaquetas após cirurgia (rej H0)
• e os pacientes do grupo Esplenectomia não têm uma mudança significativa na sua contagem de plaquetas após cirurgia (não rej H0).
Estes resultados podem mostrar que a cirurgia de preservação baço é difícil para o paciente e outras medidas devem ser investigadas para garantir que esta cirurgia não é excessivamente agressiva para os de pacientes.
Isabel Fraga Alves FCUL/ DEIO - Estatística Aplicada: Métodos Não-Paramétricos 1ºAno/2ºSem (2009/2010) 81
Comentários
Quando nós temos dados emparelhados e os pressupostos de um teste-t emparelhado não forem pressupostos, temos duas maneiras para elaborar o teste de hipóteses sobre a localização:
• O Teste de Wilcoxon é sempre preferido ao Teste dos Sinais já que usa mais informação contida nos dados (já que usa as ordens).
• O Teste de Wilcoxon tem muito mais potência do que o Teste dos Sinais para detectar uma diferença significativa.
• Não há uma grande perda de potência no Teste de Wilcoxoncomparado a um teste-t quando se mantém a suposição de normalidade.
• Por outro lado, o Teste de Wilcoxon é muito mais potente do que o teste-t quando não é válida a suposição de normalidade.
Teste Mann-Whitney
Contrapartida não-paramétrica para
Teste-t para amostras
independentes
Isabel Fraga Alves FCUL/ DEIO - Estatística Aplicada: Métodos Não-Paramétricos 1ºAno/2ºSem (2009/2010) 83
Teste Mann-Whitney – pequenas amostras independentes
1. Testes para Duas Populações, X e Y, Independentes
2. Corresponde ao Teste-t para 2 valores médios
3. Pressupostos
Amostras Aleatórias Independentes (dimensões n1 e n2 )
Populações Contínuas
4. Aproximação Normal se ni 10
Isabel Fraga Alves FCUL/ DEIO - Estatística Aplicada: Métodos Não-Paramétricos 1ºAno/2ºSem (2009/2010) 84
Teste Mann-Whitney – pequenas amostras independentes
H0: X e Y têm distribuição idêntica
H1: As distribuições de X e Y diferem na Localização
• T1 = Soma das Ordens das Observações da amostra 1
na amostra conjunta de dimensão n=n1 + n2
• T2 = Soma das Ordens das Observações da amostra 2
na amostra conjunta de dimensão n=n1 + n2
15
Isabel Fraga Alves FCUL/ DEIO - Estatística Aplicada: Métodos Não-Paramétricos 1ºAno/2ºSem (2009/2010) 85
U1 = n1n2 + - T1
n1(n1 + 1)
2
U2 = n1n2 + - T2
n2(n2 + 1)
2
Teste Mann-Whitney – pequenas amostras independentes
Isabel Fraga Alves FCUL/ DEIO - Estatística Aplicada: Métodos Não-Paramétricos 1ºAno/2ºSem (2009/2010) 86
Teste Mann-Whitney – procedimento
1. Atribuir Ordens para as n=n1 + n2 ObservaçõesAmostrais
• Se n1 ≠ n2 , considera-se o índice 1 para a menordimensão (n1)
• Menor Ordem = 1, Maior Ordem = n• Valores Iguais (ligações) são subsituídos pela
respectiva média das ordens.
2. Somar as Ordens, Ti , i=1,2, para cada Amostra
• A distribuição exacta da ET, U , pode ser calculada
Isabel Fraga Alves FCUL/ DEIO - Estatística Aplicada: Métodos Não-Paramétricos 1ºAno/2ºSem (2009/2010) 87
Teste Bilateral
H1: As duas populações, X e Y, diferem na localização
Rejeitar H0 ao nível se o valor observado de U , u, for tal que
p-value = 2 P[U < u ]
Teste Mann-Whitney – pequenas amostras independentes
Procedimento:
1. Assumir que n1 ≤ n2 (inverter as amostras se
necessário)
2. Determinar U1 e U2
3. U := min (U1 ,U2)
4. Usar os valores da Tabela 8 para testar H0 vs H1
Isabel Fraga Alves FCUL/ DEIO - Estatística Aplicada: Métodos Não-Paramétricos 1ºAno/2ºSem (2009/2010) 88
Procedimento:
1. Assumir que n1 ≤ n2 (inverter as amostras se
necessário)
2. Determinar U1 e U2
3. Usar os valores da Tabela 8 para testar H0 vs H1
Teste Unilateral
H1: A população 1 (X) está
localizada à direita da
população 2 (Y)
Rejeitar H0 ao nível se o valor
observado de U1 , u1 , for tal
que
p-value=P[U < u1 ] , com
U = U1
Teste Unilateral
H1: A população 1 (X) está
localizada à esquerda da
população 2 (Y)
Rejeitar H0 ao nível se o valor
observado de U2 , u2 , for tal
que
p-value=P[U < u2 ] , com
U = U2
Teste Mann-Whitney – pequenas amostras independentes
Isabel Fraga Alves FCUL/ DEIO - Estatística Aplicada: Métodos Não-Paramétricos 1ºAno/2ºSem (2009/2010) 89
Z :=
U2 - µU
U
2
2
Teste Mann-Whitney – grandes amostras independentes
Aproximação à Normal
n1n2
2µU = 2
n1n2(n1 + n2 + 1)
12U =
2
Isabel Fraga Alves FCUL/ DEIO - Estatística Aplicada: Métodos Não-Paramétricos 1ºAno/2ºSem (2009/2010) 90
Teste Mann-Whitney – grandes amostras independentes
Rejeitar Ho se | Z | > Z/2
H1: As distribuições de X e Y diferem na Localização
Teste Bilateral
H0: X e Y têm distribuição idêntica
Determine U2 = n1n2 + - T2
n2(n2 + 1)
2
Z/2 := -1(1- /2), (.) f.d. da N(0,1)
/ 2 / 2
/ 2z/ 2z
16
Isabel Fraga Alves FCUL/ DEIO - Estatística Aplicada: Métodos Não-Paramétricos 1ºAno/2ºSem (2009/2010) 91
Teste Mann-Whitney – grandes amostras independentes
H0: X e Y têm distribuição idêntica
Determinar U2 = n1n2 + - T2
n2(n2 + 1)
2
Teste Unilateral
H1: A população 1 (X) está
localizada à direita da
população 2 (Y)
Rejeitar H0 se Z > z
Teste Unilateral
H1: A população 1 (X) está
localizada à esquerda
da população 2 (Y)
Rejeitar H0 se Z < -z
z
z
Isabel Fraga Alves FCUL/ DEIO - Estatística Aplicada: Métodos Não-Paramétricos 1ºAno/2ºSem (2009/2010) 92
Teste Mann-Whitney – Exemplo
Suponha que é um gestor de produção e está interessado em investigar
se as taxas de produção de 2 fábricas são iguais. Para a fábrica 1, as
taxas (% de capacidade) são 71, 82, 77, 92, 88. Para a fábrica 2, as
taxas são 85, 82, 94, 97. Terão as taxas de produção das 2 fábricas a
mesma distribução de probabilidade ao nível de .10 ?
H0: Distribuição Idêntica
Ha: Localização Diferente
= .10
n1 = 4 n2 = 5
Pontos críticos:
Estatística de Teste :
Decisão:
Conclusão:
Isabel Fraga Alves FCUL/ DEIO - Estatística Aplicada: Métodos Não-Paramétricos 1ºAno/2ºSem (2009/2010) 93
Teste Mann-Whitney – Exemplo
Fábrica 1 Fábrica 2
Taxa Ordem Taxa Ordem
71 85
82 82
77 94
92 97
88 ... ...
Soma
das Ordens
Isabel Fraga Alves FCUL/ DEIO - Estatística Aplicada: Métodos Não-Paramétricos 1ºAno/2ºSem (2009/2010) 94
Teste Mann-Whitney – Exemplo
Fábrica 1 Fábrica 2
Taxa Ordem Taxa Ordem
71 1 85
82 82
77 94
92 97
88 ... ...
Soma
das Ordens
Isabel Fraga Alves FCUL/ DEIO - Estatística Aplicada: Métodos Não-Paramétricos 1ºAno/2ºSem (2009/2010) 95
Teste Mann-Whitney – Exemplo
Fábrica 1 Fábrica 2
Taxa Ordem Taxa Ordem
71 1 85
82 82
77 2 94
92 97
88 ... ...
Soma
das Ordens
Isabel Fraga Alves FCUL/ DEIO - Estatística Aplicada: Métodos Não-Paramétricos 1ºAno/2ºSem (2009/2010) 96
Teste Mann-Whitney – Exemplo
Fábrica 1 Fábrica 2
Taxa Ordem Taxa Ordem
71 1 85
82 3 82 4
77 2 94
92 97
88 ... ...
Soma
das Ordens
17
Isabel Fraga Alves FCUL/ DEIO - Estatística Aplicada: Métodos Não-Paramétricos 1ºAno/2ºSem (2009/2010) 97
Teste Mann-Whitney – Exemplo
Fábrica 1 Fábrica 2
Taxa Ordem Taxa Ordem
71 1 85
82 3 3.5 82 4 3.5
77 2 94
92 97
88 ... ...
Soma
Das Ordens
Isabel Fraga Alves FCUL/ DEIO - Estatística Aplicada: Métodos Não-Paramétricos 1ºAno/2ºSem (2009/2010) 98
Teste Mann-Whitney – Exemplo
Fábrica 1 Fábrica 2
Taxa Ordem Taxa Ordem
71 1 85 5
82 3 3.5 82 4 3.5
77 2 94
92 97
88 ... ...
Soma
Das Ordens
Isabel Fraga Alves FCUL/ DEIO - Estatística Aplicada: Métodos Não-Paramétricos 1ºAno/2ºSem (2009/2010) 99
Teste Mann-Whitney – Exemplo
Fábrica 1 Fábrica 2
Taxa Ordem Taxa Ordem
71 1 85 5
82 3 3.5 82 4 3.5
77 2 94
92 97
88 6 ... ...
Soma
Das Ordens
Isabel Fraga Alves FCUL/ DEIO - Estatística Aplicada: Métodos Não-Paramétricos 1ºAno/2ºSem (2009/2010) 100
Teste Mann-Whitney – Exemplo
Fábrica 1 Fábrica 2
Taxa Ordem Taxa Ordem
71 1 85 5
82 3 3.5 82 4 3.5
77 2 94
92 7 97
88 6 ... ...
Soma
Das Ordens
Isabel Fraga Alves FCUL/ DEIO - Estatística Aplicada: Métodos Não-Paramétricos 1ºAno/2ºSem (2009/2010) 101
Teste Mann-Whitney – Exemplo
Fábrica 1 Fábrica 2
Taxa Ordem Taxa Ordem
71 1 85 5
82 3 3.5 82 4 3.5
77 2 94 8
92 7 97
88 6 ... ...
Soma
das Ordens
Isabel Fraga Alves FCUL/ DEIO - Estatística Aplicada: Métodos Não-Paramétricos 1ºAno/2ºSem (2009/2010) 102
Teste Mann-Whitney – Exemplo
Fábrica 1 Fábrica 2
Taxa Ordem Taxa Ordem
71 1 85 5
82 3 3.5 82 4 3.5
77 2 94 8
92 7 97 9
88 6 ... ...
Soma
Das Ordens
18
Isabel Fraga Alves FCUL/ DEIO - Estatística Aplicada: Métodos Não-Paramétricos 1ºAno/2ºSem (2009/2010) 103
Teste Mann-Whitney – Exemplo
Fábrica 1 Fábrica 2
Taxa Ordem Taxa Ordem
71 1 85 5
82 3 3.5 82 4 3.5
77 2 94 8
92 7 97 9
88 6 ... ...
Soma
Das Ordens19.5 25.5
Isabel Fraga Alves FCUL/ DEIO - Estatística Aplicada: Métodos Não-Paramétricos 1ºAno/2ºSem (2009/2010) 104
Teste Mann-Whitney – Exemplo
Suponha que é um gestor de produção e está interessado em investigar
se as taxas de produção de 2 fábricas são iguais. Para a fábrica 1, as taxas
(% de capacidade) são 71, 82, 77, 92, 88. Para a fábrica 2, as taxas são
85, 82, 94, 97. Terão as taxas de produção das 2 fábricas a mesma
distribução de probabilidade ao nível de .10 ?
H0: Distribuição Idêntica
Ha: Localização Diferente
= .10
n1 = 4 n2 = 5
Estatística de Teste :
T1 = 5 + 3.5 + 8+ 9 = 25.5
(Amostra de dimensão mais pequena)
p-value= 2P[ U1< 4.5 ] >2P[ U1< 4] =2x 0.0952
Decisão:
Não Rejeitar ao nível de = 10%
Conclusão:Não existe evidência estatística que nos permita duvidar que as 2
Fábricas têm Taxas de Produção Idênticas, ao nível de 10%.
1 11 1 2 1
( 1) 4 54 5 25.5 4.5
2 2
n nU n n T
Isabel Fraga Alves FCUL/ DEIO - Estatística Aplicada: Métodos Não-Paramétricos 1ºAno/2ºSem (2009/2010) 105
Teste Mann-Whitney – Exemplo
Suponha que é um gestor de produção e está interessado em investigar
se as taxas de produção de 2 fábricas são iguais. Para a fábrica 1, as taxas
(% de capacidade) são 71, 82, 77, 92, 88. Para a fábrica 2, as taxas são
85, 82, 94, 97. Terão as taxas de produção das 2 fábricas a mesma
distribução de probabilidade ao nível de .10 ?
H0: Distribuição Idêntica
Ha: Localização Diferente
= .10 n1 = 4 n2 = 5
No R:
x<-c(71, 82, 77, 92, 88)
y<-c(85, 82, 94, 97)
wilcox.test(x, y ,alternative = c("two.sided"),paired =F)
Wilcoxon rank sum test with continuity correction
data: x and y
W = 4.5, p-value = 0.2187
alternative hypothesis: true location shift is not equal to 0
Teste de Kruskal-Wallis
Contrapartida não-paramétrica para
ANOVA completely
randomized
Isabel Fraga Alves FCUL/ DEIO - Estatística Aplicada: Métodos Não-Paramétricos 1ºAno/2ºSem (2009/2010) 107
Teste de Kruskal-Wallis
A análise da variância leva em consideração que • as variáveis são independentes,
• tem uma distribuição normal com uma variância comum (homogeneidade das variâncias)
• média constante em cada coluna.
O teste Kruskal-Wallis é um método não paramétrico.• Não leva em consideração formas específicas de
distribuição.
• Contrapartida não-paramétrica para
ANOVA completely randomized
Isabel Fraga Alves FCUL/ DEIO - Estatística Aplicada: Métodos Não-Paramétricos 1ºAno/2ºSem (2009/2010) 108
Teste Kruskal-Wallis
Trata-se de um teste para decidir sek amostras de dimensões ni, i=1,…,k, (k>2) independentes
provêm de
• Ho: k populações com distribuições idênticas.
versus
• H1: pelo menos duas das k populações diferem
na localização.
Considerar a amostra global das n = ∑ni observações e
atribua Ordens.
Calcular as Somas das Ordens Ri , para cada amostra
i=1,…,k.
19
Isabel Fraga Alves FCUL/ DEIO - Estatística Aplicada: Métodos Não-Paramétricos 1ºAno/2ºSem (2009/2010) 109
Teste Kruskal-Wallis
Estatística de Teste:
• Sem empates
• Com empates( Siegel & Castellan ‟88, pg.210)
g := nº de grupos de empates distintos
tj := nº de valores empatados no grupo j de
empates, j=1,…,g
2* 2
1 1
12 123( 1) ( ) ,
( 1) ( 1)
/ e ( 1) / 2
k ki
i i
i ii
i i i
RH H n n R R
n n n n n
R R n R n
*
3
1
3
( )
1
g
j j
j
HH
t t
n n
Isabel Fraga Alves FCUL/ DEIO - Estatística Aplicada: Métodos Não-Paramétricos 1ºAno/2ºSem (2009/2010) 110
Teste Kruskal-Wallis – Grandes Amostras
Sob a hipótese nula, Estatística de Teste Hsegue aproximadamente um Qui-Quadrado com g.l.= k-1
Decisão: Rejeitar Ho se o valor da ET de K-W é “grande”
Rejeitar hipótese nula Ho se H > χ2k-1, 1-α
χ2k-1, 1-α
Deve-se usar apenas quando a mais pequena das dimensões ni ≥ 5.
Isabel Fraga Alves FCUL/ DEIO - Estatística Aplicada: Métodos Não-Paramétricos 1ºAno/2ºSem (2009/2010) 111
Teste Kruskal-Wallis – Pequenas Amostras
Quando k = 3 e ni 5, sem empates:
os Quantis w , = 0.90, 0.95, 0.99 da
distribuição exacta da ET K-W estão
tabelados na
• Tabela A8 (Conover ‟80)
Decisão: (ao nível α)
Rejeitar hipótese nula Ho se H > w1-α
Isabel Fraga Alves FCUL/ DEIO - Estatística Aplicada: Métodos Não-Paramétricos 1ºAno/2ºSem (2009/2010) 112
Teste de Kruskal-Wallis
Primeiramente, os dados são convertidos em “ordens”.
Considere os 4 Tratamentos seguintes, A, B, C, D, cada um com cinco réplicas.
Podemos dizer que esses valores são provenientes da mesma distribuição?
Ou seja, não existe uma diferença significativa entre os Tratamentos?
Tratamentos A B C D
27 48 11 44
14 18 0 72
8 32 3 81
18 51 15 55
7 22 8 39
Isabel Fraga Alves FCUL/ DEIO - Estatística Aplicada: Métodos Não-Paramétricos 1ºAno/2ºSem (2009/2010) 113
Teste de Kruskal-Wallis
Ordenação
•Nota: As diferenças nos pontos médios (Ri/ni) indicam diferenças nos grupos.
i
i
ii
i i
Isabel Fraga Alves FCUL/ DEIO - Estatística Aplicada: Métodos Não-Paramétricos 1ºAno/2ºSem (2009/2010) 114
Teste de Kruskal-Wallis
A hipótese nula é que todos os grupos vêem da
mesma população.
Seja n = 20, o tamanho da amostra total.
A Estatística de Teste é
Para nosso exemplo
2*
1
123( 1)
( 1)
ki
i i
RH n
n n n
* 12259.2 884.45 92.45 1479.2 3 (21) 14.6
20 21H
20
Isabel Fraga Alves FCUL/ DEIO - Estatística Aplicada: Métodos Não-Paramétricos 1ºAno/2ºSem (2009/2010) 115
Teste de Kruskal-Wallis
Factor de Correcção:
Com g = 2 (valores 8 e 18), t1 = t2 = 2 (dois valores 8 e dois valores 18),
A Estatística de Teste corrigida é
Para nosso exemplo
14.614.622
0.9985H
*
23
1
3
( )
1
j j
j
HH
t t
n n
23
31
3 3
( )2(2 2) 12
1 1 1 0.998520 20 7980
j j
j
t t
n n
Isabel Fraga Alves FCUL/ DEIO - Estatística Aplicada: Métodos Não-Paramétricos 1ºAno/2ºSem (2009/2010) 116
Teste de Kruskal-Wallis
DECISÃO:
Logo, a hipótese nula deve ser rejeitada, ou seja,
as amostras não pertencem a mesma população.
Comparação deste valor com o quantil 2 com (k -1=3)
graus de liberdade.
Da tabela do 2 com 3 graus de liberdade temos
• χ23, 0.95 =7.81 para 95%.
• Como H = 14.622χ2
3
7.81 14.5
χ23, 0.95
Isabel Fraga Alves FCUL/ DEIO - Estatística Aplicada: Métodos Não-Paramétricos 1ºAno/2ºSem (2009/2010) 117
Teste de Kruskal-Wallis
No R:aa <- c(27,14,8,18,7) # tratamento A
bb <- c(48,18,32,51,22) # tratamento B
cc <- c(11,0,3,15,8) # tratamento C
dd <- c(44,72,81,55,39) #tratamento D
grupo <- factor(rep(1:4, each=5),labels = c("A","B","C","D"))
grupo
r<-rank(c(aa,bb,cc,dd))
R<-tapply(r,grupo,sum)
R
n=20
hstar= (12/(n*(n+1))) * sum(R^2/5) - 3*(n+1)
hstar
#Fator de correção
t=c(2,2)
correction=1-sum(t^3-t)/(n^3-n)
correction
h=hstar/correction
h
#h sob ho segue qui-quadrado com k-1 graus de liberdade=3
p.valor<-pchisq(h,df=3,lower.tail=F)
p.valor
quantil<-qchisq(p=0.95, df=3, lower.tail = TRUE)
quantil
Isabel Fraga Alves FCUL/ DEIO - Estatística Aplicada: Métodos Não-Paramétricos 1ºAno/2ºSem (2009/2010) 118
Teste de Kruskal-Wallis
No R:kruskal.test(list(aa,bb,cc,dd))
Outro exemplo
## Mucociliary efficiency from the rate of removal of
## dust in normal subjects, subjects with obstructive
## airway disease, and subjects with asbestosis.
x <-c(2.9, 3.0, 2.5, 2.6, 3.2) # normal subjects
y <-c(3.8,2.7,4.0,2.4)# with obstructive airway disease
z <-c(2.8, 3.4, 3.7, 2.2, 2.0) # with asbestosis
Teste do Coeficiente de
correlação ordinal de
Spearman
contrapartida não-paramétrica do
coeficiente de correlação
amostral de Pearson
Isabel Fraga Alves FCUL/ DEIO - Estatística Aplicada: Métodos Não-Paramétricos 1ºAno/2ºSem (2009/2010) 120
População X População Y (contínuas)
1 1 2 2( , ),( , ), , ( , )n nX Y X Y X Y
0 : relação ( ) entre e , ie,
e
Não existe associaçao
independente sã o s
H X Y
X Y
Teste do Coef de correlação ordinal de Spearman
1. : entre exi e ste associaçao (Teste Bilateral)vs H X Y
1. : entre exist ee associaçao directa (Teste Unilateral) vs H X Y
1. : entre existe associaçao inversa (Teste Unilateral) e vs H X Y
21
Isabel Fraga Alves FCUL/ DEIO - Estatística Aplicada: Métodos Não-Paramétricos 1ºAno/2ºSem (2009/2010) 121
Teste do Coef de correlação ordinal de Spearman
O coeficiente de correlação ordinal de Spearman Rs é a contrapartida não-paramétrica do coeficiente de correlação amostral de Pearson, em queos Xi‟s e os Yi‟s sao substituídos pelas suas ordens.
• Para obter r(Xi)=ordem de Xi e r(Yi)= ordem de Yi, ordenam-se as amostras dos Xi‟s e osYi‟s separadamente.
Observação:
Num modelo paramétrico e Normal, X e Y são independentes sse o
coeficiente de correlção ρ=corr(X,Y)=0, ie,
• testar Ho é equivalente a testar Ho: ρ =0, pelo que e natural usar o coeficiente
de correlacao amostral.
Isabel Fraga Alves FCUL/ DEIO - Estatística Aplicada: Métodos Não-Paramétricos 1ºAno/2ºSem (2009/2010) 122
Teste do Coef de correlação ordinal de Spearman
Coeficiente de correlação ordinal de Spearman Rs:
Observação: Se o nº de empates for pequeno relativamente ao
nº de pares (Xi,Yi) o erro resultante desta última expressão é
pequeno.
2
1
2
naSe houver ,
6
1 , ( 1)
com ( )
o
( ).
n
i
i
i i i
S
d
n n
d r x r
empat
y
es
R
Isabel Fraga Alves FCUL/ DEIO - Estatística Aplicada: Métodos Não-Paramétricos 1ºAno/2ºSem (2009/2010) 123
Teste do Coef de correlação ordinal de Spearman
Região de Rejeição (Pequenas Amostras):
p-value= 2 min[P(RS≤rS), P(RS≥rS)] (Teste Bilateral)
= P(RS ≥ rS)
= P(RS ≤ rS) (Testes Unilaterais)
Observação: Se o nº de empates for pequeno relativamente ao nº
de pares (Xi,Yi) o erro resultante desta última expressão é pequeno.
Grandes Amostras: para um nº de pares (Xi,Yi) elevado,
pode ser aproximada pela N(0,1).n-1 SR
0
0 0 0 0
0 0
Tabela 11,
Teste Bilateral
Com escolhido criteriosamente na
Rejeitar H , se { } | |
} { Testes Unilater{ } a s i
S S S
S S
r
r ou r r
r ou r
R R R
R R
Isabel Fraga Alves FCUL/ DEIO - Estatística Aplicada: Métodos Não-Paramétricos 1ºAno/2ºSem (2009/2010) 124
Teste de Spearman - Exemplo
Cinco professores de Ciências do ensino básico foram classificados por um júri de acordo com sua capacidade pedagógica.
Esses mesmos professores realizaram um "exame nacional para professores".
Existe acordo entre a classificação do júri e a classificação no exame?
Se a Ordenação do Júri é baixa(melhor professor), seria de esperar a Classificação elevadano exame para professores;
pelo que colocamos na hipótese alternativa uma associação inversa entre as variáveis Ordenação do Júri e Classificação no Exame.
Professor 1 2 3 4 5
Ordenação
do Júri
4 2 3 1 5
Classificação
no Exame
72 69 82 93 80
0
1
: ) entre e
.
: entre e
Não existe associaçao
e
xiste as
sociaçao inversa
(Teste Unila teral)
H X Y
vs
H X Y
Isabel Fraga Alves FCUL/ DEIO - Estatística Aplicada: Métodos Não-Paramétricos 1ºAno/2ºSem (2009/2010) 125
Professor 1 2 3 4 5
Ordenação do Júri 4 2 3 1 5
Classificação no Exame 72 69 82 93 80
R(xi) 4 2 3 1 5
R(yi) 2 1 4 5 3
di 2 1 -1 -4 2
Teste de Spearman - Exemplo
Ordenar os Resultados dos Exames (a 1ª variavel já está na
forma ordenada). Não há empates.
0
1
) entre e
.
entre e
Não exis
te associaçao
existe asso
ci
açao inversa
(Teste Unilateral)
:
:
H
H
X Y
vs
X Y
Isabel Fraga Alves FCUL/ DEIO - Estatística Aplicada: Métodos Não-Paramétricos 1ºAno/2ºSem (2009/2010) 126
Teste de Spearman - Exemplo
Com nível de significância=0.05, n=5
Rejeita-se H0 se Rs <=0
2
2
1
2 2
66 6(26)
1 1 1 0.3.( 1) ( 1) 5(25 1)
S
n
i
i i
dd
n n n nr
22
Teste de Spearman - Exemplo
No R:a <- c(4,2,3,1,5)
b <- c(72, 69,82,93,80)
cor.test(a, b, method="spearman",alternative="less")
Spearman's rank correlation rho
data: a and b
S = 26, p-value = 0.3417
alternative hypothesis: true rho is less than 0
sample estimates:
rho
-0.3
> ?cor.test
Teste de Spearman - Exemplo
Decisão: Não Rejeitar Ho. Não existe evidência suficiente que indique umaassociação negativa entre Ordenação do Júri e Classificação no Exame, ao nível de significância de 5%.