medidas de associação 2. testes qui-quadrado: aderência ... · de homogeneid ade, onde a...

1
Material didático Profa. Dra. Adriana Barbosa Santos Medidas de associação 1. Variáveis qualitativas/categóricas O que são dados categóricos? São dados decorrentes da observação de variáveis categóricas, ou seja, aqueles que identificam para cada caso uma categoria. As categorias podem ser derivadas de variáveis qualitativas (nominais ou ordinais) ou quantitativas. O que fazer para descrever dados categóricos? 1. Faça uma figura: A exibição dos seus dados irá revelar coisas que você talvez não veja numa tabela numérica. Auxilia no planejamento de sua abordagem analítica e contribui para pensar claramente sobre os padrões e relacionamentos que podem estar escondidos nos seus dados. 2. Faça uma figura: Uma exibição bem projetada irá executar muito do trabalho da análise dos seus dados. A figura pode revelar padrões, valores atípicos ou valores extraordinários que ressaltam erros. 3. Faça uma figura: Uma figura bem escolhida ajuda a relatar aos outros o que você encontrou nos seus dados em sua análise. 4. Faça uma tabela de frequências: Uma tabela de frequências ou de frequências relativas é o primeiro passo para se obter uma visualização preliminar conjunta dos dados. 5. Faça uma tabela de contingência: Tabela de dupla entrada que mostra como as frequências das categorias de uma variável X se distribuem ao longo das categorias da variável Y. 6. Analise as distribuições condicionais: Uma distribuição condicional mostra a distribuição de uma variável apenas para aqueles casos que satisfazem uma condição em outra. 7. Verifique se há independência entre as variáveis: Numa tabela de contingência quando a distribuição de uma variável é a mesma para todas as categorias da outra, dizemos que as variáveis são independentes. 8. Paradoxo de Simpson: Fenômeno que surge quando percentuais são tomados entre diferentes grupos e estes percentuais dos grupos parecem contradizer os percentuais totais. 9. Descreva a associação entre as variáveis X e Y por meio de coeficientes adequados: Uma das medidas mais usuais é o qui- quadrado de Pearson. o ij - frequência observada na i-ésima categoria da variável X e j-ésima categoria da variável Y; e ij - frequência esperada na i-ésima categoria da variável X e j-ésima categoria da variável Y; = . . / para i=1,... , n e j=1,... , m. Se as variáveis forem associadas, o valor de 2 deve ser grande. 2. Testes qui-quadrado: Aderência, Homogeneidade e Independência Teste de aderência: . P am caracteriz que das esp ecifica proporções são onde ,... , : : como H hipótese a escrever podemos que modo tal de e esp ecífica ades probabilid de ão distribuiç uma tem onde : H hipótese a testar queremos e P população uma a caracteriz que aleatória amostra uma ,..., , Seja 0 0 0 20 2 10 1 0 0 0 0 0 2 1 i s s n p p p p p p p H P P P X X X Suposições e condições: 1. Os dados devem ser derivados de contagem (frequencias) para as categorias da variável categórica 2. As frequências das células da tabela de dupla entrada devem ser independentes umas das outras 3. Os sujeitos contados na tabela devem ser de uma amostra aleatória extraída de alguma população. 4. Devemos ter dados suficientes 5. Devemos esperar que a frequência seja de pelo menos 5 elementos em cada célula da tabela 6. Parte-se de um modelo probabilístico considerado satisfatório para descrever o comportamento da população Teste de Homogeneidade: . P am caracteriz que proporções são e P am caracteriz que proporções são onde ,..., : : como H hipótese a escrever podemos amente Alternativ : H : segue como formulada é nula hipótese a onde ade, homogeneid de teste um de diante estamos extraídas, foram amostras as onde de populações das ade homogeneid de hipótese a testar desejarmos Se . P e P populações as am caracteriz que aleatórias amostras duas ,..., , e ,..., , Sejam 2 2 1 1 2 1 21 11 0 0 2 1 0 2 1 2 1 2 1 i i m m m n p p p p p p H P P Y Y Y X X X Observe que: Neste caso, os sujeitos contados na tabela devem ser de amostras aleatórias extraídas de populações distintas Teste de Independência: tes independen são não variáveis As : H tes independen são Y e X variáveis As : H : segue como formulada é nula hipótese a onde cia, independên de teste um de diante estamos Y, e X entre associação não ou cia independên de hipótese a testar desejarmos Se Y. e X variáveis as descrevem que aleatórias amostras duas ,..., , e ,..., , Sejam 1 0 2 1 2 1 m n Y Y Y X X X Observe que: Neste caso, os sujeitos contados na tabela devem ser de uma amostra aleatória extraída de uma única população. Regra de decisão pode ser baseada também no Valor P: Se, para α fixado, obtemos P < α, então, rejeitamos a hipótese nula. i j ij ij ij e e o 2 2 0 ) ( 2 0 2 0 2 ) 1 )( 1 ( de direita à curva a sob área ) ( m n P P

Upload: lytu

Post on 12-Nov-2018

217 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Medidas de associação 2. Testes qui-quadrado: Aderência ... · de homogeneid ade, onde a hipótese nula é formulada como segue : populações de onde as amostras foram extraídas,

Material didático – Profa. Dra. Adriana Barbosa Santos

Medidas de associação 1. Variáveis qualitativas/categóricas O que são dados categóricos? São dados decorrentes da observação de variáveis categóricas, ou seja, aqueles que identificam para cada caso uma categoria. As categorias podem ser derivadas de variáveis qualitativas (nominais ou ordinais) ou quantitativas. O que fazer para descrever dados categóricos? 1. Faça uma figura: A exibição dos seus dados irá revelar coisas que

você talvez não veja numa tabela numérica. Auxilia no planejamento de sua abordagem analítica e contribui para pensar claramente sobre os padrões e relacionamentos que podem estar escondidos nos seus dados.

2. Faça uma figura: Uma exibição bem projetada irá executar muito do trabalho da análise dos seus dados. A figura pode revelar padrões, valores atípicos ou valores extraordinários que ressaltam erros.

3. Faça uma figura: Uma figura bem escolhida ajuda a relatar aos outros o que você encontrou nos seus dados em sua análise.

4. Faça uma tabela de frequências: Uma tabela de frequências ou de frequências relativas é o primeiro passo para se obter uma visualização preliminar conjunta dos dados.

5. Faça uma tabela de contingência: Tabela de dupla entrada que mostra como as frequências das categorias de uma variável X se distribuem ao longo das categorias da variável Y.

6. Analise as distribuições condicionais: Uma distribuição condicional

mostra a distribuição de uma variável apenas para aqueles casos que satisfazem uma condição em outra.

7. Verifique se há independência entre as variáveis: Numa tabela de

contingência quando a distribuição de uma variável é a mesma para

todas as categorias da outra, dizemos que as variáveis são

independentes.

8. Paradoxo de Simpson: Fenômeno que surge quando percentuais são tomados entre diferentes grupos e estes percentuais dos grupos parecem contradizer os percentuais totais.

9. Descreva a associação entre as variáveis X e Y por meio de

coeficientes adequados: Uma das medidas mais usuais é o qui-

quadrado de Pearson.

oij - frequência observada na i-ésima categoria da variável X e j-ésima

categoria da variável Y; eij - frequência esperada na i-ésima categoria da variável X e j-ésima

categoria da variável Y; 𝑒𝑖𝑗 = 𝑒𝑖.𝑒.𝑗/𝑛 para i=1,... , n e j=1,... , m.

Se as variáveis forem associadas, o valor de 𝜒2 deve ser grande.

2. Testes qui-quadrado: Aderência, Homogeneidade e Independência Teste de aderência:

.P amcaracteriz que dasespecifica proporções são onde

,...,:

:como H hipótese aescrever podemos

que modo talde e específica adesprobabilid de ãodistribuiç uma tem onde

:H

hipótese a testar queremos

e P população uma acaracteriz que aleatória amostra uma ,...,, Seja

00

02021010

0

0

00

21

i

ss

n

p

ppppppH

P

PP

XXX

Suposições e condições: 1. Os dados devem ser derivados de contagem (frequencias) para as categorias da variável categórica 2. As frequências das células da tabela de dupla entrada devem ser independentes umas das outras 3. Os sujeitos contados na tabela devem ser de uma amostra aleatória extraída de alguma população. 4. Devemos ter dados suficientes 5. Devemos esperar que a frequência seja de pelo menos 5 elementos em cada célula da tabela 6. Parte-se de um modelo probabilístico considerado satisfatório para descrever o comportamento da população Teste de Homogeneidade:

.P amcaracteriz

que proporções são e P amcaracteriz que proporções são onde

,...,:

:como H hipótese aescrever podemos amenteAlternativ

:H

:segue como formulada é nula hipótese a onde ade,homogeneid de

testeum de diante estamos extraídas, foram amostras as onde de populações

das adehomogeneid de hipótese a testar desejarmos Se . P e P populações

as amcaracteriz que aleatórias amostras duas ,...,, e ,...,, Sejam

2

211

2121110

0

210

21

2121

ii

mm

mn

pp

ppppH

PP

YYYXXX

Observe que: Neste caso, os sujeitos contados na tabela devem ser de amostras aleatórias extraídas de populações distintas Teste de Independência:

tesindependen são não variáveis As:H

tesindependen são Y e Xvariáveis As:H

:segue como formulada é nula hipótese a onde

cia,independên de testeum de diante estamos Y, e Xentre associação não

ou ciaindependên de hipótese a testar desejarmos Se Y. e Xvariáveis as

descrevem que aleatórias amostras duas ,...,, e ,...,, Sejam

1

0

2121 mn YYYXXX

Observe que: Neste caso, os sujeitos contados na tabela devem ser de uma amostra aleatória extraída de uma única população.

Regra de decisão pode ser baseada também no Valor P: Se, para α fixado,

obtemos P < α, então, rejeitamos a hipótese nula.

i j ij

ijij

e

eo 2

2

0

)(

2

0

2

0

2

)1)(1( de direita à curva a sob área )( mnPP