medidas de associação 2. testes qui-quadrado: aderência ... · de homogeneid ade, onde a...
TRANSCRIPT
Material didático – Profa. Dra. Adriana Barbosa Santos
Medidas de associação 1. Variáveis qualitativas/categóricas O que são dados categóricos? São dados decorrentes da observação de variáveis categóricas, ou seja, aqueles que identificam para cada caso uma categoria. As categorias podem ser derivadas de variáveis qualitativas (nominais ou ordinais) ou quantitativas. O que fazer para descrever dados categóricos? 1. Faça uma figura: A exibição dos seus dados irá revelar coisas que
você talvez não veja numa tabela numérica. Auxilia no planejamento de sua abordagem analítica e contribui para pensar claramente sobre os padrões e relacionamentos que podem estar escondidos nos seus dados.
2. Faça uma figura: Uma exibição bem projetada irá executar muito do trabalho da análise dos seus dados. A figura pode revelar padrões, valores atípicos ou valores extraordinários que ressaltam erros.
3. Faça uma figura: Uma figura bem escolhida ajuda a relatar aos outros o que você encontrou nos seus dados em sua análise.
4. Faça uma tabela de frequências: Uma tabela de frequências ou de frequências relativas é o primeiro passo para se obter uma visualização preliminar conjunta dos dados.
5. Faça uma tabela de contingência: Tabela de dupla entrada que mostra como as frequências das categorias de uma variável X se distribuem ao longo das categorias da variável Y.
6. Analise as distribuições condicionais: Uma distribuição condicional
mostra a distribuição de uma variável apenas para aqueles casos que satisfazem uma condição em outra.
7. Verifique se há independência entre as variáveis: Numa tabela de
contingência quando a distribuição de uma variável é a mesma para
todas as categorias da outra, dizemos que as variáveis são
independentes.
8. Paradoxo de Simpson: Fenômeno que surge quando percentuais são tomados entre diferentes grupos e estes percentuais dos grupos parecem contradizer os percentuais totais.
9. Descreva a associação entre as variáveis X e Y por meio de
coeficientes adequados: Uma das medidas mais usuais é o qui-
quadrado de Pearson.
oij - frequência observada na i-ésima categoria da variável X e j-ésima
categoria da variável Y; eij - frequência esperada na i-ésima categoria da variável X e j-ésima
categoria da variável Y; 𝑒𝑖𝑗 = 𝑒𝑖.𝑒.𝑗/𝑛 para i=1,... , n e j=1,... , m.
Se as variáveis forem associadas, o valor de 𝜒2 deve ser grande.
2. Testes qui-quadrado: Aderência, Homogeneidade e Independência Teste de aderência:
.P amcaracteriz que dasespecifica proporções são onde
,...,:
:como H hipótese aescrever podemos
que modo talde e específica adesprobabilid de ãodistribuiç uma tem onde
:H
hipótese a testar queremos
e P população uma acaracteriz que aleatória amostra uma ,...,, Seja
00
02021010
0
0
00
21
i
ss
n
p
ppppppH
P
PP
XXX
Suposições e condições: 1. Os dados devem ser derivados de contagem (frequencias) para as categorias da variável categórica 2. As frequências das células da tabela de dupla entrada devem ser independentes umas das outras 3. Os sujeitos contados na tabela devem ser de uma amostra aleatória extraída de alguma população. 4. Devemos ter dados suficientes 5. Devemos esperar que a frequência seja de pelo menos 5 elementos em cada célula da tabela 6. Parte-se de um modelo probabilístico considerado satisfatório para descrever o comportamento da população Teste de Homogeneidade:
.P amcaracteriz
que proporções são e P amcaracteriz que proporções são onde
,...,:
:como H hipótese aescrever podemos amenteAlternativ
:H
:segue como formulada é nula hipótese a onde ade,homogeneid de
testeum de diante estamos extraídas, foram amostras as onde de populações
das adehomogeneid de hipótese a testar desejarmos Se . P e P populações
as amcaracteriz que aleatórias amostras duas ,...,, e ,...,, Sejam
2
211
2121110
0
210
21
2121
ii
mm
mn
pp
ppppH
PP
YYYXXX
Observe que: Neste caso, os sujeitos contados na tabela devem ser de amostras aleatórias extraídas de populações distintas Teste de Independência:
tesindependen são não variáveis As:H
tesindependen são Y e Xvariáveis As:H
:segue como formulada é nula hipótese a onde
cia,independên de testeum de diante estamos Y, e Xentre associação não
ou ciaindependên de hipótese a testar desejarmos Se Y. e Xvariáveis as
descrevem que aleatórias amostras duas ,...,, e ,...,, Sejam
1
0
2121 mn YYYXXX
Observe que: Neste caso, os sujeitos contados na tabela devem ser de uma amostra aleatória extraída de uma única população.
Regra de decisão pode ser baseada também no Valor P: Se, para α fixado,
obtemos P < α, então, rejeitamos a hipótese nula.
i j ij
ijij
e
eo 2
2
0
)(
2
0
2
0
2
)1)(1( de direita à curva a sob área )( mnPP