analise_qlql_-_resumo.pdf
TRANSCRIPT
-
7/26/2019 Analise_QLQL_-_Resumo.pdf
1/8
Guilherme Augusto de Matheucci e [email protected] Sanitria eAmbiental13/11/2013
Anlise QL QL Metodo do X
Isso um resumo-manual, ou seja, primeiro apresentarei os conceitos, depois explicarei passo
a passo como fazer uma anlise.
Para fazer uma anlise de dados QL-QL (qualitativa, qualitativa), primeiramente devemos
saber o que uma varivel qualitativa. Ou melhor, se ela qualitativa ou quantitativa.
Vejamos os conceitos:
1. Varivel Qualitativa: expressa em categorias, isto , a resposta uma caracterstica.
Como assim? Vejamos exemplos que fica mais fcil:
a. Sexo(resposta: masculino ou feminino, no h uma quantidade, a resposta
no um nmero)
b. Aprovao(resposta: Sim ou No, no h uma quantidade)
c.
Bebe(resposta: Sim ou No, no h uma quantidade)
d. Timeque torce (resposta: Figueirense, Ava, Cricima, Nenhum time.)
e. Gnerode filme(Drama, Romance, Comdia)
f. Conceito(Tirou Excelente, Muito Bom, Mediano)
g. Escolaridade(Ensino Superior, Mdio, Fundamental, l e escreve)
2. Variveis Quantitativas:expressa medidas, nmeros
a. Notas(resposta: 10; 8,5; 7)
b.
Idade(resposta: 70, 50, 45)
c. Quantas disciplinas faz(resposta: 5, 3, 2, 10)
d.
Salrio(resposta: R$5.000; R$4.000)e.
Distncia da casa a UFSC(resposta: 5km, 4km, 100m)
f. Populao da cidade(300 mil; 40 mil; 500(Alfredo Wagner))
Variveis QualitativasComo o objetivo deste manual a anlise meramente qualitativa (QL-QL), temos que perceber
alguns fatores:
1. Tipos de Varivel Qualitativa:
a. Nominal:a ordem no importa (ex: Masculino e feminino, no h um mais
importante que o outro, ento tanto faz. O fato de beber ou no beber
tambm no interfere, nem mesmo time que se torce, ou gnero do filme)
b. Ordinal:a ordem importa, h uma hierarquia implcita ou explcita (ex: o
conceito num mestrado, Excelente maior que Muito Bom, que maior que
Mediano, etc A escolaridade tambm interfere, poisalguns tem MAIOR
escolaridade do que outros.)
2. Dependncia da Varivel:
Quando h duas variveis, temos que inferir qual que depende da outra.
Como assim? Por exemplo se queres saber se o fato do gnero influencia no
gosto de um filme, a varivel INDEPENDENTE (a que regula) o GNERO), j aDEPENDENTE ( o filme). Ou seja, queres analisar se o fato de algum gostar
-
7/26/2019 Analise_QLQL_-_Resumo.pdf
2/8
Guilherme Augusto de Matheucci e [email protected] Sanitria eAmbiental13/11/2013
de um filme DEPENDE do gnero, que INDEPENDENTE. Tal situao aplica no
sistema CAUSA-EFEITO
3. Maneiras de analisarmos uma Varivel Qualitativa:
a. Criando uma TABELA DE FREQUNCIAS: que nada mais do que a tabela de
quantidade de cada varivel. Ou numa definio mais bonita: uma forma
estruturada de apresentar um conjunto de valores de uma varivel. De
preferncia deve conter a porcentagem:
Time que torce Quantidade (X%)
Figueirense 1400 (28%)Cricima 1300 (26%)Joinville 1200 (24%)Ava 100 (2%)Nenhum 1000 (20%)Total 5000 (0%)
b.
Criando uma TABELA DE CONTIGNCIA: Apresenta quantidades e
porcentagens (frequncias) relacionando duas variveis, como no exemplo do
manual anterior (Homem, mulher, maior de idade, menor de idade)
Esporte favorito Homem Mulher Total
Volei 4 (10%) 8 (20%) 12 (30%)Futebol 16 (40%) 4 (10%) 20 (50%)Tenis 2 (5%) 6 (15%) 8 (20%)Total 22 (55%) 18 (45%) 40 (100%)
Olhando esse caso, j pode-se observar alguma discrepncia. Por exemplo, h uma grande
quantidade de homens que gostam de futebol e poucos que gostam de tnis. J nas mulheres
parece haver um equilbrio. Isto pode ser analisado mais numericamente utilizando o mtodo
do X
Mtodo do X (Teste de hipteses)Este mtodo consiste em darmos um valor ABSOLUTO para as nossas suposies. Uma coisa
acharmos que algo tem a ver, outra darmos uma veia estatstica, provarmos issomatematicamente. De maneira bonita, um teste de hipteses um processo de inferncia
(discutir a partir de um pequeno grupo sua relao com a realidade) que busca verificar a
associao ou no entre duas variveis (ex: se o gnero influencia no esporte)
Para isso, preciso seguir alguns conceitos:
1. Nvel de Significncia: a chance mxima de ERRO ao se inferir na hiptese H1. o
contrrio da confiabilidade. Serve como um parmetro na anlise estatstica.
Os mais comuns so 10%, 5% e 1%: 0,10; 0,05 e 0,01.
Ou seja, se nvel de significncia alcanado foi 0,05 e inferimos que a relao entre
sexo e gosto musical EXISTE, isso tem 5% de chance de estar errado!
-
7/26/2019 Analise_QLQL_-_Resumo.pdf
3/8
Guilherme Augusto de Matheucci e [email protected] Sanitria eAmbiental13/11/2013
2. Frequncia esperada: a frequncia que cada varivel teria se no houvesse
absolutamente NENHUMA RELAO. J explicarei mais um pouco abaixo
3. Grau de liberdade: o nmero de clulas livres (explicarei junto com a frequncia
esperada)
4. Distncia X: Somatrio das diferenas (ao quadrado) entre o que foi observado e o
que foi esperado. Note-se que, se o X for grande, quer dizer que o observado foi
muito diferente do esperado, havendo relao.
5. Pvalor:probabilidade de significncia entre as associaes das duas variveis. a
chance de erro ao se inferir na hiptese H1. Ou seja, se o pvalor muito baixo, quer
dizer que h uma forte chance de haver relao (tudo ser explicado com exemplos ali
em baixo)
Frequncia esperadaComo falei, representa um mundo onde no h relao entre as variveis. Mostra o que se
ESPERA!
Vejamos o exemplo do manual anterior:
OBSERVADO Homens Mulheres Total
Maior de Idade 400 300 700Menor de Idade 200 100 300Total 600 400 1000
Como vamos obter a tabela ESPERADA??? Bem, podemos fazer CLULA A CLULA. Lembrem
como calculamos cada clula???
A primeira clula indica os HOMENS que so ADULTOS (maiores de idade). Em probabilidade,
qual a chance de uma pessoa aleatria ser um homem E um adulto???
Ou seja, qual P(AH)? Pela ltima frmula que verificamos, temos que:
P(AH) = P (H) *P(A|seH)
Como queremos determinar o ESPERADO, onde no h relao NENHUMA entre as variveis,
pensem assim: se o fato de ser homem ou mulher no interfere se ele adulto ou criana,
ento a chance de ser adulto se for homem (de um homem ser adulto) P(A|seH) to
somente a mesma de ser simplesmente adulto P(A), nesse caso. Assim, calcularemos a
primeira clula assim:
P(AH) = P (H) *P(A|seH)
P(AH) = P (H) *P(A)
P(AH) =0,60 *0,70 = 0,42 (42%)
Assim, 0,42 a chance ESPERADA, num mundo IDEAL, de uma pessoa ser HOMEM e ADULTO.
Como temos 1000 pessoas, 42% de 1000 420.
Vamos seguir esse mesmo raciocnio para as outras clulas:
-
7/26/2019 Analise_QLQL_-_Resumo.pdf
4/8
Guilherme Augusto de Matheucci e [email protected] Sanitria eAmbiental13/11/2013
1. P(MA) = P(M) *P(A) = 0,40*0,70 = 0,28 = 28%.
28% de 1000 = 280
2. P (MC)= P(M)*P(C)= 0,40*0,30 = 0,12 = 12%
12% de 1000 = 120
3.
P(HC) = P(H)*P*(C)=0,60*0,30 = 0,18 = 18%
18% DE 1000 = 180
Montando a tabela esperada:
Esperado Homens Mulheres Total
Maior de Idade 420 280 700Menor de Idade 180 120 300Total 600 400 1000
Note que as extremidades continuam as mesmas. Isso porque a chance de cada varivel,
independentemente, foi MANTIDA! Naturalmente, pois a chance de ser homem continua a
mesma, independente de qualquer outra coisa. Isso ajudar a entender o conceito de GRAU
DE LIBERDADE
Grau de LiberdadeSignifica o nmero de variveis livres na tabela, isto , considerando que as extremidades so
sempre as mesmas, quantos nmeros eu posso botar ALEATORIAMENTE????
Ex, se eu fizer uma nova observao e descobrir que h 500 homens. Como as extremidades
esto FIXAS, as outras clulas dependero DESTA inicial. Ou seja, esta inicial completamente
LIVRE, enquanto as outras so DEPENDENTES dessa.
Homens Mulheres Total
Maior de Idade 500 700-500 = 200 700
Menor de Idade 600-500 =100 300-100=400-200=200 300
Total 600 400 1000
Observe que s UM valor controla a tabela, ento o grau de liberdade UM, isto , s tem um
valor livre.
Agora olhe essa outra tabela aqui:
Esporte favorito Homem Mulher Total
Volei 4 8 12Futebol 16 4 20Tenis 2 6 8Total 22 18 40
Veja que agora temos duas categorias para uma varivel, enquanto temos duas categorias
para a outra. Como saberemos ento? Lembrando que as extremidades ficam fixas, se
-
7/26/2019 Analise_QLQL_-_Resumo.pdf
5/8
Guilherme Augusto de Matheucci e [email protected] Sanitria eAmbiental13/11/2013
estipularmos um nmero de homens que gostam de vlei, saberemos as mulheres que
tambm gostam de vlei. Mas e depois??? Olhe bem:
Esporte favorito Homem Mulher Total
Volei 9 3 12
Futebol 20Tenis 8Total 22 18 40
As pessoas que gostam de Futebol e Tenis podem variar. Eu posso escolher 9 homens que
gostam de futebol, restando assim somente quatro que gostam de tnis. Ou ento 11 homens
que gostam de futebol, restando apenas dois que gostam de tnis. Note que ainda h outra
clula livre para eu escolher. Veremos se com ela j completamos.
Esporte favorito Homem Mulher Total
Volei 9 12-9 = 3 12
Futebol 11 20-11 = 9 20
Tenis 22-11-9 = 2 8-2=18-9-3 =6 8
Total 22 18 40
FECHOU! Ento temos duas variveis livres nesse caso.
Agora vamos raciocinar um pouco A primeira tabela tinha duas linhas e duas colunas (ignore
os totais, pelo amor de deus) e o grau de liberdade era UM. A segunda tabela tinha duas trs
linhas e duas colunas e o grau de liberdade era dois. Se resolveres brincar (eu sei que no vais),
vers que numa 3x3 temos quatro variveis livres:
Girassol Violeta Rosa Total
Amarelo 19 0 20-19-0 = 1 20
Vermelho 1 10 50-10-1 = 39 50
Azul 20-19-1 = 0 40-10-0= 30 30-30-0=40-39-1=0 30
Total 20 40 40 100
Se fizermos mais, podemos deduzir uma frmula:
Gl (grau de liberdade) = (nmero de linhas menos um) * (nmeros de colunas menos um) =
(nL-1)*(nC-1)
Verificando:
1 Caso (2x2) = (2-1)*(2-1) = 1*1 = 1 varivel livre CORRETO
2 Caso (3x2) = (3-1)*(2-1) = 2*1 = 2 variveis livres CORRETO
3 Caso (3x3) = (3-1)*(3-1) = 2*2 = 4 variveis livres CORRETO
-
7/26/2019 Analise_QLQL_-_Resumo.pdf
6/8
Guilherme Augusto de Matheucci e [email protected] Sanitria eAmbiental13/11/2013
Qui QuadradoComo eu falei o somatrio das diferenas sobre o valor esperado. Se encontra na frmula:
Meu deus, mas o que isso???
Vamos pegar aquela tabela da criminalidade l:
OBSERVADO Homens Mulheres Total
Maior de Idade 400 300 700Menor de Idade 200 100 300Total 600 400 1000
Esperado Homens Mulheres Total
Maior de Idade 420 280 700Menor de Idade 180 120 300Total 600 400 1000
Esto vendo aqueles somatrios. Vejam que tem i e j. Ou seja, faremos o somatrio dos
valores LINHA A LINHA e COLUNA A COLUNA. Mais precisamente, CLULA A CLULA!
1 Clula: (400-420)/420 = 400/420 = 0,95 [precisa de todos os algarismos, mas eu
estou com preguia]
2 Clula (300-280)/280 = 400/280 = 1,43
3 Clula(200-180)/180 = 400/180 = 2,22
4 Clula (120-100)/120 = 400/120 = 3,33
SOMATRIO (X) = 0,95+1,43+2,22+3,33 =7,93
Observamos duas coisas:
1.
O numerador, a princpio, se mantm (sempre 400), mas isso no regra quando se
utilizar tabelas maiores.2. Se o nmero de baixo (esperado) for muito pequeno, isso torna o Qui Quadrado
muuuito grande. Por isso, recomendado que nenhum deles tenha Frequncia
INFERIOR a cinco.
p-valorO p-valor a chance de erro ao se inferir na hiptese H1 (ali em baixo explicarei melhor),
primeiro vamos ao conceito matemtico:
O p-valor a rea debaixo de um intervalo de uma funo que usa o Qui Quadrado e o grau de
liberdade para avaliar as hipteses estatsticas.
-
7/26/2019 Analise_QLQL_-_Resumo.pdf
7/8
Guilherme Augusto de Matheucci e [email protected] Sanitria eAmbiental13/11/2013
Se utilizarmos o teste X, 0 p-valor nada mais do que uma integral da funo do X ou melhor
dizendo, a rea sobre o grfico. Para descobrir o p-valor, basta olhar na tabela:
Como vamos us-la???? Fcil s olhar o seu grau de liberdade e o X
Quanto deu o nosso gL na conta de cima (tem duas linhas e duas colunas), ento o gl :
gL = (2-1)*(2-1) = 1*1 = 1 [primeira linha dessa tabela grandona]
Quanto deu o nosso x? 7,93.
Ento procuramos nessa linha (no caso a primeira) um valor prximo de 7,93. No caso
o 7,88. Assim, olhamos o valor do pvalor na coluna (no caso 0,005)
Anlise: H0 e H1Mas afinal, para que vale isso??? Simples precisamos comparar o pvalor com a nossa
significncia para verificar o nosso teste de hipteses. Por qu? Por que a significncia a
chance mxima de dar errado. Quanto menor for essa chance MAIS EXIGENTE devemos ser, ou
seja, precisamos de um pvalor MENOR ainda para inferir que h associao.
Assim ser esquematizado:
-
7/26/2019 Analise_QLQL_-_Resumo.pdf
8/8
Guilherme Augusto de Matheucci e [email protected] Sanitria eAmbiental13/11/2013
H0 = Pvalor > Significncia (no teste X = no h relao)
H1 = =Pvalor < Significncia (no teste X = h relao)
No caso, o pvalor deu 0,005. Considerando a significncia 5% (0,05), podemos observar que h
sim relao, j que 0,005 < 0,05. Logo, H1.