universidade federal da fronteira sul campus cerro … · de yates), pois a distribui˘c~ao de...

14
UNIVERSIDADE FEDERAL DA FRONTEIRA SUL Campus CERRO LARGO PROJETO DE EXTENS ˜ AO Software R: Capacita¸ ao em an´ alise estat´ ıstica de dados utilizando um software livre. Fonte: https://www.r-project.org/ M´oduloIV Teste de Qui-quadrado Ministrante: Denise Reis Blog do projeto: https://softwarelivrer.wordpress.com/equipe/ Equipe: Coordenadora: Profe. Iara Endruweit Battisti (iara.battisti@uffs.edu.br) Colaboradores: Profa. Denize Reis Prof. Erikson Kaszubowski Prof. Reneo Prediger Profa. Tatiane Chassot Mestrando Felipe Smolski Bolsista: Djaina Rieger - aluna de Engenharia Ambiental ([email protected]) Volunt´ arias: Ja´ ıne Frank Jaqueline Caye

Upload: others

Post on 31-Oct-2020

0 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: UNIVERSIDADE FEDERAL DA FRONTEIRA SUL Campus CERRO … · de Yates), pois a distribui˘c~ao de frequ^encias observadas e discreta e est a sendo aproximada pela distribui˘cao qui-quadrado,

UNIVERSIDADE FEDERAL DA FRONTEIRA SULCampus CERRO LARGO

PROJETO DE EXTENSAOSoftware R:

Capacitacao em analise estatısticade dados utilizando um software livre.

Fonte: https://www.r-project.org/

Modulo IVTeste de Qui-quadrado

Ministrante: Denise Reis

Blog do projeto: https://softwarelivrer.wordpress.com/equipe/

Equipe:Coordenadora:Profe. Iara Endruweit Battisti ([email protected])Colaboradores:Profa. Denize ReisProf. Erikson KaszubowskiProf. Reneo PredigerProfa. Tatiane ChassotMestrando Felipe SmolskiBolsista:Djaina Rieger - aluna de Engenharia Ambiental ([email protected])Voluntarias:Jaıne FrankJaqueline Caye

Page 2: UNIVERSIDADE FEDERAL DA FRONTEIRA SUL Campus CERRO … · de Yates), pois a distribui˘c~ao de frequ^encias observadas e discreta e est a sendo aproximada pela distribui˘cao qui-quadrado,

SUMARIO SUMARIO

Sumario

1 Teste qui-quadrado para verificar associacao entre duas variaveis qualitativas 31.1 Teste com correcao de continuidade(CORRECAO DE YATES) . . . . . . . . . . . 51.2 Coeficiente de contingencia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5

2 Teste qui-quadrado para verificar aderencia a uma distribuicao 11

3 Referencias Bibliograficas 14

Software R 2

Page 3: UNIVERSIDADE FEDERAL DA FRONTEIRA SUL Campus CERRO … · de Yates), pois a distribui˘c~ao de frequ^encias observadas e discreta e est a sendo aproximada pela distribui˘cao qui-quadrado,

1 TESTE QUI-QUADRADO PARA VERIFICAR ASSOCIACAO ENTRE DUAS VARIAVEISQUALITATIVAS

MODULO 4 – TESTE QUI-QUADRADO

Para uma variavel (aderencia)Para duas variaveis (associacao)Medidas de magnitude

ESTUDO DA RELACAO ENTRE DUAS VARIAVEISQUALITATIVAS

Em muitos estudos, ha o interesse sobre a relacao entre duas ou mais variaveis aleatorias,sejam elas qualitativas ou quantitativas. O interesse pode ser sobre a existencia da relacao entreas variaveis, sobre o tipo da relacao, predicao de valores e ainda se essa relacao e significativa.

Para analisar a relacao entre duas variaveis qualitativas utiliza-se o teste de associacaoe para analisar a relacao entre duas variaveis quantitativas utiliza-se a analise de correlacao e aanalise de regressao simples. Se existem mais de duas variaveis quantitativas, pode-se utilizar aanalise de regressao multipla ou outras tecnicas de analise multivariada, esta tambem aplicada avariaveis qualitativas

1 Teste qui-quadrado para verificar associacao entre duasvariaveis qualitativas

O teste do Qui-quadrado e usado quando se quer comparar frequencias observadas comfrequencias esperadas. Existem varios testes baseados no qui-quadrado, contudo so dois tem essenome: o teste do qui-quadrado da aderencia ou ajustamento (para uma amostra) e o teste doqui-quadrado da independencia.

Requisitos:

–Dados amostrais devem ser selecionados aleatoriamente e sao representados como contagens defrequencias em tabela de dupla entrada.–Em toda celula da tabela, a frequencia esperada (E) deve ser no mınimo 5.–Nao ha exigencia quanto a frequencia observada (O).–Nao ha exigencia de que populacao deva ter distribuicao normal ou qualquer outra.

A tabela de dupla entrada ou tabela de contingencia (Tabela 1) e utilizada para repre-sentar as frequencias observadas. Cada celula ou casela da tabela de dupla entrada e usada pararepresentar uma frequencia observada (Oij ), onde i corresponde a linha e j corresponde a coluna.

Exemplo: Vamos analisar a tabela de contingencias para as variaveis Genero Sexual eFuncao Exercida apresentada abaixo:

Tabela 1 Relacao entre as funcoes exercidas e o sexo de 474 funcionarios de uma organizacao.

Software R 3

Page 4: UNIVERSIDADE FEDERAL DA FRONTEIRA SUL Campus CERRO … · de Yates), pois a distribui˘c~ao de frequ^encias observadas e discreta e est a sendo aproximada pela distribui˘cao qui-quadrado,

1 TESTE QUI-QUADRADO PARA VERIFICAR ASSOCIACAO ENTRE DUAS VARIAVEISQUALITATIVAS

Neste caso, pode ser interessante saber se as duas variaveis sao estatisticamente dependen-tes, e o quao forte e esta associacao.

1) Formular as hipoteses H0 e H1:

H0: as variaveis sao independentes (nao existe associacao entre funcao e sexo)H1: as variaveis nao sao independentes (existe associacao entre funcao e sexo)

O teste pode ser realizado porque o grau de dependencia pode ser quantificado descritiva-mente atraves de uma estatıstica, que se chama justamente Qui-Quadrado (x2 ), cuja expressaoe:

Em que:

l : numero de linhasc : numero de colunasOij : frequencia observada na linha i e coluna jEij : frequencia esperada na linha i e coluna j*Com grau de liberdade = gl = (c - 1)(l - 1)

A frequencia esperada de uma casela e obtida pela multiplicacao do total da linha pelototal da coluna dividido pelo total geral.

O Teste do Qui-Quadrado para avaliar se duas variaveis sao independentes sera unilateral:ou seja a Hipotese Nula sera rejeitada se x2 e maior que (x2) crıtico para um certo numero degraus de liberdade.

Depois que se obtem o valor do qui-quadrado, compara-se com o valor do qui-quadradotabelado, com um nıvel α de significancia e gl graus de liberdade. Se o valor do qui-quadradocalculado for maior ou igual ao valor do qui-quadrado tabelado entao rejeita-se a H0.

Obs.:

- Quando a tabela e 2x2, deve-se utilizar o teste com correcao de continuidade (correcaode Yates), pois a distribuicao de frequencias observadas e discreta e esta sendo aproximada peladistribuicao qui-quadrado, que e contınua (Barbetta, 1998).

-O calculo do qui-quadrado deve ser a partir de valores absolutos e nao deve ser calculadoquando a frequencia esperada em qualquer casela for menor que 5. Neste caso, deve-se usar o testeexato de Fisher, para garantir o grau de certeza do teste.Estes diferentes testes sao fornecidos pelosoftware estatıstico SPSS, R, entre outros. Quando as amostras sao pareadas, utiliza-se o teste deMcNemar.

Software R 4

Page 5: UNIVERSIDADE FEDERAL DA FRONTEIRA SUL Campus CERRO … · de Yates), pois a distribui˘c~ao de frequ^encias observadas e discreta e est a sendo aproximada pela distribui˘cao qui-quadrado,

1.1 Teste com correcao de continuidade(CORRECAO DE YATES)1 TESTE QUI-QUADRADO PARA VERIFICAR ASSOCIACAO ENTRE DUAS VARIAVEIS

QUALITATIVAS

Para avaliar a forca da associacao entre as duas variaveis utiliza-se:

- risco relativo- razao de prevalencia- razao de chances (odds ratio)- coeficiente de contingencia

1.1 Teste com correcao de continuidade(CORRECAO DE YATES)

Utilizada quando a tabela e de 2 x 2.

1.2 Coeficiente de contingencia

Caso o teste de qui-quadrado for significativo (rejeita-se Ho), e aconselhavel calcular ocoeficiente de contingencia para medir a forca da relacao entre as duas variaveis:

Barbetta (2001), pag 261, apresenta a seguinte classificacao para o coeficiente de con-tingencia.

Quando o calculo e realizado no software estatıstico, utiliza-se o valor P para decidir emrejeitar ou nao H0, conforme Quadro 1.

Quadro 1 – Valor p, interpretacao e conclusao do valor p

Software R 5

Page 6: UNIVERSIDADE FEDERAL DA FRONTEIRA SUL Campus CERRO … · de Yates), pois a distribui˘c~ao de frequ^encias observadas e discreta e est a sendo aproximada pela distribui˘cao qui-quadrado,

1.2 Coeficiente de contingencia1 TESTE QUI-QUADRADO PARA VERIFICAR ASSOCIACAO ENTRE DUAS VARIAVEIS

QUALITATIVAS

Exemplo utilizando os recursos do software R: Realizar o teste de associacao paraos dados da Tabela 1:

Tabela 1 Relacao entre as funcoes exercidas e o sexo de 474 funcionarios de uma orga-nizacao.

Sintaxe no software R:

Digitar os dados da tabela cruzada (tabela de contingencia) no formato de uma matriz,valor ij, considerando i=linha e j=coluna, em sequencia por coluna (por exemplo, digita-se to-dos os valores da primeira coluna, depois digita-se todos os valores da segunda coluna e assimsucessivamente).

O comando ‘matrix’ indica que os dados serao organizados em uma matriz, ‘nc’ indica onumero de colunas da tabela, o operador ‘=‘ atribui os valores digitados no nome informado pelousuario que neste caso e ‘dados’.

O comando ‘nome matriz’, mostra a matriz elaborada, que neste caso represente uma tabelacruzada de duas linhas e tres colunas, conforme a tabela do Exemplo 1.

Primeiramente, deve-se verificar a existencia de alguma casela com frequencia esperadamenor que 5.

Caso nao exista, utiliza-se o teste de qui-quadrado com o comando ‘chisq.test’.

Conclusao:

Software R 6

Page 7: UNIVERSIDADE FEDERAL DA FRONTEIRA SUL Campus CERRO … · de Yates), pois a distribui˘c~ao de frequ^encias observadas e discreta e est a sendo aproximada pela distribui˘cao qui-quadrado,

1.2 Coeficiente de contingencia1 TESTE QUI-QUADRADO PARA VERIFICAR ASSOCIACAO ENTRE DUAS VARIAVEIS

QUALITATIVAS

Em caso contrario, utiliza-se o teste Exato de Fisher (ou seja, se existir casela com frequenciaesperada menor que 5).

Exemplo: Foi feita a analise de 24 indivıduos do sexo masculino e feminino (Tabela 2) esera verificado se existe diferenca entre os generos sexuais nas opinioes em relacao a reducao damaioridade penal, utilizando α = 5%.

Tabela 2 – Opiniao das pessoas quanto a reducao da maioridade penal

Hipoteses estatısticas:

H0: as variaveis sao independentes (nao existe associacao entre opiniao e sexo)H1: as variaveis nao sao independentes (existe associacao entre opiniao e sexo)

maioridade<-matrix(c(5,10,12,8),nc=2)

maioridade

## [,1] [,2]

## [1,] 5 12

## [2,] 10 8

chisq.test(maioridade)$expected

## [,1] [,2]

## [1,] 7.285714 9.714286

## [2,] 7.714286 10.285714

fisher.test(maioridade)

##

## Fisher's Exact Test for Count Data

##

## data: maioridade

## p-value = 0.1756

## alternative hypothesis: true odds ratio is not equal to 1

## 95 percent confidence interval:

## 0.06462439 1.62962403

## sample estimates:

## odds ratio

## 0.3444411

Software R 7

Page 8: UNIVERSIDADE FEDERAL DA FRONTEIRA SUL Campus CERRO … · de Yates), pois a distribui˘c~ao de frequ^encias observadas e discreta e est a sendo aproximada pela distribui˘cao qui-quadrado,

1.2 Coeficiente de contingencia1 TESTE QUI-QUADRADO PARA VERIFICAR ASSOCIACAO ENTRE DUAS VARIAVEIS

QUALITATIVAS

Caso a tabela seja 2x2, entao usa-se o teste de qui-quadrado com o comando ‘chisq.test’acrescido de ‘correct=TRUE’ indicando a utilizacao da correcao de continuidade (correcao deYates).

Exemplo: Numa classe de 35 academicos, comparou-se os mesmos quanto a caracterısticade terem vınculo empregatıcio ou nao. Os resultados seguem na Tabela 3. O interesse neste caso,e verificar se existe relacao entre as variaveis genero sexual e vınculo empregatıcio, ou seja, se asvariaveis sao ou nao independentes.

Tabela 3 – Situacao dos estudantes quanto a existencia de vınculo empregatıcio.

Para isso definem-se as seguintes hipoteses estatısticas:

H0: as variaveis sao independentes (nao existe associacao entre o genero sexual e vınculoempregatıcio)H1: as variaveis nao sao independentes (existe associacao entre genero sexual e vınculoempregatıcio)

emprego<-matrix(c(5,10,12,8),nc=2)

emprego

## [,1] [,2]

## [1,] 5 12

## [2,] 10 8

chisq.test(emprego)$expected

## [,1] [,2]

## [1,] 7.285714 9.714286

## [2,] 7.714286 10.285714

chisq.test(emprego,correct=TRUE)

##

## Pearson's Chi-squared test with Yates' continuity correction

##

## data: emprego

## X-squared = 1.4893, df = 1, p-value = 0.2223

Software R 8

Page 9: UNIVERSIDADE FEDERAL DA FRONTEIRA SUL Campus CERRO … · de Yates), pois a distribui˘c~ao de frequ^encias observadas e discreta e est a sendo aproximada pela distribui˘cao qui-quadrado,

1.2 Coeficiente de contingencia1 TESTE QUI-QUADRADO PARA VERIFICAR ASSOCIACAO ENTRE DUAS VARIAVEIS

QUALITATIVAS

Conclusao:

No caso de amostras pareadas (dependentes), utiliza-se o teste de McNemar para testar aassociacao.

Importante para o teste de McNemar: no software R os dados na matriz (tabela decontingencia) devem ser distribuıdos da mesma maneira tanto nas linhas quanto nas colunas. Istoe, a e d devem expressar o mesmo comportamento. Por exemplo: aprovado, desaprovado, aprovado,desaprovado.

Exemplo: Uma pesquisa foi realizada para verificar o efeito de uma propaganda sobrea satisfacao de um produto. Para isso foram selecionados aleatoriamente 76 indivıduos com ca-racterısticas semelhantes para avaliarem o produto antes e apos a propaganda. Na Tabela 1 eapresentada a satisfacao dos indivıduos pesquisados. Teste a hipotese de que existe diferenca nasatisfacao antes e apos a propaganda, considerando nıvel de 5% de significancia.

Tabela 4 – Efeito de uma propaganda sobre a satisfacao de um produto

Hipoteses estatısticas:

H0: As frequencias das diferentes categorias ocorrem na mesma proporcao (Frequencias b e cocorrem na mesma proporcao ou seja ... )H1: As frequencias b e c ocorrem em proporcoes diferentes, ou seja as mudancas sao significativas.

Software R 9

Page 10: UNIVERSIDADE FEDERAL DA FRONTEIRA SUL Campus CERRO … · de Yates), pois a distribui˘c~ao de frequ^encias observadas e discreta e est a sendo aproximada pela distribui˘cao qui-quadrado,

1.2 Coeficiente de contingencia1 TESTE QUI-QUADRADO PARA VERIFICAR ASSOCIACAO ENTRE DUAS VARIAVEIS

QUALITATIVAS

prop=matrix(c(34,25,2,15),nc=2)

prop

## [,1] [,2]

## [1,] 34 2

## [2,] 25 15

chisq.test(prop)$expected

## [,1] [,2]

## [1,] 27.94737 8.052632

## [2,] 31.05263 8.947368

mcnemar.test(prop)

##

## McNemar's Chi-squared test with continuity correction

##

## data: prop

## McNemar's chi-squared = 17.926, df = 1, p-value = 2.297e-05

Exemplo: Uma empresa esta interessada em avaliar o impacto de uma intervencao emum grupo de pessoas com hipertensao, relacionada com a obesidade. A intervencao se dara emforma de um programa envolvendo assistencia profissional nutricional, medica e atividades fısicas.A tabela abaixo mostra os resultados.

Avalie se a intervencao foi efetiva para reducao da proporcao de obesos.

Hipoteses estatısticas:

H0: As frequencias das diferentes categorias ocorrem na mesma proporcao (Frequencias b e cocorrem na mesma proporcao ou seja a intervencao nao foi efetiva para reducao da proporcao deobesos).H1: As frequencias b e c ocorrem em proporcoes diferentes, ou seja as mudancas saosignificativas. A intervencao foi efetiva para reducao da proporcao de obesos.

No R:

Conclusao:

Software R 10

Page 11: UNIVERSIDADE FEDERAL DA FRONTEIRA SUL Campus CERRO … · de Yates), pois a distribui˘c~ao de frequ^encias observadas e discreta e est a sendo aproximada pela distribui˘cao qui-quadrado,

2 TESTE QUI-QUADRADO PARA VERIFICAR ADERENCIA A UMA DISTRIBUICAO

2 Teste qui-quadrado para verificar aderencia a uma distri-buicao

Para verificar se o conjunto de dados segue uma distribuicao teorica especificado.

No caso a seguir, verificar se as frequencias de clientes sao as mesmas ao longo da semana:

Exemplo: Deseja-se verificar se o numero de clientes em um pequeno restaurante localizadoas margens de uma rodovia muda conforme o dia da semana. O numero de clientes observado paracada dia de uma semana escolhida aleatoriamente foram:

Tabela 5 - Numero de clientes no restaurante/dia da semana

Para um nıvel de significancia de 5%, o que pode ser dito?

1)Hipoteses a serem testadas:

Ho: O numero de clientes nao muda conforme o dia da semana;H1: Pelo menos um dos dias tem numero diferente dos demais.

clientes<-c(20,12,10,17,30,22,35)

chisq.test(clientes)$expected

## [1] 20.85714 20.85714 20.85714 20.85714 20.85714 20.85714 20.85714

chisq.test(clientes)

##

## Chi-squared test for given probabilities

##

## data: clientes

## X-squared = 23.822, df = 6, p-value = 0.0005631

Software R 11

Page 12: UNIVERSIDADE FEDERAL DA FRONTEIRA SUL Campus CERRO … · de Yates), pois a distribui˘c~ao de frequ^encias observadas e discreta e est a sendo aproximada pela distribui˘cao qui-quadrado,

2 TESTE QUI-QUADRADO PARA VERIFICAR ADERENCIA A UMA DISTRIBUICAO

Conclusao:

Exemplo: A tabela a seguir apresenta o numero de empresas constituıdas no Rio Grandedo Sul, no tipo Micro Empreendedor Individual, nos 10 primeiros meses do ano, cujos atos foramarquivados na JUCERGS.

Tabela 6 – Constituicoes de empresas

Fonte: http://www.jucergs.rs.gov.br/p_estatisticas.asp

Verificar as frequencias de constituicao de novas empresas sao as mesmas ao longo dosmeses observados.

Hipoteses:

Conclusao:

Software R 12

Page 13: UNIVERSIDADE FEDERAL DA FRONTEIRA SUL Campus CERRO … · de Yates), pois a distribui˘c~ao de frequ^encias observadas e discreta e est a sendo aproximada pela distribui˘cao qui-quadrado,

2 TESTE QUI-QUADRADO PARA VERIFICAR ADERENCIA A UMA DISTRIBUICAO

Exemplo: Num estudo verifica-se a ocorrencia de 4 especies de moscas, conforme expostona Tabela 7. Verifique as frequencias de quatro especies de moscas se distribuem de forma igual?

Tabela 7 – Ocorrencia de especies de Moscas

moscas<-c(24,32,10,9)

chisq.test(moscas)$expected

## [1] 18.75 18.75 18.75 18.75

chisq.test(moscas)

##

## Chi-squared test for given probabilities

##

## data: moscas

## X-squared = 19.987, df = 3, p-value = 0.0001708

Ou para verificar se as frequencias de especies de moscas seguem uma distribuicao especıfica,informado em ‘dist’. Lembrando que os valores no vetor ‘dist’ devem estar no formato de proporcao(por exemplo, 0.35).

Exemplo: No caso do exemplo “moscas”

moscas<-c(24,32,10,9)

dist<-c(0.25,0.10,0.35,0.3)

chisq.test(moscas)$expected

## [1] 18.75 18.75 18.75 18.75

chisq.test(moscas,p=dist)

##

## Chi-squared test for given probabilities

##

## data: moscas

## X-squared = 99.663, df = 3, p-value < 2.2e-16

Software R 13

Page 14: UNIVERSIDADE FEDERAL DA FRONTEIRA SUL Campus CERRO … · de Yates), pois a distribui˘c~ao de frequ^encias observadas e discreta e est a sendo aproximada pela distribui˘cao qui-quadrado,

3 REFERENCIAS BIBLIOGRAFICAS

3 Referencias Bibliograficas

BARBETTA, P. A. Estatıstica Aplicada as Ciencias Sociais. Ed. da UFSC, 4 ed. Florianopolis,2001.

CAMARA, Filipe Gago. Estatıstica Nao Parametrica - Testes de Hipoteses e Medidas deAssociacao. Universidade dos Acores. 2001.

STEVENSON, William J. Estatıstica Aplicada a Administracao. Ed. Harper, Sao Paulo, 1981.

TRIOLA, M. F. – Introducao a Estatıstica, 7 ed., LTC, Rio de Janeiro, 1999.

Software R 14