testes não paramétricos › 2020 › 05 › ...14 preferência por tipo de programa geração z...

19
Testes não paramétricos Prof. Marcos Vinicius Pó Métodos Quantitativos para Ciências Sociais

Upload: others

Post on 31-Jan-2021

2 views

Category:

Documents


0 download

TRANSCRIPT

  • Testes não paramétricos

    Prof. Marcos Vinicius Pó

    Métodos Quantitativos para Ciências Sociais

  • Recordando...

    2 Prof. Marcos Vinicius Pó

  • É uma metodologia que define regras de decisão para julgar se as evidências estatísticas amostrais permitem suportar – ou refutar – uma hipótese quantitativa sobre um parâmetro populacional, com base nas probabilidades de cometer determinados tipos de erro.

    Temos dois tipos de hipóteses:

    ► H0 - Hipótese nula: sempre possui uma afirmação de igualdade. É nula no sentido de negar o fenômeno investigado. Assim, os valores amostrais verificados seriam resultado apenas de um acaso amostral.

    ► HA - Hipótese alternativa: é o complemento da hipótese nula e significa que os valores encontrados na amostra trazem evidências fortes da existência do fenômeno. Costuma ser a hipótese de trabalho, que só será aceita se a evidência estatística for forte.

    3

    Teste estatístico de hipótese

  • Regiões críticas do teste de médias e proporções

    4 Prof. Marcos Vinicius Pó

    H0 HA Tipo de teste Ilustração

    μ=100

    p=0,50

    μ≠100

    p≠0,50 Bicaudal

    μ≤100

    p≤0,50

    μ>100

    p>0,50 Unicaudal

    μ≥100

    p≥0,50

    μ

  • Roteiro para o teste de hipótese

    1. Definir as hipóteses. ► Nula (H0)

    ► Alternativa (HA)

    2. Especificar as evidências estatísticas. ► Estimadores e propriedades da estatística (distribuição,

    média, desvio-padrão...)

    3. Fixar a probabilidade de cometer o Erro Tipo I (α) e especificar a regra de decisão. ► Referência para aceitar ou rejeitar a hipótese (região

    crítica)

    4. Apreciar a evidência.

    5. Decidir e interpretar o resultado.

    5

  • Teste de hipótese

    • Queremos saber se a evidência que temos em mãos significa que encontramos algo diferente daquela que suponhamos existir e se essa evidência é forte para podermos fazer afirmações.

    • Para isso nos valemos de amostras e tentamos verificar o quando podemos dizer que estamos tratando de um evento estatisticamente raro, incomum.

    • Problemas:

    ► Como saber que a nossa amostra não é um mero acaso?

    ► Com que critérios faremos o nosso julgamento?

    ► Que tipo de estatística pode nos ajudar a tomar uma decisão?

    6

  • São definidas em termos de ordem, classes ou categorias (masculino/feminino; profissão; escolaridade...).

    ► Variáveis quantitativas eventualmente podem ser classificadas em categorias (faixas salariais; anos de instrução...).

    Podemos verificar a freqüência das nossas observações em cada uma das categorias e comparar com uma referência usando-se tabelas de contingência.

    Problema: como quantificar o grau de associação entre duas amostras ou entre uma amostra e uma distribuição esperada?

    ► Como fazer? Proposta: medir o afastamento em relação a uma “distribuição esperada”.

    ► De que forma? verificar o desvio (distanciamento) das freqüências observadas em relação às esperadas.

    ► Como medir? Com a estatística Qui-quadrado (χ2).

    7

    Variáveis categóricas

  • Tabelas de contingência

    Tipo de tabela em forma de matriz que mostra uma distribuição de freqüências multivariada estudada. São muito úteis para verificar a inter-relação entre as variáveis. Exemplo:

    8

    Assistir séries Origem

    Ocasional Frequente Total

    Capitais e regiões metropolitanas

    43 9 52

    Cidades do interior 44 4 48

    Total 87 13 100

  • Testes de aderência, homogeneidade e independência

    • Comparar dados de populações visando determinar:

    ► Aderência à uma distribuição específica;

    ► Homogeneidade dessa distribuição;

    ► Independência ou associação entre 2 variáveis aleatórias.

    • Para isso mede-se a distância entre os valores observados e aqueles que seriam esperados se eles possuíssem determinada distribuição.

    • São chamados de testes não-paramétricos.

    9

  • Testes Paramétricos

    • Referem-se diretamente a uma determinada distribuição de parâmetros da população.

    • Pressupostos:

    ► A estatística de teste deve ter uma distribuição probabilística conhecida.

    ► Os erros possuem distribuição normal.

    ► Os resíduos são aleatórios e independentes.

    • Mais eficientes e precisos.

    Testes Não Paramétricos

    • Não se baseiam diretamente em um modelo de distribuição de parâmetros da distribuição.

    • Requerem menos pressupostos em relação à população.

    ► Não exigem normalidade, por exemplo.

    • Podem ser aplicados a dados categóricos.

    • Aplicação mais simples.

    • Menos eficientes que os testes paramétricos.

    10

  • Usada para mensurar o afastamento dos resultados amostrais em relação à uma dada distribuição esperada das variáveis estudadas.

    Parâmetro necessário para determinar as probabilidades: graus de liberdade na tabela.

    11

    Estatística Qui-quadrado

  • Onde:

    • n*: freqüência esperada

    • r: total de categorias da variável X

    • s: total de categorias da variável Y

    Onde

    • fobs = freqüência observada em qualquer célula

    • fe = freqüência esperada em qualquer célula

    12

    Estatística Qui-quadrado (χ2)

    r

    i

    s

    jij

    ijij

    n

    nn1 1

    2

    2

    *

    )*

    (

    e

    eobs

    f

    ff 22 )(Ou

  • 13

    Tabela Qui-quadrado

  • Graus de liberdade na tabela de contingência

    São determinados pelo número de células que teriam preenchimento livre em uma tabela de contingência considerando que já sabemos as totalizações de linhas e colunas.

    Fórmula básica: gl = (l-1).(c-1)

    14

    Preferência por tipo de programa

    Geração Z Millenials Geração X TOTAL

    Séries 14 10 3 27

    Noticiário 4 15 11 30

    Esporte 7 9 5 21

    Total 25 34 19 78

  • Exemplo

    Um dado é lançado 1.200 vezes, com os resultados expostos na tabela abaixo. Teste a hipótese de que o dado é honesto ao nível de 5%.

    15

    Ocorrência 1 2 3 4 5 6

    Freqüência 190 179 228 183 226 194

    RC = [11,070; +∞[ χ2 = (200-190)2/200 +(200-228)2/200 + (200-179)2/200 + (200-183)2/200 + (200-194)2/200 + (200-226)2/200 = 11,63 ∈ RC p-valor(gl=5)=4,02%

  • Para investigar o envolvimento de filiados a um partido político foi tomada uma amostra de 180 homens e 120 mulheres. Definiram-se duas categorias de classificação e foram considerados como “ativistas” 100 homens e 80 mulheres, sendo os restantes classificados como “ocasionais”. Ao nível de 10% os dados fornecem evidência de possíveis diferenças de grau de fidelidade partidária entre os gêneros?

    16

    Exemplo

  • Um pesquisador deseja saber se há alguma diferença no perfil dos assaltos ocorridos na área urbana e rural de uma região. Para isso, analisou-se uma amostra de 200 boletins de ocorrência e os classificou quanto à arma utilizada. Podemos dizer, ao nível de 5%, que há diferenças no perfil do crime nas áreas urbanas e rurais?

    17

    Exemplo: pequenas frequências

    Arma Área urbana Área rural Total

    De fogo 100 20 120

    Cortante 39 21 60

    Contundente 9 3 12

    Outras 2 6 8

    Total 150 50 200

  • Correção de continuidade de Yates

    Ao aplicar o teste do χ² supõe-se que o tamanho amostral será relativamente grande, assim como cada classe amostral (célula da tabela . Se isso não ocorrer o qui-quadrado calculado pode ser superestimado. Nestes casos alguns autores recomendam o uso do fator de correção de Yates.

    Como regra básica essa correção é usada quando o qui-quadrado observado é maior que o crítico e:

    • O tamanho da amostra é menor que 40; ou

    • Há pelo menos uma classe com frequência esperada menor que 5.

    18 Prof. Marcos Vinicius Pó

    χ2 = (𝑓𝑜𝑏𝑠𝑒𝑟𝑣𝑎𝑑𝑜 − 𝑓𝑒𝑠𝑝𝑒𝑟𝑎𝑑𝑜 − 0,5)

    2

    𝑓𝑒𝑠𝑝𝑒𝑟𝑎𝑑𝑜

    Nota: a diferença entre fobservado e fesperado é reduzida em 0,5.

  • Cuidados no uso do teste Qui-quadrado

    • É pressuposto que a amostragem seja aleatória.

    • Deve-se usar as frequências absolutas, nunca as relativas (porcentagens).

    • As frequências medidas e, principalmente, as esperadas não devem ser muito pequenas, pois podem distorcer os resultados do teste.

    ► Nesse caso deve-se analisar a possibilidade de agrupamento de classes e/ou o uso de correções.

    • Sempre analise a tabela de contingência para verificar se não há dados superestimando o resultado.

    19