capÍtulo 3 populaÇÃo e amostra - moodle.ufsc.br · É o conjunto de dados que descrevem as...
TRANSCRIPT
CAPÍTULO 3 POPULAÇÃO E AMOSTRA
DEPARTAMENTO DE GEOCIÊNCIAS
GCN 7901 – ANÁLISE ESTATÍSTICA EM GEOCIÊNCIAS
PROFESSOR: Dr. ALBERTO FRANKE
CONTATO: [email protected]
F: 3721 8595
CONCEITOS População:
É o conjunto de elementos sobre os quais se desejam informações, ou seja, nosso universo de estudo.
As populações podem ser finitas, como a população dos alunos matriculados na Geografia, ou infinitas, como a população dos resultados que podem ser obtidos quando se joga um dado sucessivamente.
Parâmetro: Característica numérica da população. Normalmente é desconhecido!
Amostra: É todo subconjunto de elementos retirado de uma população, para obter
informações sobre essa população.
As amostras são coletadas e estudadas para trazer informação sobre a população.
Estatística: Característica numérica da amostra. Toda amostra permite calcular uma estatística.
Distinção entre parâmetro e estatística?
agosto/2014 Prof. Franke 3
Relação entre amostragem e inferência
Fonte: ANDRIOTTI. Fundamentos de estatística e geoestatística. São Leopoldo, Unisinos, 2009.
agosto/2014 Prof. Franke 4
CONCEITOS Censo:
É o conjunto de dados que descrevem as características da população.
É a coleta de dados sobre todos os elementos da população e recebe o nome de recenseamento.
Variável: São as características que podem ser observadas (ou medidas) em cada elemento da
população.
Qualitativa: quando seus valores são expressos por atributos: sexo (masculino – feminino), cor da pele (preta, parda, branca, amarela, vermelha), etc.
Quantitativa: quando seus valores são expressos por números (peso, altura, pH, etc.)
Variável contínua: quando puder assumir qualquer valor num intervalo.
Variável discreta: quando só pode assumir valores pertencentes a um conjunto enumerável.
Ex.: peso dos alunos (variável contínua), nº de alunos (variável discreta).
Normalmente, as medições dão origem a variáveis contínuas e as contagens ou enumerações, a variáveis discretas.
agosto/2014 Prof. Franke 5
CONCEITOS
Dados: Pode ser considerado como uma informação necessária para auxiliar numa decisão
Por que dados são necessários?
Dados categorizados São os possíveis resultados de variáveis observadas em forma de categorias.
Tabela 1 – Distribuição de 300 pessoas classificadas segundo sexo (gênero) e tabagismo.
Fonte: Autor (2013)
Tabagismo Sexo
Total Masculino Feminino
Fumante 92 (46%) 38 (38%) 130 (43,3%) Não-fumante 108 (54%) 62 (62%) 170 (56,7%)
Total 200 (100%) 100 (100%) 300 (100%)
agosto/2014 Prof. Franke 6
CLASSIFICAÇÃO DOS DADOS
Tipo de dados Quantitativos: quando os possíveis resultados são números de uma certa escala,
dizemos que este é um dado quantitativo.
Qualitativos: quando os possíveis resultados são atributos ou qualidades, dizemos que o dado é qualitativo.
Figura 1 – Classificação das variáveis e dos dados em termos do nível de mensuração.
Adaptado de BARBETTA (2012, p. 30).
agosto/2014 Prof. Franke 7
TÉCNICAS DE AMOSTRAGEM 1. Amostragem:
É o processo de seleção da amostra
Se uma estatística é usada para avaliar ou estimar o valor de algum parâmetro, é chamada de estimador.
A qualidade de uma estimativa depende basicamente da representatividade da amostra.
O que é representatividade de uma amostra?
2. Por que fazemos amostragem? Economia Tempo Confiabilidade dos dados Operacionalidade
3. Quando o uso da amostragem não é interessante? População pequena Características de fácil mensuração Necessidade de alta precisão
agosto/2014 Prof. Franke 8
TÉCNICAS DE AMOSTRAGEM 4. Tipos de amostras:
Uma amostra não-probabilística é aquela na qual os itens ou indivíduos incluídos são escolhidos sem levar em conta a probabilidade de sua ocorrência.
Uma amostra probabilística é aquela na qual os sujeitos da amostra são escolhidos com base em probabilidade conhecidas.
Figura 2 – Tipos de amostras. Fonte: LEVINE et al. (2005, p. 11)
agosto/2014 Prof. Franke 9
TÉCNICAS DE AMOSTRAGEM 4.1. Amostras probabilísticas
4.1.1. Amostra aleatória simples É aquela em que cada indivíduo da população possui a mesma chance de ser
selecionado do que cada um dos outros indivíduos.
Ou seja, a seleção dos elementos que farão parte da amostra serão sorteados.
Na amostragem aleatória simples, n é usado para representar o tamanho da amostra e N representar o tamanho da população.
Todo item ou pessoa na população é numerado de 1 a N.
A chance de qualquer membro em particular desta população ser selecionado no primeiro sorteio é de 1/N.
As amostragens aleatórias são muito úteis por permitirem a utilização das técnicas clássicas de inferência estatística, facilitando a análise dos dados e fornecendo maior segurança na generalização dos resultados da amostra para a população.
agosto/2014 Prof. Franke 10
TÉCNICAS DE AMOSTRAGEM 4.1.1. Amostra aleatória simples
Amostragem com reposição
Significa que, após um indivíduo da população ser selecionado, ele retorna para a população, onde tem a mesma probabilidade de ser novamente selecionado.
Amostragem sem reposição
Significa que, após um indivíduo da população ser selecionado, ele não retorna para a população e, assim, não pode ser novamente selecionado
A chance de qualquer membro da população ser selecionado no 1º sorteio é de 1
𝑁
A chance de qualquer indivíduo não previamente selecionado ser escolhido no 2º
sorteio é de 1
𝑁−1
O processo é repetido até ser alcançado o tamanho n, o desejado da amostra.
Atividade: sortear, entre os alunos da turma, amostra de tamanho n = 6 com uso de urna e de tabela de números aleatórios. Cada um começa o sorteio onde quiser! Fazer com e sem reposição.
agosto/2014 Prof. Franke 12
TÉCNICAS DE AMOSTRAGEM 4.1.2. Amostra aleatória sistemática
Numa amostra sistemática, os N indivíduos ou itens na população são divididos em k grupos, pela divisão da população N pelo tamanho n da amostra.
𝑘 = 𝑁
𝑛
Onde k é chamado de intervalo de seleção.
O 1º indivíduo a ser selecionado é escolhido aleatoriamente (sorteio) do primeiro grupo fracionado da população, o restante da amostra é obtido selecionando cada k-enésimo indivíduo na população total.
Exemplo: alunos que chegam para aula
Cuidados com a amostra aleatória simples ou sistemática! São menos eficientes que outros métodos probabilísticos de amostragem.
Não é possível saber se as amostras obtidas são de fato representativas da população.
A possibilidade de haver viés de seleção ou falta de representatividade das características de população é maior na amostragem sistemática.
Se existir padrão na população, podem resultar graves vieses de seleção.
agosto/2014 Prof. Franke 13
TÉCNICAS DE AMOSTRAGEM 4.1.3. Amostragem estratificada
Consiste em dividir a população em subgrupos, que são denominados de estratos.
Os estratos devem ser internamente mais homogêneos do que a população toda, com respeito às principais variáveis em estudo.
Sobre os diversos estratos da população, são realizadas seleções aleatórias, de forma independente.
A amostra é obtida através reunião das amostras de cada estrato.
Amostragem estratificada proporcional
A proporcionalidade do tamanho de cada estrato da população é mantida na amostra
Amostragem estratificada uniforme
Seleciona-se a mesma quantidade de elementos em cada estrato
A amostragem estratificada uniforme costuma ser usada em situações em que o maior interesse é obter estimativas separadas para cada estrato, ou quando se deseja comparar os diversos estratos.
agosto/2014 Prof. Franke 14
TÉCNICAS DE AMOSTRAGEM
Figura 3 – Esquema de obtenção de uma amostragem estratificada. Fonte: BARBETTA (2012, p. 49).
Figura 4 – Exemplo de uma amostragem estratificada proporcional. Fonte: BARBETTA (2012, p. 49).
agosto/2014 Prof. Franke 15
TÉCNICAS DE AMOSTRAGEM 4.1.4. Amostragem de conglomerados (Cluster)
Chama-se de conglomerados a um agrupamentos de elementos da população.
Ex.: numa população de domicílios residenciais de uma cidade, os quarteirões formam conglomerados residenciais de uma cidade.
Figura 5 – Processo de amostragem de conglomerados em dois estágios. Fonte: BARBETTA
(2012, p. 51).
agosto/2014 Prof. Franke 16
TÉCNICAS DE AMOSTRAGEM 4.2. Amostragem não aleatória (não probabilística)
Podem ser empregadas quando a seleção de uma amostra aleatória é muito difícil ou impossível.
O principal problema é obtenção de uma lista elementos da população.
4.2.1 – Amostragem por cotas
Assemelha-se com a amostragem estratificada proporcional.
A população é vista de forma segregada e dividida em diversos subgrupos com grande homogeneidade para compensar a falta de aleatoriedade.
Seleciona-se uma cota de cada subgrupo proporcional ao seu tamanho.
Ex.: Numa pesquisa socioeconômica, a população pode ser dividida por localidade, por nível de instrução, faixa de renda, etc.
4.2.2. – Amostragem por julgamento
Os elementos escolhidos (não sorteados) são aqueles julgados como típicos da população que se deseja estudar.
O pesquisador precisa ter um grande conhecimento da estrutura da população
agosto/2014 Prof. Franke 17
Relação entre amostragem e inferência
Fonte: ANDRIOTTI. Fundamentos de estatística e geoestatística. São Leopoldo, Unisinos, 2009.
agosto/2014 Prof. Franke 18
TAMANHO MÍNIMO DE UMA AMOSTRA
É um problema complexo.
Muitas vezes o tamanho da amostra fica restrita aos recursos financeiros disponíveis.
A heterogeneidade da população e os tipos de parâmetros que se quer estimar são pontos importantes na determinação da amostra
1. Conceito de erro amostral
Erro amostral é a diferença entre uma estatística e o parâmetro que se quer estimar.
2. Erro amostral tolerável
É quanto o pesquisador admite errar na estimação dos parâmetros de interesse.
Para determinar o tamanho da amostra, o pesquisador precisa especificá-lo.
Ex.: Pesquisas eleitorais mostram o erro do levantamento – normalmente ± 2%
A especificação do erro amostral tolerável deve ser feito sob um enfoque probabilístico.
Qual a influência do erro amostral no tamanho da amostra?
agosto/2014 Prof. Franke 20
TAMANHO MÍNIMO DE UMA AMOSTRA
agosto/2014 Prof. Franke 21
3. Baseado no erro amostral tolerável
Onde: n = tamanho mínimo de uma amostra E = erro amostral tolerável (nº decimal do erro) Obs.: utiliza-se este cálculo inicial, mesmo não conhecendo o tamanho da população
4. Baseado no tamanho da população
Onde: nc = tamanho mínimo da amostra corrigido em função da população N = tamanho da população Obs.: Se a população for muito grande, então n pode ser adotado como tamanho da amostra. Caso contrário, usa-se a correção baseado no tamanho da população.
TAMANHO MÍNIMO DE UMA AMOSTRA
agosto/2014 Prof. Franke 22
5. Baseado no nível de confiabilidade desejado Quantas observações são necessárias para 90% de confiabilidade?
Onde: n = tamanho mínimo de uma amostra e = erro amostral tolerado = desvio-padrão da população
z = valor correspondente ao nível de confiabilidade desejado (distribuição normal padronizada z)
Obs.: Deve-se notar que n (tamanho da amostra) depende do grau de confiança
desejado, da dispersão dos dados e do erro tolerável, mas não do tamanho da população.
FONTES DE ERROS EM LEVANTAMENTOS POR AMOSTRAGEM
O erro amostral, definido como a diferença entre uma estatística e o verdadeiro valor do parâmetro, parte do princípio de que as n observações da amostra são obtidas sem erros.
Havendo erros ou desvios nos dados da própria amostra, a diferença entre a estatística e o parâmetro pode ser maior que o limite tolerável, E.
Exemplos de erros não amostrais:
1º População acessível diferente da população-alvo (viés de seleção).
2º Falta de resposta (viés por falta de resposta)
3º Erros de amostragem
4º Erros de mensuração
Obs.: erros de mensuração refere-se à falta de exatidão das respostas registradas, o que ocorre devido a deficiências na formulação da pergunta, um efeito causado pela influência do entrevistador sobre o entrevistado, ou no resultado do esforço do entrevistado.
agosto/2014 Prof. Franke 23