estatística: aplicação ao sensoriamento remoto ser 203 - ano 2014 teoria da amostragem camilo...

18
Estatística: Aplicação ao Sensoriamento Estatística: Aplicação ao Sensoriamento Remoto Remoto SER 203 - ANO 2014 SER 203 - ANO 2014 Teoria da amostragem Teoria da amostragem Camilo Daleles Rennó [email protected] http://www.dpi.inpe.br/~camilo/ estatistica/

Upload: internet

Post on 18-Apr-2015

115 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Estatística: Aplicação ao Sensoriamento Remoto SER 203 - ANO 2014 Teoria da amostragem Camilo Daleles Rennó camilo@dpi.inpe.br camilo/estatistica

Estatística: Aplicação ao Sensoriamento RemotoEstatística: Aplicação ao Sensoriamento Remoto

SER 203 - ANO 2014SER 203 - ANO 2014

Teoria da amostragemTeoria da amostragem

Camilo Daleles Rennó[email protected]

http://www.dpi.inpe.br/~camilo/estatistica/

Page 2: Estatística: Aplicação ao Sensoriamento Remoto SER 203 - ANO 2014 Teoria da amostragem Camilo Daleles Rennó camilo@dpi.inpe.br camilo/estatistica

Algumas Considerações...Algumas Considerações...

É importante ter consciência de que dominar as técnicas estatísticas não é

suficiente para garantir o sucesso de uma análise, ou seja, conseguir

chegar a conclusões “interessantes”.

De forma geral, para que as análises estatísticas sejam válidas, as

amostras devem representar a população, ou seja, a menos que

discrepâncias ocorram devido ao acaso, as amostras devem reproduzir

as mesmas características da população considerando a variável

estudada.

É fundamental que as amostras sejam obtidas por processos adequados

de modo a evitar que erros grosseiros possam comprometer a análise

dos dados.

Page 3: Estatística: Aplicação ao Sensoriamento Remoto SER 203 - ANO 2014 Teoria da amostragem Camilo Daleles Rennó camilo@dpi.inpe.br camilo/estatistica

Algumas Considerações...Algumas Considerações...

Em muitos casos, é bastante tentador que as observações mais

convenientes sejam as selecionadas para compor uma amostra ou então

aplicar algum tipo de critério (ou julgamento) no momento dessa

seleção.

Nesses casos, pode-se introduzir algum tipo de tendência que poderá

causar uma super ou subestimativa dos parâmetros de interesse. A

identificação (e descrição) desta tendência é quase sempre difícil (ou

impossível) de ser feita após a coleta dessas amostras.

Assim, para se evitar esse tipo de problema, o ideal é que a seleção das

amostras seja feito através de algum processo aleatório, de modo que

qualquer elemento da população tenha igual chance de ser escolhido

para compor a amostra.

Page 4: Estatística: Aplicação ao Sensoriamento Remoto SER 203 - ANO 2014 Teoria da amostragem Camilo Daleles Rennó camilo@dpi.inpe.br camilo/estatistica

Censo ou Amostragem?Censo ou Amostragem?

Por que fazer Censo?

a população é pequena ou amostragem indicada é quase tão grande quanto a

população

necessita-se de uma precisão completa (não é permitido nenhum erro)

os dados de toda população já se encontram disponíveis

Por que fazer Amostragem?

a população é infinita (ou muito grande)

os custos de obtenção das medidas são elevados (análises muito caras)

o tempo para caracterização da população é muito longo

deseja-se aumentar a representatividade, amostrando-se diferentes

subgrupos

necessita-se melhorar a precisão das medidas (mais cuidado na obtenção dos

dados)

a obtenção das medidas requer a destruição das amostras (p. ex: biomassa)

Page 5: Estatística: Aplicação ao Sensoriamento Remoto SER 203 - ANO 2014 Teoria da amostragem Camilo Daleles Rennó camilo@dpi.inpe.br camilo/estatistica

AmostragemAmostragem

Toda amostragem requer planejamento

a) O que quero caracterizar neste estudo?algum parâmetro específico (média, variância, etc),distribuição espacial, variação temporal?

b) Qual é a unidade amostral apropriada para o estudo?quem é o elemento da população?

c) Quantas amostras são necessárias?qual é a precisão exigida?quanto tempo e recurso disponho?

d) Como estas amostras devem ser coletadas?qual é a variabilidade espacial e temporal?quais fatores podem influenciar nos resultados?

Page 6: Estatística: Aplicação ao Sensoriamento Remoto SER 203 - ANO 2014 Teoria da amostragem Camilo Daleles Rennó camilo@dpi.inpe.br camilo/estatistica

Unidade AmostralUnidade AmostralA unidade amostral representa a menor entidade identificada na população e

é considerada o objeto de estudo.Em um mapa, por exemplo, a unidade amostral pode ser:

• pontos simples (ou pixels numa imagem)sorteio aleatório é facilitadomesmo com GPS, a localização precisa pode ser difícil de ser alcançadapode induzir a erros em regiões heterogêneas

• grupos de pontos ou pixelsconsidera a informação contextualminimiza problemas de georreferenciamentodeve representar áreas homogêneas (deve-se evitar áreas de transição)deve ser contabilizado como apenas uma observação e portanto deve-se adotar uma medida representativa para o grupo (média, mediana, etc)

• polígonos (ou objetos)mesmos benefícios encontrados em grupos de pontosdificilmente há correspondência espacial perfeita com a realidade

• grupos de polígonosútil quando os polígonos são muito pequenos

Page 7: Estatística: Aplicação ao Sensoriamento Remoto SER 203 - ANO 2014 Teoria da amostragem Camilo Daleles Rennó camilo@dpi.inpe.br camilo/estatistica

Tamanho de AmostraTamanho de Amostra

Quanto amostrar?

depende:

da variabilidade original dos dados (maior variância maior n)

da precisão requerida no trabalho (maior precisão maior n)

do tempo disponível (menor o tempo menor n)

do custo da amostragem (maior o custo menor n)

Em geral, é calculado com base no parâmetro que se deseja estimar e leva

em consideração as incertezas inerentes a esta estimação:

a) variação “natural” dos dados (variância populacional)

b) erros do tipo I e II

Page 8: Estatística: Aplicação ao Sensoriamento Remoto SER 203 - ANO 2014 Teoria da amostragem Camilo Daleles Rennó camilo@dpi.inpe.br camilo/estatistica

Tamanho da AmostraTamanho da Amostra

/2 /2 1P z X zn n

2

~ 0,X Nn

0

0,02

0,04

0,06

0,08

0,1

0,12

0,14

0 5 10 15 20- +

2

~ 0,X Nn

2

2

1

erro máximode estimativa

/2 /2ˆ 1pq pq

P z p p zn n

ˆ ~ 0,pq

p p Nn

0

0,02

0,04

0,06

0,08

0,1

0,12

0,14

0 5 10 15 20- +

ˆ ~ 0,pq

p p Nn

2

2

1

erro máximode estimativa

Média

Proporção

2 2/2

2

zn

e

/2e zn

2

/22

z pqn

e

/2

pqe z

n

Page 9: Estatística: Aplicação ao Sensoriamento Remoto SER 203 - ANO 2014 Teoria da amostragem Camilo Daleles Rennó camilo@dpi.inpe.br camilo/estatistica

Tamanho da AmostraTamanho da Amostra

Correção para populações finitas(quando a amostra representa mais que 5% da população)

Nnn

n1

1'

2

2/22

22/

2

1'

zeN

zNn

2

2/2

22/

1'

zpqeN

zNpqn

Para média:

Para proporção:

n = tamanho de amostra sem correção

N = tamanho da populaçãon' = tamanho de amostra corrigido

Page 10: Estatística: Aplicação ao Sensoriamento Remoto SER 203 - ANO 2014 Teoria da amostragem Camilo Daleles Rennó camilo@dpi.inpe.br camilo/estatistica

Tamanho da AmostraTamanho da Amostra

Exemplo: Deseja-se estimar a exatidão de um mapa de modo que o valor estimado não ultrapasse em 8% a exatidão verdadeira (para mais ou para menos), utilizando-se um nível de confiança de 95%. Suponha que a exatidão verdadeira é de 80%.

2

/ 22

z pqn

e

2

2

1,96 0,80 0,2096,04 96

0,08n n

2

2

1,96 0,50 0,50150,06 150

0,08n n

No pior caso (maior variância), a exatidão verdadeira seria de 50%.

Page 11: Estatística: Aplicação ao Sensoriamento Remoto SER 203 - ANO 2014 Teoria da amostragem Camilo Daleles Rennó camilo@dpi.inpe.br camilo/estatistica

Tamanho da AmostraTamanho da Amostra

Pode também considerar também o erro (tipo II)

Exemplo para proporção

Hipóteses

H0 : p = p0

H1: p < p0

0

0,02

0,04

0,06

0,08

0,1

0,12

0,14

0 5 10 15 20

p0

1

H0

p1

H1

0 00ˆ 1

p qP p p z

n

Considerando H1verdadeira (p = p1)

0 00 1

1

1 1 1 1

ˆp q

p z pp p nPp q p q

n n

z

0 01 10 1

p qp qP z z p p

n n

2

1 1 0 0

2

0 1

z p q z p qn

p p

Page 12: Estatística: Aplicação ao Sensoriamento Remoto SER 203 - ANO 2014 Teoria da amostragem Camilo Daleles Rennó camilo@dpi.inpe.br camilo/estatistica

Tamanho da AmostraTamanho da Amostra

Exemplo: Deseja-se testar se a exatidão de um mapa é no mínimo de 85%, adotando-se 5% de nível de significância. Deseja-se, ainda, fixar a probabilidade em 6% de se aceitar um mapa com 81% de exatidão (erro tipo II).

2

2

1,555 0,81 0,19 1,645 0,85 0,15

0,85 0,81

896n

0

0,02

0,04

0,06

0,08

0,1

0,12

0,14

0 5 10 15 20

0,85

1

H0

0,81

H1

H0 : p = 0,85

H1: p = 0,81

2

1 1 0 0

2

0 1

z p q z p qn

p p

Page 13: Estatística: Aplicação ao Sensoriamento Remoto SER 203 - ANO 2014 Teoria da amostragem Camilo Daleles Rennó camilo@dpi.inpe.br camilo/estatistica

Tipos de AmostragemTipos de Amostragem

Amostragem probabilística:

cada elemento da população tem uma probabilidade (não nula) de ser

escolhidoAmostragem não probabilística:

amostragem restrita aos elementos que se tem acesso (ex: estudo sobre

ocorrência de focos de dengue em casas de veraneio)

escolha a esmo (ex: estudo sobre a variabilidade no DAP em talhões de

reflorestamento de eucalipto)

impossibilidade de sorteio (ex: estudo sobre qualidade de água num rio)

amostragem intencional ou por julgamento (ex: estudo sobre o comportamento

social de machos adultos de muriquis)

voluntários (ex: estudo sobre a eficácia de uma nova vacina contra febre

amarela)

Como amostrar?

amostragem probabilística X não probabilística

Page 14: Estatística: Aplicação ao Sensoriamento Remoto SER 203 - ANO 2014 Teoria da amostragem Camilo Daleles Rennó camilo@dpi.inpe.br camilo/estatistica

Amostragem Aleatória SimplesAmostragem Aleatória Simples

Escolhe-se n elementos de uma população de tamanho Namostra = {X1, X2, ..., Xn}

Exemplo: escolher 10 pixels de uma imagem 13x17etapas: rotular cada pixel com um código

únicosortear aleatoriamente 10 códigos

(tabelas ou geradores de números aleatórios)

identificar os pixels selecionadosOBS: método mais simplesrotulação dos elementos pode ser

dispendiosapressupõe população homogêneanão garante representatividade pois alguns

grupos (mais raros) podem não ser sorteados

Page 15: Estatística: Aplicação ao Sensoriamento Remoto SER 203 - ANO 2014 Teoria da amostragem Camilo Daleles Rennó camilo@dpi.inpe.br camilo/estatistica

OBS: garante menor variabilidadegarante melhor representatividadepressupõe estratos homogêneosrequer conhecimento prévio sobre os

estratos

Amostragem Aleatória EstratificadaAmostragem Aleatória EstratificadaPrimeiramente a população (N) é dividida em L sub-populações

(estratos) com N1, N2, ..., NL elementos. Para cada estrato, escolhe-se ni elementos aleatoriamente, totalizando n elementos.

ii

Nn n

N

proporcionais a Ni

i

nn

L

todos iguais 1

i ii L

i ii

N sn n

N s

tamanho ótimo

(considera a variabilidade)

Exemplo: escolher 10 pixels de uma imagem 13x17etapas: selecionar um estrato

rotular cada pixel com um código únicosortear aleatoriamente ni códigos

(tabelas ou geradores de números aleatórios)identificar os pixels selecionadosrepetir o processo para todos os

estratos

Page 16: Estatística: Aplicação ao Sensoriamento Remoto SER 203 - ANO 2014 Teoria da amostragem Camilo Daleles Rennó camilo@dpi.inpe.br camilo/estatistica

Amostragem SistemáticaAmostragem SistemáticaSe os elementos da população já se encontram ordenados segundo

algum critério, pode-se selecionar um elemento qualquer e escolher um “passo” que definirá qual será o próximo elemento escolhido.

1 10 20

passo = 5

Exemplo: escolher pixels de uma imagem 13x17 com passos 5 em x e 4 em yetapas: escolher aleatoriamente um pixel na

célula 5x4 superior esquerda

com base nesse pixel, definir uma grade com

espaçamento de 5x4 elementosidentificar os pixels selecionados

OBS: amostra-se uniformemente todo o espaçogarante-se 1 amostra por célula (5x4 no exemplo

acima)pode-se não conseguir o valor exato de amostras

pretendidasdesaconselhado para ordenações periódicas

Page 17: Estatística: Aplicação ao Sensoriamento Remoto SER 203 - ANO 2014 Teoria da amostragem Camilo Daleles Rennó camilo@dpi.inpe.br camilo/estatistica

Amostragem Sistemática Não AlinhadaAmostragem Sistemática Não Alinhada

Exemplo: escolher pixels de uma imagem 13x17 com passos máximos de 5 em x e 4 em yetapas: a cada célula 5x4 da primeira linha,

definir um passo em ya cada célula da primeira coluna, definir

um passo em x

identificar os pixels selecionados

A ideia é semelhante da amostragem sistemática mas, nesse caso, tenta-se aleatorizar os passos de modo a desalinhar as amostras sorteadas.

Ainda assim, garante-se apenas uma amostra para cada célula

Page 18: Estatística: Aplicação ao Sensoriamento Remoto SER 203 - ANO 2014 Teoria da amostragem Camilo Daleles Rennó camilo@dpi.inpe.br camilo/estatistica

Outras AmostragensOutras Amostragens

Amostragem em múltiplos estágios

talhões

amostragem sistemáticadentro do talhão

Amostragem por conglomerados

conglomerados

amostra-se todos (ou alguns)elementos do conglomerado