eng. de minas joão felipe c.l. costa prof. dr. do demin/ppgem, ufrgs eng. de minas luis eduardo de...

22
Geoestatística Eng. de Minas João Felipe C.L. Costa Eng. de Minas João Felipe C.L. Costa Prof. Dr. do DEMIN/PPGEM, UFRGS Eng. de Minas Luis Eduardo de Souza Eng. de Minas Luis Eduardo de Souza Doutorando do PPGEM, UFRGS Estimativa por Krigagem Estimativa por Krigagem Técnicas de Validação Cruzada Técnicas de Validação Cruzada

Upload: internet

Post on 22-Apr-2015

131 views

Category:

Documents


5 download

TRANSCRIPT

Page 1: Eng. de Minas João Felipe C.L. Costa Prof. Dr. do DEMIN/PPGEM, UFRGS Eng. de Minas Luis Eduardo de Souza Doutorando do PPGEM, UFRGS Estimativa por Krigagem

Geoes t at ís t ica

Eng. de Minas João Felipe C.L. CostaEng. de Minas João Felipe C.L. CostaProf. Dr. do DEMIN/PPGEM, UFRGS

Eng. de Minas Luis Eduardo de SouzaEng. de Minas Luis Eduardo de SouzaDoutorando do PPGEM, UFRGS

Estimativa por KrigagemEstimativa por KrigagemTécnicas de Validação CruzadaTécnicas de Validação Cruzada

Page 2: Eng. de Minas João Felipe C.L. Costa Prof. Dr. do DEMIN/PPGEM, UFRGS Eng. de Minas Luis Eduardo de Souza Doutorando do PPGEM, UFRGS Estimativa por Krigagem

G

• Introdução

• Distribuição do erro

• Distribuição bivariada de valores verdadeiros e estimados

• Validação como ferramenta qualitativa

• Referências bibliográficas

Estrutura da apresentaçãoEstrutura da apresentação

Page 3: Eng. de Minas João Felipe C.L. Costa Prof. Dr. do DEMIN/PPGEM, UFRGS Eng. de Minas Luis Eduardo de Souza Doutorando do PPGEM, UFRGS Estimativa por Krigagem

G

A validação cruzada é a técnica que permite, através da comparação entre valores reais e estimados das informações disponíveis, escolher entre diferentes procedimentos de estimativa, entre diferentes estratégias de busca ou entre diferentes modelos variográficos.

Nessa técnica, as opções de estimativa são testadas nas localizações de amostras existentes. Um valor de uma amostra para uma dada localização é temporariamente descartado do banco de dados, sendo então estimado um valor para essa localização a partir das amostras remanescentes. Uma vez que a estimativa tenha sido obtida, podemos compará-la com o valor verdadeiro que havia sido inicialmente removido. Esse procedimento é repetido para todos os dados disponíveis.

IntroduçãoIntrodução

Page 4: Eng. de Minas João Felipe C.L. Costa Prof. Dr. do DEMIN/PPGEM, UFRGS Eng. de Minas Luis Eduardo de Souza Doutorando do PPGEM, UFRGS Estimativa por Krigagem

Cross validation x JacknifeCross validation x Jacknife

Cross Validation cada datum é removido individualmente (um por vez) e re-estimado com os remanescentes.

Jacknife remove vários dados de cada vez e com os remanescentes reestima-os.

Após cada remoção de um sub conjunto deve-se reestimar inclusive os parâmetros estatísticos (histograma e variograma). Deve ser repetido para vários subconjuntos removidos.

Extremamente laborioso.

Page 5: Eng. de Minas João Felipe C.L. Costa Prof. Dr. do DEMIN/PPGEM, UFRGS Eng. de Minas Luis Eduardo de Souza Doutorando do PPGEM, UFRGS Estimativa por Krigagem

G

?

449*v 449*v

Page 6: Eng. de Minas João Felipe C.L. Costa Prof. Dr. do DEMIN/PPGEM, UFRGS Eng. de Minas Luis Eduardo de Souza Doutorando do PPGEM, UFRGS Estimativa por Krigagem

GArquivo de saída típico na validação cruzada.

Page 7: Eng. de Minas João Felipe C.L. Costa Prof. Dr. do DEMIN/PPGEM, UFRGS Eng. de Minas Luis Eduardo de Souza Doutorando do PPGEM, UFRGS Estimativa por Krigagem

G

Em cada localização onde uma estimativa foi realizada, temos um dado verdadeiro (v) e uma estimativa (v*). O erro em cada localização é a diferença entre os valores estimados e verdadeiros:

Erro = r = v* - v

Se r é positivo, então nós temos uma superestimativa dos valores verdadeiros; se r é negativo então nós temos uma subestimativa. Freqüentemente, esses erros são chamados de resíduos.

A média da distribuição do erro é chamada de viés e um objetivo razoável de qualquer método de estimativa é produzir estimativas não-tendenciosa, ou seja, com uma média próxima de zero.

Distribuição do erroDistribuição do erro

Page 8: Eng. de Minas João Felipe C.L. Costa Prof. Dr. do DEMIN/PPGEM, UFRGS Eng. de Minas Luis Eduardo de Souza Doutorando do PPGEM, UFRGS Estimativa por Krigagem

G

Média do erro negativa, refletindo uma tendência geral de ocorrências de subestimativas.

Média do erro positiva como resultado de abundância de superestimativas.

Equilíbrio entre superestimativas e subestimativas.

Page 9: Eng. de Minas João Felipe C.L. Costa Prof. Dr. do DEMIN/PPGEM, UFRGS Eng. de Minas Luis Eduardo de Souza Doutorando do PPGEM, UFRGS Estimativa por Krigagem

G

Outra feição que gostaríamos de observar em nossas distribuições de erro é um pequeno espalhamento. Na figura, são apresentadas duas distribuições de erro: em (a) uma distribuição não-tendenciosa, mas com um grande espalhamento ou variância ao redor da média e em (b) uma distribuição com muito menos variância, mas com um leve viés.

(a)

(b)

Page 10: Eng. de Minas João Felipe C.L. Costa Prof. Dr. do DEMIN/PPGEM, UFRGS Eng. de Minas Luis Eduardo de Souza Doutorando do PPGEM, UFRGS Estimativa por Krigagem

GHistograma de freqüência de resíduos para estimativa por KO no Walker Lake dataset.

Page 11: Eng. de Minas João Felipe C.L. Costa Prof. Dr. do DEMIN/PPGEM, UFRGS Eng. de Minas Luis Eduardo de Souza Doutorando do PPGEM, UFRGS Estimativa por Krigagem

G

Um scatterplot de valores verdadeiros versus valores estimados fornece uma evidência adicional do nível de acerto atingido pelo método de estimativa. No caso de uma estimativa “perfeita”, os valores verdadeiros e os estimados plotariam segundo uma reta a 45o no scatterplot.

Distribuição bivariada de Distribuição bivariada de valores verdadeiros e valores verdadeiros e estimadosestimados

Page 12: Eng. de Minas João Felipe C.L. Costa Prof. Dr. do DEMIN/PPGEM, UFRGS Eng. de Minas Luis Eduardo de Souza Doutorando do PPGEM, UFRGS Estimativa por Krigagem

G

No entanto, na prática, teremos sempre que conviver com algum nível de erro em nossas estimativas e nossos scatterplots de valores verdadeiros versus estimados aparecerão sempre como uma nuvem de pontos.

Dessa forma, o espalhamento dessa nuvem de pontos ao redor da reta ideal (x = y) também pode nos fornecer um indicativo do nível de acerto de nossas estimativas. O coeficiente de correlação é um bom índice para sumarizar o quão perto os pontos em um scatterplot vêm a se aproximar da reta e freqüentemente é feito uso desse índice na comparação entre as opções de busca ou métodos de estimativa.

Page 13: Eng. de Minas João Felipe C.L. Costa Prof. Dr. do DEMIN/PPGEM, UFRGS Eng. de Minas Luis Eduardo de Souza Doutorando do PPGEM, UFRGS Estimativa por Krigagem

G

Uma análise do arranjo espacial dos resíduos, freqüentemente pode ser utilizada para investigar a existência de possíveis artefatos criados pelas opções ou métodos de estimativa utilizados.

Como preferimos estimativas condicionalmente não-tendenciosas com respeito a qualquer faixa de valores, é justo que se pretenda também que as estimativas sejam condicionalmente não-tendenciosas com respeito a suas localizações. Para qualquer região, queremos que o centro seja o mais próximo possível de 0 e com o menor espalhamento.

Um mapa de distribuição de resíduos pode revelar áreas onde as estimativas são consistentemente tendenciosas, enquanto mapas de estatística de janelas móveis podem ser usados para mostrar como o espalhamento dos resíduos variam pela área.

Validação como ferramenta Validação como ferramenta qualitativaqualitativa

Page 14: Eng. de Minas João Felipe C.L. Costa Prof. Dr. do DEMIN/PPGEM, UFRGS Eng. de Minas Luis Eduardo de Souza Doutorando do PPGEM, UFRGS Estimativa por Krigagem

GMapa dos resíduos mostrando a não-existência de áreas em que ocorram preferencialmente subestimativas ou superestimativas para o Walker Lake dataset, obtidos por estimativas por KO.

Page 15: Eng. de Minas João Felipe C.L. Costa Prof. Dr. do DEMIN/PPGEM, UFRGS Eng. de Minas Luis Eduardo de Souza Doutorando do PPGEM, UFRGS Estimativa por Krigagem

Checagem da não tendencionidade Checagem da não tendencionidade do modelodo modelo

Valores estimados Z*(u) versus erro e (u) devem oscilar em torno de e(u)=0

-800

-600

-400

-200

0

200

400

600

800

0 200 400 600 800 1000 1200

z*(u)

e(u)

Page 16: Eng. de Minas João Felipe C.L. Costa Prof. Dr. do DEMIN/PPGEM, UFRGS Eng. de Minas Luis Eduardo de Souza Doutorando do PPGEM, UFRGS Estimativa por Krigagem

Checando as realizações simuladasChecando as realizações simuladas

Ligeiramente diferente de quando usado para krigagem.

Teremos pares (output file) de valores verdadeiros e distribuição de incerteza, i.e. a cdf

{Z(ui); FZ(ui,z), i = 1,..., n}

Diferentes algoritmos ou decisões de modelamento (variograma, estratégia de busca, etc) irão produzir diferentes FZ(ui,z)`s

Page 17: Eng. de Minas João Felipe C.L. Costa Prof. Dr. do DEMIN/PPGEM, UFRGS Eng. de Minas Luis Eduardo de Souza Doutorando do PPGEM, UFRGS Estimativa por Krigagem

FZ(ui,z) ou ccdf provém de:

i. L realizaçõesii. Estimado por lK diretamenteiii. Usando modelo MG com média, variância e

normalização (back)

Objetivo é checar quão adequada é a distribuição de incerteza (ccdf)

Essa ccdf será checada para precisão e acuracidade

Page 18: Eng. de Minas João Felipe C.L. Costa Prof. Dr. do DEMIN/PPGEM, UFRGS Eng. de Minas Luis Eduardo de Souza Doutorando do PPGEM, UFRGS Estimativa por Krigagem

Precisão e Acuracidade de FPrecisão e Acuracidade de FZZ(u(ui,i,z)z)

A verificação de acuracidade e precisão é feita baseada na real fração de valores verdadeiros incluídos em um intervalo simétrico de probabilidade com largura variável p.

i. A ccdf será acurada se a fração de valores verdadeiros (omitidos um a um na validação cruzada) que caem no intervalo p exceda a p para qualquer valores p em [0,1]

ii. A precisão de uma ccdf acurada é medida pela proximidade entre a fração de valores reais e p para todos em [0,1]

Page 19: Eng. de Minas João Felipe C.L. Costa Prof. Dr. do DEMIN/PPGEM, UFRGS Eng. de Minas Luis Eduardo de Souza Doutorando do PPGEM, UFRGS Estimativa por Krigagem

Etapas para cálculo da precisão e Etapas para cálculo da precisão e acuracidadeacuracidade

i. Calcular a probabilidade associada a cada valor verdadeiro Z(ui), i=1,...n usando o modelo de incerteza F*(ui,Z(ui)|n(ui)], i=1,...,n

Exemplo: Se o valor real está na mediana dos valores da ccdf então F(ui,Z(ui)[n(ui)]=0,5

ii. Considerar um intervalo (range) de intervalo de probabilidade (IP) simétricos com probabilidade p, por exemplo entre os centis 0,01 e 0,99 com incrementos de 0,01. O intervalo IP-p simétrico é definido com limite superior e inferior.

2

)1(inf

pp

2

)1(sup

pp

Page 20: Eng. de Minas João Felipe C.L. Costa Prof. Dr. do DEMIN/PPGEM, UFRGS Eng. de Minas Luis Eduardo de Souza Doutorando do PPGEM, UFRGS Estimativa por Krigagem

Cálculo da precisão PI-pCálculo da precisão PI-p

Exemplo se p=0,9; pinf=0,05 e psup=0,95

iii. Definir uma função indicatriz (ui;p) em cada localização ui:

(ui;p) = 1 se F(ui;z(ui)|n(ui)] Є (pinf,psup]

= 0 caso contrário

iv. Tomar a média de (ui;p) em todos n (pontos amostrais) ui:

Essa expressão define a proporção de locais onde o valor real está inserido no PI-p

n

ii pu

n 1

),(1

Page 21: Eng. de Minas João Felipe C.L. Costa Prof. Dr. do DEMIN/PPGEM, UFRGS Eng. de Minas Luis Eduardo de Souza Doutorando do PPGEM, UFRGS Estimativa por Krigagem

Interpretando a precisão e Interpretando a precisão e acuracidade da simulação (ccdf)acuracidade da simulação (ccdf)

ppp

ppp

ppp

)(

)(

)(

Acurado mas impreciso

Acurado e preciso

Acurado e impreciso

Gráfico da acuracidadeGráfico da acuracidade

)( p

Page 22: Eng. de Minas João Felipe C.L. Costa Prof. Dr. do DEMIN/PPGEM, UFRGS Eng. de Minas Luis Eduardo de Souza Doutorando do PPGEM, UFRGS Estimativa por Krigagem

G

• ISAAKS, E.H. & SRIVASTAVA, M.R. 1989. An Introduction to Applied Geostatistics, Oxford University Press, New York, 561 p.

GOOVAERTS, P. 1997. Geostatistics for Natural Resources Evaluation, Oxford University Press, New York, 483 p.

• DEUTSCH, C.V. & JOURNEL, A.G. 1998. GSLIB: Geostatistical Software Library and User´s Guide, Oxford University Press, New York, 369 p.

• DEUTSCH, C.V. 2002. Geostatistical Reservoir Modeling, Oxford University Press, New York, 376 p.

Referências bibliográficasReferências bibliográficas