eng. de minas joão felipe c.l. costa prof. dr. do demin/ppgem, ufrgs eng. de minas luis eduardo de...

Geoes t at ís t ica

Eng. de Minas João Felipe C.L. CostaEng. de Minas João Felipe C.L. CostaProf. Dr. do DEMIN/PPGEM, UFRGS

Eng. de Minas Luis Eduardo de SouzaEng. de Minas Luis Eduardo de SouzaDoutorando do PPGEM, UFRGS

Estimativa por KrigagemEstimativa por KrigagemTécnicas de Validação CruzadaTécnicas de Validação Cruzada

• Introdução

• Distribuição do erro

• Distribuição bivariada de valores verdadeiros e estimados

• Validação como ferramenta qualitativa

• Referências bibliográficas

Estrutura da apresentaçãoEstrutura da apresentação

A validação cruzada é a técnica que permite, através da comparação entre valores reais e estimados das informações disponíveis, escolher entre diferentes procedimentos de estimativa, entre diferentes estratégias de busca ou entre diferentes modelos variográficos.

Nessa técnica, as opções de estimativa são testadas nas localizações de amostras existentes. Um valor de uma amostra para uma dada localização é temporariamente descartado do banco de dados, sendo então estimado um valor para essa localização a partir das amostras remanescentes. Uma vez que a estimativa tenha sido obtida, podemos compará-la com o valor verdadeiro que havia sido inicialmente removido. Esse procedimento é repetido para todos os dados disponíveis.

IntroduçãoIntrodução

Cross validation x JacknifeCross validation x Jacknife

Cross Validation cada datum é removido individualmente (um por vez) e re-estimado com os remanescentes.

Jacknife remove vários dados de cada vez e com os remanescentes reestima-os.

Após cada remoção de um sub conjunto deve-se reestimar inclusive os parâmetros estatísticos (histograma e variograma). Deve ser repetido para vários subconjuntos removidos.

Extremamente laborioso.

449*v 449*v

GArquivo de saída típico na validação cruzada.

Em cada localização onde uma estimativa foi realizada, temos um dado verdadeiro (v) e uma estimativa (v*). O erro em cada localização é a diferença entre os valores estimados e verdadeiros:

Erro = r = v* - v

Se r é positivo, então nós temos uma superestimativa dos valores verdadeiros; se r é negativo então nós temos uma subestimativa. Freqüentemente, esses erros são chamados de resíduos.

A média da distribuição do erro é chamada de viés e um objetivo razoável de qualquer método de estimativa é produzir estimativas não-tendenciosa, ou seja, com uma média próxima de zero.

Distribuição do erroDistribuição do erro

Média do erro negativa, refletindo uma tendência geral de ocorrências de subestimativas.

Média do erro positiva como resultado de abundância de superestimativas.

Equilíbrio entre superestimativas e subestimativas.

Outra feição que gostaríamos de observar em nossas distribuições de erro é um pequeno espalhamento. Na figura, são apresentadas duas distribuições de erro: em (a) uma distribuição não-tendenciosa, mas com um grande espalhamento ou variância ao redor da média e em (b) uma distribuição com muito menos variância, mas com um leve viés.

GHistograma de freqüência de resíduos para estimativa por KO no Walker Lake dataset.

Um scatterplot de valores verdadeiros versus valores estimados fornece uma evidência adicional do nível de acerto atingido pelo método de estimativa. No caso de uma estimativa “perfeita”, os valores verdadeiros e os estimados plotariam segundo uma reta a 45o no scatterplot.

Distribuição bivariada de Distribuição bivariada de valores verdadeiros e valores verdadeiros e estimadosestimados

No entanto, na prática, teremos sempre que conviver com algum nível de erro em nossas estimativas e nossos scatterplots de valores verdadeiros versus estimados aparecerão sempre como uma nuvem de pontos.

Dessa forma, o espalhamento dessa nuvem de pontos ao redor da reta ideal (x = y) também pode nos fornecer um indicativo do nível de acerto de nossas estimativas. O coeficiente de correlação é um bom índice para sumarizar o quão perto os pontos em um scatterplot vêm a se aproximar da reta e freqüentemente é feito uso desse índice na comparação entre as opções de busca ou métodos de estimativa.

Uma análise do arranjo espacial dos resíduos, freqüentemente pode ser utilizada para investigar a existência de possíveis artefatos criados pelas opções ou métodos de estimativa utilizados.

Como preferimos estimativas condicionalmente não-tendenciosas com respeito a qualquer faixa de valores, é justo que se pretenda também que as estimativas sejam condicionalmente não-tendenciosas com respeito a suas localizações. Para qualquer região, queremos que o centro seja o mais próximo possível de 0 e com o menor espalhamento.

Um mapa de distribuição de resíduos pode revelar áreas onde as estimativas são consistentemente tendenciosas, enquanto mapas de estatística de janelas móveis podem ser usados para mostrar como o espalhamento dos resíduos variam pela área.

Validação como ferramenta Validação como ferramenta qualitativaqualitativa

GMapa dos resíduos mostrando a não-existência de áreas em que ocorram preferencialmente subestimativas ou superestimativas para o Walker Lake dataset, obtidos por estimativas por KO.

Checagem da não tendencionidade Checagem da não tendencionidade do modelodo modelo

Valores estimados Z*(u) versus erro e (u) devem oscilar em torno de e(u)=0

0 200 400 600 800 1000 1200

Checando as realizações simuladasChecando as realizações simuladas

Ligeiramente diferente de quando usado para krigagem.

Teremos pares (output file) de valores verdadeiros e distribuição de incerteza, i.e. a cdf

{Z(ui); FZ(ui,z), i = 1,..., n}

Diferentes algoritmos ou decisões de modelamento (variograma, estratégia de busca, etc) irão produzir diferentes FZ(ui,z)`s

FZ(ui,z) ou ccdf provém de:

i. L realizaçõesii. Estimado por lK diretamenteiii. Usando modelo MG com média, variância e

normalização (back)

Objetivo é checar quão adequada é a distribuição de incerteza (ccdf)

Essa ccdf será checada para precisão e acuracidade

Precisão e Acuracidade de FPrecisão e Acuracidade de FZZ(u(ui,i,z)z)

A verificação de acuracidade e precisão é feita baseada na real fração de valores verdadeiros incluídos em um intervalo simétrico de probabilidade com largura variável p.

i. A ccdf será acurada se a fração de valores verdadeiros (omitidos um a um na validação cruzada) que caem no intervalo p exceda a p para qualquer valores p em [0,1]

ii. A precisão de uma ccdf acurada é medida pela proximidade entre a fração de valores reais e p para todos em [0,1]

Etapas para cálculo da precisão e Etapas para cálculo da precisão e acuracidadeacuracidade

i. Calcular a probabilidade associada a cada valor verdadeiro Z(ui), i=1,...n usando o modelo de incerteza F*(ui,Z(ui)|n(ui)], i=1,...,n

Exemplo: Se o valor real está na mediana dos valores da ccdf então F(ui,Z(ui)[n(ui)]=0,5

ii. Considerar um intervalo (range) de intervalo de probabilidade (IP) simétricos com probabilidade p, por exemplo entre os centis 0,01 e 0,99 com incrementos de 0,01. O intervalo IP-p simétrico é definido com limite superior e inferior.

)1(inf

)1(sup

Cálculo da precisão PI-pCálculo da precisão PI-p

Exemplo se p=0,9; pinf=0,05 e psup=0,95

iii. Definir uma função indicatriz (ui;p) em cada localização ui:

(ui;p) = 1 se F(ui;z(ui)|n(ui)] Є (pinf,psup]

= 0 caso contrário

iv. Tomar a média de (ui;p) em todos n (pontos amostrais) ui:

Essa expressão define a proporção de locais onde o valor real está inserido no PI-p

Interpretando a precisão e Interpretando a precisão e acuracidade da simulação (ccdf)acuracidade da simulação (ccdf)

Acurado mas impreciso

Acurado e preciso

Acurado e impreciso

Gráfico da acuracidadeGráfico da acuracidade

• ISAAKS, E.H. & SRIVASTAVA, M.R. 1989. An Introduction to Applied Geostatistics, Oxford University Press, New York, 561 p.

GOOVAERTS, P. 1997. Geostatistics for Natural Resources Evaluation, Oxford University Press, New York, 483 p.

• DEUTSCH, C.V. & JOURNEL, A.G. 1998. GSLIB: Geostatistical Software Library and User´s Guide, Oxford University Press, New York, 369 p.

• DEUTSCH, C.V. 2002. Geostatistical Reservoir Modeling, Oxford University Press, New York, 376 p.

Referências bibliográficasReferências bibliográficas

eng. de minas joão felipe c.l. costa prof. dr. do demin/ppgem, ufrgs eng. de minas luis eduardo de...

Documents

geração e processamento da escória de aciaria e sua...

edital ppgem 01-2015 mestrado - inscrição...

isbn...

introduÇÃo aos materiais cerÂmicos -...

aulas eng econ prof evandir megliorini - eng econ

mineração, gerenciamento ambiental do projetos, estudo de...

análise exploratória dos dados estatística descritiva...

modelando o variograma descrição espacial dos dados eng....

eng-engenheiro de automaÇÃo - ufrgs · api de óleos...

ordem dos engenheiros · eng. alvarez eng. nelson ribeiro...

ct ppgem m miskalo, eugenio polistchuk 2009

padrão de formatação · À anabela veloso, eng. antónio...

eng04061 circuitos eletrônicos integrados um pouco de...

__________________________________________________...

descrição bivariada comparando duas distribuições eng....

introdução àeng. naval introdução à eng. naval aulão...

seminário ppgem - refrigeração (parte 01)

programa de pós-graduação em engenharia mecânica - ppgem...

eric ericsonfabris eric.fabris@ufrgs - gcar -...

gestão Ágil de projetos aplicada no desenvolvimento de...