geoeducgeoeduc.com/arquivos/materiais/palestra_webtreinamento_primeiros...09/10/2014 1 professor...
TRANSCRIPT
09/10/2014
1
Professor Paulo M. Barbosa Landim1
Geoestatística Aplicada em Ciências Agrárias: WebTreinamento.
2
Modelos determinísticosModelos probabilísticos
•Modelos probabilísticos e a Estatística
Modelagem dos fenômenos naturais
3 4
� Na jogada de um dado, o resultado ser 1, 2, 3, 4, 5 ou 6 tem a mesma probabilidade de ocorrer: processo aleatório e não tendencioso.
� Várias jogadas e vários dados : pode-se calcular a probabilidade
� E na Natureza?� Como prever a ocorrência de um evento?
09/10/2014
2
Modelagem espacial de fenômenos naturais
5
Variáveis “A” e “B”
6
7
Adicionar as coordenadas XY
8
09/10/2014
3
9
A importância do georreferenciamento
10
Distribuição espacial dos valores é diferente
Estatística espacial e interpolação de valores
11
� Valores são coletados (amostra) para estimar o comportamento espacial do fenomeno em estudo (população)
� Interpolação: procedimento matemático de ajuste de uma função à pontos não amostrados, baseando-se em valores obtidos em pontos amostrados.
� Produto final: Mapas (Modelo digital)12
Estratégia para a amostragem:
•características da area a ser amostrada
•planejamento a ser adotado para determinara seleção de amostras em termos delocalização e densidade
•procedimento a ser utilizado para o cálculoda estimativa e sua interpretação.
09/10/2014
4
Usando informações pontuais conhecidas, como estimar um valor em local não amostrado?
13 14
15
• Amostragem baseada na estatística• Amostragem baseada na estatística espacial• Os resultados são sempre incertos.• Essa incerteza não é uma propriedade
intrínsica do fenômeno. • Reflete apenas o grau de desconhecimento do
observador.
Amostragem para o teor de um painel
●●
●
Mapeamento de solos
16
09/10/2014
5
Questões
17
� Quantas amostras devem ser utilizadas?� Até que distâncias devem ser consideradas as
amostras?� Aquela eventualmente colocada no centro da área a
ser mapeada terá um peso maior que as demais? � Se as amostras formarem grupos qual a influência
desses agrupamentos? � Como evitar que os resultados sejam sub ou super
estimado? � A relação espacial, em termos geométricos, entre as
amostras estimadoras e a área a ser estimad, tem importância?
� A técnica de estimativa pode ser usada para qualquer tipo de solo. Por exemplo, autóctone ou transportado?
Diversos métodos de estimativa para modelagem de superfícies por meio de redes regulares
18
� Fornecidos “n” valores conhecidos, regularmente distribuídos ou não,
Z1, Z2,..., Zn,�O valor Z* a ser interpolado para qualquer nó da rede será igual a
Z* = ΣpiZi
� Diferença entre métodos: maneira como os Zi são escolhidos e os respectivos pesos “pi” são calculados e aplicados durante o processo de reticulação.
Algorítmos para interpolação
19
� inverso do quadrado da distância� curvatura mínima� vizinho natural� regressão polinomial� krigagem
20
Uma divisão simples entre os métodos pode ser em modelos determinísticos e modelos estocásticos.
Os modelos determinísticos têm por base critérios puramente geométricos em que as distâncias são euclidianas e não fornecem medidas de incerteza como, por exemplo, o conhecido método do inverso do quadrado da distância (IQD).
Nos modelos estocásticos, os valores coletados são interpretados como provenientes de processos aleatórios e são capazes de quantificar a incerteza associada ao estimador. Os modelos geoestatísticos pertencem à essa categoria.
09/10/2014
6
21
•Análise estrutural: variograma
•Estimativa de valores:•Metodos lineares: krigagem ordinária•Metodos não lineares: krigagem indicativa
22
Metodologia Geoestatística
Origens da Geoestatística
23
� Kolmogorov, Weiner, Matern, Gandin (início até meados de 1900)
� Fisher (1935): variabilidade entre diferenças no rendimentos de culturas pode ser explicada, em grande parte, pelas propriedades ambientais e físicas do solo da área em estudo, as quais possuem grande dependência espacial.
� Krige (1951) e De Wijs (1952-1953)� “Geoestatística”: localização geográfica e a
dependência espacial.
� Matheron (1962,1963)� Teoria das variáveis regionalizadas
24
No espaço ocorrem infinitosvalores de uma variável aleatória.Por amostragem obtem-se diversos resultados únicos dessamesma variável casual.Amostra deve ser representativa.
09/10/2014
7
Variável aleatória e função aleatória
25
� Cada ponto no espaço não apresenta um único valor, mas uma distribuição de probabilidades de ocorrência de valores
� No ponto x a propriedade Z(x) é uma variável aleatória com média m, variância s2 e uma função de distribuição acumulada.
� No espaço existem infinitos pontos xi, i = 1,2, ..., Z(xi), com suas próprias funções de distribuição
� O conjunto de variáveis aleatórias constituem uma funçãoaleatória, ou processo aleatório, ou processo estocástico
� O conjunto de valores reais de Z que inclui a realização da função aleatória é conhecido como variável regionalizada
Função aleatória
26
Variável regionalizada (V.R.)
27
� Duplo aspecto “contraditório”:� Característica “aleatória”: irregularidade e variação
imprevisível de um ponto para outro� Característica “estrutural”: ligações existentes entre os
pontos no espaço, motivadas pela gênese do fenômeno natural.
� É impossível prever com exatidão o teor de um poluente na pluma de contaminação (aspecto aleatório), mas é provável que se encontre um alto teor de um poluente perto de outro alto teor (aspecto estrutural).
� A Teoria das Variáveis Regionalizadas tornou possível a Geoestatística
28
� A Teoria das Variáveis Regionalizadas tem por objetivo o estudo e a representação estrutural das V.R. para a resolução de problemas de estimativa, a partir de dados experimentais medidos sobre suportes que não abrangem totalmente tais domínios
� (Problema clássico da inferência estatística quando se pretende estudar uma população por meio de amostragem)
� O melhor estimador para uma V.R. deve levar em consideração as respectivas posições relativas e, portanto, a característica estrutural
� Estimativas são sempre afetadas por erros e é necessária a avaliação da precisão da estimativa
09/10/2014
8
GEOESTATÍSTICA E INTERPOLAÇÃO DE VALORES
• VARIÁVEIS REGIONALIZADAS•A localização geográfica é parte integral de qualquervariável.
•Os valores das variáveis não são independentes e identicamente distribuidos.
•Ocorre dependência espacial entre os valores
•Consequência: “erro” da estimativa
29 30
�Exemplos de VR:� Variáveis físicas dos solos� Variáveis químicas dos solos� Altitude de cotas topográficas� Porosidade e permeabilidade de solos� Transmissividade hidráulica� Concentração de elementos-traço no solo� Densidade vegetal em florestas� Distribuição espacial de pragas
Aplicações da geoestatística
31
� Lavra e prospecção mineira� Agricultura de precisão� Análise espacial de crimes� Cartografia� Climatologia� Ecologia da paisagem� Engenharia Florestal� Epidemiologia� Geologia ambiental� Geologia do petróleo� Geotecnia� Hidrogeologia� Pedologia: mapeamento de solos� Softwares para Confecção de Mapas ou Sistemas de Informações
Georreferenciadas (Exemplo: SPRING)
Momentos considerados na função aleatóriaem Geoestatística: média e variância
Momento de primeira ordem:Média = E{Z(x)} = m(x)
Momentos de segunda ordem:Variância (Covariância)CorrelaçãoVariograma
32
09/10/2014
9
����â���� = � = � �� − ��� − � �
�
������â���� = ��� = � ��� − ������ − ���� − �
33
Os pares de valores referem-se à mesmavariável, obtidos em função da localizaçãoespacial, ou seja, em locais com distânciasmúltiplas “h(lag)”,
Variograma
Variância das diferenças entre dois valores em pontos separados por h.
Mede a variabilidade espacial em função da distância
34
Variograma
35
� relações espaciais são mostradas quando a função
γ(h) é colocada em gráfico contra h para originar o variograma experimental
� γ(h) distribui-se de 0, quando h=0, até um valor igual a variância das observações para um alto valor de h
� a distância, segundo a qual γ(h) atinge um patamar (soleira/sill), igual a variância dos dados, é chamada de alcance (range).
� γ(h) = variância [C(0)] – covariância [C(h)] Mesma direção θ e distâncias multiplas de h:γ* para h, 2h, 3h, ...
Variograma: valores de “γ”, na ordenada, e “h”, na abcissa.
36
09/10/2014
10
h≤a: campo estruturado
h>a: campo aleatório
37 38
� A interpretação do variograma permite obter parâmetros que descrevem o comportamento espacial das variáveis regionalizadas.
�O variograma substitui a distância euclidiana “h” pela distância “γ(h)”, atributo específico do local em estudo.
�A distância dada pelo variograma mede o grau médio de similaridade entre um valor não amostrado e um valor conhecido vizinho.
� O variograma é utilizado para calcular os valores de variância, para uma dada distância, os quais são necessários para a organização do sistema de equações da krigagem.
Modelagem
39
Modelos de variogramas
� As funções matemáticas dos modelos devempermitir que a matriz de covariâncias, nelesbaseada, possa ser invertida, para fornecer os“pesos” para a interpolação por krigagem.
� Desse modo, somente certos modelos podem ser usados.
40
09/10/2014
12
Modelo Efeito Pepita Puro
Var
iog
ram
a
Distancia
S
Este modelo representa umfenômeno completamentealeatório, no qual não hacorrelação espacial
45
Krigagem (Krigeage/Kriging)
46
� Todo o processo de inferência espacial tem início com a coleta de uma amostra composta por n pontos de dados e é esperado que essa amostra seja representativa do fenômeno em estudo, em termos da distribuição e variabilidade espaciais.
� Krigagem é o processo geoestatístico de estimativa de valores de variáveis distribuídas no espaço, e/ou no tempo, a partir de valores adjacentes enquanto considerados como interdependentes pela análise variográfica.
47
� Único meio disponível para verificar a existência ou não de continuidade espacial é, se houver, por meio da análise variográfica que determinará os parâmetros que caracterizam o comportamento regionalizado
� Utiliza distâncias ponderadas e estimativa por médias móveis, pelo qual os pesos adequados são obtidos a partir de um variograma, representativo da média das diferenças ao quadrado dos valores de Z(xi) distribuídos a intervalos de distâncias especificados (lags h)
48
� Necessidade de um sistema de equações normais em matriz, na qual são usados os parâmetros variográficos para a obtenção dos pesos a serem utilizados para o cálculo do valor do ponto a ser estimado/interpolado
� Quando um variograma é adequadamente elaborado, a estimativa por krigagem resultante é reconhecida como sendo a melhor e não tendenciosa estimativa linear
� O sistema de krigagem necessário para a determinação dos ponderadores associados a cada um dos pontos estimadores baseia-se na ideia que quanto maior a covariância entre uma amostra xi, i=1, 2, ..., n, e o local que está sendo estimado, x0, mais essa amostra deve contribuir para a estimativa.
09/10/2014
13
Cálculo dos ponderadores λi
� O valor estimado por krigagem Z*(xi) é uma combinação linear de n Variáveis Regionalizadas.� O valor estimado é não enviesado
� A variância da estimativa é minimizada
49
•Existe associado a esse estimador um erro, ε=Z(x0)-Z*KO(x0); uma maneira simples seria representá-lo pela variância da estimativa:σ2=Var[Z*KO(x0)-Z(x0)]2
•A variância não pode ser obtida porque não se conhece o valor real que se esta estimando e, portanto, também não se sabe qual o erro associado•A solução é transformar a expressão em termos de quantidades que possam ser calculadas:
E[Z(x)] = mVar[Z(x)-Z(x+h)]2 = 2γ(h)Variância dos erros: = desvios ao quadrado em relação ao erro médio = média de [(Z(x0) – Z*(x0)]2.
Para estimar tal medida utilizar o variograma, em que são medidas as diferenças de valores ao quadrado.
50
Krigagem
Estimação por uma combinação linear ponderada
O erro cometido deve teruma esperança zero
Procura pela máxima precisão
O valor estimado é não enviesado
51 52
� Variância dos erros: = desvios ao quadrado em relação ao erro médio = média de [(Z(x0) – Z*(x0)]2.
� Para estimar tal medida utilizar o variograma, em que são medidas as diferenças de valores ao quadrado.
� Num variograma, previamente calculado, dada uma distância h entre os pontos, pode-se estimar a variância simplesmente lendo o valor no eixo dos γ´s
�γ(xi,xj): variância entre os pontos estimadores
�γ(xi,x0): variância entre o ponto estimador i e o ponto a ser estimado
09/10/2014
14
53
� É introduzido o multiplicador de Lagrange (µ) porque os pesos λ devem somar 1�Representa o balanço entre como os valores
estimadores se relacionam com o valor a ser estimado e como se relacionam entre si.
� A variância da krigagem é homoscedástica� Independe dos valores dos pontos usados para
obter o estimador Z*(x0)�Mede apenas a configuração espacial dos
dados
Krigagem ordinária para a estimativa de um ponto x0
54
Cálculo da variância(desvio padrão) associada(o) ao valor obtido por estimativa krigada
[λ] = [A]-1 [B]
55
Exemplo: espessura de camada de carvão (Yamamoto & Landim, 2013)
56
( ) ( ) ( ) ( ) ( ) ( ) ( )[( ) ( ) ] 028,004,138,138,141,1
41,14,14,16,16,109,223,12,15,13,13,14,18*2
15,0
22
222222*
=−+−
+−+−+−+−+−+−=γ
( ) ( ) ( ) ( ) ( ) ( )[( ) ( ) ( ) ( ) ( ) ( ) ( )( ) ( ) ( ) ( ) ( ) ( ) ] 043,004,141,138,14,141,16,14,109,209,262,13,123,1
2,185,15,14,14,118,13,157,157,155,118,11,11,12,1
2,102,105,196,096,094,094,019,172,08,018*2
10,1
222222
2222222
22222*
=−+−+−+−+−+−
+−+−+−+−+−+−+−
+−+−+−+−+−=γ
09/10/2014
15
57
Distância Leste-Oeste Norte-Sul
( )hγ Np ( )hγ Np
0,5 0,028 8 0,028 11 1,0 0,043 18 0,097 15 1,5 0,051 12 0,069 13 2,0 0,047 12 0,147 7 2,5 0,158 6 0,216 9 3,0 0,015 5 0,133 3 3,5 0,104 4 0,178 3
58
Modelo esférico/ Co:0; C1:0.105; a: 1.94
59
Mapa com valores interpolados por krigagem ordinária e respetivos desvios padrão da krigagem
60
Estimativa dos valores no reticulado
0 10 20 30 40 50 60 70 80 90 1000
10
20
30
40
50
60
70
80
90
100
0 20 40 60 80 1000
20
40
60
80
100
0 10 20 30 40 50 60 70 80 90 1000
10
20
30
40
50
60
70
80
90
100
0 10 20 30 40 50 60 70 80 90 1000
10
20
30
40
50
60
70
80
90
100
09/10/2014
17
65
�KRIGAGEM INDICADORA�KRIGAGEM INDICATIVA�(Krigagem da Indicatriz)
� No processo básico da krigagem, a estimativa é feita para determinar um valor médio em um local não amostrado.
� Pode-se, porém, fazer estimativas baseadas em valores que se situam acima ou abaixo de um determinado nível de corte (cutoff).
� Este procedimento, estabelecido para vários níveis de corte de uma distribuição acumulada, conduz a uma estimativa de vários valores dessa distribuição em um determinado local, cuja função poderá ser ajustada.
Variável indicativa� Variável indicativa: variável binária com apenas
duas possibilidades 0 ou 1
� Os 0’s e 1’s podem ser usados para designar duas diferentes classes:� 0 = folhelho e 1= arenito� 0= impermeável e 1= permeável� 0= minério e 1= rejeito
� Podem ser usadas para separar uma variável continua em duas categorias: � 0: Pb≤10ppm e 1: Pb> 10ppm
09/10/2014
18
Estimativa da distribuição de probabilidades pela “krigagem indicativa”
� Transformar os dados originais em indicadores, isto é, transformar os valores que estão acima de um determinado nível de corte em zero (0) e os que estão abaixo em um (1):
� Neste tipo de transformação, os menores valores estimados indicarão maior probabilidade de ocorrência de valores acima do nível de corte e os maiores valores estimados indicarão menor probabilidade de ocorrência de valores acima do nível de corte.
>
≤=
cj
cj
cj vv se 0
vv se 1)v(i
≤
>=
cj
cjcj vv se 0
vv se 1)v(i
�Neste tipo de transformação, os maiores valores estimados indicarão maior probabilidade de ocorrência de valores acima do nível de corte e os menores valores estimados indicarão menor probabilidade de ocorrência de valores acima do nível de corte.
� Calculo dos variogramas experimentais indicativos para determinados níveis de corte e modelagem variográfica
� Krigagem ordinária pontual nos valores transformados, fornece a probabilidade de vi < vc
�Variogramas indicativos podem ser estimados pela função:
h = passo (lag) básicovC = nível de corteN = número de pares
09/10/2014
19
Escolha dos níveis de corte
� Conhecimento “a priori” ou distribuição de probabilidades acumuladas
� Objetivos:� procura de valores acima do nível de corte,
como na determinação de teores anômalos de um determinado bem mineral
� procura de valores abaixo do nível de corte, como em análise ambiental para a determinação de níveis de poluição abaixo de um certo teor.
A Krigagem indicativa com múltiplos níveis de corte é aplicada para encontrar a função de distribuição acumulada de cada ponto a ser estimado.
Nesse caso alem de estimar o valor, é também calculado um intervalo de confiança e a correspondente probabilidade de exceder ou não um certo valor.
A média ponderada das variáveis indicativas é uma estimativa da probabilidade acumulada
∑≤N
1=jjjc )x(I=)v)x(Z(obPr λ
Avaliação dos valores médios das variáveis que definem um recurso natural: krigagem ordinária.
E para características extremas?Para valores acima, ou abaixo, de valores de corte?
A relação entre um recurso natural e o seu entorno.
Uma pluma de um poluente não significa que a “não-pluma” adjacente esteja completamente limpa daquele contaminante.
Funções de distribuição de probabilidades locais estimadas para fornecer mapas de riscos
O estimador fornecido pela krigagem suaviza os resultados.
O estimador é não-enviesado em relação à média da lei de distribuição da variável Z(x), mas não em relação à lei de distribuição de probabilidades de Z(x).
A krigagem de Z(x) é um estimador ótimo em relação à media, mas não em relação à variância.
Relação intrínseca entre o fenômeno de suavização e o erro associado ao processo de estimação: a variância dos valores reais é maior que a variância dos valores estimados.
À medida que aumenta a quantidade de informação para estimar a mesma área, o erro tende a ser menor, e, por conseqüência, menos acentuado o efeito de suavização.
09/10/2014
20
Uma das mais importantes conseqüências do efeito de suavização: enviesamento dos valores extremos, com subestimação dos valores acima da média e sobreestimação dos valores abaixo da média.
Exemplo: numa área com solo potencialmente contaminado pretende-se avaliar qual a porção a ser limpa e qual a que não esta contaminada e que, conseqüentemente, não deve ser removida ou recuperada
Erros de classificação:I. Classificar como segura uma localização
contaminadaII. Classificar como contaminada uma localização
segura
Uma localização é classificada como segura quando a respectiva estimativa calculada se encontra abaixo do limite máximo permitido (zc) para o contaminante de interesse. Essa localização não estara sujeita a nenhum tratamento ou remediação.
Caso contrário, a localização será classificada como contaminada e estará sujeita a tratamento.
Erro tipo I (risco α(x) ou falso positivo) ocorre quando a estimativa em uma localização segura u (Prob Z(x)≤zc) é superestimada (Z*(x)>zc); seu valor fica acima do limite máximo permitidoα(u)=Prob{Z(x)≤zc|Z*(x)>zc,(n)}
=F(x;zc|(n)), para todas as localizações x tal que a estimativa Z*(x)>zc.
Erro tipo II (risco β(x) ou falso negativo) ocorre quando uma localização contaminada u (ProbZ(x) >zc é subestimada (Z*(x)≤zc); seu valor fica abaixo do limite máximo permitidoβ(x)=Prob{Z(x)>zc|Z*(x)≤zc,(n)}
=1-F(x;zc|(n)), para todas as localizações x tal que a estimativa Z*(x)≤zc.
(Myers, 1997:463)
09/10/2014
21
Exemplo: Bacia Delaware/Novo México/EUAPoços para produção de petróleo: produtivos e improdutivos (Hohn, 1999)
"X" "Y" "Z"27 42 029 42 030 42 044 42 036 43 039 43 048 43 041 44 042 44 048 44 041 17 120 20 120 21 121 21 135 21 132 33 133 33 134 33 136 33 141 33 1
1: poço produtivo
0: poço improdutivo
09/10/2014
22
85
Metodologia geoestatística aplicada em Ciências Agrárias
Talita Tanaka Fernandes, T. T. (2014). Krigagem Indicativa para elaboração de mapas probabilísticos em Agricultura de Precisão. Dissertação (Mestrado em Biometria) - Instituto de Biociências/UNESP, Botucatu, .
SILVA, R. F. B. (2011). Planejamento do uso do solo em uma Bacia Hidrográfica para conservação dos Recursos Hídricos. Dissertação (Mestrado em Agronomia/Irrigação e Drenagem) – Faculdade de Ciências Agronômicas/UNESP, Botucatu,..
8
6
Pontos de coleta na bacia hidrográfica do Rio Araquá.
87
Fósforo: macronutriente importante devido a sua participação na formação de componentes presentes no núcleo das células vegetaisPotássio: essencial para as fases de crescimento vegetativo e reprodutivo da cana de açúcar.Saturação por bases: indica o estado de ocupação das cargas da capacidade de troca catiônica total, ou seja, do total de cargas negativas existentes no solo e qual proporção ocupada pelos cátions úteis.
88
Sph;20.000;40.000;3700
Sph;11.000;18.000;4000
09/10/2014
23
89
AreiaKrigagem ordinária
90
ArgilaKrigagem ordinária
91
Empresa Brasileira de Pesquisa Agropecuária – Embrapa (2013)
Areia: se <= 700, valor 0; se >700, valor 1, Argila: se <=350, valor 0; se >350, valor 1,Fósforo: se <=16, valor 0; se >16, valor 1,Potássio: se <=3,1, valor 0; se >3,1, valor 1,Saturação por Bases: se <=60, valor 0; se >60, valor 1.
Krigagem indicativa
92
09/10/2014
24
93
Dados com tendência
Efeito pepita puro
???
94
1 Grau0 2 Grau0 3 Grau0
LINHA CURVA DE 3 GRAU0PARABOLA
VARIÁVEL2
X X X
Y Y Y
YYY
X X X
Z Z Z
PLANO PARABOLOIDE SUPERFÍCIE DE 3 GRAU0
VARIÁVEL3
Regressão polinomial: análise de tendência
Dados originais
Dados interpolados
Ajustando uma superfície de tendência de 1º grau
95 96
Regressão polinomialMapas de tendência: Argila(a) e Areia(c)
Mapas de resíduos: Argila(b) e Areia (d).