geoeducgeoeduc.com/arquivos/materiais/palestra_webtreinamento_primeiros...09/10/2014 1 professor...

25
09/10/2014 1 Professor Paulo M. Barbosa Landim 1 Geoestatística Aplicada em Ciências Agrárias: WebTreinamento. 2 Modelos determinísticos Modelos probabilísticos Modelos probabilísticos e a Estatística Modelagem dos fenômenos naturais 3 4 Na jogada de um dado, o resultado ser 1, 2, 3, 4, 5 ou 6 tem a mesma probabilidade de ocorrer: processo aleatório e não tendencioso. Várias jogadas e vários dados : pode-se calcular a probabilidade E na Natureza? Como prever a ocorrência de um evento?

Upload: truongdat

Post on 30-Jul-2018

214 views

Category:

Documents


0 download

TRANSCRIPT

09/10/2014

1

Professor Paulo M. Barbosa Landim1

Geoestatística Aplicada em Ciências Agrárias: WebTreinamento.

2

Modelos determinísticosModelos probabilísticos

•Modelos probabilísticos e a Estatística

Modelagem dos fenômenos naturais

3 4

� Na jogada de um dado, o resultado ser 1, 2, 3, 4, 5 ou 6 tem a mesma probabilidade de ocorrer: processo aleatório e não tendencioso.

� Várias jogadas e vários dados : pode-se calcular a probabilidade

� E na Natureza?� Como prever a ocorrência de um evento?

09/10/2014

2

Modelagem espacial de fenômenos naturais

5

Variáveis “A” e “B”

6

7

Adicionar as coordenadas XY

8

09/10/2014

3

9

A importância do georreferenciamento

10

Distribuição espacial dos valores é diferente

Estatística espacial e interpolação de valores

11

� Valores são coletados (amostra) para estimar o comportamento espacial do fenomeno em estudo (população)

� Interpolação: procedimento matemático de ajuste de uma função à pontos não amostrados, baseando-se em valores obtidos em pontos amostrados.

� Produto final: Mapas (Modelo digital)12

Estratégia para a amostragem:

•características da area a ser amostrada

•planejamento a ser adotado para determinara seleção de amostras em termos delocalização e densidade

•procedimento a ser utilizado para o cálculoda estimativa e sua interpretação.

09/10/2014

4

Usando informações pontuais conhecidas, como estimar um valor em local não amostrado?

13 14

15

• Amostragem baseada na estatística• Amostragem baseada na estatística espacial• Os resultados são sempre incertos.• Essa incerteza não é uma propriedade

intrínsica do fenômeno. • Reflete apenas o grau de desconhecimento do

observador.

Amostragem para o teor de um painel

●●

Mapeamento de solos

16

09/10/2014

5

Questões

17

� Quantas amostras devem ser utilizadas?� Até que distâncias devem ser consideradas as

amostras?� Aquela eventualmente colocada no centro da área a

ser mapeada terá um peso maior que as demais? � Se as amostras formarem grupos qual a influência

desses agrupamentos? � Como evitar que os resultados sejam sub ou super

estimado? � A relação espacial, em termos geométricos, entre as

amostras estimadoras e a área a ser estimad, tem importância?

� A técnica de estimativa pode ser usada para qualquer tipo de solo. Por exemplo, autóctone ou transportado?

Diversos métodos de estimativa para modelagem de superfícies por meio de redes regulares

18

� Fornecidos “n” valores conhecidos, regularmente distribuídos ou não,

Z1, Z2,..., Zn,�O valor Z* a ser interpolado para qualquer nó da rede será igual a

Z* = ΣpiZi

� Diferença entre métodos: maneira como os Zi são escolhidos e os respectivos pesos “pi” são calculados e aplicados durante o processo de reticulação.

Algorítmos para interpolação

19

� inverso do quadrado da distância� curvatura mínima� vizinho natural� regressão polinomial� krigagem

20

Uma divisão simples entre os métodos pode ser em modelos determinísticos e modelos estocásticos.

Os modelos determinísticos têm por base critérios puramente geométricos em que as distâncias são euclidianas e não fornecem medidas de incerteza como, por exemplo, o conhecido método do inverso do quadrado da distância (IQD).

Nos modelos estocásticos, os valores coletados são interpretados como provenientes de processos aleatórios e são capazes de quantificar a incerteza associada ao estimador. Os modelos geoestatísticos pertencem à essa categoria.

09/10/2014

6

21

•Análise estrutural: variograma

•Estimativa de valores:•Metodos lineares: krigagem ordinária•Metodos não lineares: krigagem indicativa

22

Metodologia Geoestatística

Origens da Geoestatística

23

� Kolmogorov, Weiner, Matern, Gandin (início até meados de 1900)

� Fisher (1935): variabilidade entre diferenças no rendimentos de culturas pode ser explicada, em grande parte, pelas propriedades ambientais e físicas do solo da área em estudo, as quais possuem grande dependência espacial.

� Krige (1951) e De Wijs (1952-1953)� “Geoestatística”: localização geográfica e a

dependência espacial.

� Matheron (1962,1963)� Teoria das variáveis regionalizadas

24

No espaço ocorrem infinitosvalores de uma variável aleatória.Por amostragem obtem-se diversos resultados únicos dessamesma variável casual.Amostra deve ser representativa.

09/10/2014

7

Variável aleatória e função aleatória

25

� Cada ponto no espaço não apresenta um único valor, mas uma distribuição de probabilidades de ocorrência de valores

� No ponto x a propriedade Z(x) é uma variável aleatória com média m, variância s2 e uma função de distribuição acumulada.

� No espaço existem infinitos pontos xi, i = 1,2, ..., Z(xi), com suas próprias funções de distribuição

� O conjunto de variáveis aleatórias constituem uma funçãoaleatória, ou processo aleatório, ou processo estocástico

� O conjunto de valores reais de Z que inclui a realização da função aleatória é conhecido como variável regionalizada

Função aleatória

26

Variável regionalizada (V.R.)

27

� Duplo aspecto “contraditório”:� Característica “aleatória”: irregularidade e variação

imprevisível de um ponto para outro� Característica “estrutural”: ligações existentes entre os

pontos no espaço, motivadas pela gênese do fenômeno natural.

� É impossível prever com exatidão o teor de um poluente na pluma de contaminação (aspecto aleatório), mas é provável que se encontre um alto teor de um poluente perto de outro alto teor (aspecto estrutural).

� A Teoria das Variáveis Regionalizadas tornou possível a Geoestatística

28

� A Teoria das Variáveis Regionalizadas tem por objetivo o estudo e a representação estrutural das V.R. para a resolução de problemas de estimativa, a partir de dados experimentais medidos sobre suportes que não abrangem totalmente tais domínios

� (Problema clássico da inferência estatística quando se pretende estudar uma população por meio de amostragem)

� O melhor estimador para uma V.R. deve levar em consideração as respectivas posições relativas e, portanto, a característica estrutural

� Estimativas são sempre afetadas por erros e é necessária a avaliação da precisão da estimativa

09/10/2014

8

GEOESTATÍSTICA E INTERPOLAÇÃO DE VALORES

• VARIÁVEIS REGIONALIZADAS•A localização geográfica é parte integral de qualquervariável.

•Os valores das variáveis não são independentes e identicamente distribuidos.

•Ocorre dependência espacial entre os valores

•Consequência: “erro” da estimativa

29 30

�Exemplos de VR:� Variáveis físicas dos solos� Variáveis químicas dos solos� Altitude de cotas topográficas� Porosidade e permeabilidade de solos� Transmissividade hidráulica� Concentração de elementos-traço no solo� Densidade vegetal em florestas� Distribuição espacial de pragas

Aplicações da geoestatística

31

� Lavra e prospecção mineira� Agricultura de precisão� Análise espacial de crimes� Cartografia� Climatologia� Ecologia da paisagem� Engenharia Florestal� Epidemiologia� Geologia ambiental� Geologia do petróleo� Geotecnia� Hidrogeologia� Pedologia: mapeamento de solos� Softwares para Confecção de Mapas ou Sistemas de Informações

Georreferenciadas (Exemplo: SPRING)

Momentos considerados na função aleatóriaem Geoestatística: média e variância

Momento de primeira ordem:Média = E{Z(x)} = m(x)

Momentos de segunda ordem:Variância (Covariância)CorrelaçãoVariograma

32

09/10/2014

9

����â���� = � = � �� − ��� − � �

������â���� = ��� = � ��� − ������ − ���� − �

33

Os pares de valores referem-se à mesmavariável, obtidos em função da localizaçãoespacial, ou seja, em locais com distânciasmúltiplas “h(lag)”,

Variograma

Variância das diferenças entre dois valores em pontos separados por h.

Mede a variabilidade espacial em função da distância

34

Variograma

35

� relações espaciais são mostradas quando a função

γ(h) é colocada em gráfico contra h para originar o variograma experimental

� γ(h) distribui-se de 0, quando h=0, até um valor igual a variância das observações para um alto valor de h

� a distância, segundo a qual γ(h) atinge um patamar (soleira/sill), igual a variância dos dados, é chamada de alcance (range).

� γ(h) = variância [C(0)] – covariância [C(h)] Mesma direção θ e distâncias multiplas de h:γ* para h, 2h, 3h, ...

Variograma: valores de “γ”, na ordenada, e “h”, na abcissa.

36

09/10/2014

10

h≤a: campo estruturado

h>a: campo aleatório

37 38

� A interpretação do variograma permite obter parâmetros que descrevem o comportamento espacial das variáveis regionalizadas.

�O variograma substitui a distância euclidiana “h” pela distância “γ(h)”, atributo específico do local em estudo.

�A distância dada pelo variograma mede o grau médio de similaridade entre um valor não amostrado e um valor conhecido vizinho.

� O variograma é utilizado para calcular os valores de variância, para uma dada distância, os quais são necessários para a organização do sistema de equações da krigagem.

Modelagem

39

Modelos de variogramas

� As funções matemáticas dos modelos devempermitir que a matriz de covariâncias, nelesbaseada, possa ser invertida, para fornecer os“pesos” para a interpolação por krigagem.

� Desse modo, somente certos modelos podem ser usados.

40

09/10/2014

11

Modelo Esférico

41

Modelo Exponencial

42

Modelo Gaussiano

43

Modelo Potência

44

09/10/2014

12

Modelo Efeito Pepita Puro

Var

iog

ram

a

Distancia

S

Este modelo representa umfenômeno completamentealeatório, no qual não hacorrelação espacial

45

Krigagem (Krigeage/Kriging)

46

� Todo o processo de inferência espacial tem início com a coleta de uma amostra composta por n pontos de dados e é esperado que essa amostra seja representativa do fenômeno em estudo, em termos da distribuição e variabilidade espaciais.

� Krigagem é o processo geoestatístico de estimativa de valores de variáveis distribuídas no espaço, e/ou no tempo, a partir de valores adjacentes enquanto considerados como interdependentes pela análise variográfica.

47

� Único meio disponível para verificar a existência ou não de continuidade espacial é, se houver, por meio da análise variográfica que determinará os parâmetros que caracterizam o comportamento regionalizado

� Utiliza distâncias ponderadas e estimativa por médias móveis, pelo qual os pesos adequados são obtidos a partir de um variograma, representativo da média das diferenças ao quadrado dos valores de Z(xi) distribuídos a intervalos de distâncias especificados (lags h)

48

� Necessidade de um sistema de equações normais em matriz, na qual são usados os parâmetros variográficos para a obtenção dos pesos a serem utilizados para o cálculo do valor do ponto a ser estimado/interpolado

� Quando um variograma é adequadamente elaborado, a estimativa por krigagem resultante é reconhecida como sendo a melhor e não tendenciosa estimativa linear

� O sistema de krigagem necessário para a determinação dos ponderadores associados a cada um dos pontos estimadores baseia-se na ideia que quanto maior a covariância entre uma amostra xi, i=1, 2, ..., n, e o local que está sendo estimado, x0, mais essa amostra deve contribuir para a estimativa.

09/10/2014

13

Cálculo dos ponderadores λi

� O valor estimado por krigagem Z*(xi) é uma combinação linear de n Variáveis Regionalizadas.� O valor estimado é não enviesado

� A variância da estimativa é minimizada

49

•Existe associado a esse estimador um erro, ε=Z(x0)-Z*KO(x0); uma maneira simples seria representá-lo pela variância da estimativa:σ2=Var[Z*KO(x0)-Z(x0)]2

•A variância não pode ser obtida porque não se conhece o valor real que se esta estimando e, portanto, também não se sabe qual o erro associado•A solução é transformar a expressão em termos de quantidades que possam ser calculadas:

E[Z(x)] = mVar[Z(x)-Z(x+h)]2 = 2γ(h)Variância dos erros: = desvios ao quadrado em relação ao erro médio = média de [(Z(x0) – Z*(x0)]2.

Para estimar tal medida utilizar o variograma, em que são medidas as diferenças de valores ao quadrado.

50

Krigagem

Estimação por uma combinação linear ponderada

O erro cometido deve teruma esperança zero

Procura pela máxima precisão

O valor estimado é não enviesado

51 52

� Variância dos erros: = desvios ao quadrado em relação ao erro médio = média de [(Z(x0) – Z*(x0)]2.

� Para estimar tal medida utilizar o variograma, em que são medidas as diferenças de valores ao quadrado.

� Num variograma, previamente calculado, dada uma distância h entre os pontos, pode-se estimar a variância simplesmente lendo o valor no eixo dos γ´s

�γ(xi,xj): variância entre os pontos estimadores

�γ(xi,x0): variância entre o ponto estimador i e o ponto a ser estimado

09/10/2014

14

53

� É introduzido o multiplicador de Lagrange (µ) porque os pesos λ devem somar 1�Representa o balanço entre como os valores

estimadores se relacionam com o valor a ser estimado e como se relacionam entre si.

� A variância da krigagem é homoscedástica� Independe dos valores dos pontos usados para

obter o estimador Z*(x0)�Mede apenas a configuração espacial dos

dados

Krigagem ordinária para a estimativa de um ponto x0

54

Cálculo da variância(desvio padrão) associada(o) ao valor obtido por estimativa krigada

[λ] = [A]-1 [B]

55

Exemplo: espessura de camada de carvão (Yamamoto & Landim, 2013)

56

( ) ( ) ( ) ( ) ( ) ( ) ( )[( ) ( ) ] 028,004,138,138,141,1

41,14,14,16,16,109,223,12,15,13,13,14,18*2

15,0

22

222222*

=−+−

+−+−+−+−+−+−=γ

( ) ( ) ( ) ( ) ( ) ( )[( ) ( ) ( ) ( ) ( ) ( ) ( )( ) ( ) ( ) ( ) ( ) ( ) ] 043,004,141,138,14,141,16,14,109,209,262,13,123,1

2,185,15,14,14,118,13,157,157,155,118,11,11,12,1

2,102,105,196,096,094,094,019,172,08,018*2

10,1

222222

2222222

22222*

=−+−+−+−+−+−

+−+−+−+−+−+−+−

+−+−+−+−+−=γ

09/10/2014

15

57

Distância Leste-Oeste Norte-Sul

( )hγ Np ( )hγ Np

0,5 0,028 8 0,028 11 1,0 0,043 18 0,097 15 1,5 0,051 12 0,069 13 2,0 0,047 12 0,147 7 2,5 0,158 6 0,216 9 3,0 0,015 5 0,133 3 3,5 0,104 4 0,178 3

58

Modelo esférico/ Co:0; C1:0.105; a: 1.94

59

Mapa com valores interpolados por krigagem ordinária e respetivos desvios padrão da krigagem

60

Estimativa dos valores no reticulado

0 10 20 30 40 50 60 70 80 90 1000

10

20

30

40

50

60

70

80

90

100

0 20 40 60 80 1000

20

40

60

80

100

0 10 20 30 40 50 60 70 80 90 1000

10

20

30

40

50

60

70

80

90

100

0 10 20 30 40 50 60 70 80 90 1000

10

20

30

40

50

60

70

80

90

100

09/10/2014

16

61 62

63

Modelo esférico/ Co:0; C1:0.105; a: 1.94

64

[ ] [ ] [ ]X,xixi,xi 1 λγ=λ −

09/10/2014

17

65

�KRIGAGEM INDICADORA�KRIGAGEM INDICATIVA�(Krigagem da Indicatriz)

� No processo básico da krigagem, a estimativa é feita para determinar um valor médio em um local não amostrado.

� Pode-se, porém, fazer estimativas baseadas em valores que se situam acima ou abaixo de um determinado nível de corte (cutoff).

� Este procedimento, estabelecido para vários níveis de corte de uma distribuição acumulada, conduz a uma estimativa de vários valores dessa distribuição em um determinado local, cuja função poderá ser ajustada.

Variável indicativa� Variável indicativa: variável binária com apenas

duas possibilidades 0 ou 1

� Os 0’s e 1’s podem ser usados para designar duas diferentes classes:� 0 = folhelho e 1= arenito� 0= impermeável e 1= permeável� 0= minério e 1= rejeito

� Podem ser usadas para separar uma variável continua em duas categorias: � 0: Pb≤10ppm e 1: Pb> 10ppm

09/10/2014

18

Estimativa da distribuição de probabilidades pela “krigagem indicativa”

� Transformar os dados originais em indicadores, isto é, transformar os valores que estão acima de um determinado nível de corte em zero (0) e os que estão abaixo em um (1):

� Neste tipo de transformação, os menores valores estimados indicarão maior probabilidade de ocorrência de valores acima do nível de corte e os maiores valores estimados indicarão menor probabilidade de ocorrência de valores acima do nível de corte.

>

≤=

cj

cj

cj vv se 0

vv se 1)v(i

>=

cj

cjcj vv se 0

vv se 1)v(i

�Neste tipo de transformação, os maiores valores estimados indicarão maior probabilidade de ocorrência de valores acima do nível de corte e os menores valores estimados indicarão menor probabilidade de ocorrência de valores acima do nível de corte.

� Calculo dos variogramas experimentais indicativos para determinados níveis de corte e modelagem variográfica

� Krigagem ordinária pontual nos valores transformados, fornece a probabilidade de vi < vc

�Variogramas indicativos podem ser estimados pela função:

h = passo (lag) básicovC = nível de corteN = número de pares

09/10/2014

19

Escolha dos níveis de corte

� Conhecimento “a priori” ou distribuição de probabilidades acumuladas

� Objetivos:� procura de valores acima do nível de corte,

como na determinação de teores anômalos de um determinado bem mineral

� procura de valores abaixo do nível de corte, como em análise ambiental para a determinação de níveis de poluição abaixo de um certo teor.

A Krigagem indicativa com múltiplos níveis de corte é aplicada para encontrar a função de distribuição acumulada de cada ponto a ser estimado.

Nesse caso alem de estimar o valor, é também calculado um intervalo de confiança e a correspondente probabilidade de exceder ou não um certo valor.

A média ponderada das variáveis indicativas é uma estimativa da probabilidade acumulada

∑≤N

1=jjjc )x(I=)v)x(Z(obPr λ

Avaliação dos valores médios das variáveis que definem um recurso natural: krigagem ordinária.

E para características extremas?Para valores acima, ou abaixo, de valores de corte?

A relação entre um recurso natural e o seu entorno.

Uma pluma de um poluente não significa que a “não-pluma” adjacente esteja completamente limpa daquele contaminante.

Funções de distribuição de probabilidades locais estimadas para fornecer mapas de riscos

O estimador fornecido pela krigagem suaviza os resultados.

O estimador é não-enviesado em relação à média da lei de distribuição da variável Z(x), mas não em relação à lei de distribuição de probabilidades de Z(x).

A krigagem de Z(x) é um estimador ótimo em relação à media, mas não em relação à variância.

Relação intrínseca entre o fenômeno de suavização e o erro associado ao processo de estimação: a variância dos valores reais é maior que a variância dos valores estimados.

À medida que aumenta a quantidade de informação para estimar a mesma área, o erro tende a ser menor, e, por conseqüência, menos acentuado o efeito de suavização.

09/10/2014

20

Uma das mais importantes conseqüências do efeito de suavização: enviesamento dos valores extremos, com subestimação dos valores acima da média e sobreestimação dos valores abaixo da média.

Exemplo: numa área com solo potencialmente contaminado pretende-se avaliar qual a porção a ser limpa e qual a que não esta contaminada e que, conseqüentemente, não deve ser removida ou recuperada

Erros de classificação:I. Classificar como segura uma localização

contaminadaII. Classificar como contaminada uma localização

segura

Uma localização é classificada como segura quando a respectiva estimativa calculada se encontra abaixo do limite máximo permitido (zc) para o contaminante de interesse. Essa localização não estara sujeita a nenhum tratamento ou remediação.

Caso contrário, a localização será classificada como contaminada e estará sujeita a tratamento.

Erro tipo I (risco α(x) ou falso positivo) ocorre quando a estimativa em uma localização segura u (Prob Z(x)≤zc) é superestimada (Z*(x)>zc); seu valor fica acima do limite máximo permitidoα(u)=Prob{Z(x)≤zc|Z*(x)>zc,(n)}

=F(x;zc|(n)), para todas as localizações x tal que a estimativa Z*(x)>zc.

Erro tipo II (risco β(x) ou falso negativo) ocorre quando uma localização contaminada u (ProbZ(x) >zc é subestimada (Z*(x)≤zc); seu valor fica abaixo do limite máximo permitidoβ(x)=Prob{Z(x)>zc|Z*(x)≤zc,(n)}

=1-F(x;zc|(n)), para todas as localizações x tal que a estimativa Z*(x)≤zc.

(Myers, 1997:463)

09/10/2014

21

Exemplo: Bacia Delaware/Novo México/EUAPoços para produção de petróleo: produtivos e improdutivos (Hohn, 1999)

"X" "Y" "Z"27 42 029 42 030 42 044 42 036 43 039 43 048 43 041 44 042 44 048 44 041 17 120 20 120 21 121 21 135 21 132 33 133 33 134 33 136 33 141 33 1

1: poço produtivo

0: poço improdutivo

09/10/2014

22

85

Metodologia geoestatística aplicada em Ciências Agrárias

Talita Tanaka Fernandes, T. T. (2014). Krigagem Indicativa para elaboração de mapas probabilísticos em Agricultura de Precisão. Dissertação (Mestrado em Biometria) - Instituto de Biociências/UNESP, Botucatu, .

SILVA, R. F. B. (2011). Planejamento do uso do solo em uma Bacia Hidrográfica para conservação dos Recursos Hídricos. Dissertação (Mestrado em Agronomia/Irrigação e Drenagem) – Faculdade de Ciências Agronômicas/UNESP, Botucatu,..

8

6

Pontos de coleta na bacia hidrográfica do Rio Araquá.

87

Fósforo: macronutriente importante devido a sua participação na formação de componentes presentes no núcleo das células vegetaisPotássio: essencial para as fases de crescimento vegetativo e reprodutivo da cana de açúcar.Saturação por bases: indica o estado de ocupação das cargas da capacidade de troca catiônica total, ou seja, do total de cargas negativas existentes no solo e qual proporção ocupada pelos cátions úteis.

88

Sph;20.000;40.000;3700

Sph;11.000;18.000;4000

09/10/2014

23

89

AreiaKrigagem ordinária

90

ArgilaKrigagem ordinária

91

Empresa Brasileira de Pesquisa Agropecuária – Embrapa (2013)

Areia: se <= 700, valor 0; se >700, valor 1, Argila: se <=350, valor 0; se >350, valor 1,Fósforo: se <=16, valor 0; se >16, valor 1,Potássio: se <=3,1, valor 0; se >3,1, valor 1,Saturação por Bases: se <=60, valor 0; se >60, valor 1.

Krigagem indicativa

92

09/10/2014

24

93

Dados com tendência

Efeito pepita puro

???

94

1 Grau0 2 Grau0 3 Grau0

LINHA CURVA DE 3 GRAU0PARABOLA

VARIÁVEL2

X X X

Y Y Y

YYY

X X X

Z Z Z

PLANO PARABOLOIDE SUPERFÍCIE DE 3 GRAU0

VARIÁVEL3

Regressão polinomial: análise de tendência

Dados originais

Dados interpolados

Ajustando uma superfície de tendência de 1º grau

95 96

Regressão polinomialMapas de tendência: Argila(a) e Areia(c)

Mapas de resíduos: Argila(b) e Areia (d).

09/10/2014

25

97 98

Krigagem Indicativa: locais com menor concentração de areia e, por consequência, maior teor em argila ocorrem maiores probabilidades de presença de Fósforo (a), Potássio (b) e Saturação por bases (c).

Mapas de probabilidades de ocorrência

Muito obrigado pela atenção!

99