1
1
ANÁLISE ESTATÍSTICA DE VARIÁVEIS
REGIONALIZADAS
Paulo M. Barbosa Landim [email protected]
FACULDADE DE CIÊNCIAS AGRONÔMICAS UNESP, campus de Botucatu Programa de Pós-Graduação
2
11/07 Análise espacial de dados
Introdução ao SURFER
Exercício 01
12/07 Análise variográfica
Exercício 02
13/07 Krigagem pontual e para blocos
Exercício 03
14/07 Regressão polinomial
Krigagem para dados com tendência
Exercício 04
15/07 Krigagem indicadora
Co-Krigagem
Exercício 05
18/07 Simulação
Exercício 06
25/07 Data final para a entrega dos exercícios
3
Do rigor na ciência
Jorge Luis Borges
Naquele Império, a Arte da Cartografia logrou tal
perfeição que o mapa de uma única Província
ocupava toda uma Cidade, e o mapa do Império,
toda uma Província.
Com o tempo, esses Mapas Desmedidos não mais
satisfizeram e os Colégios de Cartógrafos levantaram
um Mapa do Império, que tinha o tamanho do
Império e coincidia pontualmente c om ele.
Menos interessadas no Estudo da Cartografia, as
Gerações Seguintes entenderam que esse dilatado
Mapa era Inútil e não sem Impiedade o entregaram
às Inclemências do Sol e dos Invernos.
Hoje, nos desertos do Oeste perduram despedaçadas
Ruínas do Mapa, habitadas por Animais e por
Mendigos; e em todo o País não há outra relíquia
das Disciplinas Cartográficas.
Modelagem de fenômenos naturais modelo conceitual
modelo escalar
modelo matemático: determinístico estocástico (estatístico)
Modelos estocásticos e a metodologia estatística
4
2
5
População e amostra Amostragem para obter dados
6
Amostragem aleatória simples A população constituída por N unidades é numerada sequencialmente e n unidades serão sorteadas, com base numa “Tabela de números ao acaso”, sem reposição. As observações sendo coletadas em pontos de amostragem, localizados dentro da região de estudo, a componente aleatória serão as coordenadas geográficas a serem escolhidas casualmente.
Números ao acaso
17 80 97 28 17 80
43 36 15 57 72 08
39 90 73 63 66 29
20 69 82 65 87 36
29 81 05 90 19 91
12 82 89 64 53 98
69 33 71 24 66 68
58 84 26 36 57 10
1 2 3 4 5 6 7 8 9 10
11 12 13 14 15 16 17 18 19 20
21 22 23 24 25 26 27 28 29 30
31 32 33 34 35 36 37 38 39 40
41 42 43 44 45 46 47 48 49 50
51 52 53 54 55 56 57 58 59 60
61 62 63 64 65 66 67 68 69 70
71 72 73 74 75 76 77 78 79 80
81 82 83 84 85 86 87 88 89 90
91 92 93 94 95 96 97 98 99 100
1 2 3 4 5 6 7 8 9 10
11 12 13 14 15 16 17 18 19 20
21 22 23 24 25 26 27 28 29 30
31 32 33 34 35 36 37 38 39 40
41 42 43 44 45 46 47 48 49 50
51 52 53 54 55 56 57 58 59 60
61 62 63 64 65 66 67 68 69 70
71 72 73 74 75 76 77 78 79 80
81 82 83 84 85 86 87 88 89 90
91 92 93 94 95 96 97 98 99 100
8
3
9
Amostragem aleatória estratificada Subdividir a região em estudo em células de dimensões fixas nas direções leste-oeste e norte-sul. Dentro de cada célula, as coordenadas geográficas de um ponto são escolhidas aleatoriamente e o ponto selecionado. Dessa forma, ao final desse processo, o número de unidades selecionadas será igual ao número de células.
1 2 3 4 5 6 7 8 9 10
11 12 13 14 15 16 17 18 19 20
21 22 23 24 25 26 27 28 29 30
31 32 33 34 35 36 37 38 39 40
41 42 43 44 45 46 47 48 49 50
51 52 53 54 55 56 57 58 59 60
61 62 63 64 65 66 67 68 69 70
71 72 73 74 75 76 77 78 79 80
81 82 83 84 85 86 87 88 89 90
91 92 93 94 95 96 97 98 99 100
10
11
12
Amostragem sistemática Feita sobre os nós de uma malha regular definida a partir de uma origem escolhida aleatoriamente. Teoricamente, a componente aleatória seria dada pela escolha do ponto de origem, mas, isso não ocorre na prática, pois a malha regular é definida inicialmente, pelo responsável pela amostragem, para otimizar a coleta das unidades de amostragem dentro da região de estudo.
4
13
Análise de dados: descrição
interpretação estimação*
*Este é o grande desafio: a estimativa de valores para situações de previsão quantitativa.
14
Análise estatística de dados univariados
15
Estatística descritiva Variáveis “A” e “B”
16
5
Histograma: A
Histograma: B
17
Estatísticas A B
Média 1.22 1.24
Erro padrão 0.05 0.05
Mediana 1.255 1.29
Moda 1.3 1.3
Desvio padrão 0.32 0.34
Variância 0.10 0.12
Curtose 0.51 0.34
Assimetria 0.18 0.27
Intervalo 1.54 1.55
Mínimo 0.55 0.55
Máximo 2.09 2.1
Soma 46.46 47.00
Contagem 38 38
18
Teste t: intervalos de confiança para média amostral
nstx n /.)1;2/(
•A: 1,22± 2,02 x 0.323/√38 = 1,22 ± 0,106 = 1,114–1,326 •B: 1,24±2,02 x 0.342/√38 = 1,24 ± 0,112 = 1,128–1,352
19
Teste t: comparação entre médias A e B
A B
Média: 1.223 1.237
Variância: 0.104 0.117
Observações: 38 38
H0: Distribuições de A e B são iguais
g.l.: 37
Estatística t: 0.161
t crítico uni-caudal: 1.687
Como t crítico > calculado, aceitar H0
20
6
A importância do georreferenciamento
21
Distribuições espaciais: A ≠ B
Dados georreferenciados
Concentração de nutrientes
Produtos químicos tóxicos
Cor do solo
Fertilidade dos solos
Índice de poluição hídrica
Distribuição de chuvas
Infestação de pragas
Gerenciamento de zonas pesqueiras
Agricultura de precisão
22
Estatística clássica
variáveis aleatórias: lei das probabilidades
valores independentes
sem continuidade espacial
Estatística espacial
valores associados à localização no espaço e/ou no tempo
distribuição contínua de valores nos pontos amostrados
23
Em Estatística
A) Provas podem ser repetidas indefinidamente B) As provas são independentes: o resultado de uma prova
não é influenciado pelo resultado de provas precedentes.
Na Natureza, porem: Quando se tira uma amostra num determinado ponto, de
coordenada “x”, o teor da referida amostra é um valor “único”, fisicamente determinado, e é impossível a repetição desta experiência
Se fosse retirada outra amostra num ponto muitíssimo próximo de “x”, poder-se-ia dizer que a condição (A) estaria satisfeita, porem neste caso não se estaria respeitando a condicionante (B)
24
7
Na jogada de um dado, o resultado ser 1, 2, 3, 4, 5 ou 6 tem a mesma probabilidade de ocorrer: Processo aleatório e não tendencioso.
Várias jogadas e vários dados : Pode-se calcular a probabilidade
E na Natureza?
Como prever a ocorrência de um evento?
25
Amostragem para o teor de um painel
● ● ●
Mapeamento de solos
26
Questões
Até que distâncias devem ser consideradas as amostras? Quantas devem ser usadas? Aquela eventualmente colocada no centro da área terá
um peso maior que as demais? Se amostras formarem grupos qual a influência desses
agrupamentos? Como evitar que os resultados sejam sub ou super
estimados? A relação espacial, em termos geométricos, entre as
amostras estimadoras e a área a ser estimado, tem importância?
Essa técnica de estimativa pode ser utilizada indistintamente para solos “in situ” e solos transportados?
27
Outras situações: teor em uma mina de cobre
28
8
Biomassa numa plantação de eucaliptos
29
Dimensão de uma pluma de contaminação
30
Volume de petróleo no pré-sal
31
Estatística espacial e interpolação de valores
Valores são coletados (amostra) e se quer estimar o comportamento espacial do fenômeno em estudo (população)
Interpolação: procedimento matemático de ajuste de uma função à pontos não amostrados, baseando-se em valores obtidos em pontos amostrados.
Produto final: Mapas (Modelo digital)
32
9
33
O objetivo fundamental da amostragem é coletar valores de uma variavel, no espaço 1-2-3D para, ao estimar valores em locais não amostrados, determinar o comportamento espacial da população sob estudo. Estratégia para a amostragem: •características da area a ser amostrada •planejamento a ser adotado para determinar a seleção de amostras em termos de localização e densidade •procedimento a ser utilizado para o cálculo da estimativa e sua interpretação.
Usando informações pontuais conhecidas, como estimar um valor em local não amostrado?
34
Hipótese: valores de um atributo tendem a ser semelhantes em locais próximos, por comparação com locais afastados
35 36
A representação de dados no espaço é essencial em diversas áreas do conhecimento, sendo de uso extensivo em agronomia, biologia, ecologia, geografia, geologia, meteorologia, etc. Quando do estudo espacial de dados, porem, é imprescindível o conhecimento do usuário sobre o tema a ser pesquisado, pois obter um mapa com forte efeito estético é bastante fácil usando os recursos gráficos disponíveis O mais importante, porém, é saber verificar o significado do resultado obtido para que o mapa, entendido como modelo, possa ser útil para a explicação do fenômeno em estudo e principalmente para a sua previsão em situações futuras.
10
Campo de validade da interpolação Interpretação:
Conhecimento “a priori”
Quantificação:
Conhecimento baseado no polígono que engloba o conjunto de dados
37
Métodos de interpolação
Funções globais: consideram todos os pontos da área; permite interpolar o valor da função em qualquer ponto dentro do domínio dos dados originais; a adição ou remoção de um valor tem conseqüências no domínio de definição da função
Funções locais: definidas para porções do mapa; alteração de um valor afeta localmente os pontos próximos ao mesmo
38
A escolha de um método de interpolação
Um método é "melhor" do que outro?
Quão fiel aos dados originais é o resultado obtido?
A superfície estimada representa uma solução plausível?
O resultado é esteticamente agradável?
39
Métodos de estimativa para modelagem de superfícies
TRIANGULAÇÃO: conecta pontos amostrados formando triângulos e interpola os valores entre eles; são considerados métodos de estimativa diretos, pois os contornos derivam do padrão original dos dados; não permite extrapolação, as estimativas limitam-se estritamente à área amostrada.
40
11
41
RETICULAÇÃO (GRIDDING): estabelece uma grade regular (grid) sobre a área estudada e calcula os valores nos nós do reticulado com base nos valores dos pontos adjacentes já amostrados; são considerados métodos de estimativa indiretos, uma vez que os contornos são construídos a partir dos dados estimados para os nós da grade e não a partir dos dados originais; permite tanto a interpolação quanto a extrapolação de valores
Um algoritmo matemático é utilizado para ajustar uma superfície através dos dados estimados para os nós; há um grande número de algoritmos
42
Reticulado
Definição, espaçamento e origem
reticulação a estimar o valor de cada nó por seleção de pontos próximos com valores conhecidos
filtragem dos valores dos nós de modo a suavizar os contornos resultantes e permitir o melhor ajuste com os valores originais
43
Estimativa do reticulado
Fornecidos “n” valores conhecidos, regularmente distribuídos ou não,
Z1, Z2,..., Zn, o valor Z* a ser interpolado para qualquer nó da rede
será igual a Z* = ΣpiZi
Diferença entre métodos: maneira como os Zi são
escolhidos e os respectivos pesos “pi” são calculados e aplicados durante a reticulação.
44
12
Estimativa do reticulado
0 10 20 30 40 50 60 70 80 90 100
0
10
20
30
40
50
60
70
80
90
100
0 20 40 60 80 100
0
20
40
60
80
100
0 10 20 30 40 50 60 70 80 90 1000
10
20
30
40
50
60
70
80
90
100
0 10 20 30 40 50 60 70 80 90 100
0
10
20
30
40
50
60
70
80
90
100
45
Algorítmos para interpolação
inverso do quadrado da distância
curvatura mínima
vizinho natural...
46
Técnicas: janelas móveis
Escolhe-se uma “janela” com um tamanho apropriado e calcula-se um valor no centro, resultante da media dos valores que se encontram dentro da área considerada
47
Polígonos de Thiessen
Método para determinar, numa área, a região mais próxima de um ponto
• unir todos os pares de pontos com segmentos de reta
•perpendiculares a cada segmento de reta
Polígono de Thiessen
48
13
Inverso da distância
49
Inverso do quadrado da distância (IQD)
50
51
Distribuição dos pontos
52
0,135-5,129
14
IQD
0,135-5,129 53
Mínima Curvatura
0,135-5,129 54
Vizinho Natural
0,135-5,129 55
• A incerteza da estimativa •Os resultados são sempre incertos. •Essa incerteza não é uma propriedade intrínsica do fenomeno. •A incerteza reflete apenas o grau de desconhecimento do observador.
56
Preferível estar aproximadamente certo, do que perfeitamente errado!
15
Origens da Geoestatística
Kolmogorov, Weiner, Matern, Gandin, Fisher (início até meados de 1900)
Krige (1951) e De Wijs (1952-1953)
“Geoestatística”: localização geográfica e a dependência espacial.
Matheron (1962,1963)
Teoria das variáveis regionalizadas
Atualmente
57
• VARIÁVEIS REGIONALIZADAS: •A localização geográfica é parte integral de qualquer variável.
•Os valores das variáveis não são independentes e identicamente distribuidos.
•Ocorre dependência espacial entre os valores
58
59
Geoestatística: abordagem probabilística de modelagem, que engloba um conjunto de técnicas, para a análise e mapeamento de valores de variáveis regionalizadas distribuídos no espaço e/ou no tempo.
Envolve três etapas:
1) Análise: descreve a covariância espacial dos valores de um fenômeno em estudo, por meio da análise estrutural ou modelagem do semivariograma.
2) Inferência: estima, pelo método da krigagem, valores de uma
variável regionalizada distribuída no espaço (1D, 2D, 3D) em locais não amostrados, e verifica a incerteza associada à estimativa.
3) Simulação: calcula um conjunto de realizações equiprováveis e
igualmente representativas do fenômeno em estudo.
60
16
Classificação de métodos para interpolação espacial
Global
Deterministico Estocástico
Local
Deterministico Estocástico
Polígonos de Thiessen (exato) Inverso do quadrado da distância (exato) “Splines” (exato)
Kriging (exato)
Regressão (inexato)
“Trend surface” (inexato)
61
Referências
OLEA, R. A. (2009) – A practical primer on geostatistics: U.S. Geological Survey, Open-File Report 2009-1103, 346 p.
OLIVER, M.A., editor (2010) – Geostatistical Applications for Precision Agriculture: Springer, 331 pp.
OLIVER, M.A.; WEBSTER, R. (2015) – Basic Steps in Geostatistics: The Variogram and Kriging: Springer, 100 pp.
SOARES, A. (2006) – Geoestatística para as Ciências da Terra e do Ambiente. IST Press, 2ª. Edição, 214 pp.
YAMAMOTO, J.K.; LANDIM, P.M.B. (2013) – Geoestatística. Conceitos e Aplicações: Editora Oficina de Textos, 215 pp.
62
“sites” sobre geoestatística: http://www.ai-geostats.org
http://numist.ist.utl.pt/
Software GsLib (http://www.gslib.com)
SGeMS (Stanford Geostatistical Modeling Software)
GSTAT (http://www.gstat.org/
GS+ (http://www.gammadesign.com)
Surfer (www.goldensoftware.com)
63