estatÍstica espacial · estatÍstica espacial descrição espacial . jg na análise de bancos de...

Post on 11-Mar-2020

14 Views

Category:

Documents

0 Downloads

Preview:

Click to see full reader

TRANSCRIPT

ESTATÍSTICA ESPACIAL

Descrição Espacial

G

Na análise de bancos de dados, freqüentemente se torna necessário comparar duas distribuições, de maneira a medir seu grau de associação. A apresentação dos histogramas com seus respectivos sumários estatísticos vai revelar apenas a existência de diferenças mais evidentes. Infelizmente, se as duas distribuições são muito parecidas, este método de comparação não será útil na descoberta de diferenças mais sutis entre as distribuições. Dessa forma, o propósito básico dessa apresentação é apresentar ferramentas que permitam entender melhor o comportamento de dois conjuntos de valores e tornar possível fazer algum tipo de predição, usando uma variável para conhecer a outra.

Introdução

G

Scatterplots

A forma mais comum de apresentar dados bivariados é no gráfico de dispersão ou scatterplot, um gráfico do tipo x-y no qual o eixo x corresponde aos valores de uma variável e a coordenada y aos valores da outra variável.

G

Correlação

De forma simplificada, há três padrões que podem ser observados entre as variáveis em um scatterplot:

• correlação positiva; • correlação negativa; • ausência de correlação.

O coeficiente de correlação () é o parâmetro estatístico mais freqüentemente utilizado para sumarizar a relação entre duas variáveis e é calculado por:

yx

n

1i yixi )my)(mx(n

1

G

n

1i yixiXY )my)(mx(n

1C

O numerador da equação do coeficiente de correlação () é chamado de covariância:

A covariância entre duas variáveis depende da magnitude dos valores dos dados. Se todos os pares de dados V-U forem multiplicados por 10, enquanto o scatterplot vai permanecer com o mesmo aspecto (apenas com os eixos re-escalonados), a covariância será 100 vezes menor.

G

Alta covariância positiva:

Covariância próxima de zero:

Grande covariância negativa:

G

Dividindo a covariância pelo desvio padrão das duas variáveis, garante-se que o coeficiente de correlação estará sempre entre -1 e +1, fornecendo um índice que é independente da magnitude dos valores dos dados.

G

Freqüentemente chamado na literatura estatística de coeficiente de correlação de Pearson, o coeficiente de

correlação () apresenta algumas deficiências:

• é uma medida de dependência linear entre duas variáveis; • é sensível a pontos que plotem afastados da nuvem principal de pontos.

G

Um dos principais aspectos que distinguem os bancos de dados das ciências da terra, da maioria dos outros é que os dados se apresentam necessariamente posicionados espacialmente. Os padrões espaciais dos bancos de dados, tais como localização dos valores extremos, tendências de disposição dos dados ou grau de continuidade são considerados de interesse primordial. Nenhuma das ferramentas de descrição univariada ou bivariada apresentadas anteriormente captura essas feições espaciais. Nesse módulo serão apresentadas as ferramentas para análise dos aspectos espaciais dos dados e incorporação da localização na sua descrição.

Medidas de Continuidade

G87 100 47 111 124 109 0 98 134 144

77 84 74 108 121 143 91 52 136 144

75 80 83 87 94 99 95 48 139 145

74 80 85 90 97 101 96 72 128 130

77 82 86 101 109 113 79 102 120 121

89 88 94 110 116 108 73 107 118 127

88 70 103 111 122 64 84 105 113 123

82 74 97 105 112 91 73 115 118 129

82 61 110 121 119 77 52 111 117 124

81 77 103 112 123 19 40 111 114 120

22 28 4 32 38 20 0 14 31 34

16 17 11 29 37 55 11 3 34 35

14 15 15 15 16 17 13 2 40 38

14 15 15 16 17 18 14 6 28 25

15 16 16 23 24 25 7 15 21 20

21 18 20 27 29 19 7 16 19 22

21 8 27 27 32 4 10 15 17 19

16 9 22 24 25 10 7 19 19 22

16 7 34 36 29 7 4 18 18 20

15 12 24 27 30 0 2 18 18 18 Mapa de localização de 100 amostras extraídas do banco de dados Walker Lake, com valores de V e U, acima e abaixo do símbolo, respectivamente. • Auxiliam na identificação de erros grosseiros; • Ajudam a visualizar estratégias de amostragem.

Mapas de localização

G

87 100 47 111 124 109 0 98 134 144

77 84 74 108 121 143 91 52 136 144

75 80 83 87 94 99 95 48 139 145

74 80 85 90 97 101 96 72 128 130

77 82 86 101 109 113 79 102 120 121

89 88 94 110 116 108 73 107 118 127

88 70 103 111 122 64 84 105 113 123

82 74 97 105 112 91 73 115 118 129

82 61 110 121 119 77 52 111 117 124

81 77 103 112 123 19 40 111 114 120

87 100 47 111 124 109 0 98 134 144

77 84 74 108 121 143 91 52 136 144

75 80 83 87 94 99 95 48 139 145

74 80 85 90 97 101 96 72 128 130

77 82 86 101 109 113 79 102 120 121

89 88 94 110 116 108 73 107 118 127

88 70 103 111 122 64 84 105 113 123

82 74 97 105 112 91 73 115 118 129

82 61 110 121 119 77 52 111 117 124

81 77 103 112 123 19 40 111 114 120

Localização dos mais baixos (a) e mais altos (b) valores de V.

(a) (b)

G

0 to 14

14 to 29

29 to 44

44 to 59

59 to 74

74 to 89

89 to 104

104 to 119

119 to 134

134 to 149

Localização por faixas de valores.

G

87 100 47 111 124 109 0 98 134 144

77 84 74 108 121 143 91 52 136 144

75 80 83 87 94 99 95 48 139 145

74 80 85 90 97 101 96 72 128 130

77 82 86 101 109 113 79 102 120 121

89 88 94 110 116 108 73 107 118 127

88 70 103 111 122 64 84 105 113 123

82 74 97 105 112 91 73 115 118 129

82 61 110 121 119 77 52 111 117 124

81 77 103 112 123 19 40 111 114 120

0 to 81.3

81.3 to 100.5

100.5 to 116.8

116.8 to 146

Localização por faixas de valores, de acordo com os quartis da distribuição de V.

G

0

10

20

30

40

50

60

70

80

90

100

110

120

130

140

Oferecem um excelente sumário das feições espaciais, porém podem mascarar algum detalhe de pequena escala (local). Devem ser encarados como mais uma ferramenta de apreciação qualitativa, já que sua significância quantitativa é questionável.

Mapas de contorno

G

Estatística de janelas móveis

É muito comum observar-se que os valores dos dados em algumas regiões são mais variáveis que em outras. O jargão estatístico para tais anomalias em termos de variabilidade é heterocedacidade, com sérias implicações práticas:

• na mineração, teores de minério muito erráticos freqüentemente causam problemas no beneficiamento já que muitos processos metalúrgicos requerem baixa variabilidade de teores;

• em reservatórios de petróleo, grandes flutuações na permeabilidade podem dificultar a efetividade de muitos processos de recuperação secundários.

G

O cálculo de algumas medidas estatísticas dentro de janelas móveis é freqüentemente usado para investigar anomalias tanto em relação aos valores médios como de variabilidade. A área é dividida em diversas vizinhanças locais de igual tamanho e dentro das quais as medidas estatísticas são calculadas:

• a posição espacial pode ser utilizada para fornecer os critérios condicionantes para o cálculo da estatística univariada e bivariada; • o sumário estatístico das distribuições dentro de janelas móveis podem revelar tendências (trends) importantes dos dados ou sua variabilidade;

G87 100 47 111 124 109 0 98 134 144

77 84 74 108 121 143 91 52 136 144

75 80 83 87 94 99 95 48 139 145

74 80 85 90 97 101 96 72 128 130

77 82 86 101 109 113 79 102 120 121

89 88 94 110 116 108 73 107 118 127

88 70 103 111 122 64 84 105 113 123

82 74 97 105 112 91 73 115 118 129

82 61 110 121 119 77 52 111 117 124

81 77 103 112 123 19 40 111 114 120

87 100 47 111 124 109 0 98 134 144

77 84 74 108 121 143 91 52 136 144

75 80 83 87 94 99 95 48 139 145

74 80 85 90 97 101 96 72 128 130

77 82 86 101 109 113 79 102 120 121

89 88 94 110 116 108 73 107 118 127

88 70 103 111 122 64 84 105 113 123

82 74 97 105 112 91 73 115 118 129

82 61 110 121 119 77 52 111 117 124

81 77 103 112 123 19 40 111 114 120

• dependendo da dimensão da janela utilizada e do número de dados que esta contém, podem ser reveladas importantes características locais dos dados.

m CV

m CV

G

Efeito proporcional

• Estimativas em áreas com alta variabilidade serão menos confiáveis do que aquelas com baixa variabilidade, mudanças na variabilidade local têm reflexo direto na confiabilidade da estimativa;

• A variabilidade local é normalmente relacionada com a magnitude dos valores locais;

• Um gráfico da média contra o desvio padrão reporta o efeito proporcional e pode ser utilizado mais tarde para construção de intervalos de confiança para estimativas locais.

G

Uma série de modelos de regressão podem mostrar como a continuidade decai com o aumento da distância entre as amostras na posição x e x+h.

top related