spatial measurement of segregation · pdf fileanálise de regressão é uma...
TRANSCRIPT
REGRESSÃO ESPACIAL
Flávia F. Feitosa
BH1350 – Métodos e Técnicas de Análise da Informação para o PlanejamentoJulho de 2015
Análise de regressão é uma ferramenta estatística que utiliza a relação entre duas ou mais variáveis tal que uma variável possa ser explicada ( Y variável resposta/ saída/dependente) pela outra ou outras (X variáveis indicadoras/ preditoras/ explicativas/ independentes).
Y = aX + b
NETER J. et al. Applied Linear Statistical Models. Boston, MA: McGraw-Hill, 1996.
ANÁLISE DE REGRESSÃO
1. Seleção e Preparação das Variáveis
2. Escolha e Ajuste do Modelo de Regressão
3. Diagnóstico para verificar se o modelo ajustado é adequado
Ajuste do modelo (R2, Teste F, Testes t para coef., etc.)
Multicolinearidade (FIV)
Análise dos Resíduos
Etapas da Análise de Regressão
Se modelo for adequado, resíduos devem refletir as propriedades impostas pelo termo de erro do modelo.
LINEARIDADE DO MODELO
Análise dos Resíduos
Não Linearidade
0
X
Res
íduo
NORMALIDADE DOS RESÍDUOS: Suposição essencial para que os resultados do ajuste do modelo sejam confiáveis.
Análise dos Resíduos
Outros diagnósticos: Shapiro-Wilk, Anderson-Darling, Kolmogorov-Smirnov
HOMOCEDASTICIDADE (Variância Constante)
Análise dos Resíduos
Outros diagnósticos: Teste de Breush-Pagan, Goldfeld-Quandt
0
X
Variância Não Constante
Res
íduo
PRESENÇA DE OUTLIERS
Gráfico resíduos padronizados vs. Valores Ajustados
Análise dos Resíduos
Pontos Influentes: DFFITS, DFBETA, Distância de Cook.
INDEPENDÊNCIA
Gráfico resíduos padronizados vs. Valores Ajustados
Análise dos Resíduos
Outros Diagnósticos: Teste de Durbin-Watson
Autocorrelação espacial: Mapa dos resíduos, Índice de Moran
X
0
Erros Correlacionados
Res
íduo
MODELO ADEQUADO
Análise dos Resíduos
0
Res
íduo
X
DADOS ESPACIAISCaso a hipótese de independência espacial das observações seja FALSA DEPENDÊNCIA ESPACIAL
EFEITOS ESPACIAIS: Se existir forte tendência ou correlação espacial, os resultados serão influenciados, apresentando associação estatística onde não existe (e vice-versa)
Análise dos Resíduos
Como verificar? Medir a autocorrelação espacial dos resíduos da
regressão (ex. Índice de Moran dos resíduos)
Dica para o trabalho final do curso
• Exportar tabela com os resíduos do modelo de regressão (SPSS)• Unir esta tabela com o shapefile original (“join” no QGIS) e
visualizar os resíduos (Mapa dos resíduos)• Os resíduos estão espacialmente correlacionados? Calcular o Índice
de Moran dos Resíduos no GeoDa (com teste de pseudo-significância)
Análise dos Resíduos
São José dos CamposCrescimento Populacional 91-00 X Densidade Populacional 91
1. Mapear os resíduos da regressão – índícios de correlação
2. Índice de Moran sobre mapa de resíduos I=0,45
3. Testes de pseudo-significância indicam autocorrelação espacial significativa
Exemplo
As observações não são independentes espacialmente.
Portanto... temos uma violação das nossas premissas.
Dependendo da natureza da dependência, parâmetros estimados pelo método dos mínimos quadrados será ineficiente ou inconsistente.
E agora?
Modelos de regressão que incorporam efeitos espaciais
Autocorrelação Espacial Constatada!!!
Incorpora a estrutura de dependência espacial no modelo
PREMISSA: Assumimos que conhecemos a estrutura de dependência
espacial (ela não é estimada) Premissa forte? Sim! Porém não tão forte quanto assumir que todas as
observações são independentes espacialmente Matrizes de ponderação tipicamente consideradas:
contiguidade (queen, rook...) ou distância (n vizinhos mais próximos...)
Regressão Espacial
Podem ser globais ou locais
Globais: inclui no modelo de regressão um parâmetro para capturar a estrutura de autocorrelação espacial na área de estudo como um todo.
Locais: parâmetros variam continuamente no espaço
Regressão Espacial
Global LocalEstatísticas dizem respeito à região como um todo (1 valor)
Disagregações locais das estatísticas globais (Muitos valores)
Estatísticas globais e não mapeáveis
Estatísticas locais e mapeáveis
Ênfase nas similaridades da região Ênfase nas diferenças ao longo do espaço
Procura regularidades ou “leis” Procura por exceções ou “hot-spots” locais
Ex.: Regressão Clássica, Spatial Lag, Spatial Error
Ex.: GWR, Regimes Espaciais
Adaptado de: Fotheringham, A.S., Brunsdon, C., and Charlton, M.E., 2002, Geographically Weighted Regression: The Analysis of Spatially Varying Relationships, Chichester: Wiley.
Global vs. Local
PREMISSAÉ possível capturar a estrutura de correlação espacial num
único parâmetro (adicionado ao modelo de regressão).
Alternativas Spatial Lag Models (SAR): atribuem a autocorrelação
espacial à variável resposta Y. (Spatial Autoregressive Modeling)
Spatial Error Models (CAR): atribuem a autocorrelação ao erro. (Conditional Autoregressive Modeling)
Modelos com Efeitos Espaciais Globais
PREMISSA: A variável Yi é afetada pelos valores da variável resposta nas áreas vizinhas a i.
Y = WY + X +
= coeficiente espacial autoregressivo - medida de correlação espacial ( = 0, se autocorrelação é nula - hipótese nula)
W = matriz de proximidade espacialWY expressa a dependência espacial em Y
Exemplo: Valor dos imóveis
Modelo Spatial Lag
Modelo Spatial Error
PREMISSA: As observações são interdependentes graças a variáveis não mensuradas, e que são espacialmente correlacionadas
Ou seja: efeitos espaciais são um ruído!
Por que ele ocorre? Porque não conseguimos modelar todas as características de uma unidade geográfica que podem influenciar as regiões vizinhas.
Assume que, se pudéssemos adicionar as variáveis certas para remover o erro do modelo, o espaço não importaria mais.
MODELO: Y = X + = W + ξ
W = erro com efeitos espaciais = medida de correlação espacialξ = componente do erro com variância constante e não
correlacionada.
Modelo Spatial Error
DIAGNÓSTICO PARA AUXILIAR NA ESCOLHA DE UM MODELO OU OUTRO
Testes Multiplicadores de Langrange (Langrange Multiplier Tests, Anselin et al. 1996)
Executa regressão dos resíduos em relação às variáveis originais e aos resíduos das áreas vizinhas
LM-Lag: testes para dependência em relação às variáveis originais nas áreas vizinhas – lag dependence
LM-Error: testes para dependência em relação aos resíduos nas áreas vizinhas - error dependence
Spatial Lag & Spatial Error
Motivações diferentes, porém próximos em termos formais.
Ambos partem do pressuposto de que o processo espacial analisado é estacionário
e pode ser capturado em um único parâmetro.
Spatial Lag & Spatial Error
Porém isto nem sempre é verdade!
É importante verificar se padrões diversos de associação espacial estão presentes.
Uma Solução Exploratória:
Indicadores Locais de Autocorrelação Espacial
Distribuição dos valores de correlação local para o índice de exclusão
Indicadores Locais de Associação Espacial (LISA)
Não significantes
p = 0.05 [95% (1,96s)]p = 0.01 [99% (2,54s)]p = 0.001 [99,9% (3,2s)]
% Exclusão
Modelos de Regressão com Efeitos Espaciais DISCRETOSVariações espaciais modeladas de maneira discreta.
Regimes Espaciais
Modelos de Regressão com Efeitos Espaciais CONTÍNUOSVariações espaciais modeladas de forma contínua, com
parâmetros variando no espaço.
Geographically Weighted Regression – GWR. [Regressão Geograficamente Ponderada]
Quantitative Geography; A. S. Fotheringham, C. Brunsdon, M. Charlton, 2000 (print 2004)
Modelos com Efeitos Espaciais Locais
A ideia é regionalizar a área de estudo obtendo sub-regiões com seu padrão próprio.
Realizar regressões separadas para cada sub-região.
Regimes Espaciais
Regionalizações da área de estudo
Diferentes tipos de variabilidade espacial
Métricas: Diagrama de espalhamento e índices locais e globais – regionalização tipo k-medias espacial
Ex: Regimes espaciais para índice de exclusão
Regimes Espaciais
Análise de Regressão: Idosos = f (Domicílios Sem Esgoto)
Regressão LinearR2 = 0,35
Regressão EspacialRegiões Adm (R2 = 0,72)Regimes Espaciais (R2 = 0,83)
Para dados socioeconômicos: modelo de regimes espaciais tende a apresentar resultados
melhores que os de regressão simples ou de regressão espacial com efeitos globais.
Impacto de Regimes Espaciais
1. Análise gráfica dos resíduos2. Mapear os resíduos – concentração de resíduos
negativos ou positivos em parte do mapa indica presença de autocorrelação espacial
3. Índice de Moran dos resíduos4. Indicadores de qualidade de ajuste dos modelos
baseados no coeficiente de determinação (R 2) serão incorretos.
5. Utilização do AIC – critério de informação de Akaike , a avaliação do ajuste é penalizada por função do número de parâmetros (é preferível o modelo com o menor valor AIC).
Diagnóstico de Modelos de Efeitos Espaciais
Longevidade X Renda
Regressão Simples
Spatial Lag Regimes Espaciais
R2 ajustado 0.280 0.586 0.80
AIC 379.84 306.51 260.09
Indice Moran dos resíduos
0.620 0.01 0.020
Comparação das Regressões
Ajusta um modelo de regressão a cada ponto observado, ponderando todas as demais observações como função da distância a este ponto.
Y(i) = (i)X +
Y(i): variável que representa o processo no ponto i.(i): parâmetros estimados no ponto i.
Quantitative Geography; A. S. Fotheringham, C. Brunsdon, M. Charlton, 2000 (print 2004)
GWR – Geographically Weighted Regression
y = b0 + b1x1 + e regressão “clássica”simples com um preditor
b0 , b1 é o mesmo para toda área
Se existe alguma variação geográfica na relação essa variação fica incluída como erro.
GWR – Geographically Weighted Regression
y(i) = b0(i) + b1(i) x1 + e(i) GWR
b0(i), b1(i) para cada ponto i do espaço há um b0 e b1 diferentes
Existe uma função (kernel) sobre cada ponto do espaço que determina todos os pontos da regressão local que é poderada pela distância. Pontos mais próximos do ponto central tem maior peso.
Assim como no kernel – a escolha da largura da banda é importante (pode ser fixa ou adaptável à densidade dos dados)
GWR – Geographically Weighted Regression
Adaptado de: Fotheringham, A.S., Brunsdon, C., and Charlton, M.E., 2002, Geographically Weighted Regression: The Analysis of Spatially Varying Relationships, Chichester: Wiley.
LARGURA DE BANDA
FUNÇÃO DE PONDERAÇÃO
GWR – Geographically Weighted Regression
Modelos Locais vs. Modelos Globais
Mesmas técnicas de análise do ajuste do modelo, porém comparação é problemática
GWR apresentará sempre melhores ajustes pois envolve o ajuste de muito mais parâmetros
Sugestão: medida AIC, que leva em consideração a complexidade do modelo.
Ajuste do Modelo GWR
Os parâmetros podem ser apresentados visualmente para identificar como se comportam espacialmente os relacionamentos entre as variáveis.
Ex: Crescimento Pop. (resposta) X Densidade Pop. (preditora)
GWR – Geographically Weighted Regression
Ex: Crescimento Pop. (resposta) X Densidade Pop. (preditora)Mapa de resíduos (I = 0,04) :
GWR – Geographically Weighted Regression
Consumo de Água per Capita (resposta) X Renda per capita (preditora)
CARMO, Roberto Luiz do; DAGNINO, Ricardo Sampaio; FEITOSA, Flávia da Fonseca; JOHANSEN, Igor Cavallini; CRAICE, Carla. População, Renda e Consumo Urbano de Água no Brasil: Interfaces e Desafios. XX Simpósio Brasileiro de Recursos Hídricos. 17 a 22 de novembro de 2013. Bento Gonçalves, RS.
Distribuição espacial de consumo residencial de água e renda da população em 2010. Fonte: SNIS (2010) e IBGE (2010).
EXEMPLO
Cons
umo
de Á
gua
per C
apita
(m
3/di
a/an
o)
Renda per Capita (R$)
Análise Exploratória
Consumo de Água per Capita (resposta) X Renda per capita(preditora)
CARMO, Roberto Luiz do; DAGNINO, Ricardo Sampaio; FEITOSA, Flávia da Fonseca; JOHANSEN, Igor Cavallini; CRAICE, Carla. População, Renda e Consumo Urbano de Água no Brasil: Interfaces e Desafios. XX Simpósio Brasileiro de Recursos Hídricos. 17 a 22 de novembro de 2013. Bento Gonçalves, RS.
MODELO DE REGRESSÃO LINEAR GLOBAL
Var iável β Desvio Padrão
Estatística t
(constante) 4,25.(10-3) 4,55.(10-4) 9,3 RENDA 41.(10-6) 8,2.(10-7) 49
Coeficiente de determinação: R2 = 0,36 Teste F: F = 2499,1
Mas será que esta relação, entre consumo de água e renda, ocorre da mesma
maneira em todo o país???
O ESPAÇO IMPORTA!!!
Consumo de Água per Capita (resposta) X Renda per capita(preditora)
GWR:
CARMO, Roberto Luiz do; DAGNINO, Ricardo Sampaio; FEITOSA, Flávia da Fonseca; JOHANSEN, Igor Cavallini; CRAICE, Carla. População, Renda e Consumo Urbano de Água no Brasil: Interfaces e Desafios. XX Simpósio Brasileiro de Recursos Hídricos. 17 a 22 de novembro de 2013. Bento Gonçalves, RS.
GWR – Geographically Weighted Regression
Consumo de Água per Capita (resposta) X Renda per capita(preditora)
CARMO, Roberto Luiz do; DAGNINO, Ricardo Sampaio; FEITOSA, Flávia da Fonseca; JOHANSEN, Igor Cavallini; CRAICE, Carla. População, Renda e Consumo Urbano de Água no Brasil: Interfaces e Desafios. XX Simpósio Brasileiro de Recursos Hídricos. 17 a 22 de novembro de 2013. Bento Gonçalves, RS.
Os menores coeficientes estimados para a variável RENDA foram observados em municípios do Estado do Rio Grande do Sul ...
....e os maiores em Alagoas.
GWR – Geographically Weighted Regression
GWR – Geographically Weighted Regression
Consumo de Água per Capita (resposta) X Renda per capita(preditora)
CARMO, Roberto Luiz do; DAGNINO, Ricardo Sampaio; FEITOSA, Flávia da Fonseca; JOHANSEN, Igor Cavallini; CRAICE, Carla. População, Renda e Consumo Urbano de Água no Brasil: Interfaces e Desafios. XX Simpósio Brasileiro de Recursos Hídricos. 17 a 22 de novembro de 2013. Bento Gonçalves, RS.
Região do Município de Traipu (AL) maior coeficiente estimadoUm aumento de R$ 1 na renda per capita da população está associado a um incremento do consumo de água de 100,3 ml/dia/hab.
Região do município de Floriano Peixoto (RS) um dos menores coeficientes significativos (t-valor > 1,96): Um aumento de R$ 1 na renda per capita da população está associado a um aumento do consumo de 10,22 ml/dia/hab.
Hipóteses???
CARMO, Roberto Luiz do; DAGNINO, Ricardo Sampaio; FEITOSA, Flávia da Fonseca; JOHANSEN, Igor Cavallini; CRAICE, Carla. População, Renda e Consumo Urbano de Água no Brasil: Interfaces e Desafios. XX Simpósio Brasileiro de Recursos Hídricos. 17 a 22 de novembro de 2013. Bento Gonçalves, RS.
De maneira geral, as regiões apresentadas como aquelas onde a elevação da renda está relacionada a um maior incremento do consumo (áreas mais escuras) tendem a coincidir com as áreas onde o aumento do poder de consumo – que acompanhou o recente processo de estabilização econômica, crescimento econômico e ampliação dos programas redistributivos – apresentou os maiores impactos na redução da pobreza e extrema pobreza do país.
Considerações sobre os Resultados
CARMO, Roberto Luiz do; DAGNINO, Ricardo Sampaio; FEITOSA, Flávia da Fonseca; JOHANSEN, Igor Cavallini; CRAICE, Carla. População, Renda e Consumo Urbano de Água no Brasil: Interfaces e Desafios. XX Simpósio Brasileiro de Recursos Hídricos. 17 a 22 de novembro de 2013. Bento Gonçalves, RS.
São regiões onde a redução da pobreza ampliou de maneira expressiva o acesso a recursos básicos para a manutenção de vida desta população, entre eles a água potável.
Já em regiões como a Sul, caracterizada por níveis mais elevados de renda, um aumento na renda tende a gerar um impacto menor no aumento do consumo de bens essenciais como a água e, provavelmente, maior no consumo de bens de outra natureza.
Considerações sobre os Resultados
Spatial Regression Analysis: A Workbook (Luc Anselin): http://geodacenter.asu.edu/system/files/rex1.pdf
Fitting and Interpreting Spatial Regression Models: An Applied Survey (Roger Bivand): http://www.nek.lu.se/ryde/NordicEcont09/Papers/bivand.pdf
Tutoriais
GeoDa Índice de Moran, LISA maps, Regressão Clássica e Espacial (Spatial Lag & Spatial Error)
SPRING e TerraviewÍndice de Moran, LISA map
GWR 4.0GWR
Softwares
PRÁTICARegressão Espacial
Spatial Lag e Spatial Error com o Software GeoDa GWR com o Software GWR 4.0