r geoestatitistica

Upload: geoproufma

Post on 17-Feb-2018

215 views

Category:

Documents


0 download

TRANSCRIPT

  • 7/23/2019 R Geoestatitistica

    1/5

    IV Simpsio de Geoestatstica Aplicada em Cincias Agrrias14 e 15 de Maio de 2015

    Botucatu, So Paulo

    IV Simpsio de Geoestatstica em Cincias Agrrias SGeA | ISSN: 2236-2118 1

    GEOESTATSTICA NO R: UM ESTUDO COMPARATIVO ENTRE DOIS SCRIPTS

    Batista, A. P. B.1

    , Santos, G. R.2

    , Mello, J. M.3

    , Silva, K. E.4

    , Kaleita, A.5

    1Doutorando em Engenharia Florestal,UFLA/LEMAF/Departamento de Cincia Florestal/ CEP: 37200-000, Lavras,MG, [email protected];2Professor Doutor, UFV/ Departamento de Estatstica / CEP: 36570-000,Viosa-MG, [email protected];3Professor Doutor, UFLA/LEMAF/Departamento de Cincia Florestal/ CEP: 37200-000, Lavras, MG,[email protected];4Pesquisadora da Embrapa Amaznia Ocidental / CEP: 69010-970 Manaus - AM, [email protected] Professor, Iowa State University/Agricultural and Biosystems Engineering / Zip: 50010, Ames, Iowa, EUA,[email protected].

    Resumo - A geoestatstica se destaca como uma metodologia da estatstica espacial, que utiliza inclusive a posiogeogrfica dos dados amostrais para caracterizar uma ou mais variveis em estudo, alm de interpolar de maneira

    tima, estatisticamente, em locais no amostrados. Com a popularizao dessa metodologia, vrias formas diferentes deanlises tm surgido, inclusive utilizando o mesmo programa. Dentro desse contexto, o objetivo deste trabalho foiverificar se existem diferenas considerveis nos resultados de uma anlise geoestatstica entre duas formas distintas deanlise, atravs de doisscriptsdiferentes, utilizando o pacote geoR, para o mesmo conjunto de dados, no programa R.Foram avaliados 35 indicadores, que foram divididos em tabelas, de acordo com a etapa do processo analtico. Emtermos gerais, oscript 1apresentou pequena superioridade em relao aoscript 2.

    Palavras-chave: Geoestatstica; pacote geoR; Programa R.

    Geostatistics in R: a comparative study between two scripts

    Abstract - Geostatistics stands as a methodology of Spatial Statistics which also uses the geographical position of thesample data to characterize one or more variables under study, and interpolate optimally, statistically, in unsampled

    locations. With the popularity of this method, several different forms of analysis have appeared, including using thesame software. In this context, the aim of this study was to determine whether there are considerable differences in theresults of a geostatistical analysis of two different forms of analysis, through two different scripts, using the geoRpackage for the same data set, in the program R. 35 indicators were chosen to this evaluation, divided into tables,according to the analytical process step. Overall the script 1 showed a slight superiority of the script 2.

    Key words: Geostatistics, geoR package, program R.

    IntroduoEntre as metodologias da estatstica espacial, a geoestatstica destaca-se por utilizar toda a informao disponvel,

    inclusive a posio geogrfica dos dados amostrais, para caracterizar a varivel em estudo, levando em considerao aestrutura de dependncia espacial dos dados, e interpol-la atravs de um BLUP Best Linear Unbiased Predictor(melhor preditor linear no viesado) de varincia mnima (VIEIRA, 2000; SANTOS et al., 2011; YAMAMOTO eLANDIM, 2013).

    O programa R um dos melhores para anlise estatstica existentes na atualidade. Todo o contedo da janela doconsole pode ser salvo, marcado e eliminado utilizando os recursos do Windows e da barra de ferramentas. Umamaneira amplamente disseminada de utilizar o R digitar os programas e macros que sero executados em uma janeladenominada script (FERREIRA, 2013). Como principais vantagens do R o fato de ser um programa gratuito, e ospacotes (libraries/packages) so escritos e desenvolvidos por pesquisadores das mais diferentes reas do conhecimento.Dentre os pacotes, destaca-se o geoR utilizado para anlises geoestatsticas (RIBEIRO JNIOR; DIGGLE, 2001).

    Atualmente, esto disponveis alguns programasna rea de geoprocessamento que realizam anlises geoestatsticas,porm com procedimento de ajuste automtico, que podem comprometer o resultado final. Segundo Ferreira et al.(2013) o procedimento de ajuste no deve ser direto e/ou automtico, mas sim interativo, pois neste processo o analistadeve interagir o todo tempo com os resultados parciais obtidos.

    Apesar de se tratar de uma metodologia j consagrada no meio cientfico e profissional, muitos trabalhoscomparativos tm surgido nessa rea, em busca da melhoria continua do processo analtico e representativo das regiesde estudo, independente da varivel. Sendo assim, o objetivo deste trabalho foi verificar se existem diferenas

  • 7/23/2019 R Geoestatitistica

    2/5

    IV Simpsio de Geoestatstica Aplicada em Cincias Agrrias14 e 15 de Maio de 2015

    Botucatu, So Paulo

    IV Simpsio de Geoestatstica em Cincias Agrrias SGeA | ISSN: 2236-2118 2

    considerveis nos resultados especficos e gerais de uma anlise geoestatstica entre duas formas distintas de anlise,atravs de doisscriptsdiferentes do pacote geoR, para o mesmo conjunto de dados, no programa R.

    Material e MtodosOs dados utilizados para a realizao desse estudo comparativo so da varivel teor de cobre, coletados no campo

    experimental da Embrapa Amaznia Ocidental, localizado no municpio de Rio Preto da Eva AM, com coordenadas595942.6W e 23249.7S, conforme Figura 1.

    Figura 1. Imagem de satlite de Rio Preto da Eva AM, localizao da rea de amostragem.Fonte: Google Earth

    Foram coletados 199 amostras de solo, cujo grid amostral foi de espaamento irregular, com distncias entre pontosvariando de 3 a 425 metros. As amostras foram obtidas com trado a uma profundidade de 0 a 20 cm. Aps a coleta ecuidados iniciais, as amostras foram enviadas ao Laboratrio de Solos e Plantas da Embrapa Amaznia Ocidental paraanlise qumica e fsica.

    Entre todas as variveis envolvidas na amostragem, o teor de cobre foi escolhido devido s caractersticasapresentadas, como o caso de normalidade dos dados, ausncia de outliers, isotropia, ausncia de tendncia eatendimento aos pressupostos da geoestatstica, conforme recomendam Vieira (2000), Santos et al. (2011) e Yamamotoe Landim (2013).

    Os critrios de comparao foram adotados conforme a presena do critrio em um dos doisscripts. Alguns critrioselencados foram apontados como presentes ou ausentes, sem comentrios exclusivos, como o caso do critrio Testede independncia, mas outros critrios considerados de maior importncia para o estudo foram quantificados ereceberam comentrios exclusivos, como o caso do critrio Mdiados resduos padronizados.

    As anlises foram realizadas com auxlio do pacote geoR (RIBEIRO JNIOR; DIGLLE, 2001) do software R (RDEVELOPMENT CORE TEAM, 2014).

    Resultados e DiscussoForam avaliados 35 indicadores existentes pelo menos em um dosscriptsavaliados. Os indicadores foram divididos

    em Tabelas 1, 2, 3 e 4, para facilitar a compreenso dos resultados do estudo. Em termos gerais, o script 1apresentoupequena superioridade em relao aoscript 2, mas nada muito significativo.

  • 7/23/2019 R Geoestatitistica

    3/5

    IV Simpsio de Geoestatstica Aplicada em Cincias Agrrias14 e 15 de Maio de 2015

    Botucatu, So Paulo

    IV Simpsio de Geoestatstica em Cincias Agrrias SGeA | ISSN: 2236-2118 3

    Tabela 1. Indicadores iniciais de uma anlise geoestatsticarealizada no pacote geoR do programa R considerando doisscripts distintos.

    Indicadores Script 1 Script 2Leitura multivariada dos dados Sim NoAnlise exploratria clssica Sim SimTeste de independncia Sim NoTeste de normalidade (SW) Sim SimAnlise espacial da malha-visual Sim SimAnlise de tendncia - visual Sim SimDeteco de outlier Sim Sim

    Conforme Tabela 1, no se constata no script 2apenas a leitura multivariada dos dados, que contribui na agilidadeda anlise de dados, e um teste de independncia dos dados, importante na constatao de um dos mais importantespressupostos tericos para a aplicao da estatstica. Contudo, nessa fase da anlise, tal teste no essencial, poisatravs do comportamento do variograma, tem-se um parecer preciso do comportamento da varivel em estudo. Dessa

    forma, ambos osscriptsapresentam caractersticas similares.A fase seguinte da anlise compreende toda a anlise variogrfica, ou seja, estimao do variograma, estudo deanisotropia e modelagem do variograma emprico, conforme apresentado na Tabela 2.

    Tabela 2. Indicadores da fase de anlise de variograma de uma anlise geoestatstica realizada no pacote geoR doprograma R considerando doisscripts distintos.

    Indicadores Script 1 Script 2Estimao do melhorvariog Sim SimDeterminao do n de pares No Sim

    Estimao dos variogramas direcionais Sim (Isotropia) Sim

    Sistema eyefit de ajuste do variograma(A sentimento)

    Sim Sim

    Mtodos de mnimos quadrados de ajuste Sim Sim

    Mtodos de mxima verossimilhana de ajuste Sim Sim (apenas ML)

    Conforme Tabela 2, as caractersticas dos dois scriptsapresentam caractersticas semelhantes nessa fase, exceto adeterminao do nmero de pares de pontos da estimao do variograma emprico. Para este conjunto de dados, estacaracterstica no se mostrou inadequada, mas certamente em outros conjuntos importante estabelecer um nmeromnimo de pares de pontos, uma vez que o variograma a etapa mais importante de uma anlise geoestatstica(VIEIRA, 2000; SANTOS et al., 2011; YAMAMOTO e LANDIM, 2013).

    Para a fase de escolha de modelos do variograma, usual adotar a autovalidao leave-one-out, adotando oscritrios estabelecidos por Vieira (2000), conforme apresentado na Tabela 3.

    Atravs dos resultados da autovalidao, possvel determinar o modelo mais adequado para o variograma empricoestimado, segundo Yamamoto e Landim (2013). Sendo assim, pode-se perceber uma pequena vantagem numrica doprimeiroscript, uma vez, que em mdia os resduos deveriam ser nulos, e o desvio-padro dos resduos padronizadosdeveria ser unitrio. Alm disso, Vieira (2000) recomenda a realizao de uma regresso linear simples entre os valoresobservados e os valores preditos na autovalidao, e subsequente anlise dos parmetros. Teoricamente, o parmetrobeta 0 deveria ser nulo, e o parmetro beta 1 ser unitrio. Dessa forma, pode-se perceber que o ajuste do modeloGaussiano ao variograma emprico foi razovel. Apresenta-se ainda outras informaes importantes, como o caso doalcance, efeito pepita, contribuio e estimao da varincia dos dados atravs do patamar (contribuio + efeitopepita).

    Santos et al. (2011) mostram em mdia, e utilizando a varincia de krigagem de parmetro de deciso, que akrigagem indicativa mais precisa do que outras krigagens lineares. Dessa forma, pode-se perceber que, atravs doscript 1, que provavelmente devido esse motivo a varincia de krigagem foi de 3 a 4 vezes menor. Alm disso, oscript1apresenta ainda um mecanismo de delimitao da rea de estudo que utiliza o alcance estimado na modelagem do

    variograma como gerador do buffer de extrapolao.

  • 7/23/2019 R Geoestatitistica

    4/5

    IV Simpsio de Geoestatstica Aplicada em Cincias Agrrias14 e 15 de Maio de 2015

    Botucatu, So Paulo

    IV Simpsio de Geoestatstica em Cincias Agrrias SGeA | ISSN: 2236-2118 4

    Tabela 3. Indicadores da fase de autovalidao de uma anlise geoestatsticarealizada no pacote geoR do programa Rconsiderando doisscripts distintos.

    Indicadores Script 1 Script 2Autovalidao Sim Sim

    Mdia dos resduos padronizados - 0.0001869 0.0003235Desvio-padro dos resduos

    padronizados1.0247 1.0537

    RLS Regresso Linear Simples Sim NoRLS Beta 0 estimado 0.0038 NoRLS Beta 1 estimado 0.9617 No

    Melhormtodo de ajuste OLS OLSModelo Gaussiano Gaussiano

    Alcance prtico 86.54 m 103.84 mEfeito pepita 0.0004 0.0004 (fixo)Contribuio 0.000523 0.000501

    Varincia dos dados 0.00085 0.000852

    Finalmente, apresenta-se na Tabela 4, a interpolao da geoestatstica, krigagem, com os respectivos indicadores dequalidade.

    Tabela 4. Indicadores da fase de interpolao, krigagem, de uma anlise geoestatstica realizada no pacote geoR doprograma R considerando doisscripts distintos

    Indicadores Script 1 Script 2Krigagem Simples Ordinria

    Delimitao da rea krigadaconforme alcance

    Sim No

    Mdia da varincia de krigagem 1.3x10-4 4.8x10-4Varincia da var. de krig. 4.1x10-9 2.8x10-9

    Desvio-padro da var. de krig. 6.4x10-5 4.8x10-5Mdia dos valores preditos 0.1001 0.1004564

    Varincia dos valores preditos 0.0005115 0.0003052GDE 56.67 55.55AIC No se aplica em OLS 454.16

    Nmero de pares mnimos(pairs.min)

    Automtico (108) Sim (15)

    Apresenta-se na Figura 2 o variograma emprico, j modelado via o mtodo de mnimos quadrados ordinrios,usando o modelo Gaussiano, e a krigagem da varivel teor de cobre (imagens de um dosscriptsanalisados).

  • 7/23/2019 R Geoestatitistica

    5/5

    IV Simpsio de Geoestatstica Aplicada em Cincias Agrrias14 e 15 de Maio de 2015

    Botucatu, So Paulo

    IV Simpsio de Geoestatstica em Cincias Agrrias SGeA | ISSN: 2236-2118 5

    Concluso

    Ao comparar-se duas formas distintas de uma anlise geoestatstica, utilizando o pacote geoR e o programa R,conclui-se que, apesar das diferenas de formulao dos roteiros, denominados no trabalho como scripts, os resultadosforam muito similares.

    No geral, oscript 1apresenta uma pequena vantagem em relao aoscript2, devido uma preocupao maior em severificar o atendimento dos pressupostos tericos que o uso da metodologia exige.

    A maior diferena percebida foi na verificao da qualidade da anlise realizada, atravs da varincia de krigagem,em que oscript1foi de 3 a 4 vezes mais preciso do que o script2, resultado justificado provavelmente pela escolha dointerpolador.

    Assim, este trabalho mostra a robustez de uma anlise geoestatstica feita no programa R, independente dasdiferenas apresentadas pelos dois roteiros escolhidos para este estudo.

    Referncias

    FERREIRA, I. O.; SANTOS, G. R. RODRIGUES, D. D. Estudo sobre a utilizao adequada da krigagem narepresentao computacional de superfcies batimtricas. Revista Brasileira de Cartografia, Rio de Janeiro, v. 65, n.5,p. 831-842, 2013.

    FERREIRA, D. F. Estatstica computacional utilizando R. Universidade Federal de Lavras, Departamento deCincias Exatas, 2013, 125 p.

    YAMAMOTO, J. K., LANDIM, P. M. B. Geoestatstica: conceitos e aplicaes. 1ed. So Paulo: Oficina de Textos,2013, 215p.

    RIBEIRO JNIOR, P. J.; DIGGLE, P. J. geoR: a package for geostatistical analysis. R-NEWS, Pelotas, v. 1, n. 2, p.15-18, 2001.

    R DEVELOPMENT CORE TEAM. R: A language and environment for statistical computing.R Foundation forStatistical Computing, Vienna. Disponvel em:< http://www.r-project.org >. Acesso em: 08 jul. de 2014.

    SANTOS, G. R.; OLIVEIRA, M. S.; LOUZADA, J. R.; SANTOS, A. M. R. T. KS versus KU: qual o preditor maispreciso? In: SIMPSIO DE GEOESTATSTICA EM CINCIAS AGRRIAS, 2., 2011, Botucatu, Anais...Faculdadede Cincias Agronmicas-UNESP.

    VIEIRA, S. R. Geoestatstica em estudos de variabilidade espacial do solo. In: NOVAIS, R.F.; ALVAREZ, V., V.H.& SCHAEFER, G.R., eds. Tpicos em cincia do solo. Viosa, MG, Sociedade Brasileira de Cincia do Solo, 2000. v.1. p.1-54.

    Figura 2 Apresentao do variograma emprico (pontos do grfico esquerda), e respectiva modelagem (pontilhadomais escuro) e mapa de interpolao via krigagem (imagem direita) do teor de cobre.