megadiversidade_v3___n1_2___dez_2007

Upload: jhonatan-lima-buzz

Post on 11-Jul-2015

148 views

Category:

Documents


0 download

TRANSCRIPT

VOLUME 3

|

N0 1-2

|

DEZEMBRO 2007

MEGADIVERSIDADE

Modelagem ambiental e a conservao da biodiversidade

Editor Geral Jos Maria Cardoso da Silva Editores Convidados Ana Luiza Kerti Mangabeira Albernaz Thas Pacheco Kasecker Editores Associados Adrian Antnio Garda Guilherme Fraga Dutra Luiz Paulo Pinto Paulo Gustavo Prado Ricardo Bomfim Machado Coordenao de Edio e Produo Isabela Santos Staff de Produo Regiane Avelar Conselho Editorial Ana Rodrigues Angelo Machado Anthony Rylands Claude Gascon Francisco Barbosa Gustavo Fonseca Ima Clia Vieira Katrina Brandon Keith Alger Marcelo Tabarelli Roberto Cavalcanti Russell Mittermeier Thomas Lewinsohn Thomas Lacher Conservao Internacional Av. Getlio Vargas 1300 7 andar 30112-021 Belo Horizonte MG Tel.: 55 31 3261-3889 e-mail: [email protected] www.conservacao.org A Conservao Internacional uma organizao privada sem fins lucrativos, fundada em 1987, com o objetivo de conservar o patrimnio natural do planeta nossa biodiversidade global e demonstrar que as sociedades humanas so capazes de viver em harmonia com a natureza. Volume 3 | No 1-2 | Dezembro 2007Fotos da capa: (1) e (2)Adriano Jerozolimski, (3) Haroldo Castro, (4) Enrico Bernard, (foto maior) Adriano Gambarini. Projeto e edio grfica: Grupo de Design Grfico Ltda. Tiragem: 1.000 exemplares

Apoio

MEGADIVERSIDADEVolume 3 | No 1-2 | Dezembro 2007

Modelagem ambiental e conservao da biodiversidade

SUMRIO3 5 13 ApresentaoJOS MARIA CARDOSO SILVA, ANA LUIZA KERTI MANGABEIRA ALBERNAZ & THAS PACHECO KASECKER

Modelos lineares como ferramentas para a modelagem da distribuio de espciesGUILHERME MOURO & WILLIAM E. MAGNUSSON

Modelos de classificao em rvore para a localizao de reas de ocorrncia potencial de espciesADRIANA PAESE, SIDNEY DORNELLES, JOS EDUARDO DOS SANTOS & JOS SALATIEL RODRIGUES PIRES

25 38

O uso de regresso logstica para espacializao de probabilidadesEDUARDO M. VENTICINQUE, JULIANA STROPP CARNEIRO, MARCELO PAUSTEIN MOREIRA & LEANDRO FERREIRA

Uso de modelos aditivos generalizados na estimativa da distribuio potencial de espciesPAULO DE MARCO JNIOR

46 56 64

Algoritmo Gentico para Produo de Conjuntos de Regras (GARP)RICARDO SCACHETTI PEREIRA & MARINEZ FERREIRA DE SIQUEIRA

Modelos de metapopulaoDOUGLAS F. M. GHERARDI

O uso de modelos em ecologia de paisagensJEAN PAUL METZGER, MARINA ANTONGIOVANNI DA FONSECA, FRANCISCO JOS BARBOSA DE OLIVEIRA FILHO & ALEXANDRE CAMARGO MARTENSENS

74

Modelagem de dinmica de paisagem: concepo e potencial de aplicao de modelos de simulao baseados em autmato celularBRITALDO SILVEIRA SOARES FILHO, GUSTAVO COUTINHO CERQUEIRA, WILLIAM LEITE ARAJO & ELIANE VOLL

87

Planejamento sistemtico para a conservao na Amaznia brasileira uma avaliao preliminar das reas prioritrias de Macap-99ANA LUIZA KERTI MANGABEIRA ALBERNAZ & MANUELLA ANDRADE DE SOUZA

MEGADIVERSIDADE | Volume 3 | N 1-2 | Dezembro 2007

APRESENTAO

Um dos maiores desafios da moderna cincia da biodiversidade determinar quantas espcies existem no planeta, como elas se relacionam filogeneticamente e, por fim, como elas se distribuem. O conhecimento detalhado das distribuies geogrficas das espcies fundamental para o planejamento da conservao e para prever, por exemplo, possveis conseqncias, sobre a biodiversidade global, das mudanas globais que afetam o planeta. Alm disso, as distribuies geogrficas so uma das informaes mais importantes para programas de pesquisa que visam compreender os processos ecolgicos e evolutivos que determinam os grandes padres de biodiversidade global. Infelizmente, a distribuio de grande maioria das espcies conhecida somente a partir de informaes muito limitadas, o que restringe significativamente muitas anlises. Um bom exemplo diz respeito tomada de decises sobre a conservao de ambientes e espcies tropicais. Geralmente o processo complexo e envolve a ponderao de aspectos ambientais, econmicos e sociais. A falta de informaes detalhadas sobre a distribuio das espcies um dos fatores que contribui para que as discusses sobre conservao e a criao de reas protegidas percam seu foco sobre biodiversidade, dando mais peso a outros fatores. Uma das estratgias encontradas por cientistas para minimizar o problema da falta de informaes foi a de desenvolver modelos computacionais para gerar predies sobre as distribuies das espcies a partir da associao da ocorrncia da espcie com fatores ambientais. Nos ltimos anos, novas ferramentas computacionais especialmente voltadas para a modelagem ecolgica foram criadas e tornadas disponveis para uso geral. Tais ferramentas incluem modelos de distribuio de espcies, de metapopulaes, de paisagens e de escolha de reas prioritrias para a conservao. Embora vrias destas ferramentas estejam presentes na literatura internacional h muito tempo, e o valor de suas aplicaes seja amplamente reconhecido, elas ainda tm sido pouco utilizadas no Brasil, e particularmente na Amaznia. Foi esta constatao que levou o Programa Institucional de Biodiversidade do Museu Paraense Emilio Goeldi (MPEG), em parceria com a Conservao Internacional e o projeto GEOMA de Modelagem Ambiental na Amaznia, a organizar o seminrio Ferramentas para a modelagem da distribuio de espcies em ambientes tropicais, realizado em Belm, no perodo de 10 a 14 de fevereiro de 2003.MEGADIVERSIDADE | Volume 3 | N 1-2 | Dezembro 2007

4 | Apresentao

Este nmero especial da Megadiversidade apresenta os resultados do seminrio. A seleo dos temas e ordem de sua apresentao foi feita de forma a apresentar os modelos dos mais simples aos mais complexos. Os primeiros captulos tratam exclusivamente da distribuio de espcies (modelos gerais lineares, regresso logstica, rvores de deciso, modelos gerais aditivos e o algoritmo gentico GARP). A seguir so apresentados modelos que incorporam componentes de paisagem: metapopulaes, ecologia de paisagem, autmatos celulares e sistemas de apoio escolha de reas para a conservao. Nem todos os modelos disponveis em 2003 foram apresentados durante o seminrio: a seleo dependeu principalmente de profissionais interessados em desenvolver trabalhos sobre o tema. Todos os textos e anlises foram elaborados por pesquisadores que atuam em instituies nacionais, e os exemplos apresentados tambm so extrados da nossa realidade. Este nmero s se tornou possvel pelo extraordinrio esforo dos autores, que fizeram vrias atualizaes dos artigos, e do trabalho de editorao e acompanhamento de Renata Valente e Mnica Fonseca, ambas da equipe da CI-Brasil. Esperamos com isso estimular novos pesquisadores a seguir por esse caminho, contribuindo, assim, para o avano desse tipo de pesquisa no Brasil.

Jos Maria Cardoso da Silva CONSERVAO INTERNACIONAL Ana Luiza Kerti Mangabeira Albernaz MUSEU PARAENSE EMLIO GOELDI Thas Pacheco Kasecker CONSERVAO INTERNACIONALEDITORES

MEGADIVERSIDADE | Volume 3 | N 1-2 | Dezembro 2007

Modelos lineares como ferramentas para a modelagem da distribuio de espciesGUILHERME MOURO1* WILLIAM E. MAGNUSSON21 2

Embrapa Pantanal, Mato Grosso do Sul, Brasil. Instituto Nacional de Pesquisas da Amaznia INPA, Amazonas, Brasil. * e-mail: [email protected]

RESUMOModelos lineares gerais (MLG) podem ser empregados para descrever relaes ecolgicas, como a relao entre fator ou fatores abiticos e densidades de organismos. Entretanto, os modelos lineares teoricamente s so apropriados em condies restritas, geralmente difceis de serem encontradas no mundo real. Apesar desta limitao, modelos lineares vm sendo amplamente empregados em estudos ecolgicos, principalmente porque permitem investigar o efeito de fatores que podem estar sendo mascarados por outros. Neste captulo apresentamos exemplos de aplicao de modelos lineares em alguns estudos que enfocam a distribuio de organismos na Amaznia.

ABSTRACTGeneral linear models (GLM) can be used to describe ecological relationships, such as the relationships between abiotic factors and densities of organisms. However, linear models are strictly applicable under restricted conditions that are unlikely to be encountered in the real world. Despite this limitation, linear models have been frequently used in ecological studies, mainly because they allow studies of the effects of factors that may be confounded by others. In this chapter we present examples of the use of linear models in studies of Amazonian organisms.

MODELOS

LINEARES SIMPLES

Na matemtica, um modelo linear simples segue a frmula y = a+b * x e a representao grfica desta relao segue a forma geral apresentada na Figura 1a. Chamamos y e x de variveis, porque assumem diferentes valores dentro de um mesmo modelo. Por conveno, chamamos y de varivel dependente, i.e., y varia em funo de x, que a varivel independente.

Os valores denotados pelas letras a e b so chamados de parmetros, porque so constantes e caractersticos de uma dada populao de dados, embora possam variar entre modelos da mesma classe. Estimativas de parmetros baseados em amostras da populao so chamadas estatsticas. O parmetro a se refere ao valor que y assume quando x=0 e por isso chamado de intercepto ou elevao. Observe que na Figura 1a o menor valor que aparece na escala do eixo x 20 e o

MEGADIVERSIDADE | Volume 3 | N 1-2 | Dezembro 2007

6 | Modelos lineares como ferramentas para a modelagem da distribuio de espcies

valor de y onde x=0 no mostrado (neste exemplo, a=-13,9). O parmetro b indica quanto o incremento (ou decrscimo) de y quando x aumenta em uma unidade, e por isso chamado de inclinao. Vamos considerar uma questo do mundo real, onde a temperatura do ar afeta a contagem de uma determinada espcie, digamos, cervos-do-pantanal. O fluxograma abaixo d uma indicao adequada de nosso modelo conceitual:

TEMPERATURA DO AR

CONTAGEM DE CERVOS (densidades observadas)

A analogia do modelo matemtico y = a + b * x com nosso modelo do mundo real se faz como CONTAGEM = ELEVAO+ INCLINAO * TEMPERATURA, onde a CONTAGEM a varivel dependente e a TEMPERATURA a varivel independente ou, apropriadamente, o fator que afeta a varivel dependente. Neste caso, a elevao apareceu

explicitamente no modelo, mas se tivssemos razo para crer que a relao fosse linear e que no contaramos cervo algum quando a temperatura do ar fosse zero (i.e. ELEVAO =0) poderamos simplesmente omiti-la. Entretanto, na maioria dos casos mais seguro incluir a constante e deixar que os dados, em vez de nossos preconceitos, posicionem a reta. No mundo real os modelos so sempre imperfeitos, e a relao que esperamos encontrar entre variveis dependentes e fatores so mais semelhantes ao grfico apresentado na Figura 1b. Podemos ver que, neste caso, a equao y = a+ b * x j no suficiente para descrever cada ponto do grfico, e precisamos acrescentar mais um termo para ajustar a equao: y = a + b * x + e, ou CONTAGEM = ELEVAO + TEMPERATURA + VARIAO RESIDUAL, onde a variao residual represente o desvio da observao do nosso modelo. Note que no grfico da Figura 1b apareceu a linha que representa a relao linear entre as variveis, mas no dissemos nada sobre o critrio que escolhemos para definir onde a reta deveria passar. Obviamente desejamos traar a linha na posio mais prxima possvel

(A) y = a + bx

(B) y = a + bx + ey = contagem a = constante bx = temperatura e = variao residual

FIGURA 1 (A) Representao matemtica e grfica de um modelo linear simples e (B) analogia com os modelos biolgicos.

MEGADIVERSIDADE | Volume 3 | N 1-2 | Dezembro 2007

Mouro & Magnusson |

7

(A)

(B)

(C)

dos pontos em geral, o que significa minimizar as distncias dos pontos at a linha, mas qual distncia escolher? Poderamos minimizar as distncias perpendiculares linha, como mostrado na Figura 2a, ou simultaneamente as distncias horizontais e verticais de cada ponto at a linha (o que equivale a minimizar as reas dos tringulos formados por estas distncias e a linha), como na Figura 2b, ou ainda apenas a distncia vertical dos pontos at a linha ou o quadrado desta distncia (Figura 2c). Qualquer um destes mtodos tem sua lgica e na verdade, deram origem a diferentes procedimentos estatsticos. O procedimento de regresso do maior eixo minimiza a distncia perpendicular do ponto linha, como na Figura 2a, enquanto a regresso do maior eixo reduzido minimiza as reas dos tringulos como mostrado na Figura 2b. Entretanto, o mtodo de minimizar o quadrado das distncias verticais dos pontos linha, mostrado na Figura 2c, embora no parea primeira vista to simples e intuitivo quanto o anterior, permitiu o desenvolvimento de uma grande variedade de anlises complexas e geralmente as mais teis em termos de previso. Por razes bvias, chamada de regresso dos mnimos quadrados. Mesmo quando trabalhamos com fatores categricos, como nos modelos de anlise de varincia (ANOVA) convencional, estamos ajustando modelos lineares e de mnimos quadrados. De fato, internamente a maioria dos programas que computam ANOVA trabalham com cdigos numricos para as categorias que permitem uma anlise de regresso. A melhor estimativa do valor esperado para qualquer ponto em uma dada categoria a mdia dos valores observados nesta categoria e o procedimento ANOVA minimiza os resduos como o quadrado das distncias verticais dos pontos at o valor esperado, de forma anloga regresso linear.

MODELOS

LINEARES ADITIVOS

( MULTIFATORIAIS )

At agora, tratamos de modelos com somente um fator (varivel independente) afetando a varivel dependente. A mesma lgica pode ser estendida para modelos com mais que uma varivel independente, como ilustrado no fluxograma abaixo:FIGURA 2 Diferentes alternativas de minimizar os resduos dos pontos observados reta de regresso: (A) distncia perpendicular do ponto linha; (B) simultaneamente as distncias horizontal e vertical do ponto linha; e (C) o quadrado da distncia vertical do ponto linha.

TEMPERATURA

CONTAGEM DE CERVOS

COTA

MEGADIVERSIDADE | Volume 3 | N 1-2 | Dezembro 2007

8 | Modelos lineares como ferramentas para a modelagem da distribuio de espcies

A vantagem de se trabalhar com mais que uma varivel por vez que se pode investigar o efeito de um fator independente dos efeitos de outros fatores. Muitas vezes, uma varivel esconde o efeito da outra (ver o exemplo a seguir), ou pode at criar a impresso de que a varivel tem um efeito positivo quando em realidade seu efeito sobre a varivel dependente negativo (Magnusson & Mouro, 2003).

FIGURA 3 Representao grfica da superfcie formada por um modelo linear de dois fatores.

O modelo de regresso mltipla (e os modelos lineares gerais [GLMs], em geral) uma extenso do nosso modelo com um fator, mas tem a premissa de que os efeitos dos fatores so aditivos. O modelo conceitual o seguinte: y = a+b1x1+b2x2+...bixi+e Em termos do nosso modelo especfico, isto expresso como: Contagem = elevao + inclinao_1 * temperatura + inclinao_2 * cota + resduo Quando os efeitos das variveis no so aditivos, possvel adicionar uma outra varivel conceitual (chamada interao) para descrever este efeito (Magnusson & Mouro, 2003), mas estas variveis conceituais tm pouco valor para modelagem de distribuies. No caso de nosso exemplo com dois fatores, o modelo uma superfcie plana (Figura 3). Modelos com mais fatores produzem superfcies complexas que no podem ser apresentadas em trs dimenses, mas cuja lgica matemtica segue aquela de duas dimenses. Para este exemplo, o exame dos grficos bidimensionais simples indica um forte efeito da temperatura sobre o nmero de cervos contados, mas um efeito fraco, ou inexistente, da cota de inundao sobre o nmero de cervos contados (Figura 4). O emprego de modelos multifatoriais (neste caso, regresso mltipla) permite o exame de efeitos escondidos por outros fatores. A anlise produz grficos que

(A)

(B)

FIGURA 4 Efeitos simples de (A) temperatura do ar e (B) da cota de inundao sobre o nmero de cervos contados.

MEGADIVERSIDADE | Volume 3 | N 1-2 | Dezembro 2007

Mouro & Magnusson |

9

(A)

(B)

FIGURA 5 Grficos dos resduos parciais, exemplificando como modelos multifatoriais podem ser usados para isolar os efeitos de fatores simultneos (no caso, cota e temperatura) sobre uma varivel dependente (contagem).

mostram os efeitos esperados caso as outras variveis no modelo fossem mantidas constantes. Estes grficos que representam as regresses parciais indicam um forte efeito de ambos, temperatura e cota (Figura 5). Isto pode ser importante, porque a temperatura provavelmente afeta apenas o comportamento do cervo de se esconder ou no sombra e longe dos olhos dos observadores. A cota afeta o uso do hbitat e esta informao pode ser crtica para as previses sobre a distribuio geogrfica da espcie.

T RANSFORMAES

PARA OBTER MODELOS LINEARES

Quando a relao entre a varivel dependente e a varivel independente no linear, muitas vezes podemos transformar uma ou as duas variveis para obtermos uma relao linear, como ilustrado na Figura 6, onde a transformao de potncia (ambas as variveis transformadas para o logaritmo dos valores originais) foi usada para se obter uma relao linear entre biomassa e dimetro de rvores. Estas transformaes so simples de se empregar com a ajuda de um computador, mas lembre-se que o emprego de uma transformao pode implicar em uma mudana da questo que ser respondida (Noy-Mier et al., 1975; Pielou, 1984; Johnson & Field, 1993).

Transformaes tambm podem ser usadas para atender outras premissas das anlises, como a homogeneidade de varincias. A Figura 6 representa um exemplo onde a premissa de normalidade ao longo da reta de regresso s foi atendida aps uma transformao (Figuras 6A e B). Entretanto, a situao mais comum em sistemas biolgicos a de encontrarmos varincias proporcionais mdia, como mostrado na Figura 7. Na realidade, os clculos para se localizar a linha (estimar os parmetros a e b) no dependem desta premissa de homogeneidade de varincias, mas os testes estatsticos que seguem, para determinar se a inclinao da linha difere de zero (ou qualquer outro valor), tm esta premissa. Quando usarmos uma transformao para corrigir problemas da distribuio de resduos, precisamos nos certificar de que no criamos problemas com outra premissa, como a linearidade, e que no introduzimos outras premissas na anlise, como a exigncia das relaes serem multiplicativas, em vez de aditivas (Austin, 2002). At agora, nossas anlises se basearam em modelos lineares, nos quais temos minimizado os desvios quadrados para estimarmos parmetros. Estes mtodos algbricos de mnimos quadrados so, teoricamente, apropriados somente sob um conjunto de condies muito restritivas. Eles assumem que as relaes so lineares, que os efeitos dos fatores so aditivos, que

MEGADIVERSIDADE | Volume 3 | N 1-2 | Dezembro 2007

10 | Modelos lineares como ferramentas para a modelagem da distribuio de espcies

(A)

(B)

FIGURA 6 Exemplo de (A) uma relao no-linear entre o dimetro e biomassa em rvores e (B) a relao linearizada por transformao logartmica de ambas as variveis.

(A)

(B)

FIGURA 7 Ao contrrio do que acontece neste exemplo, modelos de mnimos quadrados requerem que a distribuio dos resduos seja homognea ao longo dos valores esperados.

os resduos dos modelos tm distribuio normal, que no h erro estocstico na medida das variveis independentes, que a variao da varivel dependente homogeneamente distribuda ao longo dos nveis da

varivel independente e ainda outras condies improvveis. Quando estas condies no so satisfeitas, algum outro modelo ser um melhor estimador dos parmetros.

MEGADIVERSIDADE | Volume 3 | N 1-2 | Dezembro 2007

Mouro & Magnusson |

11

E XEMPLOS

PRTICOS

Quando ns no podemos cumprir as premissas da regresso linear de mnimos quadrados, muitas vezes podemos usar outras tcnicas descritas neste volume. No entanto, estas tcnicas so mais complicadas e o modelo linear de mnimos quadrados j se mostrou adequado em muitas situaes. Por exemplo, Layme et al. (2004) usaram regresso mltipla para relacionar a distribuio do roedor Bolomys lasiurus com a ocorrncia de queimadas, disponibilidade de alimento e estrutura de vegetao em savanas amaznicas na regio de Alter do Cho, Par. Neste trabalho, a questo principal foi verificar se a distribuio da espcie poderia ser prevista a partir de informaes sobre a estrutura da vegetao e/ou presena de queimadas fatores possveis de serem determinados atravs de imagens de sensoriamento remoto ou se seria necessrio determinar a disponibilidade de alimento para o roedor, um fator muito mais oneroso e caro de ser medido. A densidade de B. lasiurus foi avaliada em 31 parcelas de 4 ha, distribudas ao longo das savanas de Alter do Cho. Inicialmente, havia sido planejado amostrar 40 parcelas, mas queimadas imprevistas impediram a mensurao de todos os fatores em todas as parcelas. Os mtodos multifatoriais requerem que todas as variveis, dependentes e independentes, sejam medidas em todas as unidades amostrais. Portanto, se houver alguma unidade em que uma ou mais variveis presentes no modelo no foi medida, esta unidade no pode entrar na anlise. Portanto, um planejamento cuidadoso, com unidades de amostragem sobressalentes sempre recomendvel. A estrutura de vegetao (cobertura de gramneas e cobertura de arbustos) foi medida em 4 transeces de 250 m em cada parcela. Os ratos foram capturados em armadilhas tipo Sherman ao longo das mesmas transeces, e a disponibilidade de invertebrados foi estimada baseada na biomassa de invertebrados que caiu em armadilhas de queda (pitfalls). As variveis potencialmente mensurveis em imagens de satlite no previram a densidade de ratos com maior acerto do que era esperado para variveis aleatrias (estrutura da vegetao P = 0,13; queimada no ano anterior P = 0,99). A disponibilidade de alimento explicou cerca de 50% da variao na densidade dos ratos (r2 = 0,53; P < 0,001), mas no foi relacionada com a estrutura da vegetao (P = 0,71). Neste caso, como a extenso da rea de estudo foi pequena (~100 km2), a premissa de que no houve autocorrelao espacial entre os valores da varivel dependente e qualquer uma das variveis independentes

(premissa de qualquer anlise GLM Legendre et al., 2002) suspeita de no ter sido atendida, mas anlises subseqentes usando o teste de Mantel parcial feito por Ghizoni-Jr (2003) confirmaram o resultado. Como conseqncia do estudo, os pesquisadores mudaram o enfoque, deixando de tentar modelar a distribuio da espcie atravs de caractersticas da vegetao, para tentar entender como as flutuaes temporais e espaciais na abundncia de invertebrados afetam a espcie. Regresses lineares podem ser combinadas com anlises multivariadas para analisar as relaes entre variveis derivadas de tcnicas de ordenao. Por exemplo, Hero et al. (1998) estudaram a relao entre a distribuio de comunidades de girinos, a distribuio de comunidades de predadores e as variveis abiticas em corpos dgua na floresta amaznica. Uma ordenao foi usada para se obter uma dimenso que representasse a comunidades de girinos, uma dimenso para representar a comunidade de predadores (peixes e odonatas) e uma dimenso para representar os fatores fsico-qumicos. Dados de dois stios independentes levaram aos mesmos resultados. Os predadores tinham efeitos significativos sobre as comunidades de girinos (P < 0,001 em ambos os casos), mas as comunidades no eram significativamente relacionadas com os fatores fsico-qumicos (P = 0,539 e P = 0,888). Um aspecto importante de se destacar que as ordenaes para se obter variveis lineares apropriadas para GLM restringem as interpretaes. Ordenaes descrevem a similaridade entre comunidades, no a magnitude da comunidade. Uma comunidade no mais ou menos que uma outra, elas somente so diferentes. O R2 da regresso reflete a magnitude do efeito, mas se o efeito considerado positivo ou negativo uma deciso puramente arbitrria. Este estudo tambm ilustra uma limitao das anlises GLM. Elas investigam somente os efeitos diretos e assumem que as variveis independentes no afetam umas s outras. Na natureza, isto improvvel. Uma alternativa seria empregar Anlise de Equaes Estruturais (SEM) para estimar tambm os efeitos indiretos. Um exemplo desta abordagem pode ser encontrado em Hero et al. (1998), que usaram SEM para investigar os efeitos diretos e indiretos de peixes sobre a comunidade de girinos em riachos e poas na Amaznia Central. Estes autores concluram que, embora os peixes tenham um efeito negativo direto sobre a densidade de determinadas espcies de girinos, eles podem propiciar o aumento da densidade destas espcies atravs de efeitos indiretos. Peixes comem girinos, mas peixes comem e controlam as populaes de larvas de insetos, como

MEGADIVERSIDADE | Volume 3 | N 1-2 | Dezembro 2007

12 | Modelos lineares como ferramentas para a modelagem da distribuio de espcies

odonatas e besouros, que so predadores muito mais vorazes dos girinos. O efeito lquido favorece os girinos na presena de peixes. McCune & Grace (2002) explicam como as Anlises de Equaes Estruturais podem ser vistas como uma extenso dos modelos lineares (GLM).

R EFERNCIAS B IBLIOGRFICASAustin, M.P. 2002. Spatial prediction of species distribution: an interface between ecological theory and statistical modelling. Ecological Modelling 157: 101-118. Ghizoni-Jr, I.R., Jr. 2003. Efeito das variaes nas escalas temporais e espaciais na dinmica de populaes de Bolomys lasiurus (RODENTIA: MURIDAE) em uma savana na Amaznia Central. Dissertao de Mestrado. INPA/UFAM. Hero, J.M., C. Gascon & W.E. Magnusson. 1998. Direct and indirect effects of predation on tadpole community structure in an Amazonian rainforest. Australian Journal of Ecology 23: 474-482.

Johnson, C.R. & C.A. Field. 1993. Using fixed-effects model multivariate analysis of variance in marine biology and ecology. Oceanography and Marine Biology Annual Review 31: 177-221. Layme, V.M.G., A.P. Lima & W.E. Magnusson. 2004. Effects of fire, food availability and vegetation on the distribution of the roedent Bolomys lasiurus in an Amazonian savanna. Journal of Tropical Ecology 20: 183-187. Legendre, P., M.R.T. Dale, M.J. Fortin, J. Gurevitch, M. Hohn & D. Myers. 2002. The consequences of spatial structure for the design and analysis of ecological field surveys. Ecography 25: 601-615. Magnusson, W.E. & G. Mouro. 2003. Estatstica sem Matemtica. Editora Planta, Londrina. McCune, B. & J.B. Grace. 2002. Analysis of Ecological Communities. MjM Software Designs, Gleneden Beach, EUA. Noy-Meir, I., D.Walker & W.T. Williams. 1975. Data transformations in ecological ordination II. On the meaning of data standardization. Journal of Ecology 63: 779-800. Pielou, E.C. 1984. The interpretation of ecological data. Wiley, New York.

MEGADIVERSIDADE | Volume 3 | N 1-2 | Dezembro 2007

Modelos de classificao em rvore para a localizao de reas de ocorrncia potencial de espciesADRIANA PAESE1* SIDNEY DORNELLES2 JOS EDUARDO DOS SANTOS2 JOS SALATIEL RODRIGUES PIRES21 2

Conservao Internacional, Minas Gerais, Brasil. Universidade Federal de So Carlos UFSCar, So Paulo, Brasil. * e-mail: [email protected]

RESUMOEste trabalho apresenta um mtodo para a localizao de hbitats de maior probabilidade de ocorrncia de trs espcies de primatas em reas naturais de conservao da regio nordeste do Estado de So Paulo, utilizando dados sobre a localizao das espcies e de algumas variveis ambientais analisadas com base em modelos de classificao por rvore. Os modelos resultantes mostram que o tipo de cobertura do solo foi a principal varivel ambiental associada presena das trs espcies. A introduo dos resultados em ambiente SIG permitiu identificar outros locais com as mesmas combinaes das variveis ambientais em que as espcies foram localizadas. Embora seja necessrio um nmero maior de observaes para o desenvolvimento de modelos mais satisfatrios, ao menos para uma das espcies estudadas os resultados constituem modelos exploratrios importantes, que podero subsidiar futuros trabalhos de campo, possibilitando, ainda, a incluso de mais informaes sobre a biologia das espcies e sobre as alteraes ambientais locais.

ABSTRACTThis study describes a method of locating sites, in natural protected areas situated to the northeast region of So Paulo State, where the probability of occurrence of three primate species is highest. It analyses data on species occurrence and on landscape variables, developed in a Geographic Information System (GIS) using classification tree models. The resulting models showed that land cover is the landscape variable most strongly associated with the species. They also generated prediction rules for the species potential sites of occurrence, which are projected back onto the landscape, locating other places that have the same combination of environmental conditions. Although a great number of observations is necessary to develop better models for at least one of the species in the study, the models represent a valuable exploratory guide, which should facilitate prospective field surveys. They can be easily updated in a GIS to incorporate additional information on the species biology and on environmental change.MEGADIVERSIDADE | Volume 3 | N 1-2 | Dezembro 2007

14 | Modelos de classificao em rvore para a localizao de reas de ocorrncia potencial de espcies

I NTRODUODados sobre a ocorrncia de espcies so escassos, especialmente em regies tropicais, onde a grande diversidade biolgica dos ecossistemas torna esse tipo de inventrio uma tarefa onerosa e invivel em curto prazo. Quando existentes, eles so freqentemente apresentados como reas de ocorrncia potencial de espcies, estimadas com base na localizao de barreiras geogrficas e na relao entre a localizao de populaes e alguma varivel climtica. Raramente essas informaes so atualizadas, no acompanhando as alteraes antrpicas ao ambiente. Apesar da dificuldade na obteno de dados precisos e atualizados sobre a ocorrncia de espcies, existe uma grande demanda por informaes detalhadas, que devem subsidiar o desenvolvimento de projetos conservacionistas em grandes reas (Brooks et al., 2004). Os modelos de distribuio que relacionam a localizao de espcies a conjuntos de variveis ambientais, definindo o seu hbitat potencial ou sua rea de ocorrncia potencial so apresentados como uma alternativa para a dificuldade na obteno de dados pontuais sobre a ocorrncia de espcies. Modelos preditivos tm tambm sido empregados como modelos neutros para o entendimento dos efeitos da fragmentao (Milne et al., 1989) e em trabalhos relacionados com a ocorrncia e conservao de espcies (Davis & Goetz, 1990; Moore et al., 1991; DeAth & Fabricius, 2000). Um exemplo dos modelos de distribuio potencial de espcies so as rvores de deciso, ou mais formalmente, os modelos de classificao e regresso em rvore (Moore et al., 1990; Flick, 1998; Vayssieres et al., 2000; Urban et al., 2002). Os modelos de classificao em rvore so tcnicas ainda pouco utilizadas na ecologia e representam uma alternativa no paramtrica a outras tcnicas estatsticas. Entre as vantagens dos modelos em rvore destacam-se: a flexibilidade para lidar com variveis numricas e categricas, a facilidade de interpretao e a possibilidade de explorar dados no lineares e interaes complexas entre variveis (DeAth et al., 2000). As rvores de deciso constituem modelos conceituais dos padres ou processos na paisagem. Um benefcio da utilizao dessa estratgia a formalizao do modelo, que fora o pesquisador a ser especfico sobre as suas idias, orientando-o na coleta de dados. A amostragem de uma rvore de deciso pode ser estruturada em um sistema de informaes geogrficas, por meio da transcrio da combinao das condies que definem o hbitat. Depois de mapeadas, essas condies

podem ser sub-amostradas por meio da utilizao de outro mtodo de amostragem (Urban, 2002). O presente trabalho tem como objetivo demonstrar a utilizao da classificao em rvore para a estimativa das reas de ocorrncia potencial de trs espcies de primatas da rea da Estao Ecolgica de Jata e da Estao Experimental de Luiz Antnio. O modelo estatstico foi desenvolvido procurando estabelecer as relaes entre os pontos de localizao das espcies e as combinaes das variveis ambientais disponibilizadas em um banco de dados georreferenciado, resultando no mapeamento, na paisagem, das relaes ambientais estatisticamente definidas.

MATERIAL

E

M TODOS

rea de estudo A rea de estudo compreende a Estao Ecolgica de Jata (EEJ) e a Estao Experimental de Luiz Antnio (EELA), localizadas no municpio de Luiz Antnio, na regio Nordeste do Estado de So Paulo, entre as coordenadas 2130 e 2140 de latitude Sul e 4740 e 4750 de longitude Oeste (Figura 1). Com a denominao de

FIGURA 1 Localizao da Estao Ecolgica de Jata (EEJ) e da Estao Experimental de Luiz Antnio (EELA) (Modificado de Pires, 2000).

MEGADIVERSIDADE | Volume 3 | N 1-2 | Dezembro 2007

Paese, Dornelles, Santos & Pires |

15

Parque Estadual de Jatai, esta rea foi objeto de um plano de manejo direcionado conser vao da biodiversidade no contexto regional (Pires, 2000). A rea se destaca por constituir um dos poucos remanescentes da vegetao nativa, suficientemente extensa para abrigar uma grande variedade de ecossistemas (Cavalheiro et al., 1990) e uma grande diversidade de espcies, algumas das quais ameaadas de extino no Estado de So Paulo (Talamoni, 1996; Dalmolin, 1999; Dias, 2000; Dornelles, 2000, Talamoni et al., 2000; Mantovani, 2001). Na rea estudada, a vegetao nativa composta por diferentes tipos fisionmicos de Cerrado e tambm pelas matas semidecdua, ciliar e de galeria. O histrico de perturbaes antrpicas parece ser o principal fator causador dos padres espaciais da vegetao na rea. Procedimentos experimentais ESPCIES E VARIVEIS AMBIENTAIS As espcies de primatas usadas no desenvolvimento deste trabalho, o sau, Callicebus nigrifrons (Spix, 1823), o bugio, Alouatta caraya (Humboldt, 1812), e o macaco-prego, Cebus nigritus (Goldfuss, 1809), foram anteriormente estudadas em termos da estimativa do tamanho populacional, da anlise da utilizao do hbitat e do mapeamento de sua distribuio para a rea de estudo em questo (Dornelles, 2000). Apesar de outros estudos terem relacionado a ocorrncia de espcies a variveis ambientais (variveis da paisagem) na EEJ e EELA (Talamoni, 1996; Dalmolin, 1999; Dias, 2000; Motta-Junior, 2000; Motta-Junior & Alho, 2000; Talamoni et al., 2000), somente o estudo de Dornelles (2000) incluiu informaes explcitas sobre a distribuio das espcies, tendo sido, por esse motivo, utilizado como base para a realizao deste estudo. No presente trabalho, as seguintes variveis ambientais foram utilizadas para modelar as exigncias dessas espcies com relao ao ambiente: hipsometria, clinografia, aspecto (grau de exposio da rampa), ndice de convergncia topogrfica (ICT), cobertura da terra, distncia das reas antrpicas, distncia dos corpos dgua, distncia das estradas principais, e densidade de estradas. Estas variveis foram selecionadas por estarem disponibilizadas no acervo cartogrfico do Laboratrio de Anlise e Planejamento Ambiental (LAPA) da UFSCar, bem como por serem consideradas potencialmente importantes como preditoras diretas da distribuio das espcies de primatas ou de espcies vegetais, sendo, neste caso, consideradas preditoras indiretas da distribuio das espcies de primatas.

No banco de dados digital do LAPA (BD-Jata Pires, 1994) foram obtidas as seguintes camadas de informao (layers): o modelo digital de elevao (MDE) e os mapas de hidrografia e de localizao de estradas na rea de estudo, digitalizados com base nas cartas topogrficas do IBGE em escala 1:50.000 (Pires, 2000). Com base no modelo digital de elevao (MDE), foram derivadas outras quatro variveis topogrficas: hipsometria, clinografia, aspecto e ndice de convergncia topogrfica. De acordo com Moore et al. (1991), a estrutura e a composio da vegetao esto freqentemente relacionadas a estas variveis, as quais refletem as condies climticas locais e as condies edficas na paisagem. A hipsometria um determinante da distribuio da maioria das espcies, estando diretamente relacionada temperatura e precipitao, agindo como um substituto a estas duas variveis, difceis de serem estimadas (Moore et al., 1991). A clinografia um dos ndices topogrficos mais freqentemente calculados para a anlise ambiental. Ela afeta o fluxo e o tempo de residncia da gua ou da umidade na paisagem. O aspecto a direo da declividade e fornece informaes sobre incidncia solar, condies trmicas e exposio de diferentes locais. O ndice de convergncia topogrfica (ICT) um ndice do acmulo relativo da umidade na paisagem (Wolock, 1993), medindo a tendncia da gua de superfcie acumular-se ou no em diferentes locais. O ICT calcula a rea morro acima que contribui com o fluxo de gua para determinado local e a declividade deste local. Seu clculo realizado pela expresso ln (a/tan b), onde a a rea de contribuio morro acima e tan b a declividade local. Altos valores do ICT representam reas para onde h grande probabilidade da gua convergir (canais de crregos), enquanto que valores inferiores representam reas em que a probabilidade da gua convergir ou se acumular baixa (topo de morros). O ndice de convergncia topogrfica foi calculado usando o modelo digital de elevao e uma srie de comandos do programa ARC/Info (ESRI, 2000) e programas escritos na linguagem FORTRAN de programao. O clculo do ICT foi efetuado de acordo com os procedimentos definidos por Wolock (1993). O mapa de cobertura da terra foi derivado de imagens do satlite Landsat TM5 datadas de 1997 e 1998. Estas imagens foram classificadas em 18 categorias: rea antrpica (rea contendo infra-estrutura rural), campo sujo, capoeira, capoeiro, cerrado alto, cerrado alto aberto, cerrado baixo, plantao de Eucalyptus com sub-bosque de vegetao de cerrado, plantao de Eucalyptus sp., mata ciliar, mata de galeria, mata de

MEGADIVERSIDADE | Volume 3 | N 1-2 | Dezembro 2007

16 | Modelos de classificao em rvore para a localizao de reas de ocorrncia potencial de espcies

galeria em regenerao, mata semidecdua, mata semidecdua em regenerao, mata de transio baixa, plantao de Pinus sp. e rea de vrzea e gua, que inclui reservatrios, lagoas marginais, lagos, crregos e rios (Dornelles, 2000). A distncia das reas antrpicas, a distncia dos corpos dgua e a distncia das estradas principais foi calculada no programa ARC/Info (ESRI, 2000), com base na conduo de uma anlise de proximidade. Para cada uma das caractersticas acima descritas foi derivada uma superfcie contnua em que o valor de cada pixel representa a distncia euclidiana da rea antrpica, do corpo dgua ou da estrada mais prxima. A densidade de estradas foi calculada para cada classe de cobertura da terra pela interseco do mapa de localizao de estradas secundrias com o arquivo de uso e cobertura da terra. Desta forma, foi calculado o comprimento total das estradas em cada regio, delimitada por um determinado tipo de uso ou cobertura da terra. A densidade de estradas foi calculada dividindo o comprimento total das estradas em cada regio, por sua rea em m2. A METODOLOGIA DA ANLISE DE CLASSIFICAO E REGRESSO POR RVORE Para a obteno do mapa da ocorrncia potencial das espcies de primatas foi utilizado um modelo de classificao por rvore com o auxlio do pacote estatstico SPSS- Answer Tree e do SIG ARC/Info (ESRI, 2000). Diferentemente dos modelos lineares convencionais, que utilizam relaes lineares entre as variveis preditoras (x) e a varivel resposta (y), os modelos de anlise e regresso por rvore dividem o conjunto dos dados em grupos hierrquicos, os quais apresentam diferentes valores da varivel resposta. Alm disso, em modelos de regresso linear as excees regra preditora dos valores de y aparecem como resduos, enquanto que nos modelos de regresso por r vore as excees s regras preditoras so caracterizadas mais explicitamente (Breiman et al., 1984). Existem pelo menos trs tcnicas de classificao e regresso por rvore que diferem quanto ao mtodo empregado para a diviso do conjunto de dados. Breiman et al. (1984) sugerem que, para testar efetivamente a preciso do modelo, mais de uma tcnica deve ser utilizada. Neste estudo, foram aplicadas duas tcnicas para a anlise de classificao e regresso por rvore: a tcnica CART (Classification And Regression Trees) e CHAID (Chi-Square Automatic Iterative Detection). A tcnica CART divide os dados repetidamente e se-

qencialmente, de forma que os subgrupos resultantes de cada diviso apresentam entre si a maior heterogeneidade possvel e a maior homogeneidade interna. Essa tcnica utiliza um modelo de classificao quando a varivel resposta y categrica e um modelo de regresso quando a varivel resposta numrica. Neste trabalho, a varivel resposta foi categorizada como bugio, sau, prego ou acaso. Portanto, foi utilizado um modelo de classificao por rvore. Diferentemente da tcnica CART, que permite apenas parties binrias do conjunto de dados, a tcnica CHAID permite a sua diviso em dois ou mais grupos por vez. Esta tcnica baseada em testes Qui-Quadrado (x2), os quais so aplicados seqencialmente. Aps cada aplicao, a varivel preditora que apresenta a maior associao com a varivel resposta escolhida at que no ocorra mais uma associao significativa entre as variveis preditora e resposta. Modelos de distribuio de espcies geralmente utilizam dois conjuntos de dados, um contendo amostras dos locais onde a espcie foi observada (presena) e o outro contendo amostras de localizaes onde a espcie no foi encontrada (ausncia). Estes modelos representam o maior contraste das relaes entre a espcie e o seu hbitat. A hiptese nula testada nestes casos a de que os dois conjuntos de dados representam amostras equivalentes em um universo maior de hbitats disponveis. Outra possibilidade a utilizao de conjuntos de dados com amostras dos locais onde a espcie foi observada (presena) e com pontos distribudos ao acaso, representando amostras dos tipos de hbitat disponveis. A hiptese nula testada nestes casos a de que a espcie no apresenta preferncias por tipos de hbitat distintos, ou seja, ela utiliza diferentes hbitats na proporo em que eles so encontrados. No presente trabalho, para a aplicao dos testes, foram amostradas no SIG ARC/Info todas as variveis ambientais nos locais precisos onde as espcies foram observadas em campo. Para um nmero igual de localizaes de cada animal foram amostrados pontos com localizao determinada ao acaso. Nesta etapa, a varivel resposta foi categorizada como espcie ou acaso. Esse procedimento permitiu diferenciar as condies ambientais nos pontos onde as espcies foram observadas daquelas dos pontos cuja distribuio aleatria. Procurou-se assim, identificar preferncias da espcie por diferentes tipos de hbitat. As observaes referentes a cada espcie foram analisadas, separadamente, usando a tcnica CART e CHAID.

MEGADIVERSIDADE | Volume 3 | N 1-2 | Dezembro 2007

Paese, Dornelles, Santos & Pires |

17

Posteriormente s anlises, foram aplicados testes de validao cruzada, com o objetivo de estimar o erro ou taxa de m-classificao (m.c.) de cada modelo. Os testes de validao cruzada dividem aleatoriamente o conjunto de dados em sub-amostras, utilizadas para verificar a probabilidade de que um de seus elementos seja classificado erroneamente. A mdia dessa probabilidade para todas as amostras a taxa de m-classificao (Breiman et al., 1984). A leitura das rvores foi feita da raiz em direo aos ns terminais. As regras preditoras das relaes entre as espcies e as variveis ambientais que apresentaram as menores taxas de m-classificao foram projetadas na paisagem por meio de scripts escritos na linguagem macro do SIG ARC/Info. Este procedimento teve como objetivo localizar, na rea de estudo, outros locais com as mesmas combinaes das variveis ambientais em que as espcies foram localizadas.

R ESULTADOSNa rea que compreende a EEJ e a EELA, a altitude varia entre 515 e 852 metros, estando as reas mais altas localizadas a nordeste e as mais baixas no limite da EEJ com o rio Mogi-Guau (Figura 2a). As reas de maior declividade atingem 81 graus e esto localizadas na direo nordeste, na Estao Experimental (Figura 2b). Os valores do aspecto (Figura 2c) indicam que a maior extenso do relevo na rea de estudo est voltada para a direo sudoeste. Os valores do ndice de convergncia topogrfica variaram de 52 a 230, com os valores mais altos localizados em regies planas prximas aos crregos, e os mais baixos nas regies mais elevadas e com maior declividade (Figura 2d). A rea de estudo apresenta pequena variao altimtrica e, por esse motivo, os ndices topogrficos derivados do modelo digital de elevao no apresentam grande variao.

Valor 852 m 515 m

Valor

(a) Altimetria

81 graus 0 grau

(b) Declividade

Valor 359 graus 0 grau 6 3 0

Valor

(c) Aspecto6

230 52

(d) ndice de convergncia topogrfica (ICT)

N12 Km

FIGURA 2 Variveis topogrficas utilizadas nos modelos de classificao em rvore: (a) altimetria; (b) declividade; (c) aspecto; e (d) ndice de convergncia topogrfica (ICT).

MEGADIVERSIDADE | Volume 3 | N 1-2 | Dezembro 2007

18 | Modelos de classificao em rvore para a localizao de reas de ocorrncia potencial de espcies

Valor 6734 m 0m

(a) Distncia das reas antrpicas

Valor 0,027096 m/m2 0,000000 m/m2

(d) Densidade de estradas

Valor 2461 m 0m

(b) Distncia dos corpos dgua

(e) Uso da Terrarea antrpica Campo sujo Capoeira Capoeiro Cerrado alto Cerrado alto aberto Cerrado baixo Eucalyptus com sub-bosque de cerrado Silvicultura - Eucalyptus Mata Ciliar Mata de galeria Mata de galeria em regenerao Mata semidecdua Mata semidecdua em regenerao Mata de transio baixa Silvicultura - Pinus Vrzea gua

Valor 2062 m 0m

(c) Distncia das estradas principais

N6 3 0 6 12 Km

FIGURA 3 Variveis ambientais utilizadas nos modelos de classificao em rvore: (a) distncia das reas antrpicas; (b) distncia dos corpos dgua; (c) distncia das estradas principais; (d) densidade de estradas; e (e) uso da terra.

MEGADIVERSIDADE | Volume 3 | N 1-2 | Dezembro 2007

Paese, Dornelles, Santos & Pires |

19

A distncia de qualquer local para a rea urbanizada mais prxima variou de 0 a 6734 m (Figura 3a). O ponto mais distante dos corpos dgua est localizado a 2461 m do crrego mais prximo (Figura 3b). As reas mais isoladas (Figura 3c) esto localizadas a 2062 m de qualquer estrada principal. A densidade de estradas pode variar de 0m/m2 a 0,02796m/m2. rea antrpica o tipo de uso do solo em que se configura a maior densidade de estradas (Figura 3d). As diferentes categorias de cobertura da terra identificadas na rea de estudo (Dornelles, 2000) esto representadas na Figura 3e. Os modelos que apresentaram as menores taxas de m-classificao (m.c.) para as trs espcies so resultados da anlise do conjunto de dados pela tcnica CART (Figuras 4, 5 e 6). Entre as espcies estudadas, o modelo resultante da anlise de classificao em rvore para o bugio foi o que apresentou a menor taxa de m-classificao. A anlise individual dos dados dessa espcie resultou em uma taxa de m-classificao de 27% para a tcnica CART e 38% para a tcnica CHAID. O bugio est mais associado aos ambientes de mata ciliar, mata semidecdua, mata semidecdua em regenerao, e mata de transio baixa (Figura 4). Os modelos de classificao em rvore do sau apresentaram taxas de m-classificao de 37% para a tcnica CART e de 47% para a tcnica CHAID. De acordo com as regras de predio da localizao desta espcie, ela ocorre preferencialmente em reas como campo sujo, cerrado alto, Eucalyptus com sub-bosque de cerrado em regenerao, mata ciliar, mata de galeria, mata de galeria em regenerao, mata semidecdua, ou mata de

transio baixa, e em reas em que a distncia aos corpos dgua menor ou igual a 1598 m e a densidade de estradas menor ou igual a 0,00022 m/m2. A espcie pode tambm ocorrer nas reas ocupadas pelos mesmos tipos de cobertura da terra, cuja densidade de estradas, porm, maior que 0,00022 m/m2 se a altitude for maior que 604 m; ou em reas ocupadas pelas mesmas coberturas da terra, se a distncia aos corpos dgua for maior que 1830 m (Figura 5). Considerando-se que a rea de estudo apresenta uma pequena variao em sua altitude, a hipsometria no deveria ser um fator limitante na distribuio de nenhuma das espcies estudadas. Entretanto, ela aparece no modelo de classificao por rvore, provavelmente por estar relativamente correlacionada com outras variveis que explicariam melhor a distribuio dos primatas, como a distncia aos corpos dgua (r = 0,317 e p < 0,01) e a distncia das estradas principais (r = 0,588 e p < 0,01). As anlises de classificao em rvore para o macaco-prego mostram que ele est mais associado com dois tipos de cobertura da terra: cerrado alto e mata semidecdua (Figura 6). Entretanto, estes resultados devem ser utilizados com cautela, uma vez que para esta espcie os resultados obtidos foram os menos satisfatrios. As taxas de m-classificao para os modelos em rvore do prego foram de 63% (tcnica CART) e 78% (tcnica CHAID). Esses resultados indicam que o nmero de observaes para esta espcie foi insuficiente para determinar, por meio da anlise de classificao em rvore, relaes precisas e detalhadas entre as mesmas e o ambiente.

Categorias Acaso Bugio Total

% 50,00 50,00 (100,00)

n 18 18 36

Mata Mata Mata Mata Uso da terra

Ciliar Semidecdua Semidecdua em regenerao de Transio Baixa

Categorias Acaso Bugio Total

% 6,67 93,33 (41,67)

n 1 14 15

rea antrpica Campo sujo Capoeiro Cerrado alto Cerrado alto aberto Eucalyptus com sub-bosque de cerrado Eucalyptus Mata de Galeria em regenerao Pinus

Categorias Acaso Bugio Total

% 80,95 19,05 (58,33)

n 17 4 21

m.c. = 27%

FIGURA 4 Modelo de classificao em rvore da distribuio do bugio (Alouatta caraya) na rea de estudo.

MEGADIVERSIDADE | Volume 3 | N 1-2 | Dezembro 2007

20 | Modelos de classificao em rvore para a localizao de reas de ocorrncia potencial de espcies

Categorias % n Sau 48,51 65 Acaso 51,49 69 Total (100,00) 134 Uso da terra Campo sujo Cerrado alto Eucalyptus com sub-bosque de cerrado Mata Ciliar Mata de Galeria Mata de Galeria em regenerao Mata Semidecdua Mata de Transio Baixa Vrzea rea antrpica Capoeira Capoeiro Cerrado alto aberto Cerrado baixo Eucalyptus Mata Semidecdua em regenerao Pinus Categorias % Sau 7,32 Acaso 92,68 Total (30,60) n 3 38 93

Categorias % Sau 66,67 Acaso 33,33 Total (69,40)

n 62 31 93

Distncia dos corpos dgua > 1.598 m Categorias % Sau 33,33 Acaso 66,67 Total (6,96) n 4 8 12

Distncia dos corpos dgua < = 1.830 m Categorias % Sau 0,00 Acaso 100,00 Total (3,73) n 0 5 5 > 1.830 m Categorias % Sau 57,14 Acaso 42,86 Total (5,22) n 4 3 7 < = 1.598 m Categorias % Sau 71,60 Acaso 28,40 Total (60,45) n 58 23 81

Densidade de estradas < = 0,00022 m/m 2 Categorias % Sau 83,72 Acaso 16,28 Total (32,09) Aspecto < = 201,5 graus Categorias % Sau 63,64 Acaso 36,36 Total (8,21) n 7 4 1 > 201,5 graus Categorias % Sau 90,63 Acaso 9,38 Total (23,88) n 29 3 32 < = 604 m Categorias % Sau 43,48 Acaso 56,52 Total (17,16) n 10 13 23 n 36 7 43 > 0,00022 m/m2 Categorias % Sau 57,89 Acaso 42,11 Total (28,36) Hipsometria > 604 m Categorias % Sau 80,00 Acaso 20,00 Total (11,19) n 12 3 15 n 22 16 38

m.c. = 37%

FIGURA 5 Modelo de classificao em rvore para o sau (Callicebus nigrifrons) na rea de estudo.

MEGADIVERSIDADE | Volume 3 | N 1-2 | Dezembro 2007

Paese, Dornelles, Santos & Pires |

21

Categorias Acaso Prego Total

% 47,37 52,63 (100,00)

n 9 10 19

Uso da terra Cerrado alto Mata Semidecdua Cerrado baixo Eucalyptus com sub-bosque de cerrado Eucalyptus Pinus Vrzea % 28,57 71,43 (73,68) Clinografia < = 1,5 graus Categorias Acaso Prego Total % 50,00 50,00 (42,11) n 4 4 8 > 1,5 graus Categorias Acaso Prego Total % 0,00 100,00 (31,58) n 0 6 6 m.c. = 63% n 4 10 14 Categorias Acaso Prego Total % 100,00 0,00 (26,32) n 5 0 5

Categorias Sau Prego Total

FIGURA 6 Modelo de classificao em rvore da distribuio do macaco-prego (Cebus nigritus) na rea de estudo.

Outros locais que apresentam as mesmas combinaes de condies ambientais definidas pelos modelos de classificao por rvore so mostrados na Figura 7. Estas reas representam os locais em que h maior probabilidade das espcies de primatas serem encontradas: menor para o bugio e maior para o sau. Comparandose as reas de maior probabilidade de ocorrncia das espcies estudadas com o zoneamento proposto no plano de manejo da EEJ e da EELA (Pires, 2000), foi possvel verificar que a rea de maior probabilidade de ocorrncia do macaco-prego (Cebus apella) est contemplada na zona intangvel, enquanto que as reas de maior probabilidade de ocorrncia do sau (Callicebus personatus nigrifrons) e do bugio (Alouatta caraya) esto contempladas nas zonas intangveis e de recuperao. A provvel ocorrncia dessas duas espcies na zona de recuperao ressalta a necessidade da recuperao natural do ecossistema, por meio dos processos de sucesso ecolgica ou de aes de recuperao, como propostas por Pires (2000).

D ISCUSSOAmbas as tcnicas utilizadas para o desenvolvimento do modelo em rvore mostraram-se pouco adequadas para a anlise de conjuntos de dados cujo nmero de observaes pequeno, como ocorre neste trabalho: 65 para o sau, 18 para o bugio e 10 para o prego. Na rea estudada, o pequeno nmero de indivduos destas espcies pode estar relacionado principalmente com as atividades de caa, com queimadas e com a fragmentao de habitats pela presena de um grande nmero de estradas (Dornelles, 2000). De forma geral, o poder analtico dos modelos de distribuio de espcies est diretamente relacionado ao nmero de observaes. A reduo do nmero de reas amostradas aumenta a probabilidade de que variveis pouco significativas sejam includas e de que variveis mais relevantes para explicar a ocorrncia das espcies sejam excludas do modelo (Vaughan & Ormerod, 2003; Miller et al., 2004). Estudos consideram

MEGADIVERSIDADE | Volume 3 | N 1-2 | Dezembro 2007

22 | Modelos de classificao em rvore para a localizao de reas de ocorrncia potencial de espcies

Bugio Sau Prego

Localizaes Bugio

m.c. = 27%

Localizaes Sau

m.c. = 37%

Localizaes Prego

m.c. = 63%

N6 3 0 6 12 Km

FIGURA 7 Localizao das trs espcies de primatas (Dorneles, 2000), projeo das reas de maior probabilidade de localizao destas espcies na rea de estudo e taxas de m classificao (m.c.) dos modelos de classificao em rvore.

satisfatrio o nmero mnimo de 10 observaes para cada varivel preditora empregada (Vaughan & Ormerod, 2003). Como resultado do pequeno nmero de observaes, os modelos para o bugio, o sau e o prego (Figuras 4, 5 e 6) detectaram um nmero pequeno de variveis preditoras, sendo que a varivel cobertura da terra foi a nica includa nos modelos do bugio e do prego. A cobertura da terra foi a varivel mais importante para explicar as exigncias das trs espcies de macacos com relao ao ambiente. Entretanto, as espcies consideradas parecem ser pouco sensveis a esta varivel. Todas ocorrem em ambientes fragmentados e secundrios e so generalistas quanto utilizao do habitat (Mittermeier et al., 1988). Um maior detalhamento de aspectos estruturais e florsticos da vegetao poderiam facilitar a interpretao das relaes entre os

diferentes tipos de cobertura do solo e as espcies de primatas. O ICT, o aspecto, e a distncia das reas antrpicas no foram associados com a ocorrncia das espcies em nenhum dos modelos. Como mencionado, provavelmente, isto se deve ao nmero reduzido de observaes analisadas. Outro fator a ser considerado que as variveis ambientais utilizadas, em especial os ndices topogrficos, representam variveis antropognicas da paisagem, isto , variveis com baixa resoluo, que podem ser facilmente mapeadas ou reconhecidas pelos seres humanos (Milne et al., 1989), mas que no representam aspectos relevantes da biologia das espcies, como por exemplo, a localizao de algum item importante da dieta alimentar das mesmas. A falta do mapeamento preciso de variveis biologicamente significantes, as quais tm freqentemente extenses

MEGADIVERSIDADE | Volume 3 | N 1-2 | Dezembro 2007

Paese, Dornelles, Santos & Pires |

23

muito pequenas para serem representadas em bancos de dados com grandes escalas, representa uma fonte potencial de erro nos modelos preditivos da distribuio de espcies (Lynn et al., 1995). Alm disso, como mediadores entre as condies edficas e micro-climticas, os ndices topogrficos provavelmente refletem mais satisfatoriamente as exigncias das espcies vegetais do que as das espcies de primatas com relao ao ambiente. O uso de variveis que apresentam relaes indiretas com a distribuio de espcies dificulta a interpretao dos modelos de distribuio. Apesar disso, estas variveis so comumente utilizadas por serem facilmente derivadas de imagens de sensoriamento remoto e por estarem prontamente disponveis (Miller et al., 2004). Os modelos de distribuio extrapolam da ocorrncia das espcies, com base no entendimento das suas relaes com o ambiente. Existem disparidades entre as escalas refinadas em que os estudos ecolgicos so conduzidos e as escalas mais amplas em que realizado o planejamento para a conservao. Neste sentido, h uma grande expectativa de que os modelos de distribuio possam substituir os dados sobre a ocorrncia de espcies, contornando as dificuldades logsticas da obteno destes dados. Contudo, como demonstra o presente trabalho, aspectos metodolgicos importantes devem ser considerados para o desenvolvimento de modelos satisfatrios. Um grande nmero de programas de computador tem sido desenvolvido com a finalidade de gerar mapas da ocorrncia potencial de espcies, com base em um conjunto de variveis espacialmente representadas. Ao mesmo tempo, os modelos disponveis e suas potenciais fontes de erro tm sido avaliados por diferentes autores (Loiselle et al., 2003; Vaughan & Ormerod, 2003, entre outros). Mapas da presena/ausncia de espcies geralmente so apresentados como resultados definitivos dos modelos de distribuio. Contudo, uma maior importncia deve ser dada ao conjunto de hipteses sobre as relaes entre a espcie e o ambiente desvendado pelo modelo. Estas hipteses podem ser testadas posteriormente, direcionando a amostragem da paisagem. O conjunto de hipteses sobre a distribuio das espcies est explicitamente definido na estrutura do modelo de classificao em rvore, podendo ser diretamente mapeadas em um sistema de informaes geogrficas. Isto os torna especialmente teis para o entendimento da combinao de condies que definem a distribuio de espcies em grandes reas (Urban et al., 2002).

R EFERNCIAS B IBLIOGRFICASBreiman, L., J.H. Friedman, R.A. Olshen & C.J. Stone. 1984. Classification and regression trees. Wadsworth and Brooks/ Cole, Monterey, CA. Brooks, T., G.B. da Fonseca & A.S.L. Rodrigues. 2004. Species data and conservation p lanning. Conservation Biology 18: 1682-1688. Cavalheiro, F., M.V.R. Ballester, A.V. Krusche, S.A. Melo, J.L. Waechter, C.J. Da Silva, M.C. Drienzo, M. Suzuki, R.L. Bozelli, T.P. Jesus & J.E. Santos. 1990. Propostas preliminares referentes ao plano de zoneamento e manejo da Estao Ecolgica de Jata, Luiz Antnio, SP. Acta Limnologica Brasiliensia 3: 951-968. Dalmolin, P.C. 1999. Composio e histria natural da comunidade de serpentes da Estao Ecolgica de Jata e municpio de Luiz Antnio, SP. Dissertao de Mestrado. Universidade Federal de So Carlos, So Carlos. Davis, F.W. & S. Goetz. 1990. Modeling vegetation pattern using digital terrain data. Landscape Ecology 4: 69-80. DeAth, G. & K.E. Fabricius. 2000. Classification and Regression Trees: a powerful yet simple technique for ecological data analysis. Ecology 81: 3178-3192. Dias, M.M. 2000. Avifauna das Estaes Ecolgica de Jata e Experimental de Luiz Antnio, So Paulo, Brasil. In: J.E. Santos & J.S.R. Pires (eds). Estao Ecolgica de Jata. pp. 285301. So Carlos: RIMA, v. 1. Dornelles, S.S. 2000. Censo e anlise de hbitat para conservao e manejo de primatas (Estaes Ecolgica de Jata e Experimental de Luiz Antnio, SP). Dissertao de Mestrado. Universidade Federal de So Carlos, So Carlos. Environmental Systems Research Institute (ESRI). 2000. Inc. ArcGIS, Version 9.0. Redlands, CA. Flick, P. 1998. A multiple scale approach to reserve site selection. Dissertao de Mestrado. Nicholas School of the Environment, Duke University, Durham. Loiselle, B.A., C.A. Howell, C.H. Graham, J.M. Goerck, T. Brooks, K.G. Smith & P.H. Williams. 2003. Avoiding pitfalls of using species distribution models in conservation planning. Conservation Biology 17: 1591-1600. Lynn, H., C.L. Mohler, S.D. Degloria & C.E. McCulloch. 1995. Error assessment in decision-tree models applied to vegetation analysis. Landscape Ecology 10: 323-335. Mantovani, J.E. 2001. Telemetria convencional e via satlite na determinao das reas de vida de trs espcies de carnvoros da regio nordeste do Estado de So Paulo. Tese de Doutorado. Universidade Federal de So Carlos, So Carlos. Miller, J.R., M.G. Turner, E. Smithwick, L. Dent & E.H. Stanley. 2004. Spatial Extrapolation: the science of predicting ecological patterns and processes. Bioscience 54: 310-320. Milne, B.T., K.M. Johnston & R.T.T. Forman.1989. Scaledependent proximity of wildlife habitat in a spatially-neutral Bayesian model. Landscape Ecology 2: 101-110. Mittermeier, R.A., A.B. Rylands, A.F. Coimbra-Filho & G.A.B. Fonseca. 1988. Ecology and Behavior of Neotropical Primates. World Wildlife Fund, Washington D.C. Moore, D.M., B.G. Lee & S.M. Davey. 1990. A new method for predicting vegetation distributions using decision tree analysis in a geographic information system. Environmental Management 15: 59-71.

MEGADIVERSIDADE | Volume 3 | N 1-2 | Dezembro 2007

24 | Modelos de classificao em rvore para a localizao de reas de ocorrncia potencial de espcies

Moore, I.D., R.B. Gryson & A.R. Ladson. 1991. Digital terrain modeling: a review of hydrological, geomorphological, and biological applications. Hydrological Processes 5: 3-30. Motta-Junior, J.C. 2000. Variao temporal e seleo de presas na dieta do lobo-guar, Chrysocyon brachyurus (Mammalia: Canidae), na Estao Ecolgica de Jata, Luiz Antnio, SP. In: J.E. Santos & J.S.R. Pires (eds). Estao Ecolgica de Jata. pp. 331-346. So Carlos: RIMA, v. 1. Motta-Junior, J.C. & C.J.R. Alho, 2000. Ecologia alimentar de Athene cunicularia e Tyto alba (Aves: Strigiformes) nas Estaes Ecolgica de Jata e Experimental de Luiz Antnio, SP. In: J.E. Santos & J.S.R. Pires (eds). Estao Ecolgica de Jata. pp. 303-315. So Carlos: RIMA, v. 1. Pires, A.M.Z.C.R. 2000. Diretrizes para a conservao da biodiversidade em planos de manejo de unidades de conservao. Caso de estudo: Estao Ecolgica de Jata e Estao Experimental de Luiz Antnio (Luiz Antnio - SP). Tese de Doutorado. Universidade Federal de So Carlos, So Carlos. Talamoni, S.A. 1996. Ecologia de uma comunidade de pequenos mamferos da Estao Ecolgica de Jata, municpio de Luiz Antnio, SP. Tese de Doutorado. Universidade Federal de So Carlos, So Carlos.

Talamoni, S.A., J.C. Motta-Junior & M.M. Dias. 2000. Fauna de mamferos da Estao Ecolgica de Jata e da Estao Experimental de Luiz Antnio, So Paulo, Brasil. In: J.E. Santos & J.S.R. Pires (eds). Estao Ecolgica de Jata. pp. 317-327. So Carlos: RIMA, v. 1. Urban, D.L. 2002. Strategic monitoring of landscapes for natural resource management. In: J.L. Liu & W.W. Taylor (eds). Integrating landscape ecology into natural resource management. pp. 294-311. Cambridge University Press, Cambridge, Reino Unido. Urban, D.L., S. Goslee, K. Pierce & T. Lookingbill. 2002. Extending community ecology to landscapes. Ecoscience 9: 200-212. Vaughan, I.P. & S.J. Ormerod. 2003. Improving the quality of distribution models for conservation by addressing shortcomings in the field collection of training data. Conservation Biology 17: 1601-1611. Vayssieres, M.P., R.E. Plant & B.H. Allen-Diaz. 2000. Classification trees: an alternative non-parametric approach for predicting species distributions. Journal of Vegetation Science 11: 679-694. Wolock, D. 1993. Simulating the variable-source-area concept of streamflow generation with the watershed model TOPMODEL. Water-Resources Report, USGS.

MEGADIVERSIDADE | Volume 3 | N 1-2 | Dezembro 2007

O uso de regresso logstica para espacializao de probabilidadesEDUARDO M. VENTICINQUE1* JULIANA STROPP CARNEIRO2 MARCELO PAUSTEIN MOREIRA2 LEANDRO FERREIRA31 2 3

Wildlife Conservation Society, Programa de Conservao Andes-Amaznia, Amazonas, Brasil. Instituto Nacional de Pesquisas da Amaznia INPA, Amazonas, Brasil. Museu Paraense Emilio Goeldi, Par, Brasil. * e-mail: [email protected]

RESUMONeste trabalho discute-se o uso de modelos de regresso logstica em anlises espaciais, fazendo uma breve introduo sobre regresses logsticas e usando estudos de casos da aplicao desta tcnica em estudos ecolgicos, utilizando aplicativos de Sistemas de Informao Geogrfica.

ABSTRACTIn this chapter we discussed the use of logistic regression models in spatial analyses, doing a brief introduction on logistic regression and your application in some study cases related to ecology studies using with tools the Geographic Information System.

I NTRODUOA regresso logstica vem sendo utilizada nas mais diversas reas da cincia. Este mtodo, assim como as regresses lineares e mltiplas, estuda a relao entre uma varivel resposta e uma ou mais variveis independentes. A diferena entre estas tcnicas de regresso se deve ao fato de que na regresso logstica as variveis dependentes esto dispostas em categorias, enquanto na regresso linear estas variveis so dados contnuos ou discretos. Outra diferena que na regresso logstica a resposta expressa por meio de uma probabilidade de ocorrncia, enquanto que na regresso simples obtm-se um valor numrico (Penha, 2002).

A estrutura do modelo logstico apropriada para analisar o comportamento de uma varivel dependente categrica. Geralmente, a regresso logstica realizada para dados binrios (Cox, 1970), entretanto, tambm pode ser aplicada a dados multinominais. Tipicamente, a varivel dependente binria e codificada como 0 (ausncia) ou 1 (presena); porm, pode ser multinominal, sendo codificada como um nmero inteiro, variando de 1 a k 1, onde k um nmero positivo qualquer. Embora a regresso logstica possa ser aplicada a qualquer varivel dependente categrica, ela utilizada com maior freqncia em anlises de dados binrios. Estes exemplos incluem a estimativa de probabilidade de ocorrncia de uma espcie emMEGADIVERSIDADE | Volume 3 | N 1-2 | Dezembro 2007

26 | O uso de regresso logstica para espacializao de probabilidades

funo de variaes na altitude ou da quantidade de chuva, a estimativa da probabilidade de que uma rea seja desflorestada em funo de sua distncia das estradas, rios ou sedes municipais, etc. De forma sucinta, podemos dizer que existem trs procedimentos distintos para manipular dados binrios, ordinais e nominais em regresso logstica. A escolha de qual mtodo utilizar depende do nmero de categorias e das caractersticas da varivel resposta, conforme mostra a Tabela 1.

assumido que y representa uma distribuio de probabilidades, ou quando simplesmente expresso como uma medida binria que estamos tentando predizer. Apesar da diferena entre os dois grficos, o modelo linear e o logstico so variantes um ao outro. Assumindo a varivel preditora (x), o modelo linear : y = xb + e, onde y um vetor de observaes, x uma matriz dos preditores, e e um vetor de erros. Enquanto que o modelo logstico :

TABELA 1 Tipos de varivel resposta. NMERO DE CATEGORIAS 2 3 ou + 3 ou +

y = exp ( xb + e)/ [1 + exp ( Xb + e)], onde y a probabilidade de ocorrncia de um evento, x uma matriz dos preditores, e e um vetor de erros.

TIPO Binria Ordinal* Nominal*

CARACTERSTICAS Dois nveis Ordenao natural de nveis Sem ordenao natural de nveis

(*) So variaes do estado multinominal ou politmico de uma varivel (adaptado de Penha, 2002).

Uma varivel binria aquela que aceita apenas dois nveis de resposta, como sim ou no. J uma varivel ordinal segue uma ordenao natural dos fenmenos ou eventos, como pequeno, mdio e grande, ou classificaes como ruim, regular, bom, ou excelente (ranks). A nominal, por sua vez, pode ter mais de trs nveis e no considera nenhuma ordenao. Um exemplo seria a classificao de algum objeto em azul, preto, amarelo e vermelho; ou a previso do tempo como ensolarado, nublado e chuvoso (Penha, 2002). Existem vrios tipos de estudos que se pode analisar com modelos logsticos. Estes incluem bioensaios, epidemiologia, experimentos clnicos, pesquisa de mercado, distribuio de espcies, etc. Neste trabalho ns vamos nos ater s aplicaes da regresso logstica dentro de um Sistema de Informao Geogrfica (SIG) com questes ligadas ecologia e conservao. A Figura 1 compara o modelo linear com o logstico binrio bsico, utilizando os mesmos dados. Note que o modelo linear prediz valores de y contnuos infinitamente. Assim, se a predio para compreenso das probabilidades, este modelo claramente imprprio. Alm disso, o modelo linear no se ajusta mdia de x para qualquer um dos valores da resposta. Geralmente no se consegue ajustar estes dados satisfatoriamente. Assim, podemos dizer que o modelo linear no apropriado para esta estrutura de dados. J o modelo logstico projetado para ajustar dados binrios, quando MEGADIVERSIDADE | Volume 3 | N 1-2 | Dezembro 2007

FIGURA 1 Modelos de regresso linear e logstica com dados binrios.

Venticinque, Carneiro, Moreira & Ferreira |

27

Coeficientes e constantes Podemos avaliar os coeficientes obtidos pela regresso logstica de forma parecida com a que fazemos em uma regresso linear. No entanto, sua interpretao diferente. O coeficiente da regresso logstica indica o quanto aumenta a probabilidade de ocorrncia de um evento para o aumento de uma unidade na varivel independente. O coeficiente pode ser positivo ou negativo. No caso de um coeficiente positivo, quanto maior for seu valor, maior ser o poder preditivo da varivel independente sobre a probabilidade de ocorrncia de um evento. No entanto, a probabilidade de 0 a 1 resultado de uma funo no linear da probabilidade de ocorrncia de um evento. muito importante lembrar o que quer dizer, em termos de interpretao, uma funo no linear. Na regresso linear o acrscimo (ou decrscimo) do valor de y em funo do acrscimo de x constante ao longo de toda escala de valores de x. J na regresso logstica isto no acontece, havendo reas onde essa mudana mais pronunciada e outras onde ela nem ocorre. As reas onde pequenas variaes nos valores de x causam grandes mudanas nos valores de y representam reas de maior probabilidade de mudana de estado da varivel y em funo de x. Na Figura 2 podemos visualizar o efeito da variao dos valores da constante e dos coeficientes sobre a curva de probabilidade estimada a partir de regresso logstica. O grfico da Figura 2a foi obtido somente com a troca dos valores da constante (intercepto) e podemos notar que as formas das curvas so exatamente as mesmas e a nica mudana sua localizao no eixo x. Em outras palavras, todo modelo de regresso logstica tem seus limites entre 0 e 1, s que muitas vezes estes limites esto fora do nosso intervalo de amostragem ou mesmo no so plausveis de acontecer, por exemplo, como valores negativos de distncia. Neste caso, no possvel visualizar em que intervalo de x as probabilidades alcanam valores prximos de 1. J na Figura 2b temos uma situao distinta, onde a alterao dos coeficientes com uma constante fixa causa mudanas evidentes na distribuio da probabilidade de ocorrer um evento em funo da mudana de valores no eixo x. Podemos notar que quanto maior o coeficiente, maior a mudana na probabilidade estimada em funo de mudanas no x. De forma simplificada, podemos dizer que o coeficiente modela a curva enquanto que a constante a localiza em funo do x.

(a)

(b)FIGURA 2 Modelos de regresso logstica obtidos com alteraes somente na constante (a) e no coeficiente (b).

Razo de chances (odds ratio) A razo de chances permite conhecer quais chances um evento tem de acontecer se, sob as mesmas condies, ele no acontecer. Ou seja, razo de chances uma medida de associao e expressa a aproximao do quanto mais provvel (ou improvvel) para o resultado estar presente entre aqueles com x = 1 do que entre aqueles com x = 0. Por exemplo, se y denota a presena ou ausncia de uma determinada espcie e x denota se a rea tem ou no tem floresta, o Odds = 2 indica que a presena daquela espcie duas vezes mais esperada em reas com floresta do que em reas sem floresta. Ou seja, a presena de floresta muito importante para aumentar a chance de ocorrncia daquela espcie. Outro exemplo, que talvez possa ser mais intuitivo, seria a razo de chances de ser atropelado toda vez que se atravessa uma avenida. Mesmo que voc

MEGADIVERSIDADE | Volume 3 | N 1-2 | Dezembro 2007

28 | O uso de regresso logstica para espacializao de probabilidades

atravesse a avenida e no seja atropelado, existia uma chance deste evento ocorrer, essa chance a razo de chances ou odds ratio. A razo de chances de resposta dada por p/(1-p) onde p a probabilidade de resposta, e a razo de chances o fator multiplicativo de mudana de estado de y quando a varivel independente aumenta uma unidade. O livro de Hosmer & Lemeshow (1989) contm maiores explicaes sobre a interpretao e forma de clculo das razes de chance e de seus intervalos de confiana. Estatstica de Likelihood-Ratio Uma vez definido o modelo, necessrio testar a sua validade. Em regresso logstica h uma srie de grficos, testes de ajuste, e outras medidas para assegurar a validade do modelo. Estas estatsticas permitem identificar as variveis que no se ajustam bem, ou que tm forte influncia sobre a estimativa dos parmetros. Uma das formas mais comuns de se avaliar o modelo como um todo, por meio da estatstica de LikelihoodRatio. Esta estatstica testa a hiptese de que todos os coeficientes, menos a constante, so iguais a 0. A significncia da estatstica de Likelihood-Ratio (LR) testada utilizando a distribuio do X2 com os graus de liberdade iguais ao nmero de variveis independentes no modelo, no incluindo a constante. O teste de Likelihood-Ratio, ou teste G, calculado utilizando o valor da estatstica de log likelihood do modelo saturado e do insaturado. Tipicamente, o modelo saturado contm o conjunto de variveis analisadas e o modelo insaturado omite um subconjunto selecionado, embora outras restries sejam possveis. A estatstica do teste duas vezes a diferena do Likelihood-Ratio do modelo saturado para o insaturado e testada com a distribuio do X2, sendo o grau de liberdade igual ao nmero de restries impostas. Se um modelo contm uma constante, podemos calcular um teste de Likelihood-Ratio da hiptese nula em que todos os coeficientes, exceto a constante, so iguais a 0. A frmula da estatstica G usada para testar o modelo a seguinte: G = 2*[LL(N)-LL(0)] Onde: LL(N) = log likelihood do modelo saturado (todas as variveis inclusas) LL(0) = log likelihood do modelo insaturado (somente a constante inclusa)

Quando fazemos essa subtrao, estamos olhando, simplesmente, o quanto as variveis esto causando mudanas nas probabilidades de ocorrncia de um evento e se essas mudanas so maiores que esperadas ao acaso. Para ilustrar o uso do teste de Likelihood-Ratio, considere o seguinte modelo: Presena de uma espcie = CONSTANTE + altitude + chuva + temperatura (saturado) Presena de uma espcie = CONSTANTE + altitude + chuva (insaturado) Podemos formular a hiptese nula de que a temperatura no contribui para explicar a variao do modelo e proceder ao teste desta forma. Suponha que para este exemplo os valores de G so 12,05 e 5,01, com 3 e 2 graus de liberdade para os modelos saturado e insaturado, respectivamente. Agora podemos entender a variao que explicada pela temperatura, entendendo quanto perdemos de poder de explicao ao removermos essa varivel do modelo. Isso pode ser realizado da seguinte forma: Efeito da temperatura = G (insaturado) G (saturado), com 3 2 graus de liberdade. Essa expresso fica assim: G= 12,05 5,01, com 1 grau de liberdade G= 7,04, gl=1 e p [GRID A] ([GRID A] + Constante) - > [GRID B] ([GRID B] .Exp) - > [GRID C] ([GRID C] + 1) - > [GRID D] ([GRID C] / [GRID D]) - > [GRID E] J para a equao da regresso logstica mltipla, sua espacializao feita com as operaes indicadas abaixo. ([GRID varivel contnua 1] * (coeficiente 1)) + ([GRID varivel contnua 2] * (coeficiente 2)) - > A ([GRID A] + Constante) - > [GRID B] ([GRID B] .Exp) - > [GRID C] ([GRID C] + 1) - > [GRID D] ([GRID C] / [GRID D]) - > [GRID E] Todas essas operaes podem ser realizadas a partir da funo MAP CALCULATOR do mdulo Spatial Analyst do ArcView 3.2.

MEGADIVERSIDADE | Volume 3 | N 1-2 | Dezembro 2007

Venticinque, Carneiro, Moreira & Ferreira |

37

FIGURA 7 Tabela de atributos do arquivo formato GRID da varivel dependente. Os pontos eram um arquivo que estava em formato vetorial que foi transformado para GRID. Os pixels em vermelho correspondem a pelo menos uma presena e os pixels em verde s ausncias.

(A)

(B)

(C)

Varivel contnua 117,852 - 126,889 108,815 - 117,852 99,778 - 108,815 90,741 - 99,778 81,704 - 90,741 72,667 - 81,704 63,63 - 72,667 54,593 - 63,63 45,556 - 54,593 Presena e ausncia 0 ausncia 1 presena

=Valores contnuos - presena 117,852 - 126,889 108,815 - 117,852 99,778 - 108,815 90,741 - 99,778 81,704 - 90,741 72,667 - 81,704 63,63 - 72,667 54,593 - 63,63 45,556 - 54,593 No Data

(A1)

(B1)

(C1)

Varivel contnua 117,852 - 126,889 108,815 - 117,852 99,778 - 108,815 90,741 - 99,778 81,704 - 90,741 72,667 - 81,704 63,63 - 72,667 54,593 - 63,63 45,556 - 54,593 Presena e ausncia 0 presena 1 ausncia

=Valores contnuos - presena 117,852 - 126,889 108,815 - 117,852 99,778 - 108,815 90,741 - 99,778 81,704 - 90,741 72,667 - 81,704 63,63 - 72,667 54,593 - 63,63 45,556 - 54,593 No Data

FIGURA 8 Representao das operaes para obteno dos valores das variveis contnuas nas clulas de ausncia e presena do evento de interesse. A e A1 so variveis contnuas; B a varivel dicotmica com valor 1 para presena; B1 a varivel dicotmica com 1 para ausncia; C so os valores das clulas da camada digital da varivel contnua com presena e C1 a mesma operao para as clulas com ausncia.

MEGADIVERSIDADE | Volume 3 | N 1-2 | Dezembro 2007

Uso de modelos aditivos generalizados na estimativa da distribuio potencial de espciesPAULO DE MARCO JNIORUniversidade Federal de Gois, Gois, Brasil. e-mail: [email protected]

RESUMOOs modelos de distribuio potencial tm sido cada vez mais utilizados para predizer a distribuio atual das espcies, discutir padres de riqueza e modelar sua distribuio em relao s mudanas climticas globais. Nesse trabalho, apresento algumas bases tericas relevantes compreenso desses modelos e discusso sobre os mecanismos que determinam a distribuio das espcies. A partir disso, discuto a estrutura estatstica dos modelos aditivos generalizados e seu potencial como mtodos preditivos eficientes de modelagem. Um exemplo, usando espcies de planta do gnero Inga, apresentado, mostrando a facilidade de execuo dessa estratgia utilizando a metodologia GRASP (predio espacial por regresso generalizada) e algumas limitaes e perspectivas para melhorar as tcnicas de definio de pseudoausncias nesses modelos.

ABSTRACTSpecies distribution models are increasingly used to predict present day distribution of species, discuss their richness patterns and model its distribution in relation to global climatic change. Here, I present some theoretical basis to understand these models and the discussion about the mechanisms that determine species distribution. Based on this general background, I discuss the statistical structure of the generalized additive models and its potential use as efficient predictive modeling technique. A working example using plant species of Inga is presented, showing how easy is the execution of this strategy using GRASP (generalized regression and spatial prediction) methodology and some limitations and perspectives to improve the pseudo-absence use in these models.

C OMO SE ESPERA DETERMINAR A DISTRIBUIO POTENCIAL DE UMA ESPCIE ?Dos distintos modelos que esto sendo apresentados neste conjunto de trabalhos e em muitos outros, que esto disponveis na literatura (Peterson, 2003; Guisan & Thuiller, 2005; Phillips et al., 2006), pode-se perceberMEGADIVERSIDADE | Volume 3 | N 1-2 | Dezembro 2007

que a busca para determinar a distribuio potencial de espcies biolgicas mantm um procedimento geral comum. Na maioria destes mtodos, se assume que: 1. As espcies respondem a gradientes ambientais de uma forma previsvel; 2. A forma da relao entre a presena ou a presena/ ausncia da espcie relatada para uma parte de sua

De Marco Jnior |

39

rea de distribuio ou em uma amostra de sua distribuio reflete a forma desta relao em toda a rea; 3. possvel estimar a forma desta distribuio e extrapolar este resultado para outras reas, determinando reas onde potencialmente esta espcie est ou deveria estar presente. O item 1 bsico e implicitamente admitido em todos os modelos. O item 2 um dos que tm atrado grande ateno por incluir o problema sobre a forma como os dados so relatados. Podem-se distinguir dois tipos de dados: i) dados onde s a presena relatada, como os dados de museus e herbrios; e ii) dados de presena e ausncia. Espera-se que dados de presena e ausncia sejam tomados de forma padronizada entre locais de coleta, evitando problemas de amostragem (Zaniewski et al., 2002). Modelos como o GARP Genetic Algorithm for Rule Prediction (Stockwell & Noble, 1992; Peterson, 2001) e o ENFA Ecologic Niche Factor Analysis (Hirzel et al., 2001, Brotons et al., 2004) podem trabalhar com dados apenas de presena de espcies e so, nesse sentido, mais robustos. A maior parte dos mtodos se distingue pela forma como estimam a forma da curva (o item 3 no esquema acima), mas existem diferenas maiores em alguns deles. Em especial, os modelos aditivos generalizados vo diferir de uma forma radical neste aspecto, o que pode determinar que seu uso deva estar relacionado a diferentes propostas, como espero demonstrar no decorrer deste texto.

Q UE

FATORES DETERMINAM A DISTRIBUIO DAS ESPCIES ?

O padro de distribuio de espcies sempre tomou conta de uma parte considervel da literatura ecolgica (Andrewartha & Birch, 1954; Bock & Ricklefs, 1983; Brown, 1984; Arita et al., 1990; Austin, 2007). A forma como determinada espcie se distribui ao longo de um gradiente ambiental tanto usada como base para teorias gerais, incluindo sucesso ecolgica (Reader, 1992) ou a teoria do rio-contnuo (Vannote et al., 1980), como para explicaes de sua distribuio em uma escala biogeogrfica. Muitas destas abordagens baseiam suas predies em uma forma especfica de relao entre a probabilidade de ocorrncia e o gradiente ambiental. Assim, as funes de incidncia de Diamond (Diamond, 1975; Gilpin & Diamond, 1981) podem ser consideradas como parte deste sistema geral, distinguindo-se apenas pelo fato do gradiente sob anlise ser a rea de ilhas ocenicas.

A abordagem das funes de incidncia interessante por diferenciar modelos possveis de distribuio em funo de caractersticas bionmicas das espcies, em especial suas habilidades competitivas (Grant, 1966; Grant & Abbott, 1980), mas tambm suas habilidades de colonizao (Cole, 1981; Berggren, 2001). No entanto, outras abordagens tambm buscam distinguir, em maior ou menor grau, a forma da curva de resposta da espcie em relao ao gradiente ambiental e suas caractersticas intrnsecas. Evidentemente, a forma mais bsica que se pode apresentar do que foi exposto acima so as curvas que determinam os limites de tolerncia das espcies (Austin, 2007). Em geral, espera-se que a eficincia das espcies em sobreviver, crescer e reproduzir ocorra em funo de sua eficincia em resposta ao gradiente ambiental. Os livros-texto de ecologia buscam expressar esta relao com uma funo normal ou outra de forma semelhante (e.g. Begon et al., 1996). Se as respostas das espcies aos gradientes ambientais so, em parte, resultado de suas caractersticas intrnsecas, espera-se que haja diferentes tipos de formas das curvas de resposta, no mnimo algo mais diverso do que variaes de curtose e assimetria da curva normal. Estes diferentes modelos deveriam resultar da forma como a espcie responde ao gradiente, seja ele simplesmente um fator abitico que interage com o conjunto de adaptaes morfolgicas e fisiolgicas da espcie, ou um recurso que determina complexos modelos de resposta competitiva e de interaes intra- e interespecficas, incluindo um aumento do desvio da simetria tpica da curva normal e respostas no uni-modais (Oksanen & Minchin, 2002). Evidentemente, os modelos mais complexos deveriam advir da forma como alguns gradientes abiticos podem determinar a distribuio, o acesso ou a eficincia de uso de recursos no ambiente. Neste ponto, podemos construir a seguinte cadeia lgica: caractersticas bionmicas resposta a gradientes ambientais forma da curva de resposta padro de distribuio biogeogrfica. Partindo desta teoria, modelos estatsticos usados para estimar a forma da curva podem ser tambm utilizados para testar hipteses sobre como se processa o efeito dos fatores ambientais, ou como determinadas espcies, que compartilham caractersticas ecolgicas, devem apresentar o mesmo tipo de resposta ao gradiente. Modelos deste tipo, semelhana dos modelos baseados na funo de incidncia, utilizados nos estudos de metapopulao e ecologia da paisagem (Taylor, 1991; Wahlberg et al., 2002; Ovaskainen & Hanski, 2003), podem ser

MEGADIVERSIDADE | Volume 3 | N 1-2 | Dezembro 2007

40 | Uso de modelos aditivos generalizados na estimativa da distribuio potencial de espcies

utilizados no apenas para a estimativa da distribuio potencial de uma espcie, mas tambm para testar os processos que determinam esta distribuio. Como qualquer modelo terico que se presta a distinguir processos, estes mtodos devem representar curvas simples. Bons exemplos de modelos com estas caractersticas seriam os modelos logsticos (ou Logit) e Probit. Ambos tm certa flexibilidade, ajustando-se a alguns poucos padres possveis de distribuio, e so estimados com o uso de poucos parmetros (Manel et al., 1999; Pearce & Ferrier, 2000). Alguns modelos so, portanto, mais interessantes para refletir essas relaes, sendo desejvel que ns otimizemos neles sua generalidade, enquanto em outros o que buscamos otimizar uma predio prtica acurada da distribuio potencial da espcie (Guisan & Zimmermann, 2000). Neste ltimo grupo que os mtodos baseados em modelos aditivos generalizados esto agrupados.

O

QUE SO MODELOS ADITIVOS GENERALIZADOS ?

Onde si() so as funes de ajuste. J o modelo aditivo generalizado assume tambm a existncia de uma funo de ligao entre f(X1,..., Xp). isto que permite que se possam utilizar diferentes funes de distribuies, alm da distribuio normal, para modelar os resduos. claro que para cada tipo de distribuio haver uma funo de ligao apropriada. esta propriedade que expande a utilidade dos modelos generalizados. Usualmente os modelos baseados na funo de distribuio normal no so apropriados para uma srie de aplicaes na rea ecolgica. Os dados de riqueza de espcies so, na maior parte, considerados discretos (sendo discreta uma varivel em que a menor distncia entre dois nmeros grande comparada com a amplitude de variao). Quando estudamos riqueza de espcies de mamferos ou rpteis, o modelo mais apropriado assumiria uma distribuio Poisson para os resduos. claro que se voc estiver estudando nmero de espcies de Coleoptera no dossel de florestas Amaznicas, a curva normal poder ser bastante apropriada. Voltando ao modelo, a partir da Equao 2:

Os modelos aditivos generalizados foram propostos por Hastie & Tibshirani (1990). Estes modelos so caracterizados pelo fato de assumirem que a mdia de uma varivel resposta depende de um preditor aditivo, atravs de uma funo de ligao. Uma caracterstica importante destes mtodos que a funo de distribuio de probabilidade desta varivel dependente pode ser qualquer uma dentre aquelas que fizerem parte da famlia exponencial. Isto permite a construo de modelos aditivos para variveis com distribuio normal (e.g. biomassa de espcies), Poisson (e.g. riqueza de espcies) ou binomal (e.g. funo de incidncia das espcies). Suponha que y uma varivel resposta aleatria e que X1... Xp um conjunto de variveis preditoras. Em um procedimento de regresso, consideramos como a varivel dependente Y pode depender de X1... Xp, e o valor esperado de Y assume a seguinte forma linear: E(Y) = f(X1, ..., Xp) = 0 + 1X1 + ... + pXp Equao 1 Dada uma amostra, os parmetros bi... bj podem ser estimados, normalmente pelo mtodo dos quadradosmnimos. O modelo aditivo generaliza o modelo linear d