apostila disciplina r v. 2.0

Upload: luis-fernando-rabelo-holanda

Post on 11-Jul-2015

448 views

Category:

Documents


1 download

TRANSCRIPT

Universidade Estadual Paulista Programa de Ps-Graduao Biologia Animal

Estatstica aplicada ecologia usando o R

Professores responsveis: Diogo Borges Provete ([email protected]) Fernando Rodrigues da Silva ([email protected]) Thiago Gonalves Souza ([email protected]) So Jos do Rio Preto, SP Abril, 2011

SUMRIO Objetivo do curso O que voc no encontrar nesta apostila Introduo: integrando questes ecolgicas e anlises estatsticas O melhor caminho para fazer a pergunta certa Introduo ao ambiente de programao R Baixando e instalando a verso base do R Porque usar o R O workspace do R e o Tinn-R Os tipos de objeto: criao e manipulao Operaes aritmticas bsicas Entendendo o arquivo de ajuda Instalando e carregando pacotes Importao e exportao de dados Criao e manipulao de grficos no R Distribuies estatsticas Funes de probabilidade Funes de distribuio acumulada Distribuio binomial Distribuio Poisson Distribuio Normal Modelos Lineares Generalizados Curva de acumulao de espcies 4 5 6 8 9 10 10 11 12 15 16 17 18 20 18 23 24 24 28 32 36 65 2

Estimadores de riqueza ndices de diversidade e diversidade beta () Introduo estatstica multivariada Leitura recomendada

69 82 93 118

3

OBJETIVO DO CURSO Esta apostila foi elaborada para servir como material de apoio para um curso ministrado

no PPG Biolgia Animal da UNESP de S.J. Rio Preto. Nossa proposta com o curso e com esta apostila de traar o melhor caminho (pelo menos em nosso ponto de vista) entre questes ecolgicas e os mtodos estatsticos mais robustos para test-las. Guiar seus passos nesse caminho (nem sempre linear) necessita que voc utilize um requisito bsico: o de utilizar seu esforo para caminhar. O nosso esforo, em contrapartida, ser o de segurar suas mos, mantlo de p e indicar as melhores direes para que adquira certa independncia em anlises ecolgicas. Todo o material utilizado durante este curso, incluindo scripts e pdf das aulas est disponvel em: https://sites.google.com/site/diogoprovetepage/teaching. Um dos nossos objetivos mostrar que o conhecimento de teorias ecolgicas e a utilizao de questes apropriadas so o primeiro passo na caminha rumo compreenso da lgica estatstica. No deixe que a estatstica se torne a pedra no seu caminho. Em nossa opinio, programas com ambiente de programao favorecem o entendimento da lgica estatstica, uma vez que cada passo (lembre-se de que voc est caminhado em uma estrada desconhecida) precisa ser coordenado, ou seja, as linhas de comando (detalhes abaixo) precisam ser compreendidas para que voc teste suas hipteses. A primeira parte desta apostila pretende utilizar uma estratgia que facilita a escolha do teste estatstico apropriado, por meio da seleo de questes/hipteses claras e da ligao dessas hipteses com a teoria e o mtodo. Posteriormente escolha de suas questes necessrio transferir o contexto ecolgico para um contexto meramente estatstico (hiptese nula/alternativa). A partir da definio de sua hiptese nula partiremos para a aplicao de cada teste estatstico (de modelos lineares generalizados anlises multivariadas) utilizando como plataforma o programa R. Antes de detalhar cada anlise estatstica, apresentaremos os comandos bsicos para a utilizao do R e os tipos de distribuio estatstica que so essenciais para o desenvolvimento do curso. Para isso, organizamos um esquema que chamamos de estrutura lgica que facilita a compreenso dos passos necessrios para testar suas hipteses (Fig. 1). sempre bom ter em mente que muito importante saber aonde se quer chegar para poder escolher o que fazer.

4

O QUE VOC NO ENCONTRAR NESTA APOSTILA Aprofundamento terico, detalhes matemticos, e explicao dos algoritmos so

informaes que infelizmente no sero abordadas neste curso. O foco do curso a explicao de como cada teste funciona (teoria e procedimentos matemticos bsicos) e sua aplicao em testes ecolgicos usando o programa R. Para tanto, o livro dos irmos Pierre e Louis Legendre (Legendre & Legendre 1998) uma leitura que permite o aprofundamento de cada uma das anlises propostas aqui. Alm disso, so de fundamental importncia para o amadurecimento em anlises ecolgicas as seguintes leituras: Manly (1991), Pinheiro & Bates (2000), Scheiner & Gurevitch (2001), Quinn & Keough (2002), Venables & Ripley (2002), Magurran (2004) e Gotelli & Ellison (2004).

Observao

TEORIA

Unidade amostral Variveis Covariveis Escala

Questes

Hiptese nula Hiptese alternativa

Hipteses estatsticas

Anlises estatsticasP, R2, F, t, r, Z, AIC, AICc ...

DECISO

Figura 1. Estrutura lgica para integrar teorias/questes ecolgicas com anlises estatsticas (e vice-versa). Lembre-se de que omitimos etapas importantes desta estrutura lgica, como o delineamento experimental, a coleta e organizao dos dados, que esto alm do objetivo desta apostila. 5

Generalizao

Predies

Hipteses biolgicas

INTRODUO INTEGRANDO QUESTES ECOLGICAS E ANLISES ESTATSTICAS Para a grande maioria dos estudantes [e professores] de biologia a palavra estatstica

traz certa vertigem e averso. Em geral, alunos e professores consideram este passo um dos mais (se no o mais) problemticos da pesquisa cientfica. Para ecologia e, especialmente, ecologia de comunidades, mtodos analticos complexos e que consomem muito tempo para serem realizados tornam a estatstica uma tarefa ainda mais distante de ser alcanada (e compreendida). Infelizmente, a maioria opta por no cumprir esta tarefa. Em nossa opinio, muito dessa averso estatstica se deve s disciplinas introdutrias do curso de graduao em Cincias Biolgicas (a maioria, claro) estarem baseados em um contexto puramente estatstico e com exemplos no-biolgicos, sem um programa que integre a ferramenta analtica a um problema de pesquisa. De fato, entender exemplos estatsticos com uma lgica puramente estatstica no parece uma tarefa trivial para alunos que buscam entender, por exemplo, como processos populacionais, de comunidades e ecossistmicos determinam a distribuio das espcies. Uma alternativa que pode facilitar a compreenso das anlises estatsticas para bilogos (e para todos os cientistas!) a utilizao da lgica do mtodo cientfico tomando como fator de deciso os resultados estatsticos. Ao final do curso, ou da leitura desta apostila, gostaramos de que voc refletisse um pouco sobre as seguintes questes: (1) qual a principal teoria do meu trabalho? (2) Qual a principal pergunta do meu trabalho? (3) Qual a unidade amostral, a varivel dependente e independente do meu trabalho? A seguir, apresentamos a seqncia lgica que sugerimos que seja aplicada a todo e qualquer teste que utilize estatstica frequentista (interpretao objetiva da probabilidade baseada no critrio de falseamento de Karl R. Popper). Esta interpretao , por sua vez, diferente da interpretao subjetiva da probabilidade utilizada no arcabouo da estatstica Bayesiana e da Maxima Verossimilhana. importante ressaltar ainda que a probabilidade (o fator de deciso dos frequentistas, i.e., o to sonhado p < 0,05) representa uma classe de eventos (observados) comparados com uma srie de repeties, e portanto o grau de incerteza relacionada a eventos. Todo este arcabouo dos testes de hipteses estatsticas foi desenvolvido por Jerzy Neyman e Egon S. Pearson (Neyman & Pearson, 1933) adotando a viso Popperiana de que uma observao no fornece confirmao para uma teoria, devido ao problema da induo (para uma discusso mais detalhada veja os cap. 2 e 3 de Godfrey-Smith, 2003). Ao contrrio, um teste deveria procurar refutar uma teoria, somente desta forma haveria ganhado conhecimento. Ento, segundo o arcabouo de NeymanPearson, o teste estatstico procura rejeitar a hiptese nula, e no a confirmao da hiptese alternativa. Numa regresso, por exemplo, se o teste verificar que o coeficiente significativo, isto quer dizer que a inclinao da reta diferente de zero, no entanto a interpretao biolgica de uma relao linear entre as duas variveis deve ser feita luz das predies da teoria que se pretende testar. Por outro lado, os testes de modelos lineares generalizados em mistos utiliza a 6

lgica da estatstica Bayesiana e da Maxima Verossimilhana. Estes arcabouos utilizam a interpretaoo subjetiva da probabilidade. Como uma analogia, o arcabouo frequentista presume que a verdade ou todo o universo amostral est numa nuvem, distante e inalcanvel, e que somente temos acesso a pequenas amostras de dados, que nesta metfora, seriam um monte, com o qual chegaramos o mais prximo possvel da nuvem. Seguindo esta metfora, a estatstica Bayesiana e Maxima Verossimilhana assumem que j que a nuvem algo inatingvel no devemos consider-la na anlise e que a melhor estimativa que temos so os dados reais que coletamos. Portanto, neste contexto, devemos considerar nossos dados como o universo amostral total. Ao definir a questo de pesquisa essencial conhecer como a teoria pode ser usada e como e porque ela pode explicar ou ser aplicada sua questo (Ford 2000). Os modelos gerados pelas teorias podem ser aproveitados para criar suas hipteses e predies. As hipteses [cientficas] so definidas como explicaes potenciais que podem ser retiradas de observaes do mundo externo (processo indutivo) ou de componentes de uma teoria (processo dedutivo). Uma hiptese cientfica, do ponto de vista de Popper, deve ser falsevel. As predies so afirmaes deduzidas de uma estrutura lgica ou causal de uma teoria, ou induzidas a partir de informaes empricas; em outras palavras, a predio a conseqncia da hiptese, o resultado esperado se a hiptese for verdadeira. Uma hiptese bem articulada deve ser capaz de gerar predies. Um exerccio fundamental para a criao de hipteses e articulao de suas predies se faz a partir da construo de fluxogramas (Fig. 2). No fluxograma voc pode separar cada varivel e a relao esperada entre cada uma delas. As setas indicam a relao esperada entre as variveis (os sinais acima das setas mostram a direo da relao). Setas com espessuras diferentes podem ser usadas como forma de demonstrar a importncia relativa esperada para cada varivel.

Figura 2. Fluxograma representando as predies que foram articuladas a partir da hiptese as florestas riprias aumentam a riqueza de macro-invertebrados.

7

O MELHOR CAMINHO PARA FAZER A PERGUNTA CERTA Em geral, questes no devem ser muito gerais (e.g., qual o efeito das mudanas globais

nas florestas?) por que dificultam a compreenso do que efetivamente voc est testando. prefervel que suas hipteses sejam mais gerais (tericas) e suas questes mais especficas (referidas como operacionais daqui pra frente), para que voc e o seu leitor saibam o que vai ser testado efetivamente e qual teste dever ser empregado. Por exemplo, um pesquisador tem a seguinte hiptese: mudanas globais afetam a dinmica e estrutura de florestas; para testar esta hiptese este pesquisador levantou duas questes operacionais: (1) o aumento da temperatura modifica a composio de espcies vegetais? (2) O aumento da temperatura aumenta a ocorrncia de espcies exticas? Com essas questes operacionais fica mais fcil compreender qual sua varivel independente (neste caso temperatura) que representa a mudana climtica e que afeta sua varivel dependente (dinmica e estrutura de florestas) que foi operacionalizada em duas variveis composio de espcies vegetais e ocorrncia de espcies exticas. Alm disso, muito importante saber qual a unidade amostral do seu trabalho. No exemplo acima, o pesquisador coletou em 30 reas de floresta em diversos pontos da Amrica do Norte. Desse modo, os pontos seriam unidades amostrais (as linhas em sua planilha) e as variveis dependentes e independentes seriam consideradas as colunas de sua anlise. bastante importante ter em mente o formato padro das planilhas utilizadas na maioria das anlises ecolgicas (Tabela 1). Alguns pacotes ou funes do R utilizam como padro a matriz transposta da Tabela 1. Aps a definio das hipteses/questes e de suas predies, preciso pensar na estatstica (lembra-se que entre os dois preciso coletar e organizar os dados!). A estatstica necessria para descrever padres nos nossos dados e para decidir se predies das hipteses so verdadeiras ou no. Para comear a anlise estatstica preciso definir as hipteses estatsticas, i.e., hiptese nula (H0) e hiptese alternativa (H1). A hiptese nula representa a ausncia de padro na hiptese cientfica (i.e., as diferenas entre grupos no maior do que o esperado ao acaso), enquanto a hiptese alternativa mostra exatamente a existncia do padro (notem que uma hiptese nula pode ter uma ou mais hipteses alternativas). Por exemplo, a hiptese nula da Fig. 2 que a densidade de rvores da zona ripria no afeta a riqueza de macro-invertebrados aquticos, enquanto a hiptese alternativa de que a densidade de rvores afeta positivamente a riqueza desses organismos. Neste exemplo, o pesquisador comparou grupos de riachos com densidades diferentes (e.g., variando de 0 a 10 rvores/m2) e encontrou que riachos com florestas riprias com densidade de rvores acima de 7/m2 possuem 20% mais macroinvertebrados aquticos (P = 0,01). Desse modo, a hiptese nula de ausncia de padro rejeitada. Para decidir se a hiptese nula pode ser aceita ou no, os testes estatsticos utilizam 8

um valor de probabilidade. Como posso dizer que a mdia de um grupo diferente da mdia de outro grupo ou que o aumento na varivel X representa um aumento na varivel Y? Como posso diferenciar se essas diferenas so reais ou frutos do acaso? O fator de deciso para a maioria dos testes estatsticos o valor de P (probabilidade). O valor de P mede a probabilidade de que a hiptese nula (a ausncia de um padro) seja verdadeira. Desse modo, valores de P muito prximos de zero indicam que a probabilidade de que a hiptese nula seja verdadeira muito baixa e que possvel considerar cenrios alternativos, ou seja, aceitar a hiptese alternativa. No exemplo acima, a chance de a hiptese nula (a zona ripria no afeta a riqueza de macroinvertebrados) ser verdadeira de 1 em 100 (P = 0,01). Se o valor de P fosse 0,76 a chance de a hiptese nula ser verdadeira seria de 76 em 100. O nmero mgico considerado como valor crtico de deciso de 0,05. Desse modo, se a probabilidade de a hiptese nula ser verdadeiraTabela 1. Planilha modelo para anlises estatstica, com unidades amostrais nas linhas, e variveis dependentes e independentes nas colunas contrrio, valores maiores do que 0,05 indicam que a hiptese nula deve ser aceita. A fixao do v. dependente1 v. dependente2 ... v. dependente n v. independente1 v. independente2 ... v. independente m valor de significncia de 5% foi puramente nominal, um consenso que visou o equilbrio entre o unid.amostral1 2.593 3.789 n1 2.177 3.318 m1

em um teste especfico for 0,05 (resultado significativo), decidimos por rejeit-la. Do

erro do Ie unid.amostral2 tipo 2.326do tipo II. Para entender os2 porqus desse valor de corte, consulte o livro 2do 1.000 n 2.910 2.575 m

unid.amostral3 & Ellison (2004, p. 96). Neste mesmo livro preciso dedicar uma ateno especialm3 2.190 1.828 n3 5.007 3.128 Gotelli aos unid.amostral4 2.883 3.207 n4 5.479 4.250 m4 unid.amostral5

erros atribudos ao teste de hipteses (erros do tipo I e II), que tm importncia fundamental no1.828 1.810 2.760 n5 n6 1.404 2.614 3.298 3.491 m5 m6

processo analtico. unid.amostral6 3.657

unid.amostral7 3.487 1.602 n7 2.014 1.520 m7 Tabela 1. Planilha modelo para anlises3.206 estatstica, com unidades amostrais nas linhas, e variveis dependentes e independentes unid.amostral8 3.783 n8 1.970 4.081 m8 nas colunas unid.amostral9 1.643 4.069 n9 3.310 3.947 m9 v. dependente1 v. dependente2 ... v. dependente n v. independente1 v. independente2 ... v. independente m unid.amostral10 3.288 3.728 n10 3.214 2.665 m10 unid.amostral1 2.593 3.789 n1 2.177 3.318 m1 unid.amostral11 2.856 4.234 n11 2.862 3.026 m11 unid.amostral2 2.326 1.000 n2 2.910 2.575 m2 unid.amostral12 3.608 3.032 n12 2.925 3.993 m12 unid.amostral3 2.190 1.828 n3 5.007 3.128 m3 unid.amostral13 3.611 3.178 n13 2.403 3.112 m13 unid.amostral4 2.883 3.207 n4 5.479 4.250 m4 unid.amostral14 2.514 2.162 n14 4.532 3.876 m14 unid.amostral5 1.828 1.810 n5 1.404 3.298 m5 unid.amostral15 3.716 0.851 n15 2.935 4.154 m15 unid.amostral6 3.657 2.760 n6 2.614 3.491 m6 unid.amostral16 2.344 1.706 n16 1.480 2.099 m16 unid.amostral7 3.487 1.602 n7 2.014 1.520 m7 ... ... ... ... ... ... ... unid.amostral8 3.783 3.206 n8 1.970 4.081 m8 unid.amostral n i n1 n2 np m1 m2 mq unid.amostral9 1.643 4.069 n9 3.310 3.947 m9

unid.amostral10 unid.amostral11 unid.amostral12 unid.amostral13 unid.amostral14 unid.amostral15

3.288 2.856 3.608 3.611 2.514 3.716

3.728 4.234 3.032 3.178 0.851

n10 n11 n12 n13 n15

3.214 2.862 2.925 2.403 2.935

2.665 3.026 3.993 3.112 4.154

m10 m11 m12 m13 m14 m15

INTRODUO AO n14 AMBIENTE4.532PROGRAMAO R DE 2.162 3.876

unid.amostral16 O objetivo desta seo apresentarn16 2.344 1.706 1.480 2.099 m do aspectos bsicos para qualquer pessoa livrar-se16 ... ... ... ... ... ... ... receio inicial e comear a usar o R para efetuar anlise de dados. Todo processo de unid.amostral n i n1 n2 np m1 m2 mq

aprendizagem torna-se mais efetivo quando a teoria combinada com a prtica, ento ns recomendamos fortemente que voc leitor acompanhe os exerccios desta apostila ao mesmo 9

tempo que os executa no seu computador, e no s os leia passivamente. Ainda, por motivo de tempo e espao no abordaremos todas as questes relacionadas ao uso do R nesta apostila. Logo, aconselhamos que o leitor ao final das aulas voc consulte o material sugerido para poder se aprofundar nas questes abordadas.

BAIXANDO E INSTALANDO A VERSO BASE DO R Para comearmos a trabalhar com o R necessrio baix-lo na pgina do R project da internet. Ento, digite http://www.r-project.org na barra de endereos do seu navegador. Em seguida, clique no link download R embaixo da pgina, que o levar pagina do CRAN (Comprehensive R Archive Network). Escolha qualquer pgina espelho do Brasil para baixar o programa. Escolha o sistema operacional do seu computador e clique em base. Reserve algum tempo posteriormente para explorar esta pgina do R-project. Existem vrios livros (http://www.r-project.org/doc/bib/R-books.html) dedicados a diversos assuntos baseados no R, alm disso, esto disponveis manuais (http://cran.r-project.org/manuals.html) em diversas lnguas (http://cran.r-project.org/other-docs.html) para serem baixados gratuitamente. Como o R um software livre, no existe a possibilidade de o usurio entrar em contato com um servio de suporte de usurios, muito comuns em softwares pagos. Ao invs disso, existem vrias listas de correio eletrnico que fornecem suporte comunidade de usurios (http://www.r-project.org/mail.html). Ns, particularmente, recomendamos o ingresso nas seguintes listas: R-help, R-sig-ecology, e R_BR (http://www.leg.ufpr.br/doku.php/software:rbr). Este ltimo representa um grupo de usurios brasileiro do programa R. Ainda, existem vrios blogs e pginas com arquivos de ajuda e planilhas com comandos, alguns deles podem ser baixados aqui: http://www.nceas.ucsb.edu/scicomp/software/r e http://devcheatsheet.com/tag/r/.

PORQUE USAR O R? Os criadores do R o chamam de uma linguagem e ambiente de programao estatstica e

grfica. O R tambm chamado de programa orientado ao objeto (object oriented programming), o que significa que utilizar o R envolve basicamente a criao e manipulao de objetos em uma tela branca em que o usurio tem de dizer exatamente o que deseja que o 10

programa execute ao invs de simplesmente pressionar um boto. E vem da uma das grandes vantagens em se usar o R: o usurio tem total controle sobre o que est acontecendo e tambm tem de compreender totalmente o que deseja antes de executar uma anlise. Na pgina pessoal do Prof. Nicolas J. Gotelli existem vrios conselhos para um estudante iniciante de ecologia. Dentre esses conselhos, o Prof. Gotelli menciona que o domnio de uma linguagem de programao uma das mais importantes, porque d liberdade ao eclogo para executar tarefas que vo alm daquelas disponveis em pacotes comerciais. Alm disso, a maioria das novas anlises propostas nos mais reconhecidos peridicos em ecologia normalmente so implementadas em linguagem R, e os autores incluem normalmente o cdigo fonte no material suplementar dos artigos, tornando a anlise acessvel. A partir do momento que essas anlises ficam disponveis (seja por cdigo fornecido pelo autor ou por implementao em pacotes pr-existentes), mais simples entendermos a lgicas de anlises complexas, especialmente as multivariadas, com nossos prprios dados realizando-as passo a passo. Sem a utilizao do R, normalmente temos que contatar os autores que nem sempre so acessveis. Uma ltima vantagem que por ser um software livre, a citao do R em artigos permitida e at aconselhvel. Para saber como citar o R, digite citation()na linha de comando. Para citar um pacote especfico, digite citation()com o nome do pacote entre aspas dentro dos parnteses. Neste ponto, esperamos ter convencido voc leitor de que aprender a utilizar o R tem inmeras vantgens, vai ser difcil no comeo mas continue e perceber que o investimento vai valer pena no futuro.

O WORKSPACE DO R E O TINN-R Com o R possvel manipular e analisar dados, visualizar grficos e escrever desde pequenas linhas de comando at programas inteiros. O R a verso em cdigo aberto de uma linguagem de programao inventada nos anos 1980 no Bell Labs chamada de S. Essa linguagem tornou-se bastante popular e vrios produtos comerciais que a usam esto disponveis, como o S-PLUS, SPSS, STATA e SAS. Um aspecto digno de nota que a linguagem R, ao contrrio de outras linguagem como Fortran e C, uma linguagem interpretada, o que a faz ser mais fcil de programar, pois processa linhas de comando e as transforma em linguagem de mquina (cdigo binrio que o computador efetivamente l), mas isso diminui a velocidade de processamento. 11

Nas linhas de comandos do R haver um sinal de >, que indica o prompt, representando que o R est pronto para receber comandos. Se uma linha de comando no est completa, aparecer um sinal de +, indicando que voc poder continuar a digitar aquela linha. Para que o prompt aparea novamente, pressione Esc. Para que os comandos sejam executados, pressione Enter. Para criar objetos, podemos utilizar os smbolos -> ou = . Estes smbolos representam que queremos guardar a informao dentro do objeto. Neste curso iremos utilizar o R em conjunto com um editor, o Tinn-R. Existem vrios editores para a linguagem R, como o RStudio, Eclipse etc. (veja uma lista no exaustiva em http://en.wikipedia.org/wiki/R_(programming_language)), mas preferimos o Tinn-R por ser de mais fcil utilizao e por possibilitar o destaque das sintaxes de programao, diminuindo erros de digitao to comuns. E ainda, possvel salvar os scripts para continuar a trabalhar neles posteriormente. Para baix-lo, v at http://www.sciviews.org/Tinn-R/ e faa o download do programa. Assim que o instalar, somente ser necessrio clicar no cone do Tinn-R e o R abrir automaticamente. Toda vez que terminar de escrever uma linha de comando, pressione Ctrl+Enter para envi-la para o R. Para saber qual o diretrio de trabalho do R, ou seja, em qual pasta o programa salvar arquivos, digite: >get.wd() possvel mudar o diretrio de trabalho do R de acordo com as necessidades do usurio. Ento, como exerccio para este curso, clique em Arquivo>mudar dir. e defina o diretrio para uma pasta deste curso dentro de Meus documentos. Ns recomendamos mudar o diretrio sempre que um novo conjunto de anlises for feito como, por exemplo, quando for mudar das anlises do primeiro captulo da sua dissertao para o segundo, escolha a pasta onde estaro os dados deste captulo como diretrio de trabalho. OS TIPOS DE OBJETOS: CRIAO E MANIPULAO Existem cinco classes de objetos na linguagem R: vetor, matriz, data frame, funes e lista. Vetor Existem trs tipos de vetores: o vetor de caracteres, numrico e o lgico.

12

Vetor numrico >ac(1,2,3,4,5)->b >dados.campo=seq(1,10,2)#cria uma sequncia de nmeros de 1 at 10, de 2 em 2 >x=seq(3,10) #cria uma sequncia de nmeros de 3 at 10 >sample(x, 2, replace=T) >mata.1=rep(1:2, c(10,3))#repete o nmero 1 dez vezes e o nmero 2 trs vezes >exemplo=c(1:10) >length(exemplo) A linguagem R case sensitive, o que quer dizer que ele distingue entre letras minsculas e maisculas. Desse modo, fique atento ao criar um objeto e digite-o exatamente como quando voc o criou. Ainda, no use acentos, til, crases etc. ao dar nome aos objetos.

Vetor de caracter Tambm possvel criar vetores de caracteres, ou seja, com nomes ao invs de nmeros. No R, sequncias de caracteres textuais so sempre delimitados por aspas: >dados.pessoais=c(nome=seuNome, nascimento=aniversario, estadoCivil=solteiro) >dados.pessoais Vetor lgico Vetores lgicos so quantidades lgicas manipuladas no R. Estes vetores so bastante teis em programao. Os elementos de um vetor lgico so TRUE, FALSE ou NA (not available). Abaixo esto exemplos de condies criadas, quando a condio satisfeita, o R retorna o valor TRUE, quando a mesma no satisfeita, retorna FALSE >is.factor(x) >FALSE >is.matrix(xy) >FALSE >aaa==1 >a>=1 >a!=2 Fator Um fator utilizado para criar uma varivel categrica, muito comum em anlises estatsticas. Para criar um fator, digite: >dados=factor(c(baixo, menos baixo,mdio ,alto))#notem que utilizamos um acento em mdio, isto possvel porque esta palavra aqui tratada como um caracter (por isso as aspas) e no como um objeto >is.factor(dados)#testa a converso Matriz Uma matriz um arranjo bi-dimensional de vetores, todos os vetores devem ser do mesmo tipo (numrico ou de caracteres). Veja um exmplo abaixo de como criar uma matriz e manipul-la: >xy=matrix(1:12, nrow=3) >rownames(xy)=LETTERS[1:3] >colnames(xy)=c(mata.1, mata.2, mata.3, mata.4) >xy >t(xy)#transpe a matriz >class(xy) >xy[,1] #para acessar a primeira coluna de uma matriz >xy[1,] #para acessar a primeira linha de uma matriz. Veja que as chaves representam [linha, coluna] >head(xy) #para acessar as primeiras linhas de uma matriz >tail(xy) #para acessar as ltimas linhas de uma matriz >fix(xy) #edita uma matriz ou data frame >str(xy)#avalia a estrutura do objeto >summary(xy)

14

Data frame O mesmo que uma matriz, mas aceita vetores de tipos diferentes. Este o tipo mais comum de objeto que iremos usar ao longo deste curso. Um data frame permite incluir num mesmo objeto vetores numricos e de caracteres, por exemplo:

>comunidadeclass(comunidade) >xy=as.data.frame(xy)#converte (coerce) a matriz que criamos acima numa data frame >class(xy) #testa a converso >str(comunidade) >fix(comunidade) >edit(comunidade) Lista Uma lista um objeto que consiste de um conjunto de objetos ou componentes ordenados de forma hierrquica. Por exemplo, possvel construir uma lista com uma matriz, um vetor lgico, etc. > Lista.ex Lista.ex$name

OPERAES ARITMTICAS BSICAS O R tambm pode ser utilizado como uma calculadora. Faa algumas operaes aritmticas com os objetos que voc acabou de criar, por exemplo: 15

>a*2 >b*3 #observe o que aconteceu? Como foi feita essa operao? >b[1]*3 #e agora? >b/4 >2+3 >3^3 >log(2)#observe o que aconteceu? Este a funo que calcula o logaritmo neperiano (ln). >log10(2) #compare o resultado anterior com este. So diferentes? >sqrt(3) >sum(a) >mean(b) >sum(b)/length(a) >pi >cor(a,b) >cor.test(a,b) ?cor.test

ENTENDENDO O ARQUIVO DE AJUDA Um importante passo para ter certa intimidade com a linguagem R aprender a usar a ajuda de cada funo. Alm disso, existem uma funo (RSiteSearch) e um pacote (sos) que tambm auxiliam o usurio a realizar uma anlise quando no se sabe qual (e se) a mesma j foi implementada no R. Para utilizar o RSiteSearch, digite um tema ou o nome de uma anlise entre aspas no argumento da funo, como no exemplo abaixo: >RSiteSearch("analysis of variance") A funo ir buscar na pgina do R na internet qual(is) funo est(o) disponvel(is) para implementar aquela dada anlise. Se o pacote sos estiver instalado e carregado, basta digitar: >???analysis of variance e o navegador de internet abrir uma pgina mostrando qual(is) funes executam aquela anlise. Tambm necessrio acesso internet. Outra ferramenta de busca a pgina 16

http://www.rseek.org na qual possvel buscar por um termo no s nos pacotes do R, mas tambm em listas de emails, manuais, pginas na internet e livros sobre o programa. Vamos fazer um exerccio para nos ambientarmos com a pgina de ajuda do R, digite: >?aov O arquivo de ajuda do R possui geralmente nove ou dez tpicos: Description - resumo da funo Usage*- como utilizar a funo e quais os seus argumentos Arguments* - detalha os argumentos e como os mesmos devem ser especifidados Details - detalhes importantes para se usar a funo Value - mostra como interpretar a sada (output) da funo (os resultados) Notes - notas gerais sobre a funo Authors - autores da funo References - referncias bibliogrficas para os mtodos usados pra construir a funo See also - funes relacionadas Examples* - exemplos do uso da funo. s vezes pode ser til copiar esse trecho e colar no R para ver como funciona e como usar a funo. INSTALANDO E CARREGANDO PACOTES O R um ambiente de programao e existem atualmente mais de 3000 pacotes que funes especficas e que precisam ser instalados e carregados

desempenham

independentemente. Os pacotes stats e base j vm instalados e carregados, so estes pacotes que possuem as funes para o clculo de modelos lineares simples, como teste t, ANOVA, 2, glm etc. A funo que instala pacotes no R a install.packages(). Ao longo deste curso utilizaremos vrios pacotes, entre eles o vegan, para instal-lo, utilize: >install.packages(vegan) para instalar vrios pacotes ao mesmo tempo, utilize a funo c()para criar um vetor: 17

>install.packages(c(vegan, sos)) e para carreg-los, utilize: >library(vegan) ?vegan Sempre que tiver de usar as funes de um pacote ser preciso carreg-lo usando a funo library(). A maioria dos pacotes vem com bancos de dados que podem ser acessados pelo comando data(). Esses bancos de dados podem ser usados para testar as funes do pacote. Se estiver com dvida na maneira como voc deve preparar a planilha para realizar uma anlise especfica, entre no help da funo e veja os conjuntos de dados que esto no exemplo desta funo.

IMPORTAO E EXPORTAO DE DADOS >obj=read.table(file.choose(), header=TRUE) # este comando ir abrir uma tela para que o usurio navegue nas pastas e escolha o arquivo a ser aberto. >obj=read.table(clipboard, h=T)#importa objetos que estiverem na rea de transferncia >obj=read.table(nomedoarquivo.txt, h=T) #para utilizar este argumento, o arquivo a ser importado deve estar no diretrio de trabalho >obj=read.csv(file.choose(), h=T) >write.table(nomeDoObjeto, NomeDoObjetoParaSerGravado, sep= , quote=F, dec=.) >sink("japi-so.xls") #Exporta pra o wd o(s) objetos que forem exibidos depois, com o nome que for colocado nesta linha de comando >japi.so1 >sink()#Fecha o dispositivo >?tiff >?jpeg

18

Exerccios 1) Crie 2 conjuntos de dados de 30 unidades amostrais cada com distribuio normal, mdia 1 e desvio padro 2.5 e descubra como calcular um teste t para este conjunto, tentem: >?rnorm >?t.test 2) Crie 4 vetores numricos de qualquer tamanho com a funo c(), voc tambm pode combinar as funes seq() e c() se desejar. a) calcule o comprimento de cada um desses vetores e guarde o resultado num outro vetor. b) calcule o somatrio dos componentes de cada vetor e guarde o valor num outro vetor. c) utilize os itens b) e c) para calcular a mdia dos valores de cada um dos vetores. 3) Calcule novamente a mdia dos vetores, agora utilizando a funo mean(). 4) Digite ls() e recupere o objeto dados.campo, selecione: a) os cinco primeiros elementos deste objeto; b) todos os elementos MENOS os 2 primeiros; c) o 3 elemento; d) todos menores que 4. 5) Crie duas sequncias de 1 a 20 com intervalo de 1. Atribua nomes diferentes a cada uma. 7) Utilize a funo cbind() para unir os dois vetores. Nomeie as colunas de a at u utilizando o vetor letters, e as duas colunas com o vetor LETTERS j disponveis no R. 8) Recupere o objeto xy que criamos h pouco, ele uma matriz. a) Multiplique-o por um escalar qualquer, por exemplo 3, veja o que acontece; b) Divida o valor encontrado por 4, observe o que acontece e tente se lembrar das aulas de lgebra de matrizes do 3 colegial. c) acesse o elemento a3,1.

19

CRIAO E MANIPULAO DE GRFICOS NO R O R uma poderosa ferramenta para criao e manipulao de grficos. Os pacotes graphics e grid, que j vm instalados no R, possuem a funo genrica plot(), alm de outras como hist(). As funes par() e layout() permitem ainda plotar vrios grficos conjuntamente, formando uma nica figura. Alguns pacotes foram desenvolvidos especialmente para manipulao de grficos, como lattice, ggplot2, ggobi e rgl. Estes pacotes nos permitem fazer praticamente todos os tipos de grficos, incluindo 3-D e mapas em relevo. Para visualizar uma parte das potencialidades dos pacotes, instale e carregue-os. Digite no prompt do R demo(lattice) e v apertando Enter. Faa o mesmo com o ggplot2. Neste mdulo iremos demonstrar algumas das potencialidades grficas do R. Reiteramos que esses pacotes so um mundo em si s. Logo, convidamos o leitor a ler e explorar a literatura sugerida abaixo, consultar os quadros resumos, alm de acessar as seguintes pginas da internet: http://research.stowers-institute.org/efg/R/ http://addictedtor.free.fr/graphiques/ http://www.gnuplot.info/ http://gnuplot.sourceforge.net/demo_4.2/ http://www.statmethods.net/advgraphs/parameters.html. As principais funes que possibilitam modificar grficos no R so: plot()#Funo genrica para plotar grficos #utilize os argumentos xlab e ylab para adicionar legendas aos eixos, use aspas. # bty=L retira as molduras das partes direita e superior. # xlim e ylim determina os limites das escalas dos eixos. # cex modifica o tamanho dos pontos. # pch modifica o tipo do ponto # col modifica as cores dos pontos. Veja tambm a ajuda da funo par(). hist()# plota um histograma barchart()# plota um grfico de barras 20

locator()#localiza uma coordenda x-y no grfico, utilize o argumento 1, 2 etc para definir quantos pontos quer localizar text()#adiciona um texto arrows()#adiciona uma seta mtext()adiciona um texto nas margens do grfico box()#adiciona uma moldura segments()#adiciona uma linha legend()#adiciona legendas no alto e embaixo points()#adiciona pontos no grfico lines()#adiciona linhas no grfico par()#divide o layout e plota vrios grficos, utilize o argumento mfrow=c(2,2) para especificar o nmero de linhas e colunas. Neste caso a funo par(mfrow=c(2,2)) cria uma janela para que quatro grficos sejam visualizados (i.e., duas linhas e duas colunas) layout()#divide o layout e plota vrios grficos, utilize o argumento layout(matrix(1:4, ncol=2, nrow=2)) pra definir o nmero de colunas e linhas.

O pacote lattice permite fazer grficos univariados e multivariados de alto nvel. Alm disso, ele permite criar objetos da classe trellis que podem ser exportados e modificados. xyplot()#funo do lattice para grficos univariados bwplot()# plota um boxplotcoplot()#plota vrios grficos com estilos diferentes Exerccios

1) Carregue o pacote lattice e o conjunto de dados quakes, data(quakes), plote os dados utilizando a funo xyplot(). 2) Carregue o conjunto de dados melanoma e utilizando a funo plot() faa um grfico com o tamanho dos pontos 24, legenda do eixo x Frequncia, legenda do eixo y Anos e sem as molduras da direita e superior. 3) Crie dois conjuntos de dados quaisquer e combinando as funes abline() e lm() calcule uma regresso linear simples e ajuste uma reta que indique o modelo. 21

4) Crie um conjunto aleatrio de nmeros com distribuio normal e d nome a este objeto. Utilize a funo hist() para plotar um grfico com as barras em cor cinza. a) Utilize a funo points() para criar um ponto em formato de crculo no eixo x no lugar da mdia. b) Agora crie dois pontos verdes em formato de tringulo verde invertido no lugar dos 2 quantis. c) Crie uma legenda no canto superior esquerdo com os smbolos utilizados (tringulo e crculo), com os significado (mdia e quantil). d) Pinte de vermelho e verde os smbolos.

Quais funes voc aprendeu? Uma linguagem de programao uma linguagem como qualquer outra, e sua aprendizagem exige domnio de vocabulrio e sintaxe. O vocabulrio da linguagem R so as funes e comandos. Ento, sempre que um mdulo acabar, lembre-se de tomar nota das funes e comandos, bem como para que serve cada uma delas. Utilize o marcador # em frente a uma funo para explicar a sua utilidade. Voc se lembra de todas que aprendeu hoje? DISTRIBUIES ESTATSTICAS Uma distribuio estatstica definida como uma funo que define uma curva. A rea sob essa curva determina a probabilidade de ocorrncia de um dado evento.

Variveis aleatrias: A varivel aleatria (X) uma varivel que tem um valor nico (determinado aleatoriamente) para cada resultado de um experimento. A palavra aleatria indica que em geral s conhecemos aquele valor depois do experimento ser realizado. Exemplos de variveis aleatrias: a. Nmero de presas capturadas em um determinado dia; b. Comprimento de um peixe adulto selecionado aleatoriamente. As variveis aleatrias podem ser discretas ou contnuas.

22

Varivel aleatria discreta: nmero ou a quantidade observada na unidade experimental ou tentativa. Representada por nmeros inteiros (0, 1, 2, 3, 4...); No pode conter nmeros negativos; Nmero finito de possibilidades; Podemos achar a probabilidade de cada evento.

Varivel aleatria contnua: usualmente medidas contnuas como peso, altura, distncia, pH, biomassa, etc. Representada por nmeros no inteiros (1,3; - 1,54; - 1,7); Pode conter nmeros negativos; Nmero infinito de possibilidades; Probabilidade de cada evento zero. FUNES DE PROBABILIDADE A funo probabilidade associa cada possvel valor da varivel aleatria (X) sua probabilidade de ocorrncia P(X). Quando conhecemos todos os valores de uma varivel aleatria, juntamente com suas respectivas probabilidades, temos uma distribuio de probabilidades (Fig. 3). As distribuies de probabilidade discreta conhecida como funo massa de probabilidade, enquanto que distribuies de probabilidade contnua conhecida como funo de densidade de probabilidade. A diferena est no fato de que nas distribuies discretas temos a probabilidade para cada valor de X (Fig. 3a), enquanto que nas distribuies contnuas temos a probabilidade para um intervalo (Fig. 3b). (b) (a)

Funodensidadedeprobabilidade Funomassadeprobabilidade Figura 3. Funes de probabilidade para (a) varivel discreta e (b) varivel contnua. 23

FUNESDEDISTRIBUIOACUMULADA A funo de distribuio acumulada igual probabilidade de que a varivel aleatria X assuma um valor inferior ou igual a determinado x (Figura 4).

Figura 4. Funo de distribuio acumulada. DISTRIBUIOBINOMIAL a distribuio de probabilidade discreta do nmero de sucessos em uma sequncia de n tentativas tal que: i) as tentativas so independentes; ii) cada tentativa resulta apenas em duas possibilidades, sucesso ou fracasso; e iii) a probabilidade de cada tentativa, p, permanece constante. Se a varivel aleatria X que contm o nmero de tentativas que resultam em sucesso tem uma distribuio binomial com parmetros n e p, escrevemos X ~ B(n, p). A probabilidade de se ter exatamente k sucessos dada pela funo de probabilidade: ?????? ?????? = ?????? ! ?????? (1 ??????)!!! ??????

onde q a probabilidade de um evento ocorrer, 1 q a probabilidade do evento no ocorrer, X a freqncia de ocorrncia e pode adquirir os valores 0, 1, 2, ..., n. Portanto, esta funo fornece a probabilidade de ocorrerem X sucessos em n tentativas. Se a X ~ B(n, p), isto , X uma varivel aleatria distribuda binomialmente, ento o valor esperado de X : ?????? ?????? = ???????????? e a varincia ?????????????????? ?????? = ????????????(1 ??????)

24

Exemplo H uma probabilidade de 0,30 de um girino, ao forragear em um corpo dgua, ser predado por uma larva de odonata. Determine as probabilidades de que, dentre seis girinos que esto forrageando no corpo dgua, 0, 1, 2, 3, 5 ou 6 sejam predados. Trace um histograma dessa distribuio de probabilidade. Soluo Admitindo que a escolha seja aleatria, fazemos n = 6, q = 0,30 e, respectivamente, X = 0, 1, 2, 3, 4, 5 e 6 na frmula da distribuio binomial: ?????? ?????? = ?????? ! ?????? (1 ??????)!!! ??????

6 0 6 p(0) = (0,30 ) (0,70 ) 0,118 0 6 1 5 p(1) = (0,30 ) (0,70 ) 0,303 1 6 2 4 p(2) = (0,30 ) (0,70 ) 0,324 2 6 3 3 p(3) = (0,30 ) (0,70 ) 0,185 2

6 5 1 p(5) = (0,30 ) (0,70 ) 0,010 5 6 6 0 p(6) = (0,30 ) (0,70 ) 0,001 6

6 4 2 p(4) = (0,30 ) (0,70 ) 0,060 4

Nmerodegirinospredados

Figura 5. Histograma da distribuio binomial com n = 6 e q = 0,30.

25

REALIZANDO O MESMO EXERCCIO NO PROGRAMA R: Comandos Existem quatro funes que podem ser utilizadas para gerar os valores associados distribuio binomial. Voc pode obter uma lista completa das mesmas e as suas opes com o comando help: >help(Binomial) Quando o nmero de tentativas (size) e a probabilidade de sucesso so conhecidos para cada evento (prob) possvel utilizar o comando abaixo para descobrir a probabilidade para qualquer valor da varivel x. >dbinom(x, size, prob) No caso do exemplo acima, para descobrirmos qual a probabilidade de dois girinos serem predados, precisamos digitar o seguinte comando: >dbinom (2, size = 6, prob = 0.3) 0.324135 A probabilidade de trs girinos serem predados >dbinom (3, size = 6, prob = 0.3) 0.18522 Funo de probabilidade acumulativa - Para descobrir a probabilidade de valores menores ou iguais a X utilizamos o comando: >pbinom(q, size, prob) Para descobrirmos qual a probabilidade de dois ou menos girinos (0, 1) serem predados, precisamos digitar o seguinte comando: >pbinom (2, size = 6, prob = 0.3) 0.74431

Para descobrirmos qual a probabilidade de que cinco ou menos girinos (0, 1, 2, 3, 4) sejam predados, precisamos digitar o seguinte comando: 26

>pbinom (5, size = 6, prob = 0.3) 0.999271 Inverso da funo de probabilidade acumulativa - Um exemplo contrrio ao comando anterior utilizado quando um valor de probabilidade fornecido e o programa retorna o valor de X associado a ele. Para isso utiliza-se o seguinte comando: >qbinom(p, size, prob) Qual o valor de X (nmero de girinos predados) associado probabilidade de 0,74? >qbinom(0.74, size = 6, prob = 0.3) 2 Qual o valor de X (nmero de girinos predados) associado a probabilidade de 0,99? >qbinom(0.99, size = 6, prob = 0.3) 5 Finalmente, nmeros aleatrios podem ser gerados de acordo com a distribuio binomial com o seguinte comando: >rbinom(n, size, prob) Por exemplo, para gerar dez nmeros aleatrios de uma distribuio binomial com 20 tentativas e probabilidade 0,63. >rbinom(10, size = 20, prob = 0.63)

Voc pode plotar o grfico da funo massa de distribuio atravs do seguinte comando:

>plot(dbinom(seq(0,6, by =1), size = 6, prob = 0.3), type ="h", xlab = "Nmero de girinos predados", ylab = "Probabilidade", main = "Funo massa de probabilidade")

O grfico da funo de probabilidade acumulada pode ser plotado com o seguinte comando: >plot(pbinom(seq(0,6, by =1), size = 6, prob = 0.3),type ="h", xlab = "Nmero de girinos predados", ylab = "Probabilidade", main = "Funo de probabilidade acumulada") 27

DISTRIBUIOPOISSON Na teoria da probabilidade e na estatstica, a distribuio de Poisson uma distribuio de probabilidade discreta. Expressa a probabilidade de uma srie de eventos ocorrem em um perodo fixo de tempo, rea, volume, quadrante, etc. Esta distribuio segue as mesmas premissas da distribuio binomial: i) as tentativas so independentes; ii) a varivel aleatria o nmero de eventos em cada amostra; e iii) a probabilidade constante em cada intervalo. A probabilidade de que existam exatamente k ocorrncias (k sendo um nmero inteiro, no negativo, k = 0, 1, 2, ...) : ?????? ??????; ?????? = ?????? !! ??????! ?????? !! ??????! ??????! ??????!

e base do logaritmo natural (e = 2.71828...), k! o fatorial de k, um nmero real, igual ao nmero esperado de ocorrncias que ocorrem num dado intervalo de tempo.

Se a X ~ Pois(), isto , X uma varivel aleatria com distribuio Poisson, ento o valor esperado de X ?????? ?????? = ?????? e a varincia ?????????????????? ?????? = ?????? Exemplo Suponha que um pesquisador registrou o nmero de visitas flor de uma planta durante um perodo de 15 minutos. O nmero mdio de borboletas que visitam no perodo de 15 minutos 10 (). Determine a probabilidade de que cinco borboletas visitem a flor em 15 minutos. A probabilidade de uma borboleta visitar a mesma para quaisquer dois perodos de tempo de igual comprimento. Trace um histograma dessa distribuio de probabilidade.

28

Soluo Admitindo que a visita ou no visita de uma borboleta em qualquer perodo de tempo independente da visita ou no visita de uma segunda borboleta em qualquer outro perodo de tempo, fazemos = 10 e X = 5 na frmula da distribuio poisson:

P( X = 5) ==

10 5 e 10 = 0,0378 5!

P( X = 5) ==

10 5 e 10 = 0,0378 5!

Funo distribuio de probabilidade0.12 0.10

Probabilidade

0.00

0.02

0.04

0.06

0.08

2

4

6

8

10

12

14

Nmero de visitas

REALIZANDO O MESMO EXERCCIO NO PROGRAMA R: Comandos Existem quatro funes que podem ser utilizadas para gerar os valores associados distribuio poisson. Voc pode obter uma lista completa das mesmas e as suas opes com o comando help: >help(Poisson) Quando voc tem a mdia por unidade de tempo, rea ou quadrante () voc pode utilizar o comando abaixo para descobrir a probabilidade para qualquer valor da varivel X. >dpois(x, lambda) No caso do exemplo acima, para descobrirmos qual a probabilidade de que cinco borboletas visitem uma flor, precisamos digitar o seguinte comando: 29

>dpois (5, lambda = 10) 0.03783327 A probabilidade de que oito borboletas visitem uma flor : >dpois (8, lambda = 10) 0.1125 Funo de probabilidade acumulativa - Para descobrir a probabilidade de valores menores ou iguais a X utilizamos o comando: >ppois(x, lambda) Para descobrirmos qual a probabilidade de duas ou menos visitas (1) flor, precisamos digitar o seguinte comando: >ppois (2, lambda = 10) 0.00276 A probabilidade de cinco ou menos visitas (1, 2, 3, 4) flor : >ppois (5, lambda = 10) 0.06708 Inverso da funo de probabilidade acumulativa - Um exemplo contrrio ao comando anterior quando voc fornece um valor de probabilidade e o programa retorna o valor de X associado a ele. Para isso usa-se o seguinte comando: >qpois (p, lambda) Qual o valor de X (nmero de visitas) associado probabilidade de 0.8? >qpois (0.8, lambda = 10) 13 Qual o valor de X (nmero de visitas) associado a probabilidade de 0.1? >qpois (0.1, lambda = 10) 6

30

Finalmente nmeros aleatrios podem ser gerados de acordo com a distribuio Poisson com o seguinte comando: >rpois (n, lambda) Por exemplo, para gerar dez nmeros aleatrios de uma distribuio Poisson com mdia ( ) 22. >rbinom(10, lambda = 22)

Voc pode plotar o grfico da funo massa de distribuio atravs do seguinte comando: >plot(dpois(seq(1,10, by =1), lambda = 10), type ="h",xlab = "Nmero de visitas", ylab = "Probabilidade", main = "Funo massa de probabilidade")

O grfico da funo de probabilidade acumulada pode ser plotado com o seguinte comando: >plot(ppois(seq(1,10, by =1), lambda = 10),type ="h", xlab = "Nmero visitas", ylab = "Probabilidade", main = "Funo de probabilidade acumulada") Podemos usar a distribuio de Poisson como uma aproximao da distribuio Binomial quando n, o nmero de tentativas, for grande e p ou 1 p for pequeno (eventos raros). Um bom princpio bsico usar a distribuio de Poisson quando n 30 e n.p ou n.(1p) < 5%. Quando n for grande, pode consumir muito tempo em usar a distribuio binomial e tabelas para probabilidades binomiais, para valores muito pequenos de p podem no estar disponveis. Se n(1-p) < 5, sucesso e fracasso devero ser redefinidos de modo que Np < 5 para tornar a aproximao precisa. >plot(dbinom(seq(1,50, by =1), size =50, prob = 0.09), type

="h", ylab = "Probabilidade",

main = "Distribuio Binomial")

>plot(dpois(seq(1,50, by =1), lambda = 50*0.09), type ="h", ylab = "Probabilidade", main = "Distribuio Poisson")

31

DISTRIBUIONORMAL A distribuio normal uma das mais importantes distribuies com probabilidades contnuas. Conhecida tambm como Distribuio de Gauss ou Gaussiana. Esta distribuio inteiramente descrita por parmetros de mdia () e desvio padro (), ou seja, conhecendo-se estes parmetros consegue-se determinar qualquer probabilidade em uma distribuio Normal. A importncia da distribuio normal como um modelo de fenmenos quantitativos devido em parte ao Teorema do Limite Central. O teorema afirma que "toda soma de variveis aleatrias independentes de mdia finita e varincia limitada aproximadamente Normal, desde que o nmero de termos da soma seja suficientemente grande" (Fig. 7). Independentemente do tipo de distribuio da populao, na medida em que o tamanho da amostra aumenta, a distribuio das mdias amostrais tende a uma distribuio Normal.

!

Figura 7. Grficos demonstrando que mesmo com um grande nmero de variveis aleatrias, as distribuies tm um padro aproximadamente normal. A distribuio binomial B(n,p) aproximadamente normal N(np,np(1 p)) para grande n e para p no to prximos de 0 ou 1. Enquanto que a distribuio Poisson Pois() aproximadamente Normal N(, ) para grandes valores de . A funo de densidade de probabilidade da distribuio normal com mdia e varincia 2 (de forma equivalente, desvio padro ) assim definida,

f ( x) =

1 22

e

(x )2 2

2

Variveis aleatrias com distribuio aproximadamente normal apresentam as seguintes propriedades: Metade (50%) est acima (e abaixo) da mdia Aproximadamente 68% est dentro de 1 desvio padro da mdia 32

Aproximadamente 95% est dentro de 2 desvios padres da mdia Virtualmente todos os valores esto dentro de 3 desvios padres da mdia e . Para isso

Na prtica desejamos calcular probabilidades para diferentes valores de teramos que realizar uma 2integral: 2b

P (a < x < b ) = a

e

( x ) / 2

2

dx

Para facilitar, a varivel X cuja distribuio N ( , ) transformada em uma forma padronizada Z com distribuio N (0, 1) (distribuio Normal padro) cuja distribuio tabelada. A quantidade Z dada por :

X ~ N ( , ) Z =

Y

~ N (0,1)

Exemplo Qual a probabilidade de que um peixe capturado aleatoriamente tenha 20,15 cm ou mais, sabendo que a mdia da populao 17,1 cm e o desvio padro de 1,21 cm? Trace um histograma dessa distribuio de probabilidade. Soluo

ZL =

20.15 17.1 = 2.52 1.21

ZU =

Para descobrir a probabilidade de se capturar um peixe maior que 20,15 cm, voc precisa procurar pelo valor de Z = 2.52 em uma tabela de distribuio Z: P(X20.15)=P(Z2.52)=.0059(1/170)

Portanto, a probabilidade de se capturar um peixe aleatoriamente maior que 20,15 cm numa populao com mdia 17,1 cm e desvio de 1,21 cm de 0.006%. REALIZANDO O MESMO EXERCCIO NO PROGRAMA R: Comandos Existem quatro funes que podem ser utilizadas para gerar os valores associados distribuio Normal. Voc pode obter uma lista completa das mesmas e as suas opes com o comando help: 33

>help(Normal) Quando tem-se a mdia e o desvio padro da populao voc pode utilizar o comando abaixo para descobrir a probabilidade para qualquer intervalo. >pnorm(x, mean, sd, lower.tail = TRUE) ## Ficar atento para quando voc quer medir intervalo acima da mdia ou abaixo dela. Quando for acima, voc precisa substituir o TRUE por FALSE No caso do exemplo acima, para descobrirmos qual a probabilidade de se capturar um peixe maior que 20,15 cm, precisamos digitar o seguinte comando: >pnorm (20.15, mean = 17.1, sd = 1.21, lower.tail = FALSE) 0.0058567 Imagine que se tenha uma populao com mdia 100 cm e um desvio padro de 10 cm, para descobrir o intervalo associado com 95% de probabilidade voc deve usar o seguinte comando: >qnorm (0.95, mean = 100, sd = 10) 116.45 Para descobrir a probabilidade de se obter valores entre 80 e 120 cm, deve-se usar o seguinte comando: >pnorm(120, mean=100, sd=10) - pnorm(80, mean=100, sd=10) 0.95449 Voc pode plotar o grfico da funo densidade de probabilidade atravs do seguinte comando: x = seq(70,130,length = 200) y = dnorm(x, mean=100, sd=10) plot(x, y, type="l", lwd=2, col="red", ylab = "Probabilidade",main ="Funo densidade de probabilidade")

O grfico da funo de probabilidade acumulada pode ser plotado com o seguinte comando:

34

x = seq(70,130,length = 200) y = pnorm(x, mean=100, sd=10) plot(x, y, type="l", lwd=2, col="red", ylab = "Probabilidade",main ="Funo de probabilidade acumulada") Exerccios 1) Uma aranha predadora que vive em flores polinizadas por pequenas mariposas consome em mdia cinco mariposas por hora. Qual a probabilidade da aranha predar duas mariposas em uma hora selecionada aleatoriamente? 2) Um pesquisador verificou que seis ovos de uma determinada ave so consumidos em mdia por hora em uma rea de nidificao. a) Qual a probabilidade de que trs ovos sejam predados? b) Qual a probabilidade de que trs ou menos ovos sejam predados? 3) Um trabalho recente verificou que 1% dos fgados de cobaias submetidas ao tratamento com lcool apresentavam danos teciduais. Encontre a probabilidade de que mais de um fgado em uma amostra aleatria de 30 fgados apresente danos teciduais usando: a) Distribuio Binomial b) Distribuio Poisson 4) Uma nova tcnica de amostragem registra dez indivduos de lagartos por hora em uma rea florestal. Encontre a probabilidade de que quatro ou menos indivduos sejam registrados em uma hora aleatria. 5) Supondo que a probabilidade de um casal de ursos pandas ter filhotes albinos de . Se um casal produzir seis filhotes, qual a probabilidade de que metade deles sejam albinos? 6) Se a probabilidade de um sapo capturar uma mosca em movimento de 30%. Qual a probabilidade de que em quatro tentativas ele capture no mnimo trs moscas? 7) Um pesquisador extrai 15 amostras de DNA aleatoriamente de um banco de dados que produz 85% de amostras aceitveis. Qual a probabilidade de que dez amostras extradas sejam aceitveis?

35

8) Um populao de crocodilos tem tamanho corporal mdio de 400 cm e desvio padro de 50 cm. Qual a probabilidade de capturarmos um crocodilo dessa populao com tamanho entre 390 e 450 cm? 9) O comprimento do antebrao de uma espcie de morcego endmica do Cerrado de 4 cm com desvio padro de 0,25 cm. A partir de qual comprimento os morcegos teriam os antebraos mais compridos nessa populao? 10) Suponha que o tempo necessrio para um leo consumir sua presa siga uma distribuio normal de mdia de 8 minutos e desvio padro de 2 minutos. (a) Qual a probabilidade de que um leo consuma sua presa em menos de 5 minutos? (b) E mais do que 9,5 minutos? (c) E entre 7 e 10 minutos? 11) A distribuio dos pesos de coelhos criados em uma granja pode muito bem ser representada por uma distribuio Normal, com mdia 5 kg e desvio padro 0,9 kg. Um pesquisador comprar 5000 coelhos e pretende classific-los de acordo com o peso do seguinte modo: 15% dos mais leves como pequenos, os 50% seguintes como mdios, os 20% seguintes como grandes e os 15% mais pesados como extras. Quais os limites de peso para cada classificao? Classificao do pesquisador

15% x1 Seja,

50% x2

20% x3

15%

x1 o valor do peso que separa os 15% mais leves dos demais, x2 o valor do peso que separa os 65% mais leves dos demais, x3 o valor do peso que separa os 85% mais leves dos demais.

GeneralizedLinearModels(GLM)ModelosLinearesGeneralizados Muitos mtodos estatsticos populares so baseados em modelos matemticos que assumem que os dados seguem uma distribuio Normal, dentre eles a anlise de varincia e a 36

regresso mltipla. No entanto, em muitas situaes a suposio de normalidade no plausvel. Conseqentemente, o uso de mtodos que assumem a normalidade pode ser insatisfatrio e aumentam a probabilidade de cometermos erros inferenciais (erros do Tipo I e II). Nestes casos, outras alternativas que no pressupoem distribuio normal dos dados so atraentes e mais robustas. Podemos usar modelos lineares generalizados (GLM) quando a varincia no constante, e/ou quando os erros no so normalmente distribudos. Muitos tipos de dados tm erros no normais. No passado, as nicas maneiras capazes de lidar com esse problema eram a transformao da varivel resposta ou a adoo de mtodos no paramtricos. Em GLM, assumimos que cada resultado da varivel dependente Y seja gerado a partir de uma variedade de diferentes tipos de distribuies que lidam com esse problema: Poisson teis para dados de contagem Binomial teis para dados com propores Gamma teis para dados mostrando um coeficiente constante de varincia Exponencial teis com dados de anlises de sobrevivncia Existem muitas razes para usar GLMs, em vez de regresso linear. Dados de presena-ausncia so (geralmente) codificados como 1 e 0, os dados proporcionais so sempre entre 0 e 100%, e os dados de contagem so sempre no-negativos. GLMs usados para 0-1 e dados proporcionais so normalmente baseados em distribuio binomial e para dados de contagem as distribuies de Poisson e binomial negativa so opes comuns. A mdia, , da distribuio depende das variveis independentes, X, e calculada atravs de: ?????? ?????? = ?????? = g !?????? (????????????) onde E (Y) o valor esperado de Y; X o preditor linear, uma combinao linear de parmetros desconhecidos, ; g a funo de ligao. GLM consiste em trs etapas: 1. Uma hiptese sobre a distribuio da varivel resposta Yi. Isso tambm define a mdia e a varincia de Yi. (e.x., Distribuio Poisson, Binomial, Gamma). 2. Especificao da parte sistemtica. Esta uma funo das variveis explicativas. ??????! = ?????? + ??????! ??????!! + ??????! ??????!! + + ??????! ??????!!

37

3. A relao entre o valor mdio de Yi e a parte sistemtica. Esta tambm chamada de ligao entre a mdia e a parte sistemtica (Tabelas 2 e 3). Tabela 2. Funes de ligaes para GLM.

Tabela 3. Algumas das ligaes mais comuns para GLM.

Likelihood Os passos finais do processo de modelagem so constitudos pela estimativa dos parmetros a partir dos dados e teste dos modelos uns contra os outros. Estimar os parmetros dos modelos significa achar os parmetros que fazem o modelo se ajustar melhor aos dados coletados. Nosso goodness-of-fit ser baseado na probabilidade (likelihood) - a probabilidade de se encontrar nossos dados dado um modelo particular. Queremos a estimativa da mxima verossimilhana (maximum likelihood estimate) dos parmetros aqueles valores dos parmetros que fazem os dados observados mais provveis de terem acontecido. Uma vez que 38

as observaes so independentes, a juno das probabilidades dos dados totais o produto das probabilidades de cada observao individual. Por convenincia matemtica, sempre maximizamos o logaritimo das probabilidades (log-likelihood) ao invs da probabilidade direto.

LikelihoodRatioTest Os modelos GLM so ajustados aos dados pelo mtodo de mxima verossimilhana, proporcionando no apenas estimativas dos coeficientes de regresso, mas tambm estimando erros padres dos coeficientes. Ns podemos utilizar a likelihood ratio test (LRT) para escolher modelos em certas situaes. A LRT compara dois modelos aninhados, testando se os parmetros aninhados do modelo mais complexo diferem significativamente do valor nulo. Um modelo mais simples (com menos parmetros) aninhado em outro, mais complexo (com mais parmetros), se o modelo complexo for reduzido para o mais simples pela retirada de um dos parmetros. Em outras palavras, ele testa se h necessidade de se incluir um parmetro extra no modelo para explicar os dados. O residual deviance para um GLM Dm = 2 (loge Ls - loge Lm), onde Lm a mxima verossimilhana sob o modelo em questo, e Ls a mxima verossimilhana sob um modelo saturado (modelo mais complexo) que dedica um paramtro para cada observao e consequentemente ajusta os dados o mais prximo possvel. O residual deviance anlogo soma dos quadrados dos resduos para um modelo linear. Em GLM para o qual o parmetro de disperso fixado em 1 (binomial e Poisson), a razo da verossimilhana estatstica do teste a diferena dos residual deviance para os modelos aninhados. LRT apresenta uma distribuio de qui-quadrado com k1- K0 graus de liberdade. Para GLM em que existe um parmetro para estimar a disperso (Gaussian, Quasi-poisson e Gamma), podemos comparar modelos aninhados por um teste F.

Akaike Information Criterion (AIC) - Critrio de Informao de Akaike O critrio de Akaike uma ferramenta para seleo de modelos, pois oferece uma medida relativa do goodness-of-fit (qualidade do ajuste) de um modelo estatstico. AIC no fornece um teste de um modelo no sentido usual de testar uma hiptese nula, ou seja, ele no pode dizer nada sobre o quo bem o modelo ajusta os dados em um sentido absoluto. No caso geral, AIC ?????????????????? = 2?????? 2ln(??????)

39

onde k o nmero de parmetros no modelo estatstico, e L o valor maximizado da funo likelihood para o modelo estimado. Dado um conjunto de modelos candidatos, o modelo preferido aquele com o valor mnimo de AIC. O valor de AIC no s recompensa goodnessof-fit, mas inclui tambm uma penalizao que uma funo crescente do nmero de parmetros estimados. Esta penalidade desencoraja overfitting (aumentando o nmero de parmetros livres no modelo melhora a qualidade do ajuste, independentemente do nmero de parmetros livres no processo de gerao de dados). AICC AIC com uma correo para amostras finitas: ??????????????????! = ?????????????????? + 2??????(?????? + 1) ?????? ?????? 1

onde k denota o nmero de parmetros do modelo. Assim, AICC AIC com uma maior penalizao para os parmetros extra. Burnham & Anderson (2002) recomendam o uso do AICC, ao invs de AIC, se n for pequeno ou k grande. Uma vez que o valor de AICc converge para AIC quando n se torna grande, AICc geralmente devem ser empregados independentemente do tamanho da amostra. Usar AIC, em vez de AICC, quando n no muitas vezes maior do k2 aumenta a probabilidade de seleo dos modelos que tm muitos parmetros (overfitting). Uma outra comparao entre os modelos pode ser baseada no clculo do Peso do Akaike (Akaike weigths - Buckland et al. 1997). Se existem M modelos candidatos, ento o peso para o modelo i :

???????????? =

??????????????????(/2) 1 2 ?????? exp 2 + exp 2 + exp( 2 )

onde a diferena entre o valor do AIC entre modelo i e os modelos restantes. Os pesos do Akaike calculados desta forma so usados para medir a fora da evidncia em favor de cada um dos modelos, com um grande peso indicando alta evidncia. Dez orientaes para Seleo de Modelo 1) Cada modelo deve representar uma hiptese (interessante) especfica a ser testada. 2) Mantenha os sub-grupos de modelos candidatos curtos. desaconselhvel considerar tantos modelos quanto o nmero de dados que voc tem.

40

3) Verificar a adequao do modelo: use o seu modelo global (modelo mais complexo) ou modelos subglobais para determinar se as hipteses so vlidas. Se nenhum dos modelos se ajustar aos dados, critrios de informao indicaro apenas o mais parcimonioso dos modelos mais pobres. 4) Evitar a dragagem de dados (e.g., procura de padres aps uma rodada inicial de anlise). 5) Evite modelos overfitted. 6) Tenha cuidado com os valores faltantes (NA). Lembre-se de que valores faltantes somente para algumas variveis alteram o tamanho do conjunto de dados e amostras dependendo de qual varivel includa em um dado modelo. sugirido remover casos omissos antes de iniciar a seleo de modelos.

7) Use a mesma varivel resposta para todos os modelos candidatos. inadequado executar alguns modelos com varivel resposta transformados e outros com a varivel no transformada. A soluo usar uma funo de ligao diferente para alguns modelos (e.g., identity vs. log link). 8) Quando se trata de modelos com overdispersion, utilize o mesmo valor de c-hat para todos os modelos em um conjunto de modelos candidatos. Para modelos binomiais com trials > 1 ou com Poisson GLM, deve-se estimar o c-hat do modelo mais complexo (modelo global). Se c hat > 1, deve-se usar o mesmo valor para cada modelo do conjunto de modelos candidatos e incluilo na contagem dos parmetros (K). Da mesma forma, para binomial negativa, voc deve estimar o parmetro de disperso do modelo global e usar o mesmo valor em todos os modelos. 9) Burnham e Anderson (2002) recomendam evitar misturar a abordagem da teoria da informao e noes de significncia (ou seja, os valores P). melhor fornecer estimativas e uma medida de sua preciso (erro padro, intervalos de confiana). 10) Determinar o ranking das modelos apenas o primeiro passo. A soma do Peso Akaike 1 para o modelo de todo o conjunto e pode ser interpretado como o peso das evidncias em favor de um determinado modelo. Modelos com grandes valores do Peso Akaike tm forte apoio. Taxas de evidncias, valores de importncia, e intervalo de confianca para o melhor modelo so outras medidas que auxiliam na interpretao. Nos casos em que o melhor modelo do ranking tem um Peso Akaike > 0,9, pode-se inferir que este modelo o mais parcimonioso. Quando muitos modelos so classificados por valores altos (ou seja, o delta (Q) AIC (c) < 2 ou 4), devese considerar a mdia dos parmetors dos modelos de interesse que aparecem no topo. A mdia dos modelos consiste em fazer inferncias com base no conjunto de modelos candidatos, em vez 41

de basear as concluses em um nico "melhor" modelo. uma maneira elegante de fazer inferncias com base nas informaes contidas no conjunto inteiro de modelos. Exemplos A partir dos exemplos a seguir irei explicar os comandos bsicos necessrios para realizar as anlises de GLM. altamente recomendvel que vocs recorram aos livros sugeridos no incio desta apostila para um aprofundamento no assunto e para que possam realizar anlises mais complexas. Carregando pacotes necessrios para as anlises >library(languageR) >library(nlme) >library(glmmML) >library(lme4) >library(AICcmodavg) >library(bestglm) >library(mgcv) >library(MuMIn) >library(pscl) >library(MASS) >library(bbmle) >library(lattice) >library(AED) ## Esse pacote tem deve ser baixado da pgina #http://www.highstat.com/book2.htm Primeiro Exemplo >data(RoadKills) Portugal Teoria: Ecologia de Paisagem Varivel dependente: Nmero de anfbios mortos Questo: Quais variveis da paisagem melhor explicam a mortalidade de anfbios? >RK M1 step(M1) ## Esse comando faz a seleo automaticamente Outra maneira de utilizar Akaike Information Criterion. preciso construir os modelos de acordo com suas hipteses ou retirando as variveis que no apresentam um efeito significativo. >M2 M3 M4 AIC AIC Contudo, quando o nmero de amostras dividido pelo nmero de paramtros for < 40 recomendado utilizar um AIC corrigido (AICc) para pequenas amostras. Na verdade, como em 43 D.PARK, family = poisson, SQ.SHRUB + family =

grandes amostras o valor de AICc tende ao valor de AIC sem correo, recomendado sempre utilizar AICc. >AICc AICc Terceira maneira de calcular AIC, AICc Cria um vetor com lista de modelos: >Modelos Modelos [[1]] Modelos [[2]] Modelos [[3]] Modelos [[4]] (Modnames (res.table (res.table drop1(M1,test = "Chi") # A diferena entre as deviance dos modelos apresenta uma distribuio chi- square com p1 - p2 graus de liberdade >DM1 drop1(DM1, test = "Chi") D.PARK, family =

Este resultado indica que podemos retirar a varivel SQ.DWATCOUR, pois o modelo sem esta varivel tem o mesmo poder de explicao do modelo com esta varivel. Repita o processo at que nenhuma varivel possa ser retirada do modelo. OVERDISPERSION Contudo a vida no to simples, antes de analisar os resultados e realizar as anlises de seleo voc precisa checar se os seus dados possuem overdispersion. A overdispersion significa que a varincia maior do que a mdia.

45

Como saber se os dados apresentam overdispersion? >M1 summary(M1)

Veja que o resultado mostra que o parmetro de disperso para famlia Poisson tem que ser 1. Nesse caso o parmetro de disperso do seu modelo 270,23/42 = 6,43. Desse modo, seu modelo apresenta overdispersion e voc no pode continuar a anlise considerando a famlia Poisson. Existem duas alternativas: corrigir o Poisson com Quasi-Poisson ou usar a distribuio Binomial Negativa. QUASI-POISSON >M4 summary(M4)

L.WAT.C

SQ.LPROAD+

D.PARK,

family = quasipoisson, data = RK)

46

Veja que o parmetro de disperso f estimado em 5,93. Isto significa que todos os erros padres foram multiplicados por 2,43 (a raiz quadrada de 5,93), e como resultado, a maioria dos parmetros no so mais significativos. No escreva na sua dissertao ou artigo que usou uma distribuio Quasi-Poisson. Quasi-Poisson no uma distribuio. Basta dizer que voc fez GLM com distribuio Poisson, detectou overdispersion, e corrigiu os erros padres usando um modelo Quasi-GLM, onde a varincia dada por f , onde a mdia e f o parmetro de disperso. Seleo modelos em Quasi-Poisson Quando inserirmos uma varivel para a disperso, os modelos no podem ser comparados por qui-quadrado. Eles so comparados por distribuio F. >drop1(M4, test = "F")

Repita o procedimento at que nenhuma varivel possa ser retirada do modelo. Modelo final selecionado >M12 G F FSEUP FSELOW plot(RK$D.PARK, RK$TOT.N, xlab = "Distance to park", ylab = "Nmero de anfbios mortos") >lines(RK$D.PARK, F, lty = 1, col = "red") >lines(RK$D.PARK, FSEUP, lty = 2, col = "red") >lines(RK$D.PARK, FSELOW, lty = 2, col = "red") Em Quasi-Poisson no possvel calcular o valor de AIC. Por isso, necessrio calcular um valor de QUASI-AIC >dd1 MQP1 MQP MQP [[1]] MQP [[2]] MQP SQ.WATRES MQP [[4]] MQP [[5]] MQP [[6]] MQP [[7]] MQP [[8]] MQP [[9]] (Modnames c_hat(MQP[[1]]) >c_hat(MQP[[2]]) >c_hat(MQP[[3]]) >c_hat(MQP[[4]]) >c_hat(MQP[[5]]) >c_hat(MQP[[6]]) >c_hat(MQP[[7]]) >c_hat(MQP[[8]]) >c_hat(MQP[[9]]) Gera uma tabela com valores de QAIC: >(res.table NB odTest(NB) + L.WAT.C + SQ.LPROAD + SQ.DWATCOUR + D.PARK, link="log", data=RK)

O resultado mostra que a LRT entre Poisson e Binomial Negativa com uma diferena na deviance de 141.515 e com grau de liberdade 1 p < 0.0000. Portanto, Binomial Negativa melhor que Poisson. Modelos de Binomial Negativa: >NB1 NB2 NB3 NB4 NB5 NB6 NB7 NB8 AIC AIC Seleo dos modelos por AICc: >AICc AICc Likelihood Ratio Test (LRT) >drop1(NB1,test="Chi") Repita o procedimento at que nenhuma varivel retirada apresente efeito siginificativo na comparao. Para o modelo final, os autores justificaram a retirada de L.WAT.C porque seu valor estava muito prximo de 0.05. Modelo Final: >NB8 summary(NB8) BINOMIAL NEGATIVA >plot (NB8) QUASI-POISSON >mu E EP2 plot(x = mu, y = EP2, main = "Quasi-Poisson", 51

ylab = "residuos", xlab = "predito") abline(h = 0, v = 0) Comparando os resduos do modelo final da Binomial Negativa e Quasi-Poisson vemos que os resduos da Binomial no apresentam um padro, enquanto a Quasi-Poisson apresenta. Ento, Binomial melhor. GLM BINOMIAL Agora mostraremos um exemplo bem simples com dados de presena e ausncia. GLM com dados binrios ou proporo so tambm chamados de regresso logstica. >data(Boar) >head(Boar) Varivel dependente: presena ou ausncia de tuberculose. Varivel independente: Comprimento do javali (cabea-tronco). >B1 = glm ( Tb ~ LengthCT, family = binomial, data = Boar) >summary(B1) Likelihood Ratio Test: >drop1 (B1, test="Chi")

Funo para fazer o grfico: >MyData Pred Plot (x = Boar$LengthCT, y = Boar$Tb, xlab = "Comprimento", ylab = "Probabilidade de tuberculose") >lines(MyData$LengthCT,Pred) Segundo exemplo Binomial >data(Tbdeer) Varivel dependente: proporo de infectados. Varivel independente: variveis da paisagem. Transforma a varivel Fenced em vetor: >Tbdeer$fFenced Tbdeer$DeerPosProp Deer2 + summary(Deer2)

Como na distribuio Poisson, quando trabalhamos com distribuio Binomial temos que verificar se existe overdispersion no modelo. Nesse caso, 152,79/15 = 10,18. A varincia maior que a mdia. Portanto, utilizamos um modelo corrigido por Quasi-Binomial. 53

QUASI-BINOMIAL >Deer2 drop1(Deer2,test="F") Continue at que no seja permitido retirar mais nenhuma varivel. Modelo final: >Deer8 MyData P1 plot(MyData$OpenLand,exp(P1$fit)/(1+exp(P1$fit)), type="l",ylim=c(0,1), xlab="Porcentagem de rea aberta", ylab="Probabilidade de infeco por E. cervi") >lines(MyData$OpenLand,exp(P1$fit+1.96*P1$se.fit)/ (1+exp(P1$fit+1.96*P1$se.fit)),lty=2) >lines(MyData$OpenLand,exp(P1$fit-1.96*P1$se.fit)/ (1+exp(P1$fit-1.96*P1$se.fit)),lty=2) >points(Tbdeer$OpenLand,Tbdeer$DeerPosProp) Este resultado sugere que quanto maior a porcentagem de rea aberta menor a probabilidade de amostrar um veado com infeco por E. cervi.

54

Visualizao dos resduos: >EP = resid(Deer8,type = "pearson") >mu = predict(Deer8,type = "response") >E = Tbdeer$DeerPosProp - mu >plot(x = mu,y = EP, main="Pearson residuals") >plot(Deer8) Generalized Mixed Effects Models So usados para modelos mais complexos com design em blocos, medidas repetidas, split plot e dados aninhados. Aprensenta dois efeitos dentro da formla do modelo: EFEITO FIXO - depende somente da mdia as variveis independentes de interesse. EFEITO ALEATRIO - depende somente da varincia (no queremos medir o efeito, e.g. blocos). Exemplo 1 >data(RIKZ) Riqueza de animais marinhos bentnicos em nove praias, cada praia com cinco amostras. NAP = altura da estao de amostral em relao ao nvel da mar PERGUNTA: Existe relao positiva entre a riqueza e a NAP? Transforma praia em fator: >RIKZ$fBeach Mlme1 F0 F1 I NAPs plot(NAPs,F0[I],lwd=4,type="l",ylim=c(0,22), espcies",xlab="NAP") for (i in 1:9){ x1library(vegan) >library(BiodiversityR)

Imagine que voc tenha a mesma tabela acima salva no R com o nome est. Aps carregar essa tabela voc pode obter o valor de Chao 1 atravs do seguinte comando: >est Chao1 summary(Chao1, display = chao)

Outra maneira de conseguir o mesmo valor: >est1 Chao1 Chao1 CHAO 2 De acordo com Anne Chao, o estimador Chao 1 pode ser modificado para uso com dados de presena/ausncia levando em conta a distribuio das espcies entre amostras. Neste caso necessrio somente conhecer o nmero de espcies encontradas em somente uma amostra e o nmero de espcies encontradas exatamente em duas amostras. Essa variao ficou denominada Chao 2: ??????????????????! = ??????!"# + onde: L = nmero de espcies que ocorrem apenas em uma amostra (espcies uniques) M = nmero de espcies que ocorrem em exatamente duas amostras (espcies duplicates) O valor de Chao 2 mximo quando todas as espcies menos uma so nicas (singletons). Neste caso, a riqueza estimada aproximadamente o dobro da riqueza observada. 71 ??????! 2??????

Collwel & Coddington (1994) encontraram que o valor de Chao 2 mostrou ser o estimador menos enviesado para amostras com tamanho pequeno. Exemplo: Usando os dados da tabela 1 calcule o valor de Chao 2 para a comunidade: Chao 2 = 14 + [(22)/(2*3)] = 14 + (4/6) = 14 + 0.66 Chao 2 = 14.66

REALIZANDO O MESMO EXERCCIO NO PROGRAMA R: Comandos A funo poolaccum do pacote vegan apresenta resultados mais completos com valores de riqueza de espcie estimado para cada amostra >est Chao2 summary(Chao2, display = chao)

Os comandos specpool e diversityresult so mais simples e diretos, pois apresentam somente o valor final estimado: >Chao2 Chao2 >Chao2 est ACE summary(ACE, display = ace)

Outra maneira de conseguir o mesmo valor: >est1ACE ACE ICE (Incidence-based Coverage Estimator) Este mtodo trabalha com o nmero de espcies infreqentes (que ocorrem em poucas unidades amostrais). Esse mtodo permite ao pesquisador determinar os limites para os quais uma espcie seja considerada infreqente. Em geral, so consideradas como tal espcies com incidncia entre 1 e 10 indivduos (Chazdon et al. 1998) ou 1 a 20 (Walther & Morand 1998). A riqueza estimada pode variar conforme se aumente ou diminua o limiar de incidncia, e

75

infelizmente no existem critrios biolgicos definidos para a escolha do melhor intervalo (Santos 2003). ?????????????????? = ??????!"#$ + ??????!"# ! ??????! ! + ?????? ??????!"# ??????!"# !"#

onde: ! ??????!"# = ??????????????????

??????!"# ! ??????!"# ! ??????!"# (??????!"# !!! )

!" !!! ??????(??????

1)??????!

(??????!"# ! )!

1

??????!"# = 1 + !"

??????! ??????!"# !

??????!"#! =!!!

????????????!

REALIZANDO O EXERCCIO NO PROGRAMA R: Comandos >est ICE summary(ICE, display = ice)

Outra maneira de conseguir o mesmo valor: >ICE ICE BOOTSTRAP Este mtodo difere dos demais por utilizar dados de todas as espcies coletadas para estimar a riqueza total, no se restringindo s espcies raras. Ele requer somente dados de

76

incidncia. A estimativa pelo bootstrap calculada somando-se a riqueza observada soma do inverso da proporo de amostras em que cada espcie ocorre.!!"#

???????????????????????? = ??????!"# + !!!

(1 ??????! )!

Onde: Pk = proporo do nmero de amostras em que cada espcie foi registrada m = nmero de amostras Exemplo: Usando os dados da tabela 1 calcule o valor de bootstrap para a comunidade: Bootstrap = 14 + [ (1- 8/14)14 +(1- 2/14)14 +(1- 10/14)14 +(1- 10/14)14 +(1- 3/14)14 +(1- 3/14)14 +(1- 2/14)14 + (1- 7/14)14 +(1- 5/14)14 +(1- 1/14)14 +(1- 5/14)14 +(1- 2/14)14 +(1- 14/14)14 +(1- 1/14)14] Bootstrap = 14 + 1 ,127 Boostrap = 15,127

REALIZANDO O MESMO EXERCCIO NO PROGRAMA R: Comandos >est BOOT summary(BOOT, display = boot)

Outra maneira de conseguir o mesmo valor: >BOOT BOOT >BOOT mata.atlantica=read.table("mata.atlantica.txt", header=T) >H=diversity(mata.atlantica, index="shannon") >D=diversity(mata.atlantica, index="simpson") >D.inv=diversity(mata.atlantica, index="invsimpson") >riqueza=specnumber(mata.atlantica) >diversidade.MA=cbind(riqueza, H, D, D.inv) >diversidade.MA >pairs(cbind(riqueza, H, D, D.inv), pch="+", col="black") Praticando: Exemplo 1: Bromlias geralmente acumulam gua no fitotelmata e diversos grupos de artrpodes utilizam esses tanques para depositar ovos. Desse modo, as larvas aquticas desses animais vivem imersas at atingirem a fase adulta. Uma biloga coletou larvas em quatro espcies de bromlias-tanque (n=30 plantas de cada espcie) e dividiu cada bromlia em trs grupos de tamanho: pequena ( 601 ml de gua acumulada; n=10/espcie). Utilize os arquivos bromelias.txt e bromelia1.txt. Pergunta 1: Qual espcie de bromlia possui maior diversidade de artrpodes aquticos? Pergunta 2: O volume de gua afeta a diversidade de espcies de artrpodes aquticos na Bromlia sp.1? - Teoria: teoria da biogeografia de ilhas (volume de hbitat). 83

- Unidade amostral: bromlia - Varivel dependente: diversidade medida por algum ndice de diversidade - Varivel independente: espcie de bromlia, volume (categorias pequena, mdia e grande) Responda: Qual a espcie de bromlia com maior diversidade? O volume de gua acumulada no fitotelmata aumenta a diversidade de artrpodes na Bromlia sp.1? Utilize as funes do R que aprendeu e calcule o ndice de Shannon e Simpson.

Curvas de dominncia ou Padro de Distribuio da Abundncia das Espcies (SADs) Uma alternativa mais interessante para investigar concomitantemente a riqueza e a equitabilidade das espcies numa comunidade a construo de curvas de dominncia, conhecida na literatura ecolgica por Species Abundance Distributions (SADs), curvas de dominncia ou diagramas de abundncia relativa. Essas curvas descrevem a abundncia das espcies encontradas na comunidade (McGill et al. 2007). A maioria das comunidades dominada por poucas espcies, um padro conhecido como na literatura como J invertido. Uma maneira comum de representar graficamente as curvas de dominncia organizar as espcies em ordem decrescente de abundncia no eixo x (i.e., da espcie mais abundante para a menos abundante) e o log da abundncia de cada espcie no eixo y (Fig. 9a). A representao desses diagramas evidencia as diferenas no padro de equibilidade entre diferentes comunidades. Aps o trabalho de Whittaker (1965), a utilizao de diagramas de abundncia relativa ganhou fora, especialmente para ilustrar as modificaes na flora ou na fauna durante a sucesso ecolgica ou aps um impacto ambiental. A informao mais bsica que pode ser retirada dos diagramas est na inclinao das curvas; quanto maior a inclinao, maior a dominncia da comunidade estudada (Fig. 9b). Alm disso, quanto mais longa a curva, maior a riqueza de espcies da comunidade. Diversos trabalhos propuseram modelos tericos para explicar os padres de distribuio da abundncia das espcies (Tokeshi 1999, Hubbel 2001, Magurran 2004, McGill et al. 2007). Alguns deles tm origem puramente estatstica, como o modelo Log-normal, enquanto outros foram criados a partir de um arcabouo terico (biolgico) explcito, como os modelos Broken-Stick (nomeado null no pacote radfit do R), srie geomtrica (preemption no R), Zipf e Zipf-Mandelbrot. A abundncia esperada (LNar) segundo o modelo estatstico Log-normal para a espcie da ordem r : ??????????????????! = exp(log ?????? + ??????????????????????????????) 84

Onde N representa o desvio Normal e e so os coeficientes da frmula. A abundncia esperada (BSar) para a espcie na ordem (do ingls rank) r para o modelo BrokenStick : ??????????????????! = (??????/??????)! !!!

(1/??????)

Onde J representa o nmero total de indivduos na comunidade e S o nmero total de espcies. Para o modelo Srie Geomtrica, a abundncia esperada (GSar) para a espcie da ordem r : ??????????????????! = ????????????(1 ??????)!!! Onde J representa o nmero total de indivduos na comunidade e o coeficiente uma estimativa da taxa de decrscimo da abundncia por ordem r. Para o modelo Zipf, a abundncia esperada (Zar) para a espcie da ordem r : ????????????! = ????????????! ?????? ! Onde J representa o nmero total de indivduos na comunidade, p1 a proporo ajustada da espcie mais abundante e o coeficiente de decrscimo da abundncia por ordem r. O modelo Zipf-Mandelbrot acrescenta um parmetro na frmula do Zipf para estimar a abundncia (ZMar) da espcie da ordem r: ??????????????????! = ????????????(?????? + ??????)! Onde J representa o nmero total de indivduos na comunidade, c e so constantes de escala e o coeficiente de decrscimo da abundncia por ordem r (Wilson 1991).

A)Nmerodeespcies

160 140

B)

10090 80 70

ComunidadeA ComunidadeB ComunidadeC

Abundncia

120 100

60 50 40 30 20 10 0

8060 40 20 0

1

2

3

4

5

10

20

40

60

1

2

3

4

5

6

7

8

9

10 11 12 13 14 15 16 17 18 19 20

Ordemdasespcies

Figura 9. Duas representaes comuns do padro de distribuio da abundncia das espcies. (A) Representao bsica com o nmero de espcies com suas respectivas abundncias organizadas em ordem decrescente. (B) Diagramas de abundncia relativa (ou curvas de dominncia) que podem ser utilizados para comparar o padro de dominncia entre diferentes comunidades. 85

Nmerodeindivduos

Escolhendo o melhor modelo terico no R > library(vegan) > rios=read.table("rios.txt", h=T) > rios > rad.rio1=radfit(rios[1,]) > rad.rio1 > plot(rad.rio1, xlab="Ordem das espcies", ylab="Abundncia", pch=19) > rad.rio2=radfit(rios[2,]) > rad.rio2 > plot(rad.rio2, xlab="Ordem das espcies", ylab="Abundncia", pch=19) > rad.rio3=radfit(rios[3,]) > rad.rio3 > plot(rad.rio3, xlab="Ordem das espcies", ylab="Abundncia", pch=19) > par(mfrow=c(2, 2)) > plot(rad.rio1, main="Rio 1", xlab="Ordem das espcies", ylab="Abundncia", pch=19) > plot(rad.rio2, main="Rio 2", xlab="Ordem das espcies", ylab="Abundncia", pch=19) > plot(rad.rio3, main="Rio 3", xlab="Ordem das espcies", ylab="Abundncia", pch=19) Praticando: Exerccio 1: A biloga responsvel pela Secretaria de Meio Ambiente do Municpio de Florianpolis/SC precisa determinar a qualidade da gua das seis praias mais movimentadas da cidade. Este trabalho surgiu aps reclamaes de banhistas e de pescadores de algumas dessas praias. A biloga mediu os nveis de colifrmes fecais e coletou peixes em vrios pontos de cada praia. Um estagirio derrubou o computador da biloga e perdeu todos os dados dessa pesquisa. Por sorte, a biloga havia anotado todos os dados referentes aos peixes coletados nas praias. Porm, os dados sobre os nveis de colifrmes fecais s foram anotados em arquivo digital. Com recursos limitados, a biloga no pde refazer as anlises da qualidade da gua e precisa realizar uma avaliao indireta a partir dos dados de riqueza e abundncia de peixes. Teoria: Teoria do distrbio + Distribuio da Abundncia das Espcies (SADs)

86

Pergunta: Praias mais poludas possuem padro de distribuio da abundncia da espcies mais equitativo? Unidade amostral: Pontos de amostragem em cada praia Varivel dependente: Abundncia relativa Varivel independente: Praia Importe a planilha peixes.floripa.txt e indique a partir dos diagramas de abundncia relativa qual a praia com melhor e pior qualidade da gua. Informe os modelos tericos que melhor explicam o padro de distribuio de abundncia de cada praia e faa um diagrama de abundncia relativa para cada praia e uma figura contendo todos os diagramas na mesma janela.

Diversidade beta Desde o incio da ecologia, a identidade das espcies que constituem determinada comunidade (i.e., composio de espcies) tem gerado uma srie de hipteses importantes para o entendimento de como os organismos se distribuem no espao e no tempo. Uma das principais perguntas sobre esse assunto O que torna comunidades de espcies mais ou menos similares em diferentes lugares e tempos? (Vellend 2010). Aps os influentes estudos do eclogo Robert Whittaker (Whittaker 1960, 1972), o termo diversidade beta (i.e., variao na composio de espcies entre reas) ganhou fora na literatura ecolgica. Nas duas ltimas dcadas, o nmero de trabalhos aumentou expressivamente com o desenvolvimento de novos mtodos para medir a diversidade beta e de novos pacotes estatsticos. A grande quantidade de medidas, abordagens estatsticas, termos e interpretaes para a diversidade beta aumentaram a confuso em relao s maneiras corretas de acessar e testar os padres de modificao na composio de espcies (Tuomisto 2010a,b, Anderson et al. 2011). Nesta apostila utilizaremos um roteiro prtico baseado em hipteses sugerido recentemente por Anderson et al. (2011). Primeiro, importante diferenciar dois tipos de conceito de diversidade beta, o conceito de substituio (turnover) e de variao. A substituio representa a modificao na composio de espcies de uma unidade amostral para a outra ao longo de um gradiente espacial, temporal ou ambiental. A substituio requer um gradiente que indique direo como, por exemplo, investigar a mudana na composio de espcies ao longo de um gradiente de profundidade em um lago (Fig. 10a). As principais questes testadas na anlise de substituio so: (1) quantas novas espcies so encontradas ao longo de um gradiente e quantas delas foram inicialmente presentes e agora foram perdidas? (2) Qual a proporo de espcies encontradas em uma unidade amostral que no so compartilhadas com a prxima unidade do gradiente? 87

Por outro lado, a variao representa a modificao na composio de espcies entre um grupo de unidades amostrais (Fig. 10b). A variao necessariamente no-direcional e representa a modificao das espcies dentro de uma extenso espacial ou temporal determinada, ou dentro de um mesmo fator (e.g., tipo de hbitat, fragmentos florestais). As principais questes testadas na anlise de variao so: (1) podemos encontrar as mesmas espcies repetidamente entre diferentes unidades? (2) Qual a proporo esperada de espcies no compartilhadas entre todas as unidades amostrais? Antes de usar os ndices propostos nessa apostila, leia atentamente o artigo recentemente publicado na Ecology Letters (Anderson et al. 2011) para escolher corretamente o ndice que responde a sua questo. Alm disso, Koleff et al. (2003) e Legendre & Legendre (1998) so extremamente importantes para compreender a formulao e caractersticas de cada um dos ndices de diversidade beta.A) B)

TransectoUnidadeamostral

Gradienteespacial,temporalouambiental

Figura 10. Diagrama esquemtico dos dois tipos de diversidade beta: (A) substituio, mede taxa de modificao na composio de espcie em relao a um gradiente direcional; (B) variao, mede a diferena na composio de espcies entre grupos de unidades amostrais e no-direcional (adaptado de Anderson et al. 2011).

Mtricas para medir a diversidade beta Um dos primeiros ndices propostos para medir a diversidade beta o ndice de Whittaker (w), que examina a taxa de diferenciao na diversidade alfa (riqueza local; ) entre duas ou mais comunidades em