Apostila Software Estatistico R

Download Apostila Software Estatistico R

Post on 24-Nov-2015

11 views

Category:

Documents

0 download

Embed Size (px)

TRANSCRIPT

  • Minicurso de Estatstica Bsica:Minicurso de Estatstica Bsica:Introduo ao software R

    http://www.ufsm.br/pet-ee

    Programa de Educao Tutorial - Engenharia EltricaUniversidade Federal de Santa Maria

    Santa Maria, Abril de 2009

    Ministrantes:Bruno Fontana da SilvaJean DinizMatias Amrico Bortoluzzi

    Nome: _______________

  • Sumrio

    1 Prefcio 51.1 O Projeto R . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51.2 Programa de Educao Tutorial - Engenharia Eltrica (UFSM) . . . . . . 6

    2 Introduo 72.1 Apresentando o R . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 72.2 Interface do R . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 72.3 Sintaxe do R . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 82.4 Tinn-R Editor . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 82.5 Tipos de Dados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 92.6 Comandos Bsicos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10

    2.6.1 Utilizando Ajuda . . . . . . . . . . . . . . . . . . . . . . . . . . 112.6.2 Atribuio de Valores . . . . . . . . . . . . . . . . . . . . . . . 112.6.3 Comandos Auxiliares . . . . . . . . . . . . . . . . . . . . . . . . 122.6.4 Operaes matemticas simples . . . . . . . . . . . . . . . . . . 132.6.5 Funes matemticas simples . . . . . . . . . . . . . . . . . . . 132.6.6 Nmeros complexos . . . . . . . . . . . . . . . . . . . . . . . . 14

    2.7 Vetores e Matrizes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 152.7.1 Definio . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 152.7.2 Declarao de vetores . . . . . . . . . . . . . . . . . . . . . . . 152.7.3 Arrays e Matrizes - Definio e Declarao . . . . . . . . . . . . 162.7.4 Operaes e funes com Matrizes . . . . . . . . . . . . . . . . 17

    2.8 Entrada de Arquivos Externos . . . . . . . . . . . . . . . . . . . . . . . 192.9 Arquivos provenientes da internet . . . . . . . . . . . . . . . . . . . . . 21

    3 Grficos 223.1 Introduo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22

    3.1.1 Comandos Bsicos . . . . . . . . . . . . . . . . . . . . . . . . . 223.1.2 Criando Novas Janelas Grficas e Salvando Grficos . . . . . . . 243.1.3 Outras Funcionalidades . . . . . . . . . . . . . . . . . . . . . . 25

    3.2 Grficos de Anlise Descritiva . . . . . . . . . . . . . . . . . . . . . . . 273.2.1 Histograma . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 273.2.2 Barplot . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 293.2.3 Boxplot . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 303.2.4 Grfico de Ramo e Folhas . . . . . . . . . . . . . . . . . . . . . 323.2.5 Grfico de Pizza . . . . . . . . . . . . . . . . . . . . . . . . . . 33

    4 Estatstica Descritiva 344.1 Introduo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 344.2 Medidas de Posio . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34

    2

  • 4.2.1 Mdia Aritmtica X . . . . . . . . . . . . . . . . . . . . . . . . 344.2.2 Mediana Md . . . . . . . . . . . . . . . . . . . . . . . . . . . 354.2.3 Moda Mo . . . . . . . . . . . . . . . . . . . . . . . . . . . . 364.2.4 Quartis (Q) . . . . . . . . . . . . . . . . . . . . . . . . . . . . 374.2.5 Percentis (P) . . . . . . . . . . . . . . . . . . . . . . . . . . . . 384.2.6 Decis (D) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39

    4.3 Medidas de Disperso . . . . . . . . . . . . . . . . . . . . . . . . . . . 404.3.1 Introduo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 404.3.2 Amplitude Total (A) . . . . . . . . . . . . . . . . . . . . . . . . 404.3.3 Varincia (2) . . . . . . . . . . . . . . . . . . . . . . . . . . . 414.3.4 Desvio-padro () . . . . . . . . . . . . . . . . . . . . . . . . . 424.3.5 Coeficiente de Variao (CV) . . . . . . . . . . . . . . . . . . . 43

    4.4 Exemplo Aplicado . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43

    5 Probabilidade 465.1 Introduo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 465.2 Probabilidade - Definio . . . . . . . . . . . . . . . . . . . . . . . . . 465.3 Axiomas da Probabilidade . . . . . . . . . . . . . . . . . . . . . . . . . 49

    6 Variveis Aleatrias 506.1 Introduo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 506.2 Variveis Aleatrias Discretas . . . . . . . . . . . . . . . . . . . . . . . 50

    6.2.1 Introduo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 506.2.2 Distribuio Binomial - X b(n,p) . . . . . . . . . . . . . . . . 506.2.3 Distribuio De Poisson - X P() . . . . . . . . . . . . . . . . 53

    6.3 Variveis Aleatrias Contnuas . . . . . . . . . . . . . . . . . . . . . . . 556.3.1 Introduo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 556.3.2 Distribuio Normal ou Gaussiana - X N(,2) . . . . . . . . 556.3.3 Distribuio de Weibull - X W(,) . . . . . . . . . . . . . . 586.3.4 Distribuies no R . . . . . . . . . . . . . . . . . . . . . . . . . 60

    7 Inferncia Estatstica 617.1 Introduo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61

    7.1.1 Hipteses Unilaterais e Bilaterais . . . . . . . . . . . . . . . . . 617.2 Testes de Hiptese - Uma amostra . . . . . . . . . . . . . . . . . . . . 62

    7.2.1 Introduo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 627.2.2 Teste para a Mdia . . . . . . . . . . . . . . . . . . . . . . . . 627.2.3 Teste para a Varincia de uma populao normal . . . . . . . . . 647.2.4 Teste para uma Proporo Binomial . . . . . . . . . . . . . . . . 67

    7.3 Testes de Hiptese - Duas amostras . . . . . . . . . . . . . . . . . . . . 687.3.1 Introduo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 687.3.2 Teste para a mdia . . . . . . . . . . . . . . . . . . . . . . . . . 687.3.3 Teste para as varincias de duas populaes normais . . . . . . . 727.3.4 Teste para duas propores . . . . . . . . . . . . . . . . . . . . 74

    8 Regresso e Correlao Linear Simples 778.1 Introduo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 778.2 Determinando a Equao Linear (Regresso) . . . . . . . . . . . . . . . 788.3 Coeficiente de Correlao (r) . . . . . . . . . . . . . . . . . . . . . . . 81

    3

  • 8.4 Coeficiente de Determinao (r2) . . . . . . . . . . . . . . . . . . . . . 828.5 Exemplo Aplicado . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 82

    9 Programao em Linguagem R 869.1 Introduo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 869.2 Interao com o Usurio . . . . . . . . . . . . . . . . . . . . . . . . . . 869.3 Estruturas de Controle da Linguagem R . . . . . . . . . . . . . . . . . . 87

    9.3.1 Instrues Condicionais . . . . . . . . . . . . . . . . . . . . . . 879.3.2 Instrues Iterativas . . . . . . . . . . . . . . . . . . . . . . . . 89

    10 Referncias Bibliogrficas 95

    4

  • Estatstica Bsica: Introduo ao R Captulo 1. Prefcio

    1Prefcio

    1.1 O Projeto RR uma linguagem e ambiente para computao estatstica e grficos. Faz parte da

    filosofia do Projeto GNU e est disponvel como Software Livre sob os termos da LicenaPblica Geral do GNU da Fundao do Software Livre (Free Software FoundationsGNU General Public License) na forma de cdigo fonte. Ele compila e roda sobre umalarga variedade de plataformas UNIX e sistemas similares (incluindo FreeBSB e Linux),Windows e MacOS.

    R uma srie integrada de instalaes de softwares para manipulao de dados,clculo e exibio grfica. Dentre outras coisas, possui:

    uma manipulao de dados eficaz e facilidade de armazenamento; uma srie de operadores para clculos com arranjos, especialmente matrizes; uma extensa, coerente e integrada coleo de ferramentas intermedirias para

    anlise de dados;

    instalaes grficas para anlises de dados e exibio tanto direta no computadorquanto para cpia permanente (impresses);

    uma bem desenvolvida, simples e eficaz linguagem de programao (chamada S) aqual inclui condies, loops, funes recursivas definidas pelo usurio e instalaesde entradas e saidas (de fato, a maioria das funes providas no sistema sopropriamente escritas na linguagem S).

    R mais um veculo para novos mtodos em desenvolvimento de anlise de dados.Tem se desenvolvido rapidamente e tem sido estendido por uma extensa coleo depacotes. Entretanto, muitos programas escritos em R so essencialmente passageiros,escritos para uma pequena parte de anlise de dados.

    Vrias pessoas utilizam o R como um sistema estatstico. Porm, o fato que o Rproporciona um ambiente interior com vrias tcnicas estatsticas, clssicas e modernas,que foram implementadas dentro do software. Algumas esto compiladas dentro dabase do ambiente R, mas vrias so disponibilizadas como pacotes. H em torno de 25pacotes disponveis com R (chamados pacotes/packages padres/standards e recomen-dados/recommended) e muitos outros disnponveis atravs da famlia CRAN em sitesda Internet (via http://CRAN.R-project.org), dentre outros. Voc pode buscar estespacotes e sua documentao de acordo com a necessidade e avano na utilizao do R.

    5

  • Estatstica Bsica: Introduo ao R Captulo 1. Prefcio

    1.2 Programa de Educao Tutorial - Engenharia Eltrica(UFSM)

    Esta apostila foi elaborada pelo grupo PET Engenharia Eltrica (PET-EE) da Univer-sidade Federal de Santa Maria (UFSM) com o objetivo de fornecer um guia de introduoao software R e sua aplicao bsica na rea de estatstica. Esta documentao dedistribuio livre para qualquer pessoa que obter acesso a mesma, podendo ser editada,modificada e redistribuda da forma que o usurio bem entender.

    O Programa de Educao Tutorial (PET) foi criado para apoiar atividades acadmicasque integram ensino, pesquisa e extenso. Formado por grupos tutoriais de aprendiza-gem, o PET propicia aos alunos participantes, sob a orientao de um tutor, a realizaode atividades extracurriculares que complementem a formao acadmica do estudantee atendam s necessidades do prprio curso de graduao. O estudante e o professortutor recebem apoio financeiro de acordo com a Poltica Nacional de Iniciao Cientfica.

    O Programa de Educao Tutorial em Engenharia Eltrica (PET-EE) da UFSM um grupo que consiste de doze alunos bolsistas, seis no-bolsistas e vrios voluntriosde diversos semestres do curso, orientados por um professor tutor. O programa buscapropiciar aos alunos condies para a realizao de atividades extra-curriculares, quefavoream a sua formao acadmica tanto para a integrao no mercado de trabalhocomo para o desenvolvimento de estudos em programas de ps-graduao.

    So caractersticas bsicas do PET a formao acadmica ampla, a interdisciplinar-idade, a atuao coletiva, a interao contnua entre os petianos e os corpos docentee discente de graduao e ps-graduao, alm do planejamento e execuo de umprograma diversificado de atividades como: leituras e seminrios, grupos de estudo,organizao de conferncias e palestras, elaborao e desenvolvimento de projetos depesquisa, estudo de, pelo menos, um idioma estrangeiro, entre outros. Essas carac-tersticas tornam o PET um programa abrangente, pois os petianos se envolvem ematividades de ensino, pesquisa e extenso durante toda a sua permanncia no grupo.

    1.2. Programa de Educao Tutorial - Engenharia Eltrica (UFSM) 6

  • Estatstica Bsica: Introduo ao R Captulo 2. Introduo

    2Introduo

    2.1 Apresentando o RO R foi criado originalmente por Ross Ihaka e por Robert Gentleman na universidade

    de Auckland, Nova Zelndia, e foi desenvolvido por um esforo colaborativo de pessoasem vrios locais do mundo. O nome R provm em parte das iniciais dos criadores etambm de um jogo figurado com a linguagem S (da Bell Laboratories, antiga AT&T).

    O R ao mesmo tempo uma linguagem de programao e um ambiente para com-putao estatstica e grfica. Trata-se de uma linguagem de programao especializadaem computao com dados. Algumas das suas principais caractersticas so o seu cartergratuito e a sua disponibilidade para uma gama bastante variada de sistemas opera-cionais. Neste documento iremos concentrar a nossa ateno na verso Windows, masbasicamente tudo o que aqui descrito tambm se aplica s outras verses, dadas asmuito reduzidas diferenas entre as verses para as diversas plataformas. Apesar do seucarter gratuito o R uma ferramenta bastante poderosa com boas capacidades ao nvelda programao.

    O R tambm altamente expansvel com o uso dos pacotes, que so bibliotecas parafunes especficas ou reas de estudo especficas. Um conjunto de pacotes includocom a instalao do software, mas muitos outros esto disponveis na rede de distribuiodo R (em ingls CRAN).

    2.2 Interface do RAo iniciar o R abrir automaticamente o Console que a janela onde os comandos

    so digitados. Internamente ao Console, se encontra o prompt, conforme figura abaixo,que um sinal indicador de que o programa est pronto para receber comando.

    7

  • Estatstica Bsica: Introduo ao R Captulo 2. Introduo

    Figura 2.1: Interface do R - Console e Prompt.

    2.3 Sintaxe do RTecnicamente o R uma linguagem de expresses com regras e sintaxe muito simples.

    Faz distino entre maisculas e minsculas, de modo que os caracteres A e a soentendidos como sendo smbolos diferentes, referindo-se, portanto, a variveis diferentes.

    Os comandos ou ordens elementares consistem em expresses ou atribuies. Se umaordem ou comando uma expresso, o seu valor calculado e visualizado sendo perdidoem seguida. Uma atribuio, ao contrrio, calcula a expresso e atribui o resultado queno mostrado automaticamente, apenas salvo no endereo de alguma varivel queest sendo usada no R.

    Os comandos so separados por ponto e vrgula (;) ou so inseridos em novalinha. Podem agrupar-se dentro de chaves ({...}) vrios comandos elementares numaexpresso mais complexa.

    Se ao terminar uma linha, o comando no est sintaticamente completo o R mostrao smbolo + que o comando de continuao do comando inicial.

    2.4 Tinn-R EditorO Tinn-R um editor de texto muito utilizado para a escrita do cdigo R. Com a

    seguinte definio This is not notepad, ou seja, isto no um bloco de notas, verifica-se que este editor surge como alternativa ao popular notepad.

    O Tinn-R possui todos os menus presentes no notepad e, alm disso, agrega vriosoutros recursos extras. O Tinn-R possui a seguinte interface:

    2.3. Sintaxe do R 8

  • Estatstica Bsica: Introduo ao R Captulo 2. Introduo

    Figura 2.2: Interface do Tinn-R Editor.

    A grande vantagem de apresentarmos um editor de texto haver a possibilidade decorreo e execuo automtica do cdigo, facilitando o trabalho do programador juntoao R. Depois de editado um cdigo no Tinn-R, basta execut-lo na interface do Tinn-Re o programa executar automaticamente os comandos previstos na console do R.

    Como alternativa ao Tinn-R na correo de cdigos podemos utilizar o bloco denotas que pode ser aberto diretamente no R. Basta utilizar o comando:

    > edit()

    Em seguida, deve-se guardar os dados introduzidos no bloco de notas em algumdiretrio, podendo, quando necessrio, ser importado para o Console do R (como veremosa seguir).

    J para editar uma srie de dados dentro do R, sem digit-la novamente, basta atuarcom o comando:

    > variavel = edit(variavel) #carregue a varivel para a edio

    Ou atravs do editor de dados, pelo comando:

    > variavel = de(variavel)

    2...