apostila software estatistico r

100
Minicurso de Estatística Básica: Minicurso de Estatística Básica: Introdução ao software R http://www.ufsm.br/pet-ee Programa de Educação Tutorial - Engenharia Elétrica Universidade Federal de Santa Maria Santa Maria, Abril de 2009 Ministrantes: Bruno Fontana da Silva Jean Diniz Matias Américo Bortoluzzi Nome: _______________

Upload: dai-montanari

Post on 24-Nov-2015

27 views

Category:

Documents


4 download

TRANSCRIPT

  • Minicurso de Estatstica Bsica:Minicurso de Estatstica Bsica:Introduo ao software R

    http://www.ufsm.br/pet-ee

    Programa de Educao Tutorial - Engenharia EltricaUniversidade Federal de Santa Maria

    Santa Maria, Abril de 2009

    Ministrantes:Bruno Fontana da SilvaJean DinizMatias Amrico Bortoluzzi

    Nome: _______________

  • Sumrio

    1 Prefcio 51.1 O Projeto R . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51.2 Programa de Educao Tutorial - Engenharia Eltrica (UFSM) . . . . . . 6

    2 Introduo 72.1 Apresentando o R . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 72.2 Interface do R . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 72.3 Sintaxe do R . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 82.4 Tinn-R Editor . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 82.5 Tipos de Dados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 92.6 Comandos Bsicos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10

    2.6.1 Utilizando Ajuda . . . . . . . . . . . . . . . . . . . . . . . . . . 112.6.2 Atribuio de Valores . . . . . . . . . . . . . . . . . . . . . . . 112.6.3 Comandos Auxiliares . . . . . . . . . . . . . . . . . . . . . . . . 122.6.4 Operaes matemticas simples . . . . . . . . . . . . . . . . . . 132.6.5 Funes matemticas simples . . . . . . . . . . . . . . . . . . . 132.6.6 Nmeros complexos . . . . . . . . . . . . . . . . . . . . . . . . 14

    2.7 Vetores e Matrizes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 152.7.1 Definio . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 152.7.2 Declarao de vetores . . . . . . . . . . . . . . . . . . . . . . . 152.7.3 Arrays e Matrizes - Definio e Declarao . . . . . . . . . . . . 162.7.4 Operaes e funes com Matrizes . . . . . . . . . . . . . . . . 17

    2.8 Entrada de Arquivos Externos . . . . . . . . . . . . . . . . . . . . . . . 192.9 Arquivos provenientes da internet . . . . . . . . . . . . . . . . . . . . . 21

    3 Grficos 223.1 Introduo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22

    3.1.1 Comandos Bsicos . . . . . . . . . . . . . . . . . . . . . . . . . 223.1.2 Criando Novas Janelas Grficas e Salvando Grficos . . . . . . . 243.1.3 Outras Funcionalidades . . . . . . . . . . . . . . . . . . . . . . 25

    3.2 Grficos de Anlise Descritiva . . . . . . . . . . . . . . . . . . . . . . . 273.2.1 Histograma . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 273.2.2 Barplot . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 293.2.3 Boxplot . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 303.2.4 Grfico de Ramo e Folhas . . . . . . . . . . . . . . . . . . . . . 323.2.5 Grfico de Pizza . . . . . . . . . . . . . . . . . . . . . . . . . . 33

    4 Estatstica Descritiva 344.1 Introduo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 344.2 Medidas de Posio . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34

    2

  • 4.2.1 Mdia Aritmtica X . . . . . . . . . . . . . . . . . . . . . . . . 344.2.2 Mediana Md . . . . . . . . . . . . . . . . . . . . . . . . . . . 354.2.3 Moda Mo . . . . . . . . . . . . . . . . . . . . . . . . . . . . 364.2.4 Quartis (Q) . . . . . . . . . . . . . . . . . . . . . . . . . . . . 374.2.5 Percentis (P) . . . . . . . . . . . . . . . . . . . . . . . . . . . . 384.2.6 Decis (D) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39

    4.3 Medidas de Disperso . . . . . . . . . . . . . . . . . . . . . . . . . . . 404.3.1 Introduo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 404.3.2 Amplitude Total (A) . . . . . . . . . . . . . . . . . . . . . . . . 404.3.3 Varincia (2) . . . . . . . . . . . . . . . . . . . . . . . . . . . 414.3.4 Desvio-padro () . . . . . . . . . . . . . . . . . . . . . . . . . 424.3.5 Coeficiente de Variao (CV) . . . . . . . . . . . . . . . . . . . 43

    4.4 Exemplo Aplicado . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43

    5 Probabilidade 465.1 Introduo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 465.2 Probabilidade - Definio . . . . . . . . . . . . . . . . . . . . . . . . . 465.3 Axiomas da Probabilidade . . . . . . . . . . . . . . . . . . . . . . . . . 49

    6 Variveis Aleatrias 506.1 Introduo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 506.2 Variveis Aleatrias Discretas . . . . . . . . . . . . . . . . . . . . . . . 50

    6.2.1 Introduo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 506.2.2 Distribuio Binomial - X b(n,p) . . . . . . . . . . . . . . . . 506.2.3 Distribuio De Poisson - X P() . . . . . . . . . . . . . . . . 53

    6.3 Variveis Aleatrias Contnuas . . . . . . . . . . . . . . . . . . . . . . . 556.3.1 Introduo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 556.3.2 Distribuio Normal ou Gaussiana - X N(,2) . . . . . . . . 556.3.3 Distribuio de Weibull - X W(,) . . . . . . . . . . . . . . 586.3.4 Distribuies no R . . . . . . . . . . . . . . . . . . . . . . . . . 60

    7 Inferncia Estatstica 617.1 Introduo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61

    7.1.1 Hipteses Unilaterais e Bilaterais . . . . . . . . . . . . . . . . . 617.2 Testes de Hiptese - Uma amostra . . . . . . . . . . . . . . . . . . . . 62

    7.2.1 Introduo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 627.2.2 Teste para a Mdia . . . . . . . . . . . . . . . . . . . . . . . . 627.2.3 Teste para a Varincia de uma populao normal . . . . . . . . . 647.2.4 Teste para uma Proporo Binomial . . . . . . . . . . . . . . . . 67

    7.3 Testes de Hiptese - Duas amostras . . . . . . . . . . . . . . . . . . . . 687.3.1 Introduo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 687.3.2 Teste para a mdia . . . . . . . . . . . . . . . . . . . . . . . . . 687.3.3 Teste para as varincias de duas populaes normais . . . . . . . 727.3.4 Teste para duas propores . . . . . . . . . . . . . . . . . . . . 74

    8 Regresso e Correlao Linear Simples 778.1 Introduo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 778.2 Determinando a Equao Linear (Regresso) . . . . . . . . . . . . . . . 788.3 Coeficiente de Correlao (r) . . . . . . . . . . . . . . . . . . . . . . . 81

    3

  • 8.4 Coeficiente de Determinao (r2) . . . . . . . . . . . . . . . . . . . . . 828.5 Exemplo Aplicado . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 82

    9 Programao em Linguagem R 869.1 Introduo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 869.2 Interao com o Usurio . . . . . . . . . . . . . . . . . . . . . . . . . . 869.3 Estruturas de Controle da Linguagem R . . . . . . . . . . . . . . . . . . 87

    9.3.1 Instrues Condicionais . . . . . . . . . . . . . . . . . . . . . . 879.3.2 Instrues Iterativas . . . . . . . . . . . . . . . . . . . . . . . . 89

    10 Referncias Bibliogrficas 95

    4

  • Estatstica Bsica: Introduo ao R Captulo 1. Prefcio

    1Prefcio

    1.1 O Projeto RR uma linguagem e ambiente para computao estatstica e grficos. Faz parte da

    filosofia do Projeto GNU e est disponvel como Software Livre sob os termos da LicenaPblica Geral do GNU da Fundao do Software Livre (Free Software FoundationsGNU General Public License) na forma de cdigo fonte. Ele compila e roda sobre umalarga variedade de plataformas UNIX e sistemas similares (incluindo FreeBSB e Linux),Windows e MacOS.

    R uma srie integrada de instalaes de softwares para manipulao de dados,clculo e exibio grfica. Dentre outras coisas, possui:

    uma manipulao de dados eficaz e facilidade de armazenamento; uma srie de operadores para clculos com arranjos, especialmente matrizes; uma extensa, coerente e integrada coleo de ferramentas intermedirias para

    anlise de dados;

    instalaes grficas para anlises de dados e exibio tanto direta no computadorquanto para cpia permanente (impresses);

    uma bem desenvolvida, simples e eficaz linguagem de programao (chamada S) aqual inclui condies, loops, funes recursivas definidas pelo usurio e instalaesde entradas e saidas (de fato, a maioria das funes providas no sistema sopropriamente escritas na linguagem S).

    R mais um veculo para novos mtodos em desenvolvimento de anlise de dados.Tem se desenvolvido rapidamente e tem sido estendido por uma extensa coleo depacotes. Entretanto, muitos programas escritos em R so essencialmente passageiros,escritos para uma pequena parte de anlise de dados.

    Vrias pessoas utilizam o R como um sistema estatstico. Porm, o fato que o Rproporciona um ambiente interior com vrias tcnicas estatsticas, clssicas e modernas,que foram implementadas dentro do software. Algumas esto compiladas dentro dabase do ambiente R, mas vrias so disponibilizadas como pacotes. H em torno de 25pacotes disponveis com R (chamados pacotes/packages padres/standards e recomen-dados/recommended) e muitos outros disnponveis atravs da famlia CRAN em sitesda Internet (via http://CRAN.R-project.org), dentre outros. Voc pode buscar estespacotes e sua documentao de acordo com a necessidade e avano na utilizao do R.

    5

  • Estatstica Bsica: Introduo ao R Captulo 1. Prefcio

    1.2 Programa de Educao Tutorial - Engenharia Eltrica(UFSM)

    Esta apostila foi elaborada pelo grupo PET Engenharia Eltrica (PET-EE) da Univer-sidade Federal de Santa Maria (UFSM) com o objetivo de fornecer um guia de introduoao software R e sua aplicao bsica na rea de estatstica. Esta documentao dedistribuio livre para qualquer pessoa que obter acesso a mesma, podendo ser editada,modificada e redistribuda da forma que o usurio bem entender.

    O Programa de Educao Tutorial (PET) foi criado para apoiar atividades acadmicasque integram ensino, pesquisa e extenso. Formado por grupos tutoriais de aprendiza-gem, o PET propicia aos alunos participantes, sob a orientao de um tutor, a realizaode atividades extracurriculares que complementem a formao acadmica do estudantee atendam s necessidades do prprio curso de graduao. O estudante e o professortutor recebem apoio financeiro de acordo com a Poltica Nacional de Iniciao Cientfica.

    O Programa de Educao Tutorial em Engenharia Eltrica (PET-EE) da UFSM um grupo que consiste de doze alunos bolsistas, seis no-bolsistas e vrios voluntriosde diversos semestres do curso, orientados por um professor tutor. O programa buscapropiciar aos alunos condies para a realizao de atividades extra-curriculares, quefavoream a sua formao acadmica tanto para a integrao no mercado de trabalhocomo para o desenvolvimento de estudos em programas de ps-graduao.

    So caractersticas bsicas do PET a formao acadmica ampla, a interdisciplinar-idade, a atuao coletiva, a interao contnua entre os petianos e os corpos docentee discente de graduao e ps-graduao, alm do planejamento e execuo de umprograma diversificado de atividades como: leituras e seminrios, grupos de estudo,organizao de conferncias e palestras, elaborao e desenvolvimento de projetos depesquisa, estudo de, pelo menos, um idioma estrangeiro, entre outros. Essas carac-tersticas tornam o PET um programa abrangente, pois os petianos se envolvem ematividades de ensino, pesquisa e extenso durante toda a sua permanncia no grupo.

    1.2. Programa de Educao Tutorial - Engenharia Eltrica (UFSM) 6

  • Estatstica Bsica: Introduo ao R Captulo 2. Introduo

    2Introduo

    2.1 Apresentando o RO R foi criado originalmente por Ross Ihaka e por Robert Gentleman na universidade

    de Auckland, Nova Zelndia, e foi desenvolvido por um esforo colaborativo de pessoasem vrios locais do mundo. O nome R provm em parte das iniciais dos criadores etambm de um jogo figurado com a linguagem S (da Bell Laboratories, antiga AT&T).

    O R ao mesmo tempo uma linguagem de programao e um ambiente para com-putao estatstica e grfica. Trata-se de uma linguagem de programao especializadaem computao com dados. Algumas das suas principais caractersticas so o seu cartergratuito e a sua disponibilidade para uma gama bastante variada de sistemas opera-cionais. Neste documento iremos concentrar a nossa ateno na verso Windows, masbasicamente tudo o que aqui descrito tambm se aplica s outras verses, dadas asmuito reduzidas diferenas entre as verses para as diversas plataformas. Apesar do seucarter gratuito o R uma ferramenta bastante poderosa com boas capacidades ao nvelda programao.

    O R tambm altamente expansvel com o uso dos pacotes, que so bibliotecas parafunes especficas ou reas de estudo especficas. Um conjunto de pacotes includocom a instalao do software, mas muitos outros esto disponveis na rede de distribuiodo R (em ingls CRAN).

    2.2 Interface do RAo iniciar o R abrir automaticamente o Console que a janela onde os comandos

    so digitados. Internamente ao Console, se encontra o prompt, conforme figura abaixo,que um sinal indicador de que o programa est pronto para receber comando.

    7

  • Estatstica Bsica: Introduo ao R Captulo 2. Introduo

    Figura 2.1: Interface do R - Console e Prompt.

    2.3 Sintaxe do RTecnicamente o R uma linguagem de expresses com regras e sintaxe muito simples.

    Faz distino entre maisculas e minsculas, de modo que os caracteres A e a soentendidos como sendo smbolos diferentes, referindo-se, portanto, a variveis diferentes.

    Os comandos ou ordens elementares consistem em expresses ou atribuies. Se umaordem ou comando uma expresso, o seu valor calculado e visualizado sendo perdidoem seguida. Uma atribuio, ao contrrio, calcula a expresso e atribui o resultado queno mostrado automaticamente, apenas salvo no endereo de alguma varivel queest sendo usada no R.

    Os comandos so separados por ponto e vrgula (;) ou so inseridos em novalinha. Podem agrupar-se dentro de chaves ({...}) vrios comandos elementares numaexpresso mais complexa.

    Se ao terminar uma linha, o comando no est sintaticamente completo o R mostrao smbolo + que o comando de continuao do comando inicial.

    2.4 Tinn-R EditorO Tinn-R um editor de texto muito utilizado para a escrita do cdigo R. Com a

    seguinte definio This is not notepad, ou seja, isto no um bloco de notas, verifica-se que este editor surge como alternativa ao popular notepad.

    O Tinn-R possui todos os menus presentes no notepad e, alm disso, agrega vriosoutros recursos extras. O Tinn-R possui a seguinte interface:

    2.3. Sintaxe do R 8

  • Estatstica Bsica: Introduo ao R Captulo 2. Introduo

    Figura 2.2: Interface do Tinn-R Editor.

    A grande vantagem de apresentarmos um editor de texto haver a possibilidade decorreo e execuo automtica do cdigo, facilitando o trabalho do programador juntoao R. Depois de editado um cdigo no Tinn-R, basta execut-lo na interface do Tinn-Re o programa executar automaticamente os comandos previstos na console do R.

    Como alternativa ao Tinn-R na correo de cdigos podemos utilizar o bloco denotas que pode ser aberto diretamente no R. Basta utilizar o comando:

    > edit()

    Em seguida, deve-se guardar os dados introduzidos no bloco de notas em algumdiretrio, podendo, quando necessrio, ser importado para o Console do R (como veremosa seguir).

    J para editar uma srie de dados dentro do R, sem digit-la novamente, basta atuarcom o comando:

    > variavel = edit(variavel) #carregue a varivel para a edio

    Ou atravs do editor de dados, pelo comando:

    > variavel = de(variavel)

    2.4. Tinn-R Editor 9

  • Estatstica Bsica: Introduo ao R Captulo 2. Introduo

    #Exemplo: entre com o vetor {48, 49, 51, 50, 49} e,#em seguida, acrescente os valores 60 e 63.> x x # apresentao dos dados[1] 48 49 51 50 49> x=edit(x) # comando de edio dos dados> x # reapresentao dos dados[1] 48 49 51 50 49 60 63

    2.5 Tipos de DadosBasicamente temos quatro tipos de dados no R: nmericos, caracteres, lgicos e

    nmeros complexos. Cada objeto possui dois atributos: tipo (mode) e o tamanho(length). Essas informaes so bastante importantes durante a manipulao de dados.Por exemplo, vetores devem possuir obrigatoriamente todos os elementos do mesmotipo (exceto nmericos e complexos, que podem ser agrupados). Veja abaixo algunsexemplos de tipos de dados no R:

    > #Numrico> valor valor[1] 605>> #Caracteres> string string[1] "Ol, mundo!">> #Lgicos> 2 < 6[1] TRUE>> #Nmeros complexos> nc nc[1] 2+3i

    2.5. Tipos de Dados 10

  • Estatstica Bsica: Introduo ao R Captulo 2. Introduo

    > mode(valor)[1] "numeric"> length(valor)[1] 1> mode(string)[1] "character"> length(string)[1] 1> mode(2 length(2 mode(nc)[1] "complex"> length(nc)[1] 1> mode(sin)[1] "function"

    2.6 Comandos Bsicos

    2.6.1 Utilizando AjudaDurante a utilizao do software possvel consultar a sintaxe de algum comando ou

    obter mais informaes sobre determinada funo. Para isso o R conta com o comandohelp. A sintaxe do comando a seguinte:

    > help(comando) #sintaxe

    #Exemplo:> help(sqrt)

    Ao executar o exemplo acima, uma interface do menu de ajuda ser executadamostrando o tpico da funo sqrt, que funo matemtica para a raiz quadrada.Para realizar uma busca em arquivos de ajuda sobre um tpico desejado, podemos uti-lizar os seguintes comandos:

    2.6. Comandos Bsicos 11

  • Estatstica Bsica: Introduo ao R Captulo 2. Introduo

    > help.search("expresso") #sintaxe> ??expresso #sintaxe

    #Exemplos:> help.search("negative binomial")> ??weibull

    Os exemplos acima retornaro janelas de informao indicando os tpicos de ajudaque possuem a expresso procurada.

    Observe nos exemplos anteriores o smbolo sustenido (]). No console do R, ele anulatodos os comandos da linha escritos aps a sua insero. Esse artifcio amplamenteutilizado para realizar comentrios dentro de um cdigo de programao. Utilizare-mos sustenidos nesta apostila para realizar comentrios dentro dos cdigos e exemplosabordados.

    2.6.2 Atribuio de ValoresComo todo tipo de programao (inclusive funcional), comum que tenhamos que

    atribuir valores para algumas variveis antes de utiliz-las (esse processo tambm co-nhecido como inicializao de variveis). No R podemos fazer uma atribuio de valoresde vrias formas, conforme os exemplos abaixo:

    > x 0.56 -> x #x a varivel que recebe o valor 0.56;> x = -8 #x a varivel que recebe o valor -8;> assign("x", 2i) #x a varivel que recebe o imaginrio 2i;

    Na maior parte do tempo utilizaremos os smbolos > e = para atribuio devalores. Para mostrar o valor armazenado em uma varivel, basta digitar a varivel naConsole e apertar Enter. Qualquer valor digitado sem atribuio pode ser mostrado natela. O ltimo valor inserido (em uma atribuio ou no) sempre armazenado em umavarivel especial, denominada .Last.value. Esta varivel pode ser utilizada para realizaroperaes, mas preciso tomar cuidado, pois seu valor est sendo constantemente mo-dificado.

    2.6. Comandos Bsicos 12

  • Estatstica Bsica: Introduo ao R Captulo 2. Introduo

    #Exemplo:> x = 5> x[1] 5> .Last.value[1] 5> y = 10> 89[1] 89> .Last.value[1] 89

    2.6.3 Comandos AuxiliaresAbaixo veremos uma tabela com os principais comandos que ajudam a manipular os

    objetos e a workspace que esto sendo utilizados durante a execuo do programa.

    Funo Descriols() ou objects() lista curta de variveis definidasls.str() lista detalhada de variveis definidasstr(x) ver informaes detalhadas de xls.str(ab) ver informaes detalhadas sobre todas

    as variveis com ab em seu nomerm(x) deletar varivel xrm(x, y) deletar as variveis x e yrm(list = ls()) deletar todas as variveis (limpar a

    workspace)class(x) ver que tipo de objeto xq() sair do R com a opo de sal-

    var a workspace em um arquivo(Name.RData) e o histricode comandos em outro arquivo(Name.RHistory)

    ctrl + L no teclado, pressione ctrl+L paralimpar a tela da console

    2.6.4 Operaes matemticas simplesExpresses aritmticas podem ser construdas atravs dos operadores usuais e das

    regras de precedncia:

    2.6. Comandos Bsicos 13

  • Estatstica Bsica: Introduo ao R Captulo 2. Introduo

    1 Potenciao2 / Diviso direita2 * Multiplicao3 + Adio3 - Subtrao

    #Exemplo:> x=3; y=5; z=10> h = 4*sqrt(3*x) + 15/(y-z) - x^2> h[1] 0

    Alm disso, o R tambm possui os operadores relacionais e operadores lgicos:

    Smbolo Descrio< Menor Maior>= Maior ou igual== Igual (comparao)! = Diferente& AND| OR! NOTTRUE ou 1 Valor booleano verdadeiro (1)FALSE ou 0 Valor booleano falso (0)

    #Exemplo:> x = 3> 2*(1>(3&(4 x = 5> 2*(1>(3&(4

  • Estatstica Bsica: Introduo ao R Captulo 2. Introduo

    Funo Descrioabs(x) valor absoluto de xlog(x, b) logaritmo de x com base blog(x) logaritmo natural de xlog10(x) logaritmo de x com base 10exp(x) exponencial elevado a xsin(x) seno de xcos(x) cosseno de xtan(x) tangente de xround(x, digits = n) arredonda x com n decimaisceiling(x) arredondamento de x para o maior valorfloor(x) arredondamento de x para o menor valorlength(x) nmero de elementos do vetor xsum(x) soma dos elementos do vetor xprod(x) produto dos elementos do vetor xmax(x) seleciona o maior elemento do vetor xmin(x) seleciona o menor elemento do vetor xrange(x) retorna o menor e o maior elemento do

    vetor x

    #Exemplo:> x = 30; y = 60> (sin(x))^2 + (cos(x))^2[1] 1> round(tan(2*y),digits =3)[1] 0.713> floor(tan(2*y))[1] 0> ceiling(tan(2*y))[1] 1

    2.6.6 Nmeros complexosPara utilizar nmeros complexos possumos a varivel especial i, que representa

    a unidade imaginria1. Porm, o R precisa saber que estamos trabalhando com

    nmeros complexos. Caso contrrio ele pode acabar retornando, em algumas ocasies,o valor NaN (Not a Number), que indica uma indefinio matemtica. Portanto, mesmoque a parte imaginria seja nula, e necessrio evidenci-la para que o R retorne valorescomplexos.

    2.6. Comandos Bsicos 15

  • Estatstica Bsica: Introduo ao R Captulo 2. Introduo

    #Exemplo:> sqrt(-17)[1] NaNWarning message:In sqrt(-17) : NaNs produzidos> sqrt(-17+0i)[1] 0+4.123106i

    2.7 Vetores e Matrizes

    2.7.1 DefinioVetores so conjuntos de dados unidimensionais. Sua principal utilidade poder

    armazenar diversos dados em forma de lista e aplicar funes e operaes sobre todos osdados pertencentes a determinado vetor com apenas poucos comandos. Trabalharemosapenas com vetores numricos.

    2.7.2 Declarao de vetoresPodemos tratar as atribuies de valores vistas anteriormente como vetores unidi-

    mensionais e unitrios, ou seja, que s contm um elemento. Para declarar mais de umelemento dentro de um vetor, utilizaremos a seguinte sintaxe:

    #sintaxe:

    x = c(a1, a2, a3, . . . , an1, an)

    #Exemplos:> vec vec[1] 1.00 4.00 10.50 54.48 9.00 10.00> vec2 vec2[1] 1 2 3 4 5 6 7 8 9 10> vec3 vec3[1] 1 2 3 3 2 1> vec4 vec4[1] 0 1 2 3 3 2 1 0

    Essa sintaxe tambm serve para vetores de caracteres. Porm, devemos considerarque caracateres devem ser declarados entre aspas.

    2.7. Vetores e Matrizes 16

  • Estatstica Bsica: Introduo ao R Captulo 2. Introduo

    Outra forma de declarar vetores a seguinte:

    #vetor de "a" at "z"seq(from= a, to= z)

    #vetor de "a" at "z" com passo "n"seq(from= a, to= z, by= n )

    #vetor de "a" at "z" com "n" elementosseq(from= a, to= z, length.out= n)

    #Exemplos:> seq(from=1, to=5)[1] 1 2 3 4 5> seq(from=1, to=5, by=0.5)[1] 1.0 1.5 2.0 2.5 3.0 3.5 4.0 4.5 5.0> seq(from=0, to=10, length.out= 4)[1] 0.000000 3.333333 6.666667 10.000000

    2.7.3 Arrays e Matrizes - Definio e DeclaraoPodemos definir arrays como um conjunto de elementos de dados, geralmente do

    mesmo tamanho e tipo de dados. Elementos individuais so acessados por sua posiono array. A posio dada por um ndice, tambm chamado de subscrio. O ndicegeralmente utiliza uma sequncia de nmeros naturais. Arrays podem ser de qual-quer tipo, porm neste captulo abordaremos apenas arrays numricos, devido a suagrande importncia para declarao de matrizes. Existem arrays unidimensionais e multi-dimensionais. Arrays numricos unidimensionais nada mais so do que vetores, como jvimos. J arrays nmericos multidimensionais podem ser usados para representao dematrizes. Vejamos abaixo a sintaxe para declarao de um array:

    #sintaxe:x x x

    [,1] [,2] [,3] [,4] [,5][1,] 1 3 5 7 9[2,] 2 4 6 8 10

    Como pode ser visto, o preenchimento de uma array multidimensional (leia-se matriza partir de agora) realizado dispondo os elementos de entrada ordenadamente colunapor coluna. Existe uma outra funo para declarao de matrizes que permite alterar aordem de disposio dos elementos:

    2.7. Vetores e Matrizes 17

  • Estatstica Bsica: Introduo ao R Captulo 2. Introduo

    #sintaxe:x A A

    [,1] [,2] [,3] [,4] [,5][1,] 1 2 3 4 5[2,] 6 7 8 9 10

    Para selecionar um elemento de uma matriz utilizamos a indexao por colchetes navarivel que representa a matriz com os ndices separados por vrgula:

    #Exemplos:> A[2,4][1] 9> A[2,4] - x[1,5][1] 0> A[2,][1] 6 7 8 9 10> A[,2:4]

    [,1] [,2] [,3][1,] 2 3 4[2,] 7 8 9> A[,]

    [,1] [,2] [,3] [,4] [,5][1,] 1 2 3 4 5[2,] 6 7 8 9 10

    2.7.4 Operaes e funes com MatrizesVamos definir duas matrizes (A e B) e um vetor v. Abaixo segue uma tabela com

    as principais operaes e funes realizadas entre matrizes. Posteriormente, algunsexemplos.

    2.7. Vetores e Matrizes 18

  • Estatstica Bsica: Introduo ao R Captulo 2. Introduo

    Funo DescrioA B produto elemento a elemento de A e BA% %B produto matricial de A por BB = aperm(A) matriz transposta: B = AtB = t(A) matriz transposta: B = AtB = solve(A) matriz inversa: B = A1x = solve(A, b) resolve o sistema linear Ax = bdet(A) retorna o determinante de Adiag(v) retorna uma matriz diagonal onde o ve-

    tor v a diagonaldiag(A) retorna um vetor que a diagonal da

    matriz Adiag(n) sendo n um inteiro, retorna uma matriz

    identidade de ordem neigen(A) retorna os autovalores e autovetores de

    Aeigen(A)$values retorna os autovalores de Aeigen(A)$vectors retorna os autovetores de A

    #Exemplos:> B = t(A)> B

    [,1] [,2][1,] 1 6[2,] 2 7[3,] 3 8[4,] 4 9[5,] 5 10> b= array(c(0,1,5),dim=c(3,1));> C= matrix(c(c(1,1,0),c(0,1,4),c(0:2)),3,3,1);> y = solve(C,b)> y

    [,1][1,] -9[2,] 9[3,] -2> Cinv = solve(C)> Cinv%*%b

    [,1][1,] -9[2,] 9[3,] -2

    2.7. Vetores e Matrizes 19

  • Estatstica Bsica: Introduo ao R Captulo 2. Introduo

    2.8 Entrada de Arquivos ExternosSe os dados estiverem salvos em arquivos, sob forma de planilhas, tabelas, etc., deve-

    se fazer com que o R leia estes arquivos, transformando-os em um objeto. Para que o Rreconhea o conjunto de dados do arquivo necessrio que as colunas sejam separadas.Caso isso no ocorra o R no conseguir separar as colunas e emitir uma mensagemde erro. Um modo fcil de resolver este problema salvar a planilha de dados com oformato (.csv) que utiliza virgula (,) como elemento separador das colunas.

    Porm, antes de iniciar a entrada de dados no R deve-se alterar a pasta de trabalhopadro em que o arquivo de dados .csv ser salvo. Para isso basta ir em Arquivo/Mudardir... e alterar o diretrio em que ser salvo o arquivo. Ao abrir a pgina de alteraodo diretrio, escolha o diretrio em que ser salvo o arquivo.

    Depois de salvar o arquivo no diretrio especificado, carregue o arquivo no consoledo R. Utilizaremos, nesta apostila, a pasta de trabalho como sendo C:\Rdados.

    Outra maneira de alterar o diretrio utilizar o seguinte comando, especificando,como argumento, o diretrio requerido:

    > setwd(C:\\Rdados) #diretrio C:\Rdados

    Conferindo o diretrio atualizado atravs do comando:

    > getwd()

    De posse da pasta de trabalho e do arquivo no formato .csv na pasta Rdados, pro-cederemos com o seguinte comando:

    > dir()

    Com este comando o R ir verificar se h algum arquivo na pasta de trabalho. Comopreviamente havamos salvo um arquivo .csv, sabemos que o R ir encontrar este arquivono diretrio especificado anteriormente.

    Em seguida, devemos dar o comando para que o R carregue o arquivo .csv no consolede trabalho. Para isso digite o seguinte comando:

    > carregar

  • Estatstica Bsica: Introduo ao R Captulo 2. Introduo

    indicar o tipo de separador dos dados presentes no arquivo. Finalmente o parmetrodec permite indicar o caractere usado como separador de casas decimais dos nmerosreais.

    Observao: existem outras sintaxes para carregar dados no console do R (verifiqueisso utilizando o comando help(read.table)), porm os argumentos permanecem idn-ticos aos apresentados anteriormente.

    Caso o arquivo tenha ttulo, podemos verificar o nome destes ttulos atravs do co-mando:

    > names() #no argumento vai sempre o nome do objeto desejado

    Podemos ver a dimenso do arquivo carregado por meio do seguinte comando:

    > dim()

    Isto porque o R, agora, considera o arquivo carregado como uma matriz. Destaforma, podemos localizar linhas, colunas e elementos desta matriz. Para isso, utilize oscomandos abaixo:

    > carregar[1,1] #localiza o elemento a(1,1) da matriz> carregar[1:5,] #localiza as primeiras cinco linhas da matriz

    Vamos agora desenvolver um exemplo com um arquivo .txt:

    > dir() #verifica a presena de arquivos no diretrio de trabalho[1] "arquivoteste.txt" #localiza arquivo .txt> carregar #carrega o arquivo no objeto "carregar"> carregar #ilustra o arquivo

    mpg engine horse weight accel year origin cylinder1 18 307 130 3504 12.0 70 1 82 15 350 165 3693 11.5 70 1 83 18 318 150 3436 11.0 70 1 84 16 304 150 3433 12.0 70 1 85 17 302 140 3449 10.5 70 1 86 15 429 198 4341 10.0 70 1 87 14 454 220 4354 9.0 70 1 88 14 440 215 4312 8.5 70 1 8

    Podemos ainda carregar um arquivo de qualquer diretrio sem precisar informar estediretrio no comando. Para isso, basta utilizar a sintaxe abaixo:

    > carregar

  • Estatstica Bsica: Introduo ao R Captulo 2. Introduo

    2.9 Arquivos provenientes da internetO R permite acessar um banco de dados disponvel na web. Esta tarefa importante,

    pois facilita o acesso aos dados provenientes da internet, uma vez que os dados nonecessitam ser copiados para algum diretrio e, posteriormente, carregados para o R.

    > read.table("endereo") #Sintaxe

    #Exemplo:> read.table("http://www.leg.ufpr.br/~paulojus/dados/gam01.txt")

    Caso voc queira fazer um download de dados provenientes da internet, sem utilizarseu navegador, utilize no R a funo download.file().

    > #> download.file(endereo,ficheiro de destino) #sintaxe>> # Exemplo> download.file(http://www.leg.ufpr.br/~paulojus/dados/gam01.txt,+ C:\\R teste\\dados.txt)

    Observe que o primeiro argumento indica o URL, e o segundo o nome do diretriodo computador onde os dados sero guardados. Note que para indicar um caminho doficheiro se deve separar o nome das pastas por dois caracteres \\.

    2.9. Arquivos provenientes da internet 22

  • Estatstica Bsica: Introduo ao R Captulo 3. Grficos

    3Grficos

    3.1 IntroduoAs capacidades grficas so uma componente muito importante e extremamente

    verstil do ambiente R. O R consegue plotar desde grficos bidimensionais simples atgraficos tridimensionais mais complexos por meio de comandos simples. D-se muitanfase no R aos grficos estatsticos, tais como histogramas, curvas de distribuies,grfico de barras dentre outros.

    3.1.1 Comandos BsicosO comando bsico para a criao grfica o plot(). A funo plot(dados) gera

    um grfico simples, atribuindo pontos em coordenadas cartesianas. Confira o exemploabaixo:

    #Exemplo:> a b plot(a,b)

    Para tornar o grfico acima contnuo, deve-se acrescentar o argumento type=l nafuno plot().

    > plot(a,b, type="l")

    Alm deste argumento, existem inmeros outros argumentos para a configurao dogrfico que podem ser acessados com o comando help(plot)

    Atravs dos comandos lines() e points() possvel adicionar, aps dado um comandode plot(), linhas e pontos, respectivamente, a um grfico j existente. Veja o exemploabaixo:

    #Exemplo:> a b plot(a,b)> lines(rev(a),b) #adio de linhas> points(a, 400-b) #adio de pontos

    23

  • Estatstica Bsica: Introduo ao R Captulo 3. Grficos

    O R permite que sejam feitas mudanas na representao dos indicadores grficos(pontos) atravs do parmetro pch= nos comandos plot() e points(). Veja o exemploabaixo:

    #Exemplo:> a points(a,400-b, pch=5)> points(a,200-b, pch=10)> windows()> plot(0:20,0:20,pch=0:20)

    Ainda, possvel realizar mudanas nas caracteristicas das linhas. Para isso, bastautilizar os comandos lwd= e lty= que modificam, respectivamente, a largura e oestilo da linha. Veja o exemplo seguinte:

    #Exemplo:> a lines(a,2*b,lwd=4)> lines(a,0.5*b,lty=2)> lines(a,3*b,lty=3)> lines(a,4*b,lty=2,lwd=4)

    Para alterar a dimenso dos intervalos, pode-se primeiro plotar um grfico em branco,ajustando os limites da abscissa e da ordenada e depois gerar o grfico desejado. Observeno exemplo como proceder:

    #Exemplo:> plot(c(-pi,pi),c(-1,1), type="n") #gerando um grfico em branco> x a b c lines(x,a,col=2,lwd=1)> lines(x,b,col=3,lwd=2)> lines(x,c,col=4,lwd=3)

    Pode-se ainda acrescentar o nome dos eixos atravs dos parmetros xlab= eylab= no comando plot(). O ttulo do texto pode ser adicionado com o parmetromain= no comando plot() ou atravs do comando title("ttulo","subttulo").

    A legenda do grfico pode ser acrescida atravs do comando text() que possui comoargumentos as coordenadas do ponto em que se quer colocar a legenda e o texto dese-jado. Observe o exemplo:

    3.1. Introduo 24

  • Estatstica Bsica: Introduo ao R Captulo 3. Grficos

    #Exemplo:> plot(c(-pi,pi),c(-1,3),xlab="Perodo", ylab="Fases", type="n")> title("Representao das tenses trifsicas","Fases ABC")> lines(x,a,col=2,lwd=1)> lines(x,b,col=3,lwd=2)> lines(x,c,col=4,lwd=3)> text(0,2,"Observe a defasagem de 120 entre as fases")

    Outra utilidade do comando text() acrescentar textos s coordenadas cartesianasx e y. Observe a sintaxe seguida do exemplo:

    #Sintaxe:text(x,y,"etiquetas")#Exemplo:> a text(a,b,"R") #aplica a etiqueta no stio dos pontos

    3.1.2 Criando Novas Janelas Grficas e Salvando GrficosAo executarmos sucessivos comandos plot() os grficos gerados so sobrepostos na

    mesma janela grfica chamada de device ACTIVE. Para evitar este problema, podemosproceder de duas formas, conforme a convenincia:

    Os grficos podem ser salvos imediatamente ao serem gerados. Existem vriosformatos em que o R pode salvar imagens grficas. Alguns deles so: JPEG,BMP, PDF, TIFF, PNG. Faremos abaixo um exemplo utilizando o formato JPEG,mas tenha em mente que a sintaxe para qualquer formato segue idntica.

    #Exemplojpeg(file=figure.jpeg) #figure o nome do arquivo imagemplot(rnorm(10)) #grfico que estou salvandodev.off() #fecha a janela grfica automaticamente

    Por vezes necessrio gerar vrias janelas grficas (devices). Para isso basta utilizaro comando windows() ou X11 entre os sucessivos plot(). Confira o exemplo abaixo:

    #Exemplo:plot(rnorm(10)) #plotando o primeiro grficowindows() #criao de uma nova janela grficaplot(rnorm(20)) #plotando o segundo grfico

    3.1. Introduo 25

  • Estatstica Bsica: Introduo ao R Captulo 3. Grficos

    Observe que o segundo grfico vai surgir numa outra janela, o que permite ao uti-lizador ver os grficos simultaneamente. Observe, tambm, que posteriores grficos quevenham a ser plotados sero sobrepostos ao grfico do ltimo device aberto (leia naparte superior da janela Device(ACTIVE))

    3.1.3 Outras FuncionalidadesUma funcionalidade bastante til do R consiste na utilizao de identificadores gr-

    ficos quando se deseja identificar um ponto ou um conjunto de pontos em um grfico.Para tanto, existem dois identificadores que podem ser utilizados:

    locator(): permite que o utilizador selecione regies do grfico utilizando o botoesquerdo do mouse at que se tenha um nmero n de pontos selecionados ou atpressionar o boto direito do mouse. Cada clique que dado com o boto esquerdodo mouse o R retorna na console as coordenadas do clique. Veja a sintaxe e oexemplo:

    #Sintaxe:locator(n) #localiza n pontos#Exemplo:> x=1:20> y=sqrt(x)> plot(x,y)>> text(locator(1),"mas ba tch")> #onde for dado o clique ser escrita a mensagem>> #ou de outra forma:> plot(x,y)> locator(2)> #localiza dois pontos e d suas coordenadas na console>> x[1] 12.557587 3.424694y[1] 2.427596 3.819199

    identify(): comando semelhante ao locator(), porm apresenta a capacidade deidentificar pontos particulares de um grfico e no apenas sua posio.

    Vejamos um exemplo: representar as coordenadas de oito diferentes cidades, nome-las e identific-las graficamente.

    3.1. Introduo 26

  • Estatstica Bsica: Introduo ao R Captulo 3. Grficos

    #Exemplo:> x y #Descrevendo o nome das cidades:> nomes cidades cidades #visualizando o objeto cidades

    x ycidade A 2 15cidade B 3 26cidade C 4 45cidade D 5 8cidade E 6 74cidade F 7 11cidade G 8 61cidade H 9 32> #Visualizando graficamente os pontos que representam as cidades:> plot(cidades)> #representa-se as coordenadas grficas dos pontos, o vetor que> #ser descrito e o nmero de pontos a serem identificados:> identify(x,y,nomes,n=4)[1] 2 3 6 7

    Depois de adicionado o comando identify e definidos seus parmetros, deve-se clicarnos pontos que se deseja identificar.

    O R permite acrescentar grficos mltiplos basta atravs dos comandos par(mfrow=c(x,y))e par(mfcol=c(x,y)) que apresentam comportamentos idnticos. No vetor c(x,y), xdefine o nmero de divises horizontais (linhas) e y o nmero de divises verticais (col-unas). Os parmetros dos grficos podem ser encontrados no help atravs do comando?par. Proceda com o exemplo abaixo:

    #Exemplo:> par(mfrow=c(1,2))> x y x;y[1] 1 2 3 4 5 6 7 8 9 10[1] 2 5 9 6 7 8 4 1 3 10> plot(x,y)> plot (x,y, xlab="Eixo X", ylab="Eixo Y",+ main="Personalizando um grfico", xlim=c(0,10), ylim=c(0,10),+ col="red", pch=22, bg="blue", tcl=0.4, las=1, cex=1.5, bty="l")

    3.1. Introduo 27

  • Estatstica Bsica: Introduo ao R Captulo 3. Grficos

    Figura 3.1: Grfico dos dados de coordenadas de cidades identificadas

    3.2 Grficos de Anlise DescritivaApresentaremos agora trs grficos fundamentais na anlise descritiva dos dados:

    histograma, grfico de barras e grfico de caixas. So reconhecidos no R pelos nomeshist, barplot e boxplot.

    3.2.1 HistogramaUm histograma divide uma srie de dados em diferentes classes igualmente espaadas

    e mostra a frequncia de valores em cada classe. Em um grfico, o histograma mostradiferentes barras, com bases iguais e amplitudes relativas s frequncias dos dados emcada classe. O eixo das ordenadas, portanto, mostra a frequncia relativa de cada classee o eixo das abcissas os valores e intervalos das classes. Abaixo apresentada a sintaxedo comando e um exemplo ilustrativo:

    3.2. Grficos de Anlise Descritiva 28

  • Estatstica Bsica: Introduo ao R Captulo 3. Grficos

    Figura 3.2: Mltiplos grficos usando mfrow()

    #Sintaxe:> hist(dados,nclass=k,) #k o nmero de classes do histograma

    #Exemplo:> rest par(mfrow=c(1,2))> hist(rest,nclass=12)> hist(rest,nclass=6)

    Do exemplo anterior, teremos os seguintes histogramas, respectivamente:

    3.2. Grficos de Anlise Descritiva 29

  • Estatstica Bsica: Introduo ao R Captulo 3. Grficos

    Figura 3.3: Histograma das resistncias com 12 classes

    3.2.2 BarplotA funo barplot() produz grfico de barras, onde cada barra representa a medida

    de cada elemento de um vetor, ou seja, as barras so proporcionais com a dimensodo elemento. A sintaxe geral da funo est abaixo:

    #Sintaxe:> barplot(x, col=" ", legend.text=" ", xlab=" ",ylab=" ")

    x - o vetor ou arquivo de dados;col= - define-se a cor de exibio do grfico de barras;legend.text= - legenda do grfico (o que representa a altura dos grficos);xlab= e ylab= - nome das grandezas expressas nos eixos x e y, respecti-vamente.Faremos um exemplo simples utilizando um vetor qualquer e aps utilizaremos o

    dataset euro que descreve as taxas de converso entre as diversas moedas e o euronos pases da unio europia. Observe os grficos e veja os argumentos utilizados nadescrio da funo barplot().

    #Exemplos:> x barplot(x)> barplot(euro,xlab="Euro conversions",col="red",+ legend.text="Valor da taxa")

    3.2. Grficos de Anlise Descritiva 30

  • Estatstica Bsica: Introduo ao R Captulo 3. Grficos

    Figura 3.4: Grfico de Barras de x

    Figura 3.5: Grfico de barras do dataset euro

    3.2.3 BoxplotO boxplot um grfico que possibilita representar a distribuio de um conjunto de

    dados com base em alguns de seus parmetros descritivos (mediana e os quartis). Elepermite avaliar a simetria dos dados e a sua disperso. especialmente recomendadopara a comparao de dois ou mais conjuntos de dados correspondentes s categoriasde uma varivel qualitativa.

    3.2. Grficos de Anlise Descritiva 31

  • Estatstica Bsica: Introduo ao R Captulo 3. Grficos

    Veja o grfico abaixo:

    Figura 3.6: Interpretao do grfico de caixas (boxplot)

    3.2. Grficos de Anlise Descritiva 32

  • Estatstica Bsica: Introduo ao R Captulo 3. Grficos

    Com base neste grfico, podemos identificar em um boxplot os seguintes parmetros:

    A linha central marca a mediana do conjunto de dados; A parte inferior da caixa delimitada pelo primeiro quartil (Q1) e a parte superior

    pelo terceiro quartil (Q3);

    Podemos, com isso, verificar tambm o intervalo interquartil dado pela diferenaentre o primeiro e o terceiro quartil (IQR = Q3 Q1);

    As hastes inferiores e superiores se estendem, respectivamente, do quartil inferiorat o menor valor no inferior a Q1 1.5 IQR e do quartil superior at o maiorvalor no superior a Q3 + 1.5 IQR;

    Os valores inferiores a Q11.5IQR e superiores a Q3 +1.5IQR so represen-tados individualmente no grfico sendo estes valores caracterizados como outliers,ou seja, que esto fora do intervalo Q1 1.5 IQR < valor < Q3 + 1.5 IQR;

    As quantidades Q1 1.5 IQR e Q3 + 1.5 IQR delimitam as cercas inferior esuperior, respectivamente, e constituem limites para alm dos quais, como visto,os dados passam a ser considerados outliers.

    O comando utilizado no R o boxplot(). Este comando possui vrios argumentos.Utilize o comando help(boxplot) para maiores informaes.

    #Exemplo:> x = c(5,5,5,13,7,11,11,9,8,9)> y = c(11,8,4,5,9,5,10,5,4,10)> boxplot(x,y) #para plotar no mesmo grfico (comparao)> boxplot(x); boxplot(y) #para plotar em grficos diferentes

    Apresentamos no exemplo seguinte um conjunto de dados (dataset) presente nobanco de dados do R criado por contribuintes do mundo inteiro [veja em help(datasets)].O dataset utilizado no exemplo chamado InsectSprays e apresenta a contagem deinsetos em unidades experimentais agrcolas tratados com diferentes inseticidas.

    #Exemplo:> boxplot(count~spray,data=InsectSprays,xlab="Tipo de Spray",+ ylab="Contagem de Insetos",main="InsectSprays data",+ col="yellow")

    3.2.4 Grfico de Ramo e FolhasO grfico de ramo e folhas uma representao grfica dos nmeros que permite or-

    ganizar os dados de forma a chamar a ateno para algumas caractersticas do conjuntode dados. So elas: forma da distribuio (simetria/assimetria), disperso dos dados e

    3.2. Grficos de Anlise Descritiva 33

  • Estatstica Bsica: Introduo ao R Captulo 3. Grficos

    Figura 3.7: Boxplot comparativo dos vetores x e y

    existncia de outliers.

    O grfico de ramo e folhas possui muita semelhana com o histograma, porm possuia vantagem de exibir o formato da distribuio sem que haja perda de informao. Adesvantagem do ramo-e-folhas est no fato de ser um grfico que deve ser utilizado comconjuntos dados de pequena dimenso.

    Um grfico de ramo e folhas construdo dispondo os dados em duas colunas: umapara os nmeros inteiros (ramos) situada esquerda, e outra direita composta pelosnmeros situados depois do ponto decimal dos dados (folhas). As colunas subsequentes segunda coluna representam as diversas aparies de um mesmo ramo na srie de dadosem ordem crescente. As linhas apresentam os nmeros dispostos em ordem crescente.

    Para a construo de um grfico ramo e folhas no R basta utilizar o comando stem().Veja o exemplo abaixo:

    3.2. Grficos de Anlise Descritiva 34

  • Estatstica Bsica: Introduo ao R Captulo 3. Grficos

    Figura 3.8: Boxplot do dataset InsectSprays

    #Exemplo:> rf stem(rf)The decimal point is 1 digit(s) to the left of the |48 | 849 |50 | 751 | 052 | 679953 | 0446954 | 246755 | 0357856 | 1235857 | 5958 | 5

    3.2. Grficos de Anlise Descritiva 35

  • Estatstica Bsica: Introduo ao R Captulo 3. Grficos

    Observe que no exemplo acima as folhas contm o ltimo dgito decimal e os ramos seapresentam em sequencia. Se os nmeros tiverem muitos algarismos significativos seroarredondados para a casa decimal que mais se aproximar do ramo.

    3.2.5 Grfico de PizzaGrficos de pizza exibem dados como proporo de um todo o que permite fazer

    comparaes entre grupos. Este tipo de grfico no apresenta nenhum eixo. Quandoum dado solto em um grfico de pizza, o grfico calcula a porcentagem de cada valorem relao a toda pizza. Veja a sintaxe e o exemplo abaixo:

    #Sintaxe:pie(dados,opes)

    #Exemplo:> a names(a) pie(a,col = c("red","blue","green","gray", "brown", "black"))

    3.2. Grficos de Anlise Descritiva 36

  • Estatstica Bsica: Introduo ao R Captulo 3. Grficos

    Figura 3.9: Grfico de Pizza

    3.2. Grficos de Anlise Descritiva 37

  • Estatstica Bsica: Introduo ao R Captulo 4. Estatstica Descritiva

    4Estatstica Descritiva

    4.1 IntroduoApresentaremos neste captulo alguns comandos bsicos do R na manipulao da

    estatstica descritiva. A estatstica descritiva ocupa-se da organizao, apresentaoe sintetizao dos dados. Desenvolveremos abaixo os componentes da estatstica de-scritiva, bem como seus comandos. Ao final desta seo abordaremos um exemploilustrativo, demonstrando alguns dos comandos mencionados.

    4.2 Medidas de PosioSo as estatsticas que representam uma srie de dados orientando-nos quanto

    posio da distribuio em relao ao eixo horizontal (eixo "x") do grfico da curva defreqncia. As medidas de posio mais importantes so as medidas de tendnciacentral, no qual se verifica uma tendncia dos dados observados a se agruparem emtorno dos valores centrais. Passaremos, ento, a apresentar as medidas de tendnciacentral mais utilizadas:

    4.2.1 Mdia Aritmtica XA mdia aritmtica igual ao quociente entre a soma dos valores do conjunto e o

    nmero total dos valores.

    X =ni=1

    Xin

    (4.1)

    onde Xi so os dados amostrais e n o nmero de valores amostrais. O comandopara calcularmos a mdia aritmtica segue abaixo, juntamente com um exemplo:

    #sintaxe:

    > mean(dados)

    #Exemplo:> x mean(x)[1] 14

    38

  • Estatstica Bsica: Introduo ao R Captulo 4. Estatstica Descritiva

    4.2.2 Mediana MdA mediana de um conjunto de valores, dispostos segundo uma ordem (crescente ou

    decrescente) o valor situado de tal forma no conjunto que o separa em dois subcon-juntos de mesmo nmero de elementos. Existe um mtodo prtico para o clculo damediana. Vamos a ele:

    Se a srie dada tiver nmero mpar de termos - O valor mediano ser otermo de ordem dado pela frmula:

    Md = n+ 12 (4.2)

    Exemplo: Calcule a mediana da srie {1, 3, 0, 0, 2, 4, 1, 2, 5}1. Ordenar a srie: {0, 0, 1, 1, 2, 2, 3, 4, 5};2. n = 9 elementos.3. Pela frmula (n + 1) / 2 dado por (9+1) / 2 = 5;4. Logo, o quinto elemento da srie ordenada ser a mediana. Este elemento

    o nmero 2.

    Se a srie dada tiver nmero par de termos - O valor mediano ser o termode ordem dado pela frmula:

    Md =[(n2 ) + (

    n2 + 1)]

    2 (4.3)

    onde (n2 ) e (n2 + 1) so termos de ordem e devem ser substitudos pelo seu valor

    correspondente.Exemplo: Calcule a mediana da srie {1, 3, 0, 0, 2, 4, 1, 3, 5, 6}.1. Ordenar a srie {0, 0, 1, 1, 2, 3, 3, 4, 5, 6};2. n = 10 elementos.3. Pela frmula [(10/2) + (10/2 + 1)]/2 resultar na realidade (5o termo + 6o

    termo)/2. Estes termos so 2 e 3, respectivamente.4. Logo a mediana ser (2+3)/ 2, ou seja, Md = 2,5.

    Algumas observaes:

    Quando o nmero de elementos da srie estatstica for mpar, haver coincidnciada mediana com um dos elementos da srie.

    Quando o nmero de elementos da srie estatstica for par, nunca haver coin-cidncia da mediana com um dos elementos da srie. A mediana ser sempre amdia aritmtica dos dois elementos centrais da srie.

    4.2. Medidas de Posio 39

  • Estatstica Bsica: Introduo ao R Captulo 4. Estatstica Descritiva

    O comando para o clculo da mediana o seguinte:

    #sintaxe:

    > median(dados)

    #Exemplo: Tomando os exemplos acima para simplesconferncia, obteremos:

    > k median(k)[1] 2> g median(g)[1] 2.5

    4.2.3 Moda Mo o valor que ocorre com maior frequncia em uma srie de valores. A moda

    facilmente reconhecida, basta, de acordo com definio, procurar o valor que mais serepete.

    Observao: h sries em que no existe valor modal, isto , srie nas quais nenhumvalor aparea mais vezes que os outros. Nestes casos dizemos que a srie amodal.Porm, em outros casos, pode haver dois ou mais valores de concentrao. Dizemos,ento, que a srie tem dois valores (bimodal) ou mais.

    Existem duas formas que podemos utilizar para encontrarmos a moda de uma sriede dados. So elas:

    table(): este comando ordena em ordem crescente os dados e indica o nmerode vezes em que o elemento se repete na srie de dados apresentada. utilizadopara encontrar a moda em pequenas amostras.

    subset(): em oposio ao item anterior esta funo utilizada quando o tamanhoda amostra grande.

    O comando para a obteno da moda dado abaixo:

    #sintaxe:

    > subset(table(), table() == max(table()))

    Este comando retorna a moda bem como o nmero de ocorrncias do elemento emquesto.

    Tomemos como exemplo a srie {7, 8, 9, 10, 10, 10, 11, 12}:

    4.2. Medidas de Posio 40

  • Estatstica Bsica: Introduo ao R Captulo 4. Estatstica Descritiva

    #Exemplo:> y table(y)y7 8 9 10 11 121 1 1 3 1 1> subset(table(y),table(y)==max(table(y)))103

    Observe que ambos os comandos indicam qual o valor da srie de dados que maisse repete. No exemplo, este valor o dado 10, com trs ocorrncias.

    4.2.4 Quartis (Q)Denominamos quartis os valores de uma srie que a dividem em quatro partes iguais.

    Precisamos, portanto, de trs quartis (Q1, Q2 e Q3) para dividir a srie em quatro partesiguais. Veja a figura abaixo:

    Observao: o quartil Q2 sempre ser igual mediana da srie.

    Figura 4.1: Quartis de uma srie de dados

    Exemplo: Calcule os quartis da srie: {5, 2, 6, 9, 10, 13, 15}1. Inicialmente se deve ordenar em ordem crescente os valores. Isto resulta: {2, 5,

    6, 9, 10, 13, 15}.2. O valor que divide a srie acima em duas partes iguais o elemento 9, logo a

    mediana e o quartil 2 (Q2) 9.

    3. Temos agora {2, 5, 6, 9} e {9, 10, 13, 15} como sendo os dois grupos contendo50% das informaes sobre os dados da srie. Para o clculo do primeiro e doterceiro quartis, basta calcular as medianas dos dois grupos resultantes.

    4. Logo em {2, 5, 6, 9} a mediana 5.5, ou seja, o quartil Q1 5.5 e em {9, 10,13, 15} a mediana 11.5, ou seja, o quartil Q3 11.5.

    Podemos encontrar os quartis atravs do comando:

    #sintaxe:

    > summary(dados)

    4.2. Medidas de Posio 41

  • Estatstica Bsica: Introduo ao R Captulo 4. Estatstica Descritiva

    Este comando calcula e apresenta o resultado de outros comandos. Desta forma,a funo summary capaz de resumir vrios tipos de objetos em uma nica funo.Dentre esses objetos encontram-se o primeiro e o terceiro quartil, sendo que o segundoquartil dado indiretamente atravs da mediana.

    Calculando o exemplo acima apresentado atravs do R:

    #Exemplo:> z summary(z)

    Min. 1st Qu. Median Mean 3rd Qu. Max.2.000 5.500 9.000 8.571 11.500 15.000

    Observe que o comando summary calcula outras medidas alm dos quartis.

    4.2.5 Percentis (P)So as medidas que dividem a amostra em 100 partes iguais. Veja a ilustrao:

    Figura 4.2: Percentis de uma srie de dados

    Por padro o R calcula os quantis (partes em que a srie de dados dividida) q0,q25, q50, q75, q100, os quais so obtidos atravs do comando:

    #sintaxe:

    > quantile(dados)

    Por exemplo, para o vetor 48, 49, 51, 50, 49 podemos calcular os quantis citados daseguinte forma:

    #Exemplo:> q quantile(q)

    0% 25% 50% 75% 100%48 49 49 50 51

    A especificao dos percentis pode ser feita pelo comando:

    4.2. Medidas de Posio 42

  • Estatstica Bsica: Introduo ao R Captulo 4. Estatstica Descritiva

    #sintaxe:

    > quantile(dados, c(valores dos percentis))

    Para o exemplo anterior:

    #Exemplo:> percentis = seq(.01,.99,.01)> quantile(q, percentis)

    1% 2% 3% 4% 5% 6% 7% 8%48.04 48.08 48.12 48.16 48.20 48.24 48.28 48.32

    9% 10% 11% 12% 13% 14% 15% 16%48.36 48.40 48.44 48.48 48.52 48.56 48.60 48.64

    ...97% 98% 99%

    50.88 50.92 50.96

    4.2.6 Decis (D)A definio dos decis obedece ao mesmo princpio dos quartis e, portanto, dividem

    a srie de dados em dez partes iguais. Observe:

    Figura 4.3: Decis de uma srie de dados

    Indicamos os decis por D1,D2,...,D9. Deste modo, precisamos de nove decis paradividir uma srie em dez partes iguais. De especial interesse o quinto decil que divideo conjunto em duas partes iguais. Assim sendo, o quinto decil igual ao segundo quartile, tambm, igual a mediana da srie de dados.

    O comando para calcularmos os decis , tambm, o quantile(). Isso porque bastaindicarmos quais os percentuais queremos que este comando calcule. Assim, para osdecis:

    #sintaxe:

    > quantile(dados, seq(0.10, 0.9, 0.1))

    No exemplo que desenvolvemos para os percentis, temos:

    4.2. Medidas de Posio 43

  • Estatstica Bsica: Introduo ao R Captulo 4. Estatstica Descritiva

    #Exemplo:> d quantile(d,seq(0.10,0.9,0.1))10% 20% 30% 40% 50% 60% 70% 80% 90%48.4 48.8 49.0 49.0 49.0 49.4 49.8 50.2 50.6

    Observao: como regra geral podemos utilizar o comando quantile() para os quar-tis, decis e para os percentis. Basta, para isso, utilizar um vetor no segundo argumentodo comando com os valores percentuais desejados.

    4.3 Medidas de Disperso

    4.3.1 IntroduoAlm das medidas de posio que estudamos, h outras que, consideradas indivi-

    dualmente, no so medidas de posio, mas apresentam a caracterstica de avaliar adisperso dos dados em torno dos valores centrais. A motivao para o estudo das me-didas de disperso est ilustrada no seguinte exemplo:

    Considere as sries de dados a seguir:a) 20, 20, 20, 20, 20b) 15, 10, 20, 25, 30Observamos que para ambas as sries a mdia igual a 20. Nota-se, entretanto, que

    os valores da srie na letra a se concentram totalmente na mdia, enquanto os valoresda srie b se dispersam em torno do mesmo valor. Ou seja, a srie a no apresentadisperso e os valores da srie b esto dispersos em torno mdia 20.

    As medidas de disperso so a amplitude total, a varincia, o desvio-padro e o coefi-ciente de variao. Vejamos a seguir descrio e exemplos para cada medida de disperso.

    4.3.2 Amplitude Total (A) a diferena entre o maior e menor dos valores da srie. Ou seja:

    A = Xmax Xmin (4.4)A utilizao da amplitude total como medida de disperso muito limitada, pois

    uma medida que depende apenas dos valores extremos, no sendo afetada pela variabil-idade interna dos valores da srie.

    Em uma srie de dados podemos encontrar os valores mximos e mnimos atravsdos seguintes comandos:

    #Sintaxe:> max(dados)> min(dados)

    4.3. Medidas de Disperso 44

  • Estatstica Bsica: Introduo ao R Captulo 4. Estatstica Descritiva

    Outra forma de obter o maior e menor valor da srie de dados utilizar o comando:

    #Sintaxe:> range(dados)

    J para o clculo da amplitude total da srie deve-se fazer a diferena entre os valoresapontados por um dos comandos anteriores da seguinte forma:

    #Sintaxe:> max(dados) - min(dados)

    Nesse mesmo contexto, podemos encontrar a quantidade total de elementos que asrie de dados possui. Basta utilizar a sintaxe a seguir:

    #Sintaxe:> length(dados)

    #Exemplo: Dada a srie de dados {20,23,23,28,33,37,37,37,40,44}:> a max(a)[1] 44> min(a)[1] 20> range(a)[1] 20 44> Amplitude = max(a)-min(a)> Amplitude[1] 24> length(a) #nmero de elementos da srie de dados[1] 10

    4.3.3 Varincia (2)A varincia a medida de disperso mais empregada geralmente, pois leva em con-

    siderao a totalidade dos valores da varivel em estudo. Baseia-se nos desvios em tornoda mdia aritmtica, sendo um indicador de variabilidade.

    Considerando nosso propsito de medir o grau de variabilidade dos valores em tornoda mdia, nada mais interessante do que estudarmos o comportamento dos desvios decada valor individual da srie em relao mdia. Desta forma, o desvio individual dado por: di = (xi x), onde xi representa cada um dos i-simos valores da amostra ex a mdia da amostra.

    Entretanto, por uma das propriedades da mdia tem-se queni=1(xix) = 0. Temosento que solucionar o seguinte problema: queremos calcular a mdia dos desvios, pormsua soma pode ser nula.

    Como soluo a esse problema a varincia considera o quadrado de cada desvio

    4.3. Medidas de Disperso 45

  • Estatstica Bsica: Introduo ao R Captulo 4. Estatstica Descritiva

    (xi x)2, evitando com isso que o somatrio seja nulo. Assim, a varincia dada por:

    2 =ni=1(xi x)2Fi

    n 1 (4.5)onde Fi o nmero de ocorrncias de xi.

    O comando para o clculo da varincia o seguinte:

    #Sintaxe:> var(dados)

    #Exemplo: Para o vetor {10,11,9,10,10,9,11} obtenha a varincia.> v var(v)[1] 0.6666667

    4.3.4 Desvio-padro ()Seguindo a mesma linha de raciocnio usado para o clculo da varincia, necessitamos,

    agora, aproximar a medida de disperso da varivel original. Para isso, calculamos odesvio padro, que a raiz quadrada da varincia. Assim:

    =n

    i=1(xi x)2Fin 1 (4.6)

    Podemos representar o desvio padro por uma distribuio normal, conforme grficoabaixo:

    Figura 4.4: Grfico da distribuio normal em funo do desvio-padro

    68,26% das ocorrncias se concentraro na rea do grfico demarcada por umdesvio padro direita e um desvio padro esquerda da linha mdia;

    95,44% das ocorrncias esto a dois desvios padro, para a direita e a esquerdada mdia e, finalmente;

    99,72% das ocorrncias ocorrem a trs desvios padro ao redor da mdia arit-mtica.

    4.3. Medidas de Disperso 46

  • Estatstica Bsica: Introduo ao R Captulo 4. Estatstica Descritiva

    Esta particularidade torna as distribuies normais previsveis, ou seja, se pudermoslevantar seu desvio padro poderemos fazer previses sobre os eventos representadosdentro das probabilidades definidas.

    O comando para o clculo do desvio padro segue abaixo:

    #Sintaxe:> sd(dados)

    #Exemplo: Para o exemplo anterior, do clculo da varincia.> v sd(v)[1] 0.8164966> sqrt(var(v))[1] 0.8164966

    4.3.5 Coeficiente de Variao (CV)Trata-se de uma medida relativa de disperso, til para a comparao em termos

    relativos do grau de concentrao em torno da mdia de sries distintas. dado por:

    CV = x

    100% (4.7)

    A importncia de se estudar o coeficiente de variao se d, pois o desvio-padro relativo mdia. E como duas distribuies podem ter mdias diferentes, o desviodestas distribuies no comparvel. Logo, o coeficiente de variao muito utilizadopara comparao entre amostras.

    O R calcula o coeficiente de variao conforme mostrado abaixo:

    #Sintaxe:> 100*sd(dados)/mean(dados) #dado em porcentagem

    #Exemplo: Para o exemplo anterior, do clculo do desvio-padro.> v CV = 100*sd(v)/mean(v)> CV[1] 8.164966 #em torno de 8%

    4.4 Exemplo AplicadoO seguinte exerccio foi adaptado a partir de [5].Exemplo: Um artigo no Journal of Structural Engineering (Vol. 115, 1989) descreve

    um experimento para testar a resistncia resultante em tubos circulares com calotas sol-dadas nas extremidades. Os primeiros resultados (em kN) so: 96; 96; 102; 102; 102;104; 104; 108; 126; 126; 128; 128; 140; 156; 160; 160; 164 e 170. Pede-se:

    4.4. Exemplo Aplicado 47

  • Estatstica Bsica: Introduo ao R Captulo 4. Estatstica Descritiva

    a) Calcule a mdia da amostra e d uma interpretao prtica para ela.b) Calcule os percentis 9%, 25, 5% e 69, 67%.c) Calcule o segundo quartil ou mediana.d) Calcule a amplitude da amostra.e) Calcule a varincia e o desvio padro da amostra.f) Qual a fonte de maior variabilidade deste experimento.

    Para resolvermos este problema no R basta carregarmos o vetor com as medidas deresistncia das calotas soldadas. Veja abaixo:

    > rest rest[1] 96 96 102 102 102 104 104 108 126 126[11] 128 128 140 156 160 160 164 170

    a) Para calcular a mdia basta fazer:

    > mean(rest)[1] 126.2222

    Com este valor podemos concluir que a resistncia da solda das calotas circulares seconcentra, na maioria dos testes, em torno do valor mdio. Isto , se pegarmos aleato-riamente uma calota soldada de se esperar que a resistncia da solda se concentre emtorno (e prximo) da mdia.

    b) Obtemos pelo seguinte comando:

    > quantile(rest,c(.09,0.255,.6967))9% 25.5% 69.67%

    99.1800 102.6700 138.1268

    c) Como sabemos, o segundo quartil coincide com a mediana da amostra e calcu-lamos da seguinte forma:

    > summary(rest)Min. 1st Qu. Median Mean 3rd Qu. Max.96.0 102.5 126.0 126.2 152.0 170.0

    > #ou> median(rest)[1] 126

    d) A amplitude pode ser obtida de duas formas diferentes. Vamos a elas:

    4.4. Exemplo Aplicado 48

  • Estatstica Bsica: Introduo ao R Captulo 4. Estatstica Descritiva

    > range(rest)[1] 96 170> A = 170-96> #ou> A = max(rest)- min(rest)> A[1] 74

    e) Obteremos com os comandos apresentados abaixo:

    > var(rest)[1] 683.2418> sd(rest)[1] 26.13889> sqrt(var(rest))[1] 26.13889

    f) Como a estatstica se preocupa com a variabilidade dos dados amostrais, deve-mos apontar suas causas. Neste exemplo, podemos apontar como possveis causas devariabilidade os erros de medio da resistncia da solda, soldagem feita por soldadoresdiferentes (caso no seja automatizado), etc. Enfim, devemos reduzir a variabilidadepara termos garantias de qualidade e, num cenrio ideal, elimin-la.

    4.4. Exemplo Aplicado 49

  • Estatstica Bsica: Introduo ao R Captulo 5. Probabilidade

    5Probabilidade

    5.1 IntroduoUm experimento pode apresentar diferentes resultados quando conduzido mais de

    uma vez. Desta forma, mesmo tomando-se todo o cuidado para sua realizao, exis-tem variveis como variaes na temperatura, quantidade de impurezas na composioqumica de determinado material, alteraes nos medidores, dentre outras, que no po-dem ser controladas, mas influenciam nas concluses a respeito de tal experimento.

    Estas variveis podem provocar variaes muito pequenas nos resultados e seremdesprezadas, ou sua influncia pode ser relativamente grande e as concluses no serembvias. Por este motivo, as distribuies de probabilidade buscam modelar e analisar osresultados experimentais em que as variveis no controladas possam provocar alteraessignificativas nos resultados.

    Alguns conceitos importantes devem estar consolidados para que seja compreendidoo estudo da probabilidade. A seguir so apresentados tais conceitos:

    Experimento Aleatrio: experimento que pode apresentar diferentes resultadosmesmo quando conduzido sob as mesmas condies.

    Espao amostral: conjunto de todos os possveis resultados de um experimento. Eventos: subconjunto do espao amostral de um experimento aleatrio.

    5.2 Probabilidade - DefinioA probabilidade um nmero atribudo a cada membro de uma coleo de eventos

    a partir de um experimento aleatrio. Ela normalmente quantificada de maneira arepresentar o grau de crena que determinado evento possa ocorrer. Por exemplo, pode-se afirmar que a probabilidade de chover no fim de semana de 40%.

    Quando se quantifica determinado acontecimento, atribui-se um valor entre 0 e 1ou em porcentagem. Quando a probabilidade igual a zero, o evento no ocorrer. Jquando a probabilidade igual a um, ele ocorrer com certeza.

    Pode-se definir a probabilidade de um experimento da seguinte forma: Se um es-pao amostral consistir em N resultados possveis que sejam igualmente provveis, aspossibilidades de ocorrncia de cada resultado de 1/N.

    Exemplo 1: Em um lote de 100 diodos, 30% satisfazem os requerimentos mnimosde potncia de um consumidor especfico. Se um diodo for selecionado ao acaso (cadadiodo tem a mesma chance de ser selecionado) qual ser a probabilidade de que asexigncias do consumidor sejam satisfeitas?

    50

  • Estatstica Bsica: Introduo ao R Captulo 5. Probabilidade

    Soluo: Denotando E como evento em que o diodo selecionado satisfaa sexigncias do consumidor, temos que E o subconjunto de 30 diodos que est contidono espao amostral de 100 diodos do lote (N=100).

    A probabilidade de cada diodo ser selecionado determinada da seguinte maneira:

    P (N) = 1100 = 0, 01

    Onde N so os possveis resultados e P(N) a probabilidade individual de seleo decada diodo.

    Como E tem 30 possveis resultados e cada resultado tem probabilidade de 0,01, entoa probabilidade de ocorrncia do evento E, ou a probabilidade de que sejam satisfeitasas exigncias do consumidor, ser:

    P (E) = 30 0.01 = 0, 3 = 30%No R a probabilidade calculada da seguinte forma:

    #Sintaxe:# Exemplo 1: Lote de Diodos> n = 100 # nmero de possveis resultados> p = 1/n # probabilidade de ocorrncia de um resultado> p[1] 0.01> E = 30*p # probabilidade do evento E> E[1] 0.3

    Exemplo 2: Uma inspeo visual de um produtor local de pastilhas provenientes deum processo de fabricao de semicondutores resultou na seguinte tabela:

    Nmero decontaminantes

    Proporo dePartculas

    0 0,41 0,22 0,153 0,104 0,055 ou mais 0,10

    Se desse processo uma pastilha for selecionada ao acaso e o local for inspecionado,pergunta-se:

    a) Qual ser a probabilidade de que ele no contenha partculas contaminantes?b) Qual ser a probabilidade de uma pastilha conter trs ou mais partculas do stio

    inspecionado?c) Qual a probabilidade de uma partcula conter 0 ou mais de trs partculas no stio

    inspecionado?Soluo:a) A probabilidade requerida depende somente do nmero de partculas contami-

    nantes. Pode-se considerar que o espao amostral apresentado na tabela represente as

    5.2. Probabilidade - Definio 51

  • Estatstica Bsica: Introduo ao R Captulo 5. Probabilidade

    seis categorias que resumem o nmero de partculas contaminantes em uma pastilha.Assim, o evento em que no h nenhuma partcula no local inspecionado denotadopelo evento Ea:

    P (Ea) = P (0) = 0, 4 (5.1)

    #Sintaxe:# Exemplo 2.a):> p_0 = 0.4 # probabilidade de 0 "partculas" por pastilha> p_a = p_0 # probabilidade do item a igual a probabilidade 0> p_a # mostrar probabilidade do item a[1] 0.4

    b) Fazendo Eb denotar o evento em que a pastilha contm trs ou mais partculasno stio inspecionado, verificamos que Eb ser a soma das trs ltimas categorias (3, 4,5 ou mais):

    P (Eb) = P (3, 4, 5, > 5) = 0, 1 + 0, 05 + 0, 1 = 0, 25

    #Sintaxe:# Exemplo 2.b):> p_3 = 0.1 # probabilidade de 3 partculas por pastilha> p_4 = 0.05 # probabilidade de 4 partculas por pastilha> p_5 = 0.1 # probabilidade de 5 ou mais partculas por pastilha> p_c = p_3 + p_4 + p_5 # probabilidade do item b > # a soma das trs probabilidades> p_c # mostrar probabilidade do item b[1] 0.25

    c) Fazendo Ec denotar o evento em que a pastilha contm 0 ou mais que trspartculas no stio inspecionado, Ec ser a soma dos resultados (0, 4, 5 ou mais):

    P (Ec) = P (0, 4, 5) = 0, 4 + 0, 05 + 0, 1 = 0, 55

    #Sintaxe:# Exemplo 2.c:> p_0 = 0.4 # probabilidade de 0 partculas por pastilha> p_4 = 0.05 # probabilidade de 4 partculas por pastilha> p_5 = 0.1 # probabilidade de 5 ou mais partculas por pastilha> p_c = p_0 + p_4 + p_5 # probabilidade do item c ># a soma das trs probabilidades> p_c # mostrar probabilidade do item c[1] 0.55

    5.2. Probabilidade - Definio 52

  • Estatstica Bsica: Introduo ao R Captulo 5. Probabilidade

    5.3 Axiomas da ProbabilidadeOs axiomas da probabilidade so regras que garantem que as probabilidades de um

    determinado evento sejam coerentes com o nosso entendimento intuitivo. Eles possibili-tam que as probabilidades de alguns eventos sejam calculadas a partir do conhecimentodas probabilidades de outros eventos. Assim:

    Considerando S o espao amostral e E como qualquer evento do experimento aleatrio,tem-se:

    1) P(S) = 12) 0=P(E)=13) Para dois eventos E1 e E2 com E1 E2 = , P(E1 E2) = P(E1) + P(E2)

    5.3. Axiomas da Probabilidade 53

  • Estatstica Bsica: Introduo ao R Captulo 6. Variveis Aleatrias

    6Variveis Aleatrias

    6.1 IntroduoA utilizao dos recursos da estatstica descritiva requer que o espao amostral no-

    numrico de um determinado experimento aleatrio seja transformado em um espaoamostral numrico. Em outras palavras, necessrio representar o resultado de um ex-perimento aleatrio atravs de um nmero.

    Tal transformao feita por uma funo que confere um nmero real a cada resul-tado do experimento aleatrio. A esta funo d-se o nome de varivel aleatria.

    Em geral, as variveis aleatrias so representadas pela letra maiscula X, e elaspodem ser de dois tipos: discretas ou contnuas.

    6.2 Variveis Aleatrias Discretas

    6.2.1 IntroduoEm alguns experimentos, como por exemplo, o nmero de bits transmitidos que so

    recebidos com erro, tem-se uma medida limitada a nmeros inteiros. Ou ainda, quandose deseja registrar que 0, 0042 de 1000 bits foram recebidos com erro, tem-se uma me-dida fracionria mais ainda assim limitada na linha dos nmeros reais. A varivel querepresenta uma medida com uma faixa finita de valores ou infinita contvel denomi-nada varivel aleatria discreta ou VAD.

    Como exemplo de variveis aleatrias discretas, tem-se a quantidade de partes de-feituosas em n testadas, nmero de bits transmitidos com erro, ou seja, tudo que estiverrelacionado com a contagem de determinados elementos.

    6.2.2 Distribuio Binomial - X b(n,p)Um experimento binomial diz respeito a um experimento aleatrio que consiste

    em repetidas tentativas que apresentam apenas dois resultados possveis (tentativasde Bernoulli) e possui as seguintes caractersticas:

    As tentativas so independentes, ou seja, o resultado de uma no altera o resultadoda outra;

    Cada repetio do experimento admite apenas dois resultados: sucesso ou fracasso; A probabilidade de sucesso (p), em cada tentativa, constante.A varivel aleatria X denota o nmero de tentativas que resultaram em sucesso e

    possui uma distribuio binomial com parmetros p e n = 1,2,3,. . .

    54

  • Estatstica Bsica: Introduo ao R Captulo 6. Variveis Aleatrias

    A funo de probabilidade de X :

    P (X = x) = f(x) =(nx

    )px(1 p)nx, x = 0, 1, 2, . . . , n. (6.1)

    onde (nx

    )= n!x!(n x)! (6.2)

    n - nmero de tentativas; p - probabilidade de sucesso; x - nmero de sucessos;A esperana (mdia) e a varincia so dadas por:

    = E(X) = np (6.3)

    2 = V (x) = np(1 p) (6.4)A distribuio binomial obtida atravs da expanso binomial, frmula que pode ser

    aplicada em vrios exemplos:

    (a+ b)n =k=0n

    (nk

    )akbnk (6.5)

    Considerando a = p e b = 1-p, observa-se que a soma das probabilidades para umavarivel aleatria discreta igual a um.

    O nome binomial devido ao fato de o resultado apresentar duas possibilidades.A distribuio binomial uma particularidade da distribuio multinomial.

    Exemplo 1: Uma amostra de ar tem 10% de chance de conter certa molcula rara.Considere que as amostras sejam independentes com relao presena da molcularara. Encontre a probabilidade de que nas prximas 18 amostras, exatamente 2 con-tenham a molcula rara.

    Soluo: x o nmero de amostras de ar que contenham a molcula rara nas prx-imas 18 amostras analisadas.

    p = 10% = 0, 1;n = 18;x = 2;

    #Exemplo 1:> p n x dbinom(x, n, p)[1] 0.2835121

    O resultado representa que a probabilidade de que exatamente 2 molculas rarassejam encontradas nas prximas 18 amostras analisadas.

    Exemplo 2: A probabilidade de uma pea artesanal ser feita com perfeio por umarteso de 50%. Considerando que o arteso produz, de maneira independente, 6peas por dia, pede-se:

    a) Obter a distribuio de probabilidades, ou seja, as probabilidades associadas aos

    6.2. Variveis Aleatrias Discretas 55

  • Estatstica Bsica: Introduo ao R Captulo 6. Variveis Aleatrias

    possveis valores da varivel aleatrias discreta x, em que x = nmero de peas perfeitasproduzidas pelo arteso num nico dia.

    Observao: x = {0,1,2,3,4,5,6}, n = 6, p = 0.5.

    b) Plotar o grfico com os valores da probabilidade calculada.

    #Exemplo 2:> x n p bino bino[1] 0.015625 0.09375 0.234375 0.312500 0.234375 0.093750 0.015625> plot(x,bino,type="h",xlab="N de peas com perfeio",+ ylab="Probabilidade",main="Distribuio binomial")

    Figura 6.1: Grfico do Exemplo 2.b: Distribuio binomial de probabilidades

    6.2. Variveis Aleatrias Discretas 56

  • Estatstica Bsica: Introduo ao R Captulo 6. Variveis Aleatrias

    6.2.3 Distribuio De Poisson - X P()A distribuio de Poisson permite evidenciar a probabilidade de experimentos em que

    o nmero de amostras pode aumentar no tempo e a probabilidade de sucesso diminuir,mantendo a esperana E(X) constante.

    Um experimento no qual dado um intervalo de nmeros reais, sejam realizadas con-tagens atravs do intervalo. Se este intervalo puder ser dividido subintervalos comcomprimentos to pequenos tais que:

    A probabilidade de mais de uma contagem em um subintervalo seja zero; A probabilidade de uma contagem em um subintervalo seja a mesma para todos

    os subintervalos e proporcional ao comprimento do intervalo;

    A contagem de cada subintervalo seja independente dos outros subintervalos;Tal experimento chamado processo de Poisson.Assim a varivel aleatria X, que denota o nmero de contagens no intervalo, possui

    uma distribuio de Poisson com parmetro e representada atravs da funo:

    f(x) = ex

    x! , x = 0, 1, 2, . . . , n. (6.6)

    A mdia e a varincia de uma distribuio de Poisson so representadas por:

    = E(X) = = pn (6.7)

    2 = V (x) = (6.8)Exemplos da utilizao da distribuio de Poisson so quaisquer experimentos que

    incluem intervalo de tempo, superfcie ou volume: partculas de contaminao na fabri-cao de semi-condutores, interrupes de energia, entre outras.

    Abaixo, observa-se o grfico da distribuio de Poisson.

    6.2. Variveis Aleatrias Discretas 57

  • Estatstica Bsica: Introduo ao R Captulo 6. Variveis Aleatrias

    Figura 6.2: Distribuio de Poisson para diferentes parmetros

    A distribuio binomial pode ser aproximada por uma Poisson, com = n.p quandoo tamanho da amostra grande (n ) e a probabilidade pequena (p 0). Emoutras palavras, quando n > 30 e p < 0, 05.

    Exemplo 3: Em um fio delgado de cobre, o nmero de falhas no fio segue adistribuio de Poisson, com uma mdia de 2,3 falhas por milmetro.

    a) Determine a probabilidade de existir exatamente 2 falhas em um milmetro de fio.b) Sabendo que o nmero mximo de erros no teste de qualidade de 10 erros/mm,

    verifique as probabilidades de que ocorram de 0 a 10 falhas no fio. Plote o grfico dadistribuio.

    Soluo:a) X representa o nmero de falhas em 1 milmetro de fio: E(X) = = = 2, 3

    falhas/mm.

    #Exemplo 3a:> x lambda #distribuio de Poisson com parmetros x e lambda:> dpois(x,lambda)[1] 0.2651846

    6.2. Variveis Aleatrias Discretas 58

  • Estatstica Bsica: Introduo ao R Captulo 6. Variveis Aleatrias

    b) Fazendo x variar de 0 a 10 erros/mm, temos:

    #Exemplo 3b:> x poisson plot(x,poisson, xlab= "N de erros por milmetro",+ ylab="Probabilidade de Poisson",main="Distribuio de Poisson")> lines(x,poisson)

    Figura 6.3: Grfico do Exemplo 3.b: Distribuio Poisson de probabilidades

    6.3 Variveis Aleatrias Contnuas

    6.3.1 IntroduoA corrente eltrica em um fio condutor ou o comprimento de uma pea so exemplos

    de experimentos aleatrios que apresentam a medida de interesse como um nmero real.Desta forma se pode ter uma preciso arbitrria da medida. A varivel aleatria querepresenta uma medida, com um intervalo finito ou infinito de nmeros reais para suafaixa denomina-se varivel aleatria contnua ou VAC.

    Como exemplos de variveis aleatrias contnuas tm-se: a corrente eltrica, compri-mento, presso, temperatura, tempo, tenso, peso.

    6.3.2 Distribuio Normal ou Gaussiana - X N(,2) um dos mais importantes modelos de probabilidade para VACs. Aplicado em in-

    meros fenmenos e muito utilizado no desenvolvimento terico e na rea da infernciaestatstica.

    6.3. Variveis Aleatrias Contnuas 59

  • Estatstica Bsica: Introduo ao R Captulo 6. Variveis Aleatrias

    A distribuio gaussiana serve como aproximao para o clculo de outras dis-tribuies quando o nmero de observaes aumenta. O teorema central do limiteexplica esta propriedade, ele diz que: Toda a soma de variveis aleatrias indepen-dentes de mdia finita e varincia limitada aproximadamente Normal, desde que onmero de termos da soma seja suficientemente grande [5]. Assim fica determinadoque quando as rplicas de um experimento aleatrio se aproximarem de um resultadomdio, o experimento tender a ter uma distribuio normal na medida em que o nmerode rplicas se torne grande.

    As variveis aleatrias com diferentes mdias e varincias podem ser modeladas pelasfunes densidade de probabilidade normal. E(X) = determina o centro do grficoem forma de sino, e V (X) = 2 determina a largura da distribuio, como pode-seobservar:

    Figura 6.4: Distribuio Normal com diferentes parmetros

    6.3. Variveis Aleatrias Contnuas 60

  • Estatstica Bsica: Introduo ao R Captulo 6. Variveis Aleatrias

    A representao da funo densidade de probabilidade dada por:

    f(x) = 12pi

    e(x)222 (6.9)

    Em que:

    < x 0 (6.11)

    E(X) = (6.12)V (X) = 2 (6.13)

    Exemplo 4: Um pesquisador coletou os dados da estatura de jovens em idade dealistamento militar. Sabe-se que a estatura de uma populao segue a distribuio nor-mal, com mdia 170 cm e varincia 36 cm2 (desvio padro de 6 cm2).

    a) Qual a probabilidade de se encontrar um jovem com mais de 1,79 m de altura?b) Qual a altura em que a probabilidade de encontrarmos valores menores que ela

    seja de 80%?c) Represente graficamente a curva da distribuio normal para este problema e

    identifique as respostas dos itens a e b.

    Soluo:

    #Exemplo 4:> #Item a)> 1-pnorm(179,170,6) #pnorm(x,mdia,desvio padro)[1] 0.0668072> #Item b)> qnorm(0.8, 170,6)[1] 175.0497> #Item c)> curve(dnorm(x,170,6),170-3*6,170+3*6,xlab="Alturas (cm)",+ ylab="Probabilidade de se encontrar a altura x",+ main="Distribuio Normal")> lines(c(179,179),c(0,0.022),col="red")> lines(c(175.0497,175.0497),c(0,0.0465),col="blue")

    6.3. Variveis Aleatrias Contnuas 61

  • Estatstica Bsica: Introduo ao R Captulo 6. Variveis Aleatrias

    Figura 6.5: Distribuio normal do Exemplo 4.c

    6.3.3 Distribuio de Weibull - X W(,)A distribuio Weibull, geralmente usada para modelar o tempo at uma falha de

    sistemas fsicos (diversos tipos). Os parmetros da distribuio fornecem grande flexibi-lidade para modelar sistemas em que o nmero de falhas aumenta com o tempo, diminuicom o tempo, ou permanece constante com o tempo.

    Sua funo densidade de probabilidade representada por:

    f(x) =

    (x

    )1e(

    x )

    (6.14)

    onde a mdia e a varincia de X so, respectivamente:

    = (

    1 + 1

    )(6.15)

    2 = 2(

    1 + 2

    ) 2

    [(

    1 + 1

    )]2(6.16)

    Exemplo 5: O tempo de falha (em horas) de um mancal em um eixo mecnico satisfatoriamente modelado como uma varivel aleatria de Weibull com = 12 e = 5000.

    a) Determine a probabilidade de um mancal durar no mnimo 6000 h.b) Verificar a probabilidade de um mancal ter problemas nas primeiras 6000 h. Plotar

    6.3. Variveis Aleatrias Contnuas 62

  • Estatstica Bsica: Introduo ao R Captulo 6. Variveis Aleatrias

    o resultado.

    Soluo:

    #Exemplo 5:> 1-pweibull(6000,0.5,5000)[1] 0.3343907> x curve(dweibull(x,0.5,5000),0,7000) #dweibull(x, beta,delta)

    Figura 6.6: Grfico do Exemplo 5: Distribuio Weibull

    6.3. Variveis Aleatrias Contnuas 63

  • Estatstica Bsica: Introduo ao R Captulo 6. Variveis Aleatrias

    6.3.4 Distribuies no RAbaixo possvel conferir algumas distribuies disponveis no R.

    Figura 6.7: Funes de Distribuies disponveis no R

    6.3. Variveis Aleatrias Contnuas 64

  • Estatstica Bsica: Introduo ao R Captulo 7. Inferncia Estatstica

    7Inferncia Estatstica

    7.1 IntroduoMuitos problemas, especialmente na rea de engenharia, requerem que decidamos en-

    tre aceitar ou rejeitar uma hiptese acerca de algum parmetro. A afirmao chamadade hiptese e o procedimento de tomada de deciso sobre a hiptese chamado de testede hipteses.

    Definio: Uma hiptese estatstica uma afirmao sobre os parmetros de umaou mais populaes.

    importante destacar que hipteses so sempre afirmaes sobre a populao oudistribuio sob estudo, no afirmaes sobre a amostra.

    Em um teste de hiptese trabalhamos sempre com duas afirmaes: a hiptese nula(H0) e a hiptese alternativa (H1). O valor do parmetro especificado na hiptese nula geralmente determinado por uma de trs formas:

    Ele resultado de experincia passada, conhecimento do processo ou de testes eexperimentos prvios.

    determinado a partir de alguma teoria ou do modelo relativo ao processo sobestudo.

    resultado de consideraes externas, tais como projeto ou especificaes deengenharia ou obrigaes contratuais.

    Trataremos aqui a hiptese nula de forma que ela seja sempre estabelecida especifi-cando um valor exato do parmetro (igualdade). J a hiptese alternativa permitir aoparmetro assumir vrios valores, dependendo do tipo de hiptese em estudo.

    7.1.1 Hipteses Unilaterais e BilateraisUm teste de qualquer hiptese, tal como

    H0 : = 0H1 : 6= 0

    chamado de teste bilateral, porque importante detectar diferenas em relao aovalor da mdia 0 usado na hiptese, que esteja em ambos os lados de 0. Em tal caso,a regio critica dividida em duas partes com (geralmente) igual probabilidade colocadaem cada extremidade da distribuio da estatstica do teste.

    65

  • Estatstica Bsica: Introduo ao R Captulo 7. Inferncia Estatstica

    Figura 7.1: Grfico de um teste bilateral para a mdia de distribuio normal

    Muitos problemas de teste de hiptese envolvem, naturalmente, uma hiptese alter-nativa unilateral, tal como:

    H0 : = 0H1 : < 0

    ouH0 : = 0H1 : > 0

    Se a hiptese alternativa for H1 : > 0, a regio crtica deve estar na extremidadesuperior da distribuio da estatistica de teste, enquanto se a hiptese alternativa forH1 : < 0, a regio critica deve estar na extremidade inferior da distribuio. Essestestes so chamados unilaterais.

    7.2 Testes de Hiptese - Uma amostra

    7.2.1 IntroduoEsta seo trata de inferncias acerca dos parmetros mdia, varincia e proporo

    de uma populao simples.

    7.2.2 Teste para a MdiaPodemos realizar o teste de hiptese para a mdia de uma populao normal em

    duas situaes:

    Varincia conhecida

    Neste caso utiliza-se a seguinte estatistica de teste:

    Z0 =X 0

    n

    (7.1)

    e o seguinte intervalo de confiana:

    x z2

    n x+ z

    2

    n

    (7.2)

    7.2. Testes de Hiptese - Uma amostra 66

  • Estatstica Bsica: Introduo ao R Captulo 7. Inferncia Estatstica

    Varincia desconhecida

    Neste caso utiliza-se a seguinte estatistica de teste:

    T0 =X 0

    Sn

    (7.3)

    e o seguinte intervalo de confiana:

    x t2 ,n1

    sn x+ t

    2 ,n1sn

    (7.4)

    Nesta apostila trabalharemos apenas com o teste t (para varincia desconhecida)em ambos os casos. Isso se justifica pelo fato de que o teste z uma particularidadedo teste t para um nmero razovel de amostras (n > 30) e a utilizao de t emcasos de varincia conhecida no um problema, pelo contrrio, cobre o teste para oscasos de erro do tipo I.

    A funo de teste de hiptese para uma mdia chamada t.test(). Posteriormenteveremos que a mesma funo servir para comparao entre duas mdias. Veja abaixoa sintaxe da funo:

    #sintaxe:

    t.test(x, alternative = hipotese,mu = media, conf.level = )

    onde:

    hipotese - pode assumir os seguintes valores:

    greater (teste unilateral de H0 maior que a mdia) less (teste unilateral de H0 menor que a mdia) two.sided (teste bilateral de H0 igual mdia)

    media - valor da mdia a ser testada - confiana do teste (1 (significancia))

    Para entender como utilizar a funo, faremos um exemplo retirado de Montgomery[5].

    Exemplo: Um artigo peridico Materials Engineering (1989, Vol. II, No. 4, pp.275-281) descreve os resultados de teste de tenso quanto adeso em 22 corpos deprova de liga U-700. A carga no ponto de falha do corpo de prova dada a seguir (emMPa):

    19,8 18,5 17,6 16,7 15,815,4 14,1 13,6 11,9 11,411,4 8,8 7,5 15,4 15,419,5 14,9 12,7 11,9 11,410,1 7,9

    7.2. Testes de Hiptese - Uma amostra 67

  • Estatstica Bsica: Introduo ao R Captulo 7. Inferncia Estatstica

    O objetivo verificar se os dados sugerem que a carga mdia na falha excede 10MPa. Considerar que a carga na falha tem uma distribuio normal e utilizar = 0.05.

    Primeiramente, devemos associar os dados da tabela a um vetor. Feito isso, devemosrealizar um teste unilateral a fim de verificar se a mdia na falha maior que a 10 MPa.A seguir podemos verificar a resoluo utilizando a funo t.test() no R:

    #Exemplo:> x x[1] 19.8 18.5 17.6 16.7 15.8 15.4 14.1 13.6 11.9 11.4 11.4[12] 8.8 7.5 15.4 15.4 19.5 14.9 12.7 11.9 11.4 10.1 7.9> t.test(x,alternative="greater",mu=10,conf.level=0.95)

    One Sample t-test

    data: xt = 4.9017, df = 21, p-value = 3.781e-05alternative hypothesis: true mean is greater than 1095 percent confidence interval:12.40996 Infsample estimates:mean of x13.71364

    A funo retorna a hiptese alternativa, o intervalo de confiana, a mdia amostral,o valor de t calculado (valor crtico), os graus de liberdade da distribuio e o p-value.

    P-value a probabilidade de obter um resultado pelo menos muito prximo do queo valor que foi testado, assumindo que a hiptese nula verdadeira. O fato de o P-value ser baseado nessa premissa crucial para sua correta interpretao. Um P-valorprximo de 0 indica que a hiptese nula falsa. Quando prximo de 1, indica que noh evidncias suficientes para rejeitar a hiptese nula.

    Para interpretar os testes de hiptese no R, temos que comparar o P-value com asignificncia testada:

    p-value > Aceita H0p-value < Rejeita H0

    Em nosso caso, percebemos que p-value muito menor que . Logo, atravs dasevidncias amostrais, rejeita-se a hiptese nula (H0 : = 10 MPa), evidenciando que acarga mdia maior que 10 MPa (H1 : > 10 MPa).

    7.2.3 Teste para a Varincia de uma populao normalAlgumas vezes so necessrios testes de hiptese e intervalos de confiana para a

    varincia de uma populao. O teste que estudaremos vlido quando a populao formodelada por uma distribuio normal.

    7.2. Testes de Hiptese - Uma amostra 68

  • Estatstica Bsica: Introduo ao R Captulo 7. Inferncia Estatstica

    A estatstica de teste dada pela seguinte frmula:

    X20 =(n 1)S2

    20(7.5)

    com os seguintes intervalos de confiana:

    Intervalo superior2 (n 1)s

    2

    21,n1(7.6)

    Intervalo inferior(n 1)s22,n1

    2 (7.7)

    Devemos entender que a estatstica desse teste segue uma distribuio qui-quadradocom n-1 graus de liberdade, abreviada por n1. O R no possui nenhuma funo prontapara calcular esse teste para a varincia. Portanto, utilizaremos a estatstica de teste e oconceito de P-valor para criar uma funo simples deste caso. Para t