09 elem r visualizacao

Upload: carlos-carlos

Post on 27-Feb-2018

214 views

Category:

Documents


0 download

TRANSCRIPT

  • 7/25/2019 09 Elem R Visualizacao

    1/8

    1

    Aplicaes Computacionais em Explorao e

    Anlise de Dados: Visualizao Descritiva

    Leandro Vitral Andraos (Bolsista IC, Departamento de Estatstica, UFJF)

    Marcel de Toledo Vieira (Professor, Departamento de Estatstica, UFJF)

    1. Introduo

    O R um programa estatstico computacional disponvel gratuitamente atravs da internet sob a

    General Public License. Na verdade, o R mais que um pacote estatstico, um ambiente de

    desenvolvimento estatstico bastante flexvel, e tambm uma linguagem de programao completa.

    Nesta aula estaremos tratando de conceitos elementares e fazendo uso de alguns exemplos.

    Este software compatvel com as trs principais plataformas: Unix/GNU/Linux/FreeBSD,

    Machintosh e Windows. Alm disso, possui diversas funcionalidades, e permite a incorporao de

    novos comandos e extenses, programadas na linguagem Rou em outras linguagens como C, Perl1,

    Python2,Lisp3ou Tcl/Tk4.

    2. Onde Obter oR?

    Informaes detalhadas sobre o R esto disponveis no stio do Comprehensive R Archive Network

    (CRAN):

    http://www.r-project.org/

    Um linkdiretopara o downloadda verso 3.0.1 :

    http://cran.fiocruz.br/bin/windows/base/

    Clique em Download R 3.0.1 for Windows. Aps o downloadd um duplo clique no arquivo e

    siga os passos de instalao. Desta maneira, o pacote ser instalado. Para execut-lo deve-se acessar o

    aplicativoRa partir do menude Programas.

  • 7/25/2019 09 Elem R Visualizacao

    2/8

    2

    3. Estatstica Descritiva

    Grficos e tabelas so recursos amplamente utilizados para representar resultados de estudos e

    informaes de uma forma organizada e clara. Com estas ferramentas, podemos visualizar informaes

    quantitativas de forma resumida, o que facilita a utilizao desses resultados para a tomada de decises.

    A construo de grficos , certamente, um dos mais importantes aspectos da anlise

    exploratria de dados.

    Iremos comear com o exemplo fictcio da tabela abaixo:

    Para digitar no R nossa tabela podemos utilizar o seguinte comando:

    dados

  • 7/25/2019 09 Elem R Visualizacao

    3/8

    3

    Podemos tambm adicionar labelsaos eixos x e y da seguinte forma:

    barplot(dados[,1],col=c("red","green","blue","hotpink"),main="Distribuio de

    Professores na Rede de Ensino",ylim=c(0,3000),xlab="Escolas",ylab="Frequencia")

    E agora adicionar, por exemplo, uma referencia sobre a fonte dos dados:

    barplot(dados[,1], col=c("red","green","blue","hotpink"),main="Distribuio de

    Professores na Rede de Ensino",ylim=c(0,3000),xlab="Escolas",ylab="Frequencia",

    sub="Fonte:www.ibge.com.br")

    Podemos agora hachurar as barras do nosso grfico:

    barplot(dados[,1], col=c("red","green","blue","hotpink"),main="Distribuio de

    Professores na Rede de Ensino",ylim=c(0,3000),xlab="Escolas",ylab="Frequencia",

    sub="Fonte:www.ibge.com.br", density=30)

    Se quisermos adicionar uma borda laranja em cada barra utilizamos o comando abaixo:

    barplot(dados[,1], col=c("red","green","blue","hotpink"),main="Distribuio de

    Professores na Rede de Ensino",ylim=c(0,3000),xlab="Escolas",ylab="Frequencia",sub="Fonte:www.ibge.com.br",border="orange")

    possvel invertermos o grfico e visualiz-lo na forma horizontal da seguinte forma:

    barplot(dados[,1], col=c("red","green","blue","hotpink"),main="Distribuio de

    Professores na Rede de Ensino",xlim=c(0,3000),ylab="Escolas",xlab="Frequencia",sub="Fonte:www.ibge.com.br",horiz=T)

    Perceba que agora invertemos x com y!

    3.1 Grficos com as duas variveis

    A partir do momento em que entendemos como fazer o grfico para uma varivel, adicionaremos uma segunda e

    refaremos os grficos:

    barplot(dados)

    Na verdade, esse grfico ter um melhor aproveitamento se for feito da seguinte forma:

    barplot(dados,beside=TRUE)

    Alterando as cores, ttulo e eixos, assim como feito anteriormente teremos:

    barplot(dados[,2:1],beside=TRUE,main="Distribuiodo nmero de Alunos e Professores",ylab="Frequencia",col=c("red","green","blue","hotpink"))

    Perceba que ao colocarmos dados[,2:1], invertemos a ordem do grfico. Compare com o grfico

    anterior e perceba que as barras dos professores e alunos trocaram de lugar.

  • 7/25/2019 09 Elem R Visualizacao

    4/8

    4

    Que tal se agora adicionarmos uma legenda figura?

    barplot(dados[,2:1],beside=TRUE,legend.text=rownames(dados), main="Distribuiodo nmero de Alunos e Professores",ylab="Frequencia",

    col=c("red","green","blue","hotpink"))

    3.2 Grfico de Setores

    Podemos visualizar nossa tabela anterior como um grfico como setores, tambm conhecido

    como grfico de pizza ou de torta .

    pie(dados[,1])

    Podemos melhorar o grfico da seguinte forma:

    - adicionado um ttulo:

    title("Professores na Rede de Ensino")

    - calculando a porcentagem referente a cada categoria:

    porcentagem

  • 7/25/2019 09 Elem R Visualizacao

    5/8

    5

    Mas primeiro vamos calcular novamente as porcentagens, s que dessa vez para os alunos:

    porcentagem2

  • 7/25/2019 09 Elem R Visualizacao

    6/8

    6

    Ou ainda:

    stem(Nile,scale=2)

    3.5 Box Plot

    Um boxplotpode ser construdo da seguinte maneira:

    boxplot(Nile)

    Ou ainda pelo pacote fBasics carregado acima:

    boxPlot(Nile)

    Para apresentar o grfico na horizontal fazemos:

    boxPlot(Nile,horizontal=T)

    Como sabemos, os boxplots podem ser utilizados para a comparao de diferentes grupos (vamosutilizar nosso exemplo anterior):

    boxPlot(dados,main="Box Plot",title=FALSE)

    4. Grfico de disperso e regresso linear simples

    Vamos agora trabalhar com o banco de dados Orange que est disponvel no R. Com esses dados,

    criaremos o grfico de disperso para observar se h relao entre o tamanho da circunferncia da

    rvore (varivel dependente) com sua idade (varivel explicativa).plot(Orange[,c(2,3)],col="Red",main="Grfico de idade x

    Circunferencia",xlab="Idade",ylab="Circunferencia")

    Podemos localizar um ponto qualquer no grfico da seguinte forma:

    locator(1)

    reg

  • 7/25/2019 09 Elem R Visualizacao

    7/8

    7

    5. Anlise de Correspondncia

    Vamos utilizar uma outra ferramenta estatstica que nos fornece um grfico extremamente interessante

    e de fcil entendimento. Consideremos a varivel crimes que inclui informaes sobre o nmero de

    crimes registrados em diferentes regies da Noruega.

    crimes

  • 7/25/2019 09 Elem R Visualizacao

    8/8

    8

    Onde encontrar material sobre oRna internet? (apenas algumas sugestes...)Em portugus:

    http://leg.ufpr.br/Rtutorial/http://leg.ufpr.br/Rpira/Rpira/http://www.void.cc/r/http://www.feferraz.net/br/R-mae5704.html

    Em ingls:http://faculty.washington.edu/tlumley/Rcourse/http://www.cas.lancs.ac.uk/short_courses/intro_r.html

    Livros e apostilas sobre oR:Beasley, C. R. (2004)Bioestatstica Usando R. Universidade Federal do Par, Bragana. (1)Dalgaard, P. (2002)Introductory Statistics with R. New York, Springer. (2)Lumley, T. R (2006) Fundamentals and Programming Techniques. R Core Development Team, Birmingham. (3)Maindonald, J. H. (2004) Using R for Data Analysis and GraphicsIntroduction, Code and Commentary. Centre

    for Bioinformation Science, Australian National University. (4)Pacheco, A. G. F., Cunha, G. M. e Andreozzi, V. L.Aprendendo R. Escola Nacional de Sade Pblica, FioCruz,

    Rio de Janeiro. (5)Paradis, E.R for Beginners. Institut des Sciences de l' Evolution. Universite Montpellier II, Montpellier. (6)Torgo, L. (2006)Introduo Programao em R. Universidade do Porto, Porto. (7)

    Verzani, J. Using R for Introductory Statistics. (8)As referncias (1), (3) a (8) podem ser disponibilizadas por e-mail ou baixadas pela internet. Alm disso, oRoferece nomenuHelpManuals (in PDF), seis outros documentos bastante explicativos.