curso intro à ciência de dados com r - 1.1 - carga de dados

27
José Roberto Motta Garcia [email protected] Nov/2016

Upload: jose-roberto-motta-garcia

Post on 07-Feb-2017

96 views

Category:

Documents


1 download

TRANSCRIPT

Page 1: Curso Intro à Ciência de Dados com R - 1.1 - Carga de dados

José Roberto Motta [email protected]/2016

Page 2: Curso Intro à Ciência de Dados com R - 1.1 - Carga de dados

José Roberto M. Garcia Nov/2016Introdução à Ciência de Dados com R

Fases da análise de dados

Page 3: Curso Intro à Ciência de Dados com R - 1.1 - Carga de dados

José Roberto M. Garcia Nov/2016Introdução à Ciência de Dados com R

Fases da análise de dados

Page 4: Curso Intro à Ciência de Dados com R - 1.1 - Carga de dados

José Roberto M. Garcia Nov/2016Introdução à Ciência de Dados com R

R e RStudio

Page 5: Curso Intro à Ciência de Dados com R - 1.1 - Carga de dados

José Roberto M. Garcia Nov/2016Introdução à Ciência de Dados com R

R e RStudio

Page 6: Curso Intro à Ciência de Dados com R - 1.1 - Carga de dados

José Roberto M. Garcia Nov/2016Introdução à Ciência de Dados com R

R e RStudio

CÓDIGOAMBIENTE

DE VARIÁVEIS

SAÍDA DO CONSOLE

GRÁFICOS, HELP,…

Page 7: Curso Intro à Ciência de Dados com R - 1.1 - Carga de dados

José Roberto M. Garcia Nov/2016Introdução à Ciência de Dados com R

R e RStudio

CÓDIGOAMBIENTE

DE VARIÁVEIS

SAÍDA DO CONSOLE

GRÁFICOS, HELP,…

Executacódigo marcado

ou linhaAtalho=Comm+enter (Mac)

Page 8: Curso Intro à Ciência de Dados com R - 1.1 - Carga de dados

José Roberto M. Garcia Nov/2016Introdução à Ciência de Dados com R

Fontes de dados para análises

• Google “free dataset for analysis”

• https://www.kaggle.com/datasets (competições diversas)

• http://www.ncdc.noaa.gov/data-access (largest provider of weather/climate data)

• http://bancodedados.cptec.inpe.br/downloadBDM/ (dados meteorológicos)

Page 9: Curso Intro à Ciência de Dados com R - 1.1 - Carga de dados

José Roberto M. Garcia Nov/2016Introdução à Ciência de Dados com R

Primeiros conceitos

Exemplo de estruturade diretórios

…\IntroDSwithR 01.1- CargaDeDados.R 01.2- TratamentoDeDados.R ... \Lib

Fun.Div.R \data

\txt\Rdata\Original

\Slides

Use os seus diretórios

(dir.data)

(dir.src)

(dir.txt)

Page 10: Curso Intro à Ciência de Dados com R - 1.1 - Carga de dados

José Roberto M. Garcia Nov/2016Introdução à Ciência de Dados com R

Manipulação de dados – Leitura de CSVNa vida real os dados quase nunca vêm “prontos”

workspace

Page 11: Curso Intro à Ciência de Dados com R - 1.1 - Carga de dados

José Roberto M. Garcia Nov/2016Introdução à Ciência de Dados com R

Manipulação de dados – estrutura de um data.frame

Tipo do objeto

data.frame = tabela em BD (várias “colunas” de tipos diferentes)

Page 12: Curso Intro à Ciência de Dados com R - 1.1 - Carga de dados

José Roberto M. Garcia Nov/2016Introdução à Ciência de Dados com R

Tipos de dados básicos (do mais forte ao mais fraco)

Forte

Fraco

Page 13: Curso Intro à Ciência de Dados com R - 1.1 - Carga de dados

José Roberto M. Garcia Nov/2016Introdução à Ciência de Dados com R

Tipos de dados estruturados: vector

Page 14: Curso Intro à Ciência de Dados com R - 1.1 - Carga de dados

José Roberto M. Garcia Nov/2016Introdução à Ciência de Dados com R

Dados básicos são vetores

Vetores de um elemento

Vetor de 50 elementosÍndice

do próximo elemento que é mostrado na tela

Page 15: Curso Intro à Ciência de Dados com R - 1.1 - Carga de dados

José Roberto M. Garcia Nov/2016Introdução à Ciência de Dados com R

Tipos de dados: vetores e coerção de dados

PERIGO! NÃO GERA ERRO!!

EXECUÇÃO CONTINUA!!

Page 16: Curso Intro à Ciência de Dados com R - 1.1 - Carga de dados

José Roberto M. Garcia Nov/2016Introdução à Ciência de Dados com R

Conceito de “bind” – (amarrar, unir, linkar)Tabela T (matrix, DF ou

DT)

T <- cbind(DESCR, MEDIDA)

DESCRABC

MEDIDA99

10040

DESCRABC

MEDIDA99

10040

Dois vetores

ANO19681969

VALOR974

1000

INDICE23

CLASSEAUTO

MAN

ANO19701971

VALOR12002000

INDICE34

CLASSEAUTO

MAN

Tabela A

Tabela B

ANO19681969

VALOR974

1000

INDICE23

CLASSEAUTO

MAN19701971

12002000

34

AUTOMAN

Tabela C

C <- rbind(A, B) A

BCD

12

CUIDADO COM CICLAGEM!!

Elementos do vetor menor são repetidos!!

Só warning!

cbind(v1, v2)

v1 v2ABCD

1212

v1 v2

BIND DE COLUNAS

BIND DE LINHAS

Page 17: Curso Intro à Ciência de Dados com R - 1.1 - Carga de dados

José Roberto M. Garcia Nov/2016Introdução à Ciência de Dados com R

Tipos de dados: estruturados (1)

Page 18: Curso Intro à Ciência de Dados com R - 1.1 - Carga de dados

José Roberto M. Garcia Nov/2016Introdução à Ciência de Dados com R

Tipos de dados: estruturados (2)

Page 19: Curso Intro à Ciência de Dados com R - 1.1 - Carga de dados

José Roberto M. Garcia Nov/2016Introdução à Ciência de Dados com R

O objeto data.table

Medir tempo

Espaçoocupado

Page 20: Curso Intro à Ciência de Dados com R - 1.1 - Carga de dados

José Roberto M. Garcia Nov/2016Introdução à Ciência de Dados com R

O que são pacotes?

• R é melhorado de forma colaborativa• Pacotes são desenvolvidos e disponibilizados por cientistas do mundo

inteiro.• Pacotes = coleção de elementos (funções, tipos de dados, ...) que

otimizam as funções básicas do R• Ficam em https://cran.r-project.org/ • Como saber qual pacote usar?

• Google it!• http://stackoverflow.com/• https://www.r-bloggers.com/• http://www.statmethods.net/

• https://github.com/Rdatatable/data.table/wiki• https://www.datacamp.com/courses/data-analysis-the-data-table-way

sobredata.table

Page 21: Curso Intro à Ciência de Dados com R - 1.1 - Carga de dados

José Roberto M. Garcia Nov/2016Introdução à Ciência de Dados com R

Manipulação de dados – Leitura de FWF (formatado com largura fixa)

File.info retorna um data.frame

Valores da coluna podem ser acessados via “$”

Page 22: Curso Intro à Ciência de Dados com R - 1.1 - Carga de dados

José Roberto M. Garcia Nov/2016Introdução à Ciência de Dados com R

Manipulação de dados – Leitura de arquivo de formato livre

Separa dado “delimitado”

[[1]][1] "name” "Data Science”[[2]][1] "class" "IT" [[3]][1] "level” "beginner”[[4]][1] "url" [2] https:--www.dropbox.com-home-DataScience-Course- IntroToDSwithR[[5]][1] "keywords” "data analysis, statistics"

MATRIZ CONFIG

Função *apply (poderosas) Imprime

Page 23: Curso Intro à Ciência de Dados com R - 1.1 - Carga de dados

José Roberto M. Garcia Nov/2016Introdução à Ciência de Dados com R

EXCEL - Download e leitura

Do pacote utils (pré-carregado)

Page 24: Curso Intro à Ciência de Dados com R - 1.1 - Carga de dados

José Roberto M. Garcia Nov/2016Introdução à Ciência de Dados com R

XML - Download e leitura (1)

Page 25: Curso Intro à Ciência de Dados com R - 1.1 - Carga de dados

José Roberto M. Garcia Nov/2016Introdução à Ciência de Dados com R

XML - Download e leitura (2) – Previsão do tempo pelo CPTEC

Page 26: Curso Intro à Ciência de Dados com R - 1.1 - Carga de dados

José Roberto M. Garcia Nov/2016Introdução à Ciência de Dados com R

HTML - Download e leitura

Page 27: Curso Intro à Ciência de Dados com R - 1.1 - Carga de dados

José Roberto M. Garcia Nov/2016Introdução à Ciência de Dados com R

Outras interfaces com arquivos

• PACKAGE FOREIGN – dados de outras linguagens de programação • read.arff() # weka• read.dta() # Stata• read.mtp() # Minitab• read.octave()

• DADOS SEMI- ESTRUTURADOS: jsonlite, NetCDF • DATABASE: RPostressSQL, RODBC, RMongo, RMySQL• IMAGES: jpeg, readbimap, png, EBImage (Bioconductor)• GIS: rdgal, rgeos, raster• MUSIC: tuneR, seewave

Dados climáticos