curso intro à ciência de dados com r - 1.3 - análise exploratória de dados

20
José Roberto Motta Garcia [email protected] Nov/2016

Upload: jose-roberto-motta-garcia

Post on 07-Feb-2017

49 views

Category:

Documents


3 download

TRANSCRIPT

José Roberto Motta [email protected]/2016

Fases da análise de dados – Tratamento de dados

José Roberto M. Garcia Nov/2016Introdução à Ciência de Dados com R

Resumo estatístico dos dados - comandos

José Roberto M. Garcia Nov/2016Introdução à Ciência de Dados com R

Resumo estatístico dos dados - resultados

José Roberto M. Garcia Nov/2016Introdução à Ciência de Dados com R

Agrupamento pela soma (via função) e ordenação de resultados - 1

José Roberto M. Garcia Nov/2016Introdução à Ciência de Dados com R

Lê-se: somatória dos votos em função do estado e candidato

Agrupamento pela soma (via função) e ordenação de resultados - 2

José Roberto M. Garcia Nov/2016Introdução à Ciência de Dados com R

Soma por candidato + estado

Soma por candidato Soma por candidato(ordenado)

Agrupamento pela média (via data.table)

José Roberto M. Garcia Nov/2016Introdução à Ciência de Dados com R

Data.table possui recursos para fazer agregações

Agrupamento pela média (via data.table)

José Roberto M. Garcia Nov/2016Introdução à Ciência de Dados com R

Data.table possui recursos para fazer agregações

Tipos de variáveis

QUALITATIVA QUANTITATIVANOMINAL ORDINAL DISCRETA CONTÍNUA“não pode ordenar”

“pode ordenar” “Contável” “Não contável”

Quantidades MedidasEstado civil Nível educação Idade PesoReligião Classe social Capacidade de

passageirosAltura

Sexo Faixa de idade Núm. de filhos LarguraRegião Núm. De carros Produção de

leiteRaça SalárioCor dos olhos

José Roberto M. Garcia Nov/2016Introdução à Ciência de Dados com R

Tabela de Contingência(ou de frequência)

Contabiliza (conta) obs de duas ou mais variáveis

(normalmente qualitativas)

Tabela de contingência - univariável

José Roberto M. Garcia Nov/2016Introdução à Ciência de Dados com R

Tabela de contingência - multivariável

José Roberto M. Garcia Nov/2016Introdução à Ciência de Dados com R

cilindros

hp

`

Visualização de séries temporais

José Roberto M. Garcia Nov/2016Introdução à Ciência de Dados com R

Visualização de séries temporais multivariada

José Roberto M. Garcia Nov/2016Introdução à Ciência de Dados com R

Histograma e densidade – análise univariada

José Roberto M. Garcia Nov/2016Introdução à Ciência de Dados com R

Gráfico de barras e pizza – análise univariada

José Roberto M. Garcia Nov/2016Introdução à Ciência de Dados com R

Gráfico de barras – análise multivariada

José Roberto M. Garcia Nov/2016Introdução à Ciência de Dados com R

LongShape

Scatterplot - Distribuição de uma variável em relação a outra (bivariada)

José Roberto M. Garcia Nov/2016Introdução à Ciência de Dados com R

Conceito - Correlacionamento

-1 .8 .6 .4 .2 0 .2 .4 .6 .8 1

PerfeitaNegativa

PerfeitaPositiva

Bemforte forte mod frac

a

Bem frac

anula

Bem frac

a

fraca mod forte Bem

forte

As duas distribuições variam em sentidos inversos.

Enquanto uma aumenta a outra diminui.

As duas distribuições variam no mesmo sentido.

Uma aumenta e a outra também.

Fonte:www.simplypsychology.org/correlation.html

Métodos:- Pearson- Spearman

José Roberto M. Garcia Nov/2016Introdução à Ciência de Dados com R

Scatterplot 3D

José Roberto M. Garcia Nov/2016Introdução à Ciência de Dados com R

Scatter PLot of Matrix (SPLOM)

José Roberto M. Garcia Nov/2016Introdução à Ciência de Dados com R