Download - TDC2016SP - Machine Learning com R
Apresentação
Diogenes Justo• BM&FBOVESPA• Professor• Consultor• Empresário
Linkedin.com/in/DiogenesJusto
Mestre em Economia Aplicada (UFRGS)
MBE Economia (UFRGS).
Especialista em Banking (FGV).
Especialista em Data Science.
Bacharel em Matemática Aplicada e Computacional (UFRGS).
Cursos de especialização em Big Data, Machine Learning e Data
Mining no MIT, Washington University, University of Illinois e
Stanford
PMO Manager da BMF&Bovespa - Profissional certificado PMP.
21 anos de experiência na área de TI, tendo atuado em
desenvolvimento, infraestrutura, banco de dados e B.I., além de
projetos.
Machine Learning Pipeline
HOJEDADOS HISTÓRICOS
(aprendizagem)
PREVISÃO(O QUE QUEREMOS ESTIMAR)
VARIÁVEIS INDEP. E DEPENDENTE (x e y)
TREINO~80%
TESTE~20%
MODELO(y=ax+b)
APLICA NOS DADOS TESTE
1
2
3 CA
LIB
RA
O
MO
DEL
O
4
APLICA NA VARIÁVEL INDEPENDENTE PARA
OBTER y
5
Desafios em R- Gerenciamento de memória- Performance- Clustering e integration- Data Streaming- Curva de aprendizado pode não ser trivial
Where?
- Análise exploratória de dados
- Modeling - Baixo volume de dados
ou amostras (scale-up)- Visualização de dados
- Produção com grandes volumes
- Produção sem suporte- Front-end para
clustering
Obrigado
05/08 - Workshop DataScience
08 e 09/11 - Big Data Science
Outubro - Desafio Endeavor/FIAP
O que vem por aí...
2017/2018 - Big Data Science (o livro)