machine learning para organizaciones

Machine Learning para Organizaciones

Jesús RamosCOO @ Datank.ai

CCO @ @thedatapub

Y éste qué?- Ingeniero de Software de nacimiento (ITESM).

- Econometrista Financiero por azar (Unottingham + UWashington).

- Estadístico Computacional por convicción (Coursera, a mucha honra).

- Consultado con 6 firmas (BMV, GBM, ConCredito, Movistar, etc) para levantar sus capacidades analíticas.

- Co fundador de @TheDataPub, comunidad dedicada a reventar la burbuja y detener el tren del m*** del ML y del Pig Data.

- Gamer los sábados (PSN: xuxoramos).

- Foodie los domingos.

En qué ando?

Lo feo del#MachineLearning…

#MachineLearning BubbleMachineLearning

Montaña rusa sin freno…

$232mmdd

Gran Inversión

4%Stats/Maths/Prog

Poco skill Mala cultura

Governance: Datos rehenes de cabal de IT

…y sin cinturón!

El freno para esta montaña rusa…

Roadmap+Riesgos para la banda

Skill Si eres dev,

métele a stats+maths. Si eres de maths+stats,

métele a dev.

Biz Intimacy Olvídate de la Herramienta. Enfócate en el

lenguaje de negocio.

Operational No entregues reportes,

entrega APIs.

Sin contexto ==

Hacer la pregunta equivocada

No hay escalamiento

Mala predicción + Alto sesgo

== Perder dinero/

lastimar personas

Riesgo

Roadmap+Riesgos para orgs

Riesgo

DWH Todos los datos en 1 solo lugar.

Gov’nance Total apertura y con conexiones

SelfServ-BI Que gente de negocio se sirva reportes sola.

Mayor sesgo +

sin observer

effect

DataScience ==

Reporteo/BI

Correlación ==

Causalidad

Cómo desaceleramos?

Con definiciones (ni peiper).

#MachineLearning para todosSW Dev

Máquina(de estados, no la compu)Datos

Función/ Programa

Salida

Machine/Statistical Learning Supervisado

Máquina(de estados, no la compu)

Salida*Datos

Función/ Programa**

Contexto

* No Supervisado = Sin Salida, ** Reinforcement = Función regresa a datos

#MachineLearning para todosObjetivo 1: identificar patrones

Error Total

#MachineLearning para todosObjetivo 2: reducir el error de la función

Error de Predicción Error del Fenómeno (Varianza) Sesgo/Bias

Reducción: más/menos variables

Reducción: más datos/observaciones.

Reducción: CONTEXTO!

#MachineLearning para todosVarianza vs Sesgo

#MachineLearning para todosTipos: Clasificación

#MachineLearning para todosTipos: Regresión

#MachineLearning para todosTipos: Clustering == Clasificación Sin Output

#MachineLearning para todosTipos: Dimensionality Redux/Feature Engineering

#MachineLearning para todosY cuál uso?

(Los que me den menos varianza y menos bias)

#MachineLearning para todosMetodología

Describir Qué me parece interesante de mi dataset?

Explorar Qué research question quiero Hacerle a mi dataset?

Inferir La respuesta puede generalizarse?

Predecir La respuestaaplica a nuevasobservaciones?

- Distribuciones- Media - Moda - Kurtosis

- Clustering - Kohonen - DBSCAN - Multidim Scaling

- Hypo Test - GLM - ANOVA - MSE

- Random Forest- Boosting- Bagging- Deep Learning

Cross Validation

Training Test Validation

70% 20% 10%

N veces: TestValidation TestValidation TestValidation

Ya le quitamos el m*me al tren. Ahora...?

Aplicaciones!

B*n*m*x• Conversión de cliente de nómina a TC en 29%. • $2.7mmdp en revenue al año desde 2010. • Cómo lo hizo? • Clasificación!

f(edad, género, monto, antigüedad, …) = tiene TC

Predictores / variables independientes variable respuesta / dependiente

UPS• Ahorro de combustible haciendo que

camiones sólo den vuelta a la derecha. • Ahorro de $47mdd al año. • Cómo lo hicieron? • Diseño de experimentos!

Exploratorio -> Recolección de datos -> Hypothesis Testing -> GLMs -> Clasificación

T*lc*l• Identificación de usrs consumiendo $7K MXN

semanales de tiempo aire en prepago. • Creación de producto de crédito de tiempo aire de

hasta $2K. • $4mmdp al año de revenue. • Cómo lo hicieron? • Clustering!

Multidimensional Scaling + K-means/DBSCAN

Western Union• Prevención de fraude en remesas en

automático y personalizado. • $32mdd en ahorro operativo en 2012. $21mdd

son de transacciones detenidas al momento. • Cómo le hicieron? • Clasificación! • Similar a algoritmos de spam/ham.

Gr*p* *xp*ns**n• Bajar bounce rate y mantener al visitante en

sitios de las marcas del grupo. • Aumentar ad impressions. • Cómo lo están haciendo? • Recommender Systems!

Clasif 1 + Clasif 2 + … + Clasif NQuémúsica prefiere?

Quécomidaprefiere?

Quépelisha visto?

Y las startups?

En la delantera!• Konfio, Kueski, Prestadero + ensemble learning

= credit scoring. • Piggo + multidimensional scaling + DBSCAN =

recomendación de inversiones. • Klustera + Filtros Kalman (un tipo de regresión)

= ubicación exacta de gente en centros comerciales. • HolaGus + deep convolutional neural networks

= clasificación de texto.

Caso interesante: FullHarvest• Time Series de granjas y huertos en tiempo de

cosecha. • Clasificación para planeación de recolecciones. • Optimización heurística para trazo de rutas. • Regresión múltiple para planeación de demanda y

pricing. • Ensemble para transformación y saber qué

producir. • Optimización para ruta de entrega.

Bottomline:

El ML ayuda a escalar servicios para el 99%!

Qué puede salir mal?

#MachineLearning Flops• Google Flu Trends – Contexto = predicción

fallida de AH1N1 en Francia. • Google Image Classifier – Contexto = 2

afroamericanos taggeados como ‘gorilas’. • Walmart + Modelo complejo de alta varianza =

productos en mal estado vendidos a clientes. • Wall Street + Model simple de alto bias =

crisis hipotecaria de 2008 • T*lc*l – Contexto = Préstamos a sospechosos.

Concluyendo…

Soy dev…cómo le entro al ML?• Comienza por prepararte en mates y estadística. Leete “Think

Stats” de Allen Downey. • Acércate al depto de mates de tu universidad. Seguro

encuentras diplomados en mates. • MOOCs: “Data Science Specialization” de Coursera es la

opción. • Síguele con el de Andrew Ng de Stanford. Piérdele el miedo a la

notación formal. • No te cases ni con Python ni con R. Usa ambos. • No te cases con ningún algoritmo. Primero pregunta “qué

quiero lograr?” • Context is KING!

Y si ya le se al ML?• Platícanos tu proyecto en ramos.cardona@gmail.com

para que lo presentes en @thedatapub. • Mándame un correo. Andamos reclutando! • Sé humilde ante lo que te falta por aprender. • Acércate a disciplinas complementarias de la ciencia de

datos: topología, diseño de experimentos, optimización, visualización y storytelling.

• Comparte tu conocimiento. Ojalá seas tú el próximo acá arriba!

¿Preguntas?

Grax!@xuxoramosramos.cardona@gmail.comlinkedin.com/in/xuxoramos

machine learning para organizaciones

Technology

analisando mÉtodos de machine learning e avaliaÇÃo do

tdc2016sp - sparkmllib machine learning na prática

aprendizado de máquina (machine learning) -...

tdc2016sp - machine learning com r

mÓdulo de aprendizaje autodirigidode sociedades del...

modelos de machine learning na classificaÇÃo de …

machine learning: uma proposta de framework para novos

modelos de machine learning para prediÇÃo do …

theano - alto desempenho em machine learning

anÁlisis del machine learning como estrategia …

aprendizagem de máquina (machine learning)

econometria vs. machine learning: big data em finanças

métodos de machine learning para eficiência energética

geoprocessamento e machine learning aplicados à...

machine learning - o que é isso?

machine learning 101 por onde começar? - bruno...

aplicaÇÃo de machine learning em dataset de …

introdução à machine learning

resolvendo problemas de machine learning utilizando ... ·...

machine learning: ¿quÉ es y cÓmo funciona?