Introducción al Machine Learning

9 octubre 2020

Hoy en día es raro encontrar a alguna persona que no haya escuchado ¿qué es el Machine Learning?. Quizás no lo sabe, pero sí que ha usado alguna aplicación o asistente virtual alguna vez. Con el objetivo de hacer una pequeña introducción al machine learning y desmitificar algunas frases que se suelen repetir alrededor del ML, nos conectamos en IMMUNE para hablar sobre este tema, tan de moda hoy en día.

¿Qué es el Machine Learning?

En base al nivel de profundidad que quieras llegar, puedes encontrar distintas variaciones de la misma definición. Si buscas una definición informal:

Es hacer predicciones a partir de datos.

En cambio, si indagas un poco más, puedes encontrar una definición un poco más formal:

La construcción de un modelo estadístico que es una “underlying” distribución de la cual se han extraído los datos.

¡Pero espera! ¡aún hay más!, puedes incluso llevar a una definición más formal usando las matemáticas.

Un conjunto de datos de entrenamiento:

Una hypothesis class H:

Una objective function y un método de optimización:

La visión general es un mapping:

División de los problemas de ML

Normalmente siempre nos encontramos con la división típica de Supervised o Unsupervised Learning. Sin embargo, hay más formas de dividir los problemas de Machine Learning y en base a tu problema hablarás de uno u otro.

Supervised Learning | Unsupervised Learning
Parametric Models | Non-parametric Models
Modeling Approach | Optimization Techniques

Cuando trabajamos con problemas de ML, nos puede surgir una pregunta antes de empezar: ¿Qué es más importante extraer conclusiones de los datos o realizar predicciones muy buenas?

Esa pregunta es totalmente válida y de hecho, algo lógico de preguntarse, es lo que se llama trade-off entre interpretabilidad - predicciones. Cuando hablamos de inference, solemos hablar de extraer conclusiones claras de los datos, cómo la variable Y es afectada por X, etc… Pero en cambio, si hablamos de predicciones, estamos hablando de obtener una salida clara y con precisión de nuestro modelo. Son dos puntos de vista opuestos pero en la práctica se suele trabajar con una mezcla de ambos.

Con esto nos damos cuenta de que existen modelos que son más fácilmente interpretable que otros. Por ejemplo, las regresiones lineales son muy fáciles de interpretar pero en cambio, son poco flexibles ya que solo generan funciones lineales. En cambio, las funciones polinómicas son más flexibles, ya que puede generar un número mayor de “formas”, pero son más complicadas de interpretar.

Pero…¿Por qué funciona el Machine Learning?

Básicamente el Machine Learning funciona porque tenemos una gran cantidad de datos enorme (Big Data) además de las matemáticas que están detrás de cada modelo. The Law of Large Numbers nos habla sobre esto mismo, en resumen dice que cuanto más datos tengamos, más nos vamos a aproximar a la distribución original de los datos, es decir, mejor será nuestro modelo.

El Machine Learning en la industria

Cuando una empresa trata de implementar modelos de Machine Learning en sus proyectos, puede encontrar varios problemas, aquí mencionamos algunos de los más comunes:

1.- Ejecutar modelos muy potentes
A veces existe una falta de recursos para poder ejecutarlos, además de que el coste de tener un modelo muy potente corriendo 24 horas es muy alto y no todas las empresas se lo pueden permitir. Algunas veces, simplemente es un problema de cómo adaptar modelos (BERT, GPT-2, …) a tu caso de uso.

2.- Despliegues de modelos
Desplegar los modelos de Machine Learning no es algo trivial, es algo que forma parte del end-to-end de cualquier proyecto de ML y a veces no es sencillo. Tanto porque no tienes recursos para hacerlo o porque tienes unos requisitos que cumplir en el proyecto (latencia, disponibilidad, …).

3.- Datos
Los datos son una parte fundamental del ML, sin embargo a veces hay restricciones para poder usarlos. Restricciones que son totalmente necesarias porque es lo que nos permite proteger al usuario y como Data Scientist debemos promulgar esa filosofía. Otras veces, simplemente no no hay suficiente gobierno de los datos, es decir, no se están poniendo en valor dentro de la empresa y es complicado hacer uso de ellos.

En resumen, en esta sesión estuvimos con Alejandro Díaz hablando sobre una pequeña introducción al Machine Learning y cómo desmitificar algunos comentarios que hay alrededor de él. Si quieres más webinars de este tipo, haznoslo saber, además aquí podrás encontrar más información sobre nuestros programas.