{"id":4059,"date":"2020-10-09T13:26:13","date_gmt":"2020-10-09T11:26:13","guid":{"rendered":"https:\/\/immune.institute\/?p=4059"},"modified":"2020-10-09T13:26:13","modified_gmt":"2020-10-09T11:26:13","slug":"introduccion-al-machine-learning","status":"publish","type":"post","link":"https:\/\/immune.institute\/en\/blog\/introduccion-al-machine-learning\/","title":{"rendered":"Introduction to Machine Learning"},"content":{"rendered":"<p>Hoy en d\u00eda es raro encontrar a alguna persona que no haya escuchado \u00bfqu\u00e9 es el Machine Learning?. Quiz\u00e1s no lo sabe, pero s\u00ed que ha usado alguna aplicaci\u00f3n o asistente virtual alguna vez. Con el objetivo de hacer una peque\u00f1a introducci\u00f3n al machine learning y desmitificar algunas frases que se suelen repetir alrededor del ML, nos conectamos en IMMUNE para hablar sobre este tema, tan de moda hoy en d\u00eda.<\/p>\n<h2><b>\u00bfQu\u00e9 es el Machine Learning?<\/b><\/h2>\n<p>En base al nivel de profundidad que quieras llegar, puedes encontrar distintas variaciones de la misma definici\u00f3n. Si buscas una definici\u00f3n informal:<\/p>\n<p style=\"text-align: center;\"><b>Es hacer predicciones a partir de datos.<\/b><\/p>\n<p>En cambio, si indagas un poco m\u00e1s, puedes encontrar una definici\u00f3n un poco m\u00e1s formal:<\/p>\n<p style=\"text-align: center;\"><b>La construcci\u00f3n de un modelo estad\u00edstico que es una \u201cunderlying\u201d distribuci\u00f3n de la cual se han extra\u00eddo los datos.<\/b><\/p>\n<p>\u00a1Pero espera! \u00a1a\u00fan hay m\u00e1s!, puedes incluso llevar a una definici\u00f3n m\u00e1s formal usando las matem\u00e1ticas.<\/p>\n<p style=\"text-align: center;\"><b>Un conjunto de datos de entrenamiento:&nbsp;<\/b><\/p>\n<p style=\"text-align: center;\"><img decoding=\"async\" class=\"size-full wp-image-8194 aligncenter\" src=\"https:\/\/principal.immune.institute\/wp-content\/uploads\/2020\/10\/conjunto-de-datos.png\" alt=\"\" width=\"272\" height=\"30\" srcset=\"https:\/\/immune.institute\/wp-content\/uploads\/2020\/10\/conjunto-de-datos.png 272w, https:\/\/immune.institute\/wp-content\/uploads\/2020\/10\/conjunto-de-datos-256x28.png 256w, https:\/\/immune.institute\/wp-content\/uploads\/2020\/10\/conjunto-de-datos-18x2.png 18w\" sizes=\"(max-width: 272px) 100vw, 272px\" \/><br \/>\n<b>Una hypothesis class H:<\/b><\/p>\n<p style=\"text-align: center;\"><img decoding=\"async\" class=\"size-full wp-image-8196 aligncenter\" src=\"https:\/\/principal.immune.institute\/wp-content\/uploads\/2020\/10\/hypothesis.png\" alt=\"\" width=\"144\" height=\"31\" srcset=\"https:\/\/immune.institute\/wp-content\/uploads\/2020\/10\/hypothesis.png 144w, https:\/\/immune.institute\/wp-content\/uploads\/2020\/10\/hypothesis-18x4.png 18w\" sizes=\"(max-width: 144px) 100vw, 144px\" \/><br \/>\n<b>Una objective function y un m\u00e9todo de optimizaci\u00f3n:<\/b><b><br \/>\n<\/b><img decoding=\"async\" class=\"size-full wp-image-8198 aligncenter\" src=\"https:\/\/principal.immune.institute\/wp-content\/uploads\/2020\/10\/objective.png\" alt=\"\" width=\"157\" height=\"24\" srcset=\"https:\/\/immune.institute\/wp-content\/uploads\/2020\/10\/objective.png 157w, https:\/\/immune.institute\/wp-content\/uploads\/2020\/10\/objective-18x3.png 18w\" sizes=\"(max-width: 157px) 100vw, 157px\" \/><br \/>\n<b>La visi\u00f3n general es un mapping:<\/b><\/p>\n<p><img decoding=\"async\" class=\"size-full wp-image-8199 aligncenter\" src=\"https:\/\/principal.immune.institute\/wp-content\/uploads\/2020\/10\/mapping.png\" alt=\"\" width=\"256\" height=\"41\" srcset=\"https:\/\/immune.institute\/wp-content\/uploads\/2020\/10\/mapping.png 256w, https:\/\/immune.institute\/wp-content\/uploads\/2020\/10\/mapping-18x3.png 18w\" sizes=\"(max-width: 256px) 100vw, 256px\" \/><\/p>\n<p><b>Divisi\u00f3n de los problemas de ML<\/b><\/p>\n<p>Normalmente siempre nos encontramos con la divisi\u00f3n t\u00edpica de <i>Supervised <\/i>o <i>Unsupervised Learning. <\/i>Sin embargo, hay m\u00e1s formas de dividir los problemas de Machine Learning y en base a tu problema hablar\u00e1s de uno u otro.<\/p>\n<p style=\"text-align: center;\"><b>Supervised Learning | Unsupervised Learning<\/b><b><br \/>\n<\/b><b>Parametric Models | Non-parametric Models<\/b><b><br \/>\n<\/b><b>Modeling Approach&nbsp; | Optimization Techniques<\/b><\/p>\n<p>Cuando trabajamos con problemas de ML, nos puede surgir una pregunta antes de empezar: <b>\u00bfQu\u00e9 es m\u00e1s importante extraer conclusiones de los datos o realizar predicciones muy buenas?<\/b><\/p>\n<p><img decoding=\"async\" class=\"size-full wp-image-8200 aligncenter\" src=\"https:\/\/principal.immune.institute\/wp-content\/uploads\/2020\/10\/inference.png\" alt=\"\" width=\"605\" height=\"244\" srcset=\"https:\/\/immune.institute\/wp-content\/uploads\/2020\/10\/inference.png 605w, https:\/\/immune.institute\/wp-content\/uploads\/2020\/10\/inference-256x103.png 256w, https:\/\/immune.institute\/wp-content\/uploads\/2020\/10\/inference-512x206.png 512w, https:\/\/immune.institute\/wp-content\/uploads\/2020\/10\/inference-18x7.png 18w\" sizes=\"(max-width: 605px) 100vw, 605px\" \/><\/p>\n<p>Esa pregunta es totalmente v\u00e1lida y de hecho, algo l\u00f3gico de preguntarse, es lo que se llama<i> trade-off entre interpretabilidad &#8211; predicciones. <\/i>Cuando hablamos de inference, solemos hablar de extraer conclusiones claras de los datos, c\u00f3mo la variable Y es afectada por X, etc\u2026 Pero en cambio, si hablamos de predicciones, estamos hablando de obtener una salida clara y con precisi\u00f3n de nuestro modelo. Son dos puntos de vista opuestos pero en la pr\u00e1ctica se suele trabajar con una mezcla de ambos.<\/p>\n<p><img decoding=\"async\" class=\"size-full wp-image-8201 alignright\" src=\"https:\/\/principal.immune.institute\/wp-content\/uploads\/2020\/10\/flexibility.png\" alt=\"\" width=\"628\" height=\"358\" srcset=\"https:\/\/immune.institute\/wp-content\/uploads\/2020\/10\/flexibility.png 628w, https:\/\/immune.institute\/wp-content\/uploads\/2020\/10\/flexibility-256x146.png 256w, https:\/\/immune.institute\/wp-content\/uploads\/2020\/10\/flexibility-512x292.png 512w, https:\/\/immune.institute\/wp-content\/uploads\/2020\/10\/flexibility-18x10.png 18w\" sizes=\"(max-width: 628px) 100vw, 628px\" \/><\/p>\n<p>Con esto nos damos cuenta de que existen modelos que son m\u00e1s f\u00e1cilmente interpretable que otros. Por ejemplo, las regresiones lineales son muy f\u00e1ciles de <b><i>interpreting <\/i><\/b>pero en cambio, son poco <b><i>flexible <\/i><\/b>ya que solo generan funciones lineales. En cambio, las funciones polin\u00f3micas son m\u00e1s <b><i>flexible<\/i><\/b>, ya que puede generar un n\u00famero mayor de \u201cformas\u201d, pero son m\u00e1s complicadas de interpretar.<\/p>\n<p><b>Pero\u2026\u00bfPor qu\u00e9 funciona el Machine Learning?<\/b><\/p>\n<p>B\u00e1sicamente el Machine Learning funciona porque tenemos una gran cantidad de datos enorme (Big Data) adem\u00e1s de las matem\u00e1ticas que est\u00e1n detr\u00e1s de cada modelo. <i>The Law of Large Numbers<\/i> nos habla sobre esto mismo, en resumen dice que cuanto m\u00e1s datos tengamos, m\u00e1s nos vamos a aproximar a la distribuci\u00f3n original de los datos, es decir, mejor ser\u00e1 nuestro modelo.<\/p>\n<p><b>El Machine Learning en la industria<\/b><b><br \/>\n<\/b><\/p>\n<p>Cuando una empresa trata de implementar modelos de Machine Learning en sus proyectos, puede encontrar varios problemas, aqu\u00ed mencionamos algunos de los m\u00e1s comunes:<\/p>\n<p><b>1.- Ejecutar modelos muy potentes<\/b><b><br \/>\n<\/b>A veces existe una falta de recursos para poder ejecutarlos, adem\u00e1s de que el coste de tener un modelo muy potente corriendo 24 horas es muy alto y no todas las empresas se lo pueden permitir. Algunas veces, simplemente es un problema de c\u00f3mo adaptar modelos (BERT, GPT-2, \u2026) a tu caso de uso.<\/p>\n<p><b>2.- Despliegues de modelos<\/b><b><br \/>\n<\/b>Desplegar los modelos de Machine Learning no es algo trivial, es algo que forma parte del end-to-end de cualquier proyecto de ML y a veces no es sencillo. Tanto porque no tienes recursos para hacerlo o porque tienes unos requisitos que cumplir en el proyecto (latencia, disponibilidad, \u2026).<\/p>\n<p><b>3.- Datos<\/b><b><br \/>\n<\/b>Los datos son una parte fundamental del ML, sin embargo a veces hay restricciones para poder usarlos. Restricciones que son totalmente necesarias porque es lo que nos permite proteger al usuario y como Data Scientist debemos promulgar esa filosof\u00eda. Otras veces, simplemente no no hay suficiente gobierno de los datos, es decir, no se est\u00e1n poniendo en valor dentro de la empresa y es complicado hacer uso de ellos.<\/p>\n<p>En resumen, en esta sesi\u00f3n estuvimos con <a href=\"https:\/\/www.linkedin.com\/in\/alejandro-diaz-santos-8aab812a\/\" target=\"_blank\" rel=\"noopener\">Alejandro D\u00edaz<\/a> hablando sobre una peque\u00f1a introducci\u00f3n al Machine Learning y c\u00f3mo desmitificar algunos comentarios que hay alrededor de \u00e9l. Si quieres m\u00e1s webinars de este tipo, haznoslo saber, adem\u00e1s <a href=\"https:\/\/immune.institute\/en\/data-science?utm_campaign=MDS2021_2&amp;utm_source=Embajador\">here<\/a> podr\u00e1s encontrar m\u00e1s informaci\u00f3n sobre nuestros programas.<\/p>","protected":false},"excerpt":{"rendered":"<p>Hoy en d\u00eda es raro encontrar a alguna persona que no haya escuchado \u00bfqu\u00e9 es el Machine Learning?. Quiz\u00e1s no lo sabe, pero s\u00ed que ha usado alguna aplicaci\u00f3n o asistente virtual alguna vez. Con el objetivo de hacer una peque\u00f1a introducci\u00f3n al machine learning y desmitificar algunas frases que se suelen repetir alrededor del [&hellip;]<\/p>\n","protected":false},"author":3,"featured_media":8202,"comment_status":"closed","ping_status":"open","sticky":false,"template":"","format":"standard","meta":{"_acf_changed":false,"_crdt_document":"","footnotes":""},"categories":[1],"tags":[],"class_list":["post-4059","post","type-post","status-publish","format-standard","has-post-thumbnail","hentry","category-blog"],"acf":[],"_links":{"self":[{"href":"https:\/\/immune.institute\/en\/wp-json\/wp\/v2\/posts\/4059","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/immune.institute\/en\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/immune.institute\/en\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/immune.institute\/en\/wp-json\/wp\/v2\/users\/3"}],"replies":[{"embeddable":true,"href":"https:\/\/immune.institute\/en\/wp-json\/wp\/v2\/comments?post=4059"}],"version-history":[{"count":0,"href":"https:\/\/immune.institute\/en\/wp-json\/wp\/v2\/posts\/4059\/revisions"}],"wp:featuredmedia":[{"embeddable":true,"href":"https:\/\/immune.institute\/en\/wp-json\/wp\/v2\/media\/8202"}],"wp:attachment":[{"href":"https:\/\/immune.institute\/en\/wp-json\/wp\/v2\/media?parent=4059"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/immune.institute\/en\/wp-json\/wp\/v2\/categories?post=4059"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/immune.institute\/en\/wp-json\/wp\/v2\/tags?post=4059"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}