Cuando se comienza en el campo del aprendizaje automático, se suelen utilizar los conjuntos de datos como MNIST, Iris, o 20 newsgroups, entre otros... Pero hay cientos de datasets raros e interesantes que se pueden encontrar online. En el Immune Technology Institute hemos pedido a nuestros profesores que creen una lista de los más extraños conjuntos de datos que han encontrado. ¡Aquí vamos!
Se trata de un repositorio que contiene un registro de los precios de la marihuana a lo largo de los años, los cuales varían bastante de un estado a otro. Pero la cuestión aquí es cómo se han obtenido los datos...
Aunque pueda parecer un conjunto de datos inútil, puede ser muy relevante en los tiempos que vivimos, ya que muchos países están considerando legalizar la marihuana.
Si nunca te has preguntado, como es normal, cuál es el tamaño óptimo de los palillos chinos, no te preocupes, alguien ya se lo ha preguntado antes. Un equipo de investigadores evaluó los efectos de la longitud de los palillos en el rendimiento de los adultos y los niños a la hora de comer. Por esta razón, crearon este conjunto de datos para encontrar la longitud óptima de los palillos.
Llegaron a la conclusión de que el proceso de pinchar la comida se veía considerablemente afectado por la longitud de los palillos. Los investigadores sugirieron que las familias con niños deberían proporcionar palillos de 240 y 180 mm de longitud. Los restaurantes deberían proporcionar palillos de 210 mm de largo, para encontrar un balance entre la ergonomía y el precio.
Este dataset contiene más de 3500 imágenes de granos de arroz de dos especies diferentes. Se extrajeron diferentes propiedades de cada grano de arroz, tales como:
¿Sabías que el nombre de perro más popular en Suecia es Molly?
Este dataset recoge los nombres de los perros más populares en Suecia en 2018 por número de animales. Bella fue el segundo nombre más popular, con casi seis mil animales, seguido de Charlie con un número aproximado de 4600 animales.
Estoy bastante seguro de que a Sheldon le encantará este conjunto de datos... Este dataset contiene las banderas y detalles de varias países, como:
Tal vez sea interesante intentar predecir la religión de un país por su tamaño y los colores de su bandera.
A veces también es interesante ver cómo la gente extrae relaciones en los datos donde no son visibles a simple vista. Esta página web es experto en encontrar correlaciones donde nadie más puede encontrarlas, por ejemplo:
Puedes descubrir nuevas correlaciones en esta página web. ¡Comparte con nosotros tus resultados! ?
En Immune Technology Institute tratamos de aplicar y enseñar la tecnología más avanzada en el campo de la computación. Además, nos encanta compartir el conocimiento ya que consideramos que es cuando se vuelve poderoso.
Por ello, si quieres aprender a desarrollar aplicaciones en el mundo real o a manejar grandes cantidades de datos, quizás te interese nuestro Master de Data Science. Es un programa dirigido a profesionales que buscan especializarse en Ciencia de los Datos, conocer las principales técnicas de Inteligencia Artificial y cómo aplicarlas en diferentes industrias.
El 24 de septiembre tendremos una sesión informativa online con la directora del máster, Mónica Villas. IMMUNE puede ayudarte a impulsar tu carrera a través de sus empresas partners y contactos con recruiters y profesionales del sector. Puedes inscribirte AQUÍ.
¿Quieres ser un data science de los pies a la cabeza? Inscríbete en el Datathon organizado por Immune Technology Institute en colaboración con Spanish Startups el 19 de septiembre. Será un evento online donde estarán los mejores expertos de datos y un gran challenge para poner a prueba tus conocimientos. ¡Tiene premio! Puedes inscribirte AQUÍ.
Este artículo ha sido escrito por: Alejandro Diaz Santos — (LinkedIn, GitHub) para IMMUNE Technology Institute.