Un repaso a datasets poco comunes para tus modelos

Cuando se comienza en el campo del aprendizaje automático, se suelen utilizar los conjuntos de datos como MNIST, Iris, o 20 newsgroups, entre otros… Pero hay cientos de datasets raros e interesantes que se pueden encontrar online. En el Immune Technology Institute hemos pedido a nuestros profesores que creen una lista de los más extraños conjuntos de datos que han encontrado. ¡Aquí vamos!

Precio de la marihuana

Se trata de un repositorio que contiene un registro de los precios de la marihuana a lo largo de los años, los cuales varían bastante de un estado a otro. Pero la cuestión aquí es cómo se han obtenido los datos…

Aunque pueda parecer un conjunto de datos inútil, puede ser muy relevante en los tiempos que vivimos, ya que muchos países están considerando legalizar la marihuana.

¿Cuál es el tamaño óptimo para un palillo chino?

Si nunca te has preguntado, como es normal, cuál es el tamaño óptimo de los palillos chinos, no te preocupes, alguien ya se lo ha preguntado antes. Un equipo de investigadores evaluó los efectos de la longitud de los palillos en el rendimiento de los adultos y los niños a la hora de comer. Por esta razón, crearon este conjunto de datos para encontrar la longitud óptima de los palillos.

Llegaron a la conclusión de que el proceso de pinchar la comida se veía considerablemente afectado por la longitud de los palillos. Los investigadores sugirieron que las familias con niños deberían proporcionar palillos de 240 y 180 mm de longitud. Los restaurantes deberían proporcionar palillos de 210 mm de largo, para encontrar un balance entre la ergonomía y el precio.

Imágenes de granos de arroz

Este dataset contiene más de 3500 imágenes de granos de arroz de dos especies diferentes. Se extrajeron diferentes propiedades de cada grano de arroz, tales como:

La línea más larga que se puede dibujar en el grano de arroz.
La línea más corta que se puede dibujar en el grano de arroz.
O el perímetro de cada grano.

Nombres populares de perros en Suecia

¿Sabías que el nombre de perro más popular en Suecia es Molly?

Este dataset recoge los nombres de los perros más populares en Suecia en 2018 por número de animales. Bella fue el segundo nombre más popular, con casi seis mil animales, seguido de Charlie con un número aproximado de 4600 animales.

Banderas

Estoy bastante seguro de que a Sheldon le encantará este conjunto de datos… Este dataset contiene las banderas y detalles de varias países, como:

La religión de cada país.
El color predominante en la bandera.
Si la bandera contiene una luna creciente o estrellas solares.
Si contiene un águila, un árbol, …

Tal vez sea interesante intentar predecir la religión de un país por su tamaño y los colores de su bandera.

A veces también es interesante ver cómo la gente extrae relaciones en los datos donde no son visibles a simple vista. Esta página web es experto en encontrar correlaciones donde nadie más puede encontrarlas, por ejemplo:

Consumo de queso vs. Número de personas que murieron por enredarse en sus sábanas

Doctorados en matemáticas vs Uranio almacenado en las plantas de energía nuclear de EE.UU.

Los ingresos totales generados por los salones recreativos vs. doctorados en ciencias de la computación en EE.UU.

Puedes descubrir nuevas correlaciones en esta página web. ¡Comparte con nosotros tus resultados! ?

¿Quiénes somos?

En Immune Technology Institute tratamos de aplicar y enseñar la tecnología más avanzada en el campo de la computación. Además, nos encanta compartir el conocimiento ya que consideramos que es cuando se vuelve poderoso.

Por ello, si quieres aprender a desarrollar aplicaciones en el mundo real o a manejar grandes cantidades de datos, quizás te interese nuestro Master de Data Science. Es un programa dirigido a profesionales que buscan especializarse en Ciencia de los Datos, conocer las principales técnicas de Inteligencia Artificial y cómo aplicarlas en diferentes industrias.

El 24 de septiembre tendremos una sesión informativa online con la directora del máster, Mónica Villas. IMMUNE puede ayudarte a impulsar tu carrera a través de sus empresas partners y contactos con recruiters y profesionales del sector. Puedes inscribirte AQUÍ.

Espera una cosa más – Datathon

¿Quieres ser un data science de los pies a la cabeza? Inscríbete en el Datathon organizado por Immune Technology Institute en colaboración con Spanish Startups el 19 de septiembre. Será un evento online donde estarán los mejores expertos de datos y un gran challenge para poner a prueba tus conocimientos. ¡Tiene premio! Puedes inscribirte AQUÍ.

Este artículo ha sido escrito por: Alejandro Diaz Santos — (LinkedIn, GitHub) para IMMUNE Technology Institute.

Extraños datasets para Machine Learning

De Junior a Senior en Data Science: El factor diferencial