Extraños datasets para Machine Learning  

Hay cientos de datasets raros e interesantes que se pueden encontrar online. En el Immune Technology Institute hemos pedido a nuestros profesores que creen una lista de los más extraños conjuntos de datos que han encontrado. ¡Aquí vamos!

15/09/2020

Un repaso a datasets poco comunes para tus modelos

Cuando se comienza en el campo del aprendizaje automático, se suelen utilizar los conjuntos de datos como MNIST, Iris, o 20 newsgroups, entre otros... Pero hay cientos de datasets raros e interesantes que se pueden encontrar online. En el Immune Technology Institute hemos pedido a nuestros profesores que creen una lista de los más extraños conjuntos de datos que han encontrado. ¡Aquí vamos!

Precio de la marihuana

Se trata de un repositorio que contiene un registro de los precios de la marihuana a lo largo de los años, los cuales varían bastante de un estado a otro. Pero la cuestión aquí es cómo se han obtenido los datos...

 

Aunque pueda parecer un conjunto de datos inútil, puede ser muy relevante en los tiempos que vivimos, ya que muchos países están considerando legalizar la marihuana.

¿Cuál es el tamaño óptimo para un palillo chino?

Si nunca te has preguntado, como es normal, cuál es el tamaño óptimo de los palillos chinos, no te preocupes, alguien ya se lo ha preguntado antes. Un equipo de investigadores evaluó los efectos de la longitud de los palillos en el rendimiento de los adultos y los niños a la hora de comer. Por esta razón, crearon este conjunto de datos para encontrar la longitud óptima de los palillos.

Llegaron a la conclusión de que el proceso de pinchar la comida se veía considerablemente afectado por la longitud de los palillos. Los investigadores sugirieron que las familias con niños deberían proporcionar palillos de 240 y 180 mm de longitud. Los restaurantes deberían proporcionar palillos de 210 mm de largo, para encontrar un balance entre la ergonomía y el precio.

Imágenes de granos de arroz

Este dataset contiene más de 3500 imágenes de granos de arroz de dos especies diferentes. Se extrajeron diferentes propiedades de cada grano de arroz, tales como:

  • La línea más larga que se puede dibujar en el grano de arroz.
  • La línea más corta que se puede dibujar en el grano de arroz.
  • O el perímetro de cada grano.

Nombres populares de perros en Suecia

¿Sabías que el nombre de perro más popular en Suecia es Molly?

Este dataset recoge los nombres de los perros más populares en Suecia en 2018 por número de animales. Bella fue el segundo nombre más popular, con casi seis mil animales, seguido de Charlie con un número aproximado de 4600 animales.

 

Banderas

 

Estoy bastante seguro de que a Sheldon le encantará este conjunto de datos... Este dataset contiene las banderas y detalles de varias países, como:

 

  • La religión de cada país.
  • El color predominante en la bandera.
  • Si la bandera contiene una luna creciente o estrellas solares.
  • Si contiene un águila, un árbol, ...

 

Tal vez sea interesante intentar predecir la religión de un país por su tamaño y los colores de su bandera.

 

A veces también es interesante ver cómo la gente extrae relaciones en los datos donde no son visibles a simple vista. Esta página web es experto en encontrar correlaciones donde nadie más puede encontrarlas, por ejemplo:

Consumo de queso vs. Número de personas que murieron por enredarse en sus sábanas

Doctorados en matemáticas vs Uranio almacenado en las plantas de energía nuclear de EE.UU.

Los ingresos totales generados por los salones recreativos vs. doctorados en ciencias de la computación en EE.UU.

Puedes descubrir nuevas correlaciones en esta página web. ¡Comparte con nosotros tus resultados! ?

¿Quiénes somos?

En Immune Technology Institute tratamos de aplicar y enseñar la tecnología más avanzada en el campo de la computación. Además, nos encanta compartir el conocimiento ya que consideramos que es cuando se vuelve poderoso.

 

Por ello, si quieres aprender a desarrollar aplicaciones en el mundo real o a manejar grandes cantidades de datos, quizás te interese nuestro Master de Data Science. Es un programa dirigido a profesionales que buscan especializarse en Ciencia de los Datos, conocer las principales técnicas de Inteligencia Artificial y cómo aplicarlas en diferentes industrias. 

 

El 24 de septiembre tendremos una sesión informativa online con la directora del máster, Mónica Villas. IMMUNE puede ayudarte a impulsar tu carrera a través de sus empresas partners y contactos con recruiters y profesionales del sector. Puedes inscribirte AQUÍ.

 

Espera una cosa más - Datathon

¿Quieres ser un data science de los pies a la cabeza? Inscríbete en el Datathon organizado por Immune Technology Institute en colaboración con Spanish Startups el 19 de septiembre. Será un evento online donde estarán los mejores expertos de datos y un gran challenge para poner a prueba tus conocimientos. ¡Tiene premio! Puedes inscribirte AQUÍ.

 

Este artículo ha sido escrito por: Alejandro Diaz Santos — (LinkedIn, GitHub) para IMMUNE Technology Institute.

Relacionadas

OF A,B,C AND UNIX AND PERSERVERANCE
Sin categorizar
07/06/2018

OF A,B,C AND UNIX AND PERSERVERANCE

One of the most fascinating things about the birth of modern computing has always been the uncommon paths it followed.

¿Qué se necesita para trabajar en ciberseguridad?
Sin categorizar
15/07/2021

¿Qué se necesita para trabajar en ciberseguridad?

IMPACTFUL TECH: EL PUNTO DE ENCUENTRO DE PROFESIONALES Y EXPERTOS DEL SECTOR
Sin categorizar
26/04/2019

IMPACTFUL TECH: EL PUNTO DE ENCUENTRO DE PROFESIONALES Y EXPERTOS DEL SECTOR

El pasado mes de marzo IMMUNE Coding Institute dio el pistoletazo de salida a la iniciativa Impactful Tech, un ciclo de conferencias y debates donde profesionales y expertos de diferentes sectores analizan los aspectos clave de la transformación tecnológica.

LAS STARTUPS ESPAÑOLAS QUE HAN DESTACADO
Sin categorizar
02/01/2019

LAS STARTUPS ESPAÑOLAS QUE HAN DESTACADO

Hace unos años, Educa 2020 y la Fundación Axa publicaron un estudio cuyos resultados plasman una realidad sorprendente y un tanto preocupante para el futuro de nuestro país. ¿Cuál? Menos del 20% de los estudiantes universitarios quieren emprender para crear su propia empresa o negocio