Extraños datasets para Machine Learning  

Hay cientos de datasets raros e interesantes que se pueden encontrar online. En el Immune Technology Institute hemos pedido a nuestros profesores que creen una lista de los más extraños conjuntos de datos que han encontrado. ¡Aquí vamos!

15/09/2020

Un repaso a datasets poco comunes para tus modelos

Cuando se comienza en el campo del aprendizaje automático, se suelen utilizar los conjuntos de datos como MNIST, Iris, o 20 newsgroups, entre otros... Pero hay cientos de datasets raros e interesantes que se pueden encontrar online. En el Immune Technology Institute hemos pedido a nuestros profesores que creen una lista de los más extraños conjuntos de datos que han encontrado. ¡Aquí vamos!

Precio de la marihuana

Se trata de un repositorio que contiene un registro de los precios de la marihuana a lo largo de los años, los cuales varían bastante de un estado a otro. Pero la cuestión aquí es cómo se han obtenido los datos...

 

Aunque pueda parecer un conjunto de datos inútil, puede ser muy relevante en los tiempos que vivimos, ya que muchos países están considerando legalizar la marihuana.

¿Cuál es el tamaño óptimo para un palillo chino?

Si nunca te has preguntado, como es normal, cuál es el tamaño óptimo de los palillos chinos, no te preocupes, alguien ya se lo ha preguntado antes. Un equipo de investigadores evaluó los efectos de la longitud de los palillos en el rendimiento de los adultos y los niños a la hora de comer. Por esta razón, crearon este conjunto de datos para encontrar la longitud óptima de los palillos.

Llegaron a la conclusión de que el proceso de pinchar la comida se veía considerablemente afectado por la longitud de los palillos. Los investigadores sugirieron que las familias con niños deberían proporcionar palillos de 240 y 180 mm de longitud. Los restaurantes deberían proporcionar palillos de 210 mm de largo, para encontrar un balance entre la ergonomía y el precio.

Imágenes de granos de arroz

Este dataset contiene más de 3500 imágenes de granos de arroz de dos especies diferentes. Se extrajeron diferentes propiedades de cada grano de arroz, tales como:

  • La línea más larga que se puede dibujar en el grano de arroz.
  • La línea más corta que se puede dibujar en el grano de arroz.
  • O el perímetro de cada grano.

Nombres populares de perros en Suecia

¿Sabías que el nombre de perro más popular en Suecia es Molly?

Este dataset recoge los nombres de los perros más populares en Suecia en 2018 por número de animales. Bella fue el segundo nombre más popular, con casi seis mil animales, seguido de Charlie con un número aproximado de 4600 animales.

 

Banderas

 

Estoy bastante seguro de que a Sheldon le encantará este conjunto de datos... Este dataset contiene las banderas y detalles de varias países, como:

 

  • La religión de cada país.
  • El color predominante en la bandera.
  • Si la bandera contiene una luna creciente o estrellas solares.
  • Si contiene un águila, un árbol, ...

 

Tal vez sea interesante intentar predecir la religión de un país por su tamaño y los colores de su bandera.

 

A veces también es interesante ver cómo la gente extrae relaciones en los datos donde no son visibles a simple vista. Esta página web es experto en encontrar correlaciones donde nadie más puede encontrarlas, por ejemplo:

Consumo de queso vs. Número de personas que murieron por enredarse en sus sábanas

Doctorados en matemáticas vs Uranio almacenado en las plantas de energía nuclear de EE.UU.

Los ingresos totales generados por los salones recreativos vs. doctorados en ciencias de la computación en EE.UU.

Puedes descubrir nuevas correlaciones en esta página web. ¡Comparte con nosotros tus resultados! ?

¿Quiénes somos?

En Immune Technology Institute tratamos de aplicar y enseñar la tecnología más avanzada en el campo de la computación. Además, nos encanta compartir el conocimiento ya que consideramos que es cuando se vuelve poderoso.

 

Por ello, si quieres aprender a desarrollar aplicaciones en el mundo real o a manejar grandes cantidades de datos, quizás te interese nuestro Master de Data Science. Es un programa dirigido a profesionales que buscan especializarse en Ciencia de los Datos, conocer las principales técnicas de Inteligencia Artificial y cómo aplicarlas en diferentes industrias. 

 

El 24 de septiembre tendremos una sesión informativa online con la directora del máster, Mónica Villas. IMMUNE puede ayudarte a impulsar tu carrera a través de sus empresas partners y contactos con recruiters y profesionales del sector. Puedes inscribirte AQUÍ.

 

Espera una cosa más - Datathon

¿Quieres ser un data science de los pies a la cabeza? Inscríbete en el Datathon organizado por Immune Technology Institute en colaboración con Spanish Startups el 19 de septiembre. Será un evento online donde estarán los mejores expertos de datos y un gran challenge para poner a prueba tus conocimientos. ¡Tiene premio! Puedes inscribirte AQUÍ.

 

Este artículo ha sido escrito por: Alejandro Diaz Santos — (LinkedIn, GitHub) para IMMUNE Technology Institute.

Relacionadas

EL FUTURO DE LOS INCONFORMISTAS
Sin categorizar
01/01/2021

EL FUTURO DE LOS INCONFORMISTAS

Cada vez son más las personas que buscan una alternativa al incierto mercado laboral y que apuestan por crear su propia empresa. En 2017, se llegaron a registrar en nuestro país un total de 3.258 startups frente a las 2.663 del año anterior.

EL IMPACTO DE LA INTELIGENCIA ARTIFICIAL EN LA EDUCACIÓN
Sin categorizar
28/03/2019

EL IMPACTO DE LA INTELIGENCIA ARTIFICIAL EN LA EDUCACIÓN

La educación se enfrenta a un auténtico reto. El nuevo milenio llegó con una serie de retos que pasaban por proporcionar una educación de calidad, accesible para todos los ciudadanos del planeta y consiguiendo reducir, en la medida de lo posible, el coste de esta educación.

LA AUTOMATIZACIÓN DEL EMPLEO
Sin categorizar
01/01/2021

LA AUTOMATIZACIÓN DEL EMPLEO

Las máquinas están asumiendo con creciente rapidez los puestos de trabajo tanto en las grandes ciudades como en las pequeñas

¿Cómo pueden encontrarme las empresas?
Sin categorizar
09/09/2020

¿Cómo pueden encontrarme las empresas?