¿Qué son los datos no estructurados?

Los datos se pueden clasificar según su origen, su rango, el tipo de lenguaje con el que queremos trabajar sobre ellos etc. La clasificación más práctica y global que permite trabajar de forma efectiva en el mundo digital es la basada en su estructura. Según esta, hay 3 tipos de datos:  estructurados, semiestructurados y no estructurados.

Los datos no estructurados suponen un 80% del volumen de todos los datos generados, y el porcentaje no deja de crecer. Estos datos pueden tener una estructura interna, pero no siguen ningún esquema o modelo de datos predefinido.

Pueden ser datos de texto, o no textuales; haber sido generados por una máquina o por una persona; y almacenarse en una base de datos NoSQL, o directamente en un Datalake.

Los ejemplos más conocidos son:

  • Ficheros de texto: archivos tipo word, hojas de cálculo, presentaciones, logs…
  • Correo electrónicos, el cuerpo del mensaje, el resto de la información suele ser semi-estruturada, como hemos indicado anteriormente
  • Datos de redes sociales como Facebook, Twitter, Linkedin
  • Datos de sitios web como Youtube, Instagram etc
  • Datos móviles: mensajes, localización, chats…
  • Imágenes, vídeos, audios etc
  • Datos meteorológicos, imágenes por satélite, datos de sensores etc

Trabajar, no sólo con datos no estructurados, sino con enormes volúmenes de ellos supone un auténtico desafío, al que damos respuesta con nuevas herramientas basadas en machine learning, nuevos modelos de almacenamiento y computación basados en sistemas cloud, cambios en las estrategias tradicionales de ingeniería de datos (de modelos ETL a ELT), integración de soluciones nativas y opensource etc. A todo ello se suma la complejidad añadida de dar respuesta en tiempo real a un creciente número de aplicaciones como las basadas en disposivitos IoT, el comercio online etc.

Es muy importante ser consciente del tipo de datos que se maneja en cada caso, para decidir cuáles son los recursos y herramientas más adecuados para cada situación. Esto nos permitirá definir las arquitecturas más eficientes que cubran las necesidades de una empresa con la mejor relación coste-beneficio.