Ciencia de datos ágil - Procesamiento de datos en Agile

En este capítulo, nos centraremos en la diferencia entre datos estructurados, semiestructurados y no estructurados.

Datos estructurados

Los datos estructurados se refieren a los datos almacenados en formato SQL en una tabla con filas y columnas. Incluye una clave relacional, que se asigna a campos prediseñados. Los datos estructurados se utilizan a mayor escala.

Los datos estructurados representan solo del 5 al 10 por ciento de todos los datos informáticos.

Datos semiestructurados

Los datos semiestructurados incluyen datos que no residen en la base de datos relacional. Incluyen algunas de las propiedades de la organización que facilitan el análisis. Incluye el mismo proceso para almacenarlos en una base de datos relacional. Los ejemplos de bases de datos semiestructuradas son archivos CSV, documentos XML y JSON. Las bases de datos NoSQL se consideran semiestructuradas.

Datos no estructurados

Los datos no estructurados representan el 80 por ciento de los datos. A menudo incluye texto y contenido multimedia. Los mejores ejemplos de datos no estructurados incluyen archivos de audio, presentaciones y páginas web. Los ejemplos de datos no estructurados generados por la máquina son imágenes satelitales, datos científicos, fotografías y videos, datos de radar y sonar.

Imágenes satelitales

La estructura de la pirámide anterior se centra específicamente en la cantidad de datos y la proporción en la que se dispersa.

Los datos cuasiestructurados aparecen como tipo entre datos no estructurados y semiestructurados. En este tutorial, nos centraremos en los datos semiestructurados, lo que es beneficioso para la metodología ágil y la investigación de la ciencia de datos.

Los datos semiestructurados no tienen un modelo de datos formal, pero tienen un patrón y una estructura autodescriptivos aparentes que se desarrollan mediante su análisis.