¿Cuál es la diferencia entre los datos estructurados y no estructurados? ¿Por qué es importante? Para muchas empresas y organizaciones, estas distinciones pueden parecer que pertenecen únicamente al departamento de TI que se ocupa de los big data.
Si bien hay algo de verdad en eso, vale la pena que todos comprendan la diferencia, porque una vez que comprenda la definición de datos estructurados y datos no estructurados (junto con dónde viven esos datos y cómo procesarlos), verá cómo se puede utilizar para mejorar cualquier proceso basado en datos.
Ventas, marketing, operaciones y recursos humanos: todos estos grupos producen datos. Incluso el más pequeño de las pequeñas empresas, como una tienda física y una base de clientes local, produce datos estructurados y no estructurados de cosas como correo electrónico, transacciones con tarjetas de crédito, compras de inventario y redes sociales. Aprovechar los datos que produce su negocio viene a través de la comprensión de los dos y cómo trabajan juntos.
Los datos estructurados son datos que utilizan un formato predefinido y esperado. Esto puede provenir de muchas fuentes diferentes, pero el factor común es que los campos son fijos, como es la forma en que se almacena (de ahí, estructurado). Este modelo de datos predeterminado permite introducir, consultar y analizar fácilmente.
Por ejemplo, considere los datos transaccionales de una compra en línea. En estos datos, cada registro tendrá un registro de hora, un importe de compra, información de cuenta asociada (o cuenta de cliente), artículos comprados, información de pago y un número de confirmación. Debido a que cada campo tiene una finalidad definida, facilita la consulta manual (el equivalente de pulsar CTRL+F en una hoja de cálculo de Excel) de estos datos. También es fácil para los algoritmos de aprendizaje automático identificar patrones y, en muchos casos, identificar anomalías fuera de esos patrones.
Los datos estructurados se desglosan hasta los elementos establecidos y esperados. Los registros de hora llegarán en un formato definido; no transmitirán (o no podrán) un registro de hora descrito en palabras porque está fuera de la estructura. Un formato predefinido permite una escalabilidad y un procesamiento sencillos, incluso si se maneja en última instancia en un nivel manual.
Los datos estructurados se pueden utilizar para cualquier cosa siempre que el origen defina la estructura. Algunos de los usos más comunes en el negocio incluyen formularios CRM, transacciones en línea, datos de acciones, datos de supervisión de redes corporativas y formularios web.
Al igual que los datos estructurados incluyen definición, los datos no estructurados carecen de definición. En lugar de campos predefinidos en un formato específico, los datos no estructurados pueden tener todas las formas y tamaños. Aunque normalmente el texto (como un campo de texto abierto en un formulario), los datos no estructurados pueden aparecer en muchas formas para almacenarse como objetos: imágenes, audio, video, archivos de documentos y otros formatos de archivo. El hilo conductor con todos los datos no estructurados es una falta de definición.
Los datos no estructurados suelen estar disponibles (más información al respecto) y los campos pueden no tener los mismos límites de espacio o carácter que los datos estructurados. Dada la amplia gama de formatos que comprenden datos no estructurados, no es sorprendente que este tipo normalmente represente alrededor del 80% de los datos de una organización.
Los archivos de medios son un ejemplo de datos no estructurados. Algo parecido a un podcast no tiene estructura para su contenido. La búsqueda del archivo MP3 del podcast no es fácil por defecto; los metadatos, como el nombre de archivo, el registro de hora y las etiquetas asignadas manualmente, pueden ayudar a la búsqueda, pero el propio archivo de audio carece de contexto sin análisis ni relaciones adicionales.
Esto también se aplica a los archivos de vídeo. Los activos de vídeo están en todas partes en estos días, desde cortos clips en las redes sociales hasta archivos más grandes que muestran seminarios web completos o discusiones. Al igual que con los archivos MP3 del podcast, el contenido de estos datos carece de especificidad fuera de los metadatos. Simplemente no puede buscar un archivo de vídeo específico según su contenido real en la base de datos.
En el mundo empresarial actual basado en datos, el uso de datos estructurados y no estructurados es una buena forma de desarrollar estadísticas. Volvamos al ejemplo de las publicaciones de redes sociales de una compañía, específicamente publicaciones con algún tipo de archivo adjunto de medios. ¿Cómo puede una organización desarrollar estadísticas sobre el compromiso de marketing?
En primer lugar, utilice datos estructurados para ordenar las publicaciones de redes sociales por mayor interacción y, a continuación, filtre las etiquetas que no estén relacionadas con el marketing (por ejemplo, elimine las publicaciones de alta interacción con un hashtag relacionado con el servicio al cliente). A partir de ahí, se pueden examinar los datos no estructurados relacionados: los medios sociales reales publican contenido, mirando a la mensajería, el tipo de medio, el tono y otros elementos que pueden dar información sobre por qué la interacción generada por la publicación.
Esto puede parecer que hay mucho trabajo manual involucrado, y eso fue cierto hace varios años. Sin embargo, los avances en el aprendizaje automático y la inteligencia artificial permiten niveles de automatización. Por ejemplo, si los archivos de audio se ejecutan a través del procesamiento de lenguaje natural para crear una salida de voz a texto, el texto se puede analizar para patrones de palabras clave o mensajes positivos/negativos. Estos conocimientos se aceleran gracias a las herramientas de vanguardia, que son cada vez más importantes debido al hecho de que los big data se están haciendo cada vez más grandes y que la mayoría de esos big data no está estructurada.
Hoy en día, los datos se generan a partir de muchos orígenes diferentes. Veamos a una empresa de tamaño medio con una configuración de comercio electrónico estándar. En este caso, es probable que los datos procedan de las siguientes áreas:
Y puede haber muchas más fuentes de datos. De hecho, la cantidad de datos que extrae cualquier empresa en estos días es asombrosa. No tienes que ser una gran corporación para formar parte de la revolución de big data. Pero cómo se manejan esos datos es clave para poder utilizarlos. La mejor solución en muchos casos es un lago de datos.
Los lagos de datos son repositorios que reciben datos estructurados y no estructurados. La capacidad de consolidar varias entradas de datos en un único origen convierte los lagos de datos en una parte esencial de cualquier infraestructura de big data. Cuando los datos entran en un lago de datos, cualquier estructura inherente se elimina para que sean datos raw, lo que los hace fácilmente escalables y flexibles. Cuando se leen y procesan los datos, se les proporciona estructura y esquema según sea necesario, equilibrando tanto el volumen como la eficacia.
Powered by Oracle Cloud, Oracle Big Data services accelerate management and processing of raw data. Desde el almacenamiento de bloques hasta los lagos de datos, Oracle ofrece soluciones flexibles que manejan datos estructurados y no estructurados.