¿Qué es un catálogo de datos y por qué lo necesitas?

En pocas palabras, un catálogo de datos es un inventario organizado de los activos de datos de la organización. Utiliza metadatos para ayudar a las organizaciones a administrar sus datos. También ayuda a los profesionales de datos a recopilar, organizar, enriquecer y acceder a metadatos para respaldar la detección y la gobernanza de los datos.

Definición y analogía del catálogo de datos

Anteriormente ofrecimos una breve definición del catálogo de datos como un elemento que utiliza metadatos para ayudar a las organizaciones a administrar sus datos. Pero ahora lo ampliaremos con la analogía de una biblioteca.

Cuando vamos a una biblioteca y necesitamos encontrar un libro, usamos el catálogo para saber si lo tienen, qué edición tienen, dónde está ubicado, una descripción, etc.; es decir todo lo que necesita para decidir si lo quiere y para buscarlo en su caso.

Eso es lo que ofrecen en la actualidad muchas tiendas de objetos, bases de datos y almacenes de datos.

Pero, ahora volvamos a la analogía entre la biblioteca y el catálogo. Ampliemos la capacidad de ese catálogo para que abarque a todas las bibliotecas del país. Imagine que tiene una sola interfaz y que, de repente, puede buscar todas las bibliotecas del país que tienen la copia del libro que está buscando, además de todos los detalles que siempre ha querido de cada uno de los libros.

Eso es lo que hace un catálogo de datos empresariales con todos sus datos. Le brinda una vista única y general, y una mayor visibilidad de todos sus datos, no solo de un almacén de datos.

Quizás se pregunte por qué necesita una vista de este tipo.

Desafíos que se pueden abordar con un catálogo de datos

A medida que aumentan los datos disponibles, encontrar los datos correctos se ha vuelto más difícil que nunca. Por otro lado, también hay más reglas y normativas que nunca; el RGPD es solo una de ellas.

Así que no solo el acceso a los datos se está volviendo un desafío, sino también la gobernanza de datos. Ahora es fundamental saber el tipo de datos que tiene, quién los gestiona, para qué se utilizan y cómo deben protegerse. Pero también debe evitar demasiadas capas y envoltorios alrededor de sus datos, ya que dejan de ser útiles si resultan demasiado difíciles de usar.

Lamentablemente, existen muchos desafíos a la hora de encontrar y acceder a los datos correctos. Estas incluyen:

  • Pérdida de tiempo y esfuerzo en buscar datos y acceder a ellos.
  • Data lakes que se convierten en Data swamps.
  • La ausencia de un vocabulario comercial común.
  • La dificultad de entender la estructura y la variedad de "datos oscuros".
  • La dificultad de evaluar la procedencia, calidad y fiabilidad.
  • La incapacidad de capturar conocimientos tribales o que faltan.
  • La dificultad de reutilizar los activos de datos y conocimientos.
  • Los esfuerzos de preparación de datos manuales y ad-hoc.

Usuarios del catálogo de datos

Todos estos problemas de gestión de datos frustran a los usuarios, por ejemplo ingenieros de datos, científicos de datos, administradores de datos y directores de datos. Todos desean acceder fácilmente a datos fiables. Estos son solo algunos de los desafíos a los que se enfrentan:

Los ingenieros de datos quieren saber cómo afectarán los cambios al sistema en su conjunto. Podrían preguntar:

  • ¿Qué impacto tendrá un cambio de esquema en nuestra aplicación CRM?
  • ¿En qué se diferencian las estructuras de datos PeopleSoft y HCM?

Los científicos de datos quieren acceder fácilmente a los datos y saber más sobre su calidad. Buscan información como:

  • ¿Dónde puedo encontrar y explorar algunos datos de ubicación geográfica?
  • ¿Cómo puedo acceder fácilmente a los datos del data lake?

Los administradores de datos se encargan de un proceso de datos administrado. Se ocupan por los conceptos, los acuerdos entre las partes interesadas y la gestión del ciclo de vida de los datos en sí. Harán preguntas como:

  • ¿Estamos realmente mejorando la calidad de nuestros datos operativos?
  • ¿Hemos definido estándares para los elementos de datos clave importantes?

Los directores de datos se ocupan de quién está haciendo qué en la organización. Por lo general, no son los que usan un catálogo de datos, pero quieren dar respuestas a preguntas como:

  • ¿Quién puede acceder a la información personal de los clientes?
  • ¿Hemos definido políticas de retención para todos los datos?

Entre en el catálogo de datos.

Casos de uso del catálogo de datos

En los últimos años, el concepto de catálogo de datos ha adquirido popularidad debido al creciente número de datos que se deben administrar y a los que se debe acceder. La nube, la analítica de big data, la IA y el aprendizaje automático han comenzado a cambiar la forma en que necesitamos ver, administrar y aprovechar nuestros datos; y no solo debemos administrarlos, sino también usarlos y acceder a ellos por completo.

El uso correcto del catálogo de datos implica utilizar mejor los datos, lo que ofrece:

  • Ahorro de costos
  • Eficiencia operativa
  • Ventajas competitivas
  • Mejor experiencia del cliente
  • Ventaja de fraude y riesgo
  • Y mucho más

Estos son solo algunos de los casos de uso de un catálogo de datos. Pero, en realidad, se puede utilizar de muchas otras formas ya que, fundamentalmente, se trata de disponer de una visibilidad más amplia y de un acceso más profundo a los datos.

Analítica en autoservicio. Muchos usuarios de datos tienen problemas a la hora de encontrar los datos correctos. Y no solo de encontrarlos, sino también de saber si son útiles. Puede que descubra un archivo llamado customer_info.csv. Y es posible que necesite un archivo sobre los clientes. Pero eso no significa que sea el correcto, ya que puede ser solo uno de 50 archivos parecidos. El archivo puede tener muchos campos y es posible que no sepa el significado de todos los elementos de datos. Desea una forma más fácil de ver el contexto del negocio; por ejemplo si se trata de un recurso administrado, cuál es el almacén de datos correcto o cuál es la relación con otros artefactos de datos.

La detección también podría implicar conocer la forma y las características de los datos, desde algo tan simple como la distribución de valor o la información estadística, hasta algo tan importante y complejo como la información de identificación personal (PII) o la información personal de salud (PHI).

Auditoría, cumplimiento y gestión del cambio. Con unas normativas estatales cada vez más estrictas en lo referente a los datos, a menudo es necesario demostrar la procedencia de los mismos, si ciertos artefactos de datos provienen de una fuente u otra o cómo se transforman antes de alcanzar el objetivo final. Al consultar una tabla, informe o archivo, los usuarios de datos a menudo quieren saber de dónde provienen los datos y cómo se mueven a través de la organización. Desde el punto de vista de la gestión de cambios, es importante ver cómo los cambios en una parte de una canalización de datos afectan a otras partes del sistema. Por eso, los clientes desean tener información detallada del origen de los datos.

Ayuda para el control de datos con glosarios empresariales. La mayoría de las organizaciones tienen un vocabulario acordado por todos y una forma coherente de entender los conceptos comerciales. Pero, a menudo, y con suerte, queda registrado en hojas de Excel dispersas. Un catálogo de datos es un lugar mucho mejor para almacenar y administrar esta información comercial vital.

El catálogo de datos también le permite establecer vínculos entre los términos comerciales para establecer una taxonomía. Además, puede registrar las relaciones entre los términos y los activos físicos, como tablas y columnas. También permite a los usuarios saber qué conceptos comerciales son relevantes para cada artefacto técnico, lo que se puede utilizar para clasificar los activos de datos en líneas de conceptos comerciales y usar posteriormente conceptos comerciales, en lugar de nombres técnicos, para la búsqueda y la detección. Esto ayuda a aumentar la confianza de los usuarios en lo que están viendo, ya que pueden consultar todo lo relacionado con sus datos y, a menudo, es un buen punto de partida para controlar los datos.

¿Qué se necesita para usar plenamente los datos de un catálogo de datos?

Vamos a retroceder un poco y a explicar rápidamente el concepto de metadatos a quienes no lo conocen. ¿Qué son los metadatos? Hay tres tipos de metadatos:

  • Metadatos técnicos: esquemas, tablas, columnas, nombres de archivos, nombres de informes: todo lo que está documentado en el sistema de origen
  • Metadatos de negocio: suele ser el conocimiento empresarial que los usuarios tienen sobre los activos de la organización. Puede incluir descripciones comerciales, comentarios, anotaciones, clasificaciones, aptitud para el uso, calificaciones y más.
  • Metadatos operativos: ¿Cuándo se ha refrescado este objeto? ¿Qué tarea ETL lo creó? ¿Cuántas veces han accedido los usuarios a una tabla?, ¿a cuál?

En los últimos años, hemos vivido una pequeña revolución del uso de estos valiosos metadatos. Antes, los metadatos se usaban mayoritariamente solo en auditorías, detección de orígenes y elaboración de informes. Sin embargo, en la actualidad, las innovaciones tecnológicas como el procesamiento sin servidor, las bases de datos orientadas a grafos y, en particular, las técnicas de inteligencia artificial y aprendizaje automático nuevas o más accesibles, están superando los límites y permiten realizar acciones con los metadatos que antes resultaban imposibles a esta escala.

En la actualidad, los metadatos se pueden utilizar para mejorar la gestión de datos, desde la preparación de datos de autoservicio hasta el control de acceso basado en contenido de roles y datos; la incorporación de datos automatizada, la supervisión y la alerta de anomalías; los recursos de aprovisionamiento automático y escalabilidad automática, etc. Todo esto se puede mejorar ahora con la ayuda de los metadatos.

El catálogo de datos utiliza metadatos para ayudarle a sacar el máximo partido de la administración de sus datos.

¿Qué debe ofrecer un catálogo de datos?

Un buen catálogo de datos debería ofrecer:

Búsqueda y detección. Un catálogo de datos debe incluir opciones flexibles de búsqueda y filtrado para que los usuarios puedan encontrar rápidamente conjuntos de datos relevantes para la ciencia de datos, la analítica o la ingeniería de datos. También debe permitir buscar metadatos en función de una jerarquía técnica de activos de datos. El hecho de que los usuarios puedan introducir información técnica, etiquetas definidas por el usuario o términos comerciales también mejora las capacidades de búsqueda.

Recopilación de metadatos de varias fuentes. Asegúrese de que su catálogo de datos pueda recopilar metadatos técnicos de una variedad de activos de datos conectados, incluido el almacenamiento de objetos, las bases de datos de autogestión, los sistemas locales y mucho más.

Conservación de metadatos. Ofrezca una forma de que los expertos en la materia aporten conocimientos empresariales en forma de glosario empresarial, etiquetas, asociaciones, anotaciones definidas por el usuario, clasificaciones, valoraciones, etc.

Inteligencia de datos y automatización. En las escalas de datos que hemos mencionado, la inteligencia artificial y el aprendizaje automático a menudo son imprescindibles. Todas y cada una de las tareas manuales que se pueden automatizar deben hacerlo con técnicas de inteligencia artificial y aprendizaje automático en los metadatos recopilados. Además, la inteligencia artificial y el aprendizaje automático pueden comenzar a aumentar de verdad las capacidades con los datos, por ejemplo ofreciendo recomendaciones de datos a los usuarios del catálogo de datos y a los usuarios de otros servicios en una plataforma de datos moderna.

Capacidades de nivel empresarial. Sus datos son importantes y, para usarlos correctamente, necesita capacidades de categoría empresarial, como la administración de identidades y accesos, además de las capacidades fundamentales a través de las API de REST. Esto también implica que los clientes y socios puedan aportar metadatos (como recolectores personalizados) e integrar las capacidades del catálogo de datos en sus propias aplicaciones a través de REST.

Además, el catálogo de datos debería convertirse en su catálogo de sistema de referencia y ofrecerle abstracción en todas las capas de persistencia, como almacén de objetos, Hadoop, bases de datos, almacén de datos y servicios de consulta, que funcionan en todos sus silos de datos.

Por todo esto, ya no es solo bueno tener un catálogo de datos, sino que es una necesidad.

¿Por qué elegir Oracle Cloud Infrastructure Data Catalog?

Toda organización debe tener un catálogo de datos sólido. Pero, ¿por qué Oracle Cloud Infrastructure Data Catalog?

Oracle Cloud Infrastructure Data Catalog se incluye con todas las suscripciones de Oracle Cloud Infrastructure y ayuda a los clientes a organizar y controlar sus activos de datos. Es una solución de colaboración única para que los profesionales de datos no solo organicen y controlen los datos, sino que también recopilen, accedan, enriquezcan y activen metadatos técnicos, comerciales y operativos para respaldar la detección de datos de autoservicio y el control de los activos de datos de confianza en Oracle Cloud y más allá.

Desde el punto de vista práctico, podrá:

  • Recopilar metadatos técnicos sobre activos de datos en Oracle Cloud Infrastructure como Oracle Cloud Infrastructure Object Storage, Oracle Autonomous Database, Oracle Database.
  • Buscar y explorar los datos apropiados en una variedad de fuentes diferentes mediante búsquedas y filtros multifacéticos.
  • Gestionar el glosario empresarial para capturar el vocabulario comercial de la empresa.
  • Enriquecer su conocimiento de los datos disponibles capturando elementos básicos como etiquetas y anotaciones definidas por el usuario.
  • Obtener una visión holística de los activos de datos mediante la asociación de etiquetas y términos comerciales.
  • Integrar sus capacidades en otras aplicaciones con API de REST y SDK.
  • Acceso seguro con políticas basadas en grupos de IAM.

Conclusión

Las organizaciones desean aprovechar los datos. Quieren lograr una analítica mejor y más rápida, sin que vaya en detrimento del control de los datos. Por eso, la gestión de los datos es aún más importante y desafiante. El catálogo de datos ayuda a que la gestión de datos resulte más fácil de administrar y facilita el cumplimiento de las numerosas demandas. A través del Oracle Cloud Infrastructure Data Catalog, Oracle ha avanzado para ayudar a todos a descubrir y utilizar los datos de la forma que siempre quisieron.