Por Laura Bacci, consultora principal del Grupo Kirey
Los términos Glosario Empresarial, Catálogo de Datos y Diccionario de Datos se utilizan a menudo cuando se habla de Gobernanza de Datos, pero sus definiciones no siempre están estandarizadas para que sus diferencias sean claras y evidentes, evitando solapamientos y conflictos de competencia.
Herramienta | Contenido | Nivel de aplicación | Responsabilidad |
Glosario empresarial | Metadatos empresariales | Empresarial | Negocios |
Diccionario de datos | Metadatos técnicos | Empresarial/División | Tecnología |
Catálogo de datos | Localización de datos | Empresarial/División | Tecnología/Negocios |
Ficha 1 - Los tres instrumentos de la gobernanza de datos
Las tres, como se indica en la Tab. 1, son herramientas que recogen metadatos útiles para contextualizar los datos, aunque con características diferentes: algunas, de hecho, son metadatos orientados al negocio (Business Glossary) otras son metadatos de carácter técnico (Data Catalog y Data Dictionary).
Parte de la confusión es fácilmente comprensible, teniendo en cuenta cómo evoluciona normalmente el gobierno de los datos dentro de una organización. Por ejemplo, es bastante típico empezar por crear un Catálogo de Datos y luego construir un programa de gobernanza a partir de él; o, para una iniciativa de calidad de datos, empezar por definir primero el Diccionario de Datos.
Este tipo de enfoque es potencialmente eficaz para obtener resultados inmediatos, pero debe ser posteriormente "ajustado", corregido, para captar plenamente el valor adicional que se obtiene, para un programa de gobierno de datos, de la aplicación conjunta de las tres herramientas.
Un Glosario debe centrarse en los términos utilizados dentro de la organización para referirse a la actividad que realiza la propia organización, debe ser fácilmente comprensible a todos los niveles y debe definir lo que significa cada término desde una perspectiva empresarial. ¿Qué se entiende por cliente? ¿Por el código fiscal? ¿Por la reserva? ¿Por el premio? ¿Cuenta corriente?
El Glosario se creó para responder a este tipo de preguntas. Como es evidente, un Glosario es propio de una empresa concreta aunque, para favorecer la interoperabilidad, debería estar construido de forma que tuviera la mayoría de los términos comunes a las empresas que operan en el mismo sector.
Disponer de un glosario de este tipo tiene la clara ventaja de poder compartir, dentro de la organización, un vocabulario de términos comunes, con todos los efectos positivos que ello tiene en las actividades operativas, tanto funcionales como técnicas, así como en los proyectos realizados.
El ámbito de un Glosario debe ser el de la empresa en su conjunto. Sólo en los casos en que las distintas divisiones de la empresa se ocupen de negocios muy diferentes y, por tanto, deban adoptar una terminología muy distinta, el Glosario podría ser a nivel de división. Debido a su alcance y a los conocimientos necesarios para su elaboración, la responsabilidad del Glosario no debe delegarse en el componente de Tecnologías de la Información de la empresa. El Glosario es propiedad de la empresa o, más exactamente, el componente funcional de la empresa, más que su componente de tecnología de la información.
Un diccionario, en cambio, debe centrarse en las descripciones y los detalles relacionados con la estructura física de los datos. Cada flujo de datos (archivo o tabla de base de datos) utilizado dentro de la organización debe ser registrado dentro del Diccionario. El diccionario debe incluir detalles sobre los datos como el tipo, la longitud permitida, el nombre técnico, las transformaciones[1] y cualquier otro detalle técnico relevante. Estos detalles son los metadatos principalmente técnicos de los que hablábamos al principio, y permiten a los arquitectos de datos y a los ingenieros de datos entender cómo asociar y consultar los datos para el diseño de los sistemas de información y la producción de informes utilizados por el componente funcional de la empresa.
Aunque los diccionarios suelen estar disponibles a nivel de los recursos individuales (ficheros o bases de datos) que proporcionan para el censo, es evidente que sería extremadamente útil concentrar esta información en un Repositorio centralizado a nivel de empresa o al menos de departamento. Dada la necesidad de conocimientos técnicos y de metadatos, la responsabilidad de la propiedad de un Diccionario de Datos suele recaer en el departamento de TI.
Por último, el Catálogo actúa como un registro para identificar la localización de los datos: también debe considerarse como un activo a nivel de la empresa, un activo que constituye la única fuente de referencia para la localización de cualquier conjunto de datos, un activo necesario para todas las posibles necesidades dentro de la organización, ya sean técnicas-operativas, a nivel de Tecnologías de la Información, o de interrogación funcional para las actividades de Data Science o Business Analytics. Al igual que en el caso del Glosario, si una división de la empresa lleva a cabo una actividad significativamente diferente de las demás, puede ser razonable que el Catálogo se desarrolle a nivel de división y no a nivel de toda la empresa.
Dado que la elaboración del Catálogo requiere conocer la ubicación de todos los recursos de datos presentes en la empresa y que la mayoría de estos datos son gestionados por TI, la responsabilidad del Catálogo suele delegarse en Tecnologías de la Información. Esto no significa que el Catálogo no deba incluir también datos producidos y gestionados por los componentes funcionales de la empresa y que, en consecuencia, la compilación sea el resultado de una actividad conjunta en la que participen tanto los componentes técnicos como los funcionales de la organización.
Para llevar a cabo la gobernanza de los datos de la mejor manera posible, deben implementarse las tres herramientas descritas anteriormente, ya que son la base sobre la que se construye la gobernanza de los datos: ¿cómo puedo pensar en gobernar los datos si no sé qué son, dónde están y qué significan para mi negocio?
Ejemplo | Contenido | Herramienta |
Glosario de la empresa | Metadatos de la empresa | El código fiscal es un código que se utiliza para identificar de forma única a las personas físicas y a otros sujetos distintos de las personas físicas en sus relaciones con los organismos estatales y las administraciones públicas. |
Diccionario de datos | Metadatos Técnicos | Almacenamiento en una cadena compuesta por 16 caracteres alfanuméricos para los individuos y 11 dígitos para las partes que no son individuos. Características de no nulidad y unicidad. |
Catálogo de datos | Localización de datos | El código fiscal se contextualiza a los distintos procesos en los que se utiliza enumerando el almacenamiento en las distintas fuentes de datos: <Base de datos1><tabla1><campo1> <Base de datos2><tabla3><campo15> |
Ficha 2 - Ejemplos de contenido de las tres herramientas de gobernanza de datos
Además, las tres herramientas deben "hablar" entre sí: si en el Catálogo he registrado la ubicación de todos los recursos de información y en el Diccionario he registrado todos los metadatos relacionados con los mismos recursos de información, ¡para aprovechar al máximo ambas tendré que enlazar las dos informaciones! Pero no sólo eso, también tendré que vincular las definiciones de los términos de negocio introducidos en el Glosario con los recursos registrados en el Catálogo para cerrar el círculo por completo y saber exactamente para cada término de negocio dónde se encuentran los recursos de información y qué metadatos son característicos de dichos datos.
La máxima eficacia y eficiencia se conseguiría haciendo converger toda la información del Glosario, el Diccionario y el Catálogo en un único repositorio centralizado de metadatos de Gobernanza de Datos en el que también se añaden todos los metadatos relacionados con las entidades propias de los procesos de Calidad de Datos, que se describen a continuación, como las reglas de control, los resultados y los informes. De este modo, la gestión de metadatos se convierte en el nodo central a partir del cual se desarrolla la gobernanza de los datos. Esta es, al menos, la teoría.
En la práctica real, sin embargo, el enfoque es a menudo parcial, no está completamente organizado, está optimizado para una parte y quizás falte en otra, dependiendo de la capacidad de visión o de la falta de ella de una parte de la dirección o, más simplemente, de cuestiones de costes. Por eso no es realista imaginar un enfoque de la Gobernanza de Datos que suponga, partiendo de cero, iniciar un proyecto global para censar todo el patrimonio de información de la empresa en todas sus facetas.
El mejor enfoque es el de tipo ágil (tomando prestado el término de la gestión de proyectos[2]): dejar que se desarrollen inicialmente iniciativas locales y departamentales, en las que también se utilicen diferentes herramientas, para converger al final hacia una visión centralizada, habiendo seleccionado entretanto las herramientas informáticas que mejor respondan a las necesidades y que hayan tenido más éxito en los proyectos locales. El enfoque debe ser incremental, incluyendo en la Gobernanza primero aquellas áreas de información que por diversas razones, de mercado, de impacto en varias áreas de negocio, de relevancia normativa, etc., se consideren prioritarias, para luego ir añadiendo progresivamente todas las demás que se consideren relevantes a efectos de la gobernanza global.
[1] El linaje se define como la relación fuente-destino que existe entre los datos que se transforman.
[2] Las metodologías "ágiles" se originaron en el contexto de los proyectos de desarrollo de software y se refieren a aquellas prácticas de desarrollo ligeras y flexibles que implican equipos de desarrollo pequeños, desarrollo iterativo e incremental, planificación adaptativa y participación directa y continua del cliente en el proceso de desarrollo.