Back to top

Ficha Técnica - Calidad de Datos

A continuación encontrarás como se llevó a cabo el análisis de la información de los datos publicados en este portal, a fin de establecer el nivel de cumplimiento de los criterios de calidad; es importante evaluar la calidad de los datos para verificar su exactitud, confiabilidad y aptitud.

Fuentes

Los datos utilizados para realizar este análisis fueron el total de conjuntos de datos publicados en este portal, para ver la fuente de datos utilizada para las gráficas "Tendencia de actualización de datos" puedes hacer clic aqui.

Criterios de Calidad

Según se define en la Guía de Estándares de Calidad e Interoperabilidad de los Datos Abiertos del Gobierno de Colombia, los datos abiertos de alta calidad son una condición previa para analizarlos, reutilizarlos y garantizar el valor de los datos, por lo anterior se han definido 16 criterios de calidad seleccionados a manera de estándar los cuales se describen a continuación:

Criterio
Guia de Interoperabilidad
Confidencialidad
Los datos solo deben ser accedidos por personas autorizadas para proteger adecuadamente la información reservada y clasificada.
Relevancia
Los datos publicados deben ser de utilidad para los usuarios. En este concepto los datos tienen más o menos relevancia de acuerdo con el caso que se esté analizando.
Actualidad
Vigencia y actualidad de los datos publicados.
Trazabilidad
Histórico del conjunto de datos disponible: fechas de creación, publicación y actualizaciones.
Conformidad
Cumplimiento de lineamientos y estándares vigentes como DCAT (Data Catalog), para la descripción de la Metada.
Exactitud
Datos diligenciados correctamente.
Completitud
Información completa , datos completos para todas las columnas
Consistencia
Datos coherentes y libres de contradicción.
Precisión
Nivel de desagregación en que están publicados los datos con respecto al nivel de desagregación en que fueron generados.
Portabilidad
Formatos sin restricciones para la reutilización de los datos.
Credibilidad
Información veraz y confiable para los usuarios.
Comprensibilidad
Características que permiten al usuario leer e interpretar los datos.
Accesibilidad
Herramientas tecnológicas que garanticen el acceso al usuario que lo requiera.
Eficiencia
Capacidad de la plataforma de realizar análisis y descargas de los datos con unos niveles de desempeño y tiempos esperados.
Recuperabilidad
Atributos que permiten mantener y preservar un nivel especifico de operaciones y de calidad.
Disponibilidad
Garantiza que los usuarios autorizados tengan acceso a la información y a otros activos de información asociados en el lugar y momento requerido

Cálculos por Indicador

A continuación se detalla el cálculo que se realiza para obtener el valor de cada uno de los indicadores de calidad:

ActualidadPasos:

  1. Identificar la frecuencia de actualización del conjunto de datos a partir de la información en la metadata.
  2. Identificar cuál fue la última fecha de actualización de los datos
Regla:

  • Comparar si la fecha de actualización de los datos es mayor o igual a la fecha esperada de actualización. En caso de ser verdadera la comparación, el indicador será igual a 10, en caso que se falso, el indicador será igual a 0.
TrazabilidadPasos:

  1. Obtener la fecha de actualización de datos.
  2. Obtener la fecha de actualización de actualización de Metadatos.
  3. Obtener la fecha de creación de Metadatos.
Regla:

  • Si el conjunto de datos no tiene fecha de actualización, fecha de creación, fecha de actualización el indicador es 0.
  • Si el conjunto de datos tiene fecha de creación, fecha de actualización de datos y de metadatos el indicador es 10
ConformidadPasos:

  1. Se obtiene los campos de la metadata asociado a nombre, descripción, categoría, fecha de actualización, correo electrónico, entidad publicadora, identificador.
Regla:

  • El indicador se obtiene con el total de datos completos dividido en total de campos (7), multiplicado por 10
ExactitudPasos:

  1. Identificar los tipos de datos para cada una de las columnas del conjunto de datos de acuerdo a la información de la Metadata.
  2. Identificar la cantidad de registros totales y la cantidad de datos que no corresponde al tipo definido en la metada, a partir de la anterior identificación ir a cada columna y medir a través de expresiones regulares si el tipo de dato corresponde a lo especificado en la metada
Regla:

  • Calcular el indicador así: = (1 – (datos que no coinciden / registros totales)) * 10
CompletitudPasos:

  1. Obtener y sumar el número de registros totales por cada columna del conjunto de datos.
  2. Obtener y sumar el número de registros faltantes por cada columna del conjunto de datos.
Regla:

  • Calcular el indicador así: (1- (suma registros faltantes / suma registros totales)) x 10
ConsistenciaPasos:

  1. Obtener el número de columnas existentes, columnas repetidas y el número de registros en cada una de ellas, y calcular el valor de columnas asi: (1 – (total registros repetidos / total registros)) x 10
  2. Obtener el número de filas existentes, filas repetidas y el número de registros en cada una de ellas, y calcular el valor de filas asi: = (1 – (total registros repetidos / numero registros totales)) x 10
Regla:

  • Calcular el indicador así: ( Columnas + Filas) / 2
PortabilidadPasos:

  1. Acceder al conjunto de datos a través de API y realizar la conversión de los datos a formato JSON
Regla:

  • Si la conversión fue satisfactoria entonces el indicador es 10 de lo contrario es 0.
CredibilidadPasos:

  1. Obtener la institución y correo electrónico de la metadata conjunto de datos.
Regla:

  • Si cuenta con los datos de institución y correo electrónico entonces el indicador será 10.
  • Si alguno de los dos campos se encuentra vacio entonces el indicador será 0.
ComprensibilidadPasos:

  1. Obtener el número de columnas en la metadata del conjunto de datos y sus nombres
  2. Identificar el número de columnas en el conjunto de datos y sus nombres.
  3. Identificar el número de columnas que coinciden de acuerdo a su nombre, haciendo la comparación entre las los nombres de las columnas de la metada y los conjuntos de datos.
Regla:

  • Calcular el indicador así: (1 – (nombre coincidentes/columnas únicas)) x 10
DisponibilidadPasos:

  1. Hacer llamado HTTP al conjunto de datos a través del ID.
Regla:

  • Si el estado de la respuesta es 200, entonces el indicador es 10, de lo contrario el indicador es 0.

Restricciones de la Medición

Los criterios de calidad que se listan a continuación, no se encuentran dentro de la medición:

Criterio
Métrica por Conjunto de Datos
Relevancia
No Aplica, ya que depende del uso de los datos. No puede ser evaluado de manera aislada.
Precisión
No es posible medir el grado de desagregación de un dato, sino a través del conocimiento de sus orígenes.
Accesibilidad
Se cumple por defecto. Inherentes al funcionamiento de la plataforma de datos abiertos
Eficiencia
Se cumple por defecto. Inherentes al funcionamiento de la plataforma de datos abiertos
Recuperabilidad
No se cumple por defecto. La plataforma de datos.gov.co no permite ver conjuntos de datos previos, solamente el actual.
Confidencialidad
No Aplica, los datos analizados cumplen con la característica inicial de ser datos públicos.

Información Adicional

Si deseas ampliar la información, explora los siguientes documentos:

Si tienes algún comentario y/o sugerencia haz clic aqui