Extracción de Información en Documentos de Procesos de Contratación Pública

Califique este contenido

Titulo + fecha de publicación

Fecha de publicación: 29/12/2021

La subdirección de Estudios de Mercado y Abastecimiento Estratégico (EMAE) de la Agencia Nacional de Contratación Pública - Colombia Compra Eficiente ha detectado incongruencias relacionadas a la calidad de la información de los contratos que han sido cargados por las entidades en la plataforma SECOP I, encontrando diferencias respecto a los documentos contractuales que soportan los procesos de contratación. Por ejemplo, se ha encontrado altos valores de contratación; al revisar esta información en los documentos del contrato se observa que las personas colocaron en los formularios de la plataforma cifras adicionales ocasionando estas diferencias.

Estas inconsistencias afectan los resultados que se generan en los insumos estratégicos y estudios de mercado sobre la contratación pública que la subdirección desarrolla, causando sesgos en la información que pueden afectar la toma de decisiones por parte de los diferentes actores de la compra pública. En el ejercicio que se presenta en este espacio se desarrolla una herramienta de extracción y estructuración de la información contenida en los documentos que soportan los procesos de contratación pública que se suscriben en la plataforma SECOP I. Para lograrlo se divide el proyecto en tres fases:

Extracción de texto utilizando OCR (Cognitive Services - Computer Vision)
Identificación de entidades en el texto utilizando NER (Named Entity Recognition) (Cognitive Services - Text Analytics)
Creación de bases de datos con la información obtenida y primer paso a la estructuración.

Se procesó una muestra de 10368 contratos alojados en la plataforma SECOP I, de cada uno de ellos se extrajo el texto de los documentos soporte de los procesos de contratación pública y se definieron tareas de reconocimiento de información relacionada con algunas variables correspondientes a datos específicos usando Cognitive Services - Text Analytics. Si bien, en primera instancia se esperaba automatizar la búsqueda de datos erróneos en la plataforma y reportar posibles banderas rojas y definir métricas que evalúen el desempeño de la herramienta frente a la calidad de los datos contenidos en los documentos y frente a la consistencia de los datos ingresados por el usuario, la dificultad de estructurar la información que se obtuvo a través del reconocimiento de entidades tuvo muchos problemas para ser comparada con lo que se aloja en la base de datos. Sin embargo, este ejercicio se logró un primer insumo para lograr esta tarea y permitió vislumbrar varias consideraciones que aún no se tenían en cuenta en el equipo.

Departamento

BOGOTÁ, D.C.

Municipio

BOGOTÁ, D.C.

Autor

Entidad pública

Entidades

AGENCIA NACIONAL DE CONTRATACIÓN PÚBLICA -COLOMBIA COMPRA EFICIENTE-

Nombre del autor

Grupo interno de trabajo en Analitica, Estrategia y Ciencia de Datos de la Subdirección de Estudios de Mercado y Abastecimiento Estratégico de la Agencia Nacional de Contratación Publica - Colombia Compra Eficiente

Sector

Planeación

Tipo de producto

Proyecto Big Data

Detalles Big Data

Url Codigo de fuente

Repositorio Github - EXTRACCIÓN DE INFORMACIÓN EN DOCUMENTOS DE PROCESOS DE CON…

Enlace del producto

Repositorio Github - EXTRACCIÓN DE INFORMACIÓN EN DOCUMENTOS DE PROCESOS DE CON…

Otros Datos Usados

Licencia

GNU General Public License (GPL) 3.0

Datos Abiertos

SECOP I