Visualización que integra un grafo de relaciones educativas y una curva temporal para representar el modelo GNN–TimeSeries aplicado al Saber 11.
Califique este contenido
Sin votos (todavía)

Titulo + fecha de publicación

Modelo Espaciotemporal GNN–TimeSeries para la Predicción del Rendimiento Académico Saber 11 en Colombia (2015–2026)
Fecha de publicación: 28/11/2025

Modelo espaciotemporal unificado que integra Redes Neuronales de Grafos (GNN) y modelos modernos de series temporales multiserie para predecir el rendimiento académico del Saber 11 en Colombia entre 2023 y 2026 utilizando exclusivamente datos abiertos. El sistema combina la estructura relacional del ecosistema educativo (estudiantes, instituciones, características sociodemográficas y variables académicas) con patrones temporales históricos (2015–2022), generando predicciones probabilísticas sobre el puntaje global futuro. El proyecto utiliza el conjunto oficial “Resultados Únicos Saber 11 (2010–2022)” y desarrolla un modelo reproducible, transparente y técnicamente sólido que permite comprender la dinámica educativa nacional, mejorar el análisis del desempeño académico y apoyar la toma de decisiones basada en evidencia.

Departamento
BOLÍVAR
Municipio
MAGANGUÉ
Autor
Otro
Nombre del autor
John Prado
Sector
Tipo de producto
Detalles Big Data
Otras fuentes de información
https://github.com/johnky100/modelo-espaciotemporal-saber11
Algoritmos
Redes Neuronales de Grafos (GNN)
Modelos basados en message passing para capturar relaciones educativas estructurales.
Arquitectura principal: GraphSAGE
Permite aprender representaciones profundas de estudiantes e instituciones y predecir el puntaje global a partir de su estructura relacional.
b. Modelos modernos de series temporales multiserie
Se utilizan modelos con capacidad de capturar patrones globales y locales:
DeepState
DeepFactor
Estos modelos generan predicciones probabilísticas del puntaje Saber 11 entre 2023 y 2026, basados en tendencias de 2015–2022.
Resultados de aprendizaje en ética de los datos
Importancia de manejar datos sensibles (educativos) con estrictos criterios de confidencialidad, aun cuando provienen de datos abiertos.
Necesidad de evitar cualquier tipo de identificación personal directa o indirecta.
Aplicación de técnicas seguras de imputación sin introducir sesgos adicionales.
Uso responsable y transparente de datos oficiales, manteniendo trazabilidad completa del proceso.
Relevancia de documentar decisiones, supuestos y transformaciones para garantizar reproducibilidad.
Sesgos identificados
a. Sesgos por valores faltantes
Los patrones de ausencia no son completamente aleatorios. La imputación MICE permitió reducir este sesgo.

b. Sesgos por correlación geográfica o socioeconómica
Los puntajes varían entre regiones y estratos, lo cual puede influir en los modelos.

c. Sesgos por tamaño de cohortes
Departamentos o municipios con baja participación presentan mayor variabilidad.

d. Sesgos de modelamiento (GNN)
Los grafos pueden sobre-representar nodos muy conectados; se mitigó ajustando pesos y normalizaciones.

e. Sesgos temporales
Los últimos años tienen comportamientos atípicos (pandemia), que afectan la predicción.
Metodología
1. Adquisición y preprocesamiento
Extracción de datos del ICFES (Saber 11 2015–2022), estandarización de variables y eliminación de duplicados.

2. Imputación de valores faltantes (R, MICE)
Aplicación de PMM, POLR y LORED según el tipo de variable para garantizar bases completas y consistentes.

3. Construcción del grafo educativo
Creación de grafos anuales usando similitud del coseno y kNN, con normalización de atributos.

4. Entrenamiento de modelos GNN (GraphSAGE)
Predicción del puntaje global e identificación de patrones estructurales mediante métricas de R², MAE, RMSE y MedAE.

5. Modelamiento temporal (DeepState / DeepFactor)
Entrenamiento multiserie para proyectar tendencias educativas hacia 2023–2026.

6. Integración espaciotemporal
Combinación de embeddings estructurales y patrones temporales para generar predicciones más robustas.
Resultados de aprendizaje en ética de los algoritmos
El proyecto permitió comprender:
La importancia de evaluar modelos no solo por métricas técnicas, sino por su equidad y riesgo de impacto desigual.
La necesidad de evitar que modelos predictivos refuercen desigualdades educativas preexistentes.
La prioridad de interpretar los resultados con cautela, evitando conclusiones deterministas sobre estudiantes o instituciones.
La obligación ética de divulgar las limitaciones y supuestos del modelo.
El valor de proporcionar predicciones como insumos de análisis, no como clasificaciones definitivas que puedan generar discriminación.
Otros Datos Usados
Describa el impacto que genera el producto y/o servicio asociado a este uso de datos.
El modelo espaciotemporal desarrollado permite comprender y anticipar la evolución del rendimiento académico en Colombia utilizando únicamente datos abiertos del Saber 11. Su impacto se refleja en tres dimensiones principales. En primer lugar, facilita el análisis profundo de tendencias educativas mediante un enfoque que combina relaciones estructurales entre estudiantes e instituciones (GNN) con patrones temporales multiserie, permitiendo identificar factores asociados al desempeño académico a lo largo del tiempo. En segundo lugar, el sistema ofrece predicciones probabilísticas del puntaje Saber 11 para los años 2023 a 2026, lo que constituye una herramienta valiosa para la planeación educativa, priorización territorial, diseño de intervenciones y evaluación de políticas públicas basadas en evidencia. Finalmente, el proyecto promueve la transparencia y el aprovechamiento de datos abiertos al poner a disposición de la ciudadanía un repositorio reproducible, documentado y abierto, fortaleciendo el uso responsable de la información pública y fomentando la toma de decisiones informada en el sector educativo.
Seleccione las categorías de impacto asociadas a su producto y/o servicio
Sociales
Económicas
Otros
Descripción de las categorias seleccionadas
Impacto Social
El proyecto contribuye al análisis y comprensión del rendimiento académico en Colombia mediante el uso de datos abiertos y técnicas avanzadas de inteligencia artificial. Al identificar patrones estructurales y temporales en los puntajes Saber 11, permite visibilizar brechas territoriales, socioeconómicas e institucionales que influyen en los resultados educativos. Esto facilita la toma de decisiones basada en evidencia, promueve la equidad educativa y fortalece la participación ciudadana al poner a disposición un modelo transparente, reproducible y accesible para la comunidad.

Impacto Económico
Las predicciones generadas por el modelo permiten apoyar la planeación educativa en territorios y entidades, optimizando la asignación de recursos y la focalización de intervenciones. Al anticipar el comportamiento del puntaje Saber 11 en el mediano plazo, el sistema ofrece insumos que pueden ayudar a mejorar la eficiencia en políticas públicas, priorizar inversiones en infraestructura educativa y orientar programas de apoyo académico. Esto contribuye indirectamente a una gestión más eficiente del presupuesto público en educación.

Impacto en la Categoría “Otros” (Tecnológico y Científico)
El proyecto introduce un enfoque innovador al integrar Redes Neuronales de Grafos y modelos modernos de series temporales para el análisis y predicción del desempeño educativo. Esta combinación metodológica aporta al campo científico nuevas formas de estudiar sistemas educativos complejos, y fortalece el ecosistema de datos abiertos mediante la creación de un repositorio completo, documentado y reproducible. Su desarrollo impulsa capacidades tecnológicas, promueve el uso ético de IA y genera una herramienta que puede ser extendida o reutilizada por instituciones académicas, investigadores y desarrolladores.