MODELO DE PREDICCIÓN DE DECERSIÓN ESTUDIANTIL

Califique este contenido

Titulo + fecha de publicación

Fecha de publicación: 29/11/2024

La deserción estudiantil representa un desafío crítico tanto para las instituciones educativas como para los estudiantes. Este fenómeno impacta negativamente la estabilidad financiera y la reputación de las universidades, además de limitar las oportunidades académicas y profesionales de los estudiantes. Ante esta problemática, el proyecto se planteó desarrollar un modelo predictivo que identifique a los estudiantes con mayor riesgo de abandonar sus estudios. Esta herramienta busca facilitar la implementación de estrategias de intervención temprana para reducir la deserción y mejorar la experiencia educativa.

El objetivo principal del proyecto es construir un modelo predictivo eficiente que detecte estudiantes con alta probabilidad de deserción, proporcionando herramientas para diseñar intervenciones efectivas que mejoren la retención académica. Además, se plantearon objetivos específicos como analizar los datos disponibles para identificar las variables más influyentes, entrenar y evaluar un modelo con métricas clave como precisión y F1-score, y proponer estrategias de intervención basadas en los factores de riesgo identificados.

El desarrollo del proyecto se organizó en varias fases. En la fase de entendimiento del negocio, se identificaron los problemas relacionados con la deserción estudiantil y los objetivos del negocio, destacando la necesidad de reducir el abandono mediante intervenciones personalizadas. Se estableció como criterio de éxito lograr un F1-score superior al 80% y generar información útil para la toma de decisiones institucionales. Posteriormente, en la fase de preparación de los datos, se realizó un análisis exploratorio para identificar patrones, detectar valores faltantes y evaluar correlaciones entre las variables. Este proceso incluyó la codificación de variables categóricas, la normalización de datos y el uso de técnicas como Tomek Links para balancear las clases desbalanceadas.

En la fase de desarrollo del modelo predictivo, se seleccionó Random Forest como modelo base debido a su capacidad para manejar datos complejos y no lineales. Se ajustaron los hiperparámetros mediante técnicas como GridSearchCV y se evaluó el desempeño inicial del modelo utilizando métricas como precisión, recall y F1-score. Además, se realizó un análisis de importancia de características para identificar las variables más relevantes. Esto permitió optimizar el modelo y enfocarse en las variables que tienen un mayor impacto en la predicción del riesgo de deserción.

La fase de evaluación del modelo arrojó resultados clave. El modelo alcanzó un F1-score del 79%, quedando cerca de la meta establecida del 80%. Se logró identificar correctamente al 74% de los estudiantes desertores, mostrando un desempeño significativo en este aspecto. Sin embargo, se detectaron errores en la clasificación de estudiantes graduados y en curso, lo que evidenció la necesidad de optimizar aún más el preprocesamiento y ajustar las características. Las variables más influyentes identificadas incluyeron las asignaturas aprobadas en los primeros semestres, el desempeño académico en calificaciones y evaluaciones, así como la edad de ingreso y la situación financiera.

En la última fase, se definieron estrategias de mejora y se plantearon recomendaciones para el despliegue del modelo. Entre las estrategias propuestas se incluyen la revisión de los datos sintéticos creados durante el balanceo, la optimización de hiperparámetros y la integración del modelo en sistemas de gestión estudiantil para pruebas iniciales. Además, se recomendaron intervenciones como tutorías para asignaturas críticas, becas personalizadas y programas de nivelación para estudiantes con antecedentes académicos débiles. Aunque el modelo no alcanzó el F1-score esperado, se considera suficientemente robusto para ser implementado en pruebas iniciales, con un enfoque en la mejora continua. Este proyecto fue realizado en el marco del concurso Datos a la U 2024."

Departamento

CAUCA

Municipio

POPAYÁN

Autor

Academia

Nombre del autor

Katherin Alexandra Zuñiga Morales

Sector

Educación

Tipo de producto

Visualización

Detalles Big Data

Enlace del producto

https://github.com/lcaicedo07/Desercion-Estudiantil.git

Otros Datos Usados

Título

Predict Students' Dropout and Academic Success

Enlace

https://archive.ics.uci.edu/dataset/697/predict+students+dropout+and+academic+s…

Describa el impacto que genera el producto y/o servicio asociado a este uso de datos.

El modelo predictivo permite identificar a estudiantes en riesgo de deserción, facilitando intervenciones tempranas que mejoran la retención académica, optimizan recursos institucionales y contribuyen a la estabilidad financiera y reputación de las universidades.

Datos Abiertos

https://www.datos.gov.co/Educaci-n/Deserci-n-acad-mica-1-2019/m3i4-hky7/about_data

Seleccione las categorías de impacto asociadas a su producto y/o servicio

Sociales

Económicas

Descripción de las categorias seleccionadas

Sociales: El modelo contribuye a la mejora del bienestar estudiantil al identificar y apoyar a estudiantes en riesgo de deserción, fomentando su desarrollo académico y profesional, y reduciendo desigualdades educativas.
Económicas: Ayuda a las instituciones a optimizar sus recursos, aumentar la retención estudiantil y mejorar su estabilidad financiera al reducir la deserción.