Titulo + fecha de publicación
Sistema de Monitoreo y Detección de Anomalías en Transacciones Inmobiliarias de Colombia (2015–2023)
Fecha de publicación: 28/11/2025
Sistema diseñado para integrar, depurar y analizar más de 34 millones de transacciones inmobiliarias registradas en Colombia entre 2015 y 2023, con el fin de detectar anomalías, riesgos operativos, inconsistencias territoriales y posibles patrones de fraude. A través de una arquitectura escalable en Databricks, el proyecto aplica reglas jurídicas, validaciones de calidad y modelos analíticos para fortalecer la transparencia y la supervisión de la dinámica inmobiliaria del país.
Este proyecto fue desarrollado en el marco del Concurso Datos al Ecosistema 2025.
Departamento
ANTIOQUIA
Municipio
MEDELLÍN
Autor
Otro
Nombre del autor
William Pabon, Mariana Jaramillo, Kevin Vargas, Nilson de la Ossa
Sector
Tipo de producto
Detalles Big Data
Otras fuentes de información
Directorio ORIP, Códigos municipales DIVIPOLA
Url Codigo de fuente
Documentación
Algoritmos
- Isolation Forest
- Estadística descriptiva e inferencial
- Estadística descriptiva e inferencial
Resultados de aprendizaje en ética de los datos
El equipo fortaleció su capacidad para implementar principios de transparencia, minimización, proporcionalidad y justicia algorítmica, asegurando que cada decisión técnica estuviera acompañada de criterios éticos claros.
El proyecto permitió entender que la analítica avanzada en contextos públicos no solo debe buscar precisión técnica, sino también equidad, transparencia y respeto por las personas y territorios. La ética de datos se consolidó como un componente central de las decisiones del diseño, el modelado y la interpretación de anomalías.
El proyecto permitió entender que la analítica avanzada en contextos públicos no solo debe buscar precisión técnica, sino también equidad, transparencia y respeto por las personas y territorios. La ética de datos se consolidó como un componente central de las decisiones del diseño, el modelado y la interpretación de anomalías.
Sesgos identificados
- Sesgo Jurídico y Administrativo
Diferentes actos jurídicos (compraventa, herencia, corrección, permuta, etc.) poseen comportamientos de valor naturalmente distintos.
Mitigación: Agrupación por acto jurídico para evitar comparaciones injustas entre tipologías heterogéneas.
- Sesgo Territorial
Comparar transacciones de municipios con realidades económicas distintas genera falsos positivos, especialmente en zonas rurales o de baja actividad económica.
Mitigación: Estratificación por municipio en el Z-Score Robusto y calibración contextual del Isolation Forest.
- Sesgo por Desigualdad de Densidad de Datos
Municipios con pocas transacciones producen distribuciones menos estables, lo que altera los umbrales estadísticos y afecta la detección.
Mitigación: Umbrales adaptativos y revisión de outliers con percentiles robustos en vez de desviaciones estándar simples.
- Sesgo por Calidad de Datos
Errores de captura (fechas incorrectas, valores en ceros, variables faltantes) pueden generar anomalías artificiales que no representan riesgo real.
Mitigación: Implementación de una capa completa de estandarización y reglas de calidad antes de la detección.
- Sesgo Temporal
Valores históricos no son comparables con los actuales debido a inflación, cambios normativos o transformaciones del mercado.
Mitigación: Análisis temporal contextualizado y revisión de tendencias por año para evitar interpretaciones sesgadas.
- Sesgo de Interpretación Humana
Las visualizaciones de anomalías pueden influir en la percepción de riesgo si no se interpretan con contexto territorial y jurídico.
Mitigación: Tableros explicativos y categorización en tres verticales (fraude, calidad, estructural) para evitar conclusiones apresuradas.
Diferentes actos jurídicos (compraventa, herencia, corrección, permuta, etc.) poseen comportamientos de valor naturalmente distintos.
Mitigación: Agrupación por acto jurídico para evitar comparaciones injustas entre tipologías heterogéneas.
- Sesgo Territorial
Comparar transacciones de municipios con realidades económicas distintas genera falsos positivos, especialmente en zonas rurales o de baja actividad económica.
Mitigación: Estratificación por municipio en el Z-Score Robusto y calibración contextual del Isolation Forest.
- Sesgo por Desigualdad de Densidad de Datos
Municipios con pocas transacciones producen distribuciones menos estables, lo que altera los umbrales estadísticos y afecta la detección.
Mitigación: Umbrales adaptativos y revisión de outliers con percentiles robustos en vez de desviaciones estándar simples.
- Sesgo por Calidad de Datos
Errores de captura (fechas incorrectas, valores en ceros, variables faltantes) pueden generar anomalías artificiales que no representan riesgo real.
Mitigación: Implementación de una capa completa de estandarización y reglas de calidad antes de la detección.
- Sesgo Temporal
Valores históricos no son comparables con los actuales debido a inflación, cambios normativos o transformaciones del mercado.
Mitigación: Análisis temporal contextualizado y revisión de tendencias por año para evitar interpretaciones sesgadas.
- Sesgo de Interpretación Humana
Las visualizaciones de anomalías pueden influir en la percepción de riesgo si no se interpretan con contexto territorial y jurídico.
Mitigación: Tableros explicativos y categorización en tres verticales (fraude, calidad, estructural) para evitar conclusiones apresuradas.
Metodología
Metodología: Arquitectura de Inteligencia Forense Inmobiliaria
El proyecto se estructura bajo un enfoque de Analítica Prescriptiva Híbrida, integrando técnicas de Machine Learning no supervisado con reglas de negocio forenses. El proceso se divide en cuatro fases estratégicas:
1. Ingeniería de Características y Enriquecimiento Contextual
- Transformación de datos crudos (31M de registros) en vectores de riesgo mediante normalización logarítmica y creación de variables sintéticas.
- Implementación de un Z-Score Robusto Estratificado, que contextualiza cada transacción comparándola exclusivamente contra su mercado local (Municipio) y su naturaleza jurídica (Acto), eliminando sesgos por territorialidad o tipología administrativa.
2. Detección de Anomalías: Enfoque Híbrido (Defensa en Profundidad)
- Capa Estadística (Reglas Duras): Aplicación de umbrales dinámicos (5 desviaciones estándar) sobre el Z-Score Robusto para identificar con precisión matemática delitos financieros flagrantes (Lavado de Activos por sobreprecio y Evasión Fiscal por subvaloración), así como errores de calidad de datos en actos administrativos.
- Capa de Inteligencia Artificial (Isolation Forest): Despliegue de un modelo no supervisado calibrado al Top 1% de rareza (Score $< -0.119$), especializado en detectar fraudes estructurales invisibles al análisis lineal (redes de testaferrato, fragmentación de predios y patrones de comportamiento atípico).
3. Taxonomía y Categorización de Hallazgos
- Consolidación de resultados en una matriz de riesgo unificada que clasifica cada alerta en tres verticales de acción: Riesgo Criminal (Lavado/Evasión), Hallazgos de Calidad (Errores operativos) y Alertas Estructurales (Patrones complejos).
4. Visualización Táctica (Data Storytelling)
- Desarrollo de un tablero de comando en Power BI enfocado en la accionabilidad, permitiendo a los tomadores de decisiones filtrar y priorizar casos críticos geográficamente y por tipología de fraude.
El proyecto se estructura bajo un enfoque de Analítica Prescriptiva Híbrida, integrando técnicas de Machine Learning no supervisado con reglas de negocio forenses. El proceso se divide en cuatro fases estratégicas:
1. Ingeniería de Características y Enriquecimiento Contextual
- Transformación de datos crudos (31M de registros) en vectores de riesgo mediante normalización logarítmica y creación de variables sintéticas.
- Implementación de un Z-Score Robusto Estratificado, que contextualiza cada transacción comparándola exclusivamente contra su mercado local (Municipio) y su naturaleza jurídica (Acto), eliminando sesgos por territorialidad o tipología administrativa.
2. Detección de Anomalías: Enfoque Híbrido (Defensa en Profundidad)
- Capa Estadística (Reglas Duras): Aplicación de umbrales dinámicos (5 desviaciones estándar) sobre el Z-Score Robusto para identificar con precisión matemática delitos financieros flagrantes (Lavado de Activos por sobreprecio y Evasión Fiscal por subvaloración), así como errores de calidad de datos en actos administrativos.
- Capa de Inteligencia Artificial (Isolation Forest): Despliegue de un modelo no supervisado calibrado al Top 1% de rareza (Score $< -0.119$), especializado en detectar fraudes estructurales invisibles al análisis lineal (redes de testaferrato, fragmentación de predios y patrones de comportamiento atípico).
3. Taxonomía y Categorización de Hallazgos
- Consolidación de resultados en una matriz de riesgo unificada que clasifica cada alerta en tres verticales de acción: Riesgo Criminal (Lavado/Evasión), Hallazgos de Calidad (Errores operativos) y Alertas Estructurales (Patrones complejos).
4. Visualización Táctica (Data Storytelling)
- Desarrollo de un tablero de comando en Power BI enfocado en la accionabilidad, permitiendo a los tomadores de decisiones filtrar y priorizar casos críticos geográficamente y por tipología de fraude.
Resultados de aprendizaje en ética de los algoritmos
Fortaleció nuestra comprensión sobre cómo diseñar algoritmos que no solo sean técnicamente precisos, sino también justos, transparentes y responsables dentro de un ecosistema público de datos. A lo largo del proyecto se adquirieron aprendizajes clave sobre el impacto social y territorial de los modelos automatizados y la importancia de garantizar equidad en la detección de anomalías inmobiliarias.
Aprendimos que un algoritmo sin contexto puede amplificar desigualdades territoriales. Esto llevó a la implementación del Z-Score Robusto Estratificado, que evita comparar municipios con realidades económicas distintas y reduce el riesgo de generar alertas injustas.
Isolation Forest puede detectar rarezas, pero entendimos que un “comportamiento raro” no siempre es un “comportamiento indebido”. Por ello incorporamos reglas jurídicas, umbrales estadísticos y validación humana, reconociendo que la IA debe apoyar la decisión, no reemplazarla.
El equipo aprendió a documentar cada paso del pipeline para garantizar que cualquier alerta generada sea trazable y explicable. Esto permite auditar el algoritmo y evitar cajas negras que comprometan la confianza institucional.
El proyecto permitió internalizar que la ética de algoritmos es tan importante como la técnica: un buen modelo no es solo el que detecta anomalías, sino el que lo hace sin discriminar, sin sesgos injustificados y con total transparencia.
Aprendimos que un algoritmo sin contexto puede amplificar desigualdades territoriales. Esto llevó a la implementación del Z-Score Robusto Estratificado, que evita comparar municipios con realidades económicas distintas y reduce el riesgo de generar alertas injustas.
Isolation Forest puede detectar rarezas, pero entendimos que un “comportamiento raro” no siempre es un “comportamiento indebido”. Por ello incorporamos reglas jurídicas, umbrales estadísticos y validación humana, reconociendo que la IA debe apoyar la decisión, no reemplazarla.
El equipo aprendió a documentar cada paso del pipeline para garantizar que cualquier alerta generada sea trazable y explicable. Esto permite auditar el algoritmo y evitar cajas negras que comprometan la confianza institucional.
El proyecto permitió internalizar que la ética de algoritmos es tan importante como la técnica: un buen modelo no es solo el que detecta anomalías, sino el que lo hace sin discriminar, sin sesgos injustificados y con total transparencia.
Enlace del producto
Describa el impacto que genera el producto y/o servicio asociado a este uso de datos.
Fortalece significativamente la transparencia, la calidad del dato y la supervisión del mercado inmobiliario en Colombia. Permite identificar inconsistencias, riesgos operativos, errores de captura y posibles patrones de fraude que anteriormente requerían largos procesos manuales o permanecían invisibles.
Este proyecto habilita capacidades avanzadas para entidades públicas y territoriales, facilitando decisiones más informadas en planeación urbana, control registral, evaluación financiera y gestión del riesgo. Además, reduce tiempos y costos de auditoría, mejora la confiabilidad de la información y sienta las bases para un sistema nacional de análisis continuo sobre la dinámica inmobiliaria, aportando así al fortalecimiento del ecosistema de datos del país.
Este proyecto habilita capacidades avanzadas para entidades públicas y territoriales, facilitando decisiones más informadas en planeación urbana, control registral, evaluación financiera y gestión del riesgo. Además, reduce tiempos y costos de auditoría, mejora la confiabilidad de la información y sienta las bases para un sistema nacional de análisis continuo sobre la dinámica inmobiliaria, aportando así al fortalecimiento del ecosistema de datos del país.
Licencia
Datos Abiertos
Seleccione las categorías de impacto asociadas a su producto y/o servicio
Sociales
Económicas
Descripción de las categorias seleccionadas
- Reducir fraudes y pérdidas patrimoniales
Detectar anomalías evita transacciones irregulares, suplantaciones, matrículas duplicadas o actos sin soporte, reduciendo pérdidas económicas para ciudadanos, entidades financieras y el Estado.
- Fortalecer la seguridad jurídica del mercado
Un mercado inmobiliario más confiable atrae más inversión privada y facilita operaciones de compra-venta, hipotecas y certificaciones.
- Protección del patrimonio de los ciudadanos
Evitar fraudes y detectar anomalías protege a familias, especialmente las más vulnerables, de perder su vivienda o enfrentar litigios por errores registrales.
- Transparencia y confianza pública
Un sistema que detecta irregularidades fortalece la relación entre ciudadanía e instituciones como la SNR, el DANE y alcaldías.
Detectar anomalías evita transacciones irregulares, suplantaciones, matrículas duplicadas o actos sin soporte, reduciendo pérdidas económicas para ciudadanos, entidades financieras y el Estado.
- Fortalecer la seguridad jurídica del mercado
Un mercado inmobiliario más confiable atrae más inversión privada y facilita operaciones de compra-venta, hipotecas y certificaciones.
- Protección del patrimonio de los ciudadanos
Evitar fraudes y detectar anomalías protege a familias, especialmente las más vulnerables, de perder su vivienda o enfrentar litigios por errores registrales.
- Transparencia y confianza pública
Un sistema que detecta irregularidades fortalece la relación entre ciudadanía e instituciones como la SNR, el DANE y alcaldías.