En este nuevo episodio del podcast Café+Data, conversamos con Kelly Núñez, Ronald Velasque y Luis Guillermo Moreno, autores de la investigación:
📊 “Proyecciones de Incidencia de Cáncer en Chile mediante Modelos de Machine Learning para el período 2020-2024.”
Acá podés ver el episodio completo del podcast.
¿De qué trata el estudio?
Este proyecto fue desarrollado como proyecto final del Magíster en Ciencia de Datos de la Pontificia Universidad Católica de Chile, y logró la máxima calificación. Su objetivo fue ambicioso: predecir cuántos nuevos casos de cáncer podrían diagnosticarse en Chile entre 2020 y 2024, usando modelos de machine learning como LightGBM, Random Forest, XGBoost y otros.
Los datos utilizados provienen de seis Registros Poblacionales de Cáncer (RPC), junto con información del Ministerio de Salud, el Instituto Nacional de Estadísticas y la Agencia Internacional de Investigación en Cáncer (IARC). A partir de estos datos, los investigadores construyeron una base que cubre más del 20% de la población chilena, suficiente para generar proyecciones representativas a nivel nacional.
¿Qué compartieron los invitados en el podcast?
Durante la conversación con Camilo Martínez Zambrana, anfitrión del podcast y director de proyectos en Red PandaLab, los autores compartieron:
✅ El proceso técnico detrás del modelo: limpieza de datos, imputación, selección de algoritmos y validación.
✅ Los retos metodológicos, como la falta de datos nacionales consolidados y la necesidad de imputar valores faltantes.
✅ Cómo la combinación de regresión de Poisson y regresión lineal superó en precisión a modelos más complejos de machine learning.
✅ El impacto de contar con estimaciones actualizadas en la planificación de recursos de salud, desde camas oncológicas hasta estrategias de prevención.
Además, los invitados hablaron de su trayectoria y cómo sus habilidades en ciencia de datos se aplican hoy en diferentes sectores.
¿Por qué es relevante esta investigación?
Chile no cuenta aún con un registro nacional de cáncer, lo que dificulta tomar decisiones informadas. Esta investigación llena un vacío crítico al proporcionar proyecciones basadas en evidencia, utilizando datos reales y técnicas avanzadas.
Los resultados no solo ofrecen una mirada a futuro sobre la incidencia del cáncer, sino que también sirven como modelo para otras investigaciones que buscan aplicar ciencia de datos en salud pública.
Algunas proyecciones clave para 2024:
- Se estima que Chile tendrá más de 41.000 nuevos casos de cáncer.
- Las regiones con mayor incidencia proyectada incluyen Los Ríos, Metropolitana y Maule.
Escucha el episodio
🎙️ Dale play al episodio completo aquí para conocer de primera mano cómo esta investigación puede cambiar la manera en que planificamos y respondemos al cáncer en Chile.
Sobre Café+Data
Café+Data es una iniciativa de Red PandaLab, donde compartimos experiencias, proyectos y aprendizajes del mundo de los datos. Además de nuestros podcasts, organizamos webinars, talleres y espacios de formación.
💡 Si te interesa aplicar los datos a problemas reales como este, suscríbete a nuestra comunidad o revisa nuestros próximos eventos.