Predecir nuevas maternidades mensuales: un proyecto de regresión lineal múltiple paso a paso

En predicción cuantitativa, el primer reto no suele ser elegir un algoritmo complicado, sino formular bien el problema. Antes de entrenar un modelo, hay que decidir qué queremos predecir, cómo vamos a medirlo y qué información puede ayudarnos a anticiparlo.

Con esa idea he preparado un nuevo proyecto en GitHub aplicado a un problema de gestión de personal hospitalario: la predicción mensual de nuevas bajas maternales equivalentes de trabajadoras de un hospital. La pregunta es concreta: ¿podemos estimar cuántas nuevas bajas maternales equivalentes se producirán cada mes entre las trabajadoras de un hospital usando datos agregados sobre plantilla, estabilidad contractual, estructura familiar aproximada y riesgo durante el embarazo?

El objetivo no es predecir decisiones individuales ni explicar la maternidad como fenómeno personal. El proyecto se centra en algo más práctico: construir una estimación mensual agregada que pueda ayudar a planificar sustituciones, prever carga organizativa y reducir parte de la incertidumbre en la gestión de personal.

Seguir leyendo «Predecir nuevas maternidades mensuales: un proyecto de regresión lineal múltiple paso a paso»

Proyecto de predicción de nuevas maternidades con regresión lineal múltiple

En este post comparto el README del proyecto “Predicción mensual de nuevas maternidades en una organización”, en el que se desarrolla un modelo de regresión lineal múltiple para estimar el volumen mensual esperado de nuevas bajas maternales equivalentes de trabajadoras.

Puedes acceder al repositorio completo aquí: [enlace a GitHub]

A continuación resumo el contenido del proyecto y explico el recorrido seguido: desde la construcción del dataset hasta la comparación del modelo contra reglas simples de predicción y su despliegue en una pequeña aplicación con Streamlit.

Este repositorio desarrolla un proyecto completo de predicción cuantitativa aplicada a la gestión de recursos humanos hospitalarios. El objetivo es construir, evaluar y desplegar un modelo capaz de estimar el volumen mensual esperado de nuevas maternidades equivalentes. No se trata de predecir decisiones individuales, sino de anticipar un fenómeno agregado que puede afectar a la planificación de sustituciones, la organización asistencial y la previsión presupuestaria.

La idea del proyecto no es presentar un sistema productivo cerrado, sino mostrar un recorrido reproducible: cómo se define una pregunta de predicción, cómo se construye una variable objetivo, cómo se preparan los datos, cómo se comparan modelos y cómo se evalúa si el resultado mejora reglas simples de predicción.

1. Empezar por una pregunta de predicción

Todo proyecto predictivo debería empezar con una pregunta concreta. En este caso, la pregunta es: ¿podemos anticipar el volumen mensual de nuevas bajas maternales equivalentes de trabajadoras en un hospital utilizando información agregada de plantilla, estabilidad contractual, estructura familiar aproximada y riesgo durante el embarazo?

La predicción se plantea a escala mensual porque esta frecuencia es especialmente útil para la planificación operativa. En gestión de personal, muchas decisiones relevantes se toman mes a mes: previsión de sustituciones, necesidades de cobertura, tensión organizativa y estimación de gasto.

La clave está en transformar una preocupación organizativa en una variable modelable. No basta con decir “queremos prever maternidades”. Primero hay que decidir qué significa exactamente esa previsión y cómo se medirá.

2. Definir bien la variable objetivo

La variable objetivo del proyecto es:

mat_eq_nuevas_mes

Esta variable representa las nuevas maternidades equivalentes mensuales. Se calcula dividiendo los días de nuevas maternidades generados dentro del mes entre los días naturales del mes.

La idea es sencilla. Una baja maternal que empieza el día 1 genera una carga equivalente mayor en ese mes que una baja que empieza el día 28. Por eso, un simple recuento de maternidades nuevas puede ser insuficiente. Dos meses con el mismo número de nuevas bajas pueden tener un impacto mensual muy diferente si las fechas de inicio no son las mismas.

Por ejemplo, si una baja maternal empieza el día 16 de un mes de 30 días, aporta 15 días dentro de ese mes. Su valor equivalente será:

15 / 30 = 0,5

Esta decisión muestra una de las ideas centrales del proyecto: antes de elegir un modelo, hay que definir bien la magnitud que queremos predecir.

3. Construir un dataset con variables que puedan aportar señal

El dataset trabaja con información mensual agregada. Entre las variables explicativas se incluyen la plantilla equivalente de mujeres de 25 a 40 años, el porcentaje de trabajadoras indefinidas, una proxy administrativa de estructura familiar y varios indicadores retardados de riesgo durante el embarazo.

La variable de riesgo durante el embarazo es especialmente interesante porque puede funcionar como una señal adelantada. Algunas situaciones de riesgo durante el embarazo terminan posteriormente en una baja maternal, por lo que tiene sentido probar si los valores de meses anteriores ayudan a anticipar nuevas maternidades equivalentes.

Por eso se incluyen variables como:

RE_ponderado_lag1
RE_ponderado_lag2
RE_ponderado_lag3

También se incorporan retardos de la propia variable objetivo, como mat_eq_lag1 y mat_eq_lag12, para capturar inercia reciente o posibles patrones anuales.

Los datos publicados son ficticios y se utilizan con finalidad educativa. Esto permite compartir el flujo completo del proyecto sin exponer información sensible ni datos administrativos reales.

4. Mirar los datos antes de modelar

El primer notebook del proyecto, 01_data_cleaning_eda.ipynb, está dedicado a la limpieza, transformación y análisis exploratorio de los datos.

En esta fase se revisan tipos de datos, valores nulos, formato de fechas, orden temporal y estadísticas descriptivas. También se visualiza la evolución de la variable objetivo y se compara con variables como ppef_mujeres_25_40 y RE_ponderado.

El objetivo de esta fase no es encontrar todavía “el mejor modelo”, sino comprobar si el problema tiene sentido desde el punto de vista de los datos. Es decir, si la variable objetivo presenta variabilidad suficiente, si las variables explicativas se comportan de forma coherente y si existen relaciones plausibles que justifiquen avanzar hacia una regresión lineal múltiple.

También se analizan correlaciones de Pearson y Spearman, así como la colinealidad entre predictores mediante matriz de correlación y VIF. Esto es importante porque, en una regresión lineal múltiple, no basta con que las variables estén relacionadas con la variable objetivo: también hay que vigilar que no sean excesivamente redundantes entre sí.

5. Construir modelos de regresión lineal múltiple

El segundo notebook, 02_modeling.ipynb, construye y compara modelos de regresión lineal múltiple. A diferencia de una regresión lineal simple, aquí no hay una única variable explicativa. El objetivo es combinar varias señales: plantilla, estabilidad contractual, estructura familiar aproximada, riesgo durante el embarazo, retardos temporales y estacionalidad mensual.

El notebook compara dos enfoques:

scikit-learn LinearRegression
statsmodels OLS

El primero es especialmente útil para predicción y despliegue. El segundo es más rico para interpretar coeficientes y revisar el modelo desde una perspectiva estadística.

Un punto importante es que no se prueban combinaciones de variables sin criterio. El proyecto genera combinaciones de forma controlada, limita el tamaño de los modelos y evita combinaciones redundantes, como incluir varios retardos muy parecidos del mismo indicador.

La evaluación se realiza con una división temporal train/test. Esto es importante porque se trabaja con una serie mensual: no tendría sentido mezclar meses aleatoriamente. En un contexto real, el modelo se entrena con el pasado y se utiliza para anticipar meses futuros.

6. Comparar el modelo contra baselines

El tercer notebook, 03_baselines_and_model_comparison.ipynb, responde a una pregunta fundamental:

¿El modelo de regresión lineal múltiple mejora realmente reglas simples de predicción?

Esta parte me parece especialmente importante. Un modelo sólo tiene sentido si mejora alternativas sencillas, transparentes y fáciles de implementar. Por eso se compara el mejor modelo de regresión lineal múltiple contra varios baselines: media histórica global, media histórica por mes, último valor observado, mismo mes del año anterior y media móvil de tres meses.

La métrica principal es el MAE —Mean Absolute Error— porque se interpreta en las mismas unidades que la variable objetivo. Un MAE de 1,2 significa que el modelo se equivoca, de media, en unas 1,2 maternidades equivalentes mensuales.

La selección del modelo no depende sólo del menor error. También se tienen en cuenta la parsimonia, la interpretabilidad, la estabilidad, la colinealidad y la mejora frente a baselines.

Esta comparación ayuda a evitar una trampa habitual: confundir complejidad con utilidad. Si una regla simple predice igual o mejor que el modelo, quizá la regla simple sea suficiente. Si el modelo mejora claramente los baselines, entonces empieza a tener sentido como herramienta de apoyo.

7. Llevar el modelo a una aplicación interactiva

El proyecto también incluye una aplicación desarrollada con Streamlit, ubicada en:

app/app.py

La app permite cargar el dataset de modelado, visualizar la serie histórica, consultar métricas descriptivas, ver un gráfico de correlaciones, comparar el modelo contra baselines, introducir escenarios manuales y obtener una predicción mensual esperada.

La versión desplegable utiliza un pipeline basado en:

StandardScaler + LinearRegression

y permite simular escenarios introduciendo valores para:

ppef_mujeres_25_40
RE_ponderado_lag1
mes

Esta parte del proyecto es útil porque muestra cómo un modelo puede salir del notebook y convertirse en una pequeña herramienta de simulación. No es un sistema productivo completo, pero sí una forma clara de enseñar cómo una predicción puede transformarse en una interfaz interactiva.

8. Qué se aprende con este proyecto

El proyecto no busca eliminar la incertidumbre. Busca reducirla de forma medible. Un modelo se considera útil si mejora claramente los baselines simples, mantiene un error medio aceptable, utiliza pocas variables, produce resultados interpretables y puede integrarse en una herramienta de apoyo a la planificación.

También muestra algunas limitaciones importantes. Se trabaja con datos agregados mensuales, no se predicen decisiones individuales, algunas variables son proxies imperfectas y la relación entre riesgo durante el embarazo y maternidad puede cambiar con el tiempo. Por eso el modelo debería revisarse y reentrenarse periódicamente.

Entre las posibles mejoras futuras están la validación rolling-origin, la comparación con Ridge y Lasso, la construcción de intervalos de predicción, la mejora del indicador RE_ponderado y el modelado del arrastre de maternidades activas.

Reflexión final

Este proyecto muestra cómo una técnica sencilla e interpretable como la regresión lineal múltiple puede aplicarse a un problema realista de gestión hospitalaria. La predicción mensual de nuevas maternidades equivalentes no elimina la incertidumbre, pero ayuda a pensarla de forma más estructurada. Convierte información administrativa dispersa en una estimación útil para planificar, comparar escenarios y tomar mejores decisiones.

Lo más importante no es sólo el modelo final. Es el recorrido completo: definir bien la variable objetivo, construir el dataset, explorar relaciones, comparar modelos, medir el error y contrastar siempre el resultado contra baselines simples.

En predicción cuantitativa, el objetivo no es adivinar el futuro. Es reducir la incertidumbre con método. Y a veces, una regresión lineal múltiple bien formulada puede ser una primera herramienta suficiente para empezar a hacerlo.

La regresión lineal múltiple: cuando la realidad depende de varias causas

3D scatter plot with blue data points and a semi-transparent fitted regression plane

En muchos fenómenos reales, una sola variable no basta para explicar lo que ocurre. El precio de una vivienda no depende únicamente de sus metros cuadrados, sino también de su ubicación, su antigüedad o su estado de conservación. El rendimiento académico no se relaciona sólo con las horas de estudio, sino también con el descanso, el contexto familiar o la dificultad de la materia.

La pregunta que aparece entonces es una extensión natural de la que ya planteaba la regresión lineal simple: si una variable puede ayudarnos a predecir otra, ¿qué ocurre cuando intervienen varias al mismo tiempo?

Uno de los modelos más importantes para abordar esta situación es la regresión lineal múltiple. Su idea central sigue siendo sencilla, pero su alcance es mucho mayor: permite estimar cómo se relaciona una variable con varias explicaciones simultáneas y construir predicciones más ricas y realistas.

Seguir leyendo «La regresión lineal múltiple: cuando la realidad depende de varias causas»

AlphaFold: la inteligencia artificial que predijo la forma de la vida

La vida funciona gracias a moléculas diminutas que no vemos, pero que trabajan constantemente dentro de las células. Algunas transportan sustancias, otras aceleran reacciones químicas, otras envían señales y otras ayudan a construir tejidos. Entre todas ellas, las proteínas ocupan un lugar central.

Una proteína es una molécula formada por una cadena de piezas más pequeñas llamadas aminoácidos. Podemos imaginar los aminoácidos como las letras de un alfabeto químico. Al combinarse en distinto orden, forman cadenas diferentes. Pero en biología no basta con conocer la secuencia de esas “letras”. Lo decisivo es la forma que adopta la cadena cuando se pliega en el espacio.

Esa forma tridimensional determina qué puede hacer una proteína. Si encaja con otras moléculas, si participa en una reacción, si transporta una sustancia o si está relacionada con una enfermedad depende, en gran parte, de su estructura. Por eso, durante décadas, una de las grandes preguntas de la biología fue: si conocemos la secuencia de aminoácidos de una proteína, ¿podemos predecir su forma?

Seguir leyendo «AlphaFold: la inteligencia artificial que predijo la forma de la vida»

Ernst Bloch y la predicción: el “todavía-no” del futuro

Cuando pensamos en predicción, lo habitual es imaginar datos, modelos y probabilidades. Intentos de reducir la incertidumbre para tomar mejores decisiones. Pero hay una cuestión más profunda: ¿de dónde nace realmente esa necesidad de anticipar el futuro?

El filósofo Ernst Bloch ofrece una respuesta sugerente: el ser humano no vive solo en el presente, sino proyectado constantemente hacia lo que aún no existe. Antes de calcular escenarios, ya imaginamos posibilidades. Antes de construir modelos, ya vivimos orientados hacia el futuro.

Seguir leyendo «Ernst Bloch y la predicción: el “todavía-no” del futuro»

Pensar antes de predecir: una guía práctica con el AI canvas

Cuando se habla de inteligencia artificial, muchas veces se empieza por el modelo. Pero antes de elegir una técnica conviene hacerse una pregunta más importante: qué decisión queremos mejorar.

Para eso resulta útil el AI canvas, una herramienta explicada en el libro Máquinas predictivas. Su función es muy simple: ayudar a ordenar un caso de uso de IA antes de construirlo. En lugar de quedarse en una idea vaga como “aquí podríamos usar IA”, obliga a concretar qué queremos predecir, para qué serviría esa predicción, qué datos harían falta y cómo sabríamos si el sistema funciona bien.

Seguir leyendo «Pensar antes de predecir: una guía práctica con el AI canvas»

AlphaGo: ¿predicción… o pensamiento divino?

En 2016 ocurrió algo que, durante décadas, muchos expertos consideraban improbable: una máquina fue capaz de derrotar a uno de los mejores jugadores del mundo en un juego que simbolizaba la intuición humana.

El sistema era AlphaGo, desarrollado por DeepMind, y su oponente era el campeón surcoreano Lee Sedol.

A primera vista, podría parecer simplemente otro avance tecnológico. Pero lo que ocurrió en aquellas partidas fue algo más profundo: por primera vez, una máquina no solo competía con un humano en un terreno complejo, sino que lo hacía de una forma que desafiaba nuestra propia manera de pensar.

Seguir leyendo «AlphaGo: ¿predicción… o pensamiento divino?»

Tres predicciones para 2026 (revisión primer trimestre)

A comienzos de año planteé tres predicciones para 2026 siguiendo un enfoque explícitamente probabilístico: no tanto para acertar una cifra concreta, sino para dejar claro el razonamiento detrás de cada escenario. Como se prometió entonces, el objetivo no era solo predecir, sino también revisar.

Tras el cierre del primer trimestre, ya disponemos de nueva información relevante —tanto en el ámbito macroeconómico como en el mercado inmobiliario y en el contexto político— que justifica actualizar esas previsiones. En las siguientes secciones reviso cada una de las tres predicciones iniciales, ajustando la tasa base, los motores y los frenos para reflejar mejor el estado actual del mundo.

Seguir leyendo «Tres predicciones para 2026 (revisión primer trimestre)»

Variación del precio de compra de la vivienda en España en 2026

Tipo de evento: La inflación media anual (IPC) registrada en 2026 en España.

Predicción: un 62% de probabilidad que suba más de un 8%.

Evento

La variación anual media del precio de compra de la vivienda en España durante el año 2026.

El evento se considerará evaluado una vez disponibles los datos definitivos correspondientes a 2026 publicados por las fuentes estadísticas de referencia (INE, Ministerio de Vivienda u organismos equivalentes).

Tasa base

La previsión de enero partía de una tasa base operativa del 6,5%, coherente con un mercado ya tensionado pero todavía interpretable como una prolongación del régimen anterior.

La información del primer trimestre obliga a revisar esa referencia al alza, aunque sin llevarla a un escenario extremo. Por un lado, los precios siguen mostrando una aceleración muy intensa: El País recoge una subida interanual del 14,3% en el primer trimestre de 2026 y sitúa el euríbor de marzo en el 2,565%. Por otro, empiezan a aparecer señales de enfriamiento en la actividad: los notarios informaron de una caída del 11,4% en las compraventas de enero, hasta 49.685 operaciones.

La lectura conjunta sugiere un mercado todavía muy alcista en precios, pero con una demanda que empieza a mostrar más fricción. Con ese equilibrio, la nueva tasa base operativa para esta revisión pasa a ser el 8,0%.

Ajustes cualitativos

Motores

  • Escasez estructural de oferta, especialmente en áreas urbanas tensionadas: Sigue siendo el motor principal. La intensidad de las subidas observadas encaja mejor con un problema de oferta persistente que con un episodio coyuntural. Impacto estimado: 70 % – 85 %
  • Concentración de la demanda en determinadas zonas geográficas: La presión continúa muy focalizada en grandes ciudades, costa e islas, donde la oferta responde peor y la accesibilidad empeora más rápido. Impacto estimado: 65 % – 80 %
  • Percepción de la vivienda como activo relativamente seguro: La vivienda mantiene parte de su atractivo como refugio relativo en un entorno de alquileres altos, incertidumbre y escasez. Impacto estimado: 50 % – 65 %
  • Inercia de expectativas tras varios años de subidas intensas: Sigue actuando, pero con algo menos de fuerza. La caída de compraventas sugiere que el mercado puede estar acercándose más a una fase de menor aceleración que a una nueva espiral alcista. Impacto estimado: 50 % – 65 %

Frenos

  • Coste de financiación y esfuerzo financiero de los hogares: Gana peso. El repunte del euríbor y la caída de compraventas e hipotecas apuntan a una demanda más sensible al coste del dinero. Impacto estimado: 40 % – 55 %
  • Límites de renta y ahorro disponibles para nuevos compradores: También se refuerza. El deterioro de la accesibilidad empieza a limitar con más claridad la capacidad de absorción del mercado. Impacto estimado: 45 % – 60 %
  • Incertidumbre regulatoria y fiscal con impacto desigual: Se mantiene sin grandes cambios. Su efecto sigue siendo heterogéneo y secundario frente a la dinámica general del mercado. Impacto estimado: 25 % – 40 %
  • Posible saturación de demanda en segmentos específicos: Gana importancia. La caída de actividad sugiere que algunos segmentos pueden estar empezando a frenarse antes que el precio medio. Impacto estimado: 30 % – 45 %

Predicción probabilística

Distribución subjetiva de probabilidad para la variación anual del precio de la vivienda en 2026:

Subida inferior al 6 % → 8 %
Subida entre 6 % y 8 % → 30 %
Subida entre 8 % y 10 % → 38 %
Subida superior al 10 % → 24 %

La probabilidad implícita de que la subida supere el 8 % se sitúa en el 62 %.

Metodología y reproducibilidad

El cálculo completo de probabilidades y escenarios está disponible en un archivo Excel adjunto, editable y reproducible, que recoge:

• Tasa base utilizada
• Ajustes cualitativos
• Combinación de escenarios
• Normalización de probabilidades

Revisión de la predicción

La actualización introduce un matiz relevante en la distribución. La fuerte subida de precios observada en el primer trimestre obliga a revisar al alza la previsión de enero, desplazando el escenario central hacia el rango 8%–10%.

Sin embargo, la caída de compraventas introduce una señal nueva: el mercado empieza a mostrar signos de enfriamiento en la actividad. Esto no revierte la tendencia alcista, pero sí reduce la probabilidad de los escenarios más extremos.

La lección es clara: en el mercado inmobiliario, los ajustes no son simultáneos. La actividad puede frenarse antes que los precios, lo que obliga a vigilar no solo cuánto sube la vivienda, sino también cuánta capacidad real queda para sostener ese crecimiento.

Aprobación de los Presupuestos Generales del Estado en España en 2026

Tipo de evento: Evento político binario (aprobación vs prórroga presupuestaria).

Predicción: 86% probabilidad de NO aprobación.

Evento

La aprobación de los Presupuestos Generales del Estado (PGE) correspondientes a 2026 antes de que finalice el año 2026.

El evento se considerará ocurrido si los PGE de 2026 son aprobados por las Cortes Generales y publicados oficialmente antes del 31 de diciembre de 2026. En caso contrario, se considerará que el resultado es una prórroga presupuestaria.

Tasa base

La previsión inicial partía de una tasa base operativa del 33%, coherente con un contexto de fragmentación parlamentaria en el que la aprobación de nuevos presupuestos suele ser difícil, pero no excepcional.

La información disponible tras el primer trimestre obliga a revisar esa referencia a la baja. La prórroga presupuestaria ya está activada de hecho en 2026, y el propio Gobierno ha asumido públicamente ese marco, mientras sigue sin existir una mayoría clara para aprobar unas nuevas cuentas.

En este contexto, la nueva tasa base operativa para esta revisión pasa a ser el 22%, reflejando una menor probabilidad estructural de aprobación.

Ajustes cualitativos

Motores

  • Coste político y reputacional de una prórroga presupuestaria: Pierde fuerza relativa. La repetición de prórrogas ha normalizado un escenario que antes podía percibirse como excepcional. Impacto estimado: 15 % – 30 %
  • Necesidad de estabilidad institucional y señalización externa: Sigue siendo un motor relevante, especialmente en relación con compromisos europeos y credibilidad institucional, pero insuficiente por sí solo. Impacto estimado: 20 % – 40 %
  • Capacidad de articular acuerdos parciales y concesiones específicas: Se debilita. La dificultad creciente para construir mayorías hace menos probable que acuerdos fragmentarios desemboquen en una aprobación completa. Impacto estimado: 20 % – 40 %

Frenos

  • Fragmentación del arco parlamentario y dependencia de múltiples apoyos:
    Se refuerza como principal obstáculo. La ausencia de mayorías claras sigue siendo el elemento estructural dominante. Impacto estimado: 60 % – 80 %
  • Incentivos estratégicos al bloqueo o a la negociación prolongada: También gana peso. El contexto actual favorece el retraso y el uso táctico de la negociación más que el cierre rápido de acuerdos. Impacto estimado: 60 % – 85 %
  • La prórroga como alternativa funcional que reduce la urgencia: Es el freno más determinante. Ya no es una posibilidad teórica, sino un mecanismo operativo plenamente activo. Impacto estimado: 70 % – 90 %

Predicción probabilística

Distribución subjetiva de probabilidad para la aprobación de los Presupuestos Generales del Estado en 2026:

Presupuestos aprobados → 14 %
Prórroga presupuestaria → 86 %

La probabilidad implícita de que se mantenga la prórroga presupuestaria se sitúa en el 86 %.

Metodología y reproducibilidad

El cálculo completo de probabilidades y escenarios está disponible en un archivo Excel adjunto, editable y reproducible, que documenta:

  • La tasa base estructural y la tasa base operativa
  • Los motores y frenos considerados
  • La combinación de escenarios políticos plausibles
  • La normalización final de probabilidades

Revisión de la predicción

La actualización introduce un cambio claro en la evaluación del escenario. La prórroga presupuestaria ya no es solo el resultado más probable, sino el marco efectivo en el que se está operando.

Esto desplaza la distribución hacia un escenario en el que la aprobación de nuevos presupuestos pasa a ser una opción minoritaria, aunque todavía posible si se produce un cambio relevante en la dinámica política.

La lección es clara: en política, la viabilidad institucional depende menos de la deseabilidad del resultado y más de la urgencia para alcanzarlo. Mientras la prórroga siga funcionando como solución operativa, la presión para cerrar un acuerdo completo seguirá siendo menor de lo que sugeriría una lectura puramente formal del sistema parlamentario.