Historia de la regresión: de la regla de tres al machine learning

Cuando hoy escuchamos palabras como machine learning o inteligencia artificial, es fácil imaginar algoritmos sofisticados trabajando sobre enormes bases de datos. Sin embargo, la idea fundamental detrás de muchos de estos modelos es mucho más antigua. En el fondo, todos intentan responder una pregunta sencilla: si una variable cambia, cómo cambia otra.

Responder a esa pregunta con números ha sido una preocupación constante durante siglos. Mucho antes de que existiera la estadística formal, científicos, comerciantes y astrónomos ya intentaban encontrar patrones que permitieran anticipar resultados.

La regresión moderna es el resultado de ese largo esfuerzo intelectual. Su historia no es una ruptura tecnológica reciente, sino una evolución gradual de ideas que comienzan con cálculos muy simples y terminan en los algoritmos de aprendizaje automático actuales.

1. Cuando predecir era hacer cuentas

Durante siglos, la forma más habitual de resolver problemas prácticos fue la regla de tres. Comerciantes, navegantes y artesanos la utilizaban para calcular proporciones: si cierta cantidad produce un resultado, otra cantidad proporcional producirá otro resultado proporcional. Este método se enseñaba en tratados de aritmética del Renacimiento como los de Luca Pacioli.

Aunque hoy pueda parecer un simple ejercicio escolar, la regla de tres encierra una idea fundamental: las variables pueden estar relacionadas de forma sistemática. Asume que existe una relación proporcional entre dos magnitudes y permite extrapolar resultados a partir de esa relación.

El problema es que el mundo real rara vez se comporta de forma perfectamente proporcional. Las mediciones contienen errores, las relaciones no siempre son exactas y muchas variables influyen simultáneamente en los resultados. La historia de la regresión comienza precisamente cuando los científicos empiezan a enfrentarse a estas limitaciones.

2. El descubrimiento del error

A comienzos del siglo XIX, los astrónomos se enfrentaban a un desafío inesperado. Las observaciones de las órbitas planetarias no coincidían exactamente entre sí, porque cada medición contenía pequeñas imprecisiones. Determinar la trayectoria real de un planeta exigía encontrar una forma sistemática de reconciliar esas observaciones imperfectas.

Para resolver este problema, los matemáticos Adrien-Marie Legendre y Carl Friedrich Gauss desarrollaron el método de mínimos cuadrados. La idea consistía en elegir los parámetros que minimizan la suma de los errores al cuadrado entre las observaciones y las predicciones del modelo.

Este enfoque introdujo una transformación profunda en la forma de pensar la predicción. En lugar de buscar una relación exacta, los científicos empezaron a buscar la mejor aproximación posible en presencia de error, sentando así las bases matemáticas de la regresión.

3. Cuando la estadística descubrió la regresión

La palabra regresión apareció unas décadas más tarde en el trabajo del científico victoriano Francis Galton. Estudiando la herencia de la estatura, Galton observó que los hijos de padres extremadamente altos o bajos tendían a situarse más cerca de la media de la población.

Este fenómeno, al que llamó regresión hacia la media, llevó a Galton a ajustar una recta que describiera la relación entre la estatura de padres e hijos. Con el trabajo posterior de Karl Pearson, esta idea dio lugar a la regresión lineal moderna y al concepto de correlación estadística.

Por primera vez, los investigadores disponían de un método general para cuantificar la relación entre variables observadas. La regresión lineal no solo permitía describir datos, sino también realizar predicciones basadas en esas relaciones.

4. Un mundo con muchas causas

Con el desarrollo de la estadística en el siglo XX, se hizo evidente que la mayoría de fenómenos no dependen de una única variable. Factores económicos, biológicos o sociales suelen interactuar simultáneamente para producir los resultados observados.

La regresión se amplió entonces hacia la regresión lineal múltiple, que permite analizar el efecto de varias variables explicativas al mismo tiempo. Este tipo de modelos se convirtió en una herramienta central en disciplinas como la economía, la epidemiología o la sociología.

Investigadores como Trygve Haavelmo desarrollaron marcos probabilísticos que permitieron interpretar estos modelos de forma rigurosa, consolidando la regresión como uno de los pilares del análisis cuantitativo moderno.

5. Cuando la recta dejó de ser suficiente

Con el tiempo también se hizo evidente que muchas relaciones entre variables no siguen una línea recta. Algunos fenómenos crecen rápidamente al principio y luego se estabilizan, mientras que otros siguen trayectorias exponenciales o logísticas.

Ya en el siglo XIX, el matemático Pierre François Verhulst propuso una función logística para describir el crecimiento de poblaciones. Este tipo de modelos mostraba que las relaciones matemáticas podían adoptar formas mucho más complejas que una simple recta.

La estadística empezó entonces a incorporar modelos no lineales, capaces de representar curvas, saturaciones o probabilidades. La regresión se transformó gradualmente en una familia mucho más flexible de herramientas para describir fenómenos reales.

6. El problema de la complejidad

Con la llegada de los ordenadores y grandes bases de datos, los modelos estadísticos comenzaron a incluir un número cada vez mayor de variables. Sin embargo, pronto se descubrió que un modelo demasiado complejo puede ajustarse perfectamente al pasado y aun así fallar al predecir el futuro.

Para afrontar este problema surgieron técnicas de regularización, como Ridge Regression o Lasso, desarrolladas por investigadores como Arthur E. Hoerl, Robert W. Kennard y Robert Tibshirani.

Estas técnicas introducen penalizaciones que limitan la complejidad del modelo y ayudan a mejorar su capacidad de generalización. El objetivo ya no es únicamente explicar los datos disponibles, sino construir modelos capaces de anticipar correctamente datos futuros.

7. Cuando los modelos dejaron de parecer ecuaciones

A finales del siglo XX, el estadístico Leo Breiman introdujo una idea radical: en lugar de ajustar una única ecuación global, los modelos podían dividir el espacio de datos en regiones y aprender reglas locales para cada una de ellas.

Este enfoque dio lugar a los árboles de decisión, que posteriormente evolucionaron hacia métodos más sofisticados como Random Forest o Gradient Boosting. En estos modelos, la predicción surge de la combinación de muchas reglas simples aplicadas a diferentes partes del espacio de datos.

La regresión dejaba así de parecer una fórmula matemática clásica y empezaba a adoptar formas más flexibles, adaptadas directamente a la estructura de los datos.

8. El regreso de la función

Las redes neuronales modernas, impulsadas por investigadores como Geoffrey Hinton, representan el paso más reciente en esta evolución. Estos modelos pueden aprender relaciones extremadamente complejas entre variables gracias a grandes cantidades de datos y capacidad de cálculo.

Sin embargo, si observamos su funcionamiento con detenimiento, descubrimos que siguen resolviendo el mismo problema matemático que los modelos clásicos: encontrar una función que minimice el error entre predicciones y observaciones.

En cierto sentido, las redes neuronales no sustituyen a la regresión. Son simplemente una forma mucho más flexible de realizarla.

Para cerrar

Mirar la historia de la regresión produce una sensación curiosa. A primera vista parece que hemos pasado de una simple regla aritmética a sistemas de inteligencia artificial extraordinariamente complejos.

Pero en realidad la idea central apenas ha cambiado. Desde los comerciantes renacentistas hasta los investigadores actuales, todos han intentado responder la misma pregunta: cómo relacionar variables para anticipar el futuro.

Quizá por eso la historia de la regresión no es solo una historia de matemáticas. Es también una historia sobre nuestra forma de entender el mundo. Cada modelo que construimos es, en el fondo, una hipótesis sobre cómo funciona la realidad. Y cada nueva generación de modelos no elimina la anterior, sino que amplía el conjunto de herramientas con las que tratamos de domesticar la incertidumbre.

Deja un comentario