¿Cómo saber si tus predicciones son buenas?

Esta entrada, como las anteriores, parte de una idea clave del libro Superforecasting: The Art and Science of Prediction de Philip Tetlock y Dan Gardner. Allí se insiste en que hacer predicciones no es solo cuestión de acertar o fallar, sino de aprender a evaluar la calidad de nuestros juicios para mejorarlos con el tiempo.

Y para mejorar, primero hay que medir.
¿Medir qué exactamente?
👉 La calidad de tus predicciones.

En este post te presento tres conceptos clave para evaluar predicciones, especialmente si te interesa convertirte en un autèntico superforecaster:

  • Calibración
  • Resolución
  • Métricas cuantitativas como el Brier Score o el MAPE
Seguir leyendo «¿Cómo saber si tus predicciones son buenas?»

Estimaciones de Fermi: cómo razonar cuando no tienes datos (y evitar el disparate)

A continuación se expondrá en detalle un método que se propone en el libro Superforecasting: The Art and Science of Prediction para descomponer un problema en partes más estimables.

Uno de los retos más frecuentes en análisis es enfrentarse a preguntas sin datos directos. En lugar de improvisar o bloquearse, hay una técnica sorprendentemente útil para avanzar con lógica: la estimación de Fermi.

Esta técnica, popularizada por el físico Enrico Fermi, se basa en dividir un problema complejo en partes más pequeñas y estimar cada una de ellas con números razonables. Pero más allá del cálculo, lo importante es el proceso: establecer límites exteriores (el resultado más amplio razonable) e interiores (el resultado más ajustado posible) del problema, y ser consciente del número que usamos como punto de partida, ya que este actuará como ancla para el resto de nuestras suposiciones.

Seguir leyendo «Estimaciones de Fermi: cómo razonar cuando no tienes datos (y evitar el disparate)»

Priors bayesianas (3/3): Distribuciones continuas para modelar creencias que fluyen

En las dos entradas anteriores presentamos el concepto de prior bayesiana y cómo construirla usando distribuciones discretas. Sin embargo, no todo en la vida se cuenta con números enteros. A veces, lo que queremos modelar fluye de forma continua: proporciones, medias, tiempos, tasas…
En este último capítulo de la serie, exploramos las distribuciones continuas más útiles para construir priors cuando las variables no se cuentan, sino que se miden.

¿Qué es una distribución continua?

Una distribución de probabilidad continua describe el comportamiento de una variable que puede tomar cualquier valor dentro de un intervalo, incluso infinitos valores posibles.

Por ejemplo: La proporción de pacientes que se recuperan de una enfermedad, el tiempo de espera en una consulta médica o el ingreso mensual medio de una familia.

Seguir leyendo «Priors bayesianas (3/3): Distribuciones continuas para modelar creencias que fluyen»

Priors bayesianas (2/3): Cómo usar distribuciones discretas para modelar nuestras creencias

En la primera entrega de esta serie vimos qué es una prior: una forma de expresar con números lo que creemos antes de observar datos. Hoy daremos un paso más y veremos cómo podemos construir esas priors utilizando distribuciones de probabilidad discretas cuando el análisis preliminar nos indica que el fenómeno que queremos predecir se comporta así.

Porque sí, hasta nuestras corazonadas pueden adoptar una forma matemática.

¿Qué es una distribución de probabilidad discreta?

Una distribución de probabilidad discreta es una herramienta matemática que asigna probabilidades a valores enteros concretos. Es útil para describir fenómenos contables como:

  • ¿Cuántas veces encestaré si lanzo 10 veces?
  • ¿Cuántos clientes vendrán hoy?
  • ¿Cuánto tardaré en tener un acierto?

Estas distribuciones no trabajan con valores continuos como 3,1416 o 7,82, sino con 0, 1, 2, 3…

Seguir leyendo «Priors bayesianas (2/3): Cómo usar distribuciones discretas para modelar nuestras creencias»

Priors bayesianas (1/3):¿Qué es una prior?

Imagina esto:
Estás buscando setas en un bosque. Nunca has estado allí, pero alguien te ha dicho que las mejores suelen crecer bajo robles. Aunque aún no has visto ninguna, ya sabes por dónde empezar a buscar. Eso que sabes antes de empezar a observar es tu conocimiento previo… o lo que en estadística bayesiana llamamos una distribución a priori, o simplemente: una prior.

¿Qué es una prior?

En el mundo de la inferencia bayesiana, una prior es nuestra forma de representar, con números, lo que creemos que puede pasar antes de ver los datos.

Es como una apuesta informada: antes de lanzar una moneda, quizás sospechas que está trucada porque el borde está desgastado. Eso afecta tu expectativa antes incluso de verla caer.

Cuando usamos el Teorema de Bayes, la prior se combina con los datos observados (a través de la verosimilitud) para actualizar nuestras creencias. El resultado es lo que llamamos la distribución posterior.

Seguir leyendo «Priors bayesianas (1/3):¿Qué es una prior?»

El arte de predecir con la cabeza fría: el decálogo del zorro bayesiano

¿Te gustaría saber qué nos depara el futuro para tomar mejores decisiones hoy? Hay una manera de acercarse a ello, pero no es la que imaginas.

Lo cierto es que no hay forma de estar completamente seguros de lo que va a ocurrir, porque el futuro es probabilístico. Esto significa que las predicciones siempre deben ir acompañadas de una probabilidad, incluso cuando esta se acerque al 100 %. Por ejemplo, técnicamente no podemos afirmar que hay un 100 % de posibilidades de que mañana salga el sol, ya que siempre podría ocurrir un cataclismo (una colisión planetaria, una implosión solar, etc.). Pero este tipo de eventos son tan extraordinariamente improbables que podemos decir que la probabilidad de que no salga el sol es del 0.000000000…1 % (pero no cero).

Por tanto, la manera de saber si algo va a suceder o no es la siguiente:

  1. Formular la hipótesis: Por ejemplo «El Real Madrid ganará el Mundial de Clubes 2025».
  2. Calcular la probabilidad de que esta hipótesis sea cierta.
  3. Comparar esa probabilidad con un umbral subjetivo a partir del cual consideramos algo como muy probable (por ejemplo, un 90 %). Si lo supera, no rechazamos la hipótesis y, por tanto, podremos decir que el Real Madrid ganará el Mundial de Clubes 2025.

El reto de este método es que nos exige calcular una probabilidad que depende de múltiples variables (el estado de los jugadores, la táctica, la suerte…) y que va cambiando con el tiempo hasta que finaliza el campeonato.

La estrategia que ha demostrado dar mejores resultados para abordar esta tarea es pensar como un zorro, entendida esta metáfora como tener un marco mental flexible y abierto a múltiples posibilidades. A eso se le suma el uso de la inferencia bayesiana, que nos permite actualizar nuestras creencias conforme vamos recibiendo nueva información. En definitiva, se trata de convertirse en un zorro bayesiano.

Seguir leyendo «El arte de predecir con la cabeza fría: el decálogo del zorro bayesiano»

Economías de Sudamérica: Proyecto de BI en Tableau

En esta entrada veremos un proyecto de Business Intelligence presentado recientemente en un bootcamp de Data Analytics que estoy cursando actualmente en Ironhack BCN. Para la elaboración de este proyecto, Sergio Irazusta (compañero del curso) y yo hemos utilizado:

  • Herramientas de ETL en lenguaje de programación de Python (Jupyter Notebook) y de bases de datos relacionales (Excel y Postgresql)
  • Tableau para la visualización interactiva de la información.
Seguir leyendo «Economías de Sudamérica: Proyecto de BI en Tableau»

Normativa de Protección de Datos III: Mecanismos de control

En esta entrada continuamos con nuestra disección de la normativa sobre protección de datos personales (PD) en el ámbito español. En la anterior entrada habíamos visto dos tipos de actores que se veían afectados por la normativa: los titulares de datos personales (a quienes se reconoce y protege derechos) y, por otro lado, los responsables y encargados de los tratamientos de estos datos (a quienes se obliga a respetar y garantizar estos derechos).

Ahora veremos un tercer tipo de actores (los mecanismos de control) que desarrollan la función de controlar que los responsables y encargados cumplan con la normativa y, en algunos casos, intermediar entre los interesados y los responsables de los tratamientos. Seguir leyendo «Normativa de Protección de Datos III: Mecanismos de control»

Normativa de Protección de Datos II: Derechos y Obligaciones

Proseguimos con nuestro análisis de la normativa sobre protección de datos personales en el ámbito de España. Ahora nos detendremos a analizar qué derechos se le reconocen a los titulares de los datos, quiénes son lo que intervienen en el tratamiento de estos datos y qué obligaciones tienen.

Derechos TARSOPOL

Seguir leyendo «Normativa de Protección de Datos II: Derechos y Obligaciones»

Normativa de Protección de Datos I: Objeto, ámbito de aplicación y principios de actuación

A la hora de desarrollar y mantener un sistema de Business Intelligence (BI) debemos tener presente la protección legal de los datos relativos a personas (clientes, proveedores, trabajadores, etc.) que se hallasen en él. Para proteger los datos personales de los ciudadanos en el actual entorno digital  se aprobaron, a nivel europeo primero y a nivel español después, normativas específicas. Como profesionales de BI es nuestro deber conocer como esta legislación afecta a nuestro trabajo. Por ello iniciamos con esta entrega una serie de posts en la cual trataremos de explicar de forma resumida las claves de la normativa sobre protección de datos en el ámbito del estado español.

¿Cuál es la normativa sobre protección de datos?

Seguir leyendo «Normativa de Protección de Datos I: Objeto, ámbito de aplicación y principios de actuación»