Predecir con IA la progresión de enfermedades en el tiempo
Delphi-2M, un modelo basado en GPTs entrenado para aprender la historia de las enfermedades humanas y anticipar su progresión.
En los últimos años hemos podido comprobar por nosotros mismos cómo los modelos basados en la arquitectura GPT (generative pretrained transformer) tienen una asombrosa capacidad para entender y generar lenguaje humano. Investigadores europeos (de hasta 4 países con financiación pública y privada) se han preguntado si se podría utilizar este tipo de arquitectura para analizar el historial médico de una persona y predecir el futuro de su salud. Y han construido el modelo Delphi-2M basándose en una “reliquia tecnológica” como GPT-2.
El modelo
Pero según explican, esto tiene su justificación, estudiaron los mejores hiperparámetros (como el número de capas y la dimensionalidad) y descubrieron que, para el conjunto de datos del entrenamiento (provenientes del UK Biobank), el rendimiento óptimo se alcanzaba con modelos de alrededor de 2 millones de parámetros. Es decir un modelo más grande no era necesariamente mejor para esta tarea. Además introdujeron modificaciones para adaptarlo a los datos de salud, como una codificación continua de la edad y una segunda salida predictiva además de la enfermedad añadiendo el factor temporal: cuándo.
Este planteamiento lo basaron en un par de ideas fuerza: La primera es que la toma de decisión médica también se basa en comprender el pasado de un paciente para predecir su futuro. Y la segunda que la mayoría de los algoritmos de predicción existentes se centran en una única enfermedad cuando estas suelen aparecer en grupos (comorbilidad) y su evolución depende de una interacción de factores en el tiempo.
Con esta base los investigadores buscaron crear un único modelo de IA capaz de predecir simultáneamente el riesgo de más de 1.000 enfermedades distintas, teniendo en cuenta el historial diagnóstico de una persona, su edad, sexo y ciertos hábitos de vida. Pero no se trataba sólo de predecir enfermedades sino que también se pudieran generar futuras y posibles trayectorias de salud.
La tecnología
Tecnológicamente los investigadores se basaron en que al igual que un modelo de lenguaje aprende la gramática y las relaciones entre palabras para predecir la siguiente en una frase, Delphi-2M podría aprender la "gramática" de las enfermedades para predecir el siguiente evento de salud en la vida de una persona.
No habría tokens-palabra, sino tokens-estados de salud. Es decir el modelo fue alimentado por los códigos de las principales enfermedades (CIE-10), el sexo, indicadores de estilo de vida (índice de masa corporal, tabaquismo, consumo de alcohol) y un token para la muerte. Estos eventos sucedían en un eje de tiempo continuo con lo que, lo que se codificaba era el momento del diagnóstico.
Con este esquema el modelo fue entrenado para predecir el evento más probable y el tiempo que pasaría hasta que sucediera. Delphi-2M fue entrenado con los datos de 400.000 participantes del UK Biobank, un enorme repositorio de datos de salud del Reino Unido. Para su validación se utilizó lógicamente otra cohorte distinta, en este caso 1.9 millones de personas del registro nacional de salud de Dinamarca.
Los resultados
Según los resultados presentados se ha conseguido una alta precisión predictiva en un amplio espectro de enfermedades comparable o superior a los modelos de riesgo clínico utilizados. Por ejemplo, predice la mortalidad con una precisión excepcional (AUC de 0.97). Además, sus predicciones son relevantes no solo a corto plazo, sino también para pronósticos de hasta 10 años en el futuro.
Respecto al otro objetivo de conseguir una simulación de la secuencia de posibles eventos de salud futuros de una persona a lo largo del tiempo, lo plantearon de la siguiente forma:
Al sistema se le facilita el "prompt", que en este caso es la historia clínica de una persona hasta una edad determinada (por ejemplo, 60 años). El modelo calcula las probabilidades de todos los eventos de salud futuros, y de forma iterativa selecciona el evento más probable que ocurrirá y estima el tiempo que pasará hasta que suceda. Este nuevo evento se añade a la historia de la persona, y el proceso se repite para construir una trayectoria de salud que puede extenderse durante 20 año.
Las simulaciones predijeron correctamente los cambios de enfermedad en diferentes subgrupos de población. Por ejemplo, el modelo simuló con acierto cómo el riesgo de ciertas enfermedades aumentaba en personas fumadoras, con un alto consumo de alcohol o con un índice de masa corporal (IMC) elevado, en comparación con grupos de bajo riesgo. Por supuesto estas trayectorias se basan en las condiciones previas del individuo y por lo tanto son personalizadas.
Aquí es importante destacar que las trayectorias generaban unos datos sintéticos de los pacientes, y los investigadores probaron a generarlas desde el nacimiento, con lo que crearon datos sintéticos realistas que replicaban patrones de incidencias de enfermedad de la población real. De hecho, entrenaron un nuevo modelo exclusivamente con datos sintéticos que alcanzó una precisión promedio (AUC 0.74) casi idéntica a la del modelo original entrenado con datos reales (AUC de 0.76).
¿Un primer paso?
Si un sistema así tuviera aplicación real en los sistemas de salud, cosa que este proyecto de investigación no hace, permitiría en primer lugar ayudar a identificar a personas con alto riesgo y no menos importante proyectar la carga de enfermedades futuras y planificar recursos.
Además tendríamos un sistema hasta cierto punto explicable ya que los investigadores pudieron preguntarle el por qué de ciertas predicciones, las cuales revelaban patrones de comorbilidad médicamente coherentes.
El estudio es coherente subrayando sus limitaciones: sesgos en los datos, el UK Biobank tiene un conocido "sesgo del voluntario sano" y no representa a la población. Y también advierten que las fuertes asociaciones temporales entre enfermedades no deben interpretarse como relaciones causales.
Quien sabe, quizá Delphi-2M es el primer paso hacia el uso de la IA generativa como herramienta para la investigación biomédica, la medicina preventiva y la planificación de los sistemas de salud del futuro.
Este artículo y un podcast
Esta investigación ha tenido una amplia repercusión en los medios generalistas locales e internacionales y especializados, y me ha parecido adecuado para crear este artículo monográfico.
También he creado con NotebookLM un podcast sobre el “paper” lo puedes encontrar en “Delphi-2M predice enfermedades y trayectorias de salud”.
Déjame en los comentarios, chat o en RRSS tu opinión sobre este tipo de publicaciones, si te gusta más o menos, si la ves útil o prefieres los artículos en los que analizo varias noticias. De igual forma dime si te gusta la idea de publicar podcast, prefieres otros que no hayan sido generados por IA o cualquier comentario que será bienvenido.




Realmente los dos tipos de publicaciones son útiles, este tipo donde comentas estudios densos y largos viene muy bien también, en este caso el tema me ha interesado mucho porque es importante en mi trabajo como médico. He hecho una lectura rápida de tu artículo, me ha interesado y ahora estoy escuchando el podcast (no soy muy de podcasts) y me ayuda en 6 minutos a situarme, me permite captar lo importante y a la vez escribirte. ;-) Saludos