LA REVOLUCIÓN DE LA IA EN LA SALUD: MED-GEMINI Y EL DESCUBRIMIENTO GENÓMICO MULTIMODAL
La IA multimodal transforma el descubrimiento genómico
Publicado el 28 Oct 2025
Categoría: Tecnología
La Inteligencia Artificial (IA) ha dejado de ser una promesa futurista para convertirse en una herramienta clínica fundamental. Recientemente, los equipos de Google Research y Google DeepMind han presentado avances cruciales que abarcan desde el diagnóstico por imágenes hasta la genética personalizada.
Estos desarrollos giran en torno a la nueva familia de modelos Med-Gemini, que hereda las capacidades de razonamiento y comprensión multimodal de Gemini, pero está optimizada para tareas clínicas mediante el ajuste fino con datos especializados, incluyendo radiología 2D y 3D, histopatología, oftalmología, dermatología y genómica.
Med-Gemini-2D ha marcado un hito en la generación de informes de rayos X de tórax (CXR) asistida por IA. Este modelo fue ajustado para manejar la compleja tarea de generar las secciones de 'FINDINGS' (HALLAZGOS) y 'IMPRESSION' (IMPRESIÓN) de forma integral para radiografías frontales de tórax. En la evaluación de expertos, Med-Gemini-2D superó los resultados previos en dos conjuntos de datos distintos. Específicamente, entre el 57% y el 96% de los informes generados por IA en casos normales, y entre el 43% y el 65% en casos anormales, fueron calificados como "equivalentes o mejores" que los informes originales del radiólogo.
La innovación también se extiende a los datos tridimensionales: Med-Gemini-3D ha demostrado la primera generación de informes basada en un gran modelo multimodal (LMM) para volúmenes de tomografía computarizada (CT) en 3D, donde el 53% de los informes fueron considerados clínicamente aceptables.
Más allá de la radiología, Med-Gemini-2D también demostró un rendimiento superior o comparable en 18 de 20 tareas de clasificación de imágenes en histopatología, oftalmología y dermatología, lo que subraya su versatilidad multimodal.
Desvelando la Arquitectura Genética con Aprendizaje Profundo
La IA no solo está mejorando la interpretación visual, sino que está redefiniendo cómo entendemos los factores de riesgo genético a partir de datos clínicos complejos.
1. REGLE y M-REGLE: La Genómica de los Datos de Alta Dimensión (HDCD)
El marco REGLE (REpresentation learning for Genetic discovery on Low-dimensional Embeddings) utiliza el aprendizaje no supervisado mediante autocodificadores variacionales (VAE) para comprimir Datos Clínicos de Alta Dimensión (HDCD), como espirogramas (curvas de función pulmonar) y fotopletismogramas (PPG, curvas de volumen sanguíneo), en representaciones de baja dimensión, que a su vez son altamente heredables y disentangled.
El poder de este enfoque reside en su capacidad para:
-
Mejorar la Predicción de Riesgo: Los Polygenic Risk Scores (PRS) derivados de los embeddings de REGLE (SPINCs y RSPINCs) mejoran el rendimiento predictivo para enfermedades respiratorias como el asma y la EPOC (enfermedad pulmonar obstructiva crónica) en comparación con las características tradicionales definidas por expertos (EDFs).
-
Análisis Multimodal: M-REGLE (Multimodal REGLE) es una extensión que aprende una representación conjunta de múltiples modalidades HDCD, como la combinación de ECG y PPG. M-REGLE identificó un 13.0% más de loci asociados a fenotipos cardiovasculares en el conjunto de datos de ECG derivación I + PPG, y superó significativamente la puntuación de riesgo genético unimodal en la predicción de la fibrilación auricular (Afib).
2. DeepNull y Spiro-CLF: Más Poder Predictivo y Uso de Datos Rechazados
-
DeepNull aborda un problema clave en los Estudios de Asociación de Genoma Completo (GWAS): la especificación errónea de modelos. Este marco utiliza redes neuronales profundas para modelar los efectos potencialmente complejos y no lineales de las covariables en los fenotipos, lo que mejora sustancialmente la predicción fenotípica y aumenta la potencia estadística en GWAS.
-
El marco Spiro-CLF (Spirogram-based Contrastive Learning Framework) demuestra que incluso los datos de espirometría considerados subóptimos o rechazados por los protocolos de control de calidad (QC) pueden ser clínicamente valiosos. Las representaciones Spiro-CLF derivadas de estos esfuerzos rechazados o subóptimos lograron un rendimiento predictivo comparable o incluso superior al uso de la medición máxima estándar para predecir la obstrucción del flujo de aire y la mortalidad por todas las causas.
La Integración Multimodal para la Salud Personalizada
El potencial de la IA se dirige hacia sistemas que integran múltiples tipos de información del paciente:
-
HeLM para Riesgo de Enfermedad Personalizado: El marco HeLM (Health Large Language Model for Multimodal Understanding) se desarrolló para anclar los LLMs en datos específicos del individuo. Al mapear modalidades no textuales (como datos tabulares y espirogramas) en el espacio de tokens del LLM, HeLM logró un AUROC de 0.75 para la predicción de asma al combinar ambas modalidades, una mejora notable sobre el 0.49 obtenido utilizando solo datos tabulares mediante ajuste soft-prompt.
-
DLS para Riesgo Cardiovascular (CVD) de Bajo Costo: El modelo DLS (Deep Learning PPG-based CVD risk score) predice el riesgo de eventos cardiovasculares adversos mayores (MACE) a diez años utilizando únicamente datos de fotopletismografía (PPG, capturable incluso con un smartphone), edad, sexo y tabaquismo, eliminando la necesidad de mediciones de laboratorio o exámenes físicos complejos (como la presión arterial y el IMC). DLS fue no inferior a la puntuación Office-based refit-WHO de referencia, lo que sugiere una solución de detección de CVD escalable y de bajo costo para entornos con recursos limitados.
-
Relojes de Envejecimiento Retinal: Finalmente, los modelos de aprendizaje profundo han demostrado ser capaces de predecir con precisión la edad cronológica o biológica de un individuo a partir de imágenes de fondo de ojo. Las discrepancias entre la edad predicha y la edad cronológica pueden servir para identificar la aparición acelerada de enfermedades relacionadas con el envejecimiento, lo que proporciona información sobre cómo los factores genéticos influyen en este proceso.
Estos avances representan un paso significativo hacia sistemas clínicos completos y multidisciplinarios que trabajan junto a los profesionales de la salud, aunque los investigadores enfatizan que el desarrollo y la evaluación rigurosa adicionales son necesarios en el dominio médico, que es crítico para la seguridad.
Finalmente, te invitamos a conocer nuestro curso "PROMPTING E IA PARA EL SECTOR SALUD . donde abordaremos como aprovechar la inteligencia artificial para optimizar los procesos, mejorar la atención médica y potenciar la toma de decisiones clínicas.
Bibliografía
-
Alipanahi, B., Hormozdiari, F., Behsaz, B., Cosentino, J., McCaw, Z. R., Schorsch, E., Sculley, D., Dorfman, E. H., Foster, P. J., Peng, L. H., Phene, S., Hammel, N., Carroll, A., Khawaja, A. P., & McLean, C. Y. (2021). Large-scale machine-learning-based phenotyping significantly improves genomic discovery for optic nerve head morphology. The American Journal of Human Genetics, 108(7), 1217–1230.
-
Belyaeva, A., Cosentino, J., Hormozdiari, F., Eswaran, K., Shetty, S., Corrado, G., Carroll, A., McLean, C. Y., & Furlotte, N. A. (2023). Multimodal LLMs for health grounded in individual-specific data.
-
Google Research. (n.d.). Advancing Multimodal Medical Capabilities of Gemini.
-
Google Research. (n.d.). Developing an aging clock using deep learning on retinal images.
-
Google Research. (n.d.). Harnessing hidden genetic information in clinical data with REGLE.
-
Hill, D., Torop, M., Masoomi, A., Castaldi, P. J., Silverman, E. K., Bodduluri, S., Bhatt, S. P., Yun, T., McLean, C. Y., Hormozdiari, F., Dy, J., Cho, M. H., & Hobbs.
-
B. D. (2023). Deep Learning Utilizing Suboptimal Spirometry Data to Improve Lung Function and Mortality Prediction in the UK Biobank. medRxiv.
-
McCaw, Z. R., Colthurst, T., Yun, T., Furlotte, N. A., Carroll, A., Alipanahi, B., McLean, C. Y., & Hormozdiari, F. (2021). DeepNull: Modeling non-linear covariate effects improves phenotype prediction and association power. bioRxiv.
-
Yun, T., Cosentino, J., Behsaz, B., McCaw, Z. R., Hill, D., Luben, R., Lai, D., Bates, J., Yang, H., Schwantes-An, T-H., Zhou, Y., Khawaja, A. P., Carroll, A., Hobbs, B. D., Cho, M. H., McLean, C. Y., & Hormozdiari, F. (2023). Unsupervised representation learning improves genomic discovery and risk prediction for respiratory and circulatory functions and diseases. medRxiv.