Que seamos o no propensos a ciertas enfermedades depende en gran medida de innumerables variantes en nuestro genoma. Sin embargo, hasta ahora ha sido difícil determinar el efecto sobre la presentación de rasgos patológicos específicos, especialmente para variantes genéticas que ocurren raramente en la población. Investigadores del Centro Alemán de Investigación del Cáncer (DKFZ), el Laboratorio Europeo de Biología Molecular (EMBL) y la Universidad Técnica de Munich han introducido un algoritmo basado en el aprendizaje profundo que puede predecir los efectos de variantes genéticas raras. El método permite distinguir con mayor precisión a los individuos con alto riesgo de padecer la enfermedad y facilita la identificación de genes implicados en el desarrollo de la enfermedad.
El genoma de cada individuo se diferencia del genoma de sus semejantes en millones de bloques de construcción individuales. Estas diferencias en el genoma se conocen como variantes. Muchos de ellos están asociados con características biológicas y enfermedades específicas. Estas correlaciones se determinan normalmente mediante los llamados estudios de asociación de todo el genoma.
Pero los efectos de las variantes raras, que ocurren con una frecuencia de sólo el 0,1% o menos en la población, a menudo se ignoran estadísticamente en los estudios de asociación. “Las variantes particularmente raras a menudo tienen un efecto significativamente mayor sobre un rasgo biológico o la presentación de una enfermedad”, dijo Brian Clark, uno de los primeros autores del estudio actual. “Por lo tanto, pueden ayudar a identificar genes que desempeñan un papel en el desarrollo de una enfermedad y esto puede orientarnos hacia nuevos enfoques terapéuticos”, añade la coautora Eva Holtkamp.
Para estimar mejor los efectos de variantes raras, los equipos dirigidos por Oliver Stegle y Brian Clarke en DKFZ y Julien Gagneur en EMBL y la Universidad Técnica de Munich han desarrollado una herramienta de evaluación de riesgos basada en el aprendizaje automático. “IVA profundo” (res vdinero Aasociación testing), como denominaron los investigadores al método, es el primero en utilizar inteligencia artificial (IA) en estudios de asociación genómica para interpretar variantes genéticas raras.
El modelo se entrenó inicialmente con datos de secuencia (secuencias del exoma) de 161.000 individuos del Biobanco del Reino Unido. Además, los investigadores proporcionan información sobre los rasgos biológicos de los individuos influenciados genéticamente, así como sobre los genes implicados en los rasgos. Las secuencias utilizadas para el entrenamiento incluían alrededor de 13 millones de variantes. Para cada uno de ellos, se encuentran disponibles “anotaciones” detalladas que proporcionan información cuantitativa sobre el impacto potencial que la variante correspondiente puede tener en los procesos celulares o la estructura de las proteínas. Estas anotaciones también fueron un componente central de la capacitación.
Después del entrenamiento, DeepRVAT es capaz de predecir para cada individuo qué genes tienen su función alterada por variantes raras. Para ello, el algoritmo utiliza variantes individuales y sus anotaciones para calcular un valor numérico que describe cuán deteriorado está un gen y su impacto potencial en la salud.
Los investigadores validaron DipRVAT con datos del genoma del Biobanco del Reino Unido. Para 34 rasgos probados, como resultados de análisis de sangre relevantes para enfermedades, el método de prueba encontró 352 genes involucrados, superando todos los modelos existentes hasta ahora. Los resultados obtenidos con DeepRVAT han demostrado ser muy sólidos y mejor replicables con datos independientes que los resultados de métodos alternativos.
Otra aplicación importante de DeepRVAT es la evaluación de la predisposición genética a determinadas enfermedades. Los investigadores combinaron DipRVAT con una puntuación de riesgo poligénico basada en variantes genéticas más comunes. Esto mejoró significativamente la precisión de las predicciones, especialmente para las variantes de alto riesgo. Además, se demostró que DeepRVAT reconocía correlaciones genéticas para numerosas enfermedades, incluidas diversas enfermedades cardiovasculares, tipos de cáncer, enfermedades metabólicas y neurológicas, que no se encontraron en las pruebas existentes.
“DeepRVAT tiene el potencial de hacer avanzar significativamente la medicina personalizada. Nuestro método funciona independientemente del tipo de rasgo y puede combinarse de manera flexible con otros métodos de prueba”, afirma el físico y científico de datos Oliver Stegel. Su equipo ahora quiere seguir probando e implementando la herramienta de evaluación de riesgos en ensayos a gran escala lo antes posible. Los científicos ya se están poniendo en contacto, por ejemplo, con los organizadores de INFORM. El objetivo de este estudio es utilizar datos genómicos para identificar tratamientos personalizados para niños con cáncer. DeepRVAT puede ayudar a descubrir la base genética de algunos cánceres infantiles.
“Encuentro emocionante el impacto potencial de DeepRVAT en las aplicaciones de enfermedades raras. Un desafío importante en la investigación de enfermedades raras es la falta de datos sistemáticos a gran escala. Utilizando el poder de la IA y medio millón de exomas en el Biobanco del Reino Unido, hemos logrado objetivamente Hemos identificado qué variantes genéticas perjudican más significativamente la función genética”, afirma Julien Gagneur, de la Universidad Técnica de Munich.
El siguiente paso es integrar DeepRvat en la infraestructura del Archivo Alemán de Fenomas del Genoma Humano (GHGA) para facilitar las aplicaciones en diagnóstico e investigación básica. Otra ventaja de DeepRVAT es que el método requiere mucha menos potencia informática que modelos comparables. DeepRVAT está disponible como un paquete de software fácil de usar que puede usarse con modelos de evaluación de riesgos previamente entrenados o entrenados con conjuntos de datos propios de los investigadores para propósitos específicos.