Investigadores de la Universidad de Wisconsin-Madison advierten que las herramientas de inteligencia artificial que están ganando popularidad en los campos de la genética y la medicina pueden sacar conclusiones erróneas sobre los vínculos entre los genes y los rasgos físicos, incluidos los factores de riesgo de enfermedades como la diabetes.

Las predicciones erróneas están relacionadas con investigadores que utilizan la IA para ayudar en estudios de asociación de todo el genoma. Estos estudios exploran decenas de miles de variaciones genéticas en muchas personas para encontrar asociaciones entre genes y características físicas. De particular interés es la posible asociación entre la variación genética y ciertas enfermedades.

El vínculo entre la genética y la enfermedad no siempre es sencillo

La genética juega un papel en el desarrollo de muchas condiciones de salud. Aunque algunas mutaciones genéticas individuales aumentan directamente el riesgo de enfermedades como la fibrosis quística, la relación entre la genética y las características físicas suele ser más compleja.

Los estudios de asociación de todo el genoma han ayudado a abordar algunas de estas complejidades, a menudo utilizando grandes bases de datos de perfiles genéticos y rasgos de salud de los individuos, como el proyecto All of Us de los Institutos Nacionales de Salud y el Biobanco del Reino Unido. Sin embargo, a estas bases de datos a menudo les faltan datos sobre las condiciones de salud que los investigadores intentan estudiar.

“Algunos rasgos son demasiado caros o requieren mucha mano de obra para medirlos, por lo que no se tienen suficientes muestras para sacar conclusiones estadísticas significativas sobre su relación con la genética”, dijo Qiongshi Lu, profesor asociado de bioestadística en UW-Madison y director de medicina. informática y de todo el genoma. Experto en estudios de asociación.

Riesgos de cerrar la brecha de datos con IA

Los investigadores intentan cada vez más resolver este problema llenando los vacíos de datos con herramientas de inteligencia artificial más sofisticadas.

“En los últimos años se ha vuelto muy popular aprovechar los avances en el aprendizaje automático, por lo que ahora tenemos estos modelos avanzados de inteligencia artificial de aprendizaje automático que los investigadores utilizan para predecir rasgos complejos y riesgos de enfermedades, incluso con datos limitados”, dijo Lu.

Ahora, Lu y sus colegas han demostrado los peligros de confiar en estos modelos sin advertir también contra los sesgos que pueden introducir. El equipo describió el problema en un artículo publicado recientemente en la revista genética de la naturaleza. En él, Lu y sus colegas muestran que un tipo simple de algoritmo de aprendizaje automático empleado en estudios de asociación de todo el genoma puede vincular incorrectamente diferentes variantes genéticas con el riesgo de un individuo de desarrollar diabetes tipo 2.

“El problema es que si confías en el riesgo de diabetes predicho por el aprendizaje automático como el riesgo real, pensarás que todas las variantes genéticas en realidad están relacionadas con la diabetes cuando no lo están”, dice Lu.

Estos “falsos positivos” no se limitan a estas variantes específicas y al riesgo de diabetes, añadió Lu, sino que son un sesgo generalizado en la investigación asistida por IA.

Los nuevos métodos estadísticos pueden reducir los falsos positivos

Además de identificar el problema de la dependencia excesiva de las herramientas de IA, Lu y sus colegas proponen un enfoque estadístico que los investigadores pueden utilizar para garantizar la confiabilidad de sus estudios de asociación de todo el genoma asistidos por IA. El enfoque ayuda a eliminar el sesgo que los algoritmos de aprendizaje automático pueden introducir cuando hacen inferencias basadas en datos incompletos.

“Esta nueva técnica es estadísticamente superior”, dijo Lu, y agregó que el equipo la utilizó para identificar mejor las asociaciones genéticas con la densidad mineral ósea en los individuos.

La IA no es el único problema en algunos estudios de asociación de todo el genoma

Si bien el método estadístico propuesto por el grupo podría ayudar a mejorar la precisión de los estudios asistidos por IA, Lu y sus colegas también identificaron recientemente problemas en estudios similares que llenan los vacíos de datos con información proxy en lugar de algoritmos.

Otro artículo publicado recientemente apareció genética de la naturalezaLos investigadores han hecho sonar la alarma sobre los estudios que se basan demasiado en datos indirectos en un intento de establecer vínculos entre la genética y ciertas enfermedades.

Por ejemplo, las grandes bases de datos de salud como el Biobanco del Reino Unido tienen una gran cantidad de información genética sobre grandes poblaciones, pero no tienen muchos datos sobre la incidencia de enfermedades que tienden a nacer más tarde en la vida, como la mayoría de las enfermedades neurodegenerativas.

Para la enfermedad de Alzheimer específicamente, algunos investigadores han tratado de llenar ese vacío con datos indirectos recopilados a través de encuestas de historial de salud familiar, en las que las personas pueden informar el diagnóstico de Alzheimer de uno de sus padres.

El equipo de UW-Madison descubrió que estos estudios de datos indirectos pueden producir “asociaciones genéticas muy engañosas” entre el riesgo de Alzheimer y una mayor capacidad cognitiva.

“Hoy en día, los científicos genómicos trabajan habitualmente con conjuntos de datos de biobancos que contienen decenas de miles de individuos, pero a medida que aumenta el poder estadístico, también se expande el potencial de sesgo y error en estos conjuntos de datos masivos”, dice Lu. “Los estudios recientes de nuestro grupo brindan ejemplos humildes y resaltan la importancia del rigor estadístico en los estudios de investigación a escala de biobancos”.

Source link