El aprendizaje automático es una herramienta poderosa en biología computacional que permite el análisis de una amplia gama de datos biomédicos, como secuencias genómicas e imágenes biológicas. Pero cuando los investigadores utilizan el aprendizaje automático en biología computacional, comprender el comportamiento del modelo es fundamental para descubrir los procesos biológicos subyacentes a la salud y la enfermedad.
En un artículo reciente El método de la naturalezaInvestigadores de la Facultad de Ciencias de la Computación de la Universidad Carnegie Mellon han propuesto pautas que describen los obstáculos y oportunidades para el uso de métodos interpretables de aprendizaje automático para abordar problemas en biología computacional. El artículo de perspectiva, “Aplicación del aprendizaje automático interpretable en biología computacional: dificultades, recomendaciones y oportunidades para nuevos desarrollos”, aparece en la edición especial de agosto de la revista AI.
“El aprendizaje automático explicable ha generado un entusiasmo significativo a medida que el aprendizaje automático y las herramientas de inteligencia artificial se aplican a problemas cada vez más importantes”, dijo Ameet Talwalkar, profesor asociado en el Departamento de Aprendizaje Automático (MLD) de CMU. “A medida que estos modelos crecen en complejidad, resulta muy prometedor no sólo construir modelos altamente predictivos sino también crear herramientas que ayuden a los usuarios finales a comprender cómo y por qué estos modelos hacen ciertas predicciones. Sin embargo, es crucial reconocer que el aprendizaje automático interpretable sí lo hace. Todavía no ofrecemos una solución llave en mano para este problema de interpretabilidad”.
El artículo es una colaboración entre Valerie Chen, estudiante de doctorado en MLD, y Muyu (Wendy) Yang en el Departamento de Biología Computacional de Ray y Stephanie Lane. El trabajo anterior de Chen, que critica la falta de fundamento en el uso posterior del aprendizaje automático interpretable, inspiró el artículo, y la idea se desarrolló a través de discusiones con Yang y Jian Ma, profesores de biología computacional Ray y Stephanie Lane.
“Nuestra colaboración comenzó con una inmersión profunda en artículos de biología computacional para estudiar la aplicación de métodos interpretables de aprendizaje automático”, dijo Yang. “Nos dimos cuenta de que muchas aplicaciones utilizaban estos métodos de una manera un tanto ad hoc. Nuestro objetivo con este artículo era proporcionar pautas para un uso más sólido y consistente de métodos interpretables de aprendizaje automático en biología computacional”.
Un problema importante que aborda el artículo es la dependencia de un único enfoque interpretable de aprendizaje automático. En cambio, los investigadores recomiendan utilizar múltiples métodos de aprendizaje automático interpretables con diferentes conjuntos de hiperparámetros y comparar sus resultados para obtener una comprensión más completa del comportamiento del modelo y sus explicaciones subyacentes.
“Si bien algunos modelos de aprendizaje automático parecen funcionar sorprendentemente bien, a menudo no entendemos completamente por qué”, afirmó Ma. “En un ámbito científico como la biomedicina, comprender por qué funcionan los modelos es importante para descubrir procesos biológicos fundamentales”.
El artículo también advierte contra la selección selectiva de resultados al evaluar métodos interpretables de aprendizaje automático, ya que esto puede conducir a interpretaciones incompletas o sesgadas de los hallazgos científicos.
Chen enfatizó que las directrices podrían tener amplias implicaciones para una amplia audiencia de investigadores interesados en aplicar métodos interpretables de aprendizaje automático a su trabajo.
“Esperamos que los investigadores de aprendizaje automático que desarrollan nuevos métodos y herramientas interpretables de aprendizaje automático, especialmente aquellos que trabajan para interpretar grandes modelos de lenguaje, consideren cuidadosamente los aspectos centrados en el ser humano del aprendizaje automático interpretable”, dijo Chen. “Esto incluye comprender quiénes son sus usuarios objetivo y cómo se utilizará y evaluará el enfoque”.
Si bien comprender el comportamiento del modelo es fundamental para el descubrimiento científico y los problemas de aprendizaje automático fundamentalmente sin resolver, los autores esperan que estos desafíos estimulen una mayor colaboración interdisciplinaria para facilitar un mayor uso de la IA para lograr un impacto científico.