La depresión es una de las enfermedades mentales más comunes. Alrededor de 280 millones de personas en todo el mundo padecen esta enfermedad, razón por la cual investigadores de la Universidad Tecnológica de Kaunas (KTU) han desarrollado un modelo de inteligencia artificial (IA) que ayuda a detectar la depresión basándose tanto en el habla como en la actividad neuronal del cerebro. Este enfoque multimodal, que combina dos fuentes de datos diferentes, permite un análisis más preciso y objetivo del estado mental de una persona, abriendo la puerta a una nueva fase en el diagnóstico de la depresión.
“La depresión es uno de los trastornos mentales más comunes, que tiene consecuencias devastadoras tanto para los individuos como para la sociedad, por lo que estamos desarrollando un nuevo método de diagnóstico más objetivo que pueda ser accesible para todos en el futuro”, afirmó Ritis Maskelianus, profesor de la KTU e Innovación Uno de los autores.
Los científicos sostienen que, si bien la mayoría de los estudios de diagnóstico de la depresión se han basado tradicionalmente en un solo tipo de datos, el nuevo enfoque multimodal puede proporcionar mejor información sobre el estado mental de una persona.
Impresionante precisión utilizando datos de voz y actividad cerebral
Esta combinación de datos del habla y de la actividad cerebral logró una impresionante precisión del 97,53 por ciento en el diagnóstico de la depresión, superando significativamente a los métodos alternativos. “Esto se debe a que la investigación de la voz añade datos que aún no podemos extraer del cerebro”, explica Maskeliunas.
Según el estudiante de doctorado de KTU, Musyab Yusufy, que contribuyó a la invención, la elección de los datos se consideró cuidadosamente: “Aunque se cree que las expresiones faciales pueden revelar más sobre el estado psicológico de una persona, esto se falsifica muy fácilmente. Nosotros elegimos. Voz porque puede transmitir sutilmente un estado emocional, afectando la velocidad, el tono y el poder general del habla”.
Además, a diferencia de la actividad eléctrica cerebral (EEG) o los datos de voz, el rostro puede detectar directamente el nivel de intensidad de una persona hasta un cierto nivel. “Pero no podemos violar la privacidad de los pacientes y, además, recopilar y agregar datos de diferentes fuentes es más prometedor para su uso posterior”, afirmó el profesor de la Facultad de Informática (IF) del KTU.
Maskeliunas enfatizó que el conjunto de datos de EEG utilizado se obtuvo del Conjunto de datos abiertos multimodales para el análisis de trastornos mentales (MODMA), ya que el grupo de investigación KTU representa el campo de la informática, no la ciencia médica.
Los datos de MODMA EEG se recopilaron y registraron durante cinco minutos mientras los participantes estaban despiertos, en reposo y con los ojos cerrados. En la parte de audio de la prueba, los pacientes participaron en una sesión de preguntas y respuestas y en varias actividades centradas en leer y describir imágenes para capturar su lenguaje natural y su estado cognitivo.
La IA necesita aprender a justificar los diagnósticos
Las señales de audio y EEG recopiladas se convirtieron en espectrogramas, lo que permitió visualizar los datos. Se utilizaron filtros de ruido especiales y métodos de preprocesamiento para eliminar el ruido y comparar los datos, y se utilizó un modelo de aprendizaje profundo DenseNet-121 modificado para detectar signos de depresión en las imágenes. La señal reflejada por cada imagen varía con el tiempo. El EEG muestra formas de onda de la actividad cerebral y el ruido muestra la distribución de frecuencia e intensidad.
El modelo incluía una capa de clasificación personalizada entrenada para categorizar los datos en individuos sanos o deprimidos. Se evaluó la clasificación exitosa y luego se evaluó la precisión de la aplicación.
En el futuro, este modelo de IA podría acelerar el diagnóstico de la depresión, incluso hacerlo remoto y reducir el riesgo de evaluación subjetiva. Esto requiere más ensayos clínicos y mejoras del programa. Sin embargo, añade Maskeliūnas, este último aspecto de la investigación puede plantear algunos desafíos.
“El principal problema de este estudio es la falta de datos porque las personas tienden a ser privadas acerca de su salud mental”, dice.
Otro aspecto importante mencionado por el profesor del Departamento de Ingeniería Multimedia de KTU es que es necesario mejorar el algoritmo de tal manera que no sólo sea preciso sino que también proporcione información al profesional médico sobre la causa de estos resultados de diagnóstico. “Los algoritmos todavía tienen que aprender a interpretar el diagnóstico de forma comprensible”, afirma Maskeliunas.
Según un profesor de KTU, debido a la creciente demanda de soluciones de inteligencia artificial que afectan directamente a las personas en áreas como la atención médica, las finanzas y el sistema legal, requisitos similares se están volviendo comunes.
Es por eso que la inteligencia artificial interpretable (XAI), cuyo objetivo es explicar al usuario por qué el modelo toma ciertas decisiones y aumentar su confianza en la IA, está ganando impulso.