Imagine un modelo de inteligencia artificial (IA) que pueda ver y comprender imágenes en movimiento con la precisión de un cerebro humano. Ahora, los científicos de Scripps Research lo han hecho realidad creando MovieNet: una IA innovadora que procesa vídeos de forma similar a cómo nuestro cerebro interpreta escenas de la vida real a lo largo del tiempo.

Este modelo de IA inspirado en el cerebro, detallado en un estudio publicado Actas de la Academia Nacional de Ciencias El 19 de noviembre de 2024, podrá percibir escenas en movimiento simulando cómo las neuronas (o células cerebrales) dan sentido al mundo en tiempo real. La IA convencional es experta en reconocer imágenes estáticas, pero MovieNet introduce un enfoque para que los modelos de aprendizaje automático reconozcan escenas complejas y cambiantes, un gran avance que podría transformar campos que van desde el diagnóstico médico hasta la conducción autónoma, donde es fundamental tener en cuenta los cambios sutiles a lo largo del tiempo. . Movinate es más preciso y ambientalmente sostenible que la IA convencional.

“El cerebro no sólo ve cuadros fijos; crea una narrativa visual en movimiento”, dice Hollis Kline, Ph.D., directora del Centro de Neurociencia Doris y Profesora Hahn de Neurociencia en Scripps Research. “El reconocimiento de imágenes estáticas ha recorrido un largo camino, pero la capacidad del cerebro para procesar escenas en movimiento, como mirar una película, requiere formas más sofisticadas de reconocimiento de patrones. Al estudiar cómo las neuronas capturan estas secuencias, podemos aplicar principios similares a IA.”

Para crear MovieNet, Cline y el primer autor Masaki Hiramoto, científico de Scripps Research, examinaron cómo el cerebro procesa escenas del mundo real como secuencias cortas, como clips de películas. Específicamente, los investigadores estudiaron cómo responden las neuronas renacuajo a los estímulos visuales.

“Los renacuajos tienen un sistema visual muy bueno y, además, sabemos que pueden detectar y responder eficazmente a estímulos en movimiento”, explica Hiramoto.

Él y Kline identificaron neuronas que responden a características similares a las de una película, como cambios en el brillo y la rotación de la imagen, y reconocen objetos a medida que se mueven y cambian. Ubicadas en la región de procesamiento visual del cerebro conocida como techo óptico, estas neuronas combinan partes de una imagen en movimiento en una secuencia coherente.

Piense en este proceso como un rompecabezas lenticular: cada pieza puede no tener sentido por sí sola, pero juntas crean una imagen completa en movimiento. Diferentes neuronas procesan diferentes “piezas de rompecabezas” de imágenes en movimiento de la vida real, que luego el cerebro integra en una escena continua.

Los investigadores también descubrieron que las neuronas del techo óptico de los renacuajos distinguían cambios sutiles en los estímulos visuales a lo largo del tiempo, capturando información en clips dinámicos de aproximadamente 100 a 600 milisegundos en lugar de fotogramas estáticos. Estas neuronas son muy sensibles a los patrones de luz y sombra, y la respuesta de cada neurona a una parte específica del campo visual ayuda a crear un mapa detallado de una escena para formar un “clip de película”.

Cline e Hiramoto entrenaron a MovieNet para imitar este procesamiento similar al del cerebro y codificar videoclips como una serie de señales visuales breves y reconocibles. Esto permite que el modelo de IA distinga diferencias sutiles entre escenas dinámicas.

Para probar MovieNet, los investigadores le mostraron videoclips de renacuajos nadando en diferentes condiciones. MovieNet no sólo logró una precisión del 82,3 por ciento al distinguir entre el comportamiento de natación normal y anormal, sino que también superó la capacidad de observadores humanos entrenados en aproximadamente un 18 por ciento. Incluso superó a los modelos de IA existentes, como GoogLeNet de Google, que sólo logró una precisión del 72 por ciento a pesar de sus enormes recursos de capacitación y procesamiento.

“Ahí es donde vimos un potencial real”, señala Kline.

El equipo determinó que MovieNet no era mejor que los modelos de IA actuales para comprender escenas cambiantes, pero utilizaba menos datos y tiempo de procesamiento. La capacidad de MovieNet para simplificar datos sin sacrificar la precisión lo distingue de la IA convencional. Al dividir la información visual en secuencias esenciales, Movienet comprime eficazmente los datos en un archivo comprimido que conserva detalles importantes.

Más allá de su alta precisión, MovieNet es un modelo de IA ecológico. El procesamiento de IA convencional requiere mucha energía, lo que deja una gran huella ambiental. Los requisitos de datos reducidos de Movienet ofrecen una opción más ecológica que conserva energía y al mismo tiempo funciona con mayor calidad.

“Al simular el cerebro, hemos podido hacer que nuestra IA sea mucho menos exigente, allanando el camino para modelos que no sólo son robustos sino también duraderos”, dice Cline. “Esta eficiencia también abre la puerta al crecimiento de la IA en áreas donde los métodos convencionales son caros”.

Además, MovieNet tiene el potencial de remodelar la medicina. A medida que la tecnología mejore, podría convertirse en una herramienta valiosa para detectar cambios sutiles en condiciones tempranas, como detectar ritmos cardíacos irregulares o identificar los primeros signos de enfermedades neurodegenerativas como el Parkinson. Por ejemplo, los pequeños cambios motores asociados con el Parkinson que a menudo son difíciles de percibir para el ojo humano pueden detectarse tempranamente mediante IA, lo que brinda a los médicos un tiempo valioso para intervenir.

Además, la capacidad de Movinate para detectar cambios en los patrones de natación de los renacuajos cuando los renacuajos están expuestos a sustancias químicas podría conducir a técnicas de detección de drogas más precisas, ya que los científicos pueden estudiar las respuestas celulares dinámicas en lugar de depender de instantáneas estáticas.

“Los métodos actuales pasan por alto cambios críticos porque sólo pueden analizar imágenes capturadas a intervalos”, comentó Hiramoto. “El monitoreo de las células a lo largo del tiempo significa que Movinate puede rastrear los cambios más sutiles durante las pruebas de drogas”.

De cara al futuro, Cline e Hiramoto planean seguir perfeccionando la capacidad de Movienet para adaptarse a diferentes entornos, mejorando su versatilidad y aplicaciones potenciales.

“Inspirándose en la biología seguirá siendo un área fértil para el avance de la IA”, afirma Cline “Al diseñar modelos que parecen organismos vivos, podemos alcanzar niveles de eficiencia que simplemente no son posibles con los métodos convencionales”.

Este trabajo para estudiar”La detección de neuronas de codificación de películas permite la IA de reconocimiento de películas”, fue apoyado por fondos de los Institutos Nacionales de Salud (RO1EY011261, RO1EY027437 y RO1EY031597), Fundación de la Familia Hahn y Harold L. Fondo de Dotación del Centro de Neurociencias Dorris.

Source link