Los modelos de aprendizaje profundo se utilizan en muchas áreas, desde el diagnóstico de atención médica hasta la previsión financiera. Sin embargo, estos modelos requieren un uso computacional tan intensivo que requieren el uso de potentes servidores basados en la nube.
Esta dependencia de la computación en la nube plantea importantes riesgos de seguridad, particularmente en áreas como la atención médica, donde las preocupaciones sobre la privacidad pueden hacer que los hospitales duden en utilizar herramientas de inteligencia artificial para analizar datos confidenciales de los pacientes.
Para abordar este problema apremiante, los investigadores del MIT desarrollaron un protocolo de seguridad que utiliza las propiedades cuánticas de la luz para garantizar que los datos enviados hacia y desde los servidores en la nube estén protegidos durante los cálculos de aprendizaje profundo.
Al codificar datos en la luz láser utilizada en los sistemas de comunicación de fibra óptica, el protocolo explota los principios fundamentales de la mecánica cuántica, haciendo imposible que los atacantes copien o intercepten información sin ser detectados.
Además, la técnica garantiza la seguridad sin comprometer la precisión de los modelos de aprendizaje profundo. En las pruebas, los investigadores han demostrado que su protocolo puede mantener una precisión del 96 por ciento y al mismo tiempo garantizar fuertes medidas de seguridad.
“Los modelos de aprendizaje profundo como GPT-4 tienen un poder sin precedentes, pero requieren amplios recursos computacionales. Nuestro protocolo permite a los usuarios explotar estos poderosos modelos sin comprometer la privacidad de sus datos o la naturaleza patentada de los modelos”, dijo Kfir Sulimany, investigador postdoctoral del MIT. Laboratory for Electronics (RLE) y es el autor principal de un artículo sobre este protocolo de seguridad.
El postdoctorado del MIT Sri Krishna Vadlamani contribuyó al artículo de Sulimani; Ryan Hammerley, ex postdoctorado que ahora trabaja en NTT Research, Inc.; Prahlad Iyengar, estudiante de posgrado en Ingeniería Eléctrica e Informática (EECS); y el autor principal Dirk Englund, profesor de EECS, el Grupo de Fotónica Cuántica e Inteligencia Artificial, e investigador principal de RLE. La investigación se presentó recientemente en la Conferencia Anual sobre Criptografía Cuántica.
Una vía de doble sentido para la seguridad en el aprendizaje profundo
El escenario de computación basada en la nube en el que se centraron los investigadores involucra dos partes: un cliente que contiene datos confidenciales, como imágenes médicas, y un servidor central que controla un modelo de aprendizaje profundo.
El cliente quiere utilizar un modelo de aprendizaje profundo para hacer una predicción, como por ejemplo si un paciente tiene cáncer, basándose en imágenes médicas, sin revelar información sobre el paciente.
En esta situación, se deben enviar datos sensibles para generar un pronóstico. Sin embargo, la información del paciente debe permanecer segura durante el proceso.
Además, el servidor no quiere revelar ninguna parte del modelo de propiedad que una empresa como OpenAI ha invertido años y millones de dólares en construir.
“Ambas partes tienen algo que quieren ocultar”, añadió Vadlamani.
En la informática digital, un mal actor puede copiar fácilmente los datos enviados desde el servidor o el cliente.
Por otra parte, la información cuántica no se puede copiar por completo. Los investigadores utilizan esta propiedad, conocida como principio de no clonación, en sus protocolos de seguridad.
Para el protocolo de los investigadores, el servidor codifica los pesos de la red neuronal profunda en un campo óptico utilizando luz láser.
Una red neuronal es un modelo de aprendizaje profundo que consta de capas de nodos o neuronas interconectadas que realizan cálculos sobre datos. Los pesos son componentes del modelo que realizan operaciones matemáticas en cada entrada, una capa a la vez. La salida de una capa se envía a la siguiente capa hasta que la capa final produce una predicción.
El servidor pasa los pesos de la red al cliente, quien aplica operaciones para obtener resultados basados en sus datos personales. Los datos están protegidos desde el servidor.
Al mismo tiempo, el protocolo de seguridad permite al cliente medir solo un resultado y evita que el cliente copie el peso debido a la naturaleza cuántica de la luz.
Una vez que el cliente envía el primer resultado a la siguiente capa, el protocolo está diseñado para descartar la primera capa para que el cliente no pueda aprender nada más sobre el modelo.
“En lugar de medir toda la luz entrante del servidor, el cliente mide solo la luz que es necesaria para ejecutar la red neuronal profunda y enviar el resultado a la siguiente capa. Luego, el cliente envía la luz restante al servidor para realizar pruebas de seguridad. “, explica Sulimani.
Debido al teorema de no clonación, el cliente inevitablemente aplica pequeños errores al modelo al medir sus resultados. Cuando el servidor recibe luz residual del cliente, el servidor puede medir estos errores para determinar si se ha filtrado alguna información. Es importante destacar que se ha demostrado que esta luz residual no expone los datos de los clientes.
Un protocolo práctico
Los equipos de telecomunicaciones modernos suelen depender de fibras ópticas para la transferencia de datos debido a la necesidad de soportar un amplio ancho de banda a largas distancias. Debido a que este equipo ya incorpora láseres ópticos, los investigadores pueden codificar datos sin ningún hardware especial para sus protocolos de seguridad.
Cuando probaron su enfoque, los investigadores descubrieron que podía garantizar la seguridad del servidor y del cliente y al mismo tiempo permitir que la red neuronal profunda alcanzara una precisión del 96 por ciento.
Menos del 10 por ciento de la información modelada filtrada durante las operaciones del cliente es lo que un adversario necesitaría para recuperar cualquier información confidencial. Trabajando en la otra dirección, un servidor malicioso puede obtener alrededor del 1 por ciento de la información necesaria para robar datos del cliente.
“Puede estar seguro de que es seguro en ambos sentidos: del cliente al servidor y del servidor al cliente”, afirma Sulimani.
“Hace unos años, cuando construimos nuestra demostración de inferencia de aprendizaje automático distribuido entre el campus principal del MIT y el Laboratorio Lincoln del MIT, se me ocurrió que éramos completamente nuevos en brindar seguridad de capa física basada en años de trabajo de criptografía cuántica. Podemos hacerlo. “Esto también se demostró en ese banco de pruebas”, dijo Englund. “Sin embargo, hubo que superar muchos desafíos teóricos profundos para ver si se podía hacer realidad esta posibilidad de aprendizaje automático distribuido con privacidad garantizada. Esto no fue posible hasta que Kfir se unió a nuestro equipo, como Kfir entendió de manera única experimentalmente. Unified es la base de este trabajo. como componente de la teoría.
En el futuro, los investigadores quieren estudiar cómo se puede aplicar este protocolo a una técnica llamada aprendizaje federado, donde varias partes utilizan sus datos para entrenar un modelo central de aprendizaje profundo. También podría usarse en operaciones cuánticas, en lugar de las operaciones clásicas que estudiaron para este trabajo, lo que podría ofrecer ventajas tanto en precisión como en seguridad.
Este trabajo fue apoyado en parte por el Consejo de Educación Superior de Israel y el Programa de Liderazgo Zuckerman Stem.