Si bien ChatGPT y otras inteligencias artificiales generativas pueden producir artículos científicos que parecen reales (especialmente para alguien ajeno al campo de la investigación), ¿cuál es la mejor manera de descubrir cuáles son falsos?

Ahmed Abdin Hamed, investigador visitante de la Universidad Binghamton de la Universidad Estatal de Nueva York, ha desarrollado un algoritmo de aprendizaje automático al que llama xFakeSci que puede detectar documentos falsos hasta el 94% de las veces, casi el doble de éxito que la minería de datos típica. técnicas.

“Mi principal investigación es la informática biomédica, pero como trabajo con publicaciones médicas, ensayos clínicos, recursos en línea y minería de redes sociales, siempre me preocupa que alguien esté promoviendo la verdad del conocimiento”, dijo Hamed J., parte de George. Ciencia de sistemas claros lewis m. Rocha es docente del Laboratorio de Sistemas Adaptativos Complejos e Inteligencia Computacional. “Los artículos biomédicos se vieron especialmente afectados durante la pandemia mundial porque algunas personas promovían estudios falsos”.

En un nuevo artículo publicado en la revista Informe científicoHamed y su colega Jindong Wu, profesor de la Universidad Tecnológica de Hefei en China, generaron 50 artículos falsos para cada uno de tres temas médicos populares (Alzheimer, cáncer y depresión) y los compararon con la misma cantidad de artículos reales sobre el tema.

Cuando Hamed le pidió a ChatGPT artículos generados por IA, Hamed dijo: “Traté de usar exactamente las mismas palabras clave que usé para extraer literatura de la base de datos PubMed (de los Institutos Nacionales de Salud), para que tuviéramos una base común para comparar. La intuición era que habría un patrón en el mundo falso versus el mundo real, pero no tenía idea de cuál era ese patrón”.

Después de experimentar un poco, programó xFakeSci para analizar dos características clave de cómo se escribieron los artículos. Uno es el número de bigramas, que son dos palabras que suelen aparecer juntas, como “cambio climático”, “ensayo clínico” o “literatura biomédica”. La segunda es cómo esos bigramas se relacionan con otras palabras e ideas del texto.

“Lo primero que sorprendió fue que la cantidad de bigramas en el mundo falso era muy baja, pero los bigramas en el mundo real eran mucho más ricos”, dijo Hamed. “Además, en el mundo falso, a pesar de tener muy pocos bigramas, estaban muy conectados con todo lo demás”.

Hamed y Wu teorizan que los estilos de escritura difieren porque los investigadores humanos no tienen los mismos objetivos que la IA impulsa al crear un artículo sobre un tema determinado.

“Dado que el conocimiento de ChatGPT aún es limitado, intenta convencerte usando las palabras más importantes”, dijo Hamed. “No es trabajo de un científico darte un argumento convincente. Un trabajo de investigación real informa honestamente lo que sucedió durante un experimento y los métodos que se utilizaron. ChatGPT trata de profundidad en un solo punto, mientras que la ciencia real trata de amplitud”.

Para desarrollar aún más xFakeSci, Hamed planea ampliar la gama de temas más allá de la medicina para incluir ingeniería, otras materias científicas y humanidades para ver si los patrones de sonido reveladores se mantienen en otros campos de estudio. También prevé que las IA se volverán cada vez más sofisticadas, por lo que será cada vez más difícil determinar qué es real y qué no.

“Siempre estaremos tratando de ponernos al día si no diseñamos algo integral”, dijo. “Tenemos mucho trabajo por delante para encontrar un patrón común o algoritmo universal que no dependa de qué versión de IA generativa se utilice”.

Porque aunque su algoritmo detectó el 94% de los artículos generados por IA, añadió, eso significa que aún se encuentran seis falsificaciones de cada 100: “Tenemos que ser humildes acerca de lo que hemos logrado. Hemos hecho algo muy importante, crear conciencia.”

Source link