A medida que el uso de la inteligencia artificial generativa se expande a todas las áreas de la educación, gran parte de la preocupación sobre su impacto en las trampas se ha centrado en los ensayos, las preguntas de los exámenes de ensayo y otras tareas narrativas. El uso de herramientas de inteligencia artificial como ChatGPT para hacer trampa en exámenes de opción múltiple se ha ignorado en gran medida.
Un químico de la Universidad Estatal de Florida es la mitad de una asociación de investigación cuyo último trabajo está cambiando lo que sabemos sobre este tipo de trampa, y sus hallazgos revelan cómo el uso de ChatGPT para hacer trampa en exámenes de opción múltiple en química general puede detectarse mediante métodos específicos. estadística. Metodología El trabajo fue publicado. Revista de Educación Química.
“Si bien muchos académicos e investigadores intentan detectar trampas asistidas por IA en ensayos y respuestas abiertas, como la detección de IA de Turnitin, hasta donde sabemos, esta es la primera vez que alguien propone su uso en pruebas de opción múltiple”. dijo Ken Hanson, profesor asociado en el Departamento de Química y Bioquímica de la FSU. “Al evaluar las diferencias de rendimiento entre las pruebas de química de opción múltiple basadas en Student y ChatGPT, pudimos identificar instancias de ChatGPT en todas las pruebas con una tasa de falsos positivos de casi cero”.
La investigación es la última publicación de una colaboración de siete años entre Hanson y el ingeniero de aprendizaje automático Ben Sorenson.
Hanson y Sorenson, que se conocieron en tercer grado, asistieron a la Universidad Estatal St. Cloud en Minnesota para obtener sus títulos universitarios y se mantuvieron en contacto a medida que avanzaban en sus carreras. Como miembro de la facultad de FSU, Hanson se interesó en medir cuánto conocimiento retenían sus estudiantes de conferencias, cursos y trabajos de laboratorio.
“Fue una conversación que le comenté a Ben, quien es excelente en estadística, informática y procesamiento de datos”, dijo Hanson, quien forma parte de un grupo de profesores de FSU que trabajan para mejorar el éxito de los estudiantes en cursos STEM de entrada, como química general y colega. Álgebra “Dijo que podemos usar herramientas estadísticas para comprender si mis exámenes son buenos y, en 2017, comenzamos a analizar los exámenes”.
La clave de este modelo de Rasch es que la probabilidad de que un estudiante responda correctamente una pregunta del examen es función de dos factores: qué tan difícil es la pregunta y la capacidad del estudiante para responderla. En este caso, la capacidad de un alumno se refiere a cuánto conocimiento tiene y cuánto material necesita para responder las preguntas que tiene entre manos. Ver los resultados de una prueba de esta manera proporciona información valiosa, dijeron los investigadores.
“La colaboración entre Ken y yo, aunque remota, ha sido un proceso fluido y fluido”, afirmó Sorenson. “Nuestro trabajo es una excelente manera de proporcionar evidencia de respaldo cuando los académicos ya sospechan que se pueden estar haciendo trampas. Lo que no esperábamos era que fuera tan fácil detectar patrones de inteligencia artificial”.
Hanson obtuvo su doctorado en química de la Universidad del Sur de California en 2010 y completó un puesto postdoctoral en la Universidad de Carolina del Norte en Chapel Hill antes de unirse a la facultad de química de FSU en 2013. Su laboratorio, el Hanson Research Group, se centra en fotoquímica y fotofísica molecular. , o el estudio de la luz (fotones) y la interacción de la luz con las moléculas. Hanson, miembro de la Sociedad Química Estadounidense, ha publicado más de 100 artículos y posee más de una docena de patentes.
Los investigadores recopilaron comentarios de los estudiantes de FSU antes de cinco semestres de pruebas, ingresaron casi 1000 preguntas en ChatGPT y compararon los resultados. Los puntajes promedio y las estadísticas sin procesar no fueron suficientes para detectar un comportamiento similar al de ChatGPT porque había algunas preguntas que ChatGPT siempre respondía correctamente o siempre respondía incorrectamente, lo que resultaba en una puntuación general que no se podía distinguir de la de los estudiantes.
“Eso es lo que pasa con ChatGPT: puede crear contenido, pero no necesariamente crea el contenido correcto”, dijo Hanson. “Es simplemente un generador de respuestas. Intenta parecer que conoce la respuesta, y para las personas que no entienden el material, probablemente parezca una respuesta correcta”.
Utilizando la estadística de ajuste, los investigadores fijaron los parámetros de eficiencia y reajustaron los resultados, mostrando que el patrón de respuesta de ChatGPT era claramente diferente al de los estudiantes.
En los exámenes, los estudiantes de alto rendimiento a menudo respondieron correctamente las preguntas difíciles y fáciles, mientras que los estudiantes promedio respondieron correctamente pocas preguntas difíciles y la mayoría de las preguntas fáciles. Los estudiantes de bajo rendimiento normalmente sólo responden correctamente a preguntas sencillas. Pero en repetidos intentos de completar la prueba de ChatGPT, la herramienta de inteligencia artificial a veces da respuestas incorrectas a cada pregunta fácil y respuestas correctas a cada pregunta difícil. Hanson y Sorenson utilizaron estas diferencias de comportamiento para identificar el uso de ChatGPT con una precisión de casi el 100 por ciento.
La estrategia del dúo de utilizar una técnica conocida como modelado Rasch y estadísticas de ajuste se puede aplicar fácilmente a todos y cada uno de los chatbots de IA generativa, que mostrarán sus propios patrones únicos para ayudar a los educadores a identificar el uso de estos chatbots para completar pruebas de opción múltiple. . .