Los detectores de textos generados por IA no funcionan y no deberían usarse en educación

El equipo de ArsTechnica ha publicado un artículo muy interesante y completo explicando cómo funcionan los detectores de textos generados por inteligencia artificial (IA), por qué tienen un margen de error tan grande y por qué no deberían utilizarse en el ámbito educativo, algo con lo que estamos totalmente de acuerdo desde Programamos.

Desde la popularización de ChatGPT y otros grandes modelos de lenguaje han ido naciendo soluciones que prometen ser capaces de detectar si un texto ha sido generado por un sistema de IA generativo. Y muchos docentes a título individual, así como instituciones académicas de forma corporativa, se han lanzado a utilizarlos para tratar de detectar de manera automática si su alumnado estaba haciendo trampas al apoyarse en alguna herramienta de IA generativa. Incluso hemos visto en redes sociales a docentes «compartiendo un truco infalible», consistente en copiar a ChatGPT un texto y preguntarle al sistema si lo había generado el propio ChatGPT.

El problema es que nada de esto funciona y, en consecuencia, muchos estudiantes están sufriendo graves perjuicios.

En Programamos hemos hecho pruebas con varios de estos detectores y los resultados han sido muy decepcionantes. Textos escritos por nuestro equipo eran marcados como generados por IA. Y al contrario, textos generados con ChatGPT modificados ligeramente no eran detectados como generados por IA. De hecho, desde la Universidad de Maryland se ha publicado recientemente un estudio que demuestra que los detectores existentes no son fiables en escenarios prácticos, con un rendimiento marginalmente superior a un clasificador aleatorio. Además, otro estudio de la Universidad de Stanford muestra que este tipo de detectores presentan sesgos que penalizan a personas que no hablan inglés de forma nativa, sancionando a quienes escriben con expresiones lingüísticas más limitadas.

En consecuencia, desde Programamos recomendamos no utilizar este tipo de detectores en el ámbito educativo. Y recomendamos también entender cómo funcionan los grandes modelos de lenguaje, para no caer en los mensajes de vendedores de crecepelo que, lamentablemente, en muchas ocasiones monopolizan el debate en redes y medios.

Esta charla de 30 minutos -que se desarrolló en el marco de un curso organizado por FAIaS para 200 docentes de la Comunidad de Madrid- puede ser una buena introducción al tema, para conocer las bases de su funcionamiento y algunas implicaciones para el mundo de la educación.

Para saber más:

Sobre el Autor: Jesús Moreno León

Tras más de una década como profesor de informática decidí explorar otros caminos del mundo de la educación. Así, durante unos años trabajé en un grupo de investigación para estudiar el desarrollo del pensamiento computacional, participé en grupos de expertos y comisiones de trabajo internacionales, gestioné proyectos a gran escala en el Ministerio de Educación, y contribuí en términos de estrategia y nuevos contenidos al desarrollo de los cuatro Campus 42 que gestiona Fundación Telefónica en España. Con una visión más global, he vuelto al aula y al laboratorio como profesor de la Universidad de Sevilla.

2 Comentarios

Los detectores de textos generados por IA no fu... 18 julio, 2023 en 10:49

[…] El equipo de ArsTechnica ha publicado un artículo muy interesante y completo explicando cómo funcionan los detectores de textos generados por inteligencia artificial (IA), por qué tienen un margen de error tan grande y por qué no deberían utilizarse en el ámbito educativo, algo con lo que estamos totalmente de acuerdo desde Programamos. […]
ChatGPT para evaluar el trabajo del alumnado: ¿seguro que es buena idea? – Programamos 8 diciembre, 2023 en 09:51

[…] discrimine en sus evaluaciones a determinados grupos de estudiantes en función de cómo escriban? Es probable, como así ocurre con los sistemas de IA de detección de plagio. De hecho, en la propia descripción de la herramienta OpenAI avisa de que ChatGPT puede exhibir […]

No se permiten comentarios.