Herramientas, Paper

DetectGPT, otra herramienta para detectar el texto generado con IA

By Sara Francisco

No cabe duda, que en estos inicios de año los modelos y estudios sobre la detección de textos generados con inteligencia artificial son la estrella. En este se discute el problema actual en la era de los modelos de lenguaje extenso (LLM), que son sistemas de inteligencia artificial capaces de escribir textos de manera autónoma. La preocupación es que con la creciente fluidez y conocimiento fáctico de estos modelos, es difícil para los evaluadores determinar si un texto fue escrito por un humano o por un LLM.

El artículo presenta un nuevo método llamado DetectGPT, que utiliza la probabilidad logarítmica y la curvatura de un modelo de lenguaje para determinar si un texto fue escrito por un LLM. Este enfoque es más efectivo que otros métodos existentes, mejorando significativamente la detección de textos falsos generados por LLM.

El método DetectGPT no requiere entrenar un clasificador separado ni recopilar un conjunto de datos especial. En su lugar, utiliza las probabilidades logarítmicas de un modelo de lenguaje previamente entrenado y pequeñas perturbaciones aleatorias en el texto a evaluar.

Los resultados muestran que DetectGPT es más efectivo en la detección de textos generados por LLM, mejorando notablemente la detección de noticias falsas en comparación con los métodos existentes. Si está interesado en conocer más sobre el proyecto, tienes acceso al Paper completo en Arxiv.

Además existe una demostración en linea sobre le producto.

La Discusión en el Contenido Generado por IA

La discusión del proyecto se centra en lo atractivido de los modelos de lenguaje grandes como herramientas para reemplazar a los escritores humanos en una variedad de contextos, como la educación, el periodismo y el arte. Aunque existen usos legítimos de estas tecnologías en todas estas áreas, los profesores, lectores y consumidores probablemente exigirán herramientas para verificar la autenticidad humana de cierto contenido con alto valor educativo, social o artístico, especialmente cuando la verificabilidad (y no solo la fluidez) es crucial.

Modelo DetectGPT, ejemplo de salida.
Modelo DetectGPT, ejemplo de salida.

Debido a estos retos y la aparición regular de nuevos modelos de lenguaje grandes, se estudia el problema de detección de texto generado por máquina sin entrenamiento previo, en el que se utilizan sólo las probabilidades brutas calculadas por un modelo generativo para determinar si un pasaje candidato fue muestreado por el modelo.

Se identifica una propiedad de la función de probabilidad logarítmica calculada por una amplia variedad de modelos de lenguaje grandes, mostrando que una aproximación factible a la traza de la Hessiana de la función de probabilidad logarítmica del modelo proporciona una señal útil para detectar muestras del modelo. Los experimentos encuentran que esta señal es más discriminante que los métodos de detección sin entrenamiento previo existentes y es competitiva con los modelos de detección específicos entrenados con millones de muestras del modelo.

DetectGPT y marcado.

Una interpretación de la función de perturbación es producir rephrasings semánticamente similares del pasaje original. Si estos rephrasings tienen una probabilidad sistemáticamente más baja que el pasaje original, el modelo está exponiendo su sesgo hacia la frase específica (y aproximadamente arbitraria, desde el punto de vista humano) utilizada. En otras palabras, los LLMs que no imitan perfectamente la escritura humana marcan implícitamente su presencia.

Sara Francisco
Últimas entradas de Sara Francisco (ver todo)

Deja un comentario