GLTR:Un nuevo método para detectar el lenguaje generado por computadora

El nuevo método estadístico puede detectar contenido generado por IA.
Funciona identificando textos que son demasiado predecibles en lugar de solo marcar errores en los textos.

En la última década, la comunidad de procesamiento del lenguaje natural ha sido testigo del crecimiento de modelos de lenguaje cada vez más grandes e inteligentes.

En una época de inteligencia artificial y redes neuronales profundas equipadas con lenguaje natural humano, investigadores de la Universidad de Harvard e IBM Research han desarrollado un método estadístico para detectar texto generado por computadora.

Han construido una herramienta interactiva (disponible públicamente) para diferenciar el lenguaje humano natural y el texto generado por máquinas del habla humana. El objetivo es brindar a las personas más información para que puedan tomar una decisión informada sobre qué es falso y qué es real.

Los modelos de inteligencia artificial generalmente se entrenan en millones de textos (tomados de la web mundial). Predicen palabras que con mayor frecuencia se suceden para imitar el lenguaje humano. Por ejemplo, es más probable que la palabra "usted" sea seguida estáticamente por las palabras "were", "have" y "are".

Con esta metodología, los investigadores crearon una herramienta que detecta textos que son demasiado predecibles [en lugar de señalar errores en los textos]. Permite que tanto la inteligencia artificial como los humanos trabajen juntos para identificar el lenguaje generado por la máquina.

¿Cómo funciona?

La nueva técnica, denominada Sala de pruebas del modelo de lenguaje gigante (GLTR), se basa en un modelo entrenado en aproximadamente 45 millones de textos de sitios web. Tiene acceso a uno de los modelos más grandes disponibles públicamente, GPT-2.

Por lo tanto, puede observar lo que GPT-2 habría predicho en cada posición (para cualquier entrada textual) y funciona de manera eficiente contra GPT-2 y muchos otros modelos.

GLTR representa una herramienta visualmente forense para identificar textos generados automáticamente. Muestra 3 histogramas diferentes que agregan la información de todo el texto.

Referencia:The Harvard Gazette | GitHub

Simplemente ingrese un párrafo en la caja de herramientas y resaltará todas las palabras en cuatro colores diferentes, cada uno indicando la predictibilidad de la palabra en el contexto de lo que sigue. Púrpura significa que la palabra no es predecible; rojo, ligeramente predecible; amarillo, moderadamente predecible; y el verde muestra palabras muy predecibles en el párrafo.

Así es como se ve un párrafo generado por máquina:

El primer histograma muestra cuántas palabras de cada categoría aparecen en el párrafo. El segundo muestra la relación entre las probabilidades de la palabra predicha más alta y la palabra siguiente. El tercer histograma representa la distribución sobre las entropías de predicción.

Por supuesto, la incertidumbre será mayor para los textos escritos por humanos, especialmente para trabajos de investigación y textos académicos. Así es como se ve el resumen de un trabajo de investigación (sobre galaxias EAGLE):

Leer:La inteligencia artificial puede generar el habla a partir de la actividad neuronal

El equipo de investigación también probó su nueva herramienta con un grupo de graduados en ciencias de la computación. Los estudiantes pudieron detectar el 50% de los párrafos generados por computadora, sin embargo, con la ayuda de esta herramienta, identificaron el 72%. El porcentaje podría mejorar aún más con un poco de entrenamiento con el sistema.

Las neuronas artificiales podrían ser tan eficientes como el cerebro humano La IA puede resolver el cubo de Rubik en segundos, sin ningún conocimiento de dominio específico

Tecnología Industrial

Proceso de manufactura

Impresión 3d

Sistema de control de automatización

Tecnología Industrial