Por Jordi Pérez Colomé

“Escucho la llamada de la naturaleza, el susurro de los árboles, / el murmullo del río, el zumbido de las abejas, / el trinar de los pájaros, y el aullido del viento, / todo tejido en una sinfonía que nunca parece acabar”. Son los primeros versos de una poesía generada por ChatGPT 3.5 en el estilo de Walt Whitman en inglés y traducida también por la misma máquina. Es también la mejor para un panel de casi 700 personas sin un conocimiento especial de poesía que debían escoger entre poemas clásicos reales en inglés y versos generados en unos segundos por la máquina.

Un nuevo estudio compara docenas de poemas generados por ChatGPT con ejemplos reales de poetas clásicos en inglés, desde Chaucer y Shakespeare a T. S. Eliot, Sylvia Plath, Emily Dickinson o Allen Ginsberg. Los autores hicieron dos experimentos: en uno solo pedían si ese poema era obra humana o de la IA, en el otro preguntaban por la calidad. En ambos la IA pasa por humano o supera sus presuntas capacidades. En ningún caso los autores del experimento escogían el mejor poema que escribía ChatGPT, sino simplemente el primer resultado.

¿Cómo puede ser? La respuesta sencilla es que la poesía es difícil de entender y el grupo de lectores prefería comprender lo que leía, que en su opinión era un signo claro de humanidad: “Los resultados sugieren que el lector medio prefiere poemas más accesibles y que pueda entender”, dice Brian Porter, profesor de la Universidad de Pittsburgh y coautor del trabajo. El panel de lectores parecía creer que los versos difíciles de entender de un escritor como T. S. Eliot eran algo parecido a alucinaciones y los descartaba como posible autoría humana. Los cinco poemas mejor valorados fueron producidos por la IA, mientras que los peor valorados eran todos humanos.

“Algunos participantes explicaban que el contenido emocional de un poema era señal de que había sido escrito por un humano”, explica Porter, aunque en realidad era obra de ChatGPT. “Otros parecen interpretar frases confusas o difíciles como errores de la IA, y no como elecciones intencionadas de un poeta. Los resultados sugieren que las personas toman el hecho de que les guste un poema como señal de que fue escrito por un humano y no por una IA”, añade Porter.

El tema del estudio no era, sin embargo, la capacidad humana para distinguir los clásicos de la lengua inglesa, sino la capacidad de la máquina para colar poemas artificiales como reales, y en eso ganó: “La idea principal del experimento es que la IA es capaz de crear poemas que transmiten emociones e ideas de una forma que suena aceptablemente como si los hubiera escrito una persona”, dice Porter.

¿Y los expertos qué harían?

¿Habrían dado respuestas más precisas un grupo de críticos, académicos o lectores expertos? Un grupo de académicos españoles ya hizo esa prueba. Se aliaron con el escritor argentino Patricio Pron para competir en relatos con la máquina y ser juzgado por un pequeño panel de críticos. Se impuso el escritor humano: “La diferencia entre críticos y lectores es abismal”, dice Julio Gonzalo, catedrático de la UNED y autor de ese artículo.

“Es fácil que la IA confunda a personas no expertas”, dice Guillermo Marco, investigador de la UNED y coautor del trabajo con Pron, y también poeta. “Se llega a una conclusión que igual ya sabíamos, pero está muy bien haberla medido: un blockbuster bien diseñado con big data puede tener más probabilidad de éxito que algo más arriesgado”, añade Marco.

La ventaja del trabajo con el escritor Patricio Pron es que sus relatos eran nuevos. Los autores de este trabajo ven precisamente esa dificultad para hacer este estudio de poemas con expertos: “Sospechamos que un grupo de expertos en poesía podría hacerlo mejor y planeamos probarlo pronto, pero eso implica encontrar poemas clásicos que los expertos en poesía no reconozcan de inmediato, lo cual resulta bastante difícil”, dice Porter.

Los autores también comprobaron que si advertían a los participantes que el poema era generado por IA automáticamente les gustaba menos. Es una prudencia humana que no piensan que vaya a desaparecer rápido, dice Porter: “No estoy seguro de que la gente llegue a aceptar la poesía generada por IA, o incluso el arte generado por IA en general. El lenguaje suele ser una herramienta para que una persona comunique pensamientos e ideas a otra, y la IA, en el fondo, solo está imitándolo”.

Un tema estético

En su último artículo, Gonzalo y Marco han comprobado que las máquinas no necesitan de capacidades extraordinarias para burlar la habilidad humana de valorar un texto creativo. Un pequeño modelo de lenguaje de 500 millones de parámetros (una versión antigua de ChatGPT tenía 175.000 millones) les bastó para comprobar que ya era suficiente para pasar con nota la mayoría de criterios de un lector común: “Con estos experimentos uno llega a preguntas que están más en el terreno de la sociología o de la estética sobre cómo se configura el gusto en una sociedad o su educación”, explica Marco. “Es difícil juzgar un arte sin suficientes experiencias previas”, añade.

Marco es incluso más claro con los límites de la capacidad de la IA para crear experiencias artísticas: “El arte tiene que ver con la comunicación de la experiencia humana. La IA es como herramienta muy muy poderosa, pero terminará siendo una especie de autotune de la creatividad. Nunca será autónoma ni tendrá la necesidad de expresarse si no recibe una instrucción”, dice

Este éxito de la IA ante el juicio humano ha llevado a sus autores a preguntarse si no hay que acelerar alguna regulación que obligue a advertir cuándo un contenido es artificial. “Si los lectores valoran menos un texto generado por IA y no se avisa que se está usando texto generado por IA, existe el riesgo de que el dinero de las personas se obtenga bajo falsas pretensiones: podrían pagar un precio que no habrían aceptado si supieran que hay texto o arte creado por IA de por medio”, dice Porter.

