Actualizado 20:50

Jordi Pérez Colomé |

“Grok 3 es la IA más inteligente del mundo”, lanzó este martes la cuenta de X de Grok. Elon Musk, dueño de la empresa que lo desarrolla, xAI, estuvo todo el día repitiendo mensajes sobre cómo Grok es “el mejor chatbot del mundo” o que “está en la cima del mundo”. Horas antes Sam Altman, de ChatGPT, había escrito: “GPT-4.5 ha sido, para los primeros testadores más exigentes, una experiencia más cercana a una IA con sentido común de lo que esperaba”.

Muchas de estas afirmaciones son puro marketing. Los chatbots de IA son un campo hoy extremadamente competitivo y decir que uno es el mejor atrae mucha inversión. Pero también hay un puñado de indicadores de referencia (llamados benchmarks en inglés) que sirven de prueba para comprobar qué modelos de IA responden mejor en tests similares. Si no estás arriba en esas pruebas, no eres nadie.

“Los números de Grok 3 en su lanzamiento son un ejemplo perfecto de los problemas de la evaluación actual”, dice Julio Gonzalo, catedrático de Lenguajes y Sistemas Informáticos de la UNED. “Si hay mucha presión competitiva, hay exceso de atención sobre los benchmarks, y a las empresas les resultaría fácil manipularlos, así que no podemos fiarnos de los números que nos reportan”. Junto a otros dos investigadores españoles, Gonzalo ha probado un truco sencillo pero implacable para comprobar la eficacia de algunos de estos tests más prominentes. El objetivo básico era saber si los modelos leían y respondían como cualquier estudiante o, en cambio, solo buscaban la respuesta en el ingente cuerpo de datos que se ha usado para su entreno.

El resultado es que son aún sobre todo las máquinas más empollonas nunca antes ideadas: “En su primera fase de entrenamiento, en la que aprenden el lenguaje, el procedimiento es de pesca de arrastre: se leen, esencialmente, todo el contenido online. Por tanto, los desarrolladores saben que la probabilidad de que hayan visto la respuesta a un examen disponible online es muy alta”, explica Eva Sánchez Salido, coautora e investigadora en la UNED.

¿Qué detalle han cambiado en el experimento para engañar a los modelos? Los investigadores han sustituido la respuesta correcta por una general que dice: “Ninguna de las otras”. Así, el modelo debía entender la pregunta y razonar, no solo encontrar la respuesta más probable en su memoria. “La respuesta acertada tiene un vocabulario completamente desconectado de la pregunta, lo que le obliga a razonar sobre cada una de las otras respuestas posibles y descartarlas, es una variación mucho más exigente”, dice Gonzalo. “Es verdadera kriptonita para los modelos”, añade.

Según el artículo, “los resultados muestran que todos los modelos pierden precisión de forma notable con nuestra variación propuesta, con una caída promedio del 57% y del 50% [en dos indicadores tradicionales de referencia], y oscilando entre el 10 % y el 93 % según el modelo”, escriben los investigadores en el texto.

Este tipo de variaciones ya se había probado sobre todo con las preguntas, pero ha sido este cambio en las respuestas el que ha dado resultados más claros. “Este cambio tan simple de repente quita un velo a la experimentación con benchmarks y nos permite ver el progreso real en las capacidades de razonamiento aproximado de los sistemas sin el ruido que produce el acierto por memorización”, dice Guillermo Marco, coautor del experimento e investigador en la UNED.

Este cambio no prueba que las IA sean de repente inútiles, pero sí que su capacidad de razonamiento estaba hinchada y que evoluciona de manera más lenta que los departamentos de marketing y expertos en dar bombo pretenden: “Nuestros resultados demuestran que los chatbots, en general, siguen aplicando un tipo de razonamiento intuitivo y tienen una capacidad de generalización escasa”, dice Gonzalo. “En otras palabras, siguen contestando de oídas, intuitivamente, y siguen siendo, en esencia, súpercuñados que lo han leído todo, pero no han asimilado nada”.

El debate sobre las limitaciones de los benchmarks está más extendido de lo que parece. Este mismo martes, uno de los mayores divulgadores sobre IA, Ethan Mollick, pedía tests más fiables.

Another thing Grok 3 highlights is the urgent need for better batteries of tests and independent testing authorities.



Public benchmarks are both "meh" and saturated, leaving a lot of AI testing to be like food reviews, based on taste. If AI is critical to to work, we need more.