

Un nuevo estudio publicado en Nature revela que los sistemas de inteligencia artificial más avanzados están mejorando rápidamente en un benchmark diseñado para evaluar los límites de su conocimiento, aunque expertos advierten que este progreso no indica una verdadera comprensión ni acercamiento a la inteligencia general.
Los modelos de inteligencia artificial (IA) están mostrando avances significativos en su capacidad para responder preguntas extremadamente complejas, según revela un reciente estudio publicado en la revista Nature sobre el benchmark denominado 'El Último Examen de la Humanidad'. Sin embargo, especialistas señalan que estos resultados no deben interpretarse como un indicador de que las máquinas estén desarrollando una verdadera inteligencia comparable a la humana.
El benchmark, creado por una colaboración internacional de casi 1.000 expertos académicos, consiste en 2.500 preguntas diseñadas específicamente para explorar los límites del conocimiento de los sistemas de IA actuales. Las preguntas abarcan campos como matemáticas, física, química, biología, informática y humanidades, requiriendo conocimientos de nivel de posgrado para ser respondidas correctamente.
Cuando el examen fue lanzado a principios de 2025, los modelos de IA más avanzados mostraron un desempeño extremadamente bajo. Según los datos reportados por Modern Sciences, GPT-4o logró apenas un 2,7% de precisión, Claude 3.5 Sonnet alcanzó un 4,1%, y el modelo más potente de OpenAI, o1, solo consiguió un 8% de respuestas correctas.
Sin embargo, en menos de un año, estos resultados han mejorado dramáticamente. Actualmente, Gemini 3 Pro Preview lidera la clasificación con un 38,3% de precisión, seguido por GPT-5 con 25,3% y Grok 4 con 24,5%, según la misma fuente.
A pesar de esta mejora, los expertos advierten que estos avances no significan que los sistemas de IA estén desarrollando una verdadera inteligencia general. Subbarao Kambhampati, profesor de la Universidad Estatal de Arizona y ex presidente de la Asociación para el Avance de la Inteligencia Artificial, señala que "la esencia de la humanidad no se captura en una prueba estática, sino en nuestra capacidad para evolucionar y abordar preguntas previamente inimaginables", según cita Modern Sciences.
Los propios creadores del benchmark reconocen esta limitación, afirmando que "una alta precisión en [El Último Examen de la Humanidad] demostraría un rendimiento de nivel experto en preguntas cerradas y verificables y conocimiento científico de vanguardia, pero por sí solo no sugeriría capacidades de investigación autónomas o inteligencia general artificial".
Los críticos del benchmark señalan tres problemas fundamentales con la interpretación de estos resultados como indicadores de inteligencia:
Primero, las pruebas miden el rendimiento en tareas específicas, no la inteligencia real. Mientras que para los humanos, un buen resultado en un examen suele predecir competencia en un campo, para los sistemas de IA solo indica capacidad para producir respuestas que parecen correctas, sin garantizar comprensión profunda.
Segundo, la inteligencia humana y la de las máquinas son fundamentalmente diferentes. Los humanos aprenden continuamente de la experiencia, tienen intenciones y metas, y experimentan el mundo directamente. En contraste, los modelos de lenguaje derivan sus capacidades de patrones en texto durante el entrenamiento, sin una verdadera comprensión subyacente.
Tercero, los desarrolladores de IA optimizan sus modelos específicamente para mejorar en estos benchmarks, lo que no necesariamente se traduce en mayor utilidad o inteligencia general. Es lo que algunos expertos describen como "estudiar para el examen" en lugar de desarrollar una comprensión genuina.
Reconociendo estas limitaciones, algunas empresas están buscando alternativas para evaluar la utilidad real de sus sistemas. OpenAI, por ejemplo, ha introducido una medida llamada GDPval, diseñada para evaluar la utilidad en el mundo real, centrándose en tareas basadas en productos de trabajo reales como documentos de proyectos, análisis de datos y entregables que existen en entornos profesionales.
El campo de la IA para Matemáticas (AI4Math) ilustra tanto el potencial como las limitaciones de estos sistemas. Según un artículo publicado en arxiv.org, este campo emergente aprovecha el aprendizaje automático para navegar por paisajes matemáticos históricamente intratables para los primeros sistemas simbólicos. La investigación se divide en dos direcciones complementarias: el modelado específico de problemas, que implica el diseño de arquitecturas especializadas para tareas matemáticas distintas, y el modelado de propósito general, centrado en modelos fundamentales capaces de razonamiento más amplio.
Expertos recomiendan a los usuarios de herramientas de IA que no se dejen influir excesivamente por las puntuaciones en benchmarks como El Último Examen de la Humanidad. En su lugar, sugieren desarrollar pruebas propias basadas en las necesidades específicas de cada usuario o empresa, evaluando los modelos según criterios relevantes para sus aplicaciones particulares.
Aunque los sistemas de IA continúan mejorando a un ritmo acelerado, el consenso entre los especialistas es que cualquier discusión sobre superinteligencia sigue siendo ciencia ficción y una distracción del trabajo real de hacer que estas herramientas sean relevantes para la vida de las personas.