ChatGPT, Gemini, Claude y DeepSeek se enfrentan al 'Último Examen de la Humanidad' y muestran cómo de cerca estamos de la AGI
El examen constó de 2.500 preguntas relacionadas con más de 100 materias diferentes. Fue elaborado por 1.000 expertos de 500 instituciones de todo el mundo.
R. Badillo, 05/03/2026 - 07:00
ChatGPT, Gemini, Claude y DeepSeek se han sometido a Humanity’s Last Exam, una prueba extrema publicada en Nature que mide su rendimiento frente a expertos humanos y reabre el debate sobre la cercanía de la AGI. Los resultados revelan avances notables, aunque todavía lejos del nivel humano. El examen, diseñado por investigadores del Center for AI Safety y Scale AI, se presentó oficialmente en enero de 2025 como un nuevo estándar para evaluar la capacidad real de los grandes modelos de lenguaje. A diferencia de otros benchmarks, esta batería busca determinar si sistemas como GPT-4o, Gemini, Claude o DeepSeek pueden aproximarse al conocimiento especializado humano en múltiples disciplinas. Publicado en Nature el 28 de enero, el estudio detalla un examen de 2.500 preguntas que abarcan más de 100 materias. Más de 1.000 expertos procedentes de 500 instituciones en 50 países contribuyeron a su elaboración, bajo criterios estrictos: cuestiones precisas, verificables y no resolubles mediante una simple búsqueda en internet. [...] A 12 de febrero de 2026, la mejor marca corresponde a Gemini 3 Deep Think, con un 48,4%. La cifra contrasta con el rendimiento de expertos humanos, que rondan el 90% en sus respectivos campos. La comparación sitúa a la inteligencia artificial en un terreno intermedio: competente, aunque todavía distante del dominio experto. Los propios autores del estudio advierten de los límites de la métrica. “Una alta precisión en HLE (Último Examen de la Humanidad) demostraría un desempeño de nivel experto en preguntas cerradas y verificables y conocimiento científico de vanguardia, pero no sugeriría por sí sola capacidades de investigación autónoma o inteligencia artificial general”, señalan en el artículo, dejando entrever que aún falta tiempo para la llegada definitiva de la AGI.
Clic AQUÍ para seguir leyendo y ver las imágenes.
No hay comentarios:
Publicar un comentario