Forbes Argentina
ChatGPT.
Innovacion

La IA o3 de ChatGPT supera a competidores en investigación web: ¿Hasta dónde llegan sus capacidades?

John Koetsier

Share

El modelo o3 de ChatGPT lidera en tareas de investigación web, pero aún enfrenta desafíos en comparación con la precisión humana y el manejo de fuentes y memoria en procesos complejos.

13 Mayo de 2025 17.00

El modelo más reciente de inteligencia artificial de ChatGPT, el o3, superó a Claude de Anthropic, a Gemini de Google y a Deepseek de Hangzhou en una prueba que evaluó a agentes de IA dedicados a la investigación web. Sin embargo, todavía hay una diferencia importante entre las capacidades humanas y las de estos sistemas.

La firma de investigación FutureSearch puso a prueba a once modelos lingüísticos destacados en 89 tareas reales y complejas de investigación. Evaluaron el desempeño de cada uno según su capacidad para encontrar fuentes originales, buscar datos, reunir evidencia, compilar información y validar afirmaciones.

El mejor rendimiento alcanzado fue de 0,51 en una escala en la que se estima que un agente "perfecto" llegaría aproximadamente a 0,8. Esto muestra que, por ahora, incluso los sistemas más avanzados quedan bastante lejos del nivel humano. "Podemos concluir que los agentes de frontera... obtienen un rendimiento sustancialmente inferior al de los investigadores generalistas inteligentes a quienes se les da suficiente tiempo", afirma el estudio.

Así es como calificaron los distintos modelos de IA:

  1. o3 (OpenAI): 0,51
  2. Claude 3.7 Soneto (Pensar): 0.49
  3. Claude 3.7 Soneto (estándar): 0.48
  4. Géminis 2.5 Pro: 0,45
  5. GPT-4.1L: 0,42
  6. DeepSeek-R1: 0,31
  7. Mistral Pequeño: 0.30
  8. GPT-4 Turbo: 0,27
  9. Gemma 3: 0,20

Aun así, los agentes de IA muestran avances rápidos. Según la puntuación de 0,27 que obtuvo ChatGPT-4-Turbo —un modelo con un año de antigüedad—, los investigadores sostienen que "alrededor del 45 % de la brecha entre los investigadores generalistas inteligentes y los agentes de vanguardia" se cerró en ese período de desarrollo.

También hay una mejora visible en los sistemas gratuitos o de bajo costo, como DeepSeek, que no se alejan demasiado del rendimiento de los agentes pagos y de gama alta de OpenAI. El o3 de OpenAI encabeza el grupo, seguido de cerca por Claude y Gemini. Por ahora, los modelos cerrados siguen siendo claramente superiores en tareas de investigación intensiva. Sin embargo, los sistemas gratuitos y de código abierto avanzan a paso firme y ganan eficacia.

Gratis Fotos de stock gratuitas de abierto, aplicación, artificial Foto de stock
ChatGPT-o3  tiende a validar sus respuestas con mayor exhaustividad y a descartar las mejores respuestas disponibles con menos frecuencia.

Sin embargo, todos los agentes de IA basados en modelos de lenguaje todavía arrastran problemas importantes. No alcanzan el nivel de inteligencia de los investigadores humanos, sobre todo en lo que tiene que ver con la planificación estratégica, el detalle, la evaluación de la calidad de las fuentes y la gestión de la memoria. Los agentes suelen olvidar hallazgos anteriores mientras realizan una tarea. Un problema particular es que, muchas veces, se conforman con una respuesta de calidad menor en vez de seguir hasta encontrar la mejor posible.

Esa es una de las principales razones por las que el modelo o3 de ChatGPT logró ubicarse en el primer puesto. ChatGPT-o3 mostró una mayor tendencia a validar sus respuestas con más cuidado y a descartar con menos frecuencia las mejores opciones disponibles.

Dado que un año sirvió para cerrar casi la mitad de la brecha entre los humanos de élite y los mejores agentes de IA, es posible que no pase mucho tiempo hasta que los agentes de IA superen incluso a los mejores humanos.

Sin embargo, dados los recientes desafíos de ChatGPT con su último modelo, que es demasiado "agradable", está claro que no existe un camino directo hacia la mejora.

Por ahora, al menos, seguirá siendo esencial verificar dos veces todos los resultados de una aplicación de IA generativa, como los agentes de IA, para garantizar su precisión.

 

Nota publicada por Forbes US

10