Newsletter

¡Hola!

ChatGPT.
-

La IA o3 de ChatGPT supera a competidores en investigación web: ¿Hasta dónde llegan sus capacidades?

John Koetsier

El modelo o3 de ChatGPT lidera en tareas de investigación web, pero aún enfrenta desafíos en comparación con la precisión humana y el manejo de fuentes y memoria en procesos complejos.

13 Mayo de 2025 17.00

El modelo más reciente de inteligencia artificial de ChatGPT, el o3, superó a Claude de Anthropic, a Gemini de Google y a Deepseek de Hangzhou en una prueba que evaluó a agentes de IA dedicados a la investigación web. Sin embargo, todavía hay una diferencia importante entre las capacidades humanas y las de estos sistemas.

La firma de investigación FutureSearch puso a prueba a once modelos lingüísticos destacados en 89 tareas reales y complejas de investigación. Evaluaron el desempeño de cada uno según su capacidad para encontrar fuentes originales, buscar datos, reunir evidencia, compilar información y validar afirmaciones.

El mejor rendimiento alcanzado fue de 0,51 en una escala en la que se estima que un agente "perfecto" llegaría aproximadamente a 0,8. Esto muestra que, por ahora, incluso los sistemas más avanzados quedan bastante lejos del nivel humano. "Podemos concluir que los agentes de frontera... obtienen un rendimiento sustancialmente inferior al de los investigadores generalistas inteligentes a quienes se les da suficiente tiempo", afirma el estudio.

Así es como calificaron los distintos modelos de IA:

o3 (OpenAI): 0,51
Claude 3.7 Soneto (Pensar): 0.49
Claude 3.7 Soneto (estándar): 0.48
Géminis 2.5 Pro: 0,45
GPT-4.1L: 0,42
DeepSeek-R1: 0,31
Mistral Pequeño: 0.30
GPT-4 Turbo: 0,27
Gemma 3: 0,20

Aun así, los agentes de IA muestran avances rápidos. Según la puntuación de 0,27 que obtuvo ChatGPT-4-Turbo —un modelo con un año de antigüedad—, los investigadores sostienen que "alrededor del 45 % de la brecha entre los investigadores generalistas inteligentes y los agentes de vanguardia" se cerró en ese período de desarrollo.

También hay una mejora visible en los sistemas gratuitos o de bajo costo, como DeepSeek, que no se alejan demasiado del rendimiento de los agentes pagos y de gama alta de OpenAI. El o3 de OpenAI encabeza el grupo, seguido de cerca por Claude y Gemini. Por ahora, los modelos cerrados siguen siendo claramente superiores en tareas de investigación intensiva. Sin embargo, los sistemas gratuitos y de código abierto avanzan a paso firme y ganan eficacia.

Gratis Fotos de stock gratuitas de abierto, aplicación, artificial Foto de stock — ChatGPT-o3 tiende a validar sus respuestas con mayor exhaustividad y a descartar las mejores respuestas disponibles con menos frecuencia.

Sin embargo, todos los agentes de IA basados en modelos de lenguaje todavía arrastran problemas importantes. No alcanzan el nivel de inteligencia de los investigadores humanos, sobre todo en lo que tiene que ver con la planificación estratégica, el detalle, la evaluación de la calidad de las fuentes y la gestión de la memoria. Los agentes suelen olvidar hallazgos anteriores mientras realizan una tarea. Un problema particular es que, muchas veces, se conforman con una respuesta de calidad menor en vez de seguir hasta encontrar la mejor posible.

Esa es una de las principales razones por las que el modelo o3 de ChatGPT logró ubicarse en el primer puesto. ChatGPT-o3 mostró una mayor tendencia a validar sus respuestas con más cuidado y a descartar con menos frecuencia las mejores opciones disponibles.

Dado que un año sirvió para cerrar casi la mitad de la brecha entre los humanos de élite y los mejores agentes de IA, es posible que no pase mucho tiempo hasta que los agentes de IA superen incluso a los mejores humanos.

Sin embargo, dados los recientes desafíos de ChatGPT con su último modelo, que es demasiado "agradable", está claro que no existe un camino directo hacia la mejora.

Por ahora, al menos, seguirá siendo esencial verificar dos veces todos los resultados de una aplicación de IA generativa, como los agentes de IA, para garantizar su precisión.

Nota publicada por Forbes US

La IA o3 de ChatGPT supera a competidores en investigación web: ¿Hasta dónde llegan sus capacidades?

El modelo o3 de ChatGPT lidera en tareas de investigación web, pero aún enfrenta desafíos en comparación con la precisión humana y el manejo de fuentes y memoria en procesos complejos.

Tags

El otro negocio de Messi tras el Mundial: El Club de la Milanesa invierte US$ 6 millones en su expansión y desembarca en Europa

El primer REIT argentino hizo su debut: compró una mansión en Barrio Parque por US$ 3,6 millones

Kristian Bereit en Forbes Studio: el inglés aporteñado que grita los goles de Argentina y representa a 35 estrellas globales por USD 200M.

La dueña de Todomoda e Isadora apuesta al segmento premium y trae una marca brasileña a la Argentina

Después de Decathlon, Manuel Antelo trae el "Primark francés" a la Argentina con una inversión de US$ 20 millones

El “mejor metro cuadrado publicitario de Buenos Aires”: la startup que factura $ 250 millones en los asientos traseros de los autos

Rutini vuelve a hacer historia: su Single Vineyard Gualtallary Malbec 2023 fue el mejor vino argentino en los Decanter 2026

Más noticias

Una IA de OpenAI escapó de una prueba y atacó a otra empresa: la explicación de Sam Altman

Streaming vs. TV: la nueva generación de creadores se consagró en el Mundial 2026

Una membresía. Posibilidades ilimitadas.

La IA o3 de ChatGPT supera a competidores en investigación web: ¿Hasta dónde llegan sus capacidades?

El modelo o3 de ChatGPT lidera en tareas de investigación web, pero aún enfrenta desafíos en comparación con la precisión humana y el manejo de fuentes y memoria en procesos complejos.

Tags

Más noticias

Iniciá sesión en Forbes

Crear una cuenta

Iniciar sesión