Forbes Argentina
OpenAI CEO - Sam Altman
Innovacion

GPT 5.2 ya está entre nosotros y esto es lo que ahora puede hacer mejor que nunca

John Werner

Share

OpenAI presentó la nueva versión de su modelo de inteligencia artificial, que mejora en razonamiento, manejo de herramientas complejas y comprensión de contextos extensos. Empresas tecnológicas ya lo están integrando a sus procesos y destacan su rendimiento en tareas profesionales específicas.

12 Diciembre de 2025 21.00

Ante la fuerte competencia de gigantes como Google, Sam Altman lanzó hace apenas unas semanas un llamado para que todos colaboraran y aceleraran el desarrollo de un nuevo modelo. Hoy ya está disponible: GPT-5.2 salió al público, y quienes tienen curiosidad empezaron a probar sus capacidades para conocer qué avances trae en el diseño de modelos de lenguaje y qué pueden hacer por nosotros.

"Es mejor para crear hojas de cálculo, crear presentaciones, escribir código, percibir imágenes, comprender contextos largos, usar herramientas y gestionar proyectos complejos de varios pasos", explicó un vocero de OpenAI en el anuncio oficial del modelo, que se presentó ayer. En ese comunicado se destacó el rendimiento de GPT-5.2 en las métricas de SWE-Bench y en las pruebas ARC.

El anuncio también incluyó una mención llamativa de marcas. OpenAI señaló que Notion, Box, Shopify, Harvey y Zoom comprobaron que GPT-5.2 se destaca en razonamiento de largo plazo y en el uso de herramientas de última generación. Además, Databricks, Hex y Triple Whale valoraron su desempeño en tareas de análisis de documentos y ciencia de datos agentic. Por su parte, Cognition, Warp, Charlie Labs, JetBrains y Augment Code observaron que el modelo ofrece un rendimiento sobresaliente en codificación agentic.

ChatGPT, OpenAI, inteligencia artificial, IA, Bard
Ante la fuerte competencia de gigantes como Google, Sam Altman lanzó hace apenas unas semanas un llamado para que todos colaboraran y aceleraran el desarrollo de un nuevo modelo. 

Experiencia económica

Desde OpenAI explicaron que crearon GPT-5.2 para asistir en "tareas profesionales comunes" y para "desbloquear aún más valor económico" para los usuarios. El modelo puede aplicarse en tareas como elaboración de tablas de capitalización y planificación de la fuerza laboral. Según un revisor, se destaca por ofrecer "abstracción más fuerte, equilibrio más claro y realista y respuestas estratégicas y... conocimientos conceptuales más profundos y 'vibra'". Según esa evaluación, GPT-5.2 resulta especialmente eficaz en tareas que exigen un alto nivel de análisis o razonamiento matemático.

En cuanto al tiempo que permite ahorrar, una encuesta empresarial realizada por OpenAI reveló que los modelos anteriores ayudaban a profesionales a ganar entre 40 y 60 minutos por día, y estiman que GPT-5.2 superará esa marca.

Más allá de las pruebas SWE y ARC, existen otras formas concretas de medir la evolución de estos modelos. A principios de este año, OpenAI introdujo el concepto de GDPVal, una herramienta que toma como base la noción de Producto Interno Bruto (PIB) para explicar el impacto que tienen los modelos de lenguaje en las empresas.

"Evaluaciones previas de IA, como pruebas académicas exigentes y desafíos de codificación competitiva, fueron claves para empujar los límites del razonamiento de los modelos, pero muchas veces no alcanzan a reflejar las tareas que muchas personas realizan en su trabajo diario", escribieron los voceros. "Para cerrar esa brecha, venimos desarrollando evaluaciones que miden capacidades cada vez más realistas y relevantes desde lo económico", agregaron.

El comentario parece hecho a medida para GPT-5.2 y refleja exactamente lo que varios especialistas vienen destacando sobre el potencial del nuevo modelo.

Su aplicación, además, tiene un alcance amplio. GDPVal abarca 44 ocupaciones dentro de las 9 principales industrias que más aportan al PIB de Estados Unidos —¿enfermeras profesionales? ¿Científicos de datos?—, junto con 1.320 tareas especializadas.

A continuación se presenta otro fragmento de lo que dice OpenAI sobre la amplia encuesta de lo que mide GDPVal y su practicidad en comparación con otros puntos de referencia:

GDPVal se destaca tanto por el realismo como por la variedad de tareas que evalúa. A diferencia de otras evaluaciones vinculadas al valor económico, que suelen centrarse en áreas específicas —como SWE-Lancer—, GDPVal abarca una amplia gama de ocupaciones y tareas. Y, a diferencia de los benchmarks que se basan en la creación sintética de consignas al estilo de un examen académico —como Humanity's Last Exam o MMLU—, esta evaluación se enfoca en entregables concretos: trabajos reales o productos similares a los que se generan en contextos laborales.

La mención al Último Examen de la Humanidad me pareció oportuna. Por un lado, porque escribí sobre esa herramienta de análisis la semana pasada. Por otro, porque ante el ritmo de avance de la inteligencia artificial, no suena descabellado pensar que el HLE termine siendo, efectivamente, el último "examen" en el que la experiencia humana marque la diferencia.

Llegando al punto

Otra mejora que varios usuarios destacan en GPT-5.2 tiene que ver con el aprendizaje automático clásico. En ese terreno, los ingenieros suelen analizar la capacidad de un programa para "converger", es decir, para unir información de forma específica. Existen muchas formas de abordar ese análisis: desde observar cómo un organismo biológico procesa datos visuales hasta estudiar cómo los cambios dimensionales afectan los resultados de atención en una red neuronal.

Algunos de los primeros usuarios aseguran que esta nueva versión logra mejores resultados a la hora de converger, cohesionar y entregar respuestas más coherentes. Vale decirlo: hay personas que también hacen esto mejor que otras.

En medio de una conversación sobre GPT-5.2, un usuario mencionó la frase "concisión de pensamiento", y me sorprendió porque no estaba seguro de que "concisión" fuera realmente una palabra... hasta que la busqué.

Como sea, más allá del nombre que se le ponga, los entusiastas de esta versión esperan que el modelo pueda mantener esa capacidad de forma constante.

Una prueba temprana

Vale la pena mencionar a Ethan Mollick, un usuario avanzado con vínculos en el MIT, que suele estar entre los primeros en probar y comentar sobre nuevos modelos. De hecho, ya circula una publicación suya en X, donde le pidió a GPT-5.2 que generara una imagen de un mundo submarino con lo que él describió como "torres neogóticas". Aunque, si me preguntan, parecía más un pequeño insecto caminando entre los pelos de un perro o un gato... pero bajo el agua.

¿El resultado con un solo intento? Excelente.

"Es un modelo impresionante", escribió Mollick, sin vueltas.

Siguiendo adelante

Eso es algo de lo que se comenta sobre GPT-5.2, pero recién pasó su primer día completo en uso, así que seguramente habrá muchas más novedades en los próximos días. Mientras tanto, te recomiendo darte una vuelta por mi blog, donde escribí sobre PaCoRe y otros modelos que están saliendo de China. Sirve para comparar y ver las diferencias con el desarrollo que lleva adelante Estados Unidos. Seguiremos atentos.

 

Nota publicada por Forbes US

10