Forbes Argentina
Ajedrez y robots
Innovacion

Se sacude el tablero de la IA: OpenAI, Google, Anthropic y ElevenLabs presentan nuevos modelos al mismo tiempo

Pablo Wahnon Editor de Innovación

Share

Varias de las empresas referentes de la Inteligencia Artificial lanzaron casi en forma simultánea modelos que pretenden empoderar a los usuarios para crear desde Agentes de IA hasta música lista para ser comercializada.

6 Agosto de 2025 23.50

Desde que Ilya Sutskever se fue de OpenAI diversos cuestionamientos se centraron en la compañía. El principal de todos apunta a cómo el foco comercial de la compañía hizo que se dejara de lado su característica de "Open Source", de allí su nombre, y sus modelos pasaron a ser algo así como un secreto de estado. Sin embargo, desde hace un tiempo Sam Altman venía alertando que algo harían al respecto: "Estábamos en el lado equivocado de la historia con respecto al código abierto", señaló en enero.

Y en un día que lo tuvo todo en materia de anuncios (varios competidores como se verá más adelante no se quedaron atrás a la hora de ofrecer nuevas mejoras), OpenAI lanzó el primer modelo que, si bien no es totalmente abierto, sí constituye un avance que se puede aprovechar en más de un sentido. Y además busca dar nuevas señales para conquistar el corazón de los desarrolladores.

El lanzamiento se basa en dos modelos de lenguaje, gpt-oss-120b y gpt-oss-20b, que presentan la novedad de que sus pesos (que son números que la red neuronal requiere para su funcionamiento) están abiertos. Esto no quiere decir que se conozca el código, ni los datos y modalidades que se utilizaron para su entrenamiento. Pero se trata de algo muy interesante ya que les permite a los desarrolladores adaptarlos a sus necesidades y así crear mejores aplicaciones.  De esta forma se simplica el costo asociado a tareas como el fine tuning, donde el modelo aprende a partir de datos que el usuario facilita, y lo mismo en la creación de Agentes de IA, que siempre dependen de un LLM. 

Según AWS, el modelo gpt-oss-120b ofrece hasta tres veces mejor rendimiento en costo que Gemini de Google y cinco veces más eficiencia que DeepSeek-R1, además de superar en un 100% el rendimiento costo-efectivo del modelo o4 de OpenAI. Esto lo hace atractivo para empresas que buscan optimizar recursos. El modelo gpt-oss-20b, al ser ligero, es ideal para tareas de baja latencia en dispositivos móviles o portátiles, lo que amplía su usabilidad para aplicaciones en tiempo real.
 


Los modelos presentados superan a otros LLMs de código abierto de tamaño similar en tareas de razonamiento y están optimizados para la implementación eficiente de hardware de consumo. Fueron entrenados con una combinación de aprendizaje por refuerzo y técnicas inspiradas en los modelos internos más avanzados de OpenAI, incluido o3 y otros sistemas de vanguardia.

El modelo gpt-oss-120b alcanza una paridad casi total con OpenAI o4-mini en las principales evaluaciones comparativas de razonamiento, manteniendo un rendimiento eficiente con una sola GPU de 80 GB. Por su parte, el modelo gpt-oss-20b ofrece resultados similares a OpenAI o3‑mini en comparativas comunes y puede ejecutarse en dispositivos periféricos con solo 16 GB de memoria, lo que lo convierte en una solución ideal para casos de uso en el dispositivo, ejecución local de inferencias o ciclos de iteración rápida sin infraestructura costosa.

Ambos modelos también presentan un rendimiento sobresaliente en el uso de herramientas, llamadas a funciones con pocos ejemplos (few-shot function calling), cadenas de pensamiento (CoT) (como se evidencia en los resultados del conjunto de evaluaciones Tau-Bench) y en HealthBench, superando incluso a modelos propietarios como OpenAI o1 y GPT‑4o.

Una de las motivaciones para liberar los modelos es que en OpenAI descubrieron que los modelos podían aprender a ocultar sus pensamientos mientras seguían comportándose mal si se presionaba directamente a sus CoT para que no tuvieran malos pensamientos. En vista de estas preocupaciones, "decidimos no aplicar ninguna presión de optimización directa sobre el CoT en ninguno de nuestros dos modelos de peso abierto. Esperamos que esto brinde a los desarrolladores la oportunidad de implementar sistemas de monitoreo de CoT en sus proyectos y que la comunidad investigadora pueda estudiar más a fondo la monitorización de CoT" afirma el comunicado de OpenAI.

Así, se permite que los modelos tengan estos "malos pensamientos" para, supongo, favorecer la transparencia. OpenAI es entonces honesto sobre la mayor probabilidad de alucinaciones, para que los usuarios sepan que se ha hecho este sacrificio.

El nuevo Claude Opus 4.1

Así es como en Anthropic dieron a conocer el anuncio de su nuevo modelo: "Hoy lanzamos Claude Opus 4.1, una actualización de Claude Opus 4 que entre otras cosas mejora las tareas que requieron los agentes de IA, así como también la generación de código eficaz para el mundo real y el razonamiento del modelo. Planeamos lanzar mejoras significativamente mayores en nuestros modelos en las próximas semanas. Opus 4.1 ya está disponible para los usuarios de pago de Claude y en Claude Code. También está disponible en nuestra API, Amazon Bedrock y Vertex AI de Google Cloud. El precio es el mismo que el de Opus 4".

El nuevo modelo Opus 4.1 mejora las calificaciones de SWE-Bench Verified y potencia las habilidades de los agentes de IA. Un desglose de capacidades muestra un aumento de 2 puntos en la codificación agencial basada en SWE (72,5 % - 74,5 %) y una mejora en el razonamiento a nivel de posgrado con GPQA Diamond (79,6 % - 80,9 %) en comparación con Opus 4, así como ligeros aumentos en el razonamiento visual y el uso de herramientas agencial. Para un conjunto de modelos pionero en capacidades de usuario similares a las humanas, esto continúa ampliando los límites. 

El lanzamiento se produce en un momento en que Anthropic logró un crecimiento espectacular, con ingresos recurrentes anuales que se quintuplicaron, pasando de 1.000 millones de dólares a 5.000 millones de dólares en tan solo siete meses, según datos del sector. Sin embargo, el meteórico ascenso de la compañía creó una peligrosa dependencia: casi la mitad de sus 3.100 millones de dólares en ingresos por API provienen de tan solo dos clientes: el asistente de programación Cursor y GitHub Copilot de Microsoft, que generan 1.400 millones de dólares en conjunto. 


Esta actualización representa la última medida de Anthropic para consolidar su posición antes del lanzamiento de OpenAI de GPT-5, que se espera que desafíe la supremacía de Claude en la programación. Algunos analistas del sector cuestionaron si el momento elegido sugiere la urgencia por tomar posición en el mercado antes que  salir con una mejor preparación. 

"Tanto el upgrade de Claude, como el anuncio de OpenAI muestran que la industria esta avanzando para que podemos construir agentes de IA mas eficientes para el entorno empresarial. Esto muchas veces puede implicar fine tuning, latencia, y otras habilidades que deben a su vez mantenerse eficientes para que los costos operativos no se disparen y se vuelvan prohibivos", señalan desde SporeShift AI, una empresa de origen argentino que está entre las primeras en estar focalizadas sólo en Agentes. 

Genie 3 crea modelos 3D que interaccionan con el usuario

Este es el último modelo de la serie Genie, surgido del laboratorio DeepMind de Google crea entornos controlados. En otras palabras, se trata de un modelo de mundo de videojuegos.

Los defensores del nuevo modelo citan una memoria a más largo plazo que el límite de unos 10 segundos del Genie 2, así como una mejor fidelidad visual y respuestas en tiempo real.

"DeepMind afirma que el nuevo sistema puede generar mundos enteros con los que se puede interactuar de forma constante durante varios minutos con una resolución de hasta 720p", informa Joshua Hawkins de BGR . "Además, la compañía afirma que el sistema podrá responder a lo que denomina 'eventos mundiales interactivos' con latencia en tiempo real. A juzgar por lo que muestran los vídeos, parece que Google ha dado un gran paso adelante en la creación de mundos completos de videojuegos mediante IA". 

"Genie 3 es el primer modelo de mundo interactivo y de propósito general en tiempo real", declaró Shlomi Fruchter de DeepMind en un comunicado de prensa que sugiere que el laboratorio considera a Genie 3 un "trampolín hacia la IAG" precisamente el santo grial de la industria. "Va más allá de los modelos de mundo estrechos que existían antes. No es específico de ningún entorno en particular. Puede generar mundos tanto fotorrealistas como imaginarios, y todo lo intermedio", aclaran en la empresa.

ElevanLabs: Música y generación de audio para uso comercial

La startup de audio con IA ElevenLabs lanzó un nuevo producto llamado Eleven Music , que permite a usuarios, creadores y empresas crear una banda sonora de cualquier género o estilo a partir de indicaciones en lenguaje natural. Esto la sitúa en competencia con empresas como Suno y Udio, pero podría tener una ventaja: ha firmado acuerdos de colaboración con sellos y editoriales como Merlin y Kobalt para distribuir la tecnología a más artistas musicales.

Este movimiento marca la expansión de ElevenLabs más allá de su enfoque principal en sus tres años de existencia, que se enfocó en el desarrollo de herramientas de audio con IA. ElevenLabs es un referente entre las empresas que desarrollan productos de IA con conversión de texto a voz y se ha expandido a bots conversacionales y herramientas que traducen el habla a otros idiomas.

Junto con el lanzamiento, Eleven Labs compartió muestras de su música generada por IA . Una presenta una voz sintética que rapea sobre cómo "surgió de entre las grietas con ambición en el bolsillo" y dejó su ciudad natal, viajando de "Compton al Cosmos". Es inquietante escuchar a una computadora reflejar la influencia y el lenguaje de artistas como Dr. Dre, NWA y Kendrick Lamar, quienes realmente vivieron las experiencias que esta tecnología intenta emular.

Dadas estas preocupaciones sobre el material con el que se entrenan las herramientas de generación de música con IA, no es tan sencillo para las empresas emergentes adentrarse en la generación de música.

El año pasado, Suno y Udio fueron demandados por la Asociación de la Industria Discográfica de Estados Unidos (RIAA), la organización comercial que representa a la industria musical estadounidense. Estas demandas alegan que Suno y Udio usaron material protegido por derechos de autor para sus modelos de generación musical. Según informes, las compañías están negociando acuerdos de licencia con importantes sellos discográficos.

ElevenLabs también anunció acuerdos con Merlin Network y Kobalt Music Group, dos plataformas de publicación digital para músicos independientes, para utilizar sus materiales para el entrenamiento de IA, y de esta forma garantizar su uso comercial. 

Los jugadores de IA siguen sacando piezas y más piezas para un ajedrez que desconoce de límites. Mientras el público iba digiriendo estos anuncios, OpenAI ya dijo que tiene mas sorpresas preparadas durante esta misma semana. Nada termina de establecerse y las tecnologías siguen avanzando. Mientras la AGI, esa inteligencia artificial general, parece acercarse para ser la pieza de ajedrez que empiece un nuevo juego. No está nada claro quién moverá primero. 

 

10