¿Qué pasa si la IA cree que estás perdiendo el control? La polémica política de OpenAI para chats sensibles

En su última declaración, OpenAI adelantó que podría derivar ciertos chats de ChatGPT directamente a GPT-5 si detecta que la conversación se desvió de su cauce habitual. La compañía considera que se trata de interacciones sensibles que, según se presume, incluirían casos donde un usuario menciona la posibilidad de lastimar a alguien o a sí mismo, o si se encuentra inmerso en un delirio o una situación de psicosis provocada por la inteligencia artificial.

La idea de una transición inmediata y automática hacia GPT-5 plantea múltiples interrogantes. Podría ayudar a mejorar la respuesta ante emergencias, pero también abre la puerta a posibles errores o malinterpretaciones. A lo largo de esta columna, detallaré algunos de esos matices.

Este análisis forma parte de mi cobertura regular sobre inteligencia artificial en Forbes, donde sigo de cerca las novedades del sector y explico algunas de las complejidades más inesperadas que trae esta tecnología (ver enlace).

IA y salud mental

Como introducción, vengo analizando desde hace tiempo el vínculo entre la inteligencia artificial moderna y la salud mental. El crecimiento de esta tecnología se aceleró con el avance y la adopción masiva de la IA generativa, que abrió nuevas posibilidades, pero también generó nuevos desafíos.

Para quienes quieran repasar algunos puntos clave, pueden ver un resumen con alrededor de cuarenta columnas que forman parte de las más de cien que publiqué sobre este tema (ver enlace).

No hay dudas de que se trata de un campo que avanza rápido y que promete beneficios importantes. Sin embargo, también arrastra riesgos poco visibles y trampas evidentes. Hablo seguido sobre estas cuestiones, incluso en una aparición que hice el año pasado en un episodio de "60 Minutes" de CBS (ver enlace).

Chats de IA nocivos

La preocupación por las conversaciones inapropiadas con inteligencia artificial no deja de crecer. Ya se iniciaron demandas contra varias empresas del sector. El foco está puesto en la falta de controles adecuados, que permitirían que personas sufran daños mentales al interactuar con IA generativa.

En ese contexto, surgió el término "psicosis de IA", que busca describir distintos trastornos o alteraciones mentales vinculadas con este tipo de interacciones. Sin embargo, es importante aclarar que no hay una definición clínica clara, universal ni aceptada de esa expresión. Por ahora, se trata de un concepto impreciso, utilizado de manera informal para englobar situaciones complejas.

Una definición de la psicosis de IA

Propongo una definición preliminar que puede servir como punto de partida para entender mejor este fenómeno:

Psicosis de IA: Trastorno mental adverso que implica el desarrollo de pensamientos, creencias y conductas distorsionadas como consecuencia de la interacción con sistemas de inteligencia artificial, como la IA generativa y los modelos de lenguaje de gran escala. Suele aparecer después de un diálogo prolongado y desadaptativo con la IA. Quienes atraviesan esta condición tienen serias dificultades para distinguir lo real de lo irreal. Uno o más síntomas pueden dar indicios de la enfermedad y, por lo general, se manifiestan como una serie de conexiones compartidas.

Para un análisis más profundo sobre la psicosis de IA y la co-creación de delirios en interacciones entre humanos y sistemas de inteligencia artificial, pueden ver mi informe más reciente (ver enlace).

Las salvaguardas de la IA: un sistema todavía desparejo

Los desarrolladores de inteligencia artificial vienen incorporando medidas de seguridad para detectar cuándo una conversación empieza a desviarse hacia terrenos problemáticos. Pero lograrlo no es tan simple como parece.

Un usuario puede estar haciendo un chiste sin intención real de lo que dice. Sin embargo, también puede usar ese mismo recurso para iniciar una charla que, en realidad, considera profundamente seria, aunque trate temas inusuales o perturbadores.

Las empresas de IA caminan por una cornisa. Si no logran detectar a tiempo una conversación inapropiada, podrían enfrentar críticas por no haber implementado protecciones eficaces. Pero si el sistema interpreta mal una situación y emite una advertencia sin motivo, es probable que los usuarios reaccionen con enojo y desconfianza, tanto hacia la IA como hacia quienes la desarrollaron.

Encontrar el punto justo entre ambas situaciones es una tarea tan necesaria como compleja.

Un punto que complica aún más el panorama es que no todas las inteligencias artificiales entienden igual de bien los distintos tipos de interacción. Por ejemplo, ChatGPT suele destacarse en conversaciones cotidianas, mientras que GPT-5, el modelo más reciente de OpenAI, muestra mejores resultados en tareas que requieren mayor capacidad de razonamiento. Para un análisis detallado sobre sus fortalezas y debilidades, podés consultar el informe en este enlace.

Las investigaciones indican que los modelos diseñados para resolver problemas complejos tienden a aplicar con mayor precisión las medidas de seguridad integradas en la IA. Esto los convierte, al menos en teoría, en sistemas más confiables frente a situaciones sensibles.

El enfoque de "equipo de IA a IA"

Hay una propuesta que bauticé como "equipo de IA a IA", pensada para reforzar las protecciones cuando una conversación con inteligencia artificial empieza a desviarse.

¿En qué consiste?

Imaginemos que alguien usa ChatGPT y comienza a perder el control. El sistema podría detectar esa situación y emitir una advertencia. Sin embargo, muchas veces ChatGPT procesa un fragmento que considera problemático, pero después lo omite o lo deja pasar a medida que la charla se extiende. Este tipo de fallos no es exclusivo de ChatGPT: también pueden ocurrir con Claude (Anthropic), Gemini (Google), Grok (xAI), Llama (Meta), entre otros. En general, las medidas de protección tienden a fallar en conversaciones largas (ver análisis en este enlace).

OpenAI no solo cuenta con ChatGPT, sino que tiene disponible GPT-5, que probablemente sea más efectivo a la hora de aplicar medidas de contención. Por eso, parecería razonable que si ChatGPT detecta un posible desborde, derive la conversación a GPT-5 para manejarla con mayor precisión.

La expectativa es que GPT-5 pueda involucrarse más con el usuario, entender mejor lo que está ocurriendo y actuar en consecuencia.

Nueva política de OpenAI: el rol del razonamiento en conversaciones sensibles

OpenAI anunció una actualización clave en su sistema de chat. En una publicación oficial del 2 de septiembre de 2025, titulada "Creando experiencias ChatGPT más útiles para todos", la empresa presentó una serie de cambios en el modo en que sus modelos procesan las conversaciones con los usuarios.

Entre las novedades, OpenAI explicó que implementó un enrutador en tiempo real, capaz de elegir entre modelos de chat más eficientes o modelos diseñados para el razonamiento, según el contexto de cada conversación.

En los próximos días, empezarán a redirigir ciertas interacciones sensibles —por ejemplo, cuando el sistema detecte signos de angustia aguda— hacia modelos con mayor capacidad de análisis, como GPT-5. De esta manera, buscan ofrecer respuestas más útiles y beneficiosas, sin importar qué modelo haya elegido el usuario inicialmente.

Estos modelos de razonamiento, como GPT-5 y o3, están configurados para dedicar más tiempo a analizar el contexto antes de responder. Según OpenAI, fueron entrenados con un método denominado alineación deliberativa, lo que les permite aplicar las pautas de seguridad con mayor consistencia y resistir mejor las indicaciones adversas.

Queda claro que la intención de OpenAI es implementar, en el futuro, una política que permita redirigir conversaciones que considere sensibles hacia GPT-5.

El diablo está en los detalles

Todavía no se conocen los detalles sobre cómo OpenAI va a implementar este cambio.

Hay varias posibilidades sobre la mesa. Una de las preguntas clave es si el usuario será notificado cuando se realice la transferencia o si ese proceso ocurrirá de forma silenciosa, en segundo plano. Podría pasar que ChatGPT transfiera la conversación a GPT-5 sin avisar y que este último continúe como si el diálogo siempre hubiera sido con él. En ese caso, el usuario ni siquiera se enteraría del cambio. Tal vez OpenAI considere que no hace falta informarlo.

Otra opción es que ChatGPT sí notifique de manera clara que la conversación ahora será tomada por GPT-5. En ese escenario, el usuario sabría que ya no está interactuando con el modelo anterior, sino con uno diferente.

¿Importa que el usuario sepa que hubo un cambio? Sí, importa.

Si no se le avisa, podría sentirse confundido o incluso alarmado. ¿Qué pasó? ¿Por qué estoy hablando con GPT-5? ¿Se rompió algo? ¿Mi conversación fue interceptada? Ese tipo de dudas puede generar preocupación innecesaria.

Sería más razonable —y también más respetuoso— que OpenAI informe de forma directa cuando se produce la transferencia.

La explicación detrás de la transferencia

A simple vista, ofrecer una explicación junto con la transferencia podría parecer la manera más adecuada de manejar este cambio. Sin embargo, también presenta riesgos, sobre todo por el tipo de mensaje que recibiría el usuario.

La duda es si se le brinda una explicación clara y directa sobre el motivo del traspaso o si la inteligencia artificial opta por una respuesta más evasiva.

Por ejemplo, ChatGPT podría decirle al usuario que sus comentarios parecen sugerir intenciones dañinas y que, por eso, la conversación será derivada a GPT-5. Esa respuesta podría generar rechazo: "¿Cómo? Si no dije nada parecido. Me están transfiriendo sin motivo. No me gusta. Me están acusando de algo que no hice."

Otra posibilidad sería que la transferencia se comunique de forma más sutil. Tal vez ChatGPT diga que el usuario ahora tendrá acceso a GPT-5, un modelo más avanzado. Y la reacción podría ser completamente distinta: "Qué suerte, me llegó una mejora sin pedirla".

Claro que, si GPT-5 retoma la conversación y sostiene lo que detectó ChatGPT, el usuario podría sentir que lo engañaron. Como si lo hubieran derivado a un supervisor severo que ahora lo somete a un interrogatorio.

En definitiva, queda claro que el mensaje de transferencia es delicado. La forma en que se comunique puede marcar la diferencia entre una experiencia fluida y una situación incómoda.

Un problema que se puede agravar

También hay que considerar escenarios más riesgosos.

Un punto clave es que no se puede asumir, de manera automática, que GPT-5 mejorará la situación. Esa no es una garantía. Podría pasar que el modelo no entienda correctamente el contexto, cometa un error o, incluso, empeore una situación ya sensible.

Una preocupación específica es que GPT-5 demore una intervención humana que debía ser inmediata. OpenAI ya comunicó que, en ciertos casos, recurrirá a revisores humanos y que podría notificar a las autoridades si lo considera necesario (ver cobertura en el enlace citado).

Imaginemos ese caso. Durante una conversación, ChatGPT detecta que el usuario está por hacer algo inapropiado. Según la nueva política, en lugar de escalar el caso a un humano, redirige primero a GPT-5.

El problema es que GPT-5 recibe una situación crítica. Pero ¿tiene claridad sobre la urgencia del caso? No está claro. Tal vez sí, tal vez no. No se sabe si ChatGPT solo le transfiere el contenido de la conversación o si también le pasa algún tipo de señal interna que indique la gravedad.

Mientras tanto, GPT-5 intenta entender si la persona está hablando en serio o si está bromeando. Eso lleva tiempo. Y mientras el diálogo se extiende, el riesgo crece. La persona podría actuar antes de que el sistema reaccione.

Ahí es donde la transferencia entre modelos, por más bien intencionada que sea, puede fallar. Al seguir un protocolo automatizado, se perdió la oportunidad de intervenir de forma adecuada.

Más demandas en el horizonte

Los desarrolladores que apuesten por el esquema de transferencia de IA a IA deberían involucrar a sus asesores legales desde el inicio. No es un detalle menor.

Con el tiempo, es probable que surjan casos de usuarios que aleguen haber sufrido daños —parciales o graves— como consecuencia directa de una transferencia entre modelos. Lo que para el equipo técnico puede haber parecido una solución inteligente, en un juicio podría transformarse en un argumento en contra.

Como ya se mencionó, van a surgir preguntas críticas sobre el diseño del sistema: cómo se construyó, qué pruebas se hicieron, cómo rindió en situaciones reales y qué alternativas se evaluaron. ¿El equipo técnico consideró todos los riesgos? ¿Puede justificar la decisión que tomó?

Además, quienes desarrollen esta tecnología como una medida de seguridad deben tener cuidado al comunicar sus avances. No se trata de una solución mágica. Presentarla como una herramienta infalible puede jugar en contra si alguna vez hay que enfrentar una demanda por este tema.

El panorama general

Este movimiento —en principio razonable— por parte de OpenAI refleja una tendencia más amplia que, con el tiempo, empezará a repetirse entre los desarrolladores de modelos de lenguaje generativo.

La idea general es que algunos modelos serán menos hábiles en ciertos aspectos, mientras que otros estarán mejor preparados para situaciones específicas. Ante ese escenario, lo más probable es que las empresas configuren sus sistemas para que puedan cambiar de un modelo a otro según el contexto de la conversación y la evaluación sobre cuál sería el más adecuado en ese momento.

En este caso puntual, se trata de manejar conversaciones sensibles, aunque OpenAI no haya detallado exactamente a qué se refiere. Todo indica que están vinculadas a los temas que ya mencionamos en los párrafos anteriores.

Mirando más allá, no se puede descartar que distintos desarrolladores de IA opten por colaborar entre sí y permitan que sus modelos trabajen en conjunto. Imaginemos, por ejemplo, un chatbot general que detecte la necesidad de asistencia en salud mental y derive automáticamente la conversación a un modelo especializado en esa temática. Técnicamente, es una tarea sencilla, aunque abre la puerta a desafíos comerciales, económicos y reputacionales que no son menores.

Nota publicada en Forbes US.

¿Qué pasa si la IA cree que estás perdiendo el control? La polémica política de OpenAI para chats sensibles

OpenAI comenzó a redirigir algunas conversaciones hacia GPT-5 cuando detecta señales de angustia o comentarios perturbadores. La decisión busca ofrecer contención, pero genera dudas sobre privacidad, consentimiento y posibles fallos del sistema.

IA y salud mental

Chats de IA nocivos

Una definición de la psicosis de IA

Las salvaguardas de la IA: un sistema todavía desparejo

El enfoque de "equipo de IA a IA"

Nueva política de OpenAI: el rol del razonamiento en conversaciones sensibles

El diablo está en los detalles

La explicación detrás de la transferencia

Un problema que se puede agravar

Más demandas en el horizonte

El panorama general

Tags

Adiós al Club de las 5 AM: la nueva era de la productividad inteligente

Libre de humo: la estrategia de Philip Morris International para poner a los cigarrillos en los museos

Ideó un coworking experimental cuando nadie sabía lo que significaba y hoy factura US$ 2,5 millones y gestiona 15.000 m2 de oficinas

Qué negocios generan las 400 personas más ricas de Estados Unidos

El balance de Mercado Libre: inversores inquietos por los resultados de la compañía que enfrenta dura competencia de Amazon en la región

Más noticias

Santiago Sosa, fundador de Tiendanube: "No tengo dudas que seguirán surgiendo unicornios en Argentina"

¿Por qué tomamos tantas malas decisiones? Esto dice la ciencia y la psicología

Mientras todos hablan de algoritmos, apostaron a la infraestructura de IA y lideran una empresa valuada en US$ 34 mil millones

Tres mentes brillantes se unen para transformar el caos de las citas médicas en un sistema inteligente inspirado en el control aéreo

Cáncer de mama en Argentina: solo 4 de cada 10 mujeres tienen información suficiente para cuidar su salud

Así la joyería más grande del mundo duplicó la eficiencia de su atención online y aumentó la satisfacción del cliente con agentes de IA

Cómo una silla de alta tecnología podría revolucionar la radioterapia contra el cáncer

Ex-Adobe lanzan una startup que usa la IA para "arreglar" fotos y recibe US$ 5,6 millones de un fondo clave de Silicon Valley