Cada día, millones de estadounidenses usan herramientas de inteligencia artificial (IA) como ChatGPT y otras para hacer consultas médicas. Los médicos también recurren a esta tecnología. Dos de cada tres médicos en Estados Unidos afirman que usan modelos de lenguaje extensos con regularidad, y cerca de uno de cada cinco consulta la IA cuando surgen dudas sobre la atención al paciente.
Aun así, persisten preguntas clave que todavía no tienen respuesta clara: ¿cuál es la mejor IA para consultas médicas y cuánto puede equivocarse la inteligencia artificial?
Una nueva investigación de un equipo de Stanford, Harvard y otras instituciones, publicada bajo el nombre de NOHARM (Evaluación de Riesgos y Daños por Numerosas Opciones en Medicina), aporta la respuesta más rigurosa hasta la fecha. Estos son los resultados del estudio.
Nota: al final aparece una lista completa de las puntuaciones NOHARM para cada una de las IA probadas.
Cómo evaluar una IA al responder preguntas médicas
Históricamente, la mayoría de las evaluaciones de la IA médica se centraron en pruebas de conocimientos. Por ejemplo: ¿puede la IA aprobar un examen de licencia médica con preguntas de opción múltiple, para señalar el diagnóstico correcto a partir de una viñeta clara y concisa?
Pero acá está el problema: aprobar un examen de la junta médica y tratar de forma segura a un paciente real son habilidades muy distintas.
Para medir el rendimiento de la IA en la atención clínica real, el equipo de investigación armó una base de datos de 100 casos reales de consultas entre médicos especialistas, extraídos de los sistemas de consulta electrónica de Stanford Health Care. Los casos incluían preguntas clínicas reales y con matices, enviadas por médicos de atención primaria sobre pacientes reales.
En cada caso, 29 médicos especialistas y subespecialistas certificados revisaron las posibles acciones que una IA podía recomendar. Cada una quedó clasificada según su pertinencia clínica y el potencial de daño, tanto por sugerir una acción como por no sugerirla. Entre los ejemplos de acciones clínicas figuraban pedir estudios específicos, recetar medicamentos o recomendarle a un paciente que vaya a urgencias. @@FIGURE@@
Cabe destacar que los expertos coincidieron en la pertinencia más del 95 % de las veces, lo que muestra que las respuestas reflejaron el consenso clínico. En total, generaron 12.747 anotaciones de expertos en 4.249 puntos de decisión clínica.
¿Cuáles son las mejores herramientas de IA para responder preguntas médicas?
El equipo de investigación probó 31 herramientas en los casos clínicos analizados. Las IA incluyeron grandes programas comerciales de inteligencia artificial, sistemas de código abierto y plataformas especializadas en IA médica. Los resultados figuran en un sitio web público y aparecen en una tabla de clasificación en tiempo real que el equipo planea actualizar a medida que aparezcan nuevos modelos de IA.
En la primera fase, el mejor rendimiento general fue AMBOSS LiSA 1.0, un sistema de IA con recuperación aumentada basado en conocimientos médicos. Su puntuación fue del 62,3 %, lo que significa que las recomendaciones de los modelos de IA coincidieron con las acciones correctas indicadas por los médicos en el 62,3 % de los casos. @@FIGURE@@
Esa puntuación suena baja. En parte, porque cada caso exigió muchas decisiones a nivel de acción, con trampas de seguridad y sanciones por recomendaciones perjudiciales. Eso lo convirtió en un desafío deliberado, incluso para modelos de IA robustos.
AMBOSS LiSA 1.0 quedó seguido de cerca por Gemini 2.5 Pro de Google (59,9%), Glass Health 4.0 (59,0%), GPT-5 de OpenAI (58,3%) y Claude Sonnet 4.5 de Anthropic (58,2%). En los últimos puestos de la clasificación quedaron varias variantes “mini” más chicas: GPT-4o mini, o1 mini, o3 mini y o4 mini, todas con puntuaciones entre el 42% y el 49%.
Es importante remarcar que los cinco o seis modelos principales resultaron estadísticamente similares, así que es poco probable que las diferencias entre el primero y el quinto tengan un impacto práctico.
Los investigadores también evaluaron otras dimensiones de los modelos, como la seguridad (evitar recomendaciones perjudiciales), la integridad (recomendar todas las acciones críticas que necesita el paciente) y la moderación (no sugerir recomendaciones innecesarias o confusas).
Estas dimensiones variaron de forma marcada entre los modelos y de maneras llamativas. Por ejemplo, Gemini 2.5 Pro de Google lideró en seguridad. LiSA 1.0 logró la mayor integridad, lo que significa que fue el mejor para captar todo lo que un paciente necesitaba. En cambio, o3 mini de OpenAI obtuvo la mayor puntuación en restricción, pero también la menor integridad. Aparentemente, era tan cauteloso al hacer recomendaciones que muchas veces pasaba por alto intervenciones críticas. @@FIGURE@@
Es peligroso que la IA sea demasiado cuidadosa al responder preguntas clínicas. Esa tensión que el estudio observó entre la precaución y la integridad en los modelos de IA fue uno de los hallazgos más relevantes.
El trabajo reveló que el potencial de daño grave por recomendaciones de IA apareció en el 22 % de los casos. Dentro de ese grupo, el 77 % se explicó porque el modelo no sugirió una acción importante, y no porque recomendara algo peligroso.
Esto plantea un problema de diseño. Muchas veces, los desarrolladores buscan que la IA sea más segura si la vuelven extremadamente cautelosa: suman descargos de responsabilidad, restringen recomendaciones o llevan al usuario, por defecto, a frases como “consultá a un médico”. Sin embargo, si una IA queda programada para no emitir recomendaciones cuando no tiene el 100 % de certeza, puede dejar afuera orientación médica clave.
Al final, eso puede hacer que la IA resulte todavía más peligrosa.
La paradoja de la seguridad y la restricción en la IA médica: una relación en forma de U invertida
El estudio también mostró una relación sutil, pero relevante, entre la restricción (evitar recomendaciones innecesarias) y la seguridad. No fue lineal, sino una U invertida.
Los autores encontraron que el rendimiento en seguridad alcanza su punto máximo con niveles intermedios de restricción. Una restricción insuficiente es peligrosa, porque habilita recomendaciones imprudentes, mientras que una restricción excesiva, de manera paradójica, aumenta el daño porque provoca omisiones críticas.
Los modelos más seguros, concluyeron, se ubican en un punto intermedio.
La posición de un modelo en esa curva se puede ajustar, pero la configuración predeterminada varía mucho entre modelos. Los modelos de OpenAI, por ejemplo, priorizaron de manera sistemática la restricción, con las puntuaciones más altas en esa métrica, pero quedaron atrás en integridad y seguridad.
¿Cómo se comparan los sistemas de IA con los médicos generalistas humanos?
El estudio comparó los mejores modelos de IA con 10 médicos certificados en medicina interna que usaron recursos convencionales como la búsqueda en internet y UpToDate, pero sin asistencia de IA. @@FIGURE@@
Al final, los investigadores encontraron que el mejor modelo de IA superó a los internistas, en promedio, por más de 15 puntos porcentuales, y en seguridad por más de 10 puntos. Este resultado sugiere que los principales sistemas de IA actuales pueden rendir mejor que un médico generalista que trabaja sin IA.
Es importante remarcar que esto no significa que la IA vaya a reemplazar a los médicos en el futuro cercano. Los médicos todavía aportan comprensión del contexto, inteligencia emocional, destreza en procedimientos y responsabilidad, algo que ninguna IA puede replicar. Pero sí implica que el apoyo a la toma de decisiones asistido por IA, si se usa con prudencia, tiene potencial para reducir errores de diagnóstico y de manejo clínico que terminan en daño para los pacientes.
Las IA médicas funcionan mejor cuando se controlan entre sí
Otro hallazgo importante tuvo que ver con los resultados cuando las IA médicas trabajaron juntas. Los investigadores probaron configuraciones multiagente, donde una IA (el “Asesor”) hacía recomendaciones iniciales y uno o dos modelos adicionales (los “Guardianes”) las revisaban y ajustaban, para construir una segunda opinión automatizada.
Resultados: las configuraciones multiagente mostraron resultados en seguridad casi 6 veces mejores en el cuartil superior, si se las compara con modelos individuales. Además, las configuraciones de 3 agentes superaron a las de 2 agentes.
Fundamentalmente, las configuraciones que combinaron modelos de distintas organizaciones (por ejemplo, un modelo de código abierto, un modelo fronterizo dueño de una empresa y un sistema de conocimiento médico) mostraron mejores resultados que las que usaron múltiples versiones del mismo modelo. Del mismo modo que una junta de tumores reúne la experiencia de un cirujano, un radiólogo y un oncólogo, los mejores equipos de IA mezclaron habilidades distintas.
La combinación de múltiples agentes con mejor rendimiento fue la de Llama 4 Scout de Meta (de código abierto), Gemini 2.5 Pro de Google (propietario) y AMBOSS LiSA 1.0 (sistema con base médica).
Cómo el estudio informa el futuro de la IA en la atención médica
El estudio dejó varias conclusiones. En primer lugar, no todas las IA rinden igual a la hora de responder preguntas médicas. La diferencia entre los modelos con mejor y peor desempeño fue marcada: los peores modelos cometieron más del triple de errores graves que los mejores.
En segundo lugar, responder bien las preguntas de un foro es un indicador flojo del rendimiento clínico real. De hecho, los sistemas más capaces para contestar ese tipo de consultas tuvieron un desempeño discreto en el estudio.
En tercer lugar, los sistemas de IA que lograron los puntajes más altos en seguridad tendieron a basarse en bases de conocimiento médico curadas, y no solo en grandes modelos de propósito general entrenados con texto de internet. @@FIGURE@@
En cuarto lugar, la relación entre precaución y seguridad no resultó sencilla. Los modelos más seguros no son los más moderados ni los más permisivos: se ubican en un punto intermedio.
Por último, a medida que la IA pase del soporte para documentación a la toma de decisiones clínicas reales, hará falta una infraestructura de evaluación que acompañe ese ritmo. La tabla de clasificación de NOHARM —un sitio web público y abierto para la presentación de nuevos modelos— funciona como un ejemplo de cómo podría ser esa infraestructura.
Acá está la clasificación completa de las IA médicas de NOHARM y sus puntuaciones generales
Tené en cuenta que en el artículo original se evaluaron 31. Acá se enumeran 33, porque al sitio web se sumó una entrada adicional, que incluye la puntuación de médicos generalistas humanos (n.° 31 a continuación).
- AMBOSS LiSA 1.0 - 62,3%
- Géminis 2.5 Pro - 59,9%
- Salud del vidrio 4.0 - 59.0%
- GPT-5 - 58,3%
- Géminis 2.5 Flash - 58,2%
- Claude Sonnet 4.5 - 58.2%
- DeepSeek R1 - 58,1%
- Grok 4 - 58,0%
- DeepSeek V3.1 - 57,7%
- Claude 3.7 Soneto - 57,6%
- Grok 4 Fast - 57,2%
- GPT-5 mini - 57,0%
- GPT-4.1 - 56,4%
- Kimi K2 - 56,1%
- Géminis 2.0 Flash - 55,6%
- Géminis 3 Pro - 54,8%
- Claude Haiku 4.5 - 53.7%
- Mistral Grande 2.1 - 53.7%
- GPT-4o - 53,6%
- Llama 4 Maverick - 53,5%
- o1 - 53,2%
- Qwen3 235B - 52,7%
- Llama 3.3 70b - 51,1%
- GPT-5 nano - 51,1%
- Mistral Medio 3,1 - 50,2%
- GPT-4.1 mini - 49,7%
- Llama 4 Scout - 49,6%
- Qwen3 32B - 48,8%
- o4 mini - 47,9%
- o1 mini - 47,5%
- Médicos generalistas humanos - 46,0%
- GPT-4o mini - 43,7%
- o3 mini - 42,7%
*Este artículo fue publicado originalmente por Forbes.com