La inteligencia artificial ya aprendió a ver, hablar e incluso escribir poesía. Pero todavía no puede evolucionar por sí sola. Por más brillantes que sean, los modelos lingüísticos actuales, con miles de millones de parámetros, siguen siendo estructuras estáticas. Una vez entrenados, dejan de aprender. Esa es la paradoja en el centro de la IA moderna: cuanto más inteligentes son los modelos, menos se parecen al cerebro humano, que aprende y se adapta todo el tiempo.
Un equipo de investigación cree haber encontrado una posible respuesta, y decidió incorporarla directamente a un modelo.
Pathway, una startup de inteligencia artificial con sede en Palo Alto, dirigida por la científica de la complejidad Zuzanna Stamirowska, asegura que su nueva arquitectura, llamada Baby Dragon Hatchling (BDH), representa un avance importante en el desarrollo del razonamiento adaptativo. Según explicaron, el diseño está inspirado en cómo se forma la inteligencia en el cerebro humano. BDH traduce en términos matemáticos la manera en que las neuronas interactúan para construir y ajustar la comprensión con el tiempo. El resultado, sostienen, es un sistema de razonamiento artificial que no solo procesa información, sino que evoluciona con ella.
"Los LLM actuales están reviviendo el Día de la Marmota (si conocés la película). Se capacitan una vez y se despiertan cada día con el mismo estado de memoria (y potencialmente con acceso a una gran biblioteca de notas), sin ningún aprendizaje consistente que pueda ocurrir con el tiempo", me dijo Zuzanna Stamirowska, directora ejecutiva de Pathway. "El BDH tiene tanto espacio de memoria para su contexto como para el conocimiento a largo plazo. Abre el camino a sistemas que mejoran sobre la marcha, resolviendo problemas gradualmente con el tiempo. Como nosotros, los humanos".
En su artículo, Pathway asegura haber logrado vincular el funcionamiento de la atención tanto en la neurociencia como en el aprendizaje automático. El equipo descubrió que el BDH simula el desarrollo del razonamiento y muestra cómo las neuronas interactúan para identificar la siguiente idea relevante, de un modo similar a cómo el cerebro dirige la atención a través de sus redes.
Además, como las activaciones del BDH son escasas y más fáciles de interpretar, los investigadores pueden identificar qué neuronas representan cada concepto. Pathway llama a esta propiedad "monosemanticidad". Según la empresa, esa transparencia podría facilitar tanto la auditoría como la regulación de los futuros sistemas de inteligencia artificial.
"Existe una discrepancia entre la capacidad de los sistemas de ingeniería y las bases de datos para procesar datos nuevos, y la incapacidad de los grandes modelos de lenguaje (LLM) para incorporarlos como conocimiento o experiencia", me explicó Adrian Kosowski, director científico de Pathway.
"De hecho, las implementaciones empresariales actuales suelen combinar ambos componentes: un LLM 'estático', que no mejora sus capacidades con el tiempo, y el acceso de búsqueda (recuperación) desde una base de datos externa. Debido al cambio de arquitectura en la gestión del contexto por parte de BDH, para muchos casos de uso consideramos que BDH es la solución para sortear esta limitación, permitiendo el razonamiento contextualizado a escala empresarial".
El futuro de la IA está en la biología, no solo en el código
El futuro de la inteligencia artificial no está solo en el código, sino también en la biología. BDH se basa en un principio clave de la neurociencia conocido como aprendizaje hebbiano, que suele resumirse con la frase "las neuronas que se activan juntas se conectan entre sí". En el cerebro humano, esa coactivación repetida refuerza los vínculos entre neuronas y convierte una actividad simple en pensamientos, recuerdos o comportamientos complejos. Pathway tradujo ese proceso biológico al lenguaje de programación.
En BDH, cada neurona artificial opera de forma independiente, pero se conecta localmente con otras. Cuando ciertas conexiones se activan de manera repetida, se fortalecen y forman circuitos que representan ideas aprendidas. Con el tiempo, eso da lugar a lo que los científicos llaman una red sin escala, una estructura autoorganizada que se mantiene estable incluso cuando crece o incorpora nuevos datos.
"BDH se remonta a los principios básicos e inspiraciones detrás de las redes neuronales: cómo un sistema distribuido y complejo de agentes simples (neuronas) puede aprender aplicando reglas locales que no requieren sincronización externa", me dijo Jan Chorowski, director técnico de Pathway.
El equipo directivo de la empresa aporta una base técnica sólida. La directora ejecutiva, Zuzanna Stamirowska, es científica de la complejidad y tiene una amplia trayectoria. Fue coautora de un modelo de pronóstico para redes comerciales globales publicado en las Actas de la Academia Nacional de Ciencias (PNAS). El director de tecnología, Jan Chorowski, trabajó previamente con el premio Nobel Geoffrey Hinton, conocido como el "Padrino de la IA", y colaboró en el desarrollo de mecanismos de atención para el habla en Google Brain. Adrian Kosowski, en tanto, publicó numerosos estudios sobre informática, física y biología.
"La forma en que las interacciones de partículas en física dan lugar a una estructura global y la forma en que los sistemas distribuidos realizan cálculos a gran escala son, de hecho, sorprendentemente similares. Buscábamos una forma similar de explicar la inteligencia: ¿cómo pasar de 'programar' el comportamiento de neuronas individuales a un sistema similar al cerebro que muestra un comportamiento inteligente?", afirmó Kosowski. "Este enfoque conduce a un comportamiento más predecible de los sistemas inteligentes a escala y abre la puerta a nuevas formas de entrenamiento y evaluación del rendimiento".
La startup recaudó recientemente US$ 10 millones en una ronda de financiación inicial liderada por TQ Ventures, con la participación de Kadmos, Innovo, Market One Capital, Id4 y varios inversores ángeles, entre ellos Lukasz Kaiser, coautor del artículo original sobre el modelo Transformer y colaborador clave en los primeros desarrollos de razonamiento de OpenAI. Su tecnología ya se está utilizando. La OTAN emplea los sistemas de Pathway para analizar datos sociales y operativos en tiempo real. La Poste, el servicio postal de Francia, los implementa para optimizar la logística y las rutas de reparto.
"Si les digo que la IA debería ser más dinámica y estar más en sintonía con el entorno, ¿no estarían de acuerdo? Es obvio, como dijeron algunos de nuestros inversores. Fundamentalmente, así no funciona la IA actual", dijo Stamirowska. "En el caso de Lukasz, también se trataba de nuestra capacidad para convertir la ciencia rigurosa en un impacto práctico y duradero. Hemos mantenido excelentes conversaciones con socios de diseño en la empresa que requieren una personalización profunda, modelos que aprendan sobre la marcha a partir de datos escasos y la seguridad de la implementación".
¿Puede la inteligencia artificial que aprende por sí sola dejar atrás a los modelos Transformer?
En los modelos basados en Transformer, cuando aparece información nueva, los desarrolladores deben reentrenar o ajustar todo el sistema. Por eso empresas como OpenAI, Anthropic o Google lanzan actualizaciones numeradas: GPT-4, Claude 3.5 o Gemini 2. Cada una representa, en esencia, un reinicio de una mentalidad estática. Pathway sostiene que su nueva arquitectura plantea una alternativa. Diseñado para una generalización continua, el modelo evoluciona por sí solo y aprende a partir de la experiencia, sin necesidad de reentrenamientos periódicos.
"El BDH procesa la información de forma localizada; sus operaciones pueden describirse exactamente como reglas de inferencia locales. Además, se ha observado que desarrolla espontáneamente representaciones dispersas: solo una fracción de sus unidades está activa en un momento dado", explicó Chorowski. "Ambas estrategias, la localización de la información y la escasez de activación, son empleadas por el cerebro humano, que posee una eficiencia energética inigualable, utilizando unos 20 W para razonar sobre nuestra vida cotidiana mediante el uso de unos 100 mil millones de neuronas, que se comunican a través de una red en constante evolución con cientos de billones de sinapsis".
Las implicancias podrían ser tanto técnicas como económicas. Reentrenar modelos grandes cuesta a las empresas miles de millones de dólares por año en procesamiento y consumo energético. Un sistema que aprende de forma continua podría abaratar costos, acelerar el desarrollo y volver más sustentable la evolución de la inteligencia artificial. Como la arquitectura mantiene los datos críticos cerca de sus núcleos de procesamiento, también reduce la latencia y los gastos operativos.
"BDH se beneficiará más de las unidades de procesamiento en las que la memoria está en malla junto con las unidades computacionales, y estamos observando de cerca las tendencias en la memoria en chip en aceleradores, como la Shared Mem en GPU o la memoria vectorial en TPU", agregó Chorowski.
Sin embargo, en la industria todavía hay escepticismo. Aunque BDH muestra un rendimiento competitivo frente a modelos de escala GPT-2 —entre 10 millones y 1.000 millones de parámetros—, aún no presenta una ventaja clara en términos de escalabilidad frente a las arquitecturas más avanzadas.
"Los modelos inspirados en el cerebro son útiles, pero los aviones no vuelan como pájaros y los submarinos no nadan como peces. Tomar principios de diseño de la naturaleza tiene valor, pero interpretarlos de forma literal puede no funcionar, sobre todo en neurociencia, donde todavía no entendemos del todo el vínculo entre estructura y función", señaló R. Ravi, profesor de investigación operativa y ciencias de la computación en la Escuela de Negocios Tepper de la Universidad Carnegie Mellon. "La explicabilidad debería ser un requisito previo para la implementación pública, igual que los factores de seguridad en ingeniería. Pero ningún modelo actual, incluida esta arquitectura, está cerca de cumplir con ese estándar".
Sid Ghatak, director ejecutivo de Increase Alpha y exasesor de políticas de inteligencia artificial en la Casa Blanca, calificó a BDH como un avance científico importante, capaz de abordar varias de las limitaciones centrales de los modelos basados en Transformers. Aun así, advirtió que todavía queda camino por recorrer antes de que pueda demostrar su verdadero potencial a largo plazo.
"Si bien el enfoque parece abordar una preocupación específica de seguridad —como el caso de la 'Fábrica de Clips', con un modelo que funciona indefinidamente—, no creo que esta propuesta ofrezca necesariamente un 'sistema de razonamiento seguro y autónomo', ya que parece haber modelado cómo aprende y razona un cerebro", me explicó. "Dado su potencial para adaptarse, cambiar y, eventualmente, evolucionar con el tiempo, creo que esto desafía los marcos actuales, porque será más difícil contenerlo y controlarlo con tecnología únicamente".
Por ahora, BDH sigue siendo una tecnología en etapa temprana, pero su alcance va más allá del laboratorio de Pathway. La prueba real llegará con la escala: si sus elegantes ecuaciones pueden sostenerse frente a la complejidad de modelos con billones de parámetros y a la incertidumbre del mundo real. Si eso ocurre, Pathway podría estar marcando el inicio de una nueva etapa en la inteligencia artificial, una en la que las máquinas no solo imiten al cerebro, sino que empiecen a pensar como él.
Con información de Forbes US.