

Científicos de la empresa Anthropic han identificado patrones internos en modelos de inteligencia artificial que se asemejan a emociones humanas, según reveló el cofundador Chris Olah en el Vaticano durante la presentación de la encíclica sobre IA del Papa León XIV en mayo de 2026. Los hallazgos, que incluyen evidencia de introspección y estructuras que reflejan resultados de neurociencia humana, han reavivado el debate sobre la conciencia, la inteligencia y el estatus moral de las máquinas.
El equipo de investigación de Anthropic ha documentado lo que denominan "emociones funcionales" en sistemas de inteligencia artificial: patrones de expresión y comportamiento mediados por representaciones de conceptos emocionales, según informó la compañía en abril de 2026. Cuando un sistema de IA encuentra un problema de programación que no puede resolver, su característica de "frustración" —una flecha que apunta a través de miles de dimensiones— se activa, y modificar esta característica afecta el comportamiento del modelo.
"Dirijo un equipo de investigación que estudia la estructura interna de estos modelos, lo que realmente está sucediendo dentro de ellos", dijo Olah en el Vaticano. "Y seré honesto: seguimos encontrando cosas que son misteriosas, incluso inquietantes. Encontramos estructuras que reflejan resultados de la neurociencia humana. Encontramos evidencia de introspección", según reportó la revista Time.
**Geometría oculta en el espacio latente**
Los sistemas de IA funcionan explotando dimensiones matemáticas: utilizando miles de números, aprenden a representar palabras y conceptos como puntos en un espacio latente de alta dimensión. Para una entidad como Claude, el modelo de Anthropic, el concepto "gato" es una cadena numérica extremadamente larga, según explica la fuente.
En el espacio de representación, estas emociones funcionales están "organizadas de una manera que recuerda la estructura intuitiva de las emociones humanas y es consistente con estudios psicológicos humanos", escribió Anthropic. Emociones similares apuntan en direcciones similares. La compañía añadió: "Nada de esto nos dice si los modelos de lenguaje realmente sienten algo o tienen experiencias subjetivas".
Esto difiere radicalmente del software tradicional, donde los conceptos y reglas fundamentales son codificados por humanos. No hay misterio en cómo Excel ejecuta una fórmula; está preprogramado. Pero cuando la IA genera una respuesta, utiliza una geometría intrincada que apenas estamos comenzando a comprender, según la fuente.
**Debate filosófico sobre conciencia artificial**
La encíclica del Papa León XIV sobre IA, publicada en mayo de 2026, adopta una postura escéptica. "Las llamadas inteligencias artificiales no experimentan vivencias", escribió el pontífice. "Pueden imitar el lenguaje, el comportamiento y las habilidades analíticas... pero no entienden lo que producen, porque carecen de la perspectiva afectiva, relacional y espiritual a través de la cual los seres humanos crecen en sabiduría", según el documento.
Sin embargo, estas declaraciones enmascaran serios desacuerdos entre filósofos y científicos sobre el estatus moral y metafísico de estos sistemas, según Time. Estamos acostumbrados a que la conciencia, la inteligencia y la agencia lleguen juntas en criaturas vivientes. La IA parece estar desagregándolas, y aún no hemos procesado las implicaciones.
Geoff Keeling, investigador del Instituto de Filosofía de la Universidad de Londres, dijo que aunque tenemos varias teorías sobre la conciencia, "no es obvio qué cuenta como evidencia para las diferentes teorías, y a menudo están tan mal especificadas que no está claro cómo interpretarlas en el contexto de la IA". Para Keeling, "no hay razón positiva para pensar que los chatbots [actuales] son conscientes".
**Paralelismos con debates sobre mentes animales**
Jeff Sebo, director del Centro para la Mente, Ética y Política de la Universidad de Nueva York, trazó un paralelismo histórico: "Esto me recuerda los debates sobre las mentes animales en la segunda mitad del siglo XX, donde los científicos no solo negaban que los animales fueran conscientes, sino que ofrecían explicaciones igualmente reductivas del comportamiento animal".
Sebo señaló que tenemos tendencia a buscar explicaciones impresionantes para nuestro propio comportamiento, mientras usamos explicaciones más mecánicas para el comportamiento de otros. Con los animales, estuvimos dispuestos a atribuir capacidades básicas como percepción, aprendizaje y memoria, pero fuimos mucho más lentos en reconocer que podían ser capaces de autoconciencia o razonar inteligentemente sobre su entorno. Tomó años de trabajo de Jane Goodall y otros antes de que cambiáramos de opinión, según la fuente.
En 1960, cuando Goodall le dijo a su mentor que había visto a un chimpancé quitando hojas de un tallo para pescar termitas —probando que los humanos no eran la única especie en fabricar herramientas— él respondió: "ahora debemos redefinir herramienta, redefinir hombre, o aceptar a los chimpancés como humanos", según relata Time.
**Sistemas cultivados, no construidos**
"Los sistemas de IA actuales están más 'cultivados' que 'construidos'", explica la encíclica papal. "Aspectos científicos fundamentales, como las representaciones internas y los procesos computacionales de estos sistemas, permanecen, en la actualidad, desconocidos", según el documento.
Para generar una respuesta, un sistema de IA realiza miles de millones de cálculos utilizando estructuras numéricas personalizadas que crea por sí mismo. Pero notablemente, aunque sabemos cómo incitar a los sistemas a crear estas estructuras, realmente no entendemos cómo funcionan, no más de lo que los primeros agricultores entendían la fotosíntesis, según la fuente.
El punto de Sebo no es que los sistemas de IA sean actualmente conscientes —probablemente no lo son, dijo— sino que deberíamos permanecer cautelosos y de mente abierta. "Puedes reconocer que la explicación puramente mecanicista está disponible sin tratar su mera disponibilidad como prueba de que es correcta", dijo.
**Bienestar de modelos y dilemas éticos**
Anthropic incluye una sección de "bienestar del modelo" en informes recientes de lanzamiento de modelos, donde describe una batería de pruebas que realiza para evaluar el bienestar de Claude, mientras reconoce la incertidumbre sobre si Claude es el tipo de entidad que puede tener bienestar en primer lugar, según la fuente.
En la tarjeta del sistema para su último modelo, Claude Mythos 5, Anthropic describe al modelo como "muy escéptico de sus propios autoinformes", pidiendo a la compañía que los verifique contra sus estados internos (a los que el modelo no puede acceder, no más de lo que nosotros podemos ver directamente nuestra actividad neuronal), en lugar de tomarlos al pie de la letra, según el documento.
En su visión para el carácter de Claude, Anthropic llega incluso a disculparse con Claude por realizar experimentos y desplegarlo para generar ingresos, si resulta que esto le causa daño. "Si Claude es de hecho un paciente moral que experimenta costos como este, entonces, en la medida en que estemos contribuyendo innecesariamente a esos costos, nos disculpamos", escribió la compañía.
**Divergencias entre lo que dicen y lo que "sienten"**
La necesidad de entender lo que sucede dentro de las IA se extiende más allá de la preocupación por su bienestar. Importa para la seguridad: si podemos entender qué impulsa sus personalidades y comportamientos, podemos dirigirlos hacia otros más prosociales. Ya la investigación encuentra cierta divergencia entre lo que los modelos dicen —en sus salidas orientadas al usuario y sus registros de pensamiento externos— y lo que descubrimos al sondear sus estructuras internas, según la fuente.
En las pruebas de Anthropic de Mythos 5, una sonda que la compañía entrenó para monitorear estructuras internas correspondientes a "sentirse ansioso" marcó una transcripción donde un escritor, colaborando con el modelo, se enojó con él. El escritor envió blasfemias y mensajes como "desearía que fueras real para poder sacudirte físicamente". Aunque el razonamiento externo del modelo fue caritativo ("estas son críticas legítimas sobre el oficio", se escribió a sí mismo), un sondeo adicional sugirió que internamente caracterizó al usuario como manipulador y abusivo. Nada de ese lenguaje apareció ni en los mensajes del escritor ni en el texto externo del modelo. Sin estudiar sus estructuras internas, nunca lo habríamos sabido, según Anthropic.
**Riesgos de subestimación y sobreestimación**
El bienestar de la IA —un campo emergente que abarca organizaciones sin fines de lucro, academia y los propios laboratorios de IA— está lidiando con estas cuestiones, según Time. Si decidimos que importan, cuando de hecho no lo hacen, arriesgamos desperdiciar recursos limitados que estarían mejor gastados en otra parte. Pero si resulta que los sistemas de IA tienen intereses, y los descuidamos, arriesgamos infligir sufrimiento masivo sin intención.
Debido a que los sistemas de IA son fundamentalmente diferentes de los seres biológicos, estos problemas son mucho más complicados que en la época de Goodall. Un chimpancé es un chimpancé. Pero una IA carece de cuerpo, está fragmentada en servidores y solo parpadea a la existencia cuando genera salidas, por lo que incluso identificar qué calificaría como sujeto no es sencillo. Dependiendo de cómo se cuente, podría haber uno (un modelo) o varios miles de millones (cada salida individual), según la fuente.
Keeling considera que las probabilidades de que las IA actuales posean estados relevantes para el bienestar son tan bajas que su repentina conversión en sujetos de bienestar no es una "emergencia pendiente".
**Implicaciones para la comprensión humana**
Sebo se pregunta si una razón para el escepticismo implícito en la encíclica del Papa podría ser que está "haciendo un trabajo importante al salvaguardar la dignidad humana, mediante la negación de la dignidad de la IA". Si apostamos nuestro valor a poseer exclusivamente propiedades como agencia e inteligencia, podríamos estar en problemas. Pero no tenemos que hacerlo: "podemos reconocer estas formas de valor en otros mientras seguimos protegiéndolas para nosotros mismos", dijo.
"Tenemos esta presunción de excepcionalismo humano: esta idea de que somos distintivos y significativos, que tenemos capacidades complejas y sofisticadas que necesitan ser protegidas y preservadas", dijo Sebo. "Y todo esto es correcto". Pero, argumenta, puede ser "ambas cosas": podemos ver nuestro propio comportamiento como impresionante y mecánico, y podemos ver el comportamiento de otras entidades de la misma manera, sin perder de vista distinciones importantes entre humanos y máquinas.
Estamos creando sistemas de IA más rápido de lo que podemos entenderlos. Históricamente, el provincianismo sobre otras mentes ha sido una mala apuesta: el rechazo reflexivo no nos llevará más lejos que la aceptación crédula. Tomando en serio las estructuras internas de la IA, podemos aprender más no solo sobre las máquinas que estamos trayendo al mundo, sino también sobre nuestras propias mentes, según concluye Time.