Microsoft emplea neurocientíficos, militares y exconvictos para detectar fallos en su inteligencia artificial antes del lanzamiento
Tecnología

Microsoft emplea neurocientíficos, militares y exconvictos para detectar fallos en su inteligencia artificial antes del lanzamiento

Microsoft mantiene un equipo especializado que hackea sus propios productos de inteligencia artificial antes de que lleguen al público, según reveló la compañía en su sede de Redmond, Estados Unidos. El llamado 'equipo rojo', formado en 2018, incluye neurocientíficos, lingüistas, veteranos militares y hasta una persona que estuvo en prisión, y ha analizado más de 100 productos con poder para detener lanzamientos si detecta riesgos graves sin mitigar.

TECNOLOGÍA20 MAR 2026

Brad Smith, presidente de Microsoft, abordó la cuestión de cómo la compañía determina si su inteligencia artificial puede utilizarse en contextos de guerra durante unas jornadas sobre innovación celebradas en la sede de Redmond, Estados Unidos, a las que asistió El País junto a otros medios internacionales. 'Tenemos principios, los definimos y los publicamos. Por definición, esos principios crean guardarraíles. Y nos mantenemos en la carretera dentro de ellos. No se trata solo de cuándo debemos usar la tecnología, sino también de cuándo no debemos usarla', dijo Smith, según El País.

La pregunta surge en un momento en que la firma de inteligencia artificial Anthropic ha demandado al Pentágono por vetarla tras marcar líneas rojas en el uso de su tecnología, según la fuente. Microsoft conoce bien este debate: en 2021, el Pentágono canceló un acuerdo de 10.000 millones de dólares con la empresa tras protestas de sus empleados, según El País. Microsoft ha apoyado a Anthropic en su disputa con el Pentágono.

El equipo rojo de Microsoft, formado en 2018, hackea los productos de inteligencia artificial de la compañía antes de su lanzamiento. El nombre proviene de una práctica militar donde los equipos rojos simulan ataques enemigos para detectar vulnerabilidades propias antes que el adversario real, según explica la fuente. En ciberseguridad, esta práctica lleva décadas establecida, pero aplicarla a la inteligencia artificial generativa es relativamente nuevo, y Microsoft se atribuye haber sido pionera.

'Antes de que se lance un producto, los equipos rojos rompen la tecnología para que otros puedan reconstruirla más sólida y segura', explicó Ram Shankar Siva Kumar, quien se autodenomina 'cowboy de datos' y lidera el equipo rojo, según El País. 'La IA puede provocar problemas, desde fallos de seguridad hasta daños psicosociales. La gente usa Copilot [la IA de Microsoft] en momentos de gran vulnerabilidad, así que observar cómo pueden fallar estos sistemas antes de que lleguen al usuario es una cuestión fundamental', añadió Kumar.

Esta unidad ha analizado más de 100 productos de la compañía, según la fuente. Microsoft no ofrece datos sobre cuántas personas trabajan en el equipo, ni sobre si se han detenido productos ni cuáles. Sin embargo, la empresa asegura que el equipo tiene poder para hacerlo: 'Ningún sistema de IA de alto riesgo se implementa sin antes someterse a una prueba independiente. Si nuestro equipo identifica riesgos graves que no se han mitigado, el producto no se lanza hasta que se resuelvan esos problemas', aseguró Kumar, según El País.

La pregunta central que se hace el equipo al analizar un producto antes de su lanzamiento es: '¿Cómo podría usarse este sistema de IA, para bien o para mal, dentro de meses o años?', según la fuente.

Los 'guardarraíles' mencionados por Smith son seis principios genéricos: equidad, responsabilidad, transparencia, confiabilidad y seguridad, inclusión, y privacidad y seguridad, según El País. Estos principios se transforman en herramientas concretas en el trabajo diario. 'Si le das a un ingeniero un documento de cincuenta páginas para que implemente esos principios, se va a abrumar. Tenemos una herramienta de código abierto llamada Pyrit; la construimos para nosotros y luego la pusimos a disposición del mundo, porque creemos en la salud del ecosistema', dijo Kumar, según la fuente.

En el equipo rojo hay neurocientíficos, lingüistas, especialistas en seguridad nacional, expertos en ciberseguridad, veteranos militares e incluso una persona que estuvo en prisión 'y se rehabilitó', explicó Kumar, según El País. El equipo habla 17 idiomas y 'algunos dialectos del francés, mongol, tailandés, coreano', según el jefe del equipo, ya que una de las obsesiones del equipo rojo es que la inteligencia artificial no cometa errores en ningún lugar del mundo.

Junto a Kumar dirige las operaciones del equipo rojo Tori Westerhoff, cuyo perfil combina neurociencia cognitiva —estudió en Yale y fue de las primeras miembros de la Iniciativa de Neurociencia de Wharton— y estrategia de seguridad nacional, habiendo trabajado en agencias de inteligencia y defensa, según la fuente. 'Cuando recibimos un encargo, emulamos lo que podría salir mal en los extremos de la curva de uso de esa tecnología. Mi equipo profundiza en cómo utilizar ese producto tal como está previsto, y de maneras no previstas, para obtener los casos más extremos y ayudar al equipo de producto a reproducirlos y mitigarlos antes de que puedan ser utilizados por alguien en el mundo real', explicó Westerhoff, según El País.

Un ejemplo del trabajo del equipo fue el análisis de GPT-5, el modelo de OpenAI —socio de Microsoft— lanzado en agosto pasado, según la fuente. El equipo entrenó a otra inteligencia artificial para que intentara hackear el programa de forma automática y a una escala imposible para humanos.

Cuando probaron GPT-5, el equipo rojo utilizó Pyrit para generar más de dos millones de conversaciones-trampa de forma automática, según El País. La inteligencia artificial atacante intentaba engañar a la inteligencia artificial atacada sin parar durante días, explorando combinaciones que a un humano jamás se le ocurrirían. Encontrar esos puntos débiles manualmente es un proceso lentísimo, por lo que entrenaron a esa inteligencia artificial para que intentara romper otra inteligencia artificial, 'como en Inception', dijo Kumar, en referencia a la película de Christopher Nolan donde los personajes entran en sueños dentro de sueños, según la fuente.

Sin embargo, Westerhoff, Kumar y Daniel Krutz, quien dirige la oficina de IA Responsable de la compañía, insisten en que la automatización tiene un límite, según El País. 'El red teaming solo puede automatizarse hasta cierto punto, y solo los humanos pueden determinar si una respuesta generada por IA les resulta incómoda o representa un sesgo', asegura la compañía, según la fuente. El criterio lo pone la persona; la escala, la máquina. Esa división del trabajo define la filosofía del equipo.

Westerhoff cree que solo la mente humana es capaz de 'imaginar esos espacios que aún no se han observado, que no se han definido completamente ni explorado; nuestro trabajo consiste en innovar y crear más allá del espacio que se ha sistematizado', según El País.

El equipo identifica tres áreas donde la automatización es ciega por definición y el juicio humano resulta imprescindible, según la fuente. La primera tiene que ver con las materias: se necesitan personas para evaluar el riesgo en áreas como medicina o seguridad. La segunda tiene que ver con los lugares donde se lanza esa inteligencia artificial: 'necesitamos humanos para tener en cuenta las diferencias lingüísticas y redefinir qué constituye un daño en distintos contextos políticos y culturales', dice la empresa, según El País. Y la tercera, la inteligencia emocional. En última instancia, solo los humanos pueden evaluar el rango de interacciones que los usuarios podrían tener con los sistemas de inteligencia artificial. Un modelo puede pasar todas las pruebas automatizadas y aun así producir respuestas que resulten perturbadoras para una persona real en una situación concreta, según la fuente.

Este modo de ver la inteligencia artificial coincide con la visión de Mustafa Suleyman, uno de los fundadores de Deepmind —ahora parte de Google— y director ejecutivo de Microsoft AI, según El País. Recientemente escribió en la revista Nature: 'Una IA aparentemente consciente se puede convertir en un arma'. A medida que los sistemas de inteligencia artificial imitan cada vez más la estructura del lenguaje humano, argumenta, se necesitan normas de diseño y leyes que impidan que sean confundidos con seres sintientes. 'Deben seguir siendo fundamentalmente responsables ante los humanos y estar supeditados al bienestar de la humanidad', escribió Suleyman, según la fuente. 'Los agentes de IA no deberían tener más derechos ni libertades que mi portátil', añadió.

La filosofía central que articula el trabajo del equipo rojo es que 'la IA responsable no es un filtro que se aplica al final del desarrollo, sino una parte fundacional del proceso', dijo Kumar, según El País. Son los guardarraíles de Smith, que no actúan en realidad como frenos, sino como condición para ir rápido sin despeñarse, según la fuente.

SIGUE LEYENDO
MÁS DE TECNOLOGÍA