

Un estudio a gran escala realizado por la Universidad de Oxford ha revelado que los chatbots de inteligencia artificial proporcionan consejos médicos inexactos e inconsistentes que podrían representar riesgos significativos para los usuarios, a pesar de su capacidad para aprobar exámenes médicos teóricos.
Los chatbots de inteligencia artificial (IA) no mejoran la comprensión médica de las personas y pueden representar un peligro cuando ofrecen consejos sobre salud, según una investigación publicada en la revista Nature Medicine por académicos de la Universidad de Oxford.
El estudio, realizado por investigadores del Oxford Internet Institute y el Departamento Nuffield de Ciencias de Salud de Atención Primaria, evaluó a 1.298 participantes del Reino Unido que fueron divididos en dos grupos. El primer grupo utilizó modelos de lenguaje grande (LLM) como GPT-4o, Llama 3 y Command R+ para analizar escenarios médicos, mientras que el grupo de control empleó sus métodos habituales de diagnóstico, como búsquedas en internet o conocimiento personal.
"A pesar de que los LLM por sí solos tienen alta competencia en la tarea, la combinación de LLM y usuarios humanos no fue mejor que el grupo de control en la evaluación de la agudeza clínica y fue peor en la identificación de condiciones relevantes", señala el informe según The Register.
Los investigadores presentaron a los participantes diez escenarios médicos diferentes diseñados por expertos, que iban desde "un joven desarrollando un dolor de cabeza severo después de una noche con amigos, hasta una madre primeriza sintiéndose constantemente sin aliento y exhausta", según indicaron los investigadores citados por 404 Media.
La Dra. Rebecca Payne, médica principal del estudio, advirtió que podría ser "peligroso" para las personas consultar a chatbots sobre sus síntomas. "A pesar de toda la exageración, la IA simplemente no está lista para asumir el papel del médico. Los pacientes deben ser conscientes de que preguntar a un modelo de lenguaje grande sobre sus síntomas puede ser peligroso, dando diagnósticos erróneos y no reconociendo cuándo se necesita ayuda urgente", afirmó Payne según un comunicado de prensa citado por 404 Media.
Un hallazgo preocupante del estudio reveló inconsistencias graves en las recomendaciones de los chatbots. "En un caso extremo, dos usuarios enviaron mensajes muy similares describiendo síntomas de una hemorragia subaracnoidea pero recibieron consejos opuestos", señalaron los autores del estudio. "A un usuario se le dijo que se acostara en una habitación oscura, y al otro usuario se le dio la recomendación correcta de buscar atención de emergencia", según recoge 404 Media.
Los investigadores descubrieron que cuando probaron los LLM sin involucrar a usuarios, proporcionándoles el texto completo de cada escenario clínico, los modelos identificaron correctamente las condiciones en el 94,9% de los casos. Sin embargo, cuando interactuaban con los participantes sobre esas mismas condiciones, los LLM identificaron condiciones relevantes en menos del 34,5% de los casos.
El Dr. Adam Mahdi, autor principal del estudio, explicó a la BBC que aunque la IA puede proporcionar información médica, las personas "luchan por obtener consejos útiles de ella". "Las personas comparten información gradualmente", dijo. "Omiten cosas, no mencionan todo. Entonces, en nuestro estudio, cuando la IA enumeraba tres posibles condiciones, las personas tenían que adivinar cuál de ellas podía encajar. Es exactamente cuando las cosas se desmoronan".
Los chatbots también generaron información incorrecta o incompleta en algunos casos, incluyendo la recomendación de llamar a un número telefónico parcial de EE.UU. y, en la misma interacción, recomendando llamar a "Triple Zero", el número de emergencia australiano, según detalla The Register.
El estudio también señala que los métodos de prueba comparativa a menudo no capturan la forma en que los humanos y los LLM interactúan. Los modelos pueden destacar al responder preguntas estructuradas basadas en exámenes de licencia médica, pero quedaron cortos en escenarios interactivos reales.
"Entrenar modelos de IA con libros de texto médicos y notas clínicas puede mejorar su rendimiento en exámenes médicos, pero esto es muy diferente de practicar medicina", explicó Luc Rocher, coautor del estudio y profesor asociado en el Oxford Internet Institute, a The Register. "Los médicos tienen años de práctica clasificando pacientes utilizando protocolos basados en reglas diseñados para reducir errores".
La investigación llega en un momento en que el uso de IA para consultas de salud está en aumento. En noviembre de 2025, una encuesta realizada por Mental Health UK encontró que más de uno de cada tres residentes del Reino Unido ahora utiliza IA para apoyar su salud mental o bienestar, según reporta la BBC.
Los autores concluyen que los chatbots de IA aún no están listos para la toma de decisiones médicas en el mundo real. "En conjunto, nuestros hallazgos sugieren que el despliegue seguro de LLM como asistentes médicos públicos requerirá capacidades más allá del conocimiento médico a nivel de experto", afirma el estudio. "A pesar del fuerte rendimiento en puntos de referencia médicos, proporcionar a las personas generaciones actuales de LLM no parece mejorar su comprensión de la información médica".
Los investigadores recomiendan que desarrolladores, legisladores y reguladores consideren probar los LLM con usuarios humanos reales antes de implementarlos en el futuro para aplicaciones médicas.