Tecnologia
Los expertos dicen que la IA puede fallar en detectar casos urgentes.
Un estudio de la Universidad de Oxford, publicado en la revista científica Nature Medicine, analizó el uso de modelos de lenguaje como ChatGPT para evaluar síntomas médicos y determinar cursos de acción.
La investigación examina quiénes utilizan estas herramientas, cómo interactúan con ellas y qué tan efectivas resultan frente a métodos tradicionales, y concluye que la inteligencia artificial aún no puede reemplazar la evaluación de un profesional de la salud.
LEA TAMBIÉN
La investigación fue dirigida por el Oxford Internet Institute y el Departamento Nuffield de Ciencias de la Salud de Atención Primaria de la Universidad de Oxford, en colaboración con MLCommons y otras instituciones. El trabajo identificó una diferencia entre el rendimiento de los grandes modelos lingüísticos (LLM) en pruebas estandarizadas de conocimiento médico y su desempeño cuando interactúan con personas que consultan por síntomas reales.
Según el informe, aunque los sistemas de inteligencia artificial obtienen puntajes elevados en exámenes de referencia, pueden presentar dificultades al ofrecer orientación a usuarios que describen situaciones personales. Entre los riesgos detectados se encuentran la posibilidad de diagnósticos incorrectos y la falta de reconocimiento de casos que requieren atención urgente.
Compararon decisiones con IA frente a métodos tradicionales de búsqueda. Foto:iStock
El estudio incluyó un ensayo aleatorio en línea con casi 1300 participantes, todos médicos. A cada uno se le presentaron distintos escenarios clínicos y se les solicitó: 1. Identificar posibles afecciones de salud. 2. Proponer una medida de acción adecuada. Los casos abarcaban situaciones como la de un joven con fuerte dolor de cabeza tras una salida nocturna o la de una madre primeriza con sensación persistente de falta de aire y agotamiento.
Un grupo recurrió a una herramienta de inteligencia artificial para decidir cómo actuar ante los síntomas descritos, mientras que el otro utiliza métodos tradicionales, como búsquedas en línea o su propio criterio profesional. Posteriormente, los investigadores compararon la capacidad de ambos grupos para reconocer el problema y seleccionar la respuesta correcta.
Desde la Universidad de Oxford explicaron: “Quienes utilizaban LLM no tomaban mejores decisiones que los participantes que recurrían a métodos tradicionales, como búsquedas en línea o su propio criterio”. Además, al contrastar estos resultados con las evaluaciones estándar de LLM —que no incluyen interacción con usuarios reales— observaron que los sistemas obtenían buenos resultados en pruebas técnicas, pero mostraron limitaciones en contextos prácticos”.
Los modelos no superaron a fuentes habituales al evaluar los síntomas. Foto:iStock
LEA TAMBIÉN

Advertencias sobre el uso de IA en atención médica
La Dra. Rebecca Payne, del departamento de Ciencias de la Salud de Atención Primaria de Nuffield, médica de cabecera y médica principal del estudio, afirmó: “A pesar de todo el revuelo, la IA aún no está lista para asumir el rol del médico. Los pacientes deben ser conscientes de que preguntar a un modelo de lenguaje extenso sobre sus síntomas puede ser peligroso, ya que puede dar diagnósticos erróneos y no reconocer cuándo se necesita ayuda urgente”.
El trabajo también identificó dificultades en la comunicación entre usuarios y sistemas de inteligencia artificial. Los participantes, en varios casos, no sabían qué información proporcionar para obtener una respuesta precisa. Como consecuencia, las recomendaciones generadas combinaban indicaciones adecuadas con otras inadecuadas, lo que dificultaba elegir el curso de acción correcto.
El autor principal, Andrew Bean, estudiante de doctorado en el Oxford Internet Institute, señaló: “Diseñar pruebas robustas para modelos lingüísticos extensos es fundamental para comprender cómo podemos aprovechar esta nueva tecnología. En este estudio, demostramos que interactuar con humanos supone un desafío incluso para los estudiantes de máster en Derecho más destacados. Esperamos que este trabajo contribuya al desarrollo de sistemas de IA más seguros y útiles”.
Expertos piden pruebas reales antes de usar IA en atención médica. Foto:iStock
La investigación concluye que los mecanismos actuales de evaluación de inteligencia artificial no reproducen la complejidad de la interacción con personas en situaciones reales. Por ello, los autores proponen que estos sistemas sean sometidos a pruebas en entornos reales antes de su adopción generalizadade manera similar a los ensayos clínicos aplicados a nuevos medicamentos.
El profesor asociado Adam Mahdi, también autor principal del estudio e integrante del Oxford Internet Institute, expresó: “No podemos basarnos únicamente en pruebas estandarizadas para determinar si estos sistemas son seguros para el uso público. Al igual que exigimos ensayos clínicos para nuevos medicamentos, los sistemas de IA necesitan pruebas rigurosas con usuarios reales y diversos para comprender sus verdaderas capacidades en entornos de alto riesgo como la atención médica”.
La Nación (Argentina) / GDA
Más noticias en EL TIEMPO
*Este contenido fue reescrito con la asistencia de una inteligencia artificial, basado en información de La Nación, y contó con la revisión de un periodista y un editor.
