Créditos de las imágenes: BGU.
La mayoría de los modelos de lenguaje y datos médicos ofrecen poco más que conjeturas.
El uso de la inteligencia artificial, en particular los modelos de lenguaje como ChatGPT, se está volviendo cada vez más frecuente.
Como resultado, existe un deseo creciente de utilizar modelos de IA en la interpretación de información médica como una herramienta para tomar decisiones médicas críticas.
Un equipo de investigación de Israel decidió examinar las capacidades de los modelos de lenguaje (LLM) que se especializan en información médica y compararlas.
Los sorprendentes hallazgos de la investigación se publicaron en la revista Computers in Biology and Medicine: https://www.sciencedirect.com/science/article/pii/S0010482524011740?via%3Dihub
La inteligencia artificial aplicada a la información médica se ha convertido en una herramienta común que se utiliza para responder preguntas de los pacientes a través de chatbots médicos, predecir enfermedades, crear datos para proteger la privacidad del paciente o generar preguntas y respuestas médicas para estudiantes de medicina.
Los modelos de IA que procesan datos textuales han demostrado ser eficaces para clasificar información. Sin embargo, cuando los datos se convierten en información médica clínica que salva vidas, es necesario comprender el significado profundo de los códigos médicos y las diferencias entre ellos.
El estudiante de doctorado Ofir Ben Shoham y el Dr. Nadav Rappoport decidieron examinar hasta qué punto los grandes modelos lingüísticos comprenden el mundo médico y pueden responder preguntas sobre el tema.
Para ello, realizaron una comparación entre modelos generales y modelos que se crearon para información médica.
Con este fin, los investigadores crearon un método de evaluación dedicado (MedConceptsQA) para responder preguntas sobre conceptos médicos.
Los investigadores generaron más de 800.000 preguntas y respuestas que cubren conceptos médicos en tres niveles de dificultad, para evaluar cómo personas que trabajan con modelos lingüísticos interpretan los términos médicos y distinguen entre conceptos médicos.
Entre ellos, diagnósticos, procedimientos y medicamentos.
Los investigadores crearon preguntas que solicitan una descripción de un código médico automáticamente, utilizando un algoritmo que desarrollaron.
Mientras que las preguntas fáciles requieren conocimientos básicos, las preguntas difíciles requieren una comprensión detallada y la capacidad de identificar pequeñas diferencias entre conceptos médicos similares.
Las preguntas de nivel medio requieren información ligeramente más básica.
Los investigadores utilizaron estándares de datos clínicos existentes disponibles para evaluar los códigos clínicos, lo que les permitió distinguir entre conceptos médicos para tareas como la práctica de codificación médica, resumen, y otros.
Los hallazgos de la investigación indicaron que la mayoría de los modelos mostraron un rendimiento deficiente, equivalente a una suposición aleatoria, incluidos los modelos entrenados con datos médicos.
Este fue el caso en general, excepto ChatGPT-4, que mostró un mejor rendimiento que los demás con una precisión promedio de alrededor del 60%, aunque todavía estaba lejos de ser satisfactoria.
«Parece que, en su mayor parte, los modelos que han sido entrenados especialmente para fines médicos han logrado niveles de precisión cercanos a la suposición aleatoria en esta medida, a pesar de haber sido entrenados previamente con datos médicos», señaló el Dr. Rappoport.
Cabe señalar que los modelos creados para fines generales (como Llama3-70B y ChatGPT-4) lograron un mejor rendimiento.
ChatGPT4 demostró el mejor rendimiento, aunque su precisión siguió siendo insuficiente para algunas de las preguntas de código médico específicas que crearon los investigadores.
ChatGPT-4 logró una mejora promedio de 9-11% en comparación con Llama3-OpenBioLLM-70B, el modelo de lenguaje clínico que logró los mejores resultados.
«Nuestra medida sirve como un recurso valioso para evaluar las capacidades de los modelos de lenguaje grandes para interpretar códigos médicos y distinguir entre conceptos médicos.
Demostramos que la mayoría de los modelos de lenguaje clínico logran un rendimiento de adivinación aleatoria, mientras que ChatGPT-3.5, ChatGPT-4 y Llama3-70B superan a estos modelos clínicos, a pesar de que el enfoque de estos modelos no está en absoluto en el campo médico», explicó el estudiante de doctorado Ben Shoham.
«Con nuestro banco de preguntas, podemos muy fácilmente, con solo presionar un botón, evaluar otros modelos que se lanzarán en el futuro y compararlos».
Los datos clínicos a menudo incluyen tanto códigos médicos estándar como textos en lenguaje natural.
Esta investigación destaca la necesidad de un lenguaje clínico más amplio en los modelos para comprender la información médica y la precaución requerida en su uso generalizado.
“Presentamos un referente para evaluar la calidad de la información de los códigos médicos y destacamos a los usuarios la necesidad de tener cautela al hacer uso de esta información”, concluyó el Dr. Rappoport.
Consultamos a Chat GPT en este sentido y estas fueron sus declaraciones al respecto:
«Mi capacidad para analizar datos clínicos es sólida dentro de ciertos límites:
- Fiabilidad en la interpretación de datos básicos:
Puedo analizar tendencias, identificar anomalías y proporcionar explicaciones generales sobre datos médicos, como lecturas de presión arterial, frecuencias cardíacas, niveles de glucosa, etc. Estas interpretaciones se basan en información médica ampliamente aceptada.
- Limitaciones en diagnósticos específicos:
No soy un sustituto de un médico. Puedo identificar patrones y posibles áreas de preocupación, pero cualquier diagnóstico o tratamiento debe ser confirmado por un profesional de la salud calificado.
- Datos específicos o complejos:
Si los datos son muy detallados (por ejemplo, análisis de laboratorio avanzados o imágenes médicas), puedo proporcionar una interpretación general basada en parámetros estándar, pero no tengo acceso a herramientas de diagnóstico avanzadas ni a contexto clínico completo.
- Recomendaciones:
Las recomendaciones que ofrezco están basadas en guías generales de salud y medicina. Siempre deben validarse con un médico.
Si compartes datos o contextos específicos, puedo ayudarte a analizarlos y a preparar preguntas o temas para discutir con tu médico.