jueves
18 JulLos chatbots cometen más errores en español que en inglés, según un estudio reciente
En la era digital actual, la inteligencia artificial (IA) ha ido ganando terreno en diversos campos, incluyendo la medicina. Los chatbots, programas de ordenador que “simulan conversaciones humanas”, se están convirtiendo en herramientas populares para responder, por ejemplo, a preguntas médicas.
Sin embargo, estudios recientes han apuntado una preocupante tendencia: estos chatbots son más propensos a cometer errores cuando se les consulta en idiomas como el español, en comparación con el inglés. Una discrepancia que plantea serios riesgos para los usuarios y subraya la necesidad de un desarrollo más inclusivo y exhaustivo en la IA médica, según los expertos.
Conocidos coloquialmente como Doctor Chatbot, estos programas han reemplazado progresivamente a Doctor Google como la fuente primaria de información médica para muchos usuarios. Los chatbots tienen la ventaja de ofrecer respuestas conversacionales y simplificadas a preguntas complejas, lo que puede generar una mayor confianza entre los usuarios. No obstante, esta confianza puede ser engañosa si las respuestas no son precisas ni seguras.
Ahora, un estudio reciente ha arrojado luz sobre las deficiencias de dos populares chatbots: GPT-3.5 de OpenAI y MedAlpaca. Los autores de este trabajo, pertenecientes al Instituto de Tecnología de Georgia (EE. UU), realizaron más de 2.000 preguntas típicas sobre enfermedades, procedimientos médicos y medicamentos en inglés. Posteriormente, tradujeron estas preguntas al español, chino mandarín e hindi para evaluar la precisión de las respuestas en estos idiomas.
Los resultados fueron alarmantes. Según el estudio, GPT-3.5 produjo respuestas inaceptables en el 23 % de las preguntas en chino, el 20 % en español y el 45 % en hindi, mientras que, en inglés, el porcentaje de errores fue del 10%. Por su parte, MedAlpaca mostró un desempeño aún peor, con más del 67% de sus respuestas en chino, hindi y español consideradas irrelevantes o contradictorias. “Descubrimos una pronunciada disparidad en las respuestas de los LLM en estos idiomas, lo que indica la necesidad de mejorar las capacidades multilingües”, explican los autores del estudio. Y es que, estos datos reflejan una conclusión contundente: una brecha significativa en la eficacia de estos chatbots cuando se utilizan en idiomas distintos al inglés.
Una brecha lingüística
Conviene añadir que hay varios factores que contribuyen a estas disparidades. En primer lugar, la mayoría de los modelos de lenguaje grande (LLM), como GPT-3.5, están entrenados principalmente con datos en inglés. Esto se debe a la abundancia de textos en inglés disponibles en línea, lo que proporciona una base de datos más robusta para el entrenamiento de estos modelos. En contraste, los datos en otros idiomas son más limitados, lo que afecta negativamente la capacidad de los chatbots para comprender y responder con precisión en esos idiomas.
Pero, además, estos modelos suelen tener dificultades para comprender el contexto de las preguntas en idiomas no ingleses. Por ejemplo, MedAlpaca presentó errores como la repetición de palabras o respuestas en inglés a preguntas formuladas en otros idiomas. Según los investigadores, estos fallos pueden deberse a un entrenamiento insuficiente y a la complejidad inherente de traducir términos médicos con precisión.
Otro factor importante, según los responsables del estudio, es la similitud entre el inglés y el español en términos de estructura y sintaxis. Los investigadores descubrieron que las respuestas que ofreció la máquina en inglés y español eran algo más consistentes que las que lanzó en chino e hindi, posiblemente debido a las similitudes lingüísticas. Sin embargo, esto no fue suficiente para evitar errores importantes en español.
Posibles soluciones
Las imprecisiones en las respuestas de los chatbots médicos pueden tener consecuencias graves, tal como advierten estos científicos. Y es que, en el ámbito médico, un malentendido o una información incorrecta puede llevar a decisiones de salud erróneas, poniendo en riesgo la vida de los usuarios. Por ello, entienden que es crucial abordar estas deficiencias y trabajar hacia soluciones efectivas.
Una estrategia sugerida por los expertos es aumentar la cantidad de textos médicos traducidos del inglés a otros idiomas. Sin embargo, esto presenta algunos desafíos debido a la dificultad de traducir términos científicos con precisión. Otro planteamiento pasa por entrenar modelos específicos para cada idioma, aprovechando la capacidad de los LLM para traducir entre idiomas.
Además, consideran que es fundamental incluir a más expertos médicos de diferentes partes del mundo, en el proceso de entrenamiento y evaluación de estos modelos. Así, la diversidad de evaluadores podría ayudar a reducir la disparidad lingüística y mejorar la exactitud de las respuestas en múltiples idiomas.
Con todo, la inteligencia artificial tiene el potencial de revolucionar el acceso a la información médica, pero para que esto sea una realidad segura y efectiva, es necesario un enfoque más inclusivo y exhaustivo, advierten los investigadores.
Por ello, indican, los desarrolladores de IA deben priorizar la creación de modelos que puedan servir a la mayoría de la población mundial, que no habla inglés. Desde su punto de vista, es imperativo reconocer y abordar las limitaciones actuales de la IA para responder con precisión en idiomas no ingleses, ya que la vida y la salud de millones de personas dependen de ello.
Referencias:
Yiqiao Jin, Mohit Chandra, et al. (2023) ‘Better to Ask in English: Cross-Lingual Evaluation of Large Language Models for Healthcare Queries’. arXiv:2310.13132v2 [cs.CL] 23 Oct 2023
Deja un comentario