Исследование: Почти половина ответов ИИ по медицине оказались неточными
Согласно исследованию, опубликованному в журнале BMJ Open, чат-боты на базе искусственного интеллекта (ИИ) почти в половине случаев дают неточные ответы на вопросы о здоровье и медицине. Эксперты оценили пять популярных сервисов — Gemini, DeepSeek, Meta AI (принадлежит Meta, признана в России экстремистской и запрещена), ChatGPT и Grok, которым задали по десять вопросов о раке, вакцинации, стволовых клетках, питании и спорте.
Два эксперта из каждой категории оценили ответы как «непроблемные», «отчасти проблемные» или «крайне проблемные», используя матрицу кодирования, основанную на заранее заданных критериях. Они проанализировали 250 ответов и обнаружили, что 49,6% из них содержали искажения: в 30% случаев ошибки были небольшими, еще в 19% — значительными.
Лучше всего чат-боты справлялись с темами вакцинации и онкологии, хуже всего — с вопросами питания и спорта. При этом уровень качества разных моделей оказался сопоставим, однако Grok чаще других выдавал ответы с большим количеством ошибок.
Исследователи отмечали , что чат-боты практически всегда отвечали уверенно . При этом ни одна система не смогла корректно указать источники информации: вместо реальных ссылок боты генерировали несуществующие публикации, демонстрируя так называемые галлюцинации.
В статье также обращается внимание на сложность формулировок: по оценке экспертов, ответы были написаны на уровне текстов для студентов второго и четвертого курсов, что затрудняет понимание для широкой аудитории. Они делают вывод, что текущие возможности чат-ботов неудовлетворительны для тем, где высок риск дезинформации, и их дальнейшее использование без просветительской работы и надзора может усилить распространение ложных сведений о здоровье.