Почему ИИ не подскажет вам правильный диагноз, хотя знает больше врачей

Пользователь пытается разобраться в своих симптомах с помощью ИИ-чат-бота ИИ-чат-боты уже сдают медицинские экзамены лучше большинства врачей. И ожидания от таких систем высоки: уже появляются сервисы, которые обещают распознавать болезни по симптомам быстрее врача. Но когда обычные люди пытаются с их помощью разобраться в своих симптомах, результат оказывается не лучше, чем без всякого ИИ. Масштабное исследование, опубликованное в Nature Medicine, впервые показало, в чём именно ломается цепочка между знаниями модели и реальной пользой для пациента. И причина оказалась неожиданной: проблема не в знаниях ИИ, а в том, как люди с ним разговаривают . Как ИИ ставит диагнозы: результаты нового исследования Исследование провели учёные из Оксфордского университета совместно с организацией MLCommons и другими институтами. Почти 1300 участников получили описания десяти типичных медицинских ситуаций и были случайным образом распределены: одни пользовались чат-ботами (GPT-4o, Llama 3 и Command R+), другие — любыми привычными источниками информации (контрольная группа). После общения с ботом участников спрашивали две вещи: какое заболевание может объяснять симптомы и куда обращаться за помощью. Когда тех же чат-ботов тестировали «в одиночку», без человека, они определяли правильное заболевание в 94,9% случаев. Но когда с ботами работали реальные люди, точность падала до менее чем 34,5% . При этом участники из группы с ИИ справлялись не лучше, чем контрольная группа, которая вообще не пользовалась чат-ботами. Будь в курсе новых открытий по максимуму — подписывайся на наш канал в Max ! Другими словами, чат-бот, который блестяще отвечает на экзаменационные вопросы, оказался бесполезен, когда за клавиатурой сидел обычный человек. И это делает тему ещё запутаннее, потому что отдельные случаи, когда ChatGPT смог поставить диагноз там, где врачи долго не могли помочь, только усилили веру людей в «медицину через чат». Почему ИИ сдаёт медицинские экзамены, но не помогает пациентам Вот в чём парадокс: языковые модели уже набирают почти идеальные баллы на лицензионных медицинских экзаменах. Мета-анализ 120 испытаний показал, что GPT-o1 достигает точности 95,4% на вопросах медицинских лицензий, DeepSeek-R1 — 92%, GPT-4o — 89,4%. Проще говоря, эти модели знают медицину лучше многих выпускников медвузов. Но экзамен — это не приём у врача. На экзамене модель получает чётко сформулированный вопрос со всеми необходимыми данными. В реальной жизни всё иначе. Когда исследователи изучили расшифровки диалогов, обнаружилось: бот часто упоминал правильный диагноз где-то в разговоре, но пользователи его не замечали или не запоминали. В других случаях люди давали неполную информацию, а бот неверно интерпретировал ключевые детали. Проблема была не в медицинских знаниях — а в коммуникации между человеком и машиной. Представьте: у вас есть энциклопедия с правильным ответом, но она написана так, что вы листаете мимо нужной страницы. Знания есть — передать их не получается. Риск выше ещё и потому, что бот нередко соглашается с пользователем , вместо того чтобы спорить, уточнять детали и вести разговор как врач на приёме. Сравнение: на экзамене ИИ отвечает точно, а в реальном диалоге — теряет контекст Почему ИИ неправильно понимает симптомы пользователя В отличие от смоделированных тестов, реальные люди не давали ботам всю релевантную информацию. А ещё — с трудом интерпретировали варианты, предложенные чат-ботом, неправильно понимали или просто игнорировали его советы. Проблемы в общении «человек — ИИ» можно разделить на несколько типов: Неполное описание симптомов. Пациенты не знают, какие детали важны, и пропускают ключевые факты — в отличие от врача, который умеет задавать уточняющие вопросы. Потеря нужной информации. Бот мог назвать правильный диагноз в середине разговора, но пользователь не обратил на это внимания среди потока текста. Неправильная интерпретация. Люди по-своему понимали рекомендации бота, иногда — прямо противоположно тому, что он имел в виду. Некоторые эксперты указывают, что боты должны сами задавать уточняющие вопросы — как это делают врачи. «Действительно ли это ответственность пользователя — знать, какие симптомы выделить, или частично это задача модели — знать, что спросить?» — отмечают исследователи. Почему врач понимает пациента лучше, чем ИИ Есть фундаментальная разница между тем, как общается с пациентом врач и как это делает чат-бот. Медицину часто называют скорее искусством, чем наукой. Консультация — это не просто определение правильного диагноза: она включает интерпретацию истории пациента, работу с неопределённостью и совместное принятие решений. Для этого десятилетиями существует Калгари-Кембриджская модель — метод структурирования медицинских консультаций, который охватывает всё: от начала приёма и сбора информации до объяснения результатов и совместного планирования лечения. Этот подход предполагает выстраивание доверия с пациентом, сбор информации через точные вопросы, понимание его тревог и ожиданий, понятное объяснение находок и согласование плана действий. Всё это опирается на человеческую связь, адаптивную коммуникацию, уточнения, мягкие наводящие вопросы, суждения, учитывающие контекст, и доверие. Эти качества нельзя свести к распознаванию паттернов. Другими словами, врача учат не просто знать ответ — а уметь его «достать» из пациента, который сам не всегда понимает, что с ним происходит. Чат-бот пока не умеет этого делать. Врач просматривает сводку о пациенте, подготовленную ИИ-системой Где ИИ уже реально полезен в медицине сегодня Означает ли всё это, что ИИ бесполезен в здравоохранении? Нет. Но, по данным исследования, ни один из проверенных чат-ботов «не готов к внедрению в прямой уход за пациентами» . Авторы исследования предлагают думать о чат-ботах не как о врачах, а скорее как о секретарях: они отлично систематизируют информацию, составляют сводки, структурируют сложные документы. Именно в таких задачах ИИ уже приносит реальную пользу в медицине — например, при составлении клинических записей, суммировании историй болезни или подготовке направлений. В узких задачах ИИ уже умеет предсказывать рак заранее , когда работает не со свободным диалогом, а со структурированными медицинскими данными. Каждый шестой взрослый американец уже обращается к ИИ-чат-ботам за медицинской информацией как минимум раз в месяц, и это число продолжает расти. Между тем, крупнейшие разработчики — OpenAI и Anthropic — уже выпустили специализированные медицинские версии своих чат-ботов, и эксперты полагают, что они могут показать другие результаты в аналогичных исследованиях. Но пока это лишь надежда. Подписывайтесь на нас в Telegram и Дзен , чтобы знать больше! Главный урок этого исследования — в разрыве между бенчмарками и реальностью. Сдать экзамен и помочь живому человеку — это разные задачи . Точно так же, как сдача теоретического экзамена по вождению не делает человека хорошим водителем, так и блестящие результаты на медицинских тестах не превращают языковую модель в надёжного диагноста. Для этого нужны эмпатия, адаптивность и умение работать с тем, что пациент не может или не хочет рассказать. Пока эти качества остаются человеческой территорией.

Top News