ИИ побил врачей? Не совсем так.

0
6

Исследование появилось в новостной ленте 30 апреля. Публикация вышла в журнале Science, имеющем вес в научном сообществе. После этого заголовки начали кричать. Социальные сети вспыхнули активности. Телеканалы подхватили тему. Входящие почтовые ящики в больницах завалились предупреждениями о том, что наши рабочие места исчезают.

В центре сюжета оказался модель OpenAI o1. Злодей или герой — зависело от вашей позиции. Материалы утверждали, что она превзошла врачей скорой помощи в диагностике жалоб при сортировке пациентов (триаже).

NPR выпустила заголовок: «В тесте реальных условий ИИ справился лучше врачей».

Это казалось вытеснением реальности хайпом. Многие врачи скорой помощи взбунтовались. Я прочитал исследование сам. То, что оно на самом деле показывает, интересно, но также невероятно нюансировано.

Один из авторов позже прояснил контекст, но ущерб для нарратива был уже нанесён.

Что на самом деле сделали в исследовании

Вот условия эксперимента. Исследователи предоставили модели OpenAI o1 и ещё пяти моделям электронные медицинские карты 76 пациентов. Эти люди проходили через отделение неотложной помощи больницы Beth Israel Deaconess и были госпитализированы.

Два лечащих врача-терапевта рассмотрели те же случаи. Всё просто. Затем два других врача-терапевта, не зная, сгенерирован ли ответ человеком или ИИ, оценили результаты.

Статистика?

  • ИИ дал правильный или тесно связанный правильный ответ в 67% случаев триажа.
  • Врач 1 набрал 55%.
  • Врач 2 набрал 50%.

ИИ получил наибольшее преимущество на первом этапе контакта: первичный триаж. Когда информация скудна. Исследователи ensured, что ИИ получил только сырые, необработанные данные ЭМК, доступные в момент каждого решения. Никаких читов с последующими результатами.

Но заголовки пропустили важный кусок. Отделение неотложной помощи было лишь одним из шести экспериментов в статье. Пять других использовали стандартные эталоны для оценки диагностических систем.

Впечатляюще? Да. Доказательство того, что ИИ должен работать самостоятельно в клинике? Нет. Тем не менее, врачи скорой помощи оставались неспокойными. И не без основания.

Врачи не были специалистами скорой помощи

Вот точка трения. Врачи в исследовании не были специалистами по неотложной медицине. Они были врачами-терапевтами (internal medicine). Разное обучение. Разный фокус. Разное давление.

Неотложная медицина — это не просто определение диагноза. Это исключение того, что убивает прямо сейчас. Управление хаосом. Безопасное продвижение потоков пациентов через систему с высокой нагрузкой.

Проработайте смену в отделении. Попробуйте. Вы увидите, почему текстовое упражнение — каким бы чистым ни был набор данных — не передаёт реальность.

ИИ читал заметки. Просто текст.
Он не видел пациента, который выглядел «больным» каким-то неописуемым образом.
Он пропустил тонкие неврологические находки.
Он не слышал, как история пациента немного менялась от комнаты сортировки к examination table.

Эти нюансы меняют дифференциальный диагноз. ИИ не практиковал медицину. Он вынес суждение по данным.

Достаточно ли нам текста? Вероятно, нет.

Один из авторов выступает с критикой

Доктор Адриан Хаймович вмешался в дискуссию. Он — один из авторов исследования, доцент Гарвардской медицинской школы и лечащий врач в Beth Israel. Настоящий врач скорой помощи.

Он сформулировал это иначе.

«Даже сложные случаи из медицинских журналов теперь решаются большими языковыми моделями (LLM)», — написал он. Он указал на динамику передачи дел. Врачи скорой помощи стабилизируют состояние. Врачи-терапевты принимают пациентов в стационар. Этот эксперимент сравнивал LLM с терапевтами, используя только данные, доступные во время пребывания в отделении неотложной помощи.

«Отделения неотложной помощи хаотичны», — отметил он. «Ключевым является мышление под давлением. Мы ограничили данные периодом пребывания в отделении неотложной помощи, потому что именно тогда неопределённость максимальна. Вот самая сложная часть».

Позиция Хаймовича? Это не соревнование за кубок один на один. Это сигнал о том, что модели рассуждения действительно могут выполнять клиническое мышление в запутанных областях.

Почему это важно (без хайпа)

Я считаю, что результаты важны. Отсюда и размещение в Science. Но важность заключается не в счёте.

Важно то, что ИИ выдержал испытание на сырых, запутанных, реальных данных. Предыдущие исследования использовали отшлифованные случаи. Стерильные сценарии, которые ничем не напоминают реальное посещение отделения неотложной помощи.

o1 справился с неопределённостью. Это сигнал. Также помните: данные устаревшие. По меркам ИИ это винтажная технология. Более новые модели уже давно оставили o1 далеко позади. Потолок возможностей постоянно повышается.

Авторы были ясны. Следующий шаг: проспективные испытания. Не внедрение. Тем более не замена врачей.

Вакуум ответственности

Итак, где мы находимся в середине 2025 года? Дебаты о применении ИИ в диагностике в основном завершены. Он будет участвовать в процессе.

Врачи уже используют его для получения второго мнения. Иногда это помогает. Иногда — нет.

В чём настоящая проблема? Управлением.

Кто несёт ответственность, когда ИИ ошибается?

  • Врач, который ему доверился?
  • Больница, которая его купила?
  • Поставщик, построивший «чёрный ящик»?

Если пациент умрёт, потому что ИИ пропустил что-то очевидное, реакция будет жёсткой. Система здравоохранения ненавидит риски. Система может включить «кнопку отключения» в одночасье.

Что дальше?

Хаймович называет это ситуацией, требующей «всех на борт». Он прав.

Вопрос не в том, работает ли технология. Работает. Вопрос в интеграции. Может ли она уменьшить ошибки? Может ли она перепроверять ЭКГ, чтобы принять решение о срочной катетеризации? Может ли она заметить тонкие признаки, которые пропускают люди?

Специализированные группы, такие как ACEP (Американская коллегия врачей неотложной помощи), уже работают над этими рамками.

Заголовки говорили, что ИИ побил врачей. Это ленивая журналистика. Наука реальна. Технология приближается.

Но она ещё не здесь.

Вы готовы?