Возможности Искусственного Интеллекта в медицине пока-что сильно преувеличены

Искусственный Интеллект (ИИ, он же AI – Artificial Intelligence) сегодня это одно из самых «модных» словечек в СМИ. Мне кажется, что в этом смысле ИИ уже потеснил даже «нанотехнологии». Слов нет, ИИ, как научное направление и его практические приложения, развивается стремительно. И потенциал ИИ кажется огромным, даже пугающим. Но не переоцениваем ли мы нынешние возможности ИИ?
Оговорюсь, говоря о переоценке, я не имею в виду то, насколько ИИ уже стал интеллектом в полном смысле этого слова, включающем способность «рождать» новое знание. Даже мне, неспециалисту, понятно, что до этого ещё очень-очень далеко. Я имею в виду нечто значительно более приземлённое – надёжность медицинских информационных систем, в основе которых лежат обучаемые машинные алгоритмы. В тех случаях, когда этот вопрос был исследован предметно и независимо от разработчиков, результаты оказались неутешительными. Вот пара примеров, но их значительно больше.
ИИ в диагностике рака лёгкого
В 2017 году американская организация, которая называется Kaggle Data Science Bowl организовала испытания различных обучаемых машинных алгоритмов диагностики рака лёгкого по КТ-снимкам. В этом соревновании приняло участие несколько сотен разработчиков. Всем им было предоставлено около 1400 КТ-снимков лёгких (больные раком лёгкого, другими лёгочными заболеваниями, здоровые). Используя этот массив данных, участники соревнования должны были разработать и обучить свой алгоритм. Результаты победителей были впечатляющи – у первых пяти точность диагностики превышала 90%. Но, спустя некоторое время обнаружилось, что если тестировать алгоритмы-победители, не на полном оригинальном наборе данных, а на выборках из него, то точность диагностики понизилась до 60-70%, а то и до 50%. Авторы этой «разоблачающей» проверки заключили: «Почти все модели-победители потерпели неудачу, с треском» (дословно: “Almost all of these award-winning models failed miserably”).
ИИ в диагностике септического шока
Алгоритм для решения этой задачи (Epic Sepsis Model) был обучен с использованием 405 тысяч историй болезни пациентов госпитализированных в ряд крупных американских госпиталей в течение 3 лет. Поначалу казалось, что Epic Sepsis Model работает хорошо. Но тестирование на достаточно большой независимой выборке (38455 госпитализаций) дало разочаровывающие результаты: 50% положительных результатов были ложноположительными, а среди истинно-положительных алгоритм правильно выявил лишь 33% случаев.
Эти примеры взяты из заметки, опубликованное в журнале Nature
несколько дней назад (https://www.nature.com/articles/d41586-023-00023-2
). В ней, на уровне понятном для неспециалиста, обсуждаются причины
плохой воспроизводимости результатов медицинских диагностических
систем, базирующихся на обучающихся машинных моделях. Разумеется,
научное сообщество, пытается исправить ситуацию. Но сделать это
будет непросто т.к. некоторые препятствия (этические,
законодательные и др.) находятся за пределами компетенции и
возможностей научного сообщества. Если Вы интересуетесь проблемой
использовании «ИИ интеллекта» в медицине, советую ознакомиться с
этой заметкой и оригинальными работами, ссылки на которые в ней
даны.
Проф_АФВ
|
</> |