Попытка применить LLM AI в научных исследованиях: внезапный oops (последствия

топ 100 блогов alex_rozoff02.11.2025 В продолжении рассказа о несоразмерности LLM-бума представляю фрагменты статьи Ника МакГрейви (полный текст по ссылке*)
Попытка применить LLM AI в научных исследованиях: внезапный oops (последствия dd69cd4e-9398-4ea0-8e47-939008a03efa.jpg
...я выбрал для изучения то, что пионер ИИ Yann LeCun позже назвал «действительно горячей темой»: использование ИИ для решения дифференциальных уравнений в частных производных (PDE). Но когда я попытался развить то, что считал впечатляющими результатами, я обнаружил, что методы ИИ работают намного хуже, чем было заявлено.
Сначала я попытался применить широко цитируемый метод ИИ под названием PINN к некоторым довольно простым PDE, но обнаружил, что он оказался неожиданно хрупким. Позже, хотя десятки статей утверждали, что методы ИИ могут решать PDE быстрее, чем стандартные численные методы — в некоторых случаях до миллиона раз быстрее — я обнаружил, что подавляющее большинство этих сравнений были несправедливыми. Когда я сравнивал эти методы ИИ на равных с современными численными методами, любое узко определённое преимущество ИИ обычно исчезало.

Этот опыт заставил меня усомниться в идее, что ИИ готов «ускорить» или даже «революционизировать» науку. Действительно ли мы стоим на пороге того, что DeepMind называет «новой золотой эрой научных открытий, основанных на ИИ», или общий потенциал ИИ в науке был преувеличен — так же, как это было в моей подобласти?
Многие другие выявили схожие проблемы. Например, в 2023 году DeepMind заявила об открытии 2,2 миллиона кристаллических структур, что представляет собой «расширение известных человечеству стабильных материалов на порядок величины». Однако, когда материаловеды проанализировали эти соединения, они обнаружили, что это было «по большей части мусором» и «с уважением» предположили, что статья «не сообщает о каких-либо новых материалах».
Отдельно, компьютерные учёные из Принстона Arvind Narayanan и Sayash Kapoor составили список из 648 статей в 30 областях, в которых все допущена методологическая ошибка, называемая утечкой данных. В каждом случае утечка данных приводит к чрезмерно оптимистичным результатам. Они утверждают, что научные исследования, основанные на ИИ, сталкиваются с «кризисом воспроизводимости».

...

ИИ может привести к научным прорывам. Моя озабоченность касается их масштаба и частоты. Действительно ли ИИ показал достаточный потенциал, чтобы оправдать такой масштабный перенос талантов, обучения, времени и денег от существующих направлений исследований к одной парадигме?
Каждая область науки по-разному ощущает влияние ИИ, поэтому мы должны быть осторожны в обобщениях. Однако я убеждён, что некоторые уроки из моего опыта широко применимы в науке:

- Внедрение ИИ среди учёных стремительно растёт не столько потому, что это приносит пользу науке, сколько потому, что это приносит пользу самим учёным.

- Поскольку исследователи ИИ почти никогда не публикуют отрицательные результаты, область ИИ для науки сталкивается с систематической ошибкой выжившего.

- Публикуемые положительные результаты, как правило, излишне оптимистичны в отношении потенциала ИИ.

- В результате я пришёл к выводу, что ИИ в целом был менее успешным и революционным в науке, чем кажется.

В конечном итоге, я не знаю, изменит ли ИИ многолетнюю тенденцию снижения научной продуктивности и стагнации (или даже замедления) темпов научного прогресса. Думаю, никто не знает. Но за исключением крупных (и, на мой взгляд, маловероятных) прорывов в области продвинутого ИИ, я ожидаю, что ИИ будет скорее обычным инструментом для постепенного, неравномерного научного прогресса, чем революционным.

...

PINN были радикально иным способом решения PDE по сравнению со стандартными численными методами. Стандартные методы представляют решение PDE как набор пикселей (как в изображении или видео) и выводят уравнения для каждого значения пикселя. Напротив, PINN представляют решение PDE как нейронную сеть и помещают уравнения в функцию потерь.
Как наивный студент-аспирант, у которого даже ещё не было научного руководителя, я находил в PINN что-то невероятно привлекательное. Они казались такими простыми, изящными и универсальными.
Также результаты выглядели хорошо. В статье, представляющей PINN, было обнаружено, что их «эффективность» была «продемонстрирована на наборе классических задач в гидродинамике, квантовой механике, реакционно-диффузионных системах и распространении нелинейных волн на мелкой воде». Если PINN решили все эти PDE, я решил, то, конечно, они смогут решить некоторые PDE по физике плазмы, которые интересовали мою лабораторию тоже.
Но когда я заменил один из примеров из этой влиятельной первой статьи ( 1D Burgers’) другим, но всё ещё чрезвычайно простым PDE ( 1D Vlasov), результаты не были похожи на точное решение. В конце концов, после обширной настройки, мне удалось получить что-то, что выглядело правильно. Однако, когда я попробовал немного более сложные PDE (такие как 1D Vlasov-Poisson), никакое количество настройки не могло дать мне достойного решения.
Через несколько недель неудач я написал другу из другого университета, который рассказал мне, что он тоже пытался использовать PINN, но не смог получить хороших результатов.

...

...люди редко публикуют статьи о неудачах методов ИИ, только об их успехах. Авторы оригинальной статьи о PINN не публиковали информацию о PDE, которые их метод не смог решить. Я не публиковал свои неудачные эксперименты, представив лишь постер на малоизвестной конференции. Так что очень немногие исследователи узнали о них. На самом деле, несмотря на огромную популярность PINN, потребовалось два года, чтобы кто-либо опубликовал статью об их режимах отказа. Эта статья теперь имеет более тысячи цитирований, что говорит о том, что многие другие учёные пробовали PINN и столкнулись с аналогичными проблемами.

Согласно ряду известных статей, ИИ решал уравнения Навье-Стокса на порядки быстрее, чем стандартные численные методы. Однако я в конце концов обнаружил, что базовые методы, используемые в этих статьях, не были самыми быстрыми из доступных численных методов. Когда я сравнивал ИИ с более продвинутыми численными методами, я обнаружил, что ИИ не был быстрее (или, в лучшем случае, лишь немного быстрее)
Мой руководитель и я в итоге опубликовали систематический обзор исследований по использованию ИИ для решения PDE из механики жидкостей. Мы обнаружили, что 60 из 76 статей (79 процентов), которые заявляли о превосходстве над стандартным численным методом, использовали слабую базовую линию, либо потому, что они не сравнивали с более продвинутыми численными методами, либо потому, что они не сравнивали их на равных условиях. Статьи с большим ускорением все сравнивали со слабыми базовыми линиями, что говорит о том, что чем впечатляющее результат, тем более вероятно, что в статье было сделано несправедливое сравнение.

...

Большинство рассказов об ускорении науки ИИ исходят от компаний, занимающихся ИИ, или учёных, работающих над ИИ, которые прямо или косвенно извлекают выгоду из этих рассказов. Например, CEO NVIDIA Jensen Huang говорит о том, как «ИИ будет способствовать научным прорывам» и «ускорит науку в миллион раз». NVIDIA, чьи финансовые конфликты интересов делают их особенно ненадёжным рассказчиком, регулярно делает гиперболические заявления об ИИ в науке.
Можно подумать, что растущее внедрение ИИ учёными является доказательством полезности ИИ в науке с точки зрения их использования. В конце концов, если использование ИИ в научных исследованиях растёт экспоненциально, это должно быть потому, что учёные считают его полезным, верно?
Я в этом не так уж уверен. На самом деле, я подозреваю, что учёные переходят на ИИ не столько потому, что это приносит пользу науке, сколько потому, что это приносит пользу им

...

Вместо того чтобы выявлять проблему, а затем пытаться найти решение, мы начинаем с предположения, что ИИ будет решением, а затем ищем проблемы для решения. Но поскольку сложно выявить открытые научные задачи, которые можно решить с помощью ИИ, такой стиль науки «молоток в поисках гвоздя» означает, что исследователи часто будут решать проблемы, которые подходят для использования ИИ, но которые либо уже решены, либо не создают нового научного знания.

Чтобы точно оценить влияние ИИ на науку, нам нужно фактически изучить саму науку. Но, к сожалению, научная литература не является надёжным источником для оценки успеха ИИ в науке.

Одна из проблем — систематическая ошибка выжившего. Поскольку исследования в области ИИ, по словам одного исследователя, имеют «почти полное отсутствие публикаций об отрицательных результатах», мы обычно видим только успехи ИИ в науке, а не неудачи. Но без отрицательных результатов наши попытки оценить влияние ИИ на науку обычно искажаются.
Как знает любой, кто изучал кризис воспроизводимости, систематическая ошибка выжившего — серьёзная проблема в науке.

...Такие дела...
----------------------
*) I got fooled by AI-for-science hype—here's what it taught me
I used AI in my plasma physics research and it didn’t go the way I expected.
Nick McGreivy
May 19, 2025
https://www.understandingai.org/p/i-got-fooled-by-ai-for-science-hypeheres
May 22, 2025
Перевод: https://habr.com/ru/articles/911800/

Оставить комментарий

Предыдущие записи блогера :
Архив записей в блогах:
Издалека сооружение выглядит, как арт-объект. Подошла, смотрю, внутри люди гуляют. Оказалось, аттракцион бесплатный, вход свободный. Это непрерывный пешеходный маршрут в форме знака бесконечности. Причем есть два варианта. Сначала я пошла по правой тропе. Пандус поднимается слегка ...
Ребе Кахес дело говорит : "Дайте мне штрафовать собачников... ..и я наполню казну деньгами" В самом деле, сделай штраф за выгул собаки в неположенном месте тыщ в пять (а лучше в 10) — уже завтра вся полыция будет во дворах, сшибая по штуке ...
Пока "братья" наши меньшие сублимируют в сторону України на одну затоптанную аки лапти тему, им бьіло бьі зело лепо разобратъца, што же происходіт-то на самом деле. А давайте-ка посмотрим цифири! Инфа от организации Tampep. (Занимается профилактикой ВИЧ и венерических заболеваний среди ...
Реактивный учебно-тренировочный самолёт Boeing Skyfox Проект глубокой модернизации устаревших учебно-тренировочных самолётов Lockheed T-33 Shooting Star была предложена авиационной компанией Skyfox Corporation. По программе модернизации самолёт получал два новых двигателя Allison ...
Сегодня в марафоне #такаязима день самоуправления #7 и мне понравилось задание от pryanik - показать свой календарь. Кто читает мой ЖЖ сразу поймут, почему я купила такой календарь а вот почему! Это принцесса моя британская, Гермиона ...