Научные публикации завтра

ivory_zoo — 11.07.2021 Немного мыслей о том, что ждет мир научных публикаций в, вероятно, весьма скором будущем

Raw data

Как я уже писал, будущее – за публикацией сырых экспериментальных данных. То есть в основном непосредственно того, что выдает ~~стрелка осциллографа~~ измерительное оборудование и прочие более или менее дорогие научные гравицапы.

Это, кстати, не зависит от того, в какой степени классический IMRAD-формат сохранится (хотя, как уже было сказано, его будущее сомнительно и уж точно ограничено), поскольку это вещи точно не взаимоисключающие. В некоторых областях требования к публикации raw data есть уже сейчас, пусть и в усеченном виде – например, в кристаллографии, и это (пока что) не убило IMRAD в этой сфере.

Все это касается в основном наук естественных, но может задеть и гуманитариев. Например, у историков это будет связано с оцифровкой архивов (этот процесс уже идет, хотя, к сожалению, весьма медленно (в России, по меньшей мере), но это тема для отдельного грустного поста).

Совершенно точно этот тренд вызовет у кого-то боль пониже спины и массу протестов, ибо грешны многие, пусть и в разной степени. Причина проста: трудно найти научника, который готов ответить головой, что он никогда в жизни не «подчищал данные» - или, что даже вероятнее, этого не делали его падаваны, даже не ставя его в известность. На минуточку, в научной этике это называется «фальсификация данных» и считается весьма большим косяком, но тем не менее.

Поэтому для кого-то raw data могут стать проблемой. Мне эта тема напоминает старый срач по поводу того, не стоит ли ввести повсеместный ДНК-анализ новорожденных, чтобы любой новоиспеченный папаша был уверен в том, что он воспитывает своего спиногрыза. У этой идеи есть нехилое число идейных противников (да камон, давайте честно – в основном противниц) с весьма слабой с рациональной точки зрения аргументацией, что Настоящему Мужчине (с) такой анализ не нужен, потому что он верит своей жене. Ничего не напоминает? Да-да, в науке тоже принято верить на слово – на этом, в общем-то, и основывается авторитетность научной литературы. Но…
Научные публикации завтра

Нейросеть-рецензент (или помощник рецензента)

Это вопрос очень близкого будущего. Я не очень внимательно следил за новостями, но почти уверен, что попытки сделать нейросеть-рецензента статей были и есть, и рано или поздно это решение пойдет в массы.

Начнется с малого, и уже понятно, с чего – тут raw data и пригодятся. Нейросеть будет проверять:

Совпадение raw data с опубликованными ранее. Это офигенная проблема, по крайней мере, в естественных науках – иногда люди не просто делают то же, что их предшественники (это как раз хорошо и нормально), но выдают это за новое. Иногда это осознанный обман, иногда – добросовестное заблуждение. Число статей увеличивается слишком быстро, и существующие базы данных просто не успевают совершенствовать свои алгоритмы, поэтому ответ на вопрос «делали такое раньше или нет?» может иногда оказаться неверным.

(Хотя, по опыту автора, часто проблема даже не в несовершенных алгоритмах поиска, а в неумении пользоваться базами данных и нежелании учиться. Не раз приходилось рубить грантовые заявки, авторы которых не то что выпали из мировой научной литературы много лет – они туда и не впадали)

Правдоподобность. Опять же – путем сравнения с тем, что уже было сделано. Это не так сложно, как кажется. Один пример: в химии очень широко используется ЯМР-спектроскопия, но программы, способные более или менее точно предсказывать спектры новых соединений, есть уже давно. Соответственно, нейросеть может проводить такое сравнение автоматически и выявить любые странности.

Сюда же относится борьба с фальсификацией и фабрикацией данных: очень часто при проделывании разного рода извращений с исходными данными остаются специфические улики. Их можно засекать в автоматическом режиме.

На первом этапе развития этих технологий нейросети будут, конечно, только помощниками рецензента – они будут выдавать человеку отчет о возможных проблемах, чтобы он тратил меньше времени на принятие решения. Но, вероятно, в каких-то областях удастся пойти еще дальше – вообще-то у издателей хранится огромный массив текстов рецензий, на которых можно пробовать учить ИИ… Кто знает, кто знает.

Еще ИИ может оказаться очень полезным редактору, чтобы отслеживать предвзятость рецензента, причем в обе стороны. Напомню, нынче борьба со всякой дискриминацией – модная тема, но одно дело – слова, а другое – факты. Наиболее примитивный вариант – просто посмотреть процент таких-то рекомендаций рецензента Х по разным группам статей (например, corresponding author М vs Ж или из страны А vs из страны B). Продвинутый вариант возможен, если все-таки удастся научить ИИ хотя бы очень грубо, но оценивать качество статьи – тогда можно просто соотнести оценки ИИ с распределением таковых у рецензента Пупкина. Если есть сильные отклонения – повод задуматься.

Важная оговорка

Опять же, как я уже писал, все вышеизложенные мысли исходят из допущения, что научные публикации – это способ обмена знаниями, в этом их цель и все совершенствование системы делается, чтобы эту цель достигать лучше.

В реальности бывает иначе.

Кто-то смотрит на публикации со стороны «чтоб Минобр был доволен, отчеты радовали глаз и премии капали». Кому-то главное, чтобы в научных журналах была diversity авторов. Ну и, понятное дело, кто-то на фоне этих пожеланий на науку готов приподзабить.

Бога ради. Но об этом пусть думают другие :)

И напомню:

Зоопарк из слоновой кости: https://t.me/ivoryzoo

Наука. Аспиранты. Студенты. Ученые.

Руководство по выживанию в науке, полезные советы начинающим, новости из научной жизни и просто околонаучный треп :)

Сохранено