.

В журнале eLife еще в конце июня вышла любопытная статья [1], которая показывает, что если вы решили нарисовать статистику по какому-нибудь параметру, то начинать это делать нужно задолго до того, как этот параметр себя проявит. Более того, лучше сразу рисовать не только данные по этому параметру, а всю статистику целиком, иначе разные хитроумные аналитики данных все равно смогут вытащить истинные значения. На самом деле, цель статьи была не в этом, а в том, чтобы оценить параметры смертности от коронавируса в разных странах, но так как выборка исследуемых государств была большая, туда попали страны со, скажем так, самобытным подходом к публикации ковидной статистики. И сравнение итоговых результатов позволяет сделать кое-какие дополнительные выводы.
Авторы статьи начинают текст с дисклеймера о том, что сравнивать, насколько серьезно коронавирус ударил по разным странам, очень сложно, так как они по-разному рапортуют о смертности и тестируют очень разное количество народу. Однако практически все государства более или менее точно сообщают, какова была общая смертность за тот или иной период. И сравнив показатели 2020-го и предыдущих лет, можно оценить избыточную смертность. Особых природных катаклизмов в 2020-м не было, поэтому практически всю ее можно грубо отнести на счет ковида. Так как никакого общего сайта или базы данных с цифрами по смертям не существует, авторы решили сделать ее сами, собрав миллион всяких данных по различным официальным источникам. Проанализировав полученную информацию, ученые смогли оценить избыточную смертность в 2020-м году и сравнить ее с официально докладываемой смертностью от коронавируса. Этот параметр они назвали undercount, или занижением статистических показателей – для краткости назовем его недостачей. И его распределение по странам выглядит примечательно неоднородным.
Так, в некоторых странах, например, во Франции, Бельгии, Финляндии или Ирландии недостача оказалась отрицательной – то есть общее количество людей, умерших не от ковида, в 2020-м году было меньше, чем в предыдущие годы. Авторы связывают лучшую общую выживаемость с карантинными мерами, которые замедлили распространение многих инфекционных заболеваний, в первую очередь, гриппа. Напомню, от него в хорошие годы умирают около 300 тысяч человек, а в плохие – 500 тысяч. Зато в других странах недостача смертей достигает 100(!) раз – такой впечатляющий показатель у Таджикистана. За Таджикистаном следует Никарагуа – там официально объявленных смертей от коронавируса в 50 раз меньше, чем было бы при достоверной публикации статистики. На третьем месте Узбекистан – недостача в 31,5 раза. Затем идут Беларусь (14,5 раза) и Египет (13,1 раза).
В странах из второй пятерки антилидеров расхождение официальных цифр с теми, которые следуют из показателей избыточной смертности, не такое большое – от 6,6 до 4,5 раза. Последняя цифра – это данные по России, причем полученные исключительно из официальных открытых источников, в данном случае, не Оперштаба, а Росстата. В данных Оперштаба, вопреки всем законам теории вероятностей, уже много недель количество умерших остается постоянным и колеблется в пределах 3-5 человек в сутки. Статистики называют это распределение полочкой, и этот уникальный феномен, безусловно, заслуживает тщательнейшего исследования.
Работа в eLife – отличная иллюстрация того, как научный подход и грамотный анализ данных позволяет вытягивать данные даже там, где их постарались спрятать. Кроме того, авторы создали классный ресурс по общей смертности, он называется World Mortality Dataset [2], с ним можно поиграться и заодно узнать, в каких источниках публикуются цифры по смертям в разных странах. Будем надеяться, что энтузиазма авторов хватит на то, чтобы поддерживать и обновлять его до момента, пока им удастся убедить какие-нибудь государственные фонды или частных инвесторов в чрезвычайной полезности такой глобальной базы данных.
|
</> |