рейтинг блогов

Разложим выборы по кучкам

топ 100 блогов tov-y11.04.2024

Электоральная статистика как популярная дисциплина начиналась с игры «Гаусс против Чурова». И хотя ни один реально используемый ныне алгоритм выявления фальсификаций или реконструкции истинных итогов выборов не предполагает нормального распределения каких-либо электоральных характеристик, в эту игру интересно поиграть и сейчас.

Аппроксимируем распределение официальных итогов в координатах «общая явка – результат власти» смесью 3 гауссиан, параметры которых будут описывать честно подведённые итоги, результаты физических манипуляций с бюллетенями и последствия тупого выдумывания. Такое деление участков на 3 кучки, насколько я знаю, придумал коллега Разложим выборы по кучкам kobak (но, видимо, постил где-то в Твиттере вместо ЖЖ, так что исходного поста мне найти не удалось, и я не знаю, какая именно применялась аппроксимация).

Для приближения распределения смесью гауссиан я использую SEM-алгоритм – стохастический алгоритм нахождения оценок максимального правдоподобия. Сначала (для избегания локальных экстремумов) выполняются 1000 итераций с долей точек, обрабатываемых стохастических, линейно убывающей со временем от 1 до 0, а затем – для лакировки результата – 100 итераций без стохастики. Участки с абсолютной явкой априори исключены из рассмотрения, поскольку в силу её фиктивного характера они образуют свою кучку.

Нетривиальным является выбор весов, с которыми следует учитывать участки. При выделении основного кластера диаграммы рассеяния участки считались равноценными, поскольку их размер учитывался косвенным образом: чем зашумлённее итоги выборов на участке из-за его малости, тем выше у него шансы оказаться за пределами кластера. Здесь же на результат влияют все участки, так что их размер надо учитывать явным образом. Проблема, однако, состоит в том, что явка и результат возникают как дроби с разными знаменателями. Поэтому невозможно ввести для точек веса так, чтобы взвешенные средние совпадали отношением сумм числителей и знаменателей этих дробей. В качестве вынужденного компромисса в качестве вес был принят равным среднему геометрическому знаменателей – числа зарегистрированных избирателей и их участия в голосовании.

Вот так выглядит результат приближения для последних выборов.
Разложим выборы по кучкам

Каждая гауссиана на диаграмме рассеяния обозначена эллипсом τ2 − 2R·τρ + ρ2 = 1−R2, где τ = (t−μt)/σt и ρ = (r−μr)/σr – приведённые координаты, а R = cov/σtσr – коэффициент корреляции явки t и результата r. Такой эллипс является двумерным аналогом одномерного доверительного интервала, концы которого отстоят от математического ожидания на одно среднеквадратичное отклонение.

Центр самого левого нижнего эллипса (μtr) может рассматриваться как реконструкция истинных итогов выборов. Её сравнение с результатами реконструкции с помощью интегрального метода Шпилькина показывает в целом неплохое совпадение.
Разложим выборы по кучкам

Метод Шпилькина,

как уже было сказано для выборов 2004 г. завышает реконструированную явку, поэтому самое сильное отклонение вниз должно быть отнесено именно на его счёт. А вот самые заметные отклонения вверх для 2020–24 гг. предположительно обусловлены невозможностью вместить очень сильные фальсификации всего в две кучки.

Распространённость честного подсчёта и фальсификаций разного вида отчасти может быть охарактеризована весами соответствующих экспонент.
Разложим выборы по кучкам

Однако к такому способу представления результатов следует относится с известной осторожностью. Дело в том, что вторая кучка, связываемая с манипуляциями, при её перекрытии с первой может включать в себя и честные итоги. Как можно видеть из следующего графика, эти кучки разошлись только с 2004 г.
Разложим выборы по кучкам


Последним (по порядку рассмотрения, но не по значимости) параметром гауссиан является коэффициент корреляции явки и результата. Для неразделённых данных он очень высок, что само по себе считается признаком фальсификаций. Однако внутри каждой кучки эти характеристики для честных итогов почти не коррелируют, для результатов манипуляций коррелируют чуть сильнее и лишь последствия выдумывания приводят к какой-то корреляции (скорее всего, она обусловлена негауссовым характером распределения выдуманных чисел).
Разложим выборы по кучкам

Оставить комментарий

Архив записей в блогах:
25 декабря 2020. Корейский термоядерный реактор KSTAR поставил мировой рекорд по удержанию высокотемпературной плазмы. на токамаке KSTAR. Ученым удалось удерживать высокотемпературную плазму в течение 20 секунд при температуре ионов более 100 миллионов градусов. ...
Господи, какой ужас! Ведь это был один из самых крутейших персонажей советской и российской музыки. Его вклад в развитие русского рока вообще невозможно переоценить. Скольких музыкантов поставил на ноги, помог, приютил, проспонсировал. Его замечательный дом на Николиной горе и квартира ...
Привет, это ежедневный пост марафона #летовместе !  ЗАДАНИЕ на сегодня: покажите, что вы интересного написали за сегодня.  #летовместе Правила участия в ...
... народное выходит на новый уровень. Вы уже видели бабуль с сумками сахара и гречки? А дяденек со "взором горящим" и магазинными тележками, доверху набитыми мультиварками, чайниками и электроинструментом? Я уже видела и тех, и других пробегая мимо с купленным про запас весенним пальто:) ...
В Королевстве живых растений одним из самых фотографируемых объектов является созданная из 170 000 алюминиевых деталей, имеющих форму сот, и 1000 светодиодных фонарей инсталляция, имитирующая пчелиный улей. Первоначально созданный британским художником Вольфгангом Баттрессом для Milan ...