О Нумерологии

топ 100 блогов alextutubalin15.12.2011

Кросспост из блога автора. Комментировать лучше там, но можно и тут

Количество дискуссий "о статистике" в которых я тут, сдуру, участвую, начинает меня нервировать. Хочу записать основные тезисы, дабы потом просто давать ссылку, а не писать одно и то же десять раз.

Предуведомление

Для создания хоть какой-то конструктивной атмосферы в обсуждении, вынужден сообщить:

  1. Я никоим образом не пытаюсь оспорить наличие фальсификаций на прошедших выборах о чем просто утомился уже говорить. Есть участки, где просто йобаный стыд, есть зафиксированные расхождения между копией протокола у наблюдателя и сайтом ЦИК (и эти расхождения, как правило, за одну партию), есть всякие подозрительные случаи, когда наблюдателя выгнали, а на сайте ЦИК что-то абсолютно не похожее на результаты по соседним участкам.
  2. Вышесказанное не означает, что любая странность должна трактоваться против Чурова и ЕР.
  3. Вышесказанное не означает, что любая наукообразная аргументация от противников Чурова/ЕР должна восприниматься некритически.
  4. Ну и если мы про статистическую науку, так давайте действовать как-то наукообразно, а не кто кого громче заклеймит и перекричит.
Чувствую себя полным идиотом оправдываясь, но без подобной преамбулы дискуссия сводится, в пределе "не надо оправдывать фальсификации, путинский наймит". А я скорее о том, что фальсификации не должны разоблачаться с помощью неподходящего к ситуации (или неправильно употребленного) статистического аппарата. То есть, конечно, все имеют право на заблуждения, но ситуация, когда на заблуждения указываешь, а в ответ получаешь ругань (обвинения в проданности режиму и прочее подобное) - огорчительна мне.

О Гауссиане и Центральной Предельной Теореме

В качестве обоснования гауссианы в подавляющем большинстве дискуссий поминается "Центральная Предельная Теорема", исходя из которой эта гауссиана и обязана получаться.

Центральная Предельная Теорема в классическом выражении говорит нам (вот прямо по википедии):

  • сумма бесконечной последовательности независимых случайных величин,
  • одинаково распределенных т.е. имеющих одинаковое матожидание и дисперсию,
  • будет распределена нормально (т.е. по гауссиане)
В случае выборов, под "независимой случайной величиной" имеет смысл понимать результат голосования одного избирателя. Тогда суммами будут результаты голосования по участкам, а распределение этих результатов по стране вроде бы должно быть нормальным.

Но

  1. Откуда берется мысль, что избиратели по стране (или по Москве) голосуют одинаково т.е. с одинаковым мат-ожиданием и дисперсией? Насколько я знаю, результаты выборов по регионам - заметно (и значимо) отличаются. А значит никакой гауссианы по стране не получится.
  2. Откуда берется мысль о независимости? Насколько я знаю, явка на разных выборах - сильно отличается. А значит есть какие-то факторы, которые решение вопроса "не сходить ли на участок" значимо сдвигают.
  3. (Еще раз) откуда берется мысль о независимости, если, чудесным образом, сумма всех результатов (голоса за партии + незачтенные бюллютни) по каждому из участков равна строго 100%? Результаты за партии - линейно зависимы.
Ну и практика показывает отсутсвие гауссианы. Вот "английская гауссиана" из исследования С. Кузнецова, на которое я еще сошлюсь. Это результаты по партиям:
О Нумерологии
Даже два горба есть (которые, как "все знают" - свидетельство подтасовок).

Отмечу, что если бы идея о гауссиане соблюдалась бы на практике, то всеобщие выборы были бы не нужны, было бы вполне достаточно нескольких сотен участков, причем вовсе не обязательно было бы их распределять по стране.

Update: украду еще пару графиков из статьи Статистический анализ результатов израильских выборов 2009 года

1. Распределение по партиям:

О Нумерологии
Как видим, длинный хвост встречается не только у нас.

2. Распределение по партийным блокам

О Нумерологии
Тут вообще труба. Привет Гауссу.

В-общем, тезис о том, что "во всех нормальных странах ВСЕГДА ГАУССИАНА" можно считать не просто недоказанным, а противоречащим практике.

Зависимость результата от явки

Утверждение: результат не должен зависеть от явки (ибо гауссиана и вообще не должен). И уж тем более, не может быть так, что только у одной партии он так зависел (с углом графика явка-голоса под 45%). Есть единственная модель - вброс за правящую партию.

Упрощенную модель явления я уже описывал, у меня нет никаких демографических обоснований этой модели, она просто не противоречит никаким физическим законам.

Обратимся к опыту развитой английской демократии (сопру еще один график у Кузнецова):

О Нумерологии
По оси X - явка, по оси Y - голоса за консерваторов. В первоисточнике есть ссылка на исходные данные.

Получается, так бывает. Более того, похоже что каждый явившийся избиратель консерваторов вбрасывал минимум два бюллютня.

Подобная же картина наблюдается и в Израиле, см. статью по ссылке выше.

Гребенка Чурова

Все видели эту гребенку (пики на кратных процентах: 50, 60, 75 и так далее), что якобы является свидетельством накруток за ЕР.

Многие, я надеюсь, читали и о другом объяснении, которое заключается в целочисленной арифметике: 50% голосов ровно дадут исходы 7 из 14, 8 из 16, 9 из 18 и так далее по всем размерам участков. И для участка с 8-ю явившимися избирателями возможны исходы с шагом 12.5% и никакие иные. А 51% ровно - получается куда меньшим числом способов. Аналогично 60% (3/5) будут возникать чаще, чем 59 или 61 (или 59.9 и 60.1 если взять бины помельче).

Понятно, что рассуждая таким образом нельзя отличить вброс (ровно на 50%, "ну давайте парочку добросим, а то у нас 49.9") от математических эффектов. Потому что и 50% и 60% - это круглые цифры, которые приятны не только целочисленной арифметике, но и избиркому.

По счастью, есть исключения: 2/3 (66.67%) и 7/8 (87.5%) - цифры не круглые, избиркомам неинтересные, то есть пики там будут именно за счет целочисленных эффектов.

Я, блин, не поленился, выкачал данные и построил график с бинами через 0.1% для голосов за ЕР. Вот кусочек его, от 48 до 82%. Бины проведены через 0.1% и "тупо" (т.е. номер бина - это int(процент*10), если рисовать менее тупо как int((процент+0.05)*10), то эффект сглаживается:

О Нумерологии
Никакого сглаживания, оно все спрячет.

Как видим, пик на 2/3 имеется, причем он ровно на 2/3 (66.7), избиркомы тянули бы до 67%, как мне кажется. Пик на 65% тоже есть, но он меньше по величине, чем на 2/3.

Вывод: как минимум частично, пики на круглых дробях (1/2, 3/5, 2/3, 3/4, 4/5) объясняются целочисленной арифметикой. Пик на 7/8 (87.5%) совсем невыразительный (участков мало), но тоже имеется.

Update: Как нам подсказывают в комментариях, гребенка есть и для КПРФ на 20% (1/5) и на 25% (1/4) и для других партий - тоже. ПГ на том графике - просто случайная величина, так ведь тоже. Кругом враги!

Мораль

Мораль простая: не все "очевидные" особенности стат-данных по выборам есть результат злонамеренности. И гауссиана отсутствует в развитых демократических странах и странные пики - не обязательно странные. Тщательнее надо. Если статистика - то прямо вот от основ, независимость, случайность, вид распределения....

Оставить комментарий

Предыдущие записи блогера :
Архив записей в блогах:
Всем привет! Поговорите со мной пожалуйста, я не знаю как поступить( У моего мужа есть младший брат, которому завтра исполняется 13 лет. Дело в том, что мальчик совершенно никогда не задумывается не только о том что подарить маме-папе ну и тд на др, но не старается запомнить когда у кого ...
Все помнят за что скакал Майдан?! За основополагающее для украинца: за каву в венской опере по субботам, за европенсии по 3 тысячи евро (интересно у самих немцев, чехов, французов у всех такая пенсия?!), за кружевные труселя и за безвиз. Вот это основное называли тогда на Майдане! И ...
Некоторые генерал-полковники и генерал-лейтенанты станут существенно беднее в самом прямом смысле, равно как и кланы, ими возглавляемые. По сути, Верховный убрал неупоминаемого и прислал в заповедник непуганых чертей своего аудитора, умеющего убедительно возвращать неправедно нажитое. ...
Американские танки М46 Patton, использовавшихся для ознакомления и обучения офицеров из стран НАТО в учебном центре, организованном американской армией на базе французского учебного центра Camp de Mailly; ~ конец 40-х - начало 50-х гг. ...
Получать новые посты дневника на ...