О вероятности редких событий
lex_kravetski — 07.04.2021 Среднее без дисперсии — это число, по которому в общем случае нельзя сделать никаких выводов. Но часто служит оно для того, чтобы сделать выводы произвольные.Впрочем, это не единственный способ масштабных поставок лапши на уши. В том числе, и людям, которым кажется, что если тут циферки, да ещё и полученные по результатам измерений, то теперь всё научно и всё доказано.
Предположим, есть некоторое событие, которое имеет «реальную частоту» равную 1/100. То есть, если бы мы имели возможность, например, отсмотреть всех людей планеты, то у 1/100 из них обнаружилась бы штука Икс.
Реальная же дисперсия у этой штуки, я не знаю, 0,00001. Очень маленькая, в общем.
Теперь мы выбрали группу из ста пациентов для исследования, целый месяц совершали над ними пассы и окропляли святой водой, а потом обнаружили, что двое из них имеют штуку Икс.
Сто пациентов — это неплохо так. Многие исследования проводятся и на меньших группах.
А 2/100 — это вдвое больше, чем 1/100.
Значит ли это, что пассы и святая вода аж вдвое повышают вероятность заполучения Икс? Не случайное ли это совпадение?
Нет, что вы, совсем даже не случайное. Напротив, это — закономерное совпадение.
Дело в том, что вероятность в таких условиях получить ровно 1/100 примерно равна 0,37.
Поскольку для получения 1/100 из ста пациентов ровно один должен словить Икс. Если словят двое, то это уже будет 2/100, а если 0, то вообще 0/100.
При этом мы не можем пронаблюдать полпациента с Икс или, скажем, полтора пациента с Икс.
То есть наш случай — дискретный, а его вероятность близка к частоте дискретизации,
Иными словами, для этого эксперимента событие — достаточно маловероятное, чтобы ситуация, в которой будет получена равная его «реальной вероятности» частота, оказалась менее вероятной, чем ситуация, где она получена не будет.
С вероятностью 0,37 мы получим одного иксоносца, а с вероятностью 0,63 — не одного. Иными словами, то, что мы пронаблюдали: «не 1» — это как раз наиболее вероятный исход. Вдвое более вероятный, чем исход, который даст реальную частоту.
Имей мы миллион пациентов, возможно, мы бы уже догадались, что получить ровно десять тысяч пациентов с Икс, всё-таки довольно проблематично. Скорее всего, их будет не ровно десять тысяч, а что-то около десяти тысяч. После этого мы бы установили доверительный интервал — плюс–минус сто, например, посчитали бы вероятность случайно промахнуться мимо него и так далее.
А может быть и не посчитали бы. Но вот, когда в штуках, а не в тысячах оных, это почему-то постоянно проходит мимо критического фильтра, и делается вывод вида: без нашей штуки Икс был в одном случае из ста, а с ней — в двух случаях из ста. Таким образом, наша штука повышает вероятность Икса в два раза — экспериментально доказано!
А потом прочитавшие это умозаключение, снабжённой экспериментально измеренной, а потому научной и хорошо обоснованной, пропорцией «в два раза», идут нести знания массам других заинтересованных.
В общем, я бы предложил для вменяемой популяризации необходимый критерий: если популяризатор не сообщил слушателям, каким образом получено некоторое число, то есть не расписал способ постановки эксперимента и необходимые для его анализа параметры, то это была не популяризация, а Рен-ТВ с косметическими изменениями в риторике.
Названное число означает столь же много, сколь на ровном месте оглашённый вывод: ничего не означает.
Между «от около десяти тысяч штук до около двадцати тысяч штук» и «от одной штуки до двух штук» почти одинаковая численная разница: в два раза. Но вот смысловая разница радикальная: «мы пронаблюдали некую закономерность» vs «мы пронаблюдали хрен знает что».
Однако диагностировать эту разницу по оглашённому единственному числу точно так же невозможно, как и по оглашённому в сферическом вакууме выводу.
doc-файл
|
</> |