О шулерах, статистике и купленных дипломах - 2

топ 100 блогов musashi831.08.2021 Продолжение к О шулерах, статистике и купленных дипломах

Подумал тут, что далеко не всем читателям ЖЖ довелось окончить какой-нибудь из советских технических вузов и многих рассуждения шулеров о репрезентативной выборке могут сбить с толку. А потому попытаюсь объяснить основы мат. статистики на пальцах - да простят меня математики.

Пример 1.
Есть некий магазин. Вас попросили определить процент женщин и мужчин среди покупателей. Вы встали у входа, постояли пол часа и посчитали - 40% женщин и 60% мужчин.
Значит ли это, что за год будет такая же пропорция? Разумеется нет. Но она будет похожая. Если вы зададите некий доверительный интервал - скажем 2% (т.е. 38-42% женщин и 58-62% мужчин), то реальные цифры за год с большой вероятностью - скажем 95% - попадут в этот интервал.

Если вы увеличите этот интервал, вероятность вырастет. Если уменьшите - упадет. А если хотите интервал уменьшить, а вероятность увеличить - вам придется увеличить размер выборки. Больше размер - больше точность. Пока все просто. А как же репрезентативность?

Пример 2.
Теперь у нас не магазин, а торговый центр. Входов много и вы вошли внутрь и считаете внутри. Вот только вы сдуру встали рядом с магазином женского белья. Все - теперь ваша выборка не репрезентативная. И уже не важно простоите вы пол часа или пол года. Ваши оценки будут не верны и от увеличения размера точность не вырастет.

Теперь перейдем к понравившемуся моему оппоненту примеру с картофелинами. 40 гектаров - это при 4 кустах на 1 кв.м. - 1 600 000 кустов. Если мы выберем случайным образом 384 куста в разных местах этих 40 гектаров и если нам не врет https://socioline.ru/rv.php то мы получим вполне приемлемую оценку - 5% доверительный интервал и 95% попадания в него. А теперь смотрим, что нам советует наш эксперта по картофелю:

А для 40 гектаров понадобится выкопать не менее чем половину гектара при самых лучших идеальных условиях. То есть 1,5% и более. Причем это очень мало и очень неточно. Но хоть как-то. Это и называется репрезентативная выборка, то есть минимальный объем данных по которым можно делать какие-то выводы по ситуации в целом.

Если мы его послушаемся и выкопаем половину гектара - т.е. 20000 кустов - наша выборка будет заведомо не репрезентативной. Ибо в разных местах разная почва, по разному удобряли, поливали, возможно сажали разные сорта и т.д. А 384 куста могут дать достаточно точную оценку. Если не путать размер и репрезентативность

Оставить комментарий

Архив записей в блогах:
...
Узнаете? :-) Это я сейчас ходила отдышаться в спустившейся вечерней прохладе. Всего плюс 23. Благодать! А в траве за домом - эти "инопланетяне". Много-много! Целый десант :-) Кстати, помните, жалилась, что наш заборчик повалился? Так вот сосед заборчик в палисаднике поправил ...
Бульварное кольцо – любимый маршрут для прогулок москвичей и путешественников, заглянувших в наш прекрасный город. Последовательность бульваров и площадей составляет примерно 9 километров, так что сил у пешеходов уходит немало. Совершенно точно захочется подзаправиться. Начав движение ...
Когда мы были в Оксфорде , виды Темзы в верхнем её течении напомнили мне о книге, которую я любил начинать читать в детстве. Не помню, дочитал ли я «Троих в лодке, не считая собаки» (1889) хотя бы раз до конца. Но начало мне определённо нравилось своим юмором, и многие истории – про ...
Сегодня состоялась церемония прощания в Букингемском дворце - король и королева проводили императорскую чету. ...