О шулерах, статистике и купленных дипломах - 2

Подумал тут, что далеко не всем читателям ЖЖ довелось окончить какой-нибудь из советских технических вузов и многих рассуждения шулеров о репрезентативной выборке могут сбить с толку. А потому попытаюсь объяснить основы мат. статистики на пальцах - да простят меня математики.
Пример 1.
Есть некий магазин. Вас попросили определить процент женщин и мужчин среди покупателей. Вы встали у входа, постояли пол часа и посчитали - 40% женщин и 60% мужчин.
Значит ли это, что за год будет такая же пропорция? Разумеется нет. Но она будет похожая. Если вы зададите некий доверительный интервал - скажем 2% (т.е. 38-42% женщин и 58-62% мужчин), то реальные цифры за год с большой вероятностью - скажем 95% - попадут в этот интервал.
Если вы увеличите этот интервал, вероятность вырастет. Если уменьшите - упадет. А если хотите интервал уменьшить, а вероятность увеличить - вам придется увеличить размер выборки. Больше размер - больше точность. Пока все просто. А как же репрезентативность?
Пример 2.
Теперь у нас не магазин, а торговый центр. Входов много и вы вошли внутрь и считаете внутри. Вот только вы сдуру встали рядом с магазином женского белья. Все - теперь ваша выборка не репрезентативная. И уже не важно простоите вы пол часа или пол года. Ваши оценки будут не верны и от увеличения размера точность не вырастет.
Теперь перейдем к понравившемуся моему оппоненту примеру с картофелинами. 40 гектаров - это при 4 кустах на 1 кв.м. - 1 600 000 кустов. Если мы выберем случайным образом 384 куста в разных местах этих 40 гектаров и если нам не врет https://socioline.ru/rv.php то мы получим вполне приемлемую оценку - 5% доверительный интервал и 95% попадания в него. А теперь смотрим, что нам советует наш эксперта по картофелю:
А для 40 гектаров понадобится выкопать не менее чем половину гектара при самых лучших идеальных условиях. То есть 1,5% и более. Причем это очень мало и очень неточно. Но хоть как-то. Это и называется репрезентативная выборка, то есть минимальный объем данных по которым можно делать какие-то выводы по ситуации в целом.
Если мы его послушаемся и выкопаем половину гектара - т.е. 20000 кустов - наша выборка будет заведомо не репрезентативной. Ибо в разных местах разная почва, по разному удобряли, поливали, возможно сажали разные сорта и т.д. А 384 куста могут дать достаточно точную оценку. Если не путать размер и репрезентативность
|
</> |