О шулерах, статистике и купленных дипломах - 2

топ 100 блогов musashi831.08.2021 Продолжение к О шулерах, статистике и купленных дипломах

Подумал тут, что далеко не всем читателям ЖЖ довелось окончить какой-нибудь из советских технических вузов и многих рассуждения шулеров о репрезентативной выборке могут сбить с толку. А потому попытаюсь объяснить основы мат. статистики на пальцах - да простят меня математики.

Пример 1.
Есть некий магазин. Вас попросили определить процент женщин и мужчин среди покупателей. Вы встали у входа, постояли пол часа и посчитали - 40% женщин и 60% мужчин.
Значит ли это, что за год будет такая же пропорция? Разумеется нет. Но она будет похожая. Если вы зададите некий доверительный интервал - скажем 2% (т.е. 38-42% женщин и 58-62% мужчин), то реальные цифры за год с большой вероятностью - скажем 95% - попадут в этот интервал.

Если вы увеличите этот интервал, вероятность вырастет. Если уменьшите - упадет. А если хотите интервал уменьшить, а вероятность увеличить - вам придется увеличить размер выборки. Больше размер - больше точность. Пока все просто. А как же репрезентативность?

Пример 2.
Теперь у нас не магазин, а торговый центр. Входов много и вы вошли внутрь и считаете внутри. Вот только вы сдуру встали рядом с магазином женского белья. Все - теперь ваша выборка не репрезентативная. И уже не важно простоите вы пол часа или пол года. Ваши оценки будут не верны и от увеличения размера точность не вырастет.

Теперь перейдем к понравившемуся моему оппоненту примеру с картофелинами. 40 гектаров - это при 4 кустах на 1 кв.м. - 1 600 000 кустов. Если мы выберем случайным образом 384 куста в разных местах этих 40 гектаров и если нам не врет https://socioline.ru/rv.php то мы получим вполне приемлемую оценку - 5% доверительный интервал и 95% попадания в него. А теперь смотрим, что нам советует наш эксперта по картофелю:

А для 40 гектаров понадобится выкопать не менее чем половину гектара при самых лучших идеальных условиях. То есть 1,5% и более. Причем это очень мало и очень неточно. Но хоть как-то. Это и называется репрезентативная выборка, то есть минимальный объем данных по которым можно делать какие-то выводы по ситуации в целом.

Если мы его послушаемся и выкопаем половину гектара - т.е. 20000 кустов - наша выборка будет заведомо не репрезентативной. Ибо в разных местах разная почва, по разному удобряли, поливали, возможно сажали разные сорта и т.д. А 384 куста могут дать достаточно точную оценку. Если не путать размер и репрезентативность

Оставить комментарий

Архив записей в блогах:
...
небо! 10:38:50 DSC_0818-2 Taken on July 16, 2022 Nikon D60 ,18.0-55.0 mm f/3.5-5.6 ƒ/10.0 55.0 mm 1/400 200 Riga. signs of summer. Рига. приметы лета ...
На этой неделе стоит мороз -20 и ниже. А до этого шел снег и город в снегу. Это наш двор. Снег в Кирове не вывозят, просто сгребают трактором в кучи и он лежит до весны. Вот кучи снега выше забора. Забор высокий, выше человеческого роста. Подснежники во дворе. Весной нас ...
За несколько секунд до этого Геббельс был весел и улыбался. Но тут он распознал в фотографе Альфреде Айзенштадте, который его снимает, — еврея. Айзенштадт уверял, что вынес этот взгляд, не испытывая страха, как и всегда, когда у него в руках фотоаппарат. ...
Если вы думаете, что это фото сделано во время блокады Ленинграда, то вы заблуждайтесь, это Санкт Петербург сегодня. ...