Про кризис воспроизводимости, p < .05

топ 100 блогов allchymist16.02.2017 Про кризис воспроизводимости, p < .05
Этот пост переписан с фейсбука. Картинка представляет собой выжимку из анализа реальной статьи, опубликованной в реальном журнале и наглядно изображает тлен, который творит с научным знанием использование p-values. Особенно на небольших и/или шумных выборках, с грустной статистической мощностью.
Не буду подробно останавливаться на том, почему использование p-value в качестве стандартного (и, часто, единственного) статистического инструмента анализа результатов экспериментов должно быть максимально ограничено или даже забыто. Об этом писано очень много (например здесь самое лучшее). Но я хочу обратить внимание на размышление Эндрю Гельмана о именной логической ошибке: "Что не убивает статистическую значимость, делает ее сильнее"

Заключается она в следующем.

Допустим, вы делаете небольшое исследование на небольшой и достаточно шумной (в статистическом смысле) выборке субъектов. Вы обнаруживаете какой-то эффект, просчитываете для него p-value. Получаете p < .05 или даже p < .01. Вы довольны. Вы уверены, что если даже в этому шуме вам удалось добиться статистически значимого эффекта, то он точно есть и оно точно крутой. Вы отбрасываете нулевую гипотезу, пишете статью и она, разумеется, публикуется. Ибо данные и p < .05 или даже p < .01 удовлетворяют рецензентов, оппонентов и редколлегию журнала Нейчур ибо говорят сами за себя.

Но именно здесь и есть ошибка и именно она изображена на картинке, нарисованной на основании данных из реального, опубликованного исследования. Она графически изображает достаточно типичный случай такого исследования с низкой статистической мощностью. Красная вертикальная линия символизирует собой нулевую гипотезу. Синяя соответствует реальному эффекту и в идеале наше исследование должно попасть в синюю линию. Красные зоны соответствуют тем областям, где p < .05. Если вы попали в красную зону - повод для публикации у вас есть. Если не попали, то на нет и статьи нет, вы просто пожимаете плечами и идете ставить новые эксперименты, пока не попадете в красную. Только вот из попадания в красную зону напрямую следует 3 вывода:
 
- Или полученный вами результат значительно переоценивает величину эффекта
Про кризис воспроизводимости, p < .05
(Зависимость "преувеличения" размера эффекта от статистической мощности. Если мощность менее 0.5, то говорить о величине эффекта не комильфо)

- Или полученный вами результат значительно переоценивает величину эффекта по модулю, но не соответствует ему по знаку

Про кризис воспроизводимости, p < .05
(Зависимость вероятности ошибиться в направлении эффекта, например заметить рост, там где на самом деле падение, от статистической мощности. Если мощность мала, менее 0.2, то вероятность ошибиться слишком велика)

- В любом случае, полученный вами результат не имеет никакого отношения к истине

Статистическая значимость не только ничего не говорит нам о эффекте, но наоборот, говорит о том, что мы измерили его с гигантской ошибкой. Чем меньше мощность исследования - тем более вероятна лажа. Строго говоря лажа более вероятна чем не лажа. Все эти прорывные исследования в Нейчур, сделанные на 6 мышах или 5 студентах почти наверняка не несут никакой смысловой нагрузки. О чем  писано достаточно подробно другим прекрасным автором.

Мне кажется, это особенно важно понимать в силу гремящего в современной науке кризиса воспроизводимости, наиболее ярко гремящего в психологии и биомедицинских исследованиях, традиционно отличающихся малыми шумными выборками. Ни в коем случае не буду отрицать, что в науке много разных жуликов, и что явно или неявно (см.: p-hacking) нечестные исследования дают вклад в этот кризис. Но не стоит огульно обвинят психолога или медика в том, что его результат не воспроизвелся. Кризис имеет вполне понятную, статистическую природу, имя ей: p < .05.

И с этим давно пора что-то делать.

Оставить комментарий

Архив записей в блогах:
Оригинал взят у oleg_leusenko в Россия "запамятовала" про юбилей своего преступления. Панфилов напомнил. Геноцид, депортации, оккупация, предательство, репрессии, убийства, воровство, грабеж, этноцид.. Преступлениям русских нет счета : Мемориал ...
realtonysoprano Опасный какой то человек с севера. Вроде сейчас открывает какие то бандитские автомобильные отстойники, посему и к онкурс замутил у себя . В общем, там 1488 и я больше не хочу лезть, например! Давайте сами дальше! Кросбе Остреч Енот Типыч Дарина ...
Конгресс, Сенат и губернаторский корпус обновлены. Оглушительной победы нет ни у демократов, ни у республиканцев. О том, что в Соединенных Штатах зреет революционная ситуация, которая может привести к гражданской войне, не написал только ленивый. И завершившиеся выборы в ...
Сначала испытываешь, в лучшем случае, глубокое чувство недоумения: ...
                                     (с) warsh Мысль о полёте портит мне весь отдых уже заранее. Завидую людям не с таким... богатым воображением, как моё.          &nbs ...