Нечувствительность к размеру выборки
Нечувстви́тельность к разме́ру вы́борки, когнитивное искажение, при котором люди делают неверные выводы о частоте встречаемости явлений в выборках разного масштаба. Впервые этот феномен был описан в 1974 г. Д. Канеманом и А. Тверски (Tversky. 1974). Работа, в которой впервые описывается нечувствительность к размеру выборки, переведена на русский язык: «Принятие решений в неопределённости. Правила и предубеждения» (Канеман. 2005). Учёные приводят три эмпирических исследованных примера для демонстрации такого искажения. В первом примере авторы описывают ситуацию с ростом, во втором – с больницами, в третьем – с шариками.
Люди приписывают равную вероятность встретить людей среднего роста, равного 6 футам (т. е. около 180 см), в выборках из 10, 100 и 1000 человек. Это происходит потому, что испытуемые используют эвристику репрезентативности при оценке вероятности (Kahneman. 1972). Люди знают, что обычно средний рост мужчины в популяции около 6 футов, и переносят это знание на выборки разного размера.
Другой пример представлен задачей о больницах. В одном городе находится две больницы: одна большая, в которой ежедневно рождается 45 детей, другая – маленькая, в которой в среднем появляется на свет 15 детей каждый день. При этом известно, что 50 % детей – мальчики, хотя процент может меняться в ту или иную сторону в разные дни. В течение года каждая из больниц вела статистику и отмечала дни, в которые рождалось более 60 % мальчиков. Вопрос этой задачи: в какой из больниц было больше таких дней? Варианты ответа: а) в большой больнице; б) в маленькой больнице; в) примерно одинаково (разница не более 5 %). Согласно опросу студентов, большинство респондентов выбрало третий вариант – количество дней, в которые рождается более 60 % мальчиков, одинаковы для больниц разного размера. Правильный ответ на эту задачу: в маленькой больнице. Так как статистика утверждает, что чем меньше выборка, тем больше вероятность, что её распределение отклонится от 50 %. В более обширных выборках дисперсия признака ниже.
В примере с больницей используются две независимые выборки, в то время как в примере с урной и шариками авторы описывают ситуацию, при которой выборки берутся из одной совокупности, т. е. оценивается апостериорная вероятность. В урне находятся шарики разного цвета. Причём пропорции цветов разные: 2/3 шариков одного цвета, 1/3 – другого. Один человек вынимает из урны 5 шариков, из которых 4 оказываются красными и 1 белым. Второй человек вынимает из урны 20 шариков: 12 красных и 8 белых. Вопрос: кто из этих людей будет более уверен в том, что урна содержит 2/3 шариков красного цвета и 1/3 – белого цвета? Какую оценку вероятности даст каждый из людей? Большинство опрашиваемых считает, что первый человек из задачи получает больше информативных сведений о пропорции шаров, т. к. в первом случае разница между количеством шариков разного цвета больше, чем во втором. Однако верный ответ: второй человек, который вытянул 12 красных и 8 белых. Он должен быть более уверен в том, что урна содержит 2/3 шариков красного цвета и 1/3 – белого цвета, т. к., несмотря на меньшую пропорцию, его выборка шаров больше, чем у первого человека. Апостериорные вероятности равны 8 к 1 – для первого условия (4 красных и 1 белый), 16 к 1 – для второго условия (12 красных и 8 белых).