Математическая статистика
Математи́ческая стати́стика, раздел математики, посвящённый математическим методам систематизации, обработки и использования статистических данных для научных и практических выводов.
Предмет и метод математической статистики
Под статистическими данными обычно понимают числовую информацию, извлекаемую из результатов выборочных обследований, результаты серии неточных измерений и вообще любую систему количественных данных.
Метод исследования, опирающийся на рассмотрение статистических данных о тех или иных совокупностях объектов, называется статистическим. Статистический метод используется во многих областях знания. Однако черты статистического метода в применении к объектам различной природы столь разнообразны, что было бы бессмысленно объединять, например, социально-экономическую статистику, звёздную статистику и т. п. в одну науку.
Общие черты статистического метода в различных областях знания сводятся к подсчёту числа объектов, входящих в те или иные группы, рассмотрению распределения количественных признаков, применению выборочного метода (в случаях, когда детальное исследование всех объектов обширной совокупности затруднительно), использованию теории вероятностей при оценке достаточности числа наблюдений для тех или иных выводов и при оценке точности получаемых результатов. Эта формальная математическая сторона статистических методов исследования, не связанная со спецификой природы изучаемых объектов, и составляет предмет математической статистики.
Связь математической статистики с теорией вероятностей
Связь математической статистики с теорией вероятностей имеет в разных случаях различный характер. Теория вероятностей изучает не любые явления, а явления случайные и именно «вероятностно случайные», т. е. такие, для которых имеет смысл говорить о соответствующих им распределениях вероятностей. Тем не менее теория вероятностей играет определённую роль и при статистическом изучении массовых явлений любой природы, которые могут не относиться к категории вероятностно случайных. Это осуществляется через основанные на теории вероятностей теорию выборочного метода и теорию ошибок измерений. В этих случаях вероятностным закономерностям подчинены не сами изучаемые явления, а приёмы их исследования.
При статистическом исследовании вероятностных явлений в полной мере находят применение такие основанные на теории вероятностей разделы математической статистики, как теория проверки статистических гипотез, теория статистической оценки распределений вероятностей или параметров этих распределений. При использовании этих разделов математической статистики требуется, чтобы сами изучаемые явления подчинялись достаточно определённым вероятностным закономерностям. Например, статистическое изучение режима турбулентных водных потоков или флуктуаций в радиоприёмных устройствах производится на основе теории стационарных случайных процессов. Однако применение той же теории к анализу случайных процессов в экономике может привести к грубым ошибкам ввиду того, что входящее в определение стационарного процесса предположение о наличии сохраняющихся в течение длительного времени неизменных распределений вероятностей в этом случае, как правило, неприемлемо.
Вероятностные закономерности проявляются в статистических данных в силу закона больших чисел (например, частоты событий близки к их вероятностям, а средние значения – к математическим ожиданиям).
Простейшие приёмы статистического описания
Изучаемая совокупность из объектов может по какому-либо признаку разбиваться на классы . Соответствующее этому разбиению статистическое распределение задаётся при помощи указания численностей отдельных классов, где . Вместо численностей часто указывают соответствующие относительные частоты , , удовлетворяющие соотношению .
Если изучению подлежит некоторый количественный признак, то его статистическое распределение в совокупности из объектов можно задать, перечислив непосредственно наблюдённые значения признака . Однако при больших такой способ громоздок и в то же время не выявляет существенных свойств распределения. При больших на практике обычно не перечисляют наблюдённые значения признака , а исходят лишь из численностей классов, получающихся при группировке наблюдённых значений по надлежаще выбранным интервалам.
Обычно группировка по 10–20 интервалам, в каждый из которых попадает не более 15–20 % наблюдённых значений признака, оказывается достаточной для довольно полного выявления всех существенных свойств распределения и надёжного вычисления по групповым численностям основных характеристик распределения. По таким группированным данным составляется гистограмма, дающая представление о распределении признака. Гистограмма, составленная на основе группировки с малыми интервалами, обычно имеет нерегулярный вид и не отражает существенных свойств распределения. С другой стороны, группировка по слишком крупным интервалам может привести к потере ясного представления о характере распределения и к грубым ошибкам при вычислении среднего и других характеристик распределения. В качестве примера на рис. 1 приведена гистограмма распределения диаметра некоторой детали (изучалась выборка из 200 деталей) при длине интервала группировки 0,05 мм, на рис. 2 – гистограмма того же распределения при интервале группировки 0,01 мм и на рис. 3 – гистограмма при интервале группировки 0,20 мм.
Простейшими сводными характеристиками распределения одного
количественного признака являются выборочное среднее и выборочное среднее квадратичное отклонение или выборочная дисперсия , где При вычислении , и по группированным данным пользуются формулами или где – число интервалов группировки, – их середины. Если материал сгруппирован по слишком крупным интервалам, то такой подсчёт даёт грубые результаты и иногда в таких случаях вводят специальные поправки на группировку.
Связь статистических распределений с вероятностными. Оценка параметров. Проверка статистических гипотез
Выше были изложены некоторые простейшие приёмы статистического описания, которое является довольно обширной дисциплиной с хорошо разработанной системой понятий и техникой вычислений. Приёмы статистического описания интересны, однако не сами по себе, а как средство для получения из статистического материала выводов о закономерностях, которым подчиняются изучаемые явления, и о причинах, приводящих в каждом отдельном случае к тем или иным статистическим распределениям.
Например, данные, по которым получены гистограммы на рис. 1, 2, 3, были собраны с целью установления точности изготовления деталей, расчётный диаметр которых равен 13,40 мм, при нормальном ходе производства. Простейшим допущением, которое может быть в этом случае обосновано некоторыми теоретическими соображениями, связанными с центральной предельной теоремой, является предположение, что диаметры отдельных деталей можно рассматривать как реализации случайной величины , имеющей нормальное распределение вероятностей
Если это допущение верно, то параметры и – среднее и дисперсию вероятностного распределения можно с достаточной точностью оценить по соответствующим характеристикам статистического распределения (т. к. число наблюдений в этом случае достаточно велико), взяв в качестве величину и в качестве – величину . Однако в качестве оценки для теоретической дисперсии предпочитают не статистическую дисперсию , а несмещённую оценку
Дальнейшие сведения об оценке параметров теоретических распределений вероятностей см. в статье Доверительный интервал.
Уже упоминалось, что предположение о том, что результаты наблюдений можно рассматривать как реализации случайной величины , подчинённой тому или иному распределению, например нормальному распределению , иногда можно обосновать теоретическими соображениями. Однако на практике часто возникает задача о проверке гипотезы о том, что случайная величина имеет заданное распределение.
Все основанные на теории вероятностей правила статистических оценок параметров и проверки гипотез действуют лишь с определённым уровнем значимости , т. е. могут приводить к ошибочным результатам с вероятностью . Например, если предположить, что случайная величина имеет нормальное распределение с известной теоретической дисперсией , и проводить оценку по по правилу то вероятность ошибки, т. е. вероятность того, что указанное неравенство не выполнено, будет равна числу , связанному с числом соотношением Вопрос о рациональном выборе уровня значимости в данных конкретных условиях (например, при разработке правил статистического контроля качества массовой продукции) является весьма существенным. При этом желанию применять правила лишь с высоким (близким к единице) уровнем значимости противостоит то обстоятельство, что при ограниченном числе наблюдений такие правила позволяют сделать лишь очень бедные выводы (например, не дают возможности установить различие вероятностей двух событий даже при заметном различии частот этих событий).
Дальнейшие задачи математической статистики
В упоминавшихся выше задачах оценки параметров и проверки гипотез используется предположение, что число наблюдений, необходимых для достижения заданной точности выводов, определяют заранее (до проведения испытаний). Однако часто априорное определение числа наблюдений нецелесообразно, т. к., не фиксируя число опытов заранее, а определяя его в ходе эксперимента, можно уменьшить математическое ожидание числа необходимых наблюдений. Сначала это обстоятельство было подмечено на примере выбора одной из двух гипотез ( или ) по последовательности независимых испытаний. Соответствующая процедура (впервые предложенная в связи с задачами приёмочного статистического контроля) состоит в следующем. На каждом шаге по результатам уже проведённых наблюдений решают: а) провести следующее испытание, или б) прекратить испытания и принять гипотезу , или в) прекратить испытания и принять гипотезу . При надлежащем подборе количественных характеристик подобной процедуры можно добиться (при той же точности выводов) сокращения числа наблюдений в среднем почти вдвое по сравнению с процедурой, использующей выборки фиксированного объёма (см. Последовательный анализ). Развитие методов последовательного анализа привело, с одной стороны, к изучению управляемых случайных процессов, с другой – к появлению общей теории статистических решений. Эта теория исходит из того, что результаты последовательно проводимых наблюдений служат основой принятия некоторых решений (промежуточных – продолжать испытания или нет, и окончательных – в случае прекращения испытаний). В задачах оценки параметров окончательного решения суть числа (значение оценок), в задачах проверки гипотез – принимаемые гипотезы. Цель теории – указать правила принятия решений, минимизирующих средний риск или убыток (риск зависит и от вероятностных распределений результатов наблюдений, и от принимаемого окончательного решения, и от расходов на проведение испытаний).
Вопросы целесообразного распределения усилий при проведении статистического анализа явлений рассматриваются в теории планирования эксперимента, ставшей важной частью современной математической статистики.
Наряду с развитием и уточнением общих понятий математической статистики развиваются и её отдельные разделы, такие как дисперсионный анализ, корреляционный анализ, многомерный статистический анализ, статистический анализ случайных процессов, регрессионный анализ, факторный анализ.
Историческая справка
Первые задачи математической статистики появились в трудах Я. Бернулли, П.-С. Лапласа и С. Д. Пуассона. В России методы математической статистики в применении к демографии и страховому делу развивал на основе теории вероятностей В. Я. Буняковский (1846). Решающее значение для дальнейшего развития математической статистики имели работы представителей российской школы теории вероятностей 2-й половины 19 – начала 20 вв. (П. Л. Чебышёв, А. А. Марков, А. М. Ляпунов, С. Н. Бернштейн). Многие вопросы теории статистических оценок были, по существу, разработаны на основе теории ошибок и метода наименьших квадратов (К. Ф. Гаусс и А. А. Марков). Труды А. Кетле, Ф. Гальтона и К. Пирсона имели большое значение, но по уровню использования достижений теории вероятностей отставали от работ российской школы. Пирсоном была широко развёрнута работа по составлению таблиц функций, необходимых для применения методов математической статистики. Она была продолжена во многих научных центрах (в СССР она велась Е. Е. Слуцким, Н. В. Смирновым, Л. Н. Большевым). В создании теории малых выборок, общей теории статистических оценок, проверки гипотез (освобождённой от предположений о наличии априорных распределений), последовательного анализа значительна роль представителей англо-американской школы [Стьюдент (псевдоним У. Госсета), Р. Фишер, Э. Пирсон, Е. Нейман, А. Вальд], деятельность которых началась в 1-й четверти 20 в. В СССР значительные результаты в области математической статистики получены А. Н. Колмогоровым, В. И. Романовским, Е. Е. Слуцким, которому принадлежат важные работы по статистике стационарных рядов, Смирновым, заложившим основы теории непараметрических методов математической статистики, Ю. В. Линником, обогатившим аналитический аппарат математической статистики новыми методами. На основе математической статистики интенсивно разрабатываются статистические методы исследования и контроля массового производства, статистические методы в области физики, гидрологии, климатологии, звёздной астрономии, биологии, медицины и др.