Последовательный анализ
После́довательный ана́лиз, метод решения статистических задач, при котором необходимое число наблюдений не фиксируется заранее, а определяется в процессе эксперимента. Поэтому в последовательном анализе число наблюдений (объём выборки) представляет собой случайную величину, зависящую от результатов наблюдений в том смысле, что решение об окончании или продолжении наблюдений принимается последовательно после каждого наблюдения. Одно из преимуществ последовательного анализа состоит в том, что во многих случаях для получения обоснованных выводов применение последовательного анализа позволяет ограничиться значительно меньшим (в среднем) числом наблюдений, чем в методах, в которых число наблюдений фиксируется заранее. Определение необходимого числа наблюдений в рамках последовательного анализа представляет собой одну из сторон задачи планирования эксперимента.
В наибольшей степени идеи последовательного анализа нашли применение в теории проверки статистических гипотез (впервые последовательные методы проверки гипотез были использованы при контроле качества изделий в приёмочном статистическом контроле). Пусть, например, задача состоит в различении двух гипотез по результатам независимых наблюдений . Гипотеза заключается в том, что эти случайные величины имеют распределение вероятностей с плотностью , а гипотеза – в том, что эта плотность есть . Для решения этой задачи поступают следующим образом. Выбирают два числа , . По результату первого наблюдения вычисляют отношение
Если, принимают гипотезу , если , принимают гипотезу , если , производят второе наблюдение и по его результату подобным же образом исследуют величину
и т. д. С вероятностью, равной единице, процесс оканчивается либо выбором , либо выбором . Величины выбираются из условия, чтобы вероятности ошибок первого и второго рода (т. е., соответственно, вероятность отвергнуть , когда она верна, и вероятность принять , когда верна ) имели заданные значения и .
Для практических целей вместо величин удобнее рассматривать их логарифмы. Пусть, например, имеют нормальное распределение с плотностью
и гипотеза состоит в том, что , , гипотеза – в том, что , , и пусть , . Соответствующие подсчёты показывают, что в этом случае
и
Поэтому неравенства и равносильны неравенствам
и
соответственно. Процесс последовательного анализа допускает при этом простое графическое изображение (рис.). На плоскости наносятся две прямые и и ломаная линия с вершинами в точках , . Если ломаная линия впервые выходит из полосы, ограниченной этими прямыми, через верхнюю границу, принимается , если через нижнюю – принимается . В этом примере для различения и методом последовательного анализа требуется в среднем не более 25 наблюдений. В то же время для различения гипотез и (с указанными вероятностями ошибок) по выборкам фиксированного объёма потребовалось бы не менее 50 наблюдений.
Последовательные критерии указанного типа, впервые предложенные американским математиком А. Вальдом (1945), называются критериями отношения вероятностей. Вальду (1947) также принадлежит последовательный критерий о среднем значении нормального распределения, когда дисперсия неизвестна; этот критерий называется последовательным -критерием по аналогии с -критерием Стьюдента в случае фиксированного числа наблюдений.
Кроме последовательных критериев проверки гипотез, в последовательный анализ входит и последовательное статистическое оценивание. Однако решение задач оценивания наталкивается на определённые трудности, т. к. в этом случае сложнее сформулировать правила, определяющие момент прекращения наблюдений. Например, при оценивании среднего значения нормального распределения с неизвестной дисперсией правило может быть таким: задаётся некоторая постоянная , и наблюдения производятся до тех пор, пока не окажется, что , где
– оценка дисперсии,
при каждом фиксированном ; после этого вычисляется – оценка . Дисперсия будет приближённо равняться .