Статисти́ческие зада́чи тео́рии случа́йных проце́ссов, раздел математической статистики, посвящённый статистическим выводам на основе наблюдений, представимых в виде случайного процесса. В самой общей постановке наблюдаются значения случайной функцииx(t) для t∈T и на основании этих наблюдений надлежит сделать статистические выводы о некоторых характеристиках случайного процесса x(t). При столь широком определении сюда формально включается и вся классическая статистика независимых наблюдений. На самом деле под статистикой случайных процессов понимают только статистику зависимых наблюдений, исключая, например, статистический анализ большого числа независимых реализаций случайного процесса. При этом основания статистической теории, основные постановки задач (статистическое оценивание, проверка статистических гипотез), основные понятия (достаточность, несмещённость, состоятельность и т. д.) те же, что и в классической теории. Однако при решении конкретных задач возникают порой значительные трудности и явления нового порядка. Частично эти трудности связаны с наличием зависимости, более сложной структуры наблюдаемого процесса, частично, в случае наблюдений с непрерывным временем, – с необходимостью рассматривать распределения в бесконечномерных пространствах.
При решении статистических задач теории случайных процессов существенно используется структура наблюдаемого процесса и в соответствии с классификацией случайных процессов рассматриваются статистические задачи гауссовских, марковских, стационарных, ветвящихся, диффузионных и т. д. процессов. При этом наиболее далеко продвинута статистическая теория стационарных процессов (анализ временны́х рядов).
Необходимость статистического анализа случайных процессов возникла в 19 в. [анализ метеорологических, экономических рядов, исследование циклических процессов (колебания цен, солнечные пятна)]. В настоящее время круг задач, связанных со статистическим анализом случайных процессов, чрезвычайно широк. Достаточно упомянуть статистический анализ случайных шумов, вибраций, турбулентных явлений, морского волнения, кардиограмм, энцефалограмм и т. д. Теоретические аспекты проблемы выделения сигнала на фоне шума в значительной степени являются статистической задачей теории случайных процессов.
В дальнейшем предполагается, что наблюдается отрезок x(t), 0⩽t⩽T, случайного процесса x(t), причём параметр t пробегает либо весь отрезок [0,T], либо целые числа этого отрезка. Обычно в статистических задачах о распределении PT случайного процесса {x(t),0⩽t⩽T} известно лишь, что оно принадлежит некоторому семейству {PT} распределений. Это семейство всегда можно записать в параметрической форме.
Пример 1. Наблюдаемый процесс x(t) представляет собой либо сумму неслучайной функции s(t) («сигнал») и случайной функции ξ(t) («шум»), либо одну случайную функцию ξ(t). Надлежит проверить гипотезу H0:x(t)=s(t)+ξ(t) против альтернативы H1:x(t)=ξ(t) (задача обнаружения сигнала в шуме). Это пример задачи проверки статистических гипотез.
Пример 2. Наблюдаемый процесс x(t)=s(t)+ξ(t), где s(t) – неизвестная наблюдателю неслучайная функция (сигнал), а ξ(t) – случайный процесс (шум). Надлежит оценить функцию s или её значение s(t0) в заданной точке t0. Сходным образом можно предположить, что x(t)=s(t;θ)+ξ(t), где s – известная функция, зависящая от неизвестного параметра θ, который и нужно оценить по наблюдению x(t) (задачи выделения сигнала на фоне шума). Это примеры задач оценивания.
p(x(⋅);u,v)=p(x(⋅))=dPvTdPuT(x(⋅)).Функцией правдоподобия называют функцию
L(θ)=dμdPθT(x(⋅)),где μ есть σ-конечная мера, относительно которой абсолютно непрерывны все меры PθT. В дискретном случае, когда t пробегает целые точки отрезка [0,T] и T<∞, отношение правдоподобия, например, всегда существует, если распределения Pu и Pv имеют положительные плотности распределения, совпадая с отношением этих плотностей.
Если t пробегает весь отрезок [0,T], то возможны случаи, когда меры PuT и PvT не абсолютно непрерывны относительно друг друга; более того, встречаются ситуации, когда меры PuT и PvTвзаимно сингулярны, т. е. для некоторого множества A в пространстве реализаций x(t)
PuT{x∈A}=0,PvT{x∈A}=1.В этом случае p(x;u,v) не существует. Сингулярность мер PθT приводит к важным и в какой-то степени парадоксальным статистическим следствиям, позволяя делать безошибочные выводы о параметре θ. Пусть, например, Θ={0,1}; сингулярность мер P0T, P1T означает, что с помощью критерия «принять H0, если x∈/A, отвергнуть H0, если x∈A» гипотезы H0:θ=0 и H1:θ=1 разделяются безошибочно. Наличие таких совершенных критериев часто указывает, что статистическая задача поставлена не совсем удачно и из неё исключены какие-то существенные случайные возмущения.
Пример 3. Пусть x(t)=θ+ξ(t), где ξ(t) – стационарный эргодический процесс с нулевым средним, θ – действительный параметр. Пусть реализации ξ(t) с вероятностью 1аналитичны в полосе, содержащей действительную ось. По эргодической теореме
T→∞limT1∫0Tx(t)dt=θи все меры Pθ∞ взаимно сингулярны. Т. к. аналитическая функция x(t) полностью определяется своими значениями в окрестности нуля, параметр θ оценивается безошибочно по наблюдениям {x(t),0⩽t⩽T} для любого T>0.
Вычисление отношения правдоподобия в тех случаях, когда оно существует, – трудная задача. Вычисления часто основаны на предельном соотношении
p(x(⋅);u,v)=n→∞limpv(x(t1),…,x(tn))pn(x(t1),…,x(tn)),где pu, pv – плотности распределения вектора (x(t1),…,x(tn)), а {t1,t2,…} – плотное в [0,T] множество. Исследование правой части последнего равенства полезно и при доказательстве сингулярности Pu, Pv.
Пример 4. Пусть либо наблюдение x(t)=w(t), где w(t) – винеровский процесс (гипотеза H0), либо x(t)=m(t)+w(t), m – неслучайная функция (гипотеза H1). Меры P0, P1 взаимно абсолютно непрерывны, если m′∈L2(0,T), и взаимно сингулярны, если m′∈/L2(0,T). Отношение правдоподобия
dP0TdP1T(x)=exp{−21∫0T[m′(t)]2dt+∫0Tm′(t)dx(t)}.Пример 5. Пусть x(t)=θ+ξ(t), где θ – действительный параметр, а ξ(t) – стационарный марковский гауссовский процесс с нулевым средним и известной корреляционной функцией r(t)=e−α∣t∣, α>0.dPθ0dPθT(x)=exp{21θx(0)+21θx(T)++21θα∫0Tx(t)dt−21θ2−41θ2αT}.Меры PθT взаимно абсолютно непрерывны с функцией правдоподобия
dPθ0dPθT(x)=exp{21θx(0)+21θx(T)++21θα∫0Tx(t)dt−21θ2−41θ2αT}.В частности, x(0)+x(T)+α∫0Tx(t)dt – достаточная статистика для семейства PθT.
Линейные задачи статистики случайных процессов
Пусть наблюдается функция
x(t)=1∑kθjφj(t)+ξ(t),(*)где ξ(t) – случайный процесс с нулевым средним и известной корреляционной функциейr(t,s), φj – известные неслучайные функции, θ=(θ1,…,θk) – неизвестный параметр (θj – коэффициенты регрессии), параметрическое множество Θ – подпространство Rk. Линейные оценки для θj суть оценки вида ∑cjx(tj) или их пределы в среднем квадратичном. Задача отыскания оптимальных в среднем квадратичном несмещённых линейных оценок сводится к решению линейных алгебраических или линейных интегральных уравнений, определяемых r. Именно такая оптимальная оценка θ^ определяется уравнениями Eθ(θ^jξ)=0 для любой величины ξ вида ξ=∑bjx(tj), ∑bjφl(tj)=0. В ряде случаев оценки θ, полученные по методу наименьших квадратов асимптотически, при T→∞, не хуже оптимальных линейных оценок. Оценки метода наименьших квадратов вычисляются проще и не зависят от r.
Пример 6. В условиях примера 5, k=1, φ1(t)≡1. Оптимальная несмещённая линейная оценка имеет вид
θ^=2+αT1(x(0)+x(T)+α∫0Tx(t)dt).Оценка
θ∗=T1∫0Tx(t)dtимеет асимптотически ту же дисперсию.
Статистические задачи гауссовских процессов
Пусть процесс {x(t),0⩽t⩽T,PθT} – гауссовский при всех θ∈Θ. Для гауссовских процессов имеет место альтернатива: любые две меры PuT, PvT либо взаимно абсолютно непрерывны, либо сингулярны. Т. к. гауссовское распределение PθT полностью определяется средним значением mθ(t)=Eθx(t) и корреляционной функцией rθ(s,t)=Eθx(s)x(t), отношение правдоподобия dPuT/dPvT выражается через mu, mv, ru, rv сложным образом. Относительно прост тот случай, когда ru=rv=r, r – непрерывная функция. Именно: пусть Θ={0,1}, r0=r1=r; λi и φi(t) – собственные значения и соответствующие им нормированные в L2(0,T)собственные функции интегрального уравнения
λφ(s)=∫0Tr(s,t)φ(t)dt;средние m0(t), m1(t) – непрерывные функции и пусть
mij=∫0Tmi(t)φi(t)dt.Меры P0, P1 абсолютно непрерывны в том и только в том случае, если
j=1∑∞(m0j−m1j)2λj−1<∞.При этом
dP0TdP1T(x)=exp{j=1∑∞λjm1j−m0j××(∫0Tx(t)φj(t)dt−2m1j−m0j)}.Последнее равенство можно использовать для построения критерия для проверки гипотезы H0:m=m0 против альтернативы H1:m=m1 в предположении, что функция r известна наблюдателю.
Статистические задачи стационарных процессов
Пусть наблюдение x(t) – стационарный процесс со средним m и корреляционной функцией r(t); f(λ) и F(λ) – его спектральная плотность и спектральная функция. Основные задачи статистики стационарных процессов относятся к проверке гипотез или оцениванию, касающихся тех или иных характеристик m, r, f, F. В случае эргодического процесса x(t) состоятельными оценками (при T→∞) для m и r(t) служат соответственно
m∗=T1∫0Tx(t)dt,r∗(t)=T1∫0T−tx(t+s)x(s)ds.Задачу оценки m при известном r часто рассматривают в рамках линейных задач. К этому последнему кругу задач относятся и более общие задачи оценки коэффициентов регрессии по наблюдениям вида (*) со стационарным ξ(t).
Пусть x(t) имеет нулевое среднее и спектральную плотность f(λ;θ), зависящую от конечномерного параметра θ∈Θ. Если процесс x(t) – гауссовский, можно указать формулы для отношения правдоподобия dPθ/dPθ0 (если последнее существует), которые в ряде случаев позволяют найти оценки максимального правдоподобия или «хорошие» (при больших T) приближения к ним. В достаточно широких предположениях эти оценки асимптотически нормальны (θ,Tc(θ)) и асимптотически эффективны.
Пример 7. Пусть x(t) – стационарный гауссовский процесс с непрерывным временем и рациональной спектральной плотностью f(λ)=P(λ)Q(λ)2, P, Q – многочлены. Меры P0T, P1T, отвечающие рациональным спектральным плотностям f0, f1, абсолютно непрерывны в том и только в том случае, если
λ→∞limf1(λ)f0(λ)=1.Параметром θ здесь служит совокупность всех коэффициентов многочленов P,Q.
Пример 8. Важный класс стационарных гауссовских процессов образуют процессы авторегрессииx(t):
x(n)(t)+θnx(n−1)(t)+…+θ1x(t)=ε(t),где ε(t) – гауссовский белый шум единичной интенсивности, θ=(θ1,…,θn) – неизвестный параметр. В этом случае спектральная плотность
f(λ;θ)=(2π)−1∣P(iλ)∣−2,где
P(z)=θ1+θ2z+…+θnzn−1+zn.Функция правдоподобия
dPθ0TdPθT=K(θ)0K(θ)−21exp{Tθn−θn0−j=0∑n−1[λj(θ)−λj(θ0)]××∫0T[x(j)(t)]2dt−21(λ(θ)−λ(θ0))}.Здесь λj(θ), λ(θ) суть квадратичные формы от θ, зависящие от значений x(j)(t), j=1,2,…,(n−1), в точках t=0, T; K(θ) – определитель корреляционной матрицы вектора (x(0),x(1)(0),…,x(n−1)(0)).
Оценки максимального правдоподобия для параметра авторегрессии θ асимптотически нормальны и асимптотически эффективны. Теми же свойствами обладает и решение θT∗ приближённого уравнения правдоподобия
2T1j=0∑n−1∂θi∂λj(θ)∫0T[x(j)(t)]2dt={0,21,1⩽i<n,i=n.Важную роль при статистическом исследовании спектра стационарного процесса играет периодограммаIT(λ). Эта статистика определяется как
IT(λ)=2πT1t=0∑Te−itλx(t) (времядискретно), IT(λ)=2πT1∫0Te−itλx(t)dt2 (времянепрерывно). Периодограмма широко используется для построения различного рода оценок для f(λ), F(λ) и критериев для проверки гипотез об этих характеристиках. В широких предположениях статистики ∫IT(λ)φ(λ)dλ являются состоятельными оценками для ∫f(λ)φ(λ)dλ. В частности, ∫αβIT(λ)dλ служат оценкой для F(β)−F(α). Если последовательность φT(λ;λ0) сходится подходящим образом к δ функции δ(λ−λ0), то интегралы ∫φT(λ;λ0)IT(λ)dλ будут состоятельными оценками для f(λ0). Часто в качестве функций φT(λ;λ0) выбирают функции вида aTψ(aT(λ−λ0)), aT→∞. Если x(t) – процесс с дискретным временем, эти оценки можно записать в виде
2π1t=−T+1∑T−1e−itλr∗(t)cT(t),где эмпирическая корреляционная функция
r∗(t)=T1u=0∑T−tx(u+t)x(u),а неслучайные коэффициенты cT(t) определяются выбором ψ, aT. Последний выбор, в свою очередь, зависит от априорных сведений о f(λ). Аналогичное представление имеет место и для процессов с непрерывным временем.
Иногда к задачам статистического анализа стационарных процессов относят и задачи экстраполяции, интерполяции и фильтрации стационарных процессов.
Статистические задачи марковских процессов
Пусть наблюдения X0,X1,…,XT связаны в однородную цепь Маркова. При достаточно широких предположениях функция правдоподобия
dμTdPθT=p0(X0;θ)p(X1∣X0;θ)…p(XT∣XT−1,θ),где p0, p – начальная и переходная плотности распределения. Это выражение сходно с функцией правдоподобия для последовательности независимых наблюдений и при соблюдении условий регулярности (гладкость по θ∈Θ⊂Rk) можно построить теорию оценивания и проверки гипотез, аналогичную соответствующей теории для независимых наблюдений.
Более сложная ситуация возникает, если x(t) – марковский процесс с непрерывным временем. Пусть x(t) – однородный марковский процесс с конечным числом состояний N и дифференцируемыми вероятностями перехода Pij(t). Матрица вероятностей перехода определяется матрицей Q=∥qij∥, qij=Pij′(0), qi=−qii. Пусть в начальный момент x(0)=i0 независимо от Q. Выбирая какую-нибудь матрицу Q0=qij0, находят
dPQ0TdPQT(x)=exp{(qin0−qin)T}⋅ν=0∏n−1qjνjν+10qjνjν+1××exp{tν(qin−qiν−qiν0+qin0)}.Здесь статистики n(x), tν(x), jν(x) определяются следующим образом: n – это число скачков x(t) на интервале [0,T), τν – момент ν-го скачка, tν=τν+1−τν, zν=x(τν). Из указанного выражения выводятся оценки максимального правдоподобия для параметров qij:qij∗=μimij, где mij – число переходов из i в j на отрезке [0,T), а μi – время, проведённое процессом x(t) в состоянии i.
Пример 9. Пусть x(t) – процесс рождения и гибели с постоянными интенсивностями размножения λ и гибели μ. Это значит, что qi,i+1=iλ, qi,i−1=iμ, qii=1−i(λ+μ), qij=0, если ∣i−j∣>1. В этом примере число состояний бесконечно. Пусть x(0)≡1. Отношение правдоподобия
dPλ0,μ0TdPλμT(x)==(λ0λ)B(μ0μ)Dexp{−(λ+μ−λ0−μ0)∫0Tx(s)ds}.Здесь B – общее число рождений (скачков размера +1), D – смертей (скачков размера −1). Оценки максимума правдоподобия для λ и μ:
λT∗=B1∫0Tx(s)ds,μT∗=D1∫0Tx(s)ds.Пусть x(t) – диффузионный процесс с коэффициентом сноса a и коэффициентом диффузии b, так что x(t) удовлетворяет следующему стохастическому дифференциальному уравнению
dx(t)=a(t,x(t))dt+b(t,x(t))dw(t),x(0)=x0,где w – винеровский процесс. Тогда при определённых ограничениях
dx(t)=a(t,x(t);θ)dt+dw,a – известная функция, θ – неизвестный действительный параметр. Если обозначить через μ меру Винера, то функция правдоподобия
dμdPθT=exp{∫0Ta(t,x(t);θ)dx−21∫0Ta2(t,x(t);θ)dt}и при условиях регулярности выполняется неравенство Крамера – Рао: для оценки τ со смещением Δ(θ)=Eθτ−θ
Eθ∣τ−θ∣2⩾Eθ∫0T[∂θ∂a(t,x(t);θ)]2dt(1+dθdΔ)2+Δ2(θ).Если зависимость от θ линейная, оценки максимального правдоподобия
θT∗=∫0Ta(t,x(t))dt(∫0Ta2(t,x(t))dt))−1.
И. А. Ибрагимов. Первая публикация: Математическая энциклопедия под ред. И. М. Виноградова, 1985.
Опубликовано 13 июня 2024 г. в 14:05 (GMT+3). Последнее обновление 13 июня 2024 г. в 14:05 (GMT+3).