Научные методы исследования

Метод наименьших квадратов

Ме́тод наиме́ньших квадра́тов, один из методов , предназначенный для оценки неизвестных величин по результатам их измерений, содержащим случайные ошибки. Метод наименьших квадратов применяется также для приближённого представления заданной функции другими (более простыми) функциями. Метод наименьших квадратов предложен (1794–1795) и (1805–1806). Первоначально метод наименьших квадратов использовался для обработки результатов астрономических и геодезических наблюдений. Строгое математическое обоснование и установление границ применимости метода наименьших квадратов даны (1898) и (1946).

Сущность обоснования метода наименьших квадратов (по Гауссу) заключается в допущении, что «убыток» от замены точного (неизвестного) значения физической величины μμ её приближённым значением XX, вычисленным по результатам наблюдений, пропорционален квадрату ошибки, т. е. величине(Xμ)2 (X-μ)^2. В этих условиях оптимальной оценкой естественно признать такую лишённую систематической ошибки величину XX, для которой среднее значение «убытка» минимально. Именно это требование составляет основу метода наименьших квадратов. В общем случае отыскание оптимальной в смысле метода наименьших квадратов оценки XX – задача весьма сложная, поэтому на практике эту задачу сужают и в качестве XX выбирают линейную функцию от результатов наблюдений, лишённую систематической ошибки, и такую, для которой среднее значение «убытка» минимально в классе всех линейных функций. Если случайные ошибки наблюдений подчиняются и оцениваемая величина μ\mu зависит от средних значений результатов наблюдений линейно (случай, весьма часто встречающийся в приложениях метода наименьших квадратов), то решение этой задачи будет одновременно являться и решением общей задачи. При этом оптимальная оценка XX величины μμ также подчиняется нормальному распределению со средним значением μμ и, следовательно, плотность

p(x;μ,σ)=12πσexp((xμ)22σ2)p(x; μ, \sigma) = \dfrac{1}{\sqrt{2\pi} \sigma}\text{exp} \Bigl ( -\dfrac{(x-\mu)^2}{2\sigma^2} \Bigr)распределения вероятностей XX при x=Xx=X достигает максимума в точке μ=Xμ=X (это свойство выражает точное содержание распространённого в теории ошибок утверждения «оценка XX, вычисленная согласно методу наименьших квадратов, – наиболее вероятное значение неизвестного параметра μμ»). Ниже рассматривается только случай одного неизвестного.

Пусть для оценки значения неизвестной величины μμ произведено nn независимых наблюдений, давших результаты Y1,Y2,,YnY_1, Y_2, \ldots, Y_n, т. е. Y1=μ+d1,Y2=μ+d2,,Yn=μ+dnY_1=μ+d_1,\, Y_2=μ+d_2, \ldots, Y_n=μ+d_n, где d1,d2,,dnd_1, d_2, \ldots, d_n – случайные ошибки (по определению, принятому в классической теории ошибок, случайные ошибки – независимые случайные величины с нулевым математическим ожиданием, т. е. Еδi=0\mathsf{Е}δ_i=0; если же Еδi0\mathsf{Е}δ_i≠0, то Еδi\mathsf{Е}δ_i называются систематическими ошибками). Согласно методу наименьших квадратов, в качестве оценки величины μμ принимают такое XX, для которого будет наименьшей сумма квадратов (отсюда название метода)

S(X)=i=1npi(YiX)2,\displaystyle S(X)=\sum\limits_{i=1}^np_i(Y_i-X)^2, где pi=k/σi2p_i=k/σ_i^2 и σi2=Dδi=Еδi2σ_i^2 = \mathsf{D}δ_i = \mathsf{Е}δ_i^2 (коэффициент k>0k{>}0 можно выбирать произвольно). Величину pip_i называют весом, a σiσ_i – квадратичным отклонением измерения с номером ii. В частности, если все измерения равноточны, то σ1=σ2==σnσ_1=σ_2=\ldots=σ_n, и в этом случае можно положить p1=p2==pn=1p_1=p_2=\ldots=p_n=1; если же каждое YiY_i – арифметическое среднее из nin_i равноточных измерений, то полагают pi=nip_i=n_i.

Сумма S(X)S(X) будет наименьшей, если в качестве XX выбрать взвешенное среднее:

X=Y=1PpiYi,X=\overline{Y}=\dfrac1P\sum p_iY_i,где P=piP=\sum p_i. Оценка Y\overline Y величины μμ лишена систематической ошибки, имеет вес PP и дисперсию DY=k/P\mathsf{D}\overline Y=k/P. В частности, если все измерения равноточны, то Y\overline Y – арифметическое среднее результатов измерений, т. е.

Y=1nYi\overline Y=\dfrac1n\sum Y_iи DY=σ2/n\mathsf D \overline Y=σ^2/n. При некоторых общих предположениях можно показать, что если количество наблюдений nn достаточно велико, то распределение оценки Y\overline Y мало отличается от нормального с μμ и k/Pk/P. В этом случае абсолютная приближённого равенства μY\mu \approx \overline Y меньше с вероятностью, близкой к значению интеграла

I(t)=22π01eu2/2du(1)\displaystyle I(t) = \frac2{\sqrt{2\pi}} \int\limits_0^1e^{-u^2/2}du \tag1[например,I(1,96)=0,950I(1,96)=0,950; I(2,58)=0,990I(2,58)=0,990; I(3,00)=0,997I(3,00)=0,997].

Если веса измерений pip_i заданы, а множитель kk до наблюдений остаётся неопределённым, то этот множитель и дисперсия оценки Y\overline Y могут быть приближённо оценены по формулам: kS(Y)/(n1)k≈S(\overline Y)/(n-1) и DY=k/Ps2=S(Y)/[(n1)P]\mathsf D \overline Y =k/P≈s^2=S(\overline Y)/[(n-1)P] (обе оценки лишены систематических ошибок).

В том практически важном случае, когда ошибки δiδ_i подчиняются нормальному распределению, можно найти точное значение вероятности, с которой абсолютная погрешность приближённого равенства μYμ≈\overline Y окажется меньше tsts (tt – произвольное положительное число). Эту вероятность, как функцию от tt, называют функцией с n1n-1 степенями свободы и вычисляют по формуле

In1(t)=Cn101(1+v2n1)n/2dv,(2)\displaystyle I_{n-1}(t)=C_{n-1}\int\limits_0^1 \left ( 1+\frac{v^2}{n-1} \right )^{-n/2}dv,\tag2где постоянная Cn1C_{n–1} выбрана таким образом, чтобы выполнялось условие In1()=1I_{n–1}(∞ )= 1. При больших nn формулу (2) можно заменить формулой (1). Однако применение формулы (1) при небольших nn привело бы к грубым ошибкам. Так, например, согласно (1), значению I=0,99I= 0,99 соответствует t=2,58t = 2,58; истинные значения tt, определяемые при малых nn как решения соответствующих уравнений In1(t)=0,99I_{n–1}(t)=0,99, приведены в таблице:

n

2

3

4

5

10

20

t

63,66

9,92

5,84

4,60

3,25

2,86

Пример. Для определения массы некоторого тела произведено 10 независимых равноточных взвешиваний, давших результаты YiY_i (в г):

YiY_i

18,41

18,42

18,43

18,44

18,45

18,46

nin_i

1

3

3

1

1

1

(здесь nin_i – число случаев, в которых наблюдался вес YiY_i, причём n=Σni=10n=Σn_i=10). Т. к. все взвешивания равноточные, то следует положить pi=nip_i=n_i и в качестве оценки для неизвестного веса mm выбрать величину Y=ΣniYi/Σni=18,431\overline Y=Σn_iY_i/Σn_i=18,431. Задавая, например, I9=0,95 I_9=0,95, по таблицам распределения Стьюдента с девятью степенями свободы можно найти, что t=2,262 t=2,262, и поэтому в качестве предельной абсолютной погрешности приближённого равенства μ18,431μ≈18,431 следует принять величину ts=tΣni(YiY)/90=2,2620,0048=0,011ts=t\sqrt{Σn_i(Y_i-\overline Y)/90}=2,262\cdotp0,0048 = 0,011. Т. о., 18,420<μ<18,44218,420{<}μ{<}18,442.

Редакция математических наук
  • Случайная величина