Физичен практикум
 

Линейна регресия по метода на най-малките квадрати

Експерименталните данни често се придружават от някакъв шум. Дори да успеем да постигнем точни и постоянни стойности на контролните величини, измерените резултантни величини винаги варират. Необходим е процес, известен като регресия или пасване на крива, за получаване количествена оценка на тенденцията на измерените експериментални величини.

В процеса на пасване на крива се избира такава крива, която да дава добро приближение с експерименталните данни. Изобщо казано, през даден набор от експериментални точки може да се прекарат повече от една крива. Ние ще търсим такава крива, която има минимално отклонение (девиация) за всички точки. Такава най-добре пасваща крива може да бъде определена по метода на най-малките квадрати.

Идеята на метода е проста. Приема се че връзката между измерените и контролните величини е полином и се търсят такива стойности на коефициентите на полинома, че сумата от квадратичните отклонения на измерените величини от пресметнатите чрез функционалната зависимост да е минимална. В случай на една независима контролна величина това означава:

(1) ,

където са стойностите на контролната величина, са съответните измерени стойности на резултатната величина, а е избраната функционална зависимост, която трябва да бъде пасната.

Тук ще се спрем на случая на линейна зависимост между една независима контролна величина и една резултатна величина, т.е. тя има вида:

(2) ,

Ако формулираме по друг начин задачата си — трябва да прекараме права през набора от експериментални точки, така че сумата (1) да е минимална:

(3) ,
В този пример са дадени резултатите от измерванията на диаметъра на ствола на дъбови дървета в зависимост от тяхната възраст. Плътните точки изобразяват резултатите от измерванията. През получения набор (облак) от точки по метода на най-малките квадрати прекарваме права (синята линия). Червените линии са отклоненията на получената права от експерименталните данни.

Виждаме, че стойността на тази сума зависи се определя от параметрите и на правата, които можем да приемем за независими. От математическия анализ знаем, че необходимо условие за минимум в дадена точка е равенството на нула на съответните частни производни по независимите променливи:

(4)
 

Получаваме система от две уравнения, в която неизвестни са двата параметъра на правата, които трябва да определим:

(5)
  .

Решавайки тази система, получаваме коефициентите на правата:

(6) коефициенти на линейна регресия
 

Без да се спираме на извеждането, само ще кажем, че съответните средни квадратични грешки се дават с изразите:

(7) средни квадратични грешки на коефициентите на регресия
 
  където

Коефициентите на линейна регресия имат геометричен смисъл. Коефициентът на пропорционалност е наклонът на правата (), а свободният член е стойността на наблюдаемата величина при нулева стойност на контролната величина, т.е. точката в която регресионната права пресича абцисата.

Интерес представлява частния случай, когато очакваме правата да премине през началото на координатната система, т.е. . Повтаряйки горните разсъждения, за наклона на правата и съответната му средна квадратична грешка, получаваме:

(8) коефициент на линейна регресия при
 

Пресмятането на регресионните коефициенти и средно квадратичните грешки на ръка е трудоемка задача, дори и при използването на електронен калкулатор. При това тази операция доста често е става източник на груби грешки. За практически изчисления на линейна регресия по метода на най-малките квадрати, можете да използвате специално разработения за целта регресионен калкулатор.

Разгледаният тук метод на линейна регресия по метода на най-малките квадрати е един от най-често използвания. Той може да се прилага дори в случаи, когато зависимостта между наблюдаемата и контролната величина не е линейна, но може да бъде сведена до такава. Свеждането на функционална зависимосто до линейна се нарича лиеализация. Ще разгледаме няколко примера.

1. Квадратична зависимост от вида: .

Като повдигнем двете страни на квадрат и положим , получаваме линейна зависимост с нулев свободен коефициент, за която регресионната права се определя от (8).

Периодът на математично махало е пример за такава зависимост: . Тук наблюдаемата величина е периода на махалото , контролната величина е дължината на махалото , а коефицентът е . Съответно зависимостта на квадрата на периода на махалото от дължината на махалото е линейна и за пасване на експериментални данни може да се приложи линейна регресия.

2. Степенна зависимост от вида , може да бъде линеализирана като се прехвърли свободния член от лявата страна повдигнем двете страни на степен (коренуваме):

Полагайки и , получаваме линейна зависимост с нулев свободен коефициент и можем да приложим лиенйна регресия съгласно (8). Вижда се че квадратичната зависимост, която разгледахме по-горе е частен случай на по-общата степенна зависимост. Абсолютно аналогично може да се линеализира зависимостта :

, където
, .

3. Логаритмична зависимост: (тук е контролната величина) може да се линеализира като положим : Получаваме зависимост от вида (2), за която използвайки (6) и (7) можем да определим "най-добрата" права.

Разгледаните случаи на зависимости, които могат да бъдат линеализирани далеч не изчерпват всички възможни случаи. Освен посочените методи не са единствени. Например при квадратичната зависимост може вместо да се повдигат двете страни в квадрат, да се смени контролната променлива с което ще доведе до линейна зависимост: .

Показахме как може да се използва методът на най-малките квадрати за решаване на линейна регресия. В практиката се срещат и задачи, при които зависимостта не може да се сведе до линейна и тогава се прилага полиномна регресия, например параболична или кубична. Знаем също така, че много рядко наблюдаемите величини зависят само от една контролна променлива, например периодът на пружинно махало зависи както от масата на окаченото за пружината тяло, така и от коефициента на еластичност на пружината и нейната маса. Използваното в такива случаи приближение е крива, която се описва с полином, зависещ от всички контролни величини и решаваната задача се нарича множествена регресия. Методът на най-малките квадрати се прилага успешно във всеки един от тези случаи, като изискването за минималност на сумарното квадратично отклонение (1) води до система от уравнения от която могат да се определят неизвестните коефициенти.