Контакти

Апроксимація експериментальних даних шляхом найменших квадратів. Апроксимація досвідчених даних. Метод найменших квадратів. Найпростіші окремі випадки

Апроксимація досвідчених даних - це метод, заснований на заміні експериментально отриманих даних аналітичною функцією, що найбільш близько проходить або збігається в вузлових точках з вихідними значеннями (даними отриманими в ході досвіду або експерименту). В даний час існує два способи визначення аналітичної функції:

За допомогою побудови інтерполяційного багаточлена n-ступеня, що проходить безпосередньо через усі точкизаданого масиву даних. В даному випадку апроксимуюча функція подається у вигляді: інтерполяційного багаточлена у формі Лагранжа або інтерполяційного багаточлена у формі Ньютона.

За допомогою побудови апроксимуючого багаточлена n-ступеня, який проходить в найближчій близькості від точокіз заданого масиву даних. Таким чином, апроксимуюча функція згладжує всі випадкові перешкоди (або похибки), які можуть виникати при виконанні експерименту: значення, що вимірюються в ході досвіду, залежать від випадкових факторів, які коливаються за своїми власними випадковими законами (похибки вимірювань або приладів, неточність або помилки досвіду). У разі апроксимуюча функція визначається методом найменших квадратів.

Метод найменших квадратів(В англомовній літературі Ordinary Least Squares, OLS) – математичний метод, заснований на визначенні апроксимуючої функції, яка будується в найближчій близькості від точок із заданого масиву експериментальних даних. Близькість вихідної та апроксимуючої функції F(x) визначається числовим заходом, а саме: сума квадратів відхилень експериментальних даних від апроксимуючої кривої F(x) має бути найменшою.

Апроксимуюча крива, побудована за методом найменших квадратів

Метод найменших квадратів використовується:

Аби вирішити перевизначених систем рівнянь, коли кількість рівнянь перевищує кількість невідомих;

Для пошуку рішення у разі звичайних (не перевизначених) нелінійних систем рівнянь;

Для апроксимації точкових значень деякою апроксимуючою функцією.

Апроксимуюча функція методом найменших квадратів визначається з умови мінімуму суми квадратів відхилень розрахункової апроксимуючої функції від заданого масиву експериментальних даних. Цей критерій методу найменших квадратів записується у вигляді наступного виразу:

Значення розрахункової апроксимуючої функції у вузлових точках

Заданий масив експериментальних даних у вузлових точках.

Квадратичний критерій має низку "хороших" властивостей, таких, як диференційність, забезпечення єдиного розв'язання задачі апроксимації при поліноміальних апроксимуючих функціях.

Залежно та умовами завдання апроксимуюча функція є многочлен ступеня m

Ступінь апроксимуючої функції не залежить від числа вузлових точок, але її розмірність повинна бути завжди меншою за розмірність (кількість точок) заданого масиву експериментальних даних.

∙ Якщо ступінь апроксимуючої функції m=1, то ми апроксимуємо табличну функцію прямою лінією (лінійна регресія).

∙ Якщо ступінь апроксимуючої функції m=2, то ми апроксимуємо табличну функцію квадратичною параболою (квадратична апроксимація).

∙ Якщо ступінь апроксимуючої функції m=3, то ми апроксимуємо табличну функцію кубічною параболою (кубічна апроксимація).

У випадку, коли потрібно побудувати апроксимуючий многочлен ступеня m для заданих табличних значень, умова мінімуму суми квадратів відхилень за всіма вузловими точками переписується так:

- невідомі коефіцієнти апроксимуючого багаточлена ступеня m;

Кількість заданих табличних значень.

Необхідною умовою існування мінімуму функції є рівність нуля її приватних похідних за невідомими змінними . В результаті отримаємо таку систему рівнянь:

Перетворимо отриману лінійну систему рівнянь: розкриємо дужки і перенесемо вільні доданки в праву частину виразу. В результаті отримана система лінійних виразів алгебри буде записуватися в наступному вигляді:

Дана система лінійних виразів алгебри може бути переписана в матричному вигляді:

В результаті було отримано систему лінійних рівнянь розмірністю m+1, що складається з m+1 невідомих. Дана система може бути вирішена за допомогою будь-якого методу розв'язання лінійних рівнянь алгебри (наприклад, методом Гауса). Через війну рішення знайдено невідомі параметри апроксимуючої функції, які забезпечують мінімальну суму квадратів відхилень апроксимуючої функції від вихідних даних, тобто. найкраще можливе квадратичне наближення. Слід пам'ятати, що при зміні навіть одного значення вихідних даних, всі коефіцієнти змінять свої значення, оскільки вони повністю визначаються вихідними даними.

Апроксимація вихідних даних лінійною залежністю

(лінійна регресія)

Як приклад, розглянемо методику визначення апроксимуючої функції, яка задана у вигляді лінійної залежності. Відповідно до методу найменших квадратів умова мінімуму суми квадратів відхилень записується у такому вигляді:

Координати вузлових точок таблиці;

Невідомі коефіцієнти апроксимуючої функції, заданої у вигляді лінійної залежності.

Необхідною умовою існування мінімуму функції є рівність нуля її приватних похідних за невідомими змінними. В результаті отримуємо таку систему рівнянь:

Перетворимо отриману лінійну систему рівнянь.

Вирішуємо отриману систему лінійних рівнянь. Коефіцієнти апроксимуючої функції в аналітичному вигляді визначаються таким чином (метод Крамера):

Дані коефіцієнти забезпечують побудову лінійної апроксимуючої функції відповідно до критерію мінімізації суми квадратів апроксимуючої функції від заданих табличних значень (експериментальні дані).

Алгоритм реалізації методу найменших квадратів

1. Початкові дані:

Задано масив експериментальних даних із кількістю вимірів N

Задано ступінь апроксимуючого багаточлена (m)

2. Алгоритм обчислення:

2.1. Визначаються коефіцієнти для побудови системи рівнянь розмірністю

Коефіцієнти системи рівнянь (ліва частина рівняння)

- Індекс номера стовпця квадратної матриці системи рівнянь

Вільні члени системи лінійних рівнянь (права частина рівняння)

- індекс номера рядка квадратної матриці системи рівнянь

2.2. Формування системи лінійних рівнянь розмірністю.

2.3. Вирішення системи лінійних рівнянь з метою визначення невідомих коефіцієнтів апроксимуючого багаточлена ступеня m.

2.4.Визначення суми квадратів відхилень апроксимуючого багаточлена від вихідних значень по всіх вузлових точках

Знайдене значення суми квадратів відхилень є мінімально можливим.

Апроксимація за допомогою інших функцій

Слід зазначити, що при апроксимації вихідних даних відповідно до методу найменших квадратів як апроксимуючу функцію іноді використовують логарифмічну функцію, експоненційну функцію і статечну функцію.

Логарифмічна апроксимація

Розглянемо випадок, коли апроксимуюча функція задана логарифмічною функцією виду:

Знаходить широке застосуванняв економетриці як чіткої економічної інтерпретації її параметрів.

Лінійна регресія зводиться до знаходження рівняння виду

або

Рівняння виду дозволяє за заданими значеннями параметра хмати теоретичні значення результативної ознаки, підставляючи у нього фактичні значення фактора х.

Побудова лінійної регресії зводиться до оцінки її параметрів аі в.Оцінки параметрів лінійної регресії можна знайти різними методами.

Класичний підхід до оцінювання параметрів лінійної регресії заснований на методі найменших квадратів(МНК).

МНК дозволяє отримати такі оцінки параметрів аі в,при яких сума квадратів відхилень фактичних значень результативної ознаки (у)від розрахункових (теоретичних) мінімальна:

Щоб знайти мінімум функції, треба обчислити окремі похідні по кожному з параметрів аі bта прирівняти їх до нуля.

Позначимо через S, тоді:

Перетворюючи формулу, отримаємо наступну систему нормальних рівнянь для оцінки параметрів аі в:

Розв'язуючи систему нормальних рівнянь (3.5) або методом послідовного виключення змінних або методом визначників, знайдемо шукані оцінки параметрів аі в.

Параметр вназивається коефіцієнтом регресії. Його величина показує середню зміну результату із зміною фактора на одну одиницю.

Рівняння регресії завжди доповнюється показником тісноти зв'язку. При використанні лінійної регресії як такий показник виступає лінійний коефіцієнт кореляції. Існують різні модифікації формули лінійного коефіцієнта кореляції. Деякі з них наведені нижче:

Як відомо, лінійний коефіцієнт кореляції знаходиться у межах: -1 1.

Для оцінки якості підбору лінійної функції розраховується квадрат

Лінійний коефіцієнт кореляції званий коефіцієнтом детермінації.Коефіцієнт детермінації характеризує частку дисперсії результативної ознаки у,пояснювану регресією, у спільній дисперсії результативної ознаки:

Відповідно величина 1 - характеризує частку диспер-сії у,викликану впливом інших не врахованих у моделі чинників.

Запитання для самоконтролю

1. Суть методу найменших квадратів?

2. Скільки змінних надається парна регресія?

3. Яким коефіцієнтом визначається тіснота зв'язку між змінами?

4. У яких межах визначається коефіцієнт детермінації?

5. Оцінка параметра b у кореляційно-регресійному аналізі?

1. Крістофер Доугерті. Введення в економетрію. – М.: ІНФРА – М, 2001 – 402 с.

2. С.А. Бородіч. Економетрики. Мінськ ТОВ "Нове знання" 2001.


3. Р.У. Рахметова Короткий курсз економетрики. Навчальний посібник. Алмати. 2004. -78с.

4. І.І. Елісєєва. Економетрика. - М.: «Фінанси та статистика», 2002

5. Щомісячний інформаційно-аналітичний журнал.

Нелінійні економічні моделі. Нелінійні моделі регресії. Перетворення змінних.

Нелінійні економічні моделі.

Перетворення змінних.

Коефіцієнт еластичності.

Якщо між економічними явищами існують нелінійні співвідношення, то вони виражаються за допомогою відповідних нелінійних функцій: наприклад, рівносторонньої гіперболи , параболи другого ступеня та ін.

Розрізняють два класи нелінійних регресій:

1. Регресії, нелінійні щодо включених в аналіз пояснюючих змінних, але лінійні за параметрами, що оцінюються, наприклад:

Поліноми різних ступенів - , ;

Рівностороння гіпербола -;

Напівлогарифмічна функція - .

2. Регресії, нелінійні за параметрами, що оцінюються, наприклад:

Ступінна -;

Показова -;

Експонентна - .

Загальна сума квадратів відхилень індивідуальних значень результативної ознаки увід середнього значення викликана впливом безлічі причин. Умовно розділимо всю сукупність причин на дві групи: фактор, що вивчається хі інші фактори.

Якщо фактор не впливає на результат, то лінія регресії на графіку паралельна осі охі

Тоді вся дисперсія результативної ознаки обумовлена ​​впливом інших факторів і загальна сума квадратів відхилень збігатиметься з залишковою. Якщо інші фактори не впливають на результат, то у пов'язанийз хфункціонально та залишкова сума квадратів дорівнює нулю. І тут сума квадратів відхилень, пояснена регресією, збігається із загальною сумою квадратів.

Оскільки не всі точки поля кореляції лежать на лінії регресії, то завжди має місце їх розкид як обумовлений впливом фактора х, тобто регресією упо х,і викликаний дією інших причин (непояснена варіація). Придатність лінії регресії для прогнозу залежить від того, яка частина загальної варіації ознаки уприпадає на пояснену варіацію

Очевидно, що якщо сума квадратів відхилень, обумовлена ​​регресією, буде більшою від залишкової суми квадратів, то рівняння регресії статистично значуще і фактор хістотно впливає на результат у.

, тобто з числом свободи незалежного варіювання ознаки. Число ступенів свободи пов'язане з числом одиниць сукупності n і з числом констант, що визначаються за нею. Стосовно досліджуваної проблеми число ступенів свободи має показати, скільки незалежних відхилень з п

Оцінка значущості рівняння регресії загалом дається з допомогою F-Крітерія Фішера. У цьому висувається нульова гіпотеза, що коефіцієнт регресії дорівнює нулю, тобто. b = 0, і отже, фактор хне впливає на результат у.

Безпосередній розрахунок F-критерію передує аналіз дисперсії. Центральне місцеу ньому займає розкладання загальної суми квадратів відхилень змінної увід середнього значення уна дві частини - «пояснену» та «непояснену»:

- загальна сума квадратів відхилень;

- Сума квадратів відхилення пояснена регресією;

- Залишкова сума квадратів відхилення.

Будь-яка сума квадратів відхилень пов'язана з числом ступенів свободи , тобто з числом свободи незалежного варіювання ознаки. Число ступенів свободи пов'язане з числом одиниць сукупності nі з числом визначених нею констант. Стосовно досліджуваної проблеми число ступенів свободи має показати, скільки незалежних відхилень з пМожливі необхідні для утворення цієї суми квадратів.

Дисперсія на один ступінь свободиD.

F-відносини (F-критерій):

Якщо нульова гіпотеза справедлива, то факторна та залишкова дисперсії не відрізняються одна від одної. Для Н 0 необхідно спростування, щоб факторна дисперсія перевищувала залишкову у кілька разів. Англійським статистиком Снедекором розроблено таблиці критичних значень F-відносин при різних рівнях суттєвості нульової гіпотези та різному числі ступенів свободи. Табличне значення F-Критерія - це максимальна величина відношення дисперсій, яка може мати місце привипадковому їх розбіжності для даного рівня ймовірності наявності нульової гіпотези. Обчислене значення F-відносини визнається достовірним, якщо більше табличного.

У цьому випадку нульова гіпотеза про відсутність зв'язку ознак відхиляється і робиться висновок про суттєвість зв'язку: F факт > F таблН0 відхиляється.

Якщо ж величина виявиться меншою за табличну F факт ‹, F табл, то ймовірність нульової гіпотези вище за заданий рівень і вона може бути відхилена без серйозного ризику зробити неправильний висновок про наявність зв'язку. І тут рівняння регресії вважається статистично незначним. Але не відхиляється.

Стандартна помилка коефіцієнта регресії

Для оцінки суттєвості коефіцієнта регресії його величина порівнюється з його стандартною помилкою, тобто визначається фактичне значення t-Крітерія Стьюдента: яке потім порівнюється з табличним значенням при певному рівні значущості та числі ступенів свободи ( n- 2).

Стандартна помилка параметра а:

Значимість лінійного коефіцієнта кореляції перевіряється на основі величини помилки коефіцієнта кореляції т r:

Загальна дисперсія ознаки х:

Множинна лінійна регресія

Побудова моделі

Множинна регресіяє регресією результативної ознаки з двома і більшим числом факторів, тобто модель виду

Регресія може дати хороший результат при моделюванні, якщо впливом інших факторів, що впливають на об'єкт дослідження, можна знехтувати. Поведінка окремих економічних змінних контролювати не можна, тобто не вдається забезпечити рівність всіх інших умов для оцінки впливу одного досліджуваного фактора. У цьому випадку слід спробувати виявити вплив інших факторів, ввівши їх у модель, тобто пострівати рівняння множинної регресії: y = a+b 1 x 1 +b 2 +…+b p x p + .

Основна мета множинної регресії - побудувати модель з великою кількістю факторів, визначивши при цьому вплив кожного з них окремо, а також сукупний їх вплив на показник, що моделюється. Специфікація моделі включає два кола питань: відбір факторів і вибір виду рівняння регресії

3. Апроксимація функцій за допомогою методу

найменших квадратів

Метод найменших квадратів застосовується при обробці результатів експерименту для апроксимації (Наближення) експериментальних даних аналітичною формулою. Конкретний вид формули вибирається, зазвичай, з фізичних міркувань. Такими формулами можуть бути:

та інші.

Сутність методу найменших квадратів ось у чому. Нехай результати вимірів представлені таблицею:

Таблиця 4

x n

y n

(3.1)

де f - відома функція, a 0 , a 1 , …, a m - невідомі постійні параметри, значення яких слід знайти. У методі найменших квадратів наближення функції (3.1) до експериментальної залежності вважається найкращим, якщо виконується умова

(3.2)

тобто сум a квадратів відхилень шуканої аналітичної функції від експериментальної залежності має бути мінімальною .

Зауважимо, що функція Q називається нев'язкою.


Бо нев'язка

вона має мінімум. Необхідною умовою мінімуму функції кількох змінних є рівність нуля всіх приватних похідних цієї функції за параметрами. Таким чином, відшукання найкращих значень параметрів апроксимуючої функції (3.1), тобто таких значень, при яких Q = Q (a 0 , a 1 , …, a m ) мінімальна, зводиться до розв'язання системи рівнянь:

(3.3)

Методу найменших квадратів можна дати таке геометричне тлумачення: серед нескінченного сімейства ліній цього виду знаходиться одна лінія, на яку сума квадратів різниць ординат експериментальних точок і відповідних їм ординат точок, знайдених за рівнянням цієї лінії, буде найменшою.

Знаходження параметрів лінійної функції

Нехай експериментальні дані треба подати лінійною функцією:

Потрібно підібрати такі значення a і b , для яких функція

(3.4)

буде мінімальною. Необхідні умови мінімуму функції (3.4) зводяться до системи рівнянь:

Після перетворень отримуємо систему двох лінійних рівнянь із двома невідомими:

(3.5)

вирішуючи яку , знаходимо шукані значення параметрів a і b.

Знаходження параметрів квадратичної функції

Якщо апроксимуючою функцією є квадратична залежність

то її параметри a, b, c знаходять із умови мінімуму функції:

(3.6)

Умови мінімуму функції (3.6) зводяться до системи рівнянь:


Після перетворень отримуємо систему трьох лінійних рівнянь із трьома невідомими:

(3.7)

при вирішенні якої знаходимо шукані значення параметрів a, b і c.

Приклад . Нехай у результаті експерименту отримано наступну таблицю значень x та y :

Таблиця 5

y i

0,705

0,495

0,426

0,357

0,368

0,406

0,549

0,768

Потрібно апроксимувати експериментальні дані лінійною та квадратичною функціями.

Рішення. Пошук параметрів апроксимуючих функцій зводиться до вирішення систем лінійних рівнянь (3.5) і (3.7). Для вирішення задачі скористаємося процесором електронних таблиць Excel.

1. Спочатку зчепимо листи 1 і 2. Занесемо експериментальні значення x i та y iу стовпці А і В, починаючи з другого рядка (у першому рядку помістимо заголовки стовпців). Потім для цих стовпців обчислимо суми та помістимо їх у десятому рядку.

У стовпцях C – G розмістимо відповідно обчислення та підсумовування

2. Розчепимо листи. Подальші обчислення проведемо аналогічним чином для лінійної залежності на аркуші 1і для квадратичної залежності на аркуші 2.

3. Під отриманою таблицею сформуємо матрицю коефіцієнтів та вектор-стовпець вільних членів. Розв'яжемо систему лінійних рівнянь за наступним алгоритмом:

Для обчислення зворотної матриці та перемноження матриць скористаємося Майстром функційта функціями МОБРі МУМНОЖ.

4. У блоці осередків H2: H 9 на основі отриманих коефіцієнтів обчислимо значення апроксимуючогополіномаy i вич., у блоці I 2: I 9 – відхилення D y i = y i експ. - y i вич., у стовпці J – нев'язку:

Отримані таблиці та побудовані за допомогою Майстри діаграмграфіки наведені на рисунках6, 7, 8.


Рис. 6. Таблиця обчислення коефіцієнтів лінійної функції,

апроксимуючоюекспериментальні дані.


Рис. 7. Таблиця обчислення коефіцієнтів квадратичної функції,

апроксимуючоюекспериментальні дані.


Рис. 8. Графічне подання результатів апроксимації

експериментальних даних лінійної та квадратичної функціями.

Відповідь. Апроксимували експериментальні дані лінійною залежністю y = 0,07881 x + 0,442262 з нев'язкою Q = 0,165167 та квадратичною залежністю y = 3,115476 x 2 – 5,2175 x + 2,529631 з нев'язкою Q = 0,002103 .

Завдання. Апроксимувати функцію, задану таблично, лінійною та квадратичною функціями.

Таблиця 6

№0

x

0,1

0,2

0,3

0,4

0,5

0,6

0,7

0,8

y

3,030

3,142

3,358

3,463

3,772

3,251

3,170

3,665

1

3,314

3,278

3,262

3,292

3,332

3,397

3,487

3,563

2

1,045

1,162

1,264

1,172

1,070

0,898

0,656

0,344

3

6,715

6,735

6,750

6,741

6,645

6,639

6,647

6,612

4

2,325

2,515

2,638

2,700

2,696

2,626

2,491

2,291

5

1.752

1,762

1,777

1,797

1,821

1,850

1,884

1,944

6

1,924

1,710

1,525

1,370

1,264

1,190

1,148

1,127

7

1,025

1,144

1,336

1,419

1,479

1,530

1,568

1,248

8

5,785

5,685

5,605

5,545

5,505

5,480

5,495

5,510

9

4,052

4,092

4,152

4,234

4,338

4,468

4,599

Наблизимо функцію многочленом 2-го ступеня. Для цього обчислимо коефіцієнти нормальної системи рівнянь:

, ,

Складемо нормальну систему найменших квадратів, яка має вигляд:

Рішення системи легко перебуває: , , .

Отже, многочлен другого ступеня найден: .

Теоретична довідка

Повернутися на сторінку<Введение в вычислительную математику. Примеры>

Приклад 2. Знаходження оптимального ступеня багаточлена.

Повернутися на сторінку<Введение в вычислительную математику. Примеры>

Приклад 3. Виведення нормальної системи рівнянь для знаходження параметрів емпіричної залежності.

Виведемо систему рівнянь для визначення коефіцієнтів та функції , що здійснює середньоквадратичну апроксимацію заданої функції за точками Складемо функцію і запишемо для неї необхідну умову екстремуму:

Тоді нормальна система набуде вигляду:

Отримали лінійну систему рівнянь щодо невідомих параметрів, яка легко вирішується.

Теоретична довідка

Повернутися на сторінку<Введение в вычислительную математику. Примеры>

приклад.

Експериментальні дані про значення змінних хі унаведено у таблиці.

В результаті їх вирівнювання отримано функцію

Використовуючи метод найменших квадратів, апроксимувати ці дані лінійною залежністю y=ax+b(Знайти параметри аі b). З'ясувати, яка з двох ліній краще (у сенсі способу менших квадратів) вирівнює експериментальні дані. Зробити креслення.

Суть методу найменших квадратів (МНК).

Завдання полягає у знаходженні коефіцієнтів лінійної залежності, при яких функція двох змінних аі bнабуває найменшого значення. Тобто, за даними аі bсума квадратів відхилень експериментальних даних від знайденої прямої буде найменшою. У цьому суть методу найменших квадратів.

Таким чином, рішення прикладу зводиться до знаходження екстремуму функції двох змінних.

Виведення формул для знаходження коефіцієнтів.

Складається та вирішується система із двох рівнянь із двома невідомими. Знаходимо приватні похідні функції за змінними аі b, Прирівнюємо ці похідні до нуля.

Вирішуємо отриману систему рівнянь будь-яким методом (наприклад методом підстановкиабо методом Крамера) і отримуємо формули для знаходження коефіцієнтів методом найменших квадратів (МНК).

За даними аі bфункція набуває найменшого значення. Доказ цього факту наведено нижче в кінці сторінки.

Ось і весь спосіб найменших квадратів. Формула для знаходження параметра aмістить суми , , , та параметр n- Кількість експериментальних даних. Значення цих сум рекомендуємо обчислювати окремо.

Коефіцієнт bзнаходиться після обчислення a.

Настав час згадати про вихідний приклад.

Рішення.

У нашому прикладі n=5. Заповнюємо таблицю для зручності обчислення сум, що входять до формули шуканих коефіцієнтів.

Значення у четвертому рядку таблиці отримані множенням значень 2-го рядка на значення 3-го рядка для кожного номера i.

Значення у п'ятому рядку таблиці отримані зведенням у квадрат значень 2-го рядка для кожного номера i.

Значення останнього стовпця таблиці – це суми значень рядків.

Використовуємо формули методу найменших квадратів для знаходження коефіцієнтів аі b. Підставляємо у них відповідні значення з останнього стовпця таблиці:

Отже, y = 0.165x+2.184- Шукана апроксимуюча пряма.

Залишилося з'ясувати, яка з ліній y = 0.165x+2.184або Краще апроксимує вихідні дані, тобто провести оцінку шляхом найменших квадратів.

Оцінка похибки способу менших квадратів.

Для цього потрібно обчислити суми квадратів відхилень вихідних даних від цих ліній і , менше значення відповідає лінії, яка краще у сенсі методу найменших квадратів апроксимує вихідні дані.

Оскільки , то пряма y = 0.165x+2.184краще наближає вихідні дані.

Графічна ілюстрація методу найменших квадратів (МНК).

На графіках все чудово видно. Червона лінія – це знайдена пряма y = 0.165x+2.184, синя лінія – це , Рожеві точки - це вихідні дані.

Навіщо це потрібно, до чого всі ці апроксимації?

Я особисто використовую для вирішення завдань згладжування даних, задач інтерполяції та екстраполяції (у вихідному прикладі могли б попросити знайти значення спостережуваної величини yпри x=3або при x=6методом МНК). Але докладніше поговоримо про це пізніше в іншому розділі сайту.

На початок сторінки

Доказ.

Щоб при знайдених аі bфункція приймала найменше значення, необхідно, щоб у цій точці матриця квадратичної форми диференціала другого порядку для функції була позитивно визначеною. Покажемо це.

Диференціал другого порядку має вигляд:

Тобто

Отже, матриця квадратичної форми має вигляд

причому значення елементів не залежать від аі b.

Покажемо, що матриця є позитивно визначеною. Для цього потрібно, щоб кутові мінори були позитивними.

Кутовий мінор першого порядку . Нерівність суворе, тому що точки не співпадають. Надалі це матимемо на увазі.

Кутовий мінор другого порядку

Доведемо, що методом математичної індукції.

Висновок: знайдені значення аі bвідповідають найменшому значенню функції , отже, є параметрами для методу найменших квадратів.

Нема коли розбиратися?
Замовте рішення

На початок сторінки

Розробка прогнозу з допомогою методу найменших квадратів. Приклад розв'язання задачі

Екстраполяція - це метод наукового дослідження, який заснований на розповсюдженні минулих та реальних тенденцій, закономірностей, зв'язків на майбутній розвиток об'єкта прогнозування. До методів екстраполяції відносяться метод ковзної середньої, метод експонентного згладжування, метод найменших квадратів.

Сутність методу найменших квадратів полягає в мінімізації суми квадратичних відхилень між спостережуваними та розрахунковими величинами. Розрахункові величини перебувають за підібраним рівнянням – рівнянню регресії. Чим менша відстань між фактичними значеннями та розрахунковими, тим більш точним є прогноз, побудований на основі рівняння регресії.

Теоретичний аналіз сутності явища, що вивчається, зміна якого відображається тимчасовим рядом, служить основою для вибору кривої. Іноді беруться до уваги міркування характері зростання рівнів низки. Так, якщо зростання випуску продукції очікується в арифметичної прогресії, Згладжування проводиться по прямій. Якщо ж виявляється, що зростання йде в геометричної прогресії, то згладжування треба проводити за показовою функцією.

Робоча формула методу найменших квадратів : У t+1 = а * Х + b, де t + 1 – прогнозний період; Уt+1 – прогнозований показник; a та b - коефіцієнти; Х - умовне позначення часу.

Розрахунок коефіцієнтів a і b здійснюється за такими формулами:

де, Уф - фактичні значення низки динаміки; n – число рівнів часового ряду;

Згладжування часових рядів шляхом найменших квадратів служить відображення закономірності розвитку досліджуваного явища. В аналітичному вираженні тренда час сприймається як незалежна змінна, а рівні низки виступають як функція цієї незалежної змінної.

Розвиток явища залежить не від того, скільки років минуло з відправного моменту, а від того, які фактори впливали на його розвиток, в якому напрямку та з якою інтенсивністю. Звідси ясно, що розвиток явища у часі постає як результат дії цих факторів.

Правильно встановити тип кривої, тип аналітичної залежності від часу – одне з найскладніших завдань передпрогнозного аналізу .

Підбір виду функції, що описує тренд, параметри якої визначаються методом найменших квадратів, проводиться в більшості випадків емпірично шляхом побудови ряду функцій і порівняння їх між собою за величиною середньоквадратичної помилки, що обчислюється за формулою:

де Уф - фактичні значення низки динаміки; Ур - розрахункові (згладжені) значення низки динаміки; n – число рівнів часового ряду; р - число параметрів, що визначаються у формулах, що описують тренд (тенденцію розвитку).

Недоліки методу найменших квадратів :

  • при спробі описати економічне явище, що вивчається, за допомогою математичного рівняння, прогноз буде точний для невеликого періоду часу і рівняння регресії слід перераховувати в міру надходження нової інформації;
  • складність підбору рівняння регресії, яка можна розв'язати при використанні типових комп'ютерних програм.

Приклад застосування методу найменших квадратів для розробки прогнозу

Завдання . Є дані, що характеризують рівень безробіття у регіоні, %

  • Побудуйте прогноз рівня безробіття в регіоні на листопад, грудень, січень місяці, використовуючи методи: ковзного середнього, експоненційного згладжування, найменших квадратів.
  • Розрахуйте помилки отриманих прогнозів під час використання кожного методу.
  • Порівняйте отримані результати, зробіть висновки.

Рішення методом найменших квадратів

Для вирішення складемо таблицю, в якій вироблятимемо необхідні розрахунки:

ε = 28,63/10 = 2,86% точність прогнозувисока.

Висновок : Порівнюючи результати, отримані при розрахунках методом ковзної середньої , методом експоненційного згладжування і шляхом найменших квадратів, можна сказати, що середня відносна помилка при розрахунках шляхом експоненційного згладжування потрапляє в межі 20-50%. Це означає, що точність прогнозу у разі є лише задовільною.

У першому та третьому випадку точність прогнозу є високою, оскільки середня відносна помилка менша за 10%. Але метод ковзних середніх дозволив отримати більше достовірні результати(Прогноз на листопад – 1,52%, прогноз на грудень – 1,53%, прогноз на січень – 1,49%), оскільки середня відносна помилка при використанні цього найменша – 1,13%.

Метод найменших квадратів

Інші статті на цю тему:

Список використаних джерел

  1. Науково-методичні рекомендації з питань діагностики соціальних ризиків та прогнозування викликів, загроз та соціальних наслідків. Російський національний соціальний університет. Москва. 2010;
  2. Володимирова Л.П. Прогнозування та планування в умовах ринку: Навч. допомога. М: Видавничий Дім «Дашков і Ко», 2001;
  3. Новікова Н.В., Поздєєва О.Г. Прогнозування національної економіки: Навчально-методичний посібник. Єкатеринбург: Вид-во Урал. держ. екон. ун-ту, 2007;
  4. Слуцкін Л.М. Курс МБА з прогнозування у бізнесі. М: Альпіна Бізнес Букс, 2006.

Програма МНК

Введіть дані

Дані та апроксимація y = a + b x

i- Номер експериментальної точки;
x i- значення фіксованого параметра у точці i;
y i- значення параметра, що вимірюється в точці i;
ω i- вага виміру в точці i;
y i, розрах.- різниця між виміряним та обчисленим за регресією значенням yу точці i;
S x i (x i)- оцінка похибки x iпри вимірі yу точці i.

Дані та апроксимація y = k x

i x i y i ω i y i, розрах. Δy i S x i (x i)

Клацніть по графіку,

Інструкція користувача онлайн-програми МНК.

У полі даних введіть на кожному окремому рядку значення `x` та `y` в одній експериментальній точці. Значення повинні відокремлюватися пробілом (пробілом або знаком табуляції).

Третім значенням може бути вага точки `w`. Якщо вага точки не вказана, то вона дорівнює одиниці. У переважній більшості випадків ваги експериментальних точок невідомі чи обчислюються, тобто. всі експериментальні дані вважаються рівнозначними. Іноді ваги в досліджуваному інтервалі значень точно не рівнозначні і навіть можуть бути обчислені теоретично. Наприклад, у спектрофотометрії ваги можна обчислити за простими формулами, щоправда в основному цим все нехтують зменшення трудовитрат.

Дані можна вставити через буфер обміну з електронної таблиці офісних пакетів, наприклад Excel з Microsoft Офісу або Calc з Оупен Офісу. Для цього в електронній таблиці виділіть діапазон копійованих даних, скопіюйте в буфер обміну та вставте дані в поле даних на цій сторінці.

Для розрахунку за методом найменших квадратів необхідно не менше двох точок для визначення двох коефіцієнтів `b` - тангенса кута нахилу прямої та `a` - значення, що відсікається прямою на осі `y`.

Для оцінки похибки коефіцієнтів регресії, що розраховуються, потрібно задати кількість експериментальних точок більше двох.

Метод найменших квадратів (МНК).

Чим більша кількість експериментальних точок, тим точніша статистична оцінка коефіцінетів (за рахунок зниження коефіцінету Стьюдента) і тим ближча оцінка до оцінки генеральної вибірки.

Отримання значень у кожній експериментальній точці часто пов'язане зі значними трудовитратами, тому часто проводять компромісне число експериментів, які дає зручну оцінку і не призведе до надмірних витрат праці. Як правило, кількість експериментів точок для лінійної МНК залежності з двома коефіцієнтами вибирає в районі 5-7 точок.

Коротка теорія методу найменших квадратів для лінійної залежності

Допустимо у нас є набір експериментальних даних у вигляді пар значень [`y_i`, `x_i`], де `i` - номер одного експерементального виміру від 1 до `n`; `y_i` - значення виміряної величини у точці `i`; `x_i` - значення параметра, що задається в точці `i`.

Як приклад можна розглянути дію закону Ома. Змінюючи напругу (різницю потенціалів) між ділянками електричного ланцюга, ми заміряємо величину струму, що проходить цією ділянкою. Фізика нам дає залежність, знайдену експериментально:

`I = U/R`,
де `I` - сила струму; `R` - опір; `U` - напруга.

В цьому випадку `y_i` у нас вимірювана величина струму, а `x_i` - значення напруги.

Як інший приклад розглянемо поглинання світла розчином речовини у розчині. Хімія дає нам формулу:

`A = ε l C`,
де `A` - оптична щільністьрозчину; `ε` - коефіцієнт пропускання розчиненої речовини; `l` - довжина шляху під час проходження світла через кювету з розчином; `C` - концентрація розчиненої речовини.

У цьому випадку `y_i` у нас вимірювана величина відптичної щільності `A`, а `x_i` - значення концентрації речовини, яку ми задаємо.

Ми розглядатимемо випадок, коли відносна похибка в завданні `x_i` значно менша, відносної похибки вимірювання `y_i`. Також ми будемо припускати, що це виміряні величини `y_i` випадкові і нормально розподілені, тобто. підпорядковуються нормальному закону розподілу.

У разі лінійної залежності `y` від `x`, ми можемо написати теоретичну залежність:
`y = a + b x`.

З геометричної точки зору, коефіцієнт `b` позначає тангенс кута нахилу лінії до осі `x`, а коефіцієнт `a` - значення `y` у точці перетину лінії з віссю `y` (при `x = 0`).

Знаходження параметрів лінії регресії.

В експерименті виміряні значення `y_i` не можуть точно лягти на теоретичну пряму через помилки вимірювання, що завжди властиві реального життя. Тому лінійне рівняння потрібно представити системою рівнянь:
`y_i = a + b x_i + ε_i` (1),
де `ε_i` - невідома помилка вимірювання `y` в `i`-ому експерименті.

Залежність (1) також називають регресією, тобто. залежністю двох величин друг від друга зі статистичною значимістю.

Завданням відновлення залежності є знаходження коефіцієнтів `a` та `b` по експериментальних точках [`y_i`, `x_i`].

Для знаходження коефіцієнтів `a` та `b` зазвичай використовується метод найменших квадратів(МНК). Він є окремим випадком принципу максимальної правдоподібності.

Перепишемо (1) у вигляді `ε_i = y_i - a - b x_i`.

Тоді сума квадратів помилок буде
`Φ = sum_(i=1)^(n) ε_i^2 = sum_(i=1)^(n) (y_i - a - b x_i)^2`. (2)

Принципом МНК (методу найменших квадратів) є мінімізація суми (2) щодо параметрів `a` та `b`.

Мінімум досягається, коли приватні похідні від суми (2) за коефіцієнтами `a` та `b` дорівнюють нулю:
`frac(partial Φ)(partial a) = frac(partial sum_(i=1)^(n) (y_i - a - b x_i)^2)(partial a) = 0`
`frac(partial Φ)(partial b) = frac(partial sum_(i=1)^(n) (y_i - a - b x_i)^2)(partial b) = 0`

Розкриваючи похідні, отримуємо систему із двох рівнянь із двома невідомими:
`sum_(i=1)^(n) (2a + 2bx_i - 2y_i) = sum_(i=1)^(n) (a + bx_i - y_i) = 0`
`sum_(i=1)^(n) (2bx_i^2 + 2ax_i - 2x_iy_i) = sum_(i=1)^(n) (bx_i^2 + ax_i - x_iy_i) = 0`

Розкриваємо дужки та переносимо незалежні від шуканих коефіцієнтів суми в іншу половину, отримаємо систему лінійних рівнянь:
`sum_(i=1)^(n) y_i = a n + b sum_(i=1)^(n) bx_i`
`sum_(i=1)^(n) x_iy_i = a sum_(i=1)^(n) x_i + b sum_(i=1)^(n) x_i^2`

Вирішуючи, отриману систему, знаходимо формули для коефіцієнтів `a` та `b`:

`a = frac(sum_(i=1)^(n) y_i sum_(i=1)^(n) x_i^2 — sum_(i=1)^(n) x_i sum_(i=1)^(n ) x_iy_i) (n sum_(i=1)^(n) x_i^2 — (sum_(i=1)^(n) x_i)^2)` (3.1)

`b = frac(n sum_(i=1)^(n) x_iy_i — sum_(i=1)^(n) x_i sum_(i=1)^(n) y_i) (n sum_(i=1)^ (n) x_i^2 - (sum_(i=1)^(n) x_i)^2)` (3.2)

Ці формули мають рішення, коли `n > 1` (лінію можна побудувати не менше ніж за 2-ма точками) і коли детермінант `D = n sum_(i=1)^(n) x_i^2 - (sum_(i= 1) ^ (n) x_i) ^ 2! = 0 `, тобто. коли точки `x_i` в експерименті розрізняються (тобто коли лінія не вертикальна).

Оцінка похибок коефіцієнтів лінії регресії

Для більш точної оцінки похибки обчислення коефіцієнтів `a` та `b` бажано велика кількістьекспериментальних точок. При `n = 2` оцінити похибку коефіцієнтів неможливо, т.к. апроксимуюча лінія однозначно проходитиме через дві точки.

Похибка випадкової величини `V` визначається законом накопичення помилок
`S_V^2 = sum_(i=1)^p (frac(partial f)(partial z_i))^2 S_(z_i)^2`,
де `p` - число параметрів `z_i` з похибкою `S_(z_i)`, які впливають на похибку `S_V`;
`f` - функція залежності `V` від `z_i`.

Розпишемо закон накопичення помилок для похибки коефіцієнтів `a` та `b`
`S_a^2 = sum_(i=1)^(n)(frac(partial a)(partial y_i))^2 S_(y_i)^2 + sum_(i=1)^(n)(frac(partial a )(partial x_i))^2 S_(x_i)^2 = S_y^2 sum_(i=1)^(n)(frac(partial a)(partial y_i))^2 `,
`S_b^2 = sum_(i=1)^(n)(frac(partial b)(partial y_i))^2 S_(y_i)^2 + sum_(i=1)^(n)(frac(partial b) )(partial x_i))^2 S_(x_i)^2 = S_y^2 sum_(i=1)^(n)(frac(partial b)(partial y_i))^2 `,
т.к. `S_(x_i)^2 = 0` (ми раніше зробили застереження, що похибка `x` зневажливо мала).

`S_y^2 = S_(y_i)^2` - похибка (дисперсія, квадрат стандартного відхилення) у вимірі `y` у припущенні, що похибка однорідна всім значень `y`.

Підставляючи в отримані вирази формули для розрахунку `a` та `b` отримаємо

`S_a^2 = S_y^2 frac(sum_(i=1)^(n) (sum_(i=1)^(n) x_i^2 — x_i sum_(i=1)^(n) x_i)^2 ) (D^2) = S_y^2 frac((n sum_(i=1)^(n) x_i^2 — (sum_(i=1)^(n) x_i)^2) sum_(i=1) ^(n) x_i^2) (D^2) = S_y^2 frac(sum_(i=1)^(n) x_i^2) (D)` (4.1)

`S_b^2 = S_y^2 frac(sum_(i=1)^(n) (n x_i - sum_(i=1)^(n) x_i)^2) (D^2) = S_y^2 frac( n (n sum_(i=1)^(n) x_i^2 — (sum_(i=1)^(n) x_i)^2)) (D^2) = S_y^2 frac(n) (D) `(4.2)

У більшості реальних експериментів значення Sy не вимірюється. Для цього потрібно проводити кілька паралельних вимірів (дослідів) в одній або кількох точках плану, що збільшує час (і, можливо, вартість) експерименту. Тому зазвичай вважають, що відхилення y від лінії регресії можна вважати випадковим. Оцінку дисперсії `y` у цьому випадку вважають за формулою.

`S_y^2 = S_(y, ост)^2 = frac(sum_(i=1)^n (y_i - a - b x_i)^2) (n-2)`.

Дільник `n-2` з'являється тому, що у нас знизилося число ступенів свободи через розрахунок двох коефіцієнтів з цієї ж вибірки експериментальних даних.

Таку оцінку ще називають залишковою дисперсією щодо лінії регресії `S_(y, ост)^2`.

Оцінка значущості коефіцієнтів проводиться за критерієм Стьюдента

`t_a = frac(|a|) (S_a)`, `t_b = frac(|b|) (S_b)`

Якщо розраховані критерії `t_a`, `t_b` менші за табличні критерії `t(P, n-2)`, то вважається, що відповідний коефіцієнт не значимо відрізняється від нуля із заданою ймовірністю `P`.

Для оцінки якості опису лінійної залежності, можна порівняти `S_(y, ост)^2` та `S_(bar y)` щодо середнього з використанням критерію Фішера.

`S_(bar y) = frac(sum_(i=1)^n (y_i - bar y)^2) (n-1) = frac(sum_(i=1)^n (y_i - (sum_(i=) 1)^n y_i) /n)^2) (n-1)` - вибіркова оцінка дисперсії `y` щодо середнього.

Для оцінки ефективності рівняння регресії для опису залежності розраховують коефіцієнт Фішера
`F = S_(bar y) / S_(y, ост)^2`,
який порівнюють з табличним коефіцієнтом Фішера `F(p, n-1, n-2)`.

Якщо `F > F(P, n-1, n-2)`, вважається статистично значущою з ймовірністю `P` різницю між описом залежності `y = f(x)` за допомогою рівневіння регресії та описом за допомогою середнього. Тобто. Регресія краще визначає залежність, ніж розкид `y` щодо середнього.

Клацніть по графіку,
щоб додати значення до таблиці

Метод найменших квадратів. Під методом найменших квадратів розуміється визначення невідомих параметрів a, b, c, прийнятої функціональної залежності

Під методом найменших квадратів розуміється визначення невідомих параметрів a, b, c,…прийнятої функціональної залежності

y = f(x, a, b, c, …),

які забезпечували б мінімум середнього квадрата (дисперсії) помилки

, (24)

де x i, y i - Сукупність пар чисел, отриманих з експерименту.

Оскільки умовою екстремуму функції кількох змінних є умова рівності нулю її похідних, то параметри a, b, c,…визначаються із системи рівнянь:

; ; ; … (25)

Необхідно пам'ятати, що метод найменших квадратів застосовується для вибору параметрів після того, як вид функції y = f(x)визначено.

Якщо з теоретичних міркувань не можна зробити жодних висновків про те, якою має бути емпірична формула, то доводиться керуватися наочними уявленнями, насамперед графічним зображенням спостережених даних.

На практиці найчастіше обмежуються такими видами функцій:

1) лінійна ;

2) квадратична a.

Метод найменших квадратів

На заключному уроці теми ми познайомимося з найвідомішим додатком ФНП, яке знаходить найширше застосування у різних галузях науки та практичної діяльності. Це може бути фізика, хімія, біологія, економіка, соціологія, психологія і таке інше. Волею долі мені часто доводиться мати справу з економікою, і тому сьогодні я оформлю вам путівку до дивовижну країнупід назвою Економетрика=) …Як це не хочете?! Там дуже добре – треба тільки наважитися! …Але ось те, що ви, мабуть, точно хочете – так це навчитися вирішувати завдання методом найменших квадратів. І особливо старанні читачі навчаться вирішувати їх не тільки безпомилково, але ще й ДУЖЕ ШВИДКО;-) Але спочатку загальна постановка задачі+ супутній приклад:

Нехай у деякій предметної області досліджуються показники, які мають кількісне вираження. У цьому є підстави вважати, що показник залежить від показника . Це може бути як наукової гіпотезою, і грунтуватися на елементарному здоровому глузді. Залишимо, проте, науку осторонь і досліджуємо більш апетитні області – зокрема, продовольчі магазини. Позначимо через:

- Торговельну площу продовольчого магазину, кв.м.,
- Річний товарообіг продовольчого магазину, млн. руб.

Цілком зрозуміло, що чим більша площа магазину, тим у більшості випадків буде більшим його товарообіг.

Припустимо, що після проведення спостережень/дослідів/підрахунків/танців з бубном у нашому розпорядженні виявляються числові дані:

З гастрономами, гадаю, все зрозуміло: – це площа 1-го магазину, – його річний товарообіг, – площа 2-го магазину, – його річний товарообіг тощо. До речі, зовсім не обов'язково мати доступ до секретних матеріалів – досить точну оцінку товарообігу можна отримати засобами математичної статистики. Втім, не відволікаємось, курс комерційного шпигунства – він уже платний.

Табличні дані також можна записати у вигляді точок та зобразити у звичній для нас декартовій системі .

Відповімо на важливе питання: Скільки точок потрібно для якісного дослідження?

Чим більше тим краще. Мінімально допустимий набір складається із 5-6 точок. Крім того, при невеликій кількості даних у вибірку не можна включати "аномальні" результати. Так, наприклад, невеликий елітний магазин може рятувати на порядки більше «своїх колег», спотворюючи тим самим загальну закономірність, яку потрібно знайти!



Якщо дуже просто – нам потрібно підібрати функцію, графікякої проходить якомога ближче до точок . Таку функцію називають апроксимуючою (апроксимація – наближення)або теоретичною функцією . Взагалі, тут відразу з'являється очевидний «претендент» – багаточлен високого ступеня, графік якого проходить через ВСІ точки. Але цей варіант складний, а часто й просто некоректний (т.к. графік весь час «петляти» і погано відображатиме головну тенденцію).

Таким чином, функція, що розшукується, повинна бути досить проста і в той же час відображати залежність адекватно. Як ви здогадуєтеся, один із методів знаходження таких функцій і називається методом найменших квадратів. Спочатку розберемо його суть у загальному вигляді. Нехай деяка функція наближає експериментальні дані:


Як оцінити точність наближення? Обчислимо і різниці (відхилення) між експериментальними та функціональними значеннями (Вивчаємо креслення). Перша думка, яка спадає на думку – це оцінити, наскільки велика сума, але проблема полягає в тому, що різниці можуть бути і негативні. (наприклад, ) та відхилення в результаті такого підсумовування будуть взаємознищуватись. Тому як оцінка точності наближення напрошується прийняти суму модуліввідхилень:

або в згорнутому вигляді: (раптом хто не знає: – це значок суми, а – допоміжна змінна-«лічильник», яка набуває значень від 1 до ) .

Наближаючи експериментальні точки різними функціями, ми будемо отримувати різні значення і, очевидно, де ця сума менша – та функція і точніше.

Такий метод існує і називається він методом найменших модулів. Однак на практиці набув значно більшого поширення метод найменших квадратів, В якому можливі негативні значення ліквідуються не модулем, а зведенням відхилень у квадрат:



, після чого зусилля спрямовані на підбір такої функції , щоб сума квадратів відхилень була якнайменше. Власне, звідси й назва методу.

І зараз ми повертаємось до іншого важливому моменту: як зазначалося вище, функція, що підбирається, повинна бути досить проста – але ж і таких функцій теж чимало: лінійна , гіперболічна , експоненційна , логарифмічна , квадратична і т.д. І, звичайно ж, тут одразу хотілося б «скоротити поле діяльності». Який клас функцій вибрати на дослідження? Примітивний, але ефективний прийом:

- Найпростіше зобразити точки на кресленні та проаналізувати їх розташування. Якщо вони мають тенденцію розташовуватися по прямій, слід шукати рівняння прямої з оптимальними значеннями та . Іншими словами, завдання полягає у знаходженні ТАКИХ коефіцієнтів – щоб сума квадратів відхилень була найменшою.

Якщо ж точки розташовані, наприклад, гіперболі, то явно відомо, що лінійна функція даватиме погане наближення. В цьому випадку шукаємо найбільш «вигідні» коефіцієнти для рівняння гіперболи – ті, що дають мінімальну суму квадратів .

А тепер зверніть увагу, що в обох випадках йдеться про функції двох змінних, аргументами якої є параметри розшукуваних залежностей:

І по суті нам потрібно вирішити стандартне завдання – знайти мінімум функції двох змінних.

Згадаймо про наш приклад: припустимо, що «магазинні» точки мають тенденцію розташовуватися по прямій лінії і є всі підстави вважати наявність лінійної залежностітоварообігу від торгової площі Знайдемо ТАКІ коефіцієнти «а» та «бе», щоб сума квадратів відхилень була найменшою. Все як завжди - спочатку приватні похідні 1-го порядку. Згідно правил лінійностідиференціювати можна прямо під значком суми:

Якщо хочете використовувати цю інформацію для реферату або курсовика - буду дуже вдячний за посилання в списку джерел, такі докладні викладки знайдете мало де:

Складемо стандартну систему:

Зменшуємо кожне рівняння на «двійку» і, крім того, «розвалюємо» суми:

Примітка : самостійно проаналізуйте, чому «а» та «бе» можна винести за значок суми До речі, формально це можна зробити і із сумою

Перепишемо систему у «прикладному» вигляді:

після чого починає промальовуватися алгоритм вирішення нашого завдання:

Координати точок ми знаємо? Знаємо. Суми знайти можемо? Легко. Складаємо найпростішу систему двох лінійних рівнянь із двома невідомими(«а» та «бе»). Систему вирішуємо, наприклад, методом Крамера, у результаті чого отримуємо стаціонарну точку . Перевіряючи достатня умова екстремуму, можна переконатися, що в цій точці функція досягає саме мінімуму. Перевірка пов'язана з додатковими викладками і тому залишимо її за кадром (при необхідності кадр, що бракує, можна подивитисятут ) . Робимо остаточний висновок:

Функція найкращим чином (принаймні, у порівнянні з будь-якою іншою лінійною функцією)наближає експериментальні точки . Грубо кажучи, її графік відбувається максимально близько до цих точок. У традиціях економетрикиотриману апроксимуючу функцію також називають рівнянням парної лінійної регресії .

Розглянуте завдання має велике практичне значення. У ситуації з нашим прикладом, рівняння дозволяє прогнозувати, який товарообіг («Ігрек»)буде біля магазину при тому чи іншому значенні торгової площі (Тому чи іншому значенні «ікс»). Так, отриманий прогноз буде лише прогнозом, але у багатьох випадках він виявиться досить точним.

Я розберу лише одне завдання з «реальними» числами, оскільки жодних труднощів у ній немає – всі обчислення на рівні шкільної програми 7-8 класу. У 95 відсотків випадків вам буде запропоновано знайти лінійну функцію, але в самому кінці статті я покажу, що нітрохи не складніше знайти рівняння оптимальної гіперболи, експоненти та деяких інших функцій.

По суті, залишилося роздати обіцяні плюшки – щоб ви навчилися вирішувати такі приклади не лише безпомилково, а ще й швидко. Уважно вивчаємо стандарт:

Завдання

В результаті дослідження взаємозв'язку двох показників отримані наступні пари чисел:

Методом найменших квадратів знайти лінійну функцію, яка найкраще наближає емпіричні (досвідчені)дані. Зробити креслення, на якому в декартовій прямокутній системі координат побудувати експериментальні точки та графік апроксимуючої функції . Знайти суму квадратів відхилень між емпіричними та теоретичними значеннями. З'ясувати, чи буде функція кращою (з погляду методу найменших квадратів)наближати експериментальні точки.

Зверніть увагу, що «іксові» значення – натуральні, і це має характерний змістовний зміст, про який я розповім трохи пізніше; але вони, зрозуміло, можуть і дробовими. Крім того, залежно від змісту того чи іншого завдання як «іксові», так і «ігрові» значення повністю або частково можуть бути негативними. Ну а у нас дане «безлике» завдання, і ми починаємо її Рішення:

Коефіцієнти оптимальної функції знайдемо як розв'язання системи:

Для більш компактного запису змінну-«лічильник» можна опустити, оскільки і так зрозуміло, що підсумовування здійснюється від 1 до .

Розрахунок потрібних сум зручніше оформити у табличному вигляді:


Обчислення можна провести на мікрокалькуляторі, але краще використовувати Ексель - і швидше, і без помилок; дивимося короткий відеоролик:

Таким чином, отримуємо наступну систему:

Тут можна помножити друге рівняння на 3 та з 1-го рівняння почленно відняти 2-е. Але це везіння - на практиці системи частіше не подарункові, і в таких випадках рятує метод Крамера:
Отже, система має єдине рішення.

Виконаємо перевірку. Розумію, що не хочеться, але навіщо пропускати помилки там, де їх можна стовідсотково не пропустити? Підставимо знайдене рішення у ліву частину кожного рівняння системи:

Отримано праві частини відповідних рівнянь, отже, система вирішена правильно.

Таким чином, шукана апроксимуюча функція: - з всіх лінійних функційекспериментальні дані найкраще наближає саме вона.

На відміну від прямий залежності товарообігу магазину від його площі, знайдена залежність є зворотній (принцип «що більше – тим менше»), і цей факт відразу виявляється за негативним кутовому коефіцієнту. Функція повідомляє нам про те, що зі збільшення якогось показника на 1 одиницю значення залежного показника зменшується в середньомуна 0,65 одиниць. Як то кажуть, що вище ціна на гречку, то менше її продано.

Для побудови графіка апроксимуючої функції знайдемо два її значення:

і виконаємо креслення:

Побудована пряма називається лінією тренду (а саме – лінією лінійного тренду, тобто у загальному випадку тренд – це не обов'язково пряма лінія). Всім знайомий вираз «бути в тренді», і, гадаю, що цей термін не потребує додаткових коментарів.

Обчислимо суму квадратів відхилень між емпіричними та теоретичними значеннями. Геометрично – це сума квадратів довжин «малинових» відрізків (два з яких настільки малі, що їх навіть не видно).

Обчислення зведемо до таблиці:


Їх можна знову ж таки провести вручну, про всяк випадок наведу приклад для 1-ї точки:

але набагато ефективніше вчинити вже відомим чином:

Ще раз повторимо: у чому сенс отриманого результату?З всіх лінійних функційу функції показник є найменшим, тобто у сімействі це найкраще наближення. І тут, до речі, невипадкове заключне питання завдання: а раптом запропонована експоненційна функція краще наближати експериментальні точки?

Знайдемо відповідну суму квадратів відхилень – щоб розрізняти, я позначу їх літерою «епсілон». Техніка така сама:


І знову на будь-який пожежний обчислення для 1-ї точки:

В Екселі користуємося стандартною функцією EXP (синтаксис можна переглянути в екселівській Довідці).

Висновок: , отже, експоненційна функція наближає експериментальні точки гірше, ніж пряма .

Але тут слід зазначити, що «гірше» – це ще не означає, що погано. Зараз побудував графік цієї експоненційної функції – і він також проходить близько до точок - Так, що без аналітичного дослідження і сказати важко, яка функція точніше.

На цьому рішення закінчено, і я повертаюся до питання про натуральні значення аргументу. У різних дослідженнях, як правило, економічних чи соціологічних, натуральними «іксами» нумерують місяці, роки або інші рівні часові проміжки. Розглянемо, наприклад, таке завдання:

Є такі дані про роздрібний товарообіг магазину за перше півріччя:

Використовуючи аналітичне вирівнювання по прямій, визначте обсяг товарообігу за липень.

Так без проблем: нумеруємо місяці 1, 2, 3, 4, 5, 6 і використовуємо звичайний алгоритм, внаслідок чого отримуємо рівняння – єдине, коли йдеться про час, то зазвичай використовують букву «те» (хоча це не критично). Отримане рівняння показує, що у першому півріччі товарообіг збільшувався загалом на 27,74 д.е. за місяць. Отримаємо прогноз на липень (місяць №7): д.е.

І подібних завдань – темрява темрява. Бажаючі можуть скористатися додатковим сервісом, а саме моїм еселівським калькулятором (демо версія), Котрий вирішує розібране завдання практично миттєво!Робоча версія програми доступна з обмінуабо за символічну плату.

На закінчення уроку коротка інформація про перебування залежностей деяких інших видів. Власне, і розповідати особливо нічого, оскільки принциповий підхід і алгоритм рішення залишаються колишніми.

Припустимо, розташування експериментальних точок нагадує гіперболу. Тоді щоб знайти коефіцієнти кращої гіперболи, необхідно визначити мінімум функції - бажаючі можуть провести докладні обчислення і дійти схожої системи:

З формально-технічного погляду вона виходить із «лінійної» системи (позначимо її «зірочкою»)заміною «ікса» на . Ну а вже суми-то розрахуєте, після чого до оптимальних коефіцієнтів «а» та «бе» рукою подати.

Якщо є всі підстави вважати, що точки розташовуються за логарифмічною кривою , то для розшуку оптимальних значень і знаходимо мінімум функції . Формально в системі (*) потрібно замінити на:

Під час обчислень в Екселі використовуйте функцію LN. Признаюся, мені не складе особливих труднощів створити калькулятори для кожного з цих випадків, але все-таки буде краще, якщо ви самі «запрограмуєте» обчислення. Відеоматеріали уроку на допомогу.

З експоненційною залежністю ситуація трохи складніша. Щоб звести справу до лінійного випадку, прологарифмуємо функцію та скористаємося властивостям логарифму:

Тепер, зіставляючи отриману функцію з лінійною функцією , приходимо висновку, що у системі (*) потрібно замінити на , а – на . Для зручності позначимо:

Зверніть увагу, що система дозволяється щодо і , і тому після знаходження коріння потрібно не забути знайти сам коефіцієнт .

Щоб наблизити експериментальні точки оптимальною параболою , слід знайти мінімум функції трьох змінних . Після здійснення стандартних дій отримуємо наступну «робочу» систему:

Так, звичайно, сум тут більше, але при використанні улюбленої програми труднощів взагалі ніяких. І насамкінець розповім, як за допомогою Екселя швидко виконати перевірку та побудувати потрібну лінію тренду: створюємо точкову діаграму, виділяємо мишею будь-яку з точок. і через праве клацання вибираємо опцію «Додати лінію тренду». Далі вибираємо тип діаграми та на вкладці "Параметри"активуємо опцію "Показувати рівняння на діаграмі". ОК

Як завжди статтю хочеться завершити якоюсь гарною фразою, і я вже мало не надрукував «Будьте в тренді!». Але вчасно передумав. І не через те, що вона є шаблонною. Не знаю, кому як, а мені щось зовсім не хочеться слідувати американському і особливо європейському тренду =) Тому я побажаю кожному з вас дотримуватися своєї власної лінії!

http://www.grandars.ru/student/vysshaya-matematika/metod-naimenshih-kvadratov.html

Метод найменших квадратів є одним з найбільш поширених та найбільш розроблених унаслідок своєї простоти та ефективності методів оцінки параметрів лінійнихеконометричних моделей. Разом з тим, при його застосуванні слід дотримуватися певної обережності, оскільки побудовані з його використанням моделі можуть не задовольняти цілий ряд вимог до якості їх параметрів і, внаслідок цього, недостатньо добре відображати закономірності розвитку процесу.

Розглянемо процедуру оцінки параметрів лінійної економетричної моделі за допомогою методу найменших квадратів докладніше. Така модель у загальному вигляді може бути представлена ​​рівнянням (1.2):

y t = a 0 + a 1 х 1t +...+ a n х nt + ε t.

Вихідними даними при оцінці параметрів a 0 , a 1 ,..., a n є вектор значень залежної змінної y= (y 1 , y 2 , ... , y T)" і матриця значень незалежних змінних

у якій перший стовпець, що складається з одиниць, відповідає коефіцієнту моделі .

Назва свій метод найменших квадратів отримав, виходячи з основного принципу, якому повинні задовольняти отримані на його основі оцінки параметрів: сума квадратів помилки моделі має бути мінімальною.

Приклади розв'язання задач методом найменших квадратів

Приклад 2.1.Торговельне підприємство має мережу, що складається з 12 магазинів, інформація про діяльність яких представлена ​​у табл. 2.1.

Керівництво підприємства хотіло б знати, як залежить розмір річного товарообігу торгової площі магазину.

Таблиця 2.1

Номер магазину Річний товарообіг, млн руб. Торгова площа, тис. м2
19,76 0,24
38,09 0,31
40,95 0,55
41,08 0,48
56,29 0,78
68,51 0,98
75,01 0,94
89,05 1,21
91,13 1,29
91,26 1,12
99,84 1,29
108,55 1,49

Вирішення методом найменших квадратів.Позначимо - річний товарообіг -го магазину, млн руб.; - торгова площа магазину, тис. м 2 .

Рис.2.1. Діаграма розсіювання для прикладу 2.1

Для визначення форми функціональної залежності між змінними та побудуємо діаграму розсіювання (рис. 2.1).

З діаграми розсіяння можна дійти невтішного висновку про позитивної залежності річного товарообігу від торгової площі (тобто. зростатиме зі зростанням ). Найбільш підходяща форма функціонального зв'язку - лінійна.

Інформація щодо подальших розрахунків представлена ​​у табл. 2.2. За допомогою методу найменших квадратів оцінимо параметри лінійної однофакторної економетричної моделі

Таблиця 2.2

t y t x 1t y t 2 x 1t 2 x 1t y t
19,76 0,24 390,4576 0,0576 4,7424
38,09 0,31 1450,8481 0,0961 11,8079
40,95 0,55 1676,9025 0,3025 22,5225
41,08 0,48 1687,5664 0,2304 19,7184
56,29 0,78 3168,5641 0,6084 43,9062
68,51 0,98 4693,6201 0,9604 67,1398
75,01 0,94 5626,5001 0,8836 70,5094
89,05 1,21 7929,9025 1,4641 107,7505
91,13 1,29 8304,6769 1,6641 117,5577
91,26 1,12 8328,3876 1,2544 102,2112
99,84 1,29 9968,0256 1,6641 128,7936
108,55 1,49 11783,1025 2,2201 161,7395
S 819,52 10,68 65008,554 11,4058 858,3991
Середнє 68,29 0,89

Таким чином,

Отже, зі збільшенням торгової площі на 1 тис. м 2 за інших рівних умов середньорічний товарообіг збільшується на 67,8871 млн руб.

Приклад 2.2.Керівництво підприємства помітило, що річний товарообіг залежить лише від торгової площі магазину (див. приклад 2.1), а й від середньої кількості відвідувачів. Відповідна інформація представлена ​​у табл. 2.3.

Таблиця 2.3

Рішення.Позначимо - середня кількість відвідувачів магазину на день, тис. чол.

Для визначення форми функціональної залежності між змінними та побудуємо діаграму розсіювання (рис. 2.2).

З діаграми розсіювання можна дійти невтішного висновку про позитивної залежності річного товарообігу від середньої кількості відвідувачів щодня (тобто. буде рости зі зростанням ). Форма функціональної залежності – лінійна.

Рис. 2.2. Діаграма розсіювання для прикладу 2.2

Таблиця 2.4

t x 2t x 2t 2 y t x 2t x 1t x 2t
8,25 68,0625 163,02 1,98
10,24 104,8575 390,0416 3,1744
9,31 86,6761 381,2445 5,1205
11,01 121,2201 452,2908 5,2848
8,54 72,9316 480,7166 6,6612
7,51 56,4001 514,5101 7,3598
12,36 152,7696 927,1236 11,6184
10,81 116,8561 962,6305 13,0801
9,89 97,8121 901,2757 12,7581
13,72 188,2384 1252,0872 15,3664
12,27 150,5529 1225,0368 15,8283
13,92 193,7664 1511,016 20,7408
S 127,83 1410,44 9160,9934 118,9728
Середнє 10,65

Загалом необхідно визначити параметри двофакторної економетричної моделі

у t = a 0 + a 1 х 1t + a 2 х 2t + ε t

Інформація, потрібна для подальших розрахунків, подана у табл. 2.4.

Оцінимо параметри лінійної двофакторної економетричної моделі за допомогою методу найменших квадратів.

Таким чином,

Оцінка коефіцієнта = 61,6583 показує, що за інших рівних умов зі збільшенням торгової площі на 1 тис. м 2 річний товарообіг збільшиться в середньому на 61,6583 млн руб.

Оцінка коефіцієнта = 2,2748 показує, що з інших рівних умов зі збільшенням середньої кількості відвідувачів на 1 тис. чол. на день річний товарообіг збільшиться в середньому на 2,2748 млн. руб.

Приклад 2.3.Використовуючи інформацію, подану у табл. 2.2 та 2.4 оцінити параметр однофакторної економетричної моделі

де - Центроване значення річного товарообігу-го магазину, млн руб.; - Центроване значення середньоденного числа відвідувачів t-го магазину, тис. чол. (Див. Приклади 2.1-2.2).

Рішення.Додаткова інформація, необхідна для розрахунків, подана у табл. 2.5.

Таблиця 2.5

-48,53 -2,40 5,7720 116,6013
-30,20 -0,41 0,1702 12,4589
-27,34 -1,34 1,8023 36,7084
-27,21 0,36 0,1278 -9,7288
-12,00 -2,11 4,4627 25,3570
0,22 -3,14 9,8753 -0,6809
6,72 1,71 2,9156 11,4687
20,76 0,16 0,0348 3,2992
22,84 -0,76 0,5814 -17,413
22,97 3,07 9,4096 70,4503
31,55 1,62 2,6163 51,0267
40,26 3,27 10,6766 131,5387
Сума 48,4344 431,0566

Використовуючи формулу (2.35), отримаємо

Таким чином,

http://www.cleverstudents.ru/articles/mnk.html

приклад.

Експериментальні дані про значення змінних хі унаведено у таблиці.

В результаті їх вирівнювання отримано функцію

Використовуючи метод найменших квадратів, апроксимувати ці дані лінійною залежністю y=ax+b(Знайти параметри аі b). З'ясувати, яка з двох ліній краще (у сенсі способу менших квадратів) вирівнює експериментальні дані. Зробити креслення.

Рішення.

У нашому прикладі n=5. Заповнюємо таблицю для зручності обчислення сум, що входять до формули шуканих коефіцієнтів.

Значення у четвертому рядку таблиці отримані множенням значень 2-го рядка на значення 3-го рядка для кожного номера i.

Значення у п'ятому рядку таблиці отримані зведенням у квадрат значень 2-го рядка для кожного номера i.

Значення останнього стовпця таблиці – це суми значень рядків.

Використовуємо формули методу найменших квадратів для знаходження коефіцієнтів аі b. Підставляємо у них відповідні значення з останнього стовпця таблиці:

Отже, y = 0.165x+2.184- Шукана апроксимуюча пряма.

Залишилося з'ясувати, яка з ліній y = 0.165x+2.184або Краще апроксимує вихідні дані, тобто провести оцінку шляхом найменших квадратів.

Доказ.

Щоб при знайдених аі bфункція приймала найменше значення, необхідно, щоб у цій точці матриця квадратичної форми диференціала другого порядку для функції була позитивно визначеною. Покажемо це.

Диференціал другого порядку має вигляд:

Тобто

Отже, матриця квадратичної форми має вигляд

причому значення елементів не залежать від аі b.

Покажемо, що матриця є позитивно визначеною. Для цього потрібно, щоб кутові мінори були позитивними.

Кутовий мінор першого порядку . Нерівність суворе, тому що точки

Сподобалась стаття? Поділіться їй