Mga contact

Pagtatantya ng pang-eksperimentong data sa pamamagitan ng pamamaraang least squares. Approximation ng pang-eksperimentong data. Pinakamababang parisukat na paraan. Ang pinakasimpleng mga espesyal na kaso

Ang pagtatantya ng pang-eksperimentong data ay isang pamamaraan na batay sa pagpapalit ng data na nakuhang eksperimental ng isang analytical function na pinaka malapit na pumasa o nag-tutugma sa mga nodal point na may mga paunang halaga (data na nakuha sa panahon ng eksperimento o eksperimento). Kasalukuyang mayroong dalawang paraan upang tukuyin ang isang analytic function:

Sa pamamagitan ng pagbuo ng n-degree interpolation polynomial na pumasa direkta sa lahat ng mga punto isang ibinigay na hanay ng data. Sa kasong ito, ang approximating function ay kinakatawan sa anyo ng isang interpolation polynomial sa anyo ng Lagrange o isang interpolation polynomial sa anyo ng Newton.

Sa pamamagitan ng pagbuo ng tinatayang n-degree na polynomial na pumasa sa malapit sa mga punto mula sa isang ibinigay na hanay ng data. Kaya, pinapawi ng approximating function ang lahat ng random na ingay (o mga error) na maaaring lumabas sa panahon ng eksperimento: ang mga sinusukat na halaga sa panahon ng eksperimento ay nakasalalay sa mga random na salik na nagbabago ayon sa kanilang sariling mga random na batas (mga error sa pagsukat o instrumento, hindi tumpak o eksperimentong mga pagkakamali). Sa kasong ito, ang approximating function ay tinutukoy gamit ang least squares method.

Pinakamababang parisukat na paraan(sa English-language literature Ordinary Least Squares, OLS) ay isang mathematical method na nakabatay sa depinisyon ng approximating function, na binuo sa pinakamalapit na proximity sa mga point mula sa isang naibigay na array ng experimental data. Ang lapit ng inisyal at tinatayang function na F (x) ay tinutukoy ng isang numerical na sukat, ibig sabihin: ang kabuuan ng mga parisukat ng mga paglihis ng pang-eksperimentong data mula sa tinatayang curve na F (x) ay dapat na pinakamaliit.

Hindi bababa sa mga parisukat na magkasya sa kurba

Ang paraan ng least squares ay ginagamit:

Upang malutas ang mga overdetermined system ng mga equation kapag ang bilang ng mga equation ay lumampas sa bilang ng mga hindi alam;

Upang maghanap para sa isang solusyon sa kaso ng ordinaryong (hindi overdetermined) nonlinear system ng mga equation;

Upang tantiyahin ang mga halaga ng punto sa pamamagitan ng ilang tinatayang function.

Ang tinatayang function sa pamamagitan ng paraan ng hindi bababa sa mga parisukat ay tinutukoy mula sa kundisyon ng pinakamababang kabuuan ng mga parisukat ng mga paglihis ng kinakalkula na tinatayang function mula sa isang ibinigay na hanay ng pang-eksperimentong data. Ang pamantayang ito para sa paraan ng least squares ay nakasulat bilang sumusunod na expression:

Ang mga halaga ng kinakalkula na approximating function sa mga nodal point,

Isang ibinigay na hanay ng pang-eksperimentong data sa mga nodal point.

Ang quadratic criterion ay may ilang "magandang" katangian, gaya ng differentiability, na nagbibigay ng natatanging solusyon sa problema sa pagtatantya na may polynomial approximating function.

Depende sa mga kondisyon ng problema, ang approximating function ay isang polynomial ng degree m

Ang antas ng approximating function ay hindi nakadepende sa bilang ng mga nodal point, ngunit ang dimensyon nito ay dapat palaging mas mababa kaysa sa dimensyon (bilang ng mga puntos) ng isang ibinigay na hanay ng pang-eksperimentong data.

∙ Kung ang antas ng approximating function ay m = 1, pagkatapos ay tinatantya namin ang tabular function na may isang tuwid na linya (linear regression).

∙ Kung ang antas ng approximating function ay m = 2, pagkatapos ay tinatantya namin ang tabular function na may isang quadratic parabola (quadratic approximation).

∙ Kung ang antas ng approximating function ay m = 3, pagkatapos ay tinatantya namin ang tabular function na may cubic parabola (cubic approximation).

Sa pangkalahatang kaso, kapag kinakailangan na bumuo ng tinatayang polynomial ng degree m para sa mga ibinigay na halaga ng tabular, ang kundisyon para sa minimum ng kabuuan ng mga parisukat ng mga deviations para sa lahat ng nodal point ay muling isinusulat tulad ng sumusunod:

- hindi kilalang mga coefficient ng tinatayang polynomial ng degree m;

Ang bilang ng mga tinukoy na halaga ng talahanayan.

Ang isang kinakailangang kondisyon para sa pagkakaroon ng isang minimum ng isang function ay ang pagkakapantay-pantay sa zero ng mga partial derivatives nito na may paggalang sa mga hindi kilalang variable. ... Bilang resulta, nakukuha namin ang sumusunod na sistema ng mga equation:

Binabago namin ang nagresultang linear na sistema ng mga equation: buksan ang mga bracket at ilipat ang mga libreng termino sa kanang bahagi ng expression. Bilang resulta, ang resultang sistema ng mga linear algebraic na expression ay isusulat sa sumusunod na anyo:

Ang sistemang ito ng mga linear algebraic na expression ay maaaring muling isulat sa matrix form:

Bilang resulta, nakuha ang isang sistema ng mga linear equation ng dimensyon m + 1, na binubuo ng m + 1 na hindi alam. Ang sistemang ito ay maaaring malutas gamit ang anumang paraan para sa paglutas ng mga linear algebraic equation (halimbawa, ang Gauss method). Bilang resulta ng solusyon, makikita ang hindi kilalang mga parameter ng approximating function na nagbibigay ng pinakamababang kabuuan ng mga parisukat ng deviations ng approximating function mula sa paunang data, i.e. pinakamahusay na posibleng quadratic approximation. Dapat alalahanin na kapag ang isang halaga ng paunang data ay nagbago, ang lahat ng mga coefficient ay magbabago ng kanilang mga halaga, dahil sila ay ganap na tinutukoy ng paunang data.

Linear approximation ng paunang data

(linear regression)

Bilang halimbawa, isaalang-alang ang paraan para sa pagtukoy ng approximating function, na tinukoy bilang isang linear na relasyon. Alinsunod sa pamamaraan ng least squares, ang kundisyon para sa pinakamababang kabuuan ng mga square ng deviations ay nakasulat sa sumusunod na anyo:

Ang mga coordinate ng mga grid point ng talahanayan;

Mga hindi kilalang coefficient ng approximating function, na ibinibigay bilang isang linear na relasyon.

Ang isang kinakailangang kondisyon para sa pagkakaroon ng isang minimum ng isang function ay ang pagkakapantay-pantay sa zero ng mga partial derivatives nito na may paggalang sa mga hindi kilalang variable. Bilang resulta, nakukuha namin ang sumusunod na sistema ng mga equation:

Binabago namin ang nagresultang linear na sistema ng mga equation.

Nilulutas namin ang nagresultang sistema ng mga linear equation. Ang mga coefficient ng approximating function sa analytical form ay tinutukoy bilang mga sumusunod (Cramer's method):

Ang mga coefficient na ito ay nagbibigay ng pagbuo ng isang linear approximating function alinsunod sa criterion para sa pagliit ng kabuuan ng mga parisukat ng approximating function mula sa ibinigay na mga halaga ng talahanayan (experimental na data).

Algorithm para sa pagpapatupad ng pamamaraan ng least squares

1. Paunang data:

Isang hanay ng pang-eksperimentong data ang ibinibigay kasama ang bilang ng mga sukat N

Ang antas ng tinatayang polynomial ay ibinibigay (m)

2. Algoritmo ng pagkalkula:

2.1. Ang mga coefficient ay tinutukoy para sa pagbuo ng isang sistema ng mga equation na may sukat

Mga koepisyent ng sistema ng mga equation (kaliwang bahagi ng equation)

ay ang index ng column number ng square matrix ng system of equation

Mga libreng termino ng isang sistema ng mga linear na equation (kanang bahagi ng equation)

ay ang index ng row number ng square matrix ng sistema ng mga equation

2.2. Pagbuo ng isang sistema ng mga linear na equation sa dimensyon.

2.3. Paglutas ng isang sistema ng mga linear na equation upang matukoy ang hindi kilalang coefficient ng tinatayang polynomial ng degree m.

2.4 Pagpapasiya ng kabuuan ng mga parisukat ng mga paglihis ng tinatayang polynomial mula sa orihinal na mga halaga para sa lahat ng mga nodal na puntos

Ang nahanap na halaga ng kabuuan ng mga parisukat ng mga paglihis ay ang pinakamababang posible.

Approximation gamit ang iba pang function

Dapat pansinin na kapag tinatantya ang paunang data alinsunod sa pamamaraan ng hindi bababa sa mga parisukat, ang isang logarithmic function, isang exponential function, at isang power function ay minsan ginagamit bilang isang approximating function.

Logarithmic approximation

Isaalang-alang ang kaso kapag ang approximating function ay ibinigay ng isang logarithmic function ng form:

Naghahanap malawak na aplikasyon sa econometrics sa anyo ng isang malinaw na pang-ekonomiyang interpretasyon ng mga parameter nito.

Ang linear regression ay binabawasan sa paghahanap ng equation ng form

o

Equation ng form nagbibigay-daan para sa ibinigay na mga halaga ng parameter X magkaroon ng mga teoretikal na halaga ng epektibong tagapagpahiwatig, na pinapalitan ang aktwal na mga halaga ng kadahilanan dito X.

Ang pagtatayo ng linear regression ay nabawasan sa pagtatantya ng mga parameter nito - a at v. Ang mga pagtatantya ng mga parameter ng linear regression ay matatagpuan sa pamamagitan ng iba't ibang pamamaraan.

Ang klasikal na diskarte sa pagtatantya ng mga parameter ng linear regression ay batay sa paraan ng least squares(OLS).

Binibigyang-daan ng OLS ang isa na makakuha ng naturang mga pagtatantya ng parameter a at v, kung saan ang kabuuan ng mga parisukat ng mga paglihis ng aktwal na mga halaga ng nagreresultang katangian (y) mula sa kinakalkula (teoretikal) minimal:

Upang mahanap ang minimum ng function, kinakailangan upang kalkulahin ang mga bahagyang derivatives na may paggalang sa bawat isa sa mga parameter. a at b at itakda ang mga ito sa zero.

Tinutukoy namin sa pamamagitan ng S, pagkatapos:

Ang pagbabago ng formula, nakukuha namin ang sumusunod na sistema ng mga normal na equation para sa pagtantya ng mga parameter a at v:

Ang paglutas ng sistema ng mga normal na equation (3.5) alinman sa pamamagitan ng paraan ng sunud-sunod na pag-aalis ng mga variable o sa pamamagitan ng paraan ng mga determinant, makikita natin ang mga kinakailangang pagtatantya ng mga parameter. a at v.

Parameter v tinatawag na regression coefficient. Ang halaga nito ay nagpapakita ng average na pagbabago sa resulta na may pagbabago sa factor ng isang yunit.

Ang equation ng regression ay palaging pupunan ng isang tagapagpahiwatig ng higpit ng relasyon. Kapag ginamit ang linear regression, kumikilos ang linear correlation coefficient bilang isang indicator. Mayroong iba't ibang mga pagbabago ng linear correlation coefficient formula. Ang ilan sa mga ito ay nakalista sa ibaba:

Tulad ng alam mo, ang linear correlation coefficient ay nasa hanay: -1 1.

Upang masuri ang kalidad ng pagpili ng isang linear function, ang parisukat ay kinakalkula

Tinatawag na linear correlation coefficient ang koepisyent ng pagpapasiya. Ang koepisyent ng pagpapasiya ay nagpapakilala sa proporsyon ng pagkakaiba-iba ng epektibong tagapagpahiwatig y, ipinaliwanag sa pamamagitan ng regression, sa kabuuang pagkakaiba ng mabisang katangian:

Alinsunod dito, ang halaga 1 - ay nagpapakilala sa proporsyon ng pagpapakalat y, sanhi ng impluwensya ng iba pang mga kadahilanan na hindi isinasaalang-alang sa modelo.

Mga tanong para sa pagpipigil sa sarili

1. Ano ang kakanyahan ng pamamaraan ng least squares?

2. Ilang variable ang ibinigay na paired regression?

3. Ano ang koepisyent na tumutukoy sa higpit ng ugnayan sa pagitan ng mga pagbabago?

4. Sa loob ng anong mga limitasyon natutukoy ang coefficient of determination?

5. Pagtataya ng parameter b sa pagsusuri ng ugnayan-pagbabalik?

1. Christopher Dougherty. Panimula sa Econometrics. - M .: INFRA - M, 2001 - 402 p.

2.S.A. Borodich. Econometrics. Minsk LLC "Bagong Kaalaman" 2001.


3. R.U. Rakhmetova Maikling kurso sa econometrics. Pagtuturo... Almaty. 2004. -78s.

4. I.I. Eliseeva, Econometrics. - M .: "Pananalapi at Istatistika", 2002

5. Buwanang impormasyon at analytical magazine.

Nonlinear na mga modelong pang-ekonomiya. Non-linear regression na mga modelo. Pagbabago ng mga variable.

Nonlinear na mga modelong pang-ekonomiya.

Pagbabago ng mga variable.

Koepisyent ng pagkalastiko.

Kung mayroong mga non-linear na relasyon sa pagitan ng mga pang-ekonomiyang phenomena, kung gayon ang mga ito ay ipinahayag gamit ang kaukulang mga non-linear na pag-andar: halimbawa, isang equilateral hyperbola , parabola ng ikalawang antas at iba pa.

Mayroong dalawang klase ng nonlinear regressions:

1. Mga regression na nonlinear na may kinalaman sa mga nagpapaliwanag na variable na kasama sa pagsusuri, ngunit linear na may kinalaman sa mga tinantyang parameter, halimbawa:

Mga polynomial ng iba't ibang antas - , ;

Equilateral hyperbola -;

Semi-logarithmic function -.

2. Mga regression na hindi linear sa mga parameter na tinatantya, halimbawa:

Kapangyarihan -;

Nagpapahiwatig -;

Exponential -.

Ang kabuuang kabuuan ng mga parisukat ng mga paglihis ng mga indibidwal na halaga ng epektibong tagapagpahiwatig sa mula sa karaniwan ay dahil sa impluwensya ng maraming dahilan. Kundisyon nating hatiin ang buong hanay ng mga dahilan sa dalawang grupo: pinag-aralan na salik x at iba pang mga kadahilanan.

Kung ang kadahilanan ay hindi nakakaapekto sa resulta, ang linya ng pagbabalik sa graph ay kahanay sa axis Oh at

Kung gayon ang buong pagkakaiba-iba ng mabisang katangian ay dahil sa impluwensya ng iba pang mga kadahilanan at ang kabuuang kabuuan ng mga parisukat ng mga paglihis ay mag-tutugma sa nalalabi. Kung ang ibang mga kadahilanan ay hindi nakakaapekto sa resulta, kung gayon nakatali ka Sa X functionally at ang natitirang kabuuan ng mga parisukat ay zero. Sa kasong ito, ang kabuuan ng mga parisukat ng mga paglihis na ipinaliwanag ng regression ay kapareho ng kabuuang kabuuan ng mga parisukat.

Dahil hindi lahat ng mga punto ng patlang ng ugnayan ay nasa linya ng regression, kung gayon ang kanilang scatter ay palaging nagaganap dahil sa impluwensya ng salik. X, ibig sabihin, regression sa sa X, at iba pang mga sanhi (hindi maipaliwanag na pagkakaiba-iba). Ang kaangkupan ng linya ng regression para sa pagtataya ay depende sa kung gaano karami sa kabuuang pagkakaiba-iba ng katangian sa nahuhulog sa ipinaliwanag na pagkakaiba-iba

Malinaw, kung ang kabuuan ng mga parisukat ng mga paglihis dahil sa regression ay mas malaki kaysa sa natitirang kabuuan ng mga parisukat, kung gayon ang equation ng regression ay makabuluhang istatistika at ang kadahilanan X ay may malaking epekto sa resulta sa.

, iyon ay, sa bilang ng kalayaan ng independiyenteng pagkakaiba-iba ng tampok. Ang bilang ng mga antas ng kalayaan ay nauugnay sa bilang ng mga yunit ng populasyon n at sa bilang ng mga constant na tinutukoy mula dito. Kaugnay ng problemang pinag-aaralan, ang bilang ng mga antas ng kalayaan ay dapat magpakita kung gaano karaming mga independiyenteng paglihis mula sa P

Ang pagtatantya ng kahalagahan ng regression equation sa kabuuan ay ibinibigay sa tulong ng F-Pamantayan ni Fisher. Kasabay nito, ang isang zero hypothesis ay iniharap na ang regression coefficient ay zero, i.e. b = 0, at samakatuwid ang kadahilanan X hindi nakakaapekto sa resulta sa.

Ang direktang pagkalkula ng F-criterion ay nauuna sa pagsusuri ng pagkakaiba-iba. Gitnang lugar ito ay tumatagal ng agnas ng kabuuang kabuuan ng mga parisukat ng mga deviations ng variable sa mula sa karaniwan sa sa dalawang bahagi - "ipinaliwanag" at "hindi maipaliwanag":

- ang kabuuang kabuuan ng mga parisukat ng mga paglihis;

- ang kabuuan ng mga parisukat ng paglihis na ipinaliwanag ng regression;

- natitirang kabuuan ng mga parisukat ng paglihis.

Ang anumang kabuuan ng mga parisukat ng mga paglihis ay nauugnay sa bilang ng mga antas ng kalayaan , iyon ay, sa bilang ng kalayaan ng independiyenteng pagkakaiba-iba ng tampok. Ang bilang ng mga antas ng kalayaan ay nauugnay sa bilang ng mga yunit sa populasyon n at sa bilang ng mga constants na tinutukoy mula dito. Kaugnay ng problemang pinag-aaralan, ang bilang ng mga antas ng kalayaan ay dapat magpakita kung gaano karaming mga independiyenteng paglihis mula sa P posible ay kinakailangan upang bumuo ng isang naibigay na kabuuan ng mga parisukat.

Pagpapakalat sa bawat antas ng kalayaanD.

F-ratio (F-criterion):

Kung ang null hypothesis ay totoo, kung gayon ang factorial at natitirang mga pagkakaiba-iba ay hindi naiiba sa bawat isa. Para sa Н 0, ang isang pagtanggi ay kinakailangan upang ang factorial variance ay lumampas sa nalalabi nang ilang beses. Ang British statistician na si Snedecor ay bumuo ng mga talahanayan ng mga kritikal na halaga F-ugnayan sa iba't ibang antas ng kahalagahan ng null hypothesis at iba't ibang antas ng kalayaan. Halaga ng talahanayan F-criterion ay ang pinakamataas na halaga ng ratio ng mga pagkakaiba-iba na maaaring mangyari sa kaso ng kanilang random na pagkakaiba para sa isang partikular na antas ng posibilidad ng pagkakaroon ng null hypothesis. Kinakalkula na halaga F-ang relasyon ay kinikilalang maaasahan kung ito ay higit pa sa tabular.

Sa kasong ito, ang null hypothesis ng kawalan ng koneksyon sa pagitan ng mga palatandaan ay tinanggihan at ang isang konklusyon ay ginawa tungkol sa kahalagahan ng koneksyon na ito: F katotohanan> F tab Tinanggihan ang H 0.

Kung ang halaga ay mas mababa sa talahanayan F katotohanan ‹, F tab, kung gayon ang posibilidad ng null hypothesis ay mas mataas kaysa sa isang naibigay na antas at hindi ito maaaring tanggihan nang walang seryosong panganib na makagawa ng maling konklusyon tungkol sa pagkakaroon ng isang koneksyon. Sa kasong ito, ang equation ng regression ay itinuturing na hindi gaanong mahalaga sa istatistika. Ngunit hindi ito lumilihis.

Regression coefficient standard error

Upang masuri ang kahalagahan ng coefficient ng regression, ang halaga nito ay inihambing sa karaniwang error nito, ibig sabihin, ang aktwal na halaga ay tinutukoy. t-Pamantayan ng mag-aaral: na pagkatapos ay inihambing sa halaga ng talahanayan sa isang tiyak na antas ng kahalagahan at ang bilang ng mga antas ng kalayaan ( n- 2).

Karaniwang error sa parameter a:

Sinusuri ang kahalagahan ng linear correlation coefficient batay sa laki ng error. koepisyent ng ugnayan t r:

Kabuuang pagkakaiba-iba ng isang katangian X:

Maramihang Linear Regression

Pagbuo ng modelo

Maramihang pagbabalik ay isang regression ng isang mabisang katangian na may dalawa o higit pang mga salik, ibig sabihin, isang modelo ng anyo

Ang regression ay maaaring magbigay ng magandang resulta sa pagmomodelo, kung ang impluwensya ng iba pang mga salik na nakakaapekto sa object ng pananaliksik ay maaaring mapabayaan. Ang pag-uugali ng mga indibidwal na variable na pang-ekonomiya ay hindi maaaring kontrolin, iyon ay, hindi posible na matiyak ang pagkakapantay-pantay ng lahat ng iba pang mga kondisyon para sa pagtatasa ng impluwensya ng isang sinisiyasat na kadahilanan. Sa kasong ito, dapat subukan ng isa na tukuyin ang impluwensya ng iba pang mga kadahilanan sa pamamagitan ng pagpapakilala sa mga ito sa modelo, ibig sabihin, bumuo ng isang multiple regression equation: y = a + b 1 x 1 + b 2 +… + b p x p + .

Ang pangunahing layunin ng multiple regression ay ang bumuo ng isang modelo na may malaking bilang ng mga salik, habang tinutukoy ang impluwensya ng bawat isa sa kanila nang hiwalay, pati na rin ang kanilang pinagsama-samang epekto sa modelong tagapagpahiwatig. Kasama sa detalye ng modelo ang dalawang bahagi ng mga isyu: pagpili ng mga salik at pagpili ng uri ng regression equation

3. Function approximation gamit ang pamamaraan

hindi bababa sa mga parisukat

Ginagamit ang paraan ng least squares kapag pinoproseso ang mga pang-eksperimentong resulta para sa mga pagtatantya (approximation) pang-eksperimentong datos analytical formula. Ang tiyak na anyo ng formula ay pinili, bilang panuntunan, mula sa mga pisikal na pagsasaalang-alang. Ang ganitong mga formula ay maaaring:

iba pa.

Ang kakanyahan ng pamamaraan ng hindi bababa sa mga parisukat ay ang mga sumusunod. Hayaang ipakita ang mga resulta ng pagsukat sa talahanayan:

mesa 4

x n

y n

(3.1)

saan f - kilalang function, isang 0, isang 1, ..., isang m - hindi kilalang pare-parehong mga parameter, ang mga halaga na dapat matagpuan. Sa paraan ng least squares, ang approximation ng function (3.1) sa experimental dependence ay itinuturing na pinakamahusay kung ang kundisyon

(3.2)

yan ay kabuuan a ang mga parisukat ng mga paglihis ng kinakailangang analytical function mula sa pang-eksperimentong pagtitiwala ay dapat na minimal .

Tandaan na ang function Q tinawag pagkakaiba.


Dahil ang tira

pagkatapos ito ay may isang minimum. Ang isang kinakailangang kundisyon para sa minimum ng isang function ng ilang variable ay ang pagkakapantay-pantay sa zero ng lahat ng partial derivatives ng function na ito na may paggalang sa mga parameter. Kaya, ang paghahanap ng pinakamahusay na mga halaga ng mga parameter ng approximating function (3.1), iyon ay, ang mga naturang halaga kung saan Q = Q (a 0, a 1, ..., a m ) ay minimal, ay nabawasan sa paglutas ng sistema ng mga equation:

(3.3)

Ang pamamaraan ng hindi bababa sa mga parisukat ay maaaring bigyan ng sumusunod na geometric na interpretasyon: sa isang walang katapusang pamilya ng mga linya ng isang naibigay na uri, isang linya ang matatagpuan kung saan ang kabuuan ng mga parisukat ng mga pagkakaiba sa pagitan ng mga ordinate ng mga eksperimentong punto at ang kaukulang mga ordinate ng Ang mga puntos na makikita ng equation ng linyang ito ang magiging pinakamaliit.

Paghahanap ng mga parameter ng isang linear function

Hayaang ang pang-eksperimentong data ay kinakatawan ng isang linear na function:

Kinakailangang pumili ng mga naturang halaga a at b para saan ang function

(3.4)

magiging minimal. Ang mga kinakailangang kondisyon para sa pinakamababang function (3.4) ay binabawasan sa sistema ng mga equation:

Pagkatapos ng mga pagbabagong-anyo, nakakakuha kami ng isang sistema ng dalawang linear na equation na may dalawang hindi alam:

(3.5)

paglutas kung saan, nakita namin ang mga kinakailangang halaga ng mga parameter a at b.

Paghahanap ng mga parameter ng isang quadratic function

Kung ang approximating function ay ang quadratic dependence

pagkatapos ay ang mga parameter nito a, b, c ay matatagpuan mula sa kundisyon para sa minimum ng function:

(3.6)

Ang mga kondisyon para sa pinakamababang function (3.6) ay binabawasan sa sistema ng mga equation:


Pagkatapos ng mga pagbabagong-anyo, nakakakuha kami ng isang sistema ng tatlong linear na equation na may tatlong hindi alam:

(3.7)

sa ang solusyon kung saan nakita namin ang mga kinakailangang halaga ng mga parameter a, b at c.

Halimbawa ... Hayaang magresulta ang eksperimento sa sumusunod na talahanayan ng mga halaga x at y:

mesa 5

y i

0,705

0,495

0,426

0,357

0,368

0,406

0,549

0,768

Kinakailangang tantiyahin ang pang-eksperimentong data na may mga linear at quadratic na function.

Solusyon. Ang paghahanap ng mga parameter ng approximating function ay binabawasan sa paglutas ng mga sistema ng linear equation (3.5) at (3.7). Upang malutas ang problema, gagamit kami ng isang spreadsheet processor Excel.

1. Una, i-link natin ang mga sheet 1 at 2. Ilagay natin ang mga pang-eksperimentong halaga x i at y i sa mga hanay A at B, simula sa pangalawang hilera (sa unang hilera ilalagay namin ang mga heading ng column). Pagkatapos ay kinakalkula namin ang mga kabuuan para sa mga hanay na ito at inilalagay ang mga ito sa ikasampung hilera.

Mga Hanay C - G ilagay ang kalkulasyon at pagsusuma ayon sa pagkakabanggit

2. Tanggalin natin ang mga sheet. Isasagawa ang mga karagdagang kalkulasyon sa parehong paraan para sa isang linear na dependence sa Sheet 1 at para sa isang quadratic na dependence sa Sheet 2.

3. Sa ilalim ng resultang talahanayan, bumuo ng isang matrix ng mga coefficient at isang column vector ng mga libreng miyembro. Lutasin natin ang sistema ng mga linear equation ayon sa sumusunod na algorithm:

Upang kalkulahin ang inverse matrix at matrix multiplication, ginagamit namin Sa pamamagitan ng master mga function at mga function MOBR at MOMNOZH.

4. Sa isang bloke ng mga cell H2: H 9 batay sa nakuha na mga coefficient, kinakalkula namin ang halaga ng approximating polinomyaly i bawas., sa block I 2: I 9 - deviations D y i = y i exp. - y i bawas., column J - nalalabi:

Ang mga resultang talahanayan at binuo gamit ang Mga Wizard ng Tsart ang mga graph ay ipinapakita sa Figures 6, 7, 8.


kanin. 6. Talahanayan para sa pagkalkula ng mga coefficient ng isang linear function,

tinatantiya pang-eksperimentong datos.


kanin. 7. Talahanayan para sa pagkalkula ng mga coefficient ng isang quadratic function,

tinatantiyapang-eksperimentong datos.


kanin. 8. Graphical na presentasyon ng mga resulta ng approximation

pang-eksperimentong data sa pamamagitan ng linear at quadratic function.

Sagot. Ang pang-eksperimentong data ay tinantiya ng linear dependence y = 0,07881 x + 0,442262 may nalalabi Q = 0,165167 at quadratic dependence y = 3,115476 x 2 – 5,2175 x + 2,529631 may nalalabi Q = 0,002103 .

Mga gawain. Tinatayang isang function na ibinigay ng isang tabular, linear at quadratic function.

Talahanayan 6

№0

x

0,1

0,2

0,3

0,4

0,5

0,6

0,7

0,8

y

3,030

3,142

3,358

3,463

3,772

3,251

3,170

3,665

1

3,314

3,278

3,262

3,292

3,332

3,397

3,487

3,563

2

1,045

1,162

1,264

1,172

1,070

0,898

0,656

0,344

3

6,715

6,735

6,750

6,741

6,645

6,639

6,647

6,612

4

2,325

2,515

2,638

2,700

2,696

2,626

2,491

2,291

5

1.752

1,762

1,777

1,797

1,821

1,850

1,884

1,944

6

1,924

1,710

1,525

1,370

1,264

1,190

1,148

1,127

7

1,025

1,144

1,336

1,419

1,479

1,530

1,568

1,248

8

5,785

5,685

5,605

5,545

5,505

5,480

5,495

5,510

9

4,052

4,092

4,152

4,234

4,338

4,468

4,599

Tantyahin natin ang function na may polynomial na degree 2. Upang gawin ito, kinakalkula namin ang mga coefficient ng normal na sistema ng mga equation:

, ,

Bumuo tayo ng isang normal na sistema ng hindi bababa sa mga parisukat, na may anyo:

Ang solusyon sa system ay madaling mahanap :,,.

Kaya, ang polynomial ng 2nd degree ay matatagpuan:.

Teoretikal na background

Bumalik sa pahina<Введение в вычислительную математику. Примеры>

Halimbawa 2... Paghahanap ng pinakamainam na antas ng isang polynomial.

Bumalik sa pahina<Введение в вычислительную математику. Примеры>

Halimbawa 3... Derivation ng normal na sistema ng mga equation para sa paghahanap ng mga parameter ng empirical dependence.

Kumuha tayo ng isang sistema ng mga equation para sa pagtukoy ng mga coefficient at ang function , na gumaganap ng root-mean-square approximation ng ibinigay na function sa pamamagitan ng mga puntos. Buuin natin ang function at isulat ang kinakailangang extremum na kondisyon para dito:

Pagkatapos ang normal na sistema ay kukuha ng anyo:

Nakatanggap ng isang linear na sistema ng mga equation na may paggalang sa hindi kilalang mga parameter at, na madaling malutas.

Teoretikal na background

Bumalik sa pahina<Введение в вычислительную математику. Примеры>

Halimbawa.

Pang-eksperimentong data sa mga halaga ng mga variable X at sa ay ibinigay sa talahanayan.

Bilang resulta ng kanilang pagkakahanay, nakuha ang pag-andar

Gamit hindi bababa sa parisukat na paraan, tantiyahin ang data na ito na may linear na dependence y = ax + b(hanapin ang mga parameter a at b). Alamin kung alin sa dalawang linya ang mas mahusay (sa kahulugan ng pinakamababang paraan ng mga parisukat) ang nagpapapantay sa pang-eksperimentong data. Gumawa ng drawing.

Ang kakanyahan ng pamamaraan ng hindi bababa sa mga parisukat (OLS).

Ang gawain ay upang mahanap ang mga coefficient ng linear dependence kung saan ang function ng dalawang variable a at bkumukuha ng pinakamaliit na halaga. Ibig sabihin, binigay a at b ang kabuuan ng mga parisukat ng mga paglihis ng pang-eksperimentong data mula sa natagpuang tuwid na linya ang magiging pinakamaliit. Ito ang buong punto ng pamamaraan ng least squares.

Kaya, ang solusyon ng halimbawa ay nabawasan sa paghahanap ng extremum ng isang function ng dalawang variable.

Derivation ng mga formula para sa paghahanap ng mga coefficient.

Ang isang sistema ng dalawang equation na may dalawang hindi alam ay binubuo at nalulutas. Hanapin ang mga partial derivatives ng function sa pamamagitan ng mga variable a at b, itinutumbas namin ang mga derivatives na ito sa zero.

Nalulutas namin ang nagresultang sistema ng mga equation sa pamamagitan ng anumang pamamaraan (halimbawa paraan ng pagpapalit o Cramer's method) at nakakakuha tayo ng mga formula para sa paghahanap ng coefficients sa pamamagitan ng method of least squares (OLS).

Gamit ang data a at b function kumukuha ng pinakamaliit na halaga. Ang patunay ng katotohanang ito ay ibinigay sa ibaba sa teksto sa dulo ng pahina.

Iyan ang buong least squares method. Formula para sa paghahanap ng parameter a naglalaman ng mga kabuuan,,, at ang parameter n- ang dami ng pang-eksperimentong data. Inirerekomenda namin ang pagkalkula ng mga halaga ng mga halagang ito nang hiwalay.

Coefficient b ay pagkatapos ng pagkalkula a.

Oras na para alalahanin ang orihinal na halimbawa.

Solusyon.

Sa ating halimbawa n = 5... Pinupuno namin ang talahanayan para sa kaginhawaan ng pagkalkula ng mga halaga na kasama sa mga formula ng nais na mga coefficient.

Ang mga halaga sa ika-apat na hilera ng talahanayan ay nakuha sa pamamagitan ng pagpaparami ng mga halaga ng ika-2 hilera sa mga halaga ng ika-3 hilera para sa bawat numero i.

Ang mga halaga sa ikalimang hilera ng talahanayan ay nakuha sa pamamagitan ng pag-square ng mga halaga ng ika-2 hilera para sa bawat numero i.

Ang mga halaga sa huling hanay ng talahanayan ay ang mga kabuuan ng hilera ng mga halaga.

Ginagamit namin ang mga formula ng pinakamaliit na paraan ng mga parisukat upang mahanap ang mga coefficient a at b... Pinapalitan namin sa kanila ang kaukulang mga halaga mula sa huling hanay ng talahanayan:

Kaya naman, y = 0.165x + 2.184- ang kinakailangang tinatayang tuwid na linya.

Ito ay nananatiling alamin kung alin sa mga linya y = 0.165x + 2.184 o mas mahusay na tinatantya ang orihinal na data, iyon ay, gumawa ng pagtatantya gamit ang least squares na paraan.

Pagtatantya ng error ng least squares method.

Upang gawin ito, kailangan mong kalkulahin ang kabuuan ng mga parisukat ng mga paglihis ng paunang data mula sa mga linyang ito at , ang mas mababang halaga ay tumutugma sa linya na mas mahusay na tinatantya ang orihinal na data sa kahulugan ng paraan ng least squares.

Since, tapos straight y = 0.165x + 2.184 mas mahusay na tinatantya ang orihinal na data.

Graphical na paglalarawan ng paraan ng hindi bababa sa mga parisukat (mns).

Ang lahat ay perpektong nakikita sa mga graph. Ang pulang linya ay ang tuwid na linya na natagpuan y = 0.165x + 2.184, ang asul na linya ay , ang mga pink na tuldok ay hilaw na data.

Para saan ito, para saan ang lahat ng mga pagtatantya na ito?

Personal kong ginagamit para sa paglutas ng mga problema ng data smoothing, interpolation at extrapolation na mga problema (sa orihinal na halimbawa, maaaring hiniling mong hanapin ang halaga ng naobserbahang halaga y sa x = 3 o sa x = 6 sa pamamagitan ng pamamaraang OLS). Ngunit pag-uusapan natin ito nang mas detalyado sa ibang seksyon ng site.

Bumalik sa tuktok ng pahina

Patunay.

Kaya't kapag natagpuan a at b ang function ay tumatagal ng pinakamaliit na halaga, ito ay kinakailangan na sa puntong ito ang matrix ng quadratic form ng second-order differential para sa function ay positibong tiyak. Ipakita natin.

Ang pagkakaiba ng pangalawang order ay may anyo:

Yan ay

Samakatuwid, ang matrix ng quadratic form ay may anyo

at ang mga halaga ng mga elemento ay hindi nakasalalay sa a at b.

Ipakita natin na ang matrix ay positibong tiyak. Ito ay nangangailangan ng mga menor de edad sa sulok na maging positibo.

Corner minor ng unang order ... Ang hindi pagkakapantay-pantay ay mahigpit, dahil ang mga punto ay hindi nag-tutugma. Sa mga sumusunod, tutuparin natin ito.

Corner minor ng pangalawang order

Patunayan natin yan sa pamamagitan ng paraan ng mathematical induction.

Konklusyon: nahanap na mga halaga a at b tumutugma sa pinakamaliit na halaga ng function , samakatuwid, ang mga kinakailangang parameter para sa paraan ng least squares.

Walang oras upang malaman ito?
Mag-order ng solusyon

Bumalik sa tuktok ng pahina

Pagbuo ng pagtataya gamit ang least squares method. Isang halimbawa ng paglutas ng problema

Extrapolation Ay ang pamamaraan siyentipikong pananaliksik, na batay sa pagpapakalat ng nakaraan at kasalukuyang mga uso, pattern, koneksyon para sa hinaharap na pag-unlad ng bagay sa pagtataya. Kasama sa mga pamamaraan ng extrapolation moving average method, exponential smoothing method, least squares method.

Ang kakanyahan paraan ng least squares ay binubuo sa pagliit ng kabuuan ng mga karaniwang paglihis sa pagitan ng naobserbahan at kinakalkula na mga halaga. Ang mga kinakalkula na halaga ay matatagpuan ayon sa fitted equation - ang regression equation. Kung mas maliit ang distansya sa pagitan ng mga aktwal na halaga at ang mga kinakalkula na halaga, mas tumpak ang pagtataya batay sa equation ng regression.

Ang isang teoretikal na pagsusuri ng kakanyahan ng hindi pangkaraniwang bagay na pinag-aaralan, ang pagbabago kung saan ipinapakita ng isang serye ng oras, ay nagsisilbing batayan para sa pagpili ng isang kurba. Minsan ang mga pagsasaalang-alang tungkol sa likas na katangian ng paglago ng mga antas ng serye ay isinasaalang-alang. Kaya, kung ang isang pagtaas sa output ay inaasahan sa pag-unlad ng aritmetika, pagkatapos ay ang pagpapakinis ay isinasagawa sa isang tuwid na linya. Kung lumalabas na ang paglago ay nasa geometric na pag-unlad, pagkatapos ay dapat isagawa ang pagpapakinis ayon sa exponential function.

Formula na Gumagamit ng Least Squares : Y t + 1 = a * X + b, kung saan ang t + 1 ay ang panahon ng pagtataya; Уt + 1 - hinulaang tagapagpahiwatig; a at b - mga coefficient; Ang X ay simbolo ng oras.

Ang pagkalkula ng mga coefficient a at b ay isinasagawa ayon sa mga sumusunod na formula:

kung saan, Uf - ang aktwal na mga halaga ng isang bilang ng mga dinamika; n ay ang bilang ng mga antas sa serye ng oras;

Ang pag-smoothing ng time series sa pamamagitan ng least squares na pamamaraan ay nagsisilbing ipakita ang mga pattern ng pagbuo ng phenomenon na pinag-aaralan. Sa analytical expression ng trend, ang oras ay itinuturing bilang isang independent variable, at ang mga level ng series ay gumaganap bilang isang function ng independent variable na ito.

Ang pag-unlad ng isang kababalaghan ay hindi nakasalalay sa kung gaano karaming mga taon ang lumipas mula sa simula ng sandali, ngunit sa kung anong mga kadahilanan ang nakaimpluwensya sa pag-unlad nito, kung saan direksyon at kung anong intensity. Samakatuwid, malinaw na ang pag-unlad ng isang kababalaghan sa oras ay lumilitaw bilang isang resulta ng pagkilos ng mga salik na ito.

Tamang pagtatatag ng uri ng curve, ang uri ng analytical dependence sa oras ay isa sa pinakamahirap na gawain ng pre-predictive analysis. .

Ang pagpili ng uri ng function na naglalarawan sa trend, ang mga parameter na kung saan ay tinutukoy ng hindi bababa sa mga parisukat na paraan, ay ginanap sa karamihan ng mga kaso empirically, sa pamamagitan ng pagbuo ng isang bilang ng mga function at paghahambing ng mga ito sa bawat isa sa pamamagitan ng halaga ng mean square error. kinakalkula ng formula:

kung saan ang Uf - ang aktwal na mga halaga ng isang bilang ng mga dinamika; Ur - kinakalkula (pinakinis) na mga halaga ng isang bilang ng mga dinamika; n ay ang bilang ng mga antas sa serye ng oras; ang p ay ang bilang ng mga parameter na tinukoy sa mga formula na naglalarawan sa trend (kahiligan ng pag-unlad).

Mga disadvantages ng least squares method :

  • kapag sinusubukang ilarawan ang pinag-aralan na economic phenomenon gamit ang isang mathematical equation, ang forecast ay magiging tumpak sa maikling panahon at ang regression equation ay dapat muling kalkulahin kapag may bagong impormasyon;
  • ang pagiging kumplikado ng pagpili ng equation ng regression, na nalulusaw kapag gumagamit ng mga tipikal na programa sa computer.

Isang halimbawa ng paggamit ng paraan ng least squares upang bumuo ng forecast

Gawain ... Mayroong data na nagpapakita ng unemployment rate sa rehiyon,%

  • Bumuo ng pagtataya ng rate ng kawalan ng trabaho sa rehiyon para sa mga buwan ng Nobyembre, Disyembre, Enero gamit ang mga sumusunod na pamamaraan: moving average, exponential smoothing, least squares.
  • Kalkulahin ang mga pagkakamali ng mga nakuhang hula gamit ang bawat pamamaraan.
  • Ihambing ang mga resulta na nakuha, gumawa ng mga konklusyon.

Pinakamababang mga parisukat na solusyon

Para sa solusyon, bubuo kami ng isang talahanayan kung saan gagawa kami mga kinakailangang kalkulasyon:

ε = 28.63 / 10 = 2.86% katumpakan ng hula mataas.

Konklusyon : Paghahambing ng mga resultang nakuha sa mga kalkulasyon moving average na paraan , exponential smoothing at sa pamamagitan ng paraan ng hindi bababa sa mga parisukat, maaari nating sabihin na ang average na kamag-anak na error sa mga kalkulasyon sa pamamagitan ng exponential smoothing method ay nasa loob ng hanay na 20-50%. Nangangahulugan ito na ang katumpakan ng hula sa kasong ito ay kasiya-siya lamang.

Sa una at ikatlong mga kaso, ang katumpakan ng pagtataya ay mataas, dahil ang average na kamag-anak na error ay mas mababa sa 10%. Ngunit ang moving average na paraan ay naging posible upang makakuha ng higit pa maaasahang resulta(pagtataya para sa Nobyembre - 1.52%, pagtataya para sa Disyembre - 1.53%, pagtataya para sa Enero - 1.49%), dahil ang average na kamag-anak na error kapag ginagamit ang pamamaraang ito ay ang pinakamaliit - 1.13%.

Pinakamababang parisukat na paraan

Iba pang mga artikulo sa paksang ito:

Listahan ng mga mapagkukunang ginamit

  1. Mga rekomendasyong pang-agham at pamamaraan sa pagsusuri ng mga panganib sa lipunan at mga hamon sa pagtataya, pagbabanta at mga kahihinatnan sa lipunan. Russian State Social University. Moscow. 2010;
  2. Vladimirova L.P. Pagtataya at pagpaplano sa mga kondisyon ng pamilihan: Textbook. allowance. M .: Publishing House "Dashkov and Co", 2001;
  3. Novikova N.V., Pozdeeva O.G. Pagtataya sa Pambansang Ekonomiya: Gabay sa Pagtuturo. Yekaterinburg: Ural Publishing House. estado ekonomiya. Unibersidad, 2007;
  4. Slutskin L.N. MBA na kurso sa pagtataya sa negosyo. M .: Alpina Business Books, 2006.

programa ng OLS

Ipasok ang data

Data at approximation y = a + b x

i- numero ng pang-eksperimentong punto;
x i- ang halaga ng nakapirming parameter sa punto i;
y i- ang halaga ng sinusukat na parameter sa punto i;
ω i- bigat ng pagsukat sa isang punto i;
y i, calc.- pagkakaiba sa pagitan ng sinusukat at kinakalkula ng halaga ng regression y sa punto i;
S x i (x i)- pagtatantya ng error x i kapag nagsusukat y sa punto i.

Data at approximation y = k x

i x i y i ω i y i, calc. Δy i S x i (x i)

Mag-click sa graph,

Mga tagubilin para sa gumagamit ng online na programa ng MNK.

Sa field ng data, ilagay ang mga value ng `x` at` y` sa parehong punto ng pagsubok sa bawat hiwalay na linya. Ang mga halaga ay dapat na pinaghihiwalay ng isang character na whitespace (espasyo o tab).

Ang pangatlong halaga ay maaaring ang bigat ng puntong `w`. Kung ang bigat ng punto ay hindi tinukoy, kung gayon ito ay katumbas ng isa. Sa napakaraming kaso, ang mga bigat ng mga pang-eksperimentong punto ay hindi alam o hindi kinakalkula, i.e. lahat ng pang-eksperimentong data ay itinuturing na katumbas. Minsan ang mga timbang sa pinag-aralan na hanay ng mga halaga ay ganap na hindi katumbas at maaaring kalkulahin sa teorya. Halimbawa, sa spectrophotometry, maaaring kalkulahin ang mga timbang gamit ang mga simpleng formula, bagama't karaniwang napapabayaan ito ng lahat upang mabawasan ang mga gastos sa paggawa.

Maaaring i-paste ang data sa clipboard mula sa isang office suite spreadsheet gaya ng Excel mula sa Microsoft Office o Calc mula sa Open Office. Upang gawin ito, sa spreadsheet, piliin ang hanay ng data na kokopyahin, kopyahin sa clipboard at i-paste ang data sa field ng data sa pahinang ito.

Para sa pagkalkula sa pamamagitan ng paraan ng hindi bababa sa mga parisukat, hindi bababa sa dalawang puntos ang kinakailangan upang matukoy ang dalawang coefficients `b` - ang tangent ng slope ng tuwid na linya at` a` - ang halaga na pinutol ng tuwid na linya sa `y ` axis.

Upang matantya ang error ng mga nakalkulang coefficient ng regression, kailangan mong itakda ang bilang ng mga pang-eksperimentong puntos na higit sa dalawa.

Paraan ng least squares (OLS).

Kung mas malaki ang bilang ng mga pang-eksperimentong puntos, mas tumpak ang istatistikal na pagtatantya ng mga koepisyent (dahil sa pagbaba sa koepisyent ng Mag-aaral) at mas malapit ang pagtatantya sa pagtatantya ng pangkalahatang sample.

Ang pagkuha ng mga halaga sa bawat pang-eksperimentong punto ay kadalasang labor intensive, kaya madalas mayroong isang trade-off na bilang ng mga eksperimento na nagbibigay ng isang natutunaw na pagtatantya at hindi humahantong sa labis na mga gastos sa paggawa. Bilang isang patakaran, ang bilang ng mga pang-eksperimentong punto para sa mga linear na hindi bababa sa mga parisukat na dependence na may dalawang coefficient ay pinipili sa rehiyon na 5-7 puntos.

Maikling teorya ng pamamaraan ng hindi bababa sa mga parisukat para sa linear dependence

Ipagpalagay na mayroon kaming isang set ng pang-eksperimentong data sa anyo ng mga pares ng mga halaga [`y_i`,` x_i`], kung saan ang `i` ay ang bilang ng isang pang-eksperimentong pagsukat mula 1 hanggang` n`; `y_i` - ang halaga ng sinusukat na halaga sa punto` i`; `x_i` - ang value ng parameter na itinakda namin sa point` i`.

Bilang halimbawa, isaalang-alang ang pagpapatakbo ng batas ng Ohm. Sa pamamagitan ng pagbabago ng boltahe (potensyal na pagkakaiba) sa pagitan ng mga seksyon ng electrical circuit, sinusukat namin ang dami ng kasalukuyang dumadaan sa seksyong ito. Ang pisika ay nagbibigay sa atin ng pag-asa na natagpuan sa eksperimento:

`I = U / R`,
kung saan `I` - kasalukuyang lakas; `R` - paglaban; `U` - boltahe.

Sa kasong ito, ang `y_i` ay ang sinusukat na kasalukuyang halaga, at ang` x_i` ay ang halaga ng boltahe.

Bilang isa pang halimbawa, isaalang-alang ang pagsipsip ng liwanag ng isang solusyon ng isang sangkap sa isang solusyon. Binibigyan tayo ng Chemistry ng formula:

`A = ε l C`,
saan 'A' - optical density solusyon; `ε` - ang transmittance ng solute; `l` - haba ng landas kapag dumaan ang liwanag sa isang cuvette na may solusyon; `C` - konsentrasyon ng solute.

Sa kasong ito, ang `y_i` ay mayroon kaming sinusukat na halaga ng optical density` A`, at ang `x_i` ay ang halaga ng konsentrasyon ng substance na aming itinakda.

Isasaalang-alang namin ang kaso kapag ang relatibong error sa pagtatakda ng `x_i` ay mas mababa kaysa sa relatibong error sa pagsukat ng` y_i`. Ipagpalagay din namin na ang lahat ng nasusukat na halaga `y_i` ay random at normal na ipinamamahagi, ibig sabihin. sundin ang normal na batas sa pamamahagi.

Sa kaso ng isang linear na dependence ng `y` sa` x`, maaari tayong magsulat ng isang theoretical dependence:
`y = a + b x`.

Mula sa isang geometric na punto ng view, ang coefficient `b` ay tumutukoy sa tangent ng anggulo ng inclination ng linya sa `x` axis, at ang coefficient `a` - ang halaga ng` y` sa punto ng intersection ng linya na may axis na `y` (sa` x = 0`).

Paghahanap ng mga parameter ng linya ng regression.

Sa eksperimento, ang mga sinusukat na halaga ng `y_i` ay hindi maaaring eksaktong namamalagi sa teoretikal na tuwid na linya dahil sa mga error sa pagsukat na palaging likas sa totoong buhay... Samakatuwid, ang isang linear na equation ay dapat na kinakatawan ng isang sistema ng mga equation:
`y_i = a + b x_i + ε_i` (1),
kung saan ang `ε_i` ay ang hindi kilalang error sa pagsukat ng` y` sa `i`-th experiment.

Ang pag-asa (1) ay tinatawag din regression, ibig sabihin. pag-asa ng dalawang halaga mula sa bawat isa na may istatistikal na kahalagahan.

Ang gawain ng pagpapanumbalik ng dependence ay hanapin ang mga coefficient na `a` at` b` mula sa mga pang-eksperimentong punto [`y_i`,` x_i`].

Upang mahanap ang mga coefficient na `a` at` b`, ito ay karaniwang ginagamit hindi bababa sa parisukat na paraan(OLS). Ito ay isang espesyal na kaso ng prinsipyo ng maximum na posibilidad.

Isulat nating muli ang (1) bilang `ε_i = y_i - a - b x_i`.

Pagkatapos ang kabuuan ng mga parisukat ng mga error ay magiging
`Φ = kabuuan_ (i = 1) ^ (n) ε_i ^ 2 = kabuuan_ (i = 1) ^ (n) (y_i - a - b x_i) ^ 2`. (2)

Ang prinsipyo ng OLS (least squares method) ay upang i-minimize ang kabuuan (2) na may kinalaman sa mga parameter na `a` at` b`.

Naabot ang minimum kapag ang mga partial derivatives ng kabuuan (2) na may kinalaman sa mga coefficient na `a` at` b` ay katumbas ng zero:
`frac (partial Φ) (partial a) = frac (partial sum_ (i = 1) ^ (n) (y_i - a - b x_i) ^ 2) (partial a) = 0`
`frac (partial Φ) (partial b) = frac (partial sum_ (i = 1) ^ (n) (y_i - a - b x_i) ^ 2) (partial b) = 0`

Ang pagpapalawak ng mga derivatives, nakakakuha kami ng isang sistema ng dalawang equation na may dalawang hindi alam:
`sum_ (i = 1) ^ (n) (2a + 2bx_i - 2y_i) = sum_ (i = 1) ^ (n) (a + bx_i - y_i) = 0`
`sum_ (i = 1) ^ (n) (2bx_i ^ 2 + 2ax_i - 2x_iy_i) = sum_ (i = 1) ^ (n) (bx_i ^ 2 + ax_i - x_iy_i) = 0`

Binuksan namin ang mga bracket at inililipat ang mga kabuuan na independiyente sa mga hinahangad na koepisyent sa kabilang kalahati, nakakakuha kami ng isang sistema ng mga linear na equation:
`sum_ (i = 1) ^ (n) y_i = a n + b sum_ (i = 1) ^ (n) bx_i`
`sum_ (i = 1) ^ (n) x_iy_i = a sum_ (i = 1) ^ (n) x_i + b sum_ (i = 1) ^ (n) x_i ^ 2`

Ang paglutas ng resultang sistema, hinahanap namin ang mga formula para sa mga coefficient na `a` at` b`:

`a = frac (sum_ (i = 1) ^ (n) y_i sum_ (i = 1) ^ (n) x_i ^ 2 - sum_ (i = 1) ^ (n) x_i sum_ (i = 1) ^ (n ) x_iy_i) (n kabuuan_ (i = 1) ^ (n) x_i ^ 2 - (sum_ (i = 1) ^ (n) x_i) ^ 2) `(3.1)

`b = frac (n sum_ (i = 1) ^ (n) x_iy_i - sum_ (i = 1) ^ (n) x_i sum_ (i = 1) ^ (n) y_i) (n sum_ (i = 1) ^ (n) x_i ^ 2 - (sum_ (i = 1) ^ (n) x_i) ^ 2) `(3.2)

Ang mga formula na ito ay may mga solusyon kapag `n> 1` (ang linya ay maaaring iguhit gamit ang hindi bababa sa 2 puntos) at kapag ang determinant` D = n sum_ (i = 1) ^ (n) x_i ^ 2 - (sum_ (i = 1) ) ^ (n) x_i) ^ 2! = 0`, ibig sabihin kapag ang mga puntong `x_i` sa eksperimento ay naiiba (ibig sabihin, kapag ang linya ay hindi patayo).

Pagtatantya ng mga pagkakamali ng mga coefficient ng linya ng regression

Para sa mas tumpak na pagtatantya ng error sa pagkalkula ng mga coefficient na `a` at` b`, ito ay kanais-nais malaking bilang ng pang-eksperimentong mga punto. Kapag `n = 2`, imposibleng matantya ang error ng coefficients, dahil ang tinatayang linya ay dadaan sa dalawang punto nang hindi malabo.

Ang error ng random variable na `V` ay tinutukoy ang batas ng akumulasyon ng mga pagkakamali
`S_V ^ 2 = sum_ (i = 1) ^ p (frac (partial f) (partial z_i)) ^ 2 S_ (z_i) ^ 2`,
kung saan ang `p` ay ang bilang ng mga parameter` z_i` na may error na `S_ (z_i)` na nakakaapekto sa error na `S_V`;
`f` - function ng dependence ng` V` sa `z_i`.

Isulat natin ang batas ng akumulasyon ng mga pagkakamali para sa pagkakamali ng mga coefficient na `a` at` b`
`S_a ^ 2 = sum_ (i = 1) ^ (n) (frac (partial a) (partial y_i)) ^ 2 S_ (y_i) ^ 2 + sum_ (i = 1) ^ (n) (frac (partial a ) (partial x_i)) ^ 2 S_ (x_i) ^ 2 = S_y ^ 2 sum_ (i = 1) ^ (n) (frac (partial a) (partial y_i)) ^ 2 `,
`S_b ^ 2 = sum_ (i = 1) ^ (n) (frac (partial b) (partial y_i)) ^ 2 S_ (y_i) ^ 2 + sum_ (i = 1) ^ (n) (frac (partial b ) (partial x_i)) ^ 2 S_ (x_i) ^ 2 = S_y ^ 2 sum_ (i = 1) ^ (n) (frac (partial b) (partial y_i)) ^ 2 `,
mula noon `S_ (x_i) ^ 2 = 0` (nagpareserba kami kanina na bale-wala ang error ng` x`).

`S_y ^ 2 = S_ (y_i) ^ 2` - error (variance, square of standard deviation) sa pagsukat` y`, sa pag-aakalang pare-pareho ang error para sa lahat ng value ng `y`.

Ang pagpapalit ng mga formula para sa pagkalkula ng `a` at` b` sa nakuha na mga expression, nakukuha namin

`S_a ^ 2 = S_y ^ 2 frac (sum_ (i = 1) ^ (n) (sum_ (i = 1) ^ (n) x_i ^ 2 - x_i sum_ (i = 1) ^ (n) x_i) ^ 2 ) (D ^ 2) = S_y ^ 2 frac ((n sum_ (i = 1) ^ (n) x_i ^ 2 - (sum_ (i = 1) ^ (n) x_i) ^ 2) sum_ (i = 1) ^ (n) x_i ^ 2) (D ^ 2) = S_y ^ 2 frac (sum_ (i = 1) ^ (n) x_i ^ 2) (D) `(4.1)

`S_b ^ 2 = S_y ^ 2 frac (sum_ (i = 1) ^ (n) (n x_i - sum_ (i = 1) ^ (n) x_i) ^ 2) (D ^ 2) = S_y ^ 2 frac ( n (n sum_ (i = 1) ^ (n) x_i ^ 2 - (sum_ (i = 1) ^ (n) x_i) ^ 2)) (D ^ 2) = S_y ^ 2 frac (n) (D) `(4.2)

Sa karamihan ng mga eksperimento sa totoong buhay, ang halaga ng `Sy` ay hindi sinusukat. Upang gawin ito, kinakailangan na magsagawa ng ilang magkakatulad na sukat (mga eksperimento) sa isa o ilang mga punto ng plano, na nagpapataas ng oras (at posibleng gastos) ng eksperimento. Samakatuwid, karaniwang ipinapalagay na ang paglihis ng `y` mula sa linya ng regression ay maaaring ituring na random. Ang pagtatantya ng variance `y` sa kasong ito ay kinakalkula ng formula.

`S_y ^ 2 = S_ (y, pahinga) ^ 2 = frac (sum_ (i = 1) ^ n (y_i - a - b x_i) ^ 2) (n-2)`.

Lumilitaw ang divisor na `n-2` dahil binawasan namin ang bilang ng mga degree ng kalayaan dahil sa pagkalkula ng dalawang coefficient para sa parehong sample ng pang-eksperimentong data.

Ang pagtatantya na ito ay tinatawag ding natitirang variance na nauugnay sa linya ng regression `S_ (y, rest) ^ 2`.

Ang pagtatasa ng kahalagahan ng mga coefficient ay isinasagawa ayon sa pamantayan ng Mag-aaral

`t_a = frac (| a |) (S_a)`, `t_b = frac (| b |) (S_b)`

Kung ang nakalkulang pamantayan `t_a`,` t_b` ay mas mababa kaysa sa talaan na pamantayan `t (P, n-2)`, kung gayon ay ituturing na ang kaukulang coefficient ay hindi naiiba nang malaki mula sa zero na may ibinigay na posibilidad na `P`.

Upang masuri ang kalidad ng paglalarawan ng isang linear na relasyon, maaari mong paghambingin ang `S_ (y, rest) ^ 2` at` S_ (bar y) `kamag-anak sa mean gamit ang Fisher's test.

`S_ (bar y) = frac (sum_ (i = 1) ^ n (y_i - bar y) ^ 2) (n-1) = frac (sum_ (i = 1) ^ n (y_i - (sum_ (i = 1) ^ n y_i) / n) ^ 2) (n-1) `- sample na pagtatantya ng variance` y` na nauugnay sa mean.

Upang masuri ang pagiging epektibo ng regression equation para sa paglalarawan ng dependence, kinakalkula ang Fisher coefficient
`F = S_ (bar y) / S_ (y, pahinga) ^ 2`,
na kung saan ay inihambing sa talahanayan Fisher's coefficient `F (p, n-1, n-2)`.

Kung `F> F (P, n-1, n-2)`, ang pagkakaiba sa pagitan ng paglalarawan ng dependence `y = f (x)` gamit ang regression equation at ang paglalarawan gamit ang mean ay itinuturing na makabuluhang istatistika sa posibilidad na `P`. Yung. inilalarawan ng regression ang relasyon nang mas mahusay kaysa sa scatter ng `y` na may kaugnayan sa mean.

Mag-click sa graph,
upang magdagdag ng mga halaga sa talahanayan

Pinakamababang parisukat na paraan. Ang paraan ng least squares ay nauunawaan bilang ang pagpapasiya ng hindi kilalang mga parameter a, b, c, ang pinagtibay na functional dependence

Ang pinakamababang paraan ng mga parisukat ay nauunawaan bilang ang pagpapasiya ng hindi kilalang mga parameter a, b, c,... tinatanggap na functional dependence

y = f (x, a, b, c, ...),

na magbibigay ng pinakamababang mean square (variance) na error

, (24)

kung saan x i, y i - isang set ng mga pares ng mga numero na nakuha mula sa eksperimento.

Dahil ang kundisyon para sa extremum ng isang function ng ilang variable ay ang kondisyon ng pagkakapantay-pantay sa zero ng mga partial derivatives nito, ang mga parameter a, b, c,... ay tinutukoy mula sa sistema ng mga equation:

; ; ; … (25)

Dapat alalahanin na ang paraan ng hindi bababa sa mga parisukat ay ginagamit upang pumili ng mga parameter pagkatapos ng uri ng pag-andar y = f (x) tinukoy.

Kung mula sa mga teoretikal na pagsasaalang-alang imposibleng gumawa ng anumang mga konklusyon tungkol sa kung ano ang dapat na empirikal na pormula, kung gayon ang isa ay kailangang magabayan ng mga visual na representasyon, pangunahin ang isang graphical na representasyon ng naobserbahang data.

Sa pagsasagawa, kadalasang limitado ang mga ito sa mga sumusunod na uri ng pag-andar:

1) linear ;

2) parisukat a.

Pinakamababang parisukat na paraan

Sa huling aralin ng paksa, makikilala natin ang pinakatanyag na aplikasyon FNP, na nakakahanap ng pinakamalawak na aplikasyon sa iba't ibang larangan ng agham at kasanayan. Ito ay maaaring pisika, kimika, biology, ekonomiya, sosyolohiya, sikolohiya, at iba pa, at iba pa. Sa pamamagitan ng kalooban ng kapalaran, madalas kong kailangang harapin ang ekonomiya, at samakatuwid ngayon ay bibigyan kita ng tiket kamangha-manghang bansa may karapatan Econometrics=) ... Paanong ayaw mo?! Napakaganda doon - kailangan mo lang magdesisyon! ... Ngunit ang malamang na gusto mo ay matutunan kung paano lutasin ang mga problema paraan ng least squares... At lalo na ang masigasig na mga mambabasa ay matututo kung paano lutasin ang mga ito hindi lamang nang walang kapintasan, ngunit napakabilis din ;-) Ngunit una pangkalahatang pahayag ng problema+ kaugnay na halimbawa:

Hayaan sa ilang lugar ng paksa ang mga tagapagpahiwatig ay sinisiyasat na may isang quantitative expression. Kasabay nito, mayroong bawat dahilan upang maniwala na ang tagapagpahiwatig ay nakasalalay sa tagapagpahiwatig. Ang pagpapalagay na ito ay maaaring parehong siyentipikong hypothesis at batay sa elementarya na sentido komun. Ang pag-iwan sa agham, gayunpaman, at paggalugad ng mas maraming katakam-takam na lugar - lalo na ang mga grocery store. Ipahiwatig natin sa pamamagitan ng:

- retail space ng isang grocery store, sq.m.,
- taunang turnover ng grocery store, mln.

Ito ay ganap na malinaw na ang mas malaki ang lugar ng tindahan, mas magiging turnover nito sa karamihan ng mga kaso.

Ipagpalagay na pagkatapos mag-obserba / mag-eksperimento / magkalkula / sumayaw gamit ang isang tamburin, mayroon kaming numerical data sa aming pagtatapon:

Sa mga grocery store, sa palagay ko ang lahat ay malinaw: - ito ang lugar ng 1st store, - ang taunang turnover nito, - ang lugar ng 2nd store, - ang taunang turnover nito, atbp. Sa pamamagitan ng paraan, hindi kinakailangan na magkaroon ng access sa mga classified na materyales - ang isang medyo tumpak na pagtatantya ng turnover ay maaaring makuha sa pamamagitan ng mga istatistika ng matematika... Gayunpaman, huwag tayong magambala, ang kurso ng komersyal na espiya - ito ay binabayaran na =)

Ang tabular data ay maaari ding isulat sa anyo ng mga tuldok at ilarawan sa karaniwan para sa atin Sistema ng Cartesian .

Sasagutin namin mahalagang tanong: ilang puntos ang kailangan mo para sa isang pag-aaral ng husay?

Ang mas malaki, mas mabuti. Ang pinakamababang pinapayagang hanay ay binubuo ng 5-6 puntos. Bilang karagdagan, sa maliit na halaga ng data, hindi maaaring isama ng sample ang mga "anomalyang" resulta. Kaya, halimbawa, ang isang maliit na elite na tindahan ay maaaring makatulong sa pamamagitan ng mga order ng magnitude na higit pang "mga kasamahan nito", at sa gayon ay distorting ang pangkalahatang pattern na kailangang matagpuan!



Upang ilagay ito nang simple - kailangan nating pumili ng isang function, iskedyul na pumasa nang mas malapit hangga't maaari sa mga puntos ... Ang function na ito ay tinatawag na tinatantiya (approximation - approximation) o teoretikal na pag-andar ... Sa pangkalahatan, may lalabas kaagad na halatang "challenger" - isang mataas na antas ng polynomial na ang graph ay dumadaan sa LAHAT ng mga puntos. Ngunit ang pagpipiliang ito ay mahirap, at kadalasan ay hindi tama. (dahil ang tsart ay "paikot" sa lahat ng oras at hindi maganda ang pagsasalamin sa pangunahing kalakaran).

Kaya, ang hinahangad na function ay dapat na sapat na simple at sa parehong oras ay sumasalamin sa pagtitiwala nang sapat. Tulad ng maaari mong hulaan, ang isa sa mga pamamaraan para sa paghahanap ng mga naturang function ay tinatawag paraan ng least squares... Una, suriin natin ang kakanyahan nito pangkalahatang pananaw... Hayaan ang ilang function na humigit-kumulang sa pang-eksperimentong data:


Paano suriin ang katumpakan ng pagtatantya na ito? Kalkulahin natin ang mga pagkakaiba (paglihis) sa pagitan ng eksperimental at mga functional na halaga (nag-aaral ng drawing)... Ang unang naiisip na nasa isip ay ang tantiyahin kung gaano kalaki ang kabuuan, ngunit ang problema ay ang mga pagkakaiba ay maaaring negatibo. (Halimbawa, ) at ang mga paglihis bilang resulta ng naturang pagsusuma ay magkakansela sa isa't isa. Samakatuwid, bilang isang pagtatantya ng katumpakan ng approximation, ito ay nagmamakaawa na tanggapin ang kabuuan mga module mga paglihis:

o gumuho: (bigla, sino ang hindi nakakaalam: Ay ang sum icon, at - auxiliary variable - "counter", na kumukuha ng mga halaga mula 1 hanggang ) .

Ang paglapit sa mga pang-eksperimentong punto na may iba't ibang mga pag-andar, makakakuha tayo ng iba't ibang mga halaga, at malinaw kung saan mas kaunti ang kabuuan na ito - ang pagpapaandar na iyon ay mas tumpak.

Ang ganitong paraan ay umiiral at ito ay tinatawag hindi bababa sa modulus na pamamaraan... Gayunpaman, sa pagsasagawa, ito ay naging mas laganap. hindi bababa sa parisukat na paraan, kung saan ang mga posibleng negatibong halaga ay inalis hindi ng modulus, ngunit sa pamamagitan ng pag-squaring ng mga deviations:



, pagkatapos kung saan ang mga pagsisikap ay nakadirekta sa pagpili ng naturang function upang ang kabuuan ng mga parisukat ng mga deviations ay kasing liit hangga't maaari. Sa totoo lang, kaya ang pangalan ng pamamaraan.

At ngayon ay babalik tayo sa isa pa mahalagang punto: tulad ng nabanggit sa itaas, ang napiling function ay dapat na medyo simple - ngunit mayroon ding maraming mga naturang function: linear , hyperbolic , exponential , logarithmic , parisukat atbp. At, siyempre, dito gusto ko agad na "bawasan ang larangan ng aktibidad." Aling klase ng mga function ang pipiliin para sa pananaliksik? Primitive ngunit mabisang pagtanggap:

- Ang pinakamadaling paraan upang gumuhit ng mga puntos sa pagguhit at pag-aralan ang kanilang lokasyon. Kung sila ay nasa isang tuwid na linya, dapat mong hanapin equation ng isang tuwid na linya na may pinakamainam na halaga at. Sa madaling salita, ang gawain ay upang mahanap ang GANITONG mga coefficient - upang ang kabuuan ng mga parisukat ng mga deviations ay ang pinakamaliit.

Kung ang mga punto ay matatagpuan, halimbawa, kasama hyperbole, pagkatapos ito ay isang priori malinaw na ang isang linear function ay magbibigay ng isang masamang approximation. Sa kasong ito, hinahanap namin ang pinaka "kanais-nais" na mga coefficient para sa hyperbola equation - ang mga nagbibigay ng pinakamababang kabuuan ng mga parisukat .

Ngayon, tandaan na sa parehong mga kaso na pinag-uusapan natin mga function ng dalawang variable na ang mga argumento ay mga parameter ng nais na dependencies:

At sa esensya, kailangan nating lutasin ang isang karaniwang problema - upang mahanap pinakamababang function ng dalawang variable.

Tandaan natin ang ating halimbawa: ipagpalagay na ang mga punto ng "store" ay malamang na matatagpuan sa isang tuwid na linya at mayroong lahat ng dahilan upang maniwala na linear na relasyon turnover mula sa retail space. Hanapin natin ang GANOONG mga coefficient na "a" at "bs" upang ang kabuuan ng mga parisukat ng mga deviations ay ang pinakamaliit. Ang lahat ay gaya ng dati - una Mga partial derivative sa unang order... Ayon kay tuntunin ng linearity maaari kang mag-iba nang direkta sa ilalim ng icon ng halaga:

Kung nais mong gamitin ang impormasyong ito para sa isang sanaysay o libro ng kurso, ako ay lubos na nagpapasalamat para sa link sa listahan ng mga mapagkukunan, makikita mo ang mga detalyadong kalkulasyon sa ilang mga lugar:

Bumuo tayo ng isang karaniwang sistema:

Binabawasan namin ang bawat equation ng "dalawa" at, bilang karagdagan, "hatiin" ang mga kabuuan:

Tandaan : Suriin sa iyong sarili kung bakit maaaring kunin ang "a" at "bie" para sa sum icon. Sa pamamagitan ng paraan, pormal na ito ay maaaring gawin sa kabuuan

Isulat muli natin ang system sa isang "inilapat" na form:

pagkatapos kung saan ang algorithm para sa paglutas ng aming problema ay nagsisimulang iguguhit:

Alam ba natin ang mga coordinate ng mga puntos? Alam namin. Mga halaga mahahanap natin? Madali. Binubuo namin ang pinakasimpleng sistema ng dalawang linear na equation sa dalawang hindi alam("A" at "bh"). Niresolba namin ang sistema, halimbawa, Pamamaraan ni Cramer, bilang isang resulta kung saan nakakakuha kami ng isang nakatigil na punto. Sinusuri sapat na kondisyon para sa extremum, masisiguro ng isa na sa puntong ito ang function eksaktong nakakamit pinakamababa... Ang pag-verify ay nauugnay sa mga karagdagang kalkulasyon at samakatuwid ay iiwan namin ito sa likod ng mga eksena. (kung kinakailangan, ang nawawalang frame ay maaaring tingnandito ) ... Ginagawa namin ang pangwakas na konklusyon:

Function ang pinakamahusay na paraan (hindi bababa sa kumpara sa anumang iba pang linear function) pinalalapit ang mga pang-eksperimentong punto ... Sa halos pagsasalita, ang graph nito ay tumatakbo nang mas malapit hangga't maaari sa mga puntong ito. Sa tradisyon econometrics ang resultang approximating function ay tinatawag din ipinares na linear regression equation .

Ang problemang isinasaalang-alang ay malaki praktikal na kahalagahan... Sa sitwasyon sa ating halimbawa, ang equation nagbibigay-daan sa iyo upang mahulaan kung ano ang turnover ("Laro") ay nasa tindahan na may isa o ibang halaga ng retail space (ito o ang halagang "x")... Oo, ang hula na nakuha ay magiging isang hula lamang, ngunit sa maraming mga kaso ito ay magiging tumpak.

Susuriin ko lamang ang isang problema sa "tunay" na mga numero, dahil walang mga kahirapan dito - lahat ng mga kalkulasyon ay nasa antas ng kurikulum ng 7-8 grade school. Sa 95 porsyento ng mga kaso, hihilingin sa iyo na makahanap lamang ng isang linear na function, ngunit sa pinakadulo ng artikulo ay ipapakita ko na hindi na mahirap hanapin ang mga equation ng pinakamainam na hyperbola, exponent at ilang iba pang mga function.

Sa katunayan, nananatili itong ibigay ang ipinangakong mga buns - upang matutunan mo kung paano malutas ang mga naturang halimbawa hindi lamang tumpak, ngunit mabilis din. Maingat naming pinag-aaralan ang pamantayan:

Gawain

Bilang resulta ng pag-aaral ng ugnayan sa pagitan ng dalawang tagapagpahiwatig, ang mga sumusunod na pares ng mga numero ay nakuha:

Gamit ang paraan ng least squares, hanapin ang linear function na pinakamahusay na tinatantya ang empirical (nakaranas) datos. Gumawa ng drawing kung saan, sa isang Cartesian rectangular coordinate system, mag-plot ng mga pang-eksperimentong punto at isang graph ng approximating function. ... Hanapin ang kabuuan ng mga parisukat ng mga paglihis sa pagitan ng empirical at theoretical na mga halaga. Alamin kung ang pag-andar ay magiging mas mahusay (mula sa punto ng view ng paraan ng hindi bababa sa mga parisukat) mag-zoom in sa mga pang-eksperimentong punto.

Tandaan na ang mga kahulugan ng "x" ay natural, at ito ay may katangian na makabuluhang kahulugan, na pag-uusapan ko sa ibang pagkakataon; ngunit sila, siyempre, ay maaaring maging fractional. Bilang karagdagan, depende sa nilalaman ng isang partikular na problema, ang parehong "x" at "laro" na mga halaga ay maaaring ganap o bahagyang negatibo. Well, mayroon kaming "walang mukha" na gawain, at sinimulan namin ito solusyon:

Nahanap namin ang mga coefficient ng pinakamainam na function bilang isang solusyon sa system:

Para sa kapakanan ng isang mas compact na notasyon, ang "counter" na variable ay maaaring tanggalin, dahil malinaw na na ang pagsusuma ay isinasagawa mula 1 hanggang.

Ito ay mas maginhawa upang kalkulahin ang mga kinakailangang halaga sa isang tabular form:


Maaaring isagawa ang mga kalkulasyon sa isang microcalculator, ngunit mas mahusay na gumamit ng Excel - parehong mas mabilis at walang mga error; manood ng maikling video:

Kaya, nakukuha namin ang mga sumusunod ang sistema:

Dito maaari mong i-multiply ang pangalawang equation sa 3 at ibawas ang 2nd mula sa 1st equation term-by-term... Ngunit ito ay swerte - sa pagsasagawa, ang mga sistema ay madalas na hindi isang regalo, at sa mga ganitong kaso nakakatipid ito Pamamaraan ni Cramer:
, na nangangahulugan na ang system ay may natatanging solusyon.

Suriin natin. Naiintindihan ko na ayaw ko, ngunit bakit laktawan ang mga error kung saan ganap na maiiwasan ang mga ito? Pinapalitan namin ang nahanap na solusyon sa kaliwang bahagi ng bawat equation ng system:

Ang kanang bahagi ng mga katumbas na equation ay nakuha, na nangangahulugan na ang sistema ay nalutas nang tama.

Kaya, ang kinakailangang approximating function: - mula sa ng lahat ng linear function ito ay siya na tinatantya ang pang-eksperimentong data sa pinakamahusay na paraan.

Unlike tuwid dependence ng turnover ng tindahan sa lugar nito, ang dependence na natagpuan ay baliktarin (ang prinsipyo "mas marami - mas kaunti"), at ang katotohanang ito ay agad na inihayag ng negatibo dalisdis... Function nagpapaalam sa amin na sa pagtaas ng isang tiyak na tagapagpahiwatig ng 1 yunit, ang halaga ng umaasa na tagapagpahiwatig ay bumababa karaniwan ng 0.65 units. Gaya nga ng kasabihan, mas mataas ang presyo ng bakwit, mas mababa ang ibinebenta nito.

Upang i-plot ang graph ng approximating function, makikita natin ang dalawa sa mga value nito:

at isagawa ang pagguhit:

Ang itinayong linya ay tinatawag linya ng trend (ibig sabihin, isang linear trend line, ibig sabihin, sa pangkalahatang kaso, ang isang trend ay hindi nangangahulugang isang tuwid na linya)... Ang bawat tao'y pamilyar sa expression na "maging nasa trend", at sa palagay ko ang terminong ito ay hindi nangangailangan ng karagdagang mga komento.

Kalkulahin natin ang kabuuan ng mga parisukat ng mga paglihis sa pagitan ng empirical at theoretical values. Sa geometriko, ito ay ang kabuuan ng mga parisukat ng mga haba ng mga segment na "pulang-pula". (dalawa sa mga ito ay napakaliit na hindi mo makita ang mga ito).

Ibuod natin ang mga kalkulasyon sa isang talahanayan:


Maaari silang muling gawin nang manu-mano, kung sakaling magbibigay ako ng isang halimbawa para sa unang punto:

ngunit mas mahusay na kumilos sa isang kilalang paraan:

Ulitin natin: ano ang kahulugan ng nakuhang resulta? Mula sa ng lahat ng linear function function ang tagapagpahiwatig ay ang pinakamaliit, iyon ay, sa pamilya nito ito ang pinakamahusay na pagtatantya. At dito, sa pamamagitan ng paraan, ang huling tanong ng problema ay hindi sinasadya: paano kung ang iminungkahing exponential function mas mabuti bang tantiyahin ang mga pang-eksperimentong punto?

Hanapin natin ang katumbas na kabuuan ng mga parisukat ng mga paglihis - upang makilala, itatalaga ko ang mga ito sa titik na "epsilon". Ang pamamaraan ay eksaktong pareho:


At muli, para lamang sa bawat bumbero, mga kalkulasyon para sa unang punto:

Sa Excel, ginagamit namin ang karaniwang function EXP (tingnan ang Excel Help para sa syntax).

Konklusyon:, na nangangahulugan na ang exponential function ay tinatantya ang mga pang-eksperimentong puntos na mas malala kaysa sa tuwid na linya .

Ngunit dito dapat tandaan na ang "mas malala" ay hindi pa ibig sabihin, ano ang mali. Ngayon ay na-plot ko na ang exponential function na ito - at malapit din ito sa mga puntos - kaya't kung walang analytical na pananaliksik ay mahirap sabihin kung aling function ang mas tumpak.

Nakumpleto nito ang solusyon, at bumalik ako sa tanong ng mga natural na halaga ng argumento. Sa iba't ibang pag-aaral, bilang panuntunan, pang-ekonomiya o sosyolohikal, natural na "xes" na bilang ng mga buwan, taon o iba pang pantay na agwat ng oras. Isaalang-alang, halimbawa, ang isang problemang tulad nito:

Mayroon kaming sumusunod na data sa retail turnover ng tindahan para sa unang kalahati ng taon:

Gamit ang analytical straight line alignment, tukuyin ang turnover para sa Hulyo.

Oo, walang problema: binibilang namin ang mga buwan 1, 2, 3, 4, 5, 6 at ginagamit ang karaniwang algorithm, bilang isang resulta kung saan nakakakuha kami ng isang equation - ang tanging bagay pagdating sa oras ay karaniwang ang titik "te " (bagaman hindi ito kritikal)... Ang resultang equation ay nagpapakita na sa unang kalahati ng taon, ang kalakalan ay tumaas ng average na 27.74 na mga yunit. kada buwan. Kunin ang forecast para sa Hulyo (buwan blg. 7): d.e.

At ang gayong mga gawain - ang kadiliman ay madilim. Ang mga nais ay maaaring gumamit ng karagdagang serbisyo, katulad ng aking Excel calculator (demo na bersyon), na ang nilulutas ang nasuri na problema halos kaagad! Ang gumaganang bersyon ng programa ay magagamit sa kapalit o para sa token.

Sa pagtatapos ng aralin, maikling impormasyon sa paghahanap ng mga dependency ng ilang iba pang uri. Sa totoo lang, walang espesyal na sasabihin, dahil nananatiling pareho ang may prinsipyong diskarte at ang algorithm ng solusyon.

Ipagpalagay natin na ang pagkakaayos ng mga eksperimentong punto ay kahawig ng isang hyperbola. Pagkatapos, upang mahanap ang mga coefficient ng pinakamahusay na hyperbola, kailangan mong hanapin ang minimum ng function - ang mga nais ay maaaring magsagawa ng mga detalyadong kalkulasyon at pumunta sa isang katulad na sistema:

Mula sa isang pormal at teknikal na pananaw, ito ay nakuha mula sa isang "linear" na sistema (italaga natin ito ng "asterisk") pinapalitan ang "x" ng. Well, at ang mga halaga ay kalkulahin, at pagkatapos ay sa pinakamainam na coefficient na "a" at "be" isang hagis ng bato.

Kung mayroong bawat dahilan upang maniwala na ang mga puntos ay matatagpuan sa kahabaan ng isang logarithmic curve, pagkatapos ay upang maghanap para sa pinakamainam na mga halaga at hanapin ang minimum ng function ... Sa pormal, sa system (*) ay dapat mapalitan ng:

Kapag gumagawa ng mga kalkulasyon sa Excel, gamitin ang function LN... Inaamin ko, hindi ako mahihirapang gumawa ng mga calculator para sa bawat isa sa mga kasong isinasaalang-alang, ngunit mas maganda pa rin kung ikaw mismo ang "mag-program" ng mga kalkulasyon. Mga video ng aralin upang makatulong.

Sa exponential dependence, ang sitwasyon ay medyo mas kumplikado. Upang bawasan ang bagay sa linear case, i-logarithm natin ang function at paggamit mga katangian ng logarithm:

Ngayon, ang paghahambing ng nagresultang function na may isang linear function, dumating kami sa konklusyon na sa system (*) ay dapat mapalitan ng, at - ng. Para sa kaginhawaan, tinutukoy namin ang:

Mangyaring tandaan na ang sistema ay nalutas na may kaugnayan sa at, at samakatuwid, pagkatapos mahanap ang mga ugat, dapat mong tandaan na hanapin ang koepisyent mismo.

Upang ilapit ang mga pang-eksperimentong punto pinakamainam na parabola , dapat matagpuan pinakamababang function ng tatlong variable ... Pagkatapos makumpleto ang mga karaniwang aksyon, nakukuha namin ang sumusunod na "gumagana" ang sistema:

Oo, siyempre, mayroong higit pang mga kabuuan dito, ngunit kapag ginagamit ang iyong paboritong application, walang mga paghihirap sa lahat. At sa wakas, sasabihin ko sa iyo kung paano mabilis na suriin at buuin ang nais na linya ng trend gamit ang Excel: lumikha ng isang scatter chart, piliin ang alinman sa mga punto gamit ang mouse at sa pamamagitan ng right click piliin ang opsyon "Magdagdag ng trend line"... Susunod, piliin ang uri ng tsart at sa tab "Mga Parameter" buhayin ang opsyon Ipakita ang Equation Sa Tsart... OK

Gaya ng dati, gusto kong tapusin ang artikulo sa ilang magagandang parirala, at halos i-type ko ang "Maging trend!". Ngunit nagbago ang isip niya sa oras. At hindi dahil ito ay stereotyped. Hindi ko alam kung paano kahit sino, ngunit hindi ko nais na sundin ang na-promote na Amerikano at lalo na ang European trend =) Samakatuwid, nais kong ang bawat isa sa iyo ay sumunod sa iyong sariling linya!

http://www.grandars.ru/student/vysshaya-matematika/metod-naimenshih-kvadratov.html

Ang pinakamababang paraan ng mga parisukat ay isa sa pinakalaganap at pinaka-binuo dahil sa nito pagiging simple at kahusayan ng mga pamamaraan para sa pagtatantya ng mga parameter ng mga linear econometric na modelo... Kasabay nito, ang tiyak na pag-iingat ay dapat gamitin kapag ginagamit ito, dahil ang mga modelo na binuo gamit ang paggamit nito ay maaaring hindi matugunan ang isang bilang ng mga kinakailangan para sa kalidad ng kanilang mga parameter at, bilang isang resulta, ito ay hindi "sapat na mabuti" upang ipakita ang mga pattern ng pag-unlad ng proseso.

Isaalang-alang natin ang pamamaraan para sa pagtantya ng mga parameter ng isang linear econometric na modelo gamit ang least squares method nang mas detalyado. Ang ganitong modelo sa pangkalahatang anyo ay maaaring katawanin ng equation (1.2):

y t = a 0 + a 1 х 1t + ... + a n х nt + ε t.

Ang paunang data kapag tinatantya ang mga parameter a 0, a 1, ..., a n ay ang vector ng mga halaga ng dependent variable y= (y 1, y 2, ..., y T) "at ang matrix ng mga halaga ng mga independiyenteng variable

kung saan ang unang hanay ng mga tumutugma sa koepisyent ng modelo.

Ang pamamaraan ng hindi bababa sa mga parisukat ay nakuha ang pangalan nito, na nagpapatuloy mula sa pangunahing prinsipyo, kung saan ang mga pagtatantya ng parameter na nakuha sa batayan nito ay dapat masiyahan: ang kabuuan ng mga parisukat ng error sa modelo ay dapat na minimal.

Mga halimbawa ng paglutas ng mga problema gamit ang least squares method

Halimbawa 2.1. Ang negosyo ng kalakalan ay may isang network ng 12 mga tindahan, ang impormasyon sa mga aktibidad na kung saan ay ipinakita sa talahanayan. 2.1.

Nais malaman ng pamamahala ng kumpanya kung paano nakadepende ang laki ng taunang turnover sa retail space ng tindahan.

Talahanayan 2.1

Numero ng tindahan Taunang turnover, RUB mln Lugar ng kalakalan, libong m 2
19,76 0,24
38,09 0,31
40,95 0,55
41,08 0,48
56,29 0,78
68,51 0,98
75,01 0,94
89,05 1,21
91,13 1,29
91,26 1,12
99,84 1,29
108,55 1,49

Pinakamababang mga parisukat na solusyon. Italaga natin - ang taunang turnover ng ika-store, miln rubles; - lugar ng pagbebenta ng ika-store, libong m 2.

Larawan 2.1. Scatter plot halimbawa 2.1

Upang matukoy ang anyo ng functional na relasyon sa pagitan ng mga variable at bumuo ng isang scatter diagram (Larawan 2.1).

Batay sa scatter diagram, mahihinuha na ang taunang turnover ay positibong nakadepende sa retail space (i.e., y lalago kasabay ng paglago). Ang pinakaangkop na paraan ng functional na komunikasyon ay linear.

Ang impormasyon para sa karagdagang mga kalkulasyon ay ipinakita sa talahanayan. 2.2. Gamit ang paraan ng least squares, tinatantya namin ang mga parameter ng isang linear na one-factor econometric na modelo

Talahanayan 2.2

t y t x 1t y t 2 x 1t 2 x 1t y t
19,76 0,24 390,4576 0,0576 4,7424
38,09 0,31 1450,8481 0,0961 11,8079
40,95 0,55 1676,9025 0,3025 22,5225
41,08 0,48 1687,5664 0,2304 19,7184
56,29 0,78 3168,5641 0,6084 43,9062
68,51 0,98 4693,6201 0,9604 67,1398
75,01 0,94 5626,5001 0,8836 70,5094
89,05 1,21 7929,9025 1,4641 107,7505
91,13 1,29 8304,6769 1,6641 117,5577
91,26 1,12 8328,3876 1,2544 102,2112
99,84 1,29 9968,0256 1,6641 128,7936
108,55 1,49 11783,1025 2,2201 161,7395
S 819,52 10,68 65008,554 11,4058 858,3991
Ang karaniwan 68,29 0,89

Sa ganitong paraan,

Dahil dito, na may pagtaas sa lugar ng pagbebenta ng 1 libong m 2, lahat ng iba pang mga bagay ay pantay, ang average na taunang turnover ay tumataas ng 67.8871 milyong rubles.

Halimbawa 2.2. Napansin ng pamamahala ng kumpanya na ang taunang turnover ay nakasalalay hindi lamang sa retail space ng tindahan (tingnan ang halimbawa 2.1), kundi pati na rin sa average na bilang ng mga bisita. Ang nauugnay na impormasyon ay ipinakita sa talahanayan. 2.3.

Talahanayan 2.3

Solusyon. Italaga natin - ang average na bilang ng mga bisita sa ika na tindahan bawat araw, libong tao.

Upang matukoy ang anyo ng functional na relasyon sa pagitan ng mga variable at bumuo ng isang scatter diagram (Larawan 2.2).

Batay sa scatterplot, mahihinuha na ang taunang turnover ay positibong nakadepende sa average na bilang ng mga bisita bawat araw (i.e., y lalago kasabay ng paglaki). Ang anyo ng functional dependence ay linear.

kanin. 2.2. Scatterplot para sa Halimbawa 2.2

Talahanayan 2.4

t x 2t x 2t 2 y t x 2t x 1t x 2t
8,25 68,0625 163,02 1,98
10,24 104,8575 390,0416 3,1744
9,31 86,6761 381,2445 5,1205
11,01 121,2201 452,2908 5,2848
8,54 72,9316 480,7166 6,6612
7,51 56,4001 514,5101 7,3598
12,36 152,7696 927,1236 11,6184
10,81 116,8561 962,6305 13,0801
9,89 97,8121 901,2757 12,7581
13,72 188,2384 1252,0872 15,3664
12,27 150,5529 1225,0368 15,8283
13,92 193,7664 1511,016 20,7408
S 127,83 1410,44 9160,9934 118,9728
Katamtaman 10,65

Sa pangkalahatan, kinakailangan upang matukoy ang mga parameter ng two-factor econometric model

у t = a 0 + a 1 х 1t + a 2 х 2t + ε t

Ang impormasyong kinakailangan para sa karagdagang mga kalkulasyon ay ipinakita sa talahanayan. 2.4.

Tantyahin natin ang mga parameter ng isang linear na two-factor econometric model gamit ang least squares method.

Sa ganitong paraan,

Ang pagtatantya ng koepisyent = 61.6583 ay nagpapakita na, ang lahat ng iba pang mga bagay ay pantay, na may pagtaas sa lugar ng pagbebenta ng 1 libong m 2, ang taunang paglilipat ay tataas ng average na 61.6583 milyong rubles.

Ang pagtatantya ng koepisyent = 2.2748 ay nagpapakita na, lahat ng iba pang bagay ay pantay, na may pagtaas sa average na bilang ng mga bisita sa bawat 1,000 tao. bawat araw, ang taunang turnover ay tataas ng average na 2.2748 milyong rubles.

Halimbawa 2.3. Gamit ang impormasyong ipinakita sa talahanayan. 2.2 at 2.4, tantyahin ang parameter ng univariate econometric model

kung saan ang nakasentro na halaga ng taunang turnover ng ika na tindahan, milyong rubles; - ang nakasentro na halaga ng average na pang-araw-araw na bilang ng mga bisita sa t-th store, libong tao. (tingnan ang mga halimbawa 2.1-2.2).

Solusyon. Ang karagdagang impormasyon na kinakailangan para sa mga kalkulasyon ay ipinakita sa talahanayan. 2.5.

Talahanayan 2.5

-48,53 -2,40 5,7720 116,6013
-30,20 -0,41 0,1702 12,4589
-27,34 -1,34 1,8023 36,7084
-27,21 0,36 0,1278 -9,7288
-12,00 -2,11 4,4627 25,3570
0,22 -3,14 9,8753 -0,6809
6,72 1,71 2,9156 11,4687
20,76 0,16 0,0348 3,2992
22,84 -0,76 0,5814 -17,413
22,97 3,07 9,4096 70,4503
31,55 1,62 2,6163 51,0267
40,26 3,27 10,6766 131,5387
Halaga 48,4344 431,0566

Gamit ang formula (2.35), nakukuha natin

Sa ganitong paraan,

http://www.cleverstudents.ru/articles/mnk.html

Halimbawa.

Pang-eksperimentong data sa mga halaga ng mga variable X at sa ay ibinigay sa talahanayan.

Bilang resulta ng kanilang pagkakahanay, nakuha ang pag-andar

Gamit hindi bababa sa parisukat na paraan, tantiyahin ang data na ito na may linear na dependence y = ax + b(hanapin ang mga parameter a at b). Alamin kung alin sa dalawang linya ang mas mahusay (sa kahulugan ng pinakamababang paraan ng mga parisukat) ang nagpapapantay sa pang-eksperimentong data. Gumawa ng drawing.

Solusyon.

Sa ating halimbawa n = 5... Pinupuno namin ang talahanayan para sa kaginhawaan ng pagkalkula ng mga halaga na kasama sa mga formula ng nais na mga coefficient.

Ang mga halaga sa ika-apat na hilera ng talahanayan ay nakuha sa pamamagitan ng pagpaparami ng mga halaga ng ika-2 hilera sa mga halaga ng ika-3 hilera para sa bawat numero i.

Ang mga halaga sa ikalimang hilera ng talahanayan ay nakuha sa pamamagitan ng pag-square ng mga halaga ng ika-2 hilera para sa bawat numero i.

Ang mga halaga sa huling hanay ng talahanayan ay ang mga kabuuan ng hilera ng mga halaga.

Ginagamit namin ang mga formula ng pinakamaliit na paraan ng mga parisukat upang mahanap ang mga coefficient a at b... Pinapalitan namin sa kanila ang kaukulang mga halaga mula sa huling hanay ng talahanayan:

Kaya naman, y = 0.165x + 2.184- ang kinakailangang tinatayang tuwid na linya.

Ito ay nananatiling alamin kung alin sa mga linya y = 0.165x + 2.184 o mas mahusay na tinatantya ang orihinal na data, iyon ay, gumawa ng pagtatantya gamit ang least squares na paraan.

Patunay.

Kaya't kapag natagpuan a at b ang function ay tumatagal ng pinakamaliit na halaga, ito ay kinakailangan na sa puntong ito ang matrix ng quadratic form ng second-order differential para sa function ay positibong tiyak. Ipakita natin.

Ang pagkakaiba ng pangalawang order ay may anyo:

Yan ay

Samakatuwid, ang matrix ng quadratic form ay may anyo

at ang mga halaga ng mga elemento ay hindi nakasalalay sa a at b.

Ipakita natin na ang matrix ay positibong tiyak. Ito ay nangangailangan ng mga menor de edad sa sulok na maging positibo.

Corner minor ng unang order ... Ang hindi pagkakapantay-pantay ay mahigpit, dahil ang mga puntos

Nagustuhan mo ba ang artikulo? Ibahagi ito