Stiki

Multivariatna statistična analiza. Uvod v multivariatno statistično analizo. Osnovni pojmi metode faktorske analize, bistvo nalog, ki jih rešuje

Obstajajo situacije, v katerih je bila naključna variabilnost predstavljena z eno ali dvema naključnima spremenljivkama, znakoma.

Na primer, ko preučujemo statistično populacijo ljudi, nas zanimata višina in teža. V tej situaciji, ne glede na to, koliko ljudi je v statistični populaciji, lahko vedno narišemo razpršeno sliko in vidimo celotno sliko. Če pa obstajajo tri značilnosti, na primer, je dodana funkcija - starost osebe, potem je treba razpršilo zgraditi v tridimenzionalnem prostoru. Predstavitev nabora točk v tridimenzionalnem prostoru je že precej težavna.

V resnici v praksi vsako opazovanje ni predstavljeno z enim, dvema ali tremi številkami, temveč z nekim opaznim nizom številk, ki opisujejo na desetine značilnosti. V tej situaciji bi bilo za sestavo razpršenega grafikona potrebno upoštevati večdimenzionalne prostore.

Veja statistike, ki je namenjena preučevanju eksperimentov z multivariatnimi opazovanji, se imenuje multivariatna statistična analiza.

Merjenje več lastnosti (lastnosti predmeta) hkrati v enem poskusu je na splošno bolj naravno kot merjenje katerega koli enega ali dveh. Zato ima potencialno multivariatno statistično analizo široko področje uporabe.

Multivariacijska statistična analiza vključuje naslednje dele:

Faktorska analiza;

Diskriminantna analiza;

analiza grozdov;

Večdimenzionalno skaliranje;

Metode nadzora kakovosti.

Faktorska analiza

Pri proučevanju kompleksnih predmetov in sistemov (na primer v psihologiji, biologiji, sociologiji itd.) pogosto ni mogoče neposredno izmeriti količin (faktorjev), ki določajo lastnosti teh predmetov, včasih pa celo njihovega števila in smiselnega pomena. niso znani. Toda druge količine so lahko na voljo za merjenje, tako ali drugače, odvisno od dejavnikov, ki vas zanimajo. Poleg tega, ko se vpliv neznanega faktorja, ki nas zanima, pokaže v več merjenih značilnostih, lahko te lastnosti kažejo tesno povezavo med seboj in skupno število dejavnikov je lahko veliko manjše od števila merjenih spremenljivk.

Metode faktorske analize se uporabljajo za identifikacijo dejavnikov, ki vplivajo na merjene spremenljivke.

Primer uporabe faktorske analize je preučevanje osebnostnih lastnosti na podlagi psiholoških testov. Osebnostne lastnosti niso primerne za neposredno merjenje, o njih je mogoče soditi le po vedenju osebe ali naravi odgovorov na določena vprašanja. Za razlago rezultatov poskusov so podvrženi faktorski analizi, ki omogoča identifikacijo tistih osebnih lastnosti, ki vplivajo na vedenje testiranih posameznikov.


Različni modeli faktorske analize temeljijo na naslednji hipotezi: opaženi ali izmerjeni parametri so le posredne značilnosti predmeta ali pojava, ki ga preučujemo, v resnici pa obstajajo notranje (skrite, latentno, niso neposredno opazni) parametri in lastnosti, katerih število je majhno in ki določajo vrednosti opazovanih parametrov. Ti notranji parametri se imenujejo faktorji.

Naloga faktorske analizeje predstavitev opazovanih parametrov v obliki linearnih kombinacij faktorjev in morda nekaterih dodatnih, nepomembnih motenj.

Prva stopnja faktorske analize je praviloma izbira novih lastnosti, ki so linearne kombinacije prejšnjih in »vsrkajo« večino celotne variabilnosti opazovanih podatkov ter tako posredujejo večino informacij, ki jih vsebuje izvirna opažanja. To se običajno naredi z uporabo metoda glavne komponente,čeprav se včasih uporabljajo druge tehnike (metoda največje verjetnosti).

Metoda glavne komponente je reducirana na izbiro novega ortogonalnega koordinatnega sistema v opazovalnem prostoru. Kot prvo glavno komponento je izbrana smer, vzdolž katere ima niz opazovanj največji razpršenost, izbira vsake naslednje glavne komponente se zgodi tako, da je razpršitev opazovanj največji in da je ta glavna komponenta pravokotna na druge glavne komponente, izbrane prej . Vendar pa dejavniki, pridobljeni z metodo glavnih komponent, običajno niso primerni za dovolj vizualno interpretacijo. Zato je naslednji korak v faktorski analizi transformacija, rotacija faktorjev, da se olajša interpretacija.

Diskriminantna analiza

Naj je nabor predmetov razdeljen na več skupin in za vsak predmet je mogoče določiti, kateri skupini pripada. Za vsak predmet so meritve več kvantitativnih značilnosti. Treba je najti način, kako na podlagi teh lastnosti ugotoviti, v katero skupino spada predmet. To vam bo omogočilo, da določite skupine, ki jim pripadajo novi predmeti iste zbirke. Za rešitev težave se prijavite metode diskriminantne analize.

Diskriminantna analiza- to je odsek statistike, katerega vsebina je razvoj metod za reševanje problemov razlikovanja (diskriminacije) predmetov opazovanja po določenih značilnostih.

Poglejmo si nekaj primerov.

Diskriminantna analiza se izkaže za priročno pri obravnavi rezultatov testiranja posameznikov, ko gre za zaposlovanje za določeno delovno mesto. V tem primeru je treba vse kandidate razdeliti v dve skupini: "primerni" in "neprimerni".

Uporaba diskriminantne analize je možna s strani bančne uprave za oceno finančnega stanja strank pri izdaji posojila. Banka jih glede na številne značilnosti razvršča na zanesljive in nezanesljive.

Diskriminantna analiza se lahko uporablja kot metoda delitve nabora podjetij v več homogenih skupin glede na vrednosti katerega koli kazalnika proizvodne in gospodarske dejavnosti.

Metode diskriminantne analize omogočajo konstruiranje funkcij merjenih značilnosti, katerih vrednosti pojasnjujejo delitev predmetov v skupine. Zaželeno je, da te funkcije (diskriminatorne lastnosti) je bilo malo. V tem primeru je rezultate analize lažje smiselno interpretirati.

Zaradi svoje preprostosti ima posebno vlogo linearna diskriminantna analiza, pri kateri so kot linearne funkcije primarnih značilnosti izbrane klasifikacijske značilnosti.

grozdna analiza

Metode analize grozdov omogočajo razdelitev preučevanega niza predmetov v skupine "podobnih" objektov, ki jih imenujemo grozdi.

Beseda grozd angleškega izvora - cluster se prevaja kot čopič, grozd, skupina, roj, grozd.

Grozdna analiza rešuje naslednje naloge:

Izvaja razvrstitev predmetov ob upoštevanju vseh tistih značilnosti, ki so značilne za predmet. Že sama možnost klasifikacije nas popelje k ​​globljemu razumevanju obravnavane celote in predmetov, ki so vanjo vključeni;

Postavi nalogo preverjanja prisotnosti a priori dane strukture ali klasifikacije v obstoječi populaciji. Takšno preverjanje omogoča uporabo standardne hipotetično-deduktivne sheme znanstvenih raziskav.

Večina metod združevanja (hierarhične skupine) je aglomerativno(poenotenje) - začnejo se z ustvarjanjem elementarnih grozdov, od katerih je vsak sestavljen iz natanko enega začetnega opazovanja (ena točka), pri vsakem naslednjem koraku pa se dve najbližji grozdi združita v eno.

Trenutek zaustavitve tega procesa lahko nastavi raziskovalec (na primer z določitvijo zahtevanega števila grozdov ali največje razdalje, na kateri se doseže združitev).

Grafični prikaz procesa združevanja grozdov je mogoče dobiti z uporabo dendrogrami- drevo grozdov.

Razmislite o naslednjem primeru. Razvrstimo pet podjetij, za vsako od njih so značilne tri spremenljivke:

x 1– povprečni letni stroški osnovnih proizvodnih sredstev, milijard rubljev;

x 2- materialni stroški na 1 rub. industrijski izdelki, kop.;

x 3- obseg proizvedenih izdelkov, milijard rubljev.

Učbenik je nastal na podlagi avtorjevih izkušenj pri poučevanju predmetov multivariatne statistične analize in ekonometrike. Vsebuje gradivo o diskriminantni, faktorski, regresijski, korespondenčni analizi in teoriji časovnih vrst. Opisani so pristopi k problemom večdimenzionalnega skaliranja in nekateri drugi problemi multivariatne statistike.

Združevanje in cenzura.
Nalogo oblikovanja skupin vzorčnih podatkov tako, da lahko združeni podatki zagotovijo skoraj enako količino informacij za odločanje kot vzorec pred združevanjem, najprej reši raziskovalec. Cilji združevanja so praviloma zmanjšati količino informacij, poenostaviti izračune in narediti podatke bolj vidne. Nekateri statistični testi so sprva osredotočeni na delo z združenim vzorcem. V določenih vidikih je problem združevanja zelo blizu problemu klasifikacije, ki bo podrobneje obravnavan v nadaljevanju. Hkrati z nalogo združevanja raziskovalec rešuje tudi problem cenzuriranja vzorca, t.j. izključitev iz nje zunanjih podatkov, ki so praviloma posledica velikih napak opazovanja. Seveda je zaželeno zagotoviti odsotnost takšnih napak tudi pri samih opazovanjih, vendar to ni vedno mogoče. Najenostavnejši načini za reševanje teh dveh problemov so obravnavani v tem poglavju.

Kazalo
1 Predhodne informacije
1.1 Analiza in algebra
1.2 Teorija verjetnosti
1.3 Matematična statistika
2 Večvariantne distribucije
2.1 Naključni vektorji
2.2 Neodvisnost
2.3 Številčne značilnosti
2.4 Normalna porazdelitev v multivariantnem primeru
2.5 Korelacijska teorija
3 Združevanje in cenzura
3.1 Enodimenzionalno združevanje
3.2 Enodimenzionalna cenzura
3.3 Križne tabele
3.3.1 Hipoteza neodvisnosti
3.3.2 Hipoteza o homogenosti
3.3.3 Korelacijsko polje
3.4 Večdimenzionalno združevanje
3.5 Večdimenzionalna cenzura
4 Neštevilčni podatki
4.1 Uvodne opombe
4.2 Primerjalne lestvice
4.3 Strokovna presoja
4.4 Strokovne skupine
5 nizov zaupanja
5.1 Intervali zaupanja
5.2 Nabori zaupanja
5.2.1 Večdimenzionalni parameter
5.2.2 Multivariatno vzorčenje
5.3 Tolerantni nizi
5.4 Majhen vzorec
6 Regresijska analiza
6.1 Izjava o problemu
6.2 Iskanje GMS
6.3 Omejitve
6.4 Matrica načrta
6.5 Statistična napoved
7 Analiza variance
7.1 Uvodne opombe
7.1.1 Normalnost
7.1.2 Homogenost disperzij
7.2 En dejavnik
7.3 Dva dejavnika
7.4 Splošni primer
8 Zmanjšanje dimenzij
8.1 Zakaj je potrebna razvrstitev
8.2 Model in primeri
8.2.1 Analiza glavne komponente
8.2.2 Ekstremno združevanje funkcij
8.2.3 Večdimenzionalno skaliranje
8.2.4 Izbira kazalnikov za diskriminantno analizo
8.2.5 Izbira značilnosti v regresijskem modelu
9 Diskriminantna analiza
9.1 Uporabnost modela
9.2 Pravilo linearnega napovedovanja
9.3 Praktična priporočila
9.4 En primer
9.5 Več kot dva razreda
9.6 Preverjanje kakovosti diskriminacije
10 Hevristične metode
10.1 Ekstremno združevanje
10.1.1 Kriterij kvadratov
10.1.2 Merilo modula
10 2 Metoda Plejade
11 Analiza glavne komponente
11 1 Postavitev problema
112 Izračun glavnih komponent
11.3 Primer
114 Lastnosti glavne komponente
11.4.1 Samoponovljivost
11.4.2 Geometrijske lastnosti
12 Faktorska analiza
12.1 Izjava o problemu
12.1.1 Komunikacija z glavnimi komponentami
12.1.2 Nedvoumna odločitev
12.2 Matematični model
12.2.1 Pogoji za At A
12.2.2 Pogoji na matriki obremenitve. centroidna metoda
12.3 Latentni dejavniki
12.3.1 Bartlettova metoda
12.3.2 Thomsonova metoda
12.4 Primer
13 Digitalizacija
13.1 Analiza korespondence
13.1.1 Hi-kvadrat razdalja
13.1.2 Digitalizacija za probleme diskriminantne analize
13.2 Več kot dve spremenljivki
13.2.1 Uporaba binarne podatkovne matrike kot matrike za preslikavo
13.2.2 Največje korelacije
13.3 Dimenzija
13.4 Primer
13.5 Primer mešanih podatkov
14 Večdimenzionalno skaliranje
14.1 Uvodne opombe
14.2 Thorgersonov model
14.2.1 Kriterij stresa
14.3 Thorgersonov algoritem
14.4 Posamezne razlike
15 Časovna vrsta
15.1 Splošno
15.2 Merila naključnosti
15.2.1 Vrhovi in ​​jame
15.2.2 Porazdelitev dolžine faz
15.2.3 Merila, ki temeljijo na rang korelaciji
15.2.4 Korelogram
15.3 Trend in sezonskost
15.3.1 Polinomski trendi
15.3.2 Izbira stopnje trenda
15.3.3 Glajenje
15.3.4 Ocenjevanje sezonskih nihanj
A Normalna porazdelitev
V distribuciji X2
S Študentovo t-razdelitev
D Fisherjeva porazdelitev.


Brezplačno prenesite e-knjigo v priročni obliki, glejte in preberite:
Prenesite knjigo Multivariatna statistična analiza, Dronov SV, 2003 - fileskachat.com, hitro in brezplačno.

Prenesi pdf
Spodaj lahko kupite to knjigo po najboljši znižani ceni z dostavo po vsej Rusiji.

Analiza disperzije.

Namen analize variance je preveriti statistično pomembnost razlike med povprečji (za skupine ali spremenljivke). To preverjanje se izvede tako, da se vsota kvadratov razdeli na komponente, t.j. z razdelitvijo celotne variance (variacije) na dele, od katerih je eden posledica naključne napake (to je variabilnost znotraj skupine), drugi pa je povezan z razliko v povprečnih vrednostih. Zadnja komponenta variance se nato uporabi za analizo statistične pomembnosti razlike med povprečji. Če ta razlika pomembno, ničelna hipoteza zavrnjen in sprejeta je alternativna hipoteza, da obstaja razlika med sredstvi.

Delitev vsote kvadratov. Za velikost vzorca n se varianca vzorca izračuna kot vsota kvadratov odstopanj od srednje vrednosti vzorca, deljena z n-1 (velikost vzorca minus ena). Tako je za fiksno velikost vzorca n varianca funkcija vsote kvadratov (odklonov). Analiza variance temelji na delitvi variance na dele ali komponente, t.j. Vzorec je razdeljen na dva dela, v katerih se izračuna povprečje in vsota kvadratov odstopanj. Izračun enakih kazalnikov za vzorec kot celoto daje večjo vrednost disperzije, kar pojasnjuje neskladje med povprečji skupine. Analiza variance torej omogoča razlago znotrajskupinske variabilnosti, ki je pri preučevanju celotne skupine kot celote ni mogoče spremeniti.

Testiranje pomembnosti v ANOVA temelji na primerjavi komponente variance zaradi med skupinami in komponente variance zaradi razpršenosti znotraj skupine (imenovano povprečna kvadratna napaka). Če je ničelna hipoteza pravilna (enakost srednjih vrednosti v dveh populacijah), lahko pričakujemo relativno majhno razliko v vzorčnih srednjih vrednostih zaradi povsem naključne variabilnosti. Zato bo pri ničelni hipotezi varianca znotraj skupine skoraj sovpadala s skupno varianco, izračunano brez upoštevanja članstva v skupini. Dobljene variance znotraj skupine lahko primerjamo s F-testom, ki preveri, ali je razmerje variance res bistveno večje od 1.

Prednosti: 1) analiza variance je veliko bolj učinkovita in za majhne vzorce, ker bolj informativen; 2) analiza variance vam omogoča odkrivanje učinkov interakcije med dejavniki in zato omogoča testiranje bolj zapletenih hipotez

Metoda glavne komponente je sestavljena iz linearne redukcije dimenzij, pri kateri se določijo parno pravokotne smeri največje variacije vhodnih podatkov, nato pa se podatki projicirajo na prostor nižje dimenzije, ki ga generirajo komponente z največjo variacijo.

Analiza glavnih komponent je del faktorske analize, ki je sestavljena iz združevanja dveh koreliranih spremenljivk v en faktor. Če primer dveh spremenljivk razširimo tako, da vključuje več spremenljivk, postanejo izračuni bolj zapleteni, vendar osnovno načelo predstavljanja dveh ali več odvisnih spremenljivk z enim faktorjem ostane veljavno.

Pri zmanjševanju števila spremenljivk je odločitev o tem, kdaj ustaviti postopek ekstrakcije faktorjev, odvisna predvsem od stališča, kaj šteje za majhno "naključno" spremenljivost. Pri ponavljajočih se iteracijah ločimo faktorje z manj in manj variance.

Centroidna metoda za določanje faktorjev.

Pri analizi grozdov se uporablja centroidna metoda. Pri tej metodi je razdalja med dvema grozdama definirana kot razdalja med njunima težiščema v metodi neuteženega središča.

Metoda tehtanega središča (mediana) je identična neuteženi metodi, le da se pri izračunih uporabljajo uteži, ki upoštevajo razliko med velikostmi grozdov (tj. številom predmetov v njih). Če torej obstajajo (ali obstaja sum) pomembnih razlik v velikostih grozdov, je ta metoda boljša od prejšnje.

grozdna analiza.

Izraz analiza grozdov dejansko vključuje nabor različnih algoritmov za klasifikacijo. Pogosto vprašanje, ki si ga zastavljajo raziskovalci na številnih področjih, je, kako organizirati opazovane podatke v vizualne strukture, t.j. identificirati skupine podobnih predmetov. Dejansko analiza grozdov ni toliko navadna statistična metoda, kot »skupina« različnih algoritmov za »razporeditev objektov v grozde«. Obstaja stališče, da se za razliko od mnogih drugih statističnih postopkov metode grozdne analize uporabljajo v večini primerov, ko nimate nobenih a priori hipotez o razredih, ste pa še v opisni fazi študije. Treba je razumeti, da analiza grozdov določa "najbolj smiselno odločitev".

Algoritem združevanja dreves v grozde. Namen tega algoritma je združiti predmete v dovolj velike skupine z uporabo neke mere podobnosti ali razdalje med predmeti. Tipičen rezultat takšnega združevanja je hierarhično drevo, ki je diagram. Diagram se začne z vsakim predmetom v razredu (na levi strani diagrama). Zdaj si predstavljajte, da postopoma (v zelo majhnih korakih) »oslabite« svoj kriterij, kateri predmeti so edinstveni in kaj ne. Z drugimi besedami, znižate prag, povezan z odločitvijo, da združite dva ali več predmetov v eno skupino. Posledično povezujete vedno več predmetov skupaj in združujete (kombinirate) vedno več grozdov vse bolj različnih elementov. Končno se v zadnjem koraku vsi predmeti združijo. V teh grafikonih vodoravne osi predstavljajo razdaljo združevanja (v navpičnih dendrogramih navpične osi predstavljajo razdaljo združevanja). Torej, za vsako vozlišče v grafu (kjer se oblikuje nova gruča) lahko vidite količino razdalje, za katero so ustrezni elementi povezani v nov en sam grozd. Ko imajo podatki jasno "strukturo" v smislu grozdov predmetov, ki so si med seboj podobni, se ta struktura verjetno odraža v hierarhičnem drevesu z različnimi vejami. Kot rezultat uspešne analize z metodo združevanja je mogoče zaznati grozde (veje) in jih interpretirati.

Diskriminantna analiza se uporablja za odločanje, katere spremenljivke razlikujejo (diskriminirajo) med dvema ali več nastajajočimi populacijami (skupinami). Najpogostejša uporaba diskriminantne analize je vključitev številnih spremenljivk v študijo, da se določijo tiste, ki najbolje ločujejo populacije med seboj. Z drugimi besedami, želite zgraditi "model", ki najbolje napoveduje, kateri populaciji bo pripadal dani vzorec. V naslednji razpravi bo izraz "v modelu" uporabljen za sklicevanje na spremenljivke, ki se uporabljajo pri napovedovanju pripadnosti populacije; o spremenljivkah, ki se za to ne uporabljajo, bomo rekli, da so "zunaj modela".

Pri postopni analizi diskriminantnih funkcij se model diskriminacije gradi korak za korakom. Natančneje, na vsakem koraku se pregledajo vse spremenljivke in najde se tista, ki najbolj prispeva k razliki med nizi. To spremenljivko je treba v tem koraku vključiti v model in zgodi se prehod na naslednji korak.

Možno je tudi iti v nasprotno smer, v tem primeru bodo v model najprej vključene vse spremenljivke, nato pa bodo spremenljivke, ki malo prispevajo k napovedi, izločene na vsakem koraku. Nato se lahko kot rezultat uspešne analize shranijo le »pomembne« spremenljivke v modelu, torej tiste spremenljivke, katerih prispevek k diskriminaciji je večji od ostalih.

Ta postopek po korakih "vodita" ustrezna vrednost F za vključitev in ustrezna vrednost F za izključitev. Vrednost F statistike za spremenljivko kaže na njeno statistično pomembnost pri razlikovanju med populacijami, torej je merilo prispevka spremenljivke k napovedovanju pripadnosti populacije.

Za dve skupini se lahko diskriminantna analiza obravnava tudi kot postopek večkratne regresije. Če kodirate dve skupini kot 1 in 2 in nato uporabite te spremenljivke kot odvisne spremenljivke v večkratni regresiji, boste dobili rezultate, podobne tistim, ki bi jih dobili z diskriminantno analizo. Na splošno v primeru dveh populacij ustrezate linearni enačbi naslednjega tipa:

Skupina = a + b1*x1 + b2*x2 + ... + bm*xm

kjer je a konstanta in b1...bm sta regresijski koeficienti. Interpretacija rezultatov problema z dvema populacijama tesno sledi logiki uporabe večkratne regresije: k diskriminaciji največ prispevajo spremenljivke z največjimi regresijskimi koeficienti.

Če obstajata več kot dve skupini, je mogoče ovrednotiti več kot eno diskriminantno funkcijo, podobno kot je bilo storjeno prej. Če so na primer tri populacije, lahko ocenite: (1) funkcijo za razlikovanje med populacijo 1 in populacijo 2 in 3 skupaj, in (2) drugo funkcijo za razlikovanje med populacijo 2 in populacijo 3. Na primer, vi ima lahko eno funkcijo za razlikovanje med tistimi maturanti, ki hodijo na fakulteto, in tistimi, ki ne (vendar želijo dobiti službo ali iti v šolo), in drugo funkcijo za razlikovanje med tistimi diplomanti, ki želijo dobiti službo, in tistimi, ki želijo dobiti službo tisti, ki ne, ki hočejo v šolo. Koeficiente b v teh diskriminatornih funkcijah je mogoče interpretirati na enak način kot prej.

Kanonična korelacija.

Kanonična analiza je zasnovana za analizo odvisnosti med seznami spremenljivk. Natančneje, omogoča vam raziskovanje razmerja med dvema nizoma spremenljivk. Pri izračunu kanoničnih korenin se izračunajo lastne vrednosti korelacijske matrike. Te vrednosti so enake deležu variance, ki je razložen s korelacijo med ustreznimi kanoničnimi spremenljivkami. V tem primeru se dobljeni delež izračuna glede na disperzijo kanoničnih spremenljivk, t.j. tehtane vsote po dveh nizih spremenljivk; tako lastne vrednosti ne kažejo absolutnega pomena, razloženega v ustreznih kanoničnih spremenljivkah.

Če vzamemo kvadratni koren dobljenih lastnih vrednosti, dobimo nabor številk, ki jih lahko interpretiramo kot korelacijske koeficiente. Ker so kanonične spremenljivke, jih imenujemo tudi kanonične korelacije. Tako kot lastne vrednosti se korelacije med kanoničnimi spremenljivkami, ki se zaporedno ekstrahirajo na vsakem koraku, zmanjšujejo. Vendar pa so lahko tudi druge kanonične spremenljivke bistveno povezane in te korelacije pogosto omogočajo dokaj smiselno razlago.

Kriterij pomembnosti kanoničnih korelacije je razmeroma preprost. Najprej se kanonične korelacije ovrednotijo ​​ena za drugo v padajočem vrstnem redu. Za nadaljnjo analizo ostanejo le tiste korenine, ki so se izkazale za statistično pomembne. Čeprav so v resnici izračuni nekoliko drugačni. Program najprej oceni pomembnost celotnega niza korenin, nato pa pomembnost niza, ki ostane po odstranitvi prvega korena, drugega korena itd.

Študije so pokazale, da uporabljeni test zazna velike kanonične korelacije tudi pri majhni velikosti vzorca (na primer n = 50). Šibke kanonične korelacije (npr. R = .3) zahtevajo, da se velike velikosti vzorcev (n > 200) odkrijejo 50 % časa. Upoštevajte, da kanonične korelacije majhne velikosti običajno nimajo praktične vrednosti, saj ustrezajo majhni realni variabilnosti izvirnih podatkov.

Kanonične uteži. Po določitvi števila pomembnih kanoničnih korenov se postavlja vprašanje interpretacije vsakega (značilnega) korena. Spomnimo se, da vsak koren dejansko predstavlja dve tehtani vsoti, eno za vsak niz spremenljivk. Eden od načinov razlage "pomena" vsakega kanoničnega korena je, da upoštevamo uteži, povezane z vsakim nizom spremenljivk. Te uteži imenujemo tudi kanonske uteži.

Pri analizi se običajno uporablja, da večja kot je dodeljena teža (tj. absolutna vrednost uteži), večji je prispevek ustrezne spremenljivke k vrednosti kanonične spremenljivke.

Če poznate večkratno regresijo, lahko uporabite interpretacijo kanoničnih uteži, ki se uporablja za beta uteži v enačbi večkratne regresije. Kanonične uteži so v nekem smislu analogne delnim korelacijam spremenljivk, ki ustrezajo kanoničnemu korenu. Tako upoštevanje kanoničnih uteži omogoča razumevanje "pomena" vsakega kanoničnega korena, tj. poglejte, kako specifične spremenljivke v vsakem nizu vplivajo na tehtano vsoto (tj. kanonično spremenljivko).

Parametrične in neparametrične metode za vrednotenje rezultatov.

Parametrične metode, ki temeljijo na vzorčni porazdelitvi določenih statistik. Skratka, če poznate porazdelitev opazovane spremenljivke, lahko predvidite, kako se bo uporabljena statistika »obnašala« v ponavljajočih se vzorcih enake velikosti – t.j. kako bo razporejena.

V praksi je uporaba parametričnih metod omejena zaradi obsega ali velikosti vzorca, ki je na voljo za analizo; težave z natančnim merjenjem značilnosti opazovanega predmeta

Tako so potrebni postopki za obdelavo podatkov "nizke kakovosti" iz majhnih velikosti vzorcev s spremenljivkami, katerih porazdelitev je malo ali nič znana. Neparametrične metode so zasnovane le za tiste situacije, ki se pogosto pojavljajo v praksi, ko raziskovalec ne ve ničesar o parametrih preučevane populacije (od tod tudi ime metod - neparametrične). V bolj tehničnem smislu se neparametrične metode ne zanašajo na oceno parametrov (kot je povprečje ali standardni odmik) pri opisovanju vzorčne porazdelitve količine, ki vas zanima. Zato se te metode včasih imenujejo tudi brez parametrov ali prosto porazdeljene.

V bistvu je za vsak parametrični test vsaj en neparametrični primerek. Ta merila je mogoče razvrstiti v eno od naslednjih skupin:

merila za razlike med skupinami (neodvisni vzorci);

merila za razlike med skupinami (odvisni vzorci);

meril za odvisnost med spremenljivkami.

Razlike med neodvisnimi skupinami. Običajno, ko obstajata dva vzorca (na primer moški in ženske), ki ju želite primerjati glede na povprečje neke spremenljivke, ki vas zanima, uporabite t-test za neodvisne. Neparametrične alternative temu testu so: test serije Wald-Wolfowitz, test Mann-Whitney U in dvovzorčni Kolmogorov-Smirnov test. Če imate več skupin, lahko uporabite ANOVA. Njegovi neparametrični dvojniki so: Kruskal-Wallisova analiza variance in test mediane.

Razlike med odvisnimi skupinami. Če želite primerjati dve spremenljivki, ki pripadata istemu vzorcu (na primer matematični uspeh študentov na začetku in na koncu semestra), se običajno uporablja t-test za odvisne vzorce. Alternativni neparametrični testi so: test znakov in Wilcoxonov test parnih primerjav. Če so zadevne spremenljivke kategorične narave ali so kategorizirane (tj. predstavljene kot frekvence, ki spadajo v določene kategorije), bo primeren McNemarjev test hi-kvadrat. Če upoštevamo več kot dve spremenljivki iz istega vzorca, se običajno uporablja analiza variance s ponavljajočimi se meritvami (ANOVA). Alternativna neparametrična metoda je Friedmanova rang analiza variance ali Cochranov Q test (slednji se uporablja na primer, če se spremenljivka meri na nominalni lestvici). Cochranov Q test se uporablja tudi za ocenjevanje sprememb frekvenc (delev).

Odvisnosti med spremenljivkami. Za oceno odvisnosti (razmerja) med dvema spremenljivkama se običajno izračuna korelacijski koeficient. Neparametrični analogi standardnega Pearsonovega korelacijskega koeficienta so Spearmanova R statistika, Kendallov tau in Gama koeficient. Poleg tega je na voljo kriterij odvisnosti med več spremenljivkami, tako imenovani Kendallov koeficient skladnosti. Ta test se pogosto uporablja za ocenjevanje skladnosti mnenj neodvisnih strokovnjakov (sodnikov), zlasti točk, danih istemu predmetu.

Če podatki niso normalno porazdeljeni in meritve vsebujejo kvečjemu razvrščene informacije, potem izračun običajne deskriptivne statistike (npr. povprečja, standardni odklon) ni zelo informativen. V psihometriji je na primer dobro znano, da je zaznana jakost dražljajev (npr. zaznana svetlost svetlobe) logaritemska funkcija dejanske jakosti (svetilnost, merjena v objektivnih enotah, luksih). V tem primeru običajna ocena povprečja (vsota vrednosti, deljenih s številom dražljajev) ne daje pravilne predstave o srednji vrednosti dejanske intenzivnosti dražljaja. (V obravnavanem primeru bi bilo treba raje izračunati geometrijsko sredino.) Neparametrična statistika izračuna raznovrsten niz meril položaja (srednja vrednost, mediana, moda itd.) in disperzije (variance, harmonično sredino, razpon kvartila itd.) za predstavljajo bolj "veliko sliko" podatkov.

Za družbene in ekonomske objekte je praviloma značilno precej veliko število parametrov, ki tvorijo večdimenzionalne vektorje, problemi preučevanja razmerij med komponentami teh vektorjev pa so še posebej pomembni v ekonomskih in družboslovnih študijah, pri čemer je treba ta razmerja je treba identificirati na podlagi omejenega števila večdimenzionalnih opazovanj.

Multivariatna statistična analiza je odsek matematične statistike, ki proučuje metode zbiranja in obdelave multivariatnih statističnih podatkov, njihovo sistematizacijo in obdelavo, da bi ugotovili naravo in strukturo razmerij med komponentami preučevanega multivariatnega atributa ter naredili praktične zaključke.

Upoštevajte, da se metode zbiranja podatkov lahko razlikujejo. Torej, če se preučuje svetovno gospodarstvo, je naravno, da države vzamemo za objekte, na katerih se opazujejo vrednosti vektorja X, če pa se preučuje nacionalni gospodarski sistem, potem je naravno opazovati vrednosti vektorja X v isti (za raziskovalca zanimivi) državi v različnih časovnih obdobjih.

Statistične metode, kot sta večkratna korelacija in regresijska analiza, se tradicionalno preučujejo pri predmetih teorije verjetnosti in matematične statistike, disciplina "Ekonometrija" je namenjena obravnavanju uporabnih vidikov regresijske analize.

Ta priročnik je namenjen drugim metodam preučevanja multivariantnih splošnih populacij na podlagi statističnih podatkov.

Metode za zmanjševanje razsežnosti večdimenzionalnega prostora omogočajo brez bistvene izgube informacij prehod od prvotnega sistema velikega števila opazovanih medsebojno povezanih dejavnikov k sistemu bistveno manjšega števila skritih (neopaznih) dejavnikov, ki določajo variacijo začetne lastnosti. V prvem poglavju so opisane metode komponentne in faktorske analize, ki jih je mogoče uporabiti za identifikacijo objektivno obstoječih, a ne neposredno opaznih vzorcev z uporabo glavnih komponent ali faktorjev.

Metode večdimenzionalne klasifikacije so zasnovane tako, da razdelijo zbirke predmetov (za katere je značilno veliko število značilnosti) v razrede, od katerih mora vsak vključevati predmete, ki so v določenem smislu homogeni ali podobni. Takšno razvrstitev, ki temelji na statističnih podatkih o vrednostih lastnosti na objektih, je mogoče izvesti z uporabo metod gručaste in diskriminantne analize, obravnavanih v drugem poglavju (Multivariatna statistična analiza z uporabo »STATISTICA«).

Razvoj računalniške tehnologije in programske opreme prispeva k širšemu uvajanju multivariatnih metod statistične analize v prakso. Aplikacijski paketi s priročnim uporabniškim vmesnikom, kot so SPSS, Statistica, SAS itd., odpravljajo težave pri uporabi teh metod, ki so kompleksnost matematičnega aparata, ki temelji na linearni algebri, teoriji verjetnosti in matematične statistike ter okornih izračunih. .

Vendar pa uporaba programov brez razumevanja matematičnega bistva uporabljenih algoritmov prispeva k razvoju raziskovalčeve iluzije o preprostosti uporabe multivariatnih statističnih metod, kar lahko vodi do napačnih ali nerazumnih rezultatov. Pomembne praktične rezultate je mogoče doseči le na podlagi strokovnih znanj s predmetnega področja, podprtih s poznavanjem matematičnih metod in aplikacijskih paketov, v katerih so te metode implementirane.

Zato so za vsako od metod, obravnavanih v tej knjigi, podane osnovne teoretične informacije, vključno z algoritmi; obravnavana je implementacija teh metod in algoritmov v aplikacijskih paketih. Obravnavane metode so ilustrirane s primeri njihove praktične uporabe v ekonomiji s pomočjo paketa SPSS.

Priročnik je napisan na podlagi izkušenj z branjem predmeta "Multivariantne statistične metode" študentom Državne univerze za management. Za podrobnejšo študijo metod uporabne multivariatne statistične analize se priporočajo knjige.

Predvideva se, da je bralec dobro seznanjen s predmeti linearne algebre (na primer v obsegu učbenika in dodatku k učbeniku), teorije verjetnosti in matematične statistike (na primer v obsegu učbenika).

Uvod

Poglavje 1 Multiple regresijska analiza

Poglavje 2. Grozdna analiza

Poglavje 3. Faktorska analiza

Poglavje 4. Diskriminantna analiza

Bibliografija

Uvod

Začetne informacije v družbeno-ekonomskih študijah so najpogosteje predstavljene kot skupek predmetov, od katerih je vsak označen s številnimi lastnostmi (kazalniki). Ker lahko število takih predmetov in značilnosti doseže desetine in stotine, vizualna analiza teh podatkov pa je neučinkovita, težave z zmanjševanjem, koncentracijo začetnih podatkov, razkrivanjem strukture in razmerja med njimi temeljijo na konstrukciji posplošenih značilnosti nastane niz lastnosti in niz predmetov. Takšne probleme je mogoče rešiti z metodami multivariatne statistične analize.

Multivariatna statistična analiza je odsek statistike, ki je namenjen matematičnim metodam, katerih cilj je prepoznavanje narave in strukture razmerij med komponentami raziskave in je namenjen pridobivanju znanstvenih in praktičnih zaključkov.

Glavna pozornost pri multivariatni statistični analizi je namenjena matematičnim metodam za izdelavo optimalnih načrtov za zbiranje, sistematizacijo in obdelavo podatkov, katerih cilj je ugotoviti naravo in strukturo razmerij med komponentami preučevanega multivariatnega atributa in so namenjeni pridobivanju znanstvenih in praktičnih zaključkov.

Začetni niz večdimenzionalnih podatkov za izvedbo multivariatne analize so običajno rezultati merjenja komponent večdimenzionalnega atributa za vsak od objektov preučevane populacije, t.j. zaporedje multivariatnih opazovanj. Multivariatni atribut se najpogosteje razlaga kot , zaporedje opazovanj pa kot vzorec iz splošne populacije. V tem primeru se izbira metode obdelave začetnih statističnih podatkov opravi na podlagi določenih predpostavk glede narave zakona porazdelitve preučevanega večdimenzionalnega atributa.

1. Multivariatna statistična analiza multivariatnih porazdelitev in njihovih glavnih značilnosti zajema situacije, ko so obdelana opazovanja verjetnostne narave, t.j. interpretirani kot vzorec iz ustrezne splošne populacije. Glavne naloge tega pododdelka so: statistična ocena preučevanih multivariatnih porazdelitev in njihovih glavnih parametrov; študija lastnosti uporabljenih statističnih ocen; študija verjetnostnih porazdelitev za številne statistike, ki se uporabljajo za izgradnjo statističnih kriterijev za testiranje različnih hipotez o verjetnostni naravi analiziranih multivariatnih podatkov.

2. Multivariatna statistična analiza narave in strukture medsebojnih odnosov komponent preučevanega multivariatnega atributa združuje koncepte in rezultate, ki so neločljivi v takih metodah in modelih, kot so analiza, analiza variance, analiza kovariance, faktorska analiza itd. Metode, ki spadajo v to skupino, vključujejo tako algoritme, ki temeljijo na predpostavki verjetnostne narave podatkov, kot metode, ki ne sodijo v okvir nobenega verjetnostnega modela (slednje pogosto imenujemo metode).

3. Večdimenzionalna statistična analiza geometrijske strukture preučevanega niza multivariatnih opazovanj združuje koncepte in rezultate, ki so neločljivi v takih modelih in metodah, kot so diskriminantna analiza, analiza grozdov, večdimenzionalno skaliranje. Nodal za te modele je koncept razdalje ali merilo bližine med analiziranimi elementi kot točkami nekega prostora. V tem primeru je mogoče analizirati tako objekte (kot točke, določene v prostoru značilnosti) kot značilnosti (kot točke, določene v prostoru objektov).

Uporabna vrednost multivariatne statistične analize je predvsem v reševanju naslednjih treh problemov:

naloga statističnega preučevanja odvisnosti med obravnavanimi kazalniki;

naloga razvrščanja elementov (predmetov ali značilnosti);

· naloga zmanjšanja dimenzije obravnavanega prostora značilnosti in izbire najbolj informativnih značilnosti.

Večkratna regresijska analiza je zasnovana za izgradnjo modela, ki omogoča, da vrednosti neodvisnih spremenljivk pridobijo ocene vrednosti odvisne spremenljivke.

Logistična regresija za reševanje problema klasifikacije. To je vrsta večkratne regresije, katere namen je analizirati razmerje med več neodvisnimi spremenljivkami in odvisno spremenljivko.

Faktorska analiza se ukvarja z določitvijo relativno majhnega števila skritih (latentnih) dejavnikov, katerih variabilnost pojasnjuje variabilnost vseh opazovanih kazalnikov. Faktorska analiza je namenjena zmanjšanju dimenzije obravnavanega problema.

Grozdna in diskriminantna analiza sta zasnovani tako, da razdelijo zbirke predmetov v razrede, od katerih mora vsak vključevati predmete, ki so v določenem smislu homogeni ali blizu. Pri analizi grozdov ni vnaprej znano, koliko skupin predmetov se bo izkazalo in kakšne velikosti bodo. Diskriminantna analiza deli predmete na že obstoječe razrede.

Poglavje 1 Multiple regresijska analiza

Naloga: Raziskave stanovanjskega trga v Orelu (sovjetske in severne regije).

Tabela prikazuje podatke o ceni stanovanj v Orelu in o različnih dejavnikih, ki jo določajo:

· celotna površina;

Območje kuhinje

· bivalni prostor;

tip hiše

število sob. (slika 1)

riž. 1 Začetni podatki

V stolpcu "Regija" se uporabljajo oznake:

3 - sovjetski (elita, spada v osrednje regije);

4 - sever.

V stolpcu "Vrsta hiše":

1 - opeka;

0 - plošča.

Zahtevano:

1. Analizirajte razmerje vseh dejavnikov z indikatorjem "Cena" in med seboj. Izberite dejavnike, ki so najprimernejši za izgradnjo regresijskega modela;

2. Konstruirajte navidezno spremenljivko, ki odraža pripadnost stanovanja osrednjemu in obrobnemu delu mesta;

3. Zgradite linearni regresijski model za vse dejavnike, vključno z lažno spremenljivko v njem. Pojasnite ekonomski pomen parametrov enačbe. Oceniti kakovost modela, statistično pomembnost enačbe in njenih parametrov;

4. Razporedite faktorje (razen lažne spremenljivke) glede na stopnjo vpliva na kazalnik “Cena”;

5. Zgradite linearni regresijski model za najvplivnejše dejavnike, pri čemer pustite lažno spremenljivko v enačbi. Oceniti kakovost in statistično pomembnost enačbe in njenih parametrov;

6. utemelji smotrnost ali neprimernost vključitve lažne spremenljivke v enačbo odstavkov 3 in 5;

7. Ocenite intervalne ocene parametrov enačbe z verjetnostjo 95 %;

8. Ugotovite, koliko bo stalo stanovanje s skupno površino 74,5 m² v elitnem (obrobnem) območju.

Izvedba:

1. Po analizi razmerja vseh dejavnikov z indikatorjem »Cena« in med seboj smo z metodo vključevanja »Naprej« izbrali dejavnike, ki so najprimernejši za izgradnjo regresijskega modela:

A) skupna površina;

C) število sob.

Vključene/izključene spremenljivke (a)

a Odvisna spremenljivka: Cena

2. Spremenljivka X4 "Regija" je navidezna spremenljivka, saj ima 2 vrednosti: 3-ki pripadajo osrednji regiji "Sovjetska", 4- obrobni regiji "Severny".

3. Zgradimo model linearne regresije za vse faktorje (vključno z lažno spremenljivko X4).

Prejeti model:

Ocena kakovosti modela.

Standardna napaka = 126,477

Razmerje Durbin-Watson = 2,136

Preverjanje pomembnosti regresijske enačbe

Vrednost testa F-Fisher = 41,687

4. Zgradimo model linearne regresije z vsemi faktorji (razen navidezne spremenljivke X4)

Glede na stopnjo vpliva na kazalnik "Cena" so bili razdeljeni:

Najpomembnejši faktor je skupna površina (F= 40,806)

Drugi najpomembnejši dejavnik je število sob (F= 29,313)

5. Vključene/izključene spremenljivke

a Odvisna spremenljivka: Cena

6. Zgradimo linearni regresijski model za najvplivnejše dejavnike z lažno spremenljivko, v našem primeru je to eden od vplivnih faktorjev.

Prejeti model:

Y \u003d 348,349 + 35,788 X1 -217,075 X4 +305,687 X7

Ocena kakovosti modela.

Koeficient določitve R2 = 0,807

Prikazuje delež variacije nastale lastnosti pod vplivom proučevanih dejavnikov. Posledično se upošteva približno 89 % variacije odvisne spremenljivke in zaradi vpliva vključenih dejavnikov v model.

Večkratni korelacijski koeficient R = 0,898

Prikazuje tesnost razmerja med odvisno spremenljivko Y z vsemi pojasnjevalnimi dejavniki, vključenimi v model.

Standardna napaka = 126,477

Razmerje Durbin-Watson = 2,136

Preverjanje pomembnosti regresijske enačbe

Vrednost testa F-Fisher = 41,687

Regresijsko enačbo je treba priznati kot ustrezno, model velja za pomembnega.

Najpomembnejši dejavnik je število sob (F=41.687)

Drugi najpomembnejši dejavnik je skupna površina (F= 40,806)

Tretji najpomembnejši dejavnik je regija (F= 32,288)

7. Navidezna spremenljivka X4 je pomemben faktor, zato jo je priporočljivo vključiti v enačbo.

Intervalne ocene parametrov enačbe prikazujejo rezultate napovedovanja z regresijskim modelom.

Z verjetnostjo 95% bo obseg prodaje v napovedanem mesecu od 540,765 do 1080,147 milijonov rubljev.

8. Določitev stroškov stanovanja v elitnem območju

Za 1 sobo U \u003d 348,349 + 35,788 * 74, 5 - 217,075 * 3 + 305,687 * 1

Za 2 sobi U \u003d 348,349 + 35,788 * 74, 5 - 217,075 * 3 + 305,687 * 2

Za 3 sobe U \u003d 348,349 + 35,788 * 74, 5 - 217,075 * 3 + 305,687 * 3

v perifernem delu

Za 1 sobo U \u003d 348,349 + 35,788 * 74, 5 - 217,075 * 4 + 305,687 * 1

Za 2 sobi U \u003d 348,349 + 35,788 * 74, 5 - 217,075 * 4 + 305,687 * 2

Za 3 sobe U \u003d 348,349 + 35,788 * 74, 5 - 217,075 * 4 + 305,687 * 3

Poglavje 2. Grozdna analiza

Naloga: Študija strukture denarnih izdatkov in prihrankov prebivalstva.

Tabela prikazuje strukturo denarnih izdatkov in prihrankov prebivalstva po regijah osrednjega zveznega okrožja Ruske federacije v letu 2003. Za naslednje kazalnike:

PTIOU - nakup blaga in plačilo storitev;

· OPiV - obvezna plačila in prispevki;

PN - nakup nepremičnine;

· PFA – povečanje finančnih sredstev;

· DR - povečanje (zmanjšanje) denarja v rokah prebivalstva.

riž. 8 Začetni podatki

Zahtevano:

1) določiti optimalno število grozdov za delitev regij v homogene skupine glede na vse značilnosti združevanja hkrati;

2) izvede razvrstitev območij po hierarhični metodi z algoritmom medskupinskih odnosov in prikaže rezultate v obliki dendrograma;

3) analizira glavne prioritete denarne porabe in varčevanja v nastalih grozdih;

Izvedba:

1) Določiti optimalno število grozdov za delitev regij v homogene skupine glede na vse značilnosti združevanja hkrati;

Za določitev optimalnega števila grozdov morate uporabiti hierarhično analizo grozdov in se v tabeli »Koraki aglomeracije« obrniti na stolpec »Koeficienti«.

Ti koeficienti pomenijo razdaljo med dvema skupinama, določeno na podlagi izbrane mere razdalje (Evklidska razdalja). V fazi, ko se mera razdalje med dvema grozdoma nenadoma poveča, je treba proces združevanja v nove grozde ustaviti.

Kot rezultat, se šteje, da je optimalno število grozdov enako razliki med številom opazovanj (17) in številom koraka (14), po katerem se koeficient naglo poveča. Tako je optimalno število grozdov 3. (slika 9)

grozd statistične matematične analize

riž. 9 Tabela "Koraki sintranja"

2) Izvedite razvrščanje območij po hierarhični metodi z algoritmom medskupinskih odnosov in rezultate prikažete v obliki dendrograma;

Zdaj z uporabo optimalnega števila grozdov razvrstimo območja po hierarhični metodi. In v izhodu se obrnemo na tabelo "Pripada grozdom". (slika 10)

riž. 10 Tabela »Spada v grozde«

Na sl. 10 jasno kaže, da grozd 3 vključuje 2 regiji (Kaluga, Moskva) in Moskvo, grozd 2 vključuje dve regiji (Bryansk, Voronezh, Ivanovo, Lipetsk, Oryol, Ryazan, Smolensk, Tambov, Tver), grozd 1 - Belgorod, Vladimir, Kostroma , Kursk, Tula, Yaroslavl.

riž. 11 Dendrogram

3) analizira glavne prioritete denarne porabe in varčevanja v nastalih grozdih;

Za analizo nastalih grozdov moramo izvesti "Primerjavo povprečij". V izhodnem oknu je prikazana naslednja tabela (slika 12)

riž. 12 Srednje vrednosti spremenljivk

V tabeli »Povprečne vrednosti« lahko zasledimo, katere strukture imajo največjo prednost pri razporeditvi denarnih izdatkov in prihrankov prebivalstva.

Najprej je treba opozoriti, da je na vseh področjih največja prioriteta nakupu blaga in plačilu storitev. Parameter ima večjo vrednost v 3. gruči.

2. mesto zaseda rast finančnih sredstev. Najvišja vrednost v 1 gruči.

Najmanjši koeficient v 1. in 2. grozdu je za »pridobitev nepremičnin«, v 3. grozdu pa se je pokazalo opazno zmanjšanje denarja v rokah prebivalstva.

Na splošno sta za prebivalstvo še posebej pomembna nakup blaga in storitev ter nepomemben nakup nepremičnin.

4) primerjaj dobljeno klasifikacijo z rezultati uporabe algoritma za odnose znotraj skupine.

Pri analizi medskupinskih odnosov se stanje praktično ni spremenilo, z izjemo regije Tambov, ki je spadala v 1 od 2 grozdov (slika 13).

riž. 13 Analiza odnosov znotraj skupine

V tabeli "Povprečja" ni bilo sprememb.

Poglavje 3. Faktorska analiza

Naloga: Analiza dejavnosti podjetij lahke industrije.

Podatki ankete so na voljo za 20 podjetij lahke industrije (slika 14) po naslednjih značilnostih:

X1 - stopnja kapitalske produktivnosti;

X2 – delovna intenzivnost proizvodne enote;

X3 - delež nabavnega materiala v celotnih stroških;

X4 – faktor premika opreme;

X5 - bonusi in prejemki na zaposlenega;

X6 - delež izgub zaradi poroke;

X7 – povprečni letni stroški osnovnih proizvodnih sredstev;

X8 - povprečni letni plačni sklad;

X9 - stopnja tržnosti izdelkov;

· X10 – indeks trajnih sredstev (razmerje med osnovnimi in drugimi nekratkoročnimi sredstvi in ​​lastnimi sredstvi);

X11 - promet obratnih sredstev;

X12 - neproizvodni stroški.

Slika 14 Začetni podatki

Zahtevano:

1. opraviti faktorsko analizo naslednjih spremenljivk: 1,3,5-7, 9, 11,12, identificirati in interpretirati faktorske značilnosti;

2. navedite najbolj uspešna in perspektivna podjetja.

Izvedba:

1. Izvedite faktorsko analizo naslednjih spremenljivk: 1,3,5-7, 9, 11,12, identificirajte in interpretirajte značilnosti faktorjev.

Faktorska analiza je skupek metod, ki na podlagi realnih razmerij objektov (značilnosti) omogočajo identifikacijo latentnih (implicitnih) posploševalnih značilnosti organizacijske strukture.

V pogovornem oknu faktorske analize izberite naše spremenljivke, določite potrebne parametre.

riž. 15 Skupna razložena varianca

Glede na tabelo »Skupna razložena varianca« je razvidno, da so bili identificirani 3 dejavniki, ki pojasnjujejo 74,8 % variacij spremenljivk – konstruiran model je precej dober.

Sedaj razlagamo faktorske znake v skladu z "Matriko zasukanih komponent": (slika 16).

riž. 16 Matrica zasukanih komponent

Faktor 1 je najbolj povezan s stopnjo prodaje izdelkov in ima obratno razmerje z neproizvodnimi stroški.

Faktor 2 je najtesneje povezan z deležem nabavnega materiala v celotnih stroških in deležem izgub zaradi zakonske zveze ter je v obratni zvezi z bonusi in prejemki na zaposlenega.

Faktor 3 je najtesneje povezan s stopnjo kapitalske produktivnosti in obračanja obratnih sredstev in je v obratni zvezi s povprečnimi letnimi stroški osnovnih sredstev.

2. Navedite najbolj uspešna in obetavna podjetja.

Za identifikacijo najbolj uspešnih podjetij bomo podatke razvrstili po 3 faktorskih kriterijih v padajočem vrstnem redu. (slika 17)

Upoštevati je treba najbolj uspešna podjetja: 13,4,5, saj na splošno glede na 3 dejavnike njihovi kazalniki zasedajo najvišje in najbolj stabilne položaje.

Poglavje 4. Diskriminantna analiza

Ocena kreditne sposobnosti pravnih oseb v poslovni banki

Kot pomembne kazalnike, ki označujejo finančno stanje posojilojemalcev, je banka izbrala šest kazalnikov (tabela 4.1.1):

QR (X1) - koeficient hitre likvidnosti;

CR (X2) - količnik tekoče likvidnosti;

EQ/TA (X3) - razmerje finančne neodvisnosti;

TD/EQ (X4) - skupne obveznosti do lastniškega kapitala;

ROS (X5) - donosnost prodaje;

FAT (X6) - promet osnovnih sredstev.

Tabela 4.1.1. Začetni podatki


Zahtevano:

Na podlagi diskriminantne analize s paketom SPSS določite, v katero od štirih kategorij spadajo trije kreditojemalci (pravne osebe), ki želijo dobiti posojilo pri poslovni banki:

§ 1. skupina - z odlično finančno uspešnostjo;

§ 2. skupina - z dobro finančno uspešnostjo;

§ 3. skupina - s slabo finančno uspešnostjo;

§ Skupina 4 - z zelo slabo finančno uspešnostjo.

Na podlagi rezultatov izračuna konstruirajte diskriminantne funkcije; ovrednotiti njihovo pomembnost z Wilksovim koeficientom (λ). Zgradite zaznavni zemljevid in diagrame relativnih položajev opazovanj v prostoru treh funkcij. Izvedite interpretacijo rezultatov analize.

napredek:

Da bi ugotovili, v katero od štirih kategorij spadajo trije kreditojemalci, ki želijo dobiti posojilo pri poslovni banki, gradimo diskriminantno analizo, ki nam omogoča, da ugotovimo, v katero od predhodno identificiranih populacij (vzorcev za usposabljanje) je treba dodeliti nove stranke. .

Kot odvisno spremenljivko bomo izbrali skupino, kateri kreditojemalec lahko pripada, odvisno od njegove finančne uspešnosti. Iz podatkov o nalogi se vsaki skupini dodeli ustrezen rezultat 1, 2, 3 in 4.

Nenormalizirani kanonski koeficienti diskriminantnih funkcij, prikazani na sl. 4.1.1 se uporabljajo za sestavo enačbe diskriminantnih funkcij D1(X), D2(X) in D3(X):

3.) D3(X) =


1

(konstantno)

riž. 4.1.1. Koeficienti kanonične diskriminantne funkcije

riž. 4.1.2. Lambda Wilks

Ker pa je pomembnost po Wilksovem koeficientu (slika 4.1.2) druge in tretje funkcije večja od 0,001, ju ni priporočljivo uporabljati za diskriminacijo.

Podatki tabele »Rezultati razvrstitve« (slika 4.1.3) kažejo, da je bila za 100 % opazovanj razvrstitev izvedena pravilno, visoka natančnost je bila dosežena v vseh štirih skupinah (100 %).

riž. 4.1.3. Rezultati razvrstitve

Podatki o dejanskih in predvidenih skupinah za posameznega posojilojemalca so podani v tabeli "Statistika točk" (slika 4.1.4).

Kot rezultat diskriminantne analize je bilo z veliko verjetnostjo ugotovljeno, da novi kreditojemalci banke pripadajo izobraževalni podskupini M1 - prvi, drugi in tretji posojilojemalec (zaporedne številke 41, 42, 43) so razporejeni v podmnožico M1 z ustreznim verjetnosti 100%.

Številka opazovanja

Dejanska skupina

Najverjetneje skupina

Predvidena skupina

nezdružen

nezdružen

nezdružen

riž. 4.1.4. Statistika točk

Koordinate težišč po skupinah so podane v tabeli "Funkcije v težiščih skupine" (slika 4.1.5). Uporabljajo se za izris centroidov na zaznavni zemljevid (slika 4.1.6).

1

riž. 4.1.5. Funkcije v centroidih skupine

riž. 4.1.6. Zemljevid zaznave za dve diskriminantni funkciji D1(X) in D2(X) (* - središče skupine)

Področje »Teritorialnega zemljevida« je po diskriminantnih funkcijah razdeljeno na štiri področja: na levi strani so predvsem opazovanja četrte skupine posojilojemalcev z zelo slabo finančno uspešnostjo, na desni strani - prva skupina z odličnim finančnim poslovanjem, v srednjem in spodnjem delu - tretja in druga skupina posojilojemalcev s slabim oziroma dobrim finančnim poslovanjem.

riž. 4.1.7. Razpršeni graf za vse skupine

Na sl. 4.1.7 prikazuje kombiniran razpored za razdelitev vseh skupin posojilojemalcev skupaj z njihovimi centroidi; z njim je mogoče izvesti primerjalno vizualno analizo narave relativnega položaja skupin bančnih posojilojemalcev glede na finančne kazalnike. Na desni strani grafa so posojilojemalci z visoko uspešnostjo, na levi - z nizko in na sredini - s povprečno finančno uspešnostjo. Ker se je po rezultatih izračuna druga diskriminantna funkcija D2(X) izkazala za nepomembno, so razlike v koordinatah središča vzdolž te osi nepomembne.

Ocena kreditne sposobnosti posameznikov v poslovni banki

Kreditna služba poslovne banke je opravila vzorčno anketo med 30 svojimi komitentami (fizičnimi osebami). Na podlagi predhodne analize podatkov smo posojilojemalce ovrednotili po šestih indikatorjih (tabela 4.2.1):

X1 - posojilojemalec je prej vzel posojilo pri poslovnih bankah;

X2 je povprečni mesečni dohodek družine posojilojemalca, tisoč rubljev;

X3 - rok (obdobje) odplačevanja posojila, leta;

X4 - znesek danega posojila, tisoč rubljev;

X5 - sestava družine posojilojemalca, osebe;

X6 - starost posojilojemalca, leta.

Hkrati so bile opredeljene tri skupine posojilojemalcev glede na verjetnost odplačila posojila:

§ 1. skupina - z nizko verjetnostjo odplačila posojila;

§ 2. skupina - s povprečno verjetnostjo odplačila posojila;

§ 3. skupina - z veliko verjetnostjo odplačila posojila.

Zahtevano:

Na podlagi diskriminantne analize s pomočjo paketa SPSS je treba razvrstiti tri komitente banke (glede na verjetnost odplačila kredita), tj. oceni, ali vsak od njih spada v eno od treh skupin. Na podlagi rezultatov izračuna zgradite pomembne diskriminantne funkcije, ocenite njihovo pomembnost z Wilksovim koeficientom (λ). V prostoru dveh diskriminantnih funkcij za vsako skupino sestavite diagrame medsebojne razporeditve opazovanj in kombiniran diagram. Na teh grafikonih ocenite lokacijo vsakega posojilojemalca. Izvedite interpretacijo rezultatov analize.

Tabela 4.2.1. Začetni podatki

napredek:

Za izgradnjo diskriminantne analize izberemo kot odvisno spremenljivko verjetnost pravočasnega odplačila posojila s strani komitenta. Glede na to, da je lahko nizka, srednja in visoka, bo vsaki kategoriji dodeljena ustrezna ocena 1, 2 in 3.

Nenormalizirani kanonski koeficienti diskriminantnih funkcij, prikazani na sl. 4.2.1 se uporabljajo za sestavo enačbe diskriminantnih funkcij D1(X), D2(X):

2.) D2(X) =

riž. 4.2.1. Koeficienti kanonične diskriminantne funkcije

riž. 4.2.2. Lambda Wilks

Glede na Wilksov koeficient (slika 4.2.2) za drugo funkcijo je signifikantnost večja od 0,001, zato ga ni priporočljivo uporabljati za diskriminacijo.

Podatki tabele "Rezultati razvrstitve" (slika 4.2.3) kažejo, da je bila za 93,3 % opazovanj razvrstitev izvedena pravilno, visoka natančnost je bila dosežena v prvi in ​​drugi skupini (100 % in 91,7 %), manj natančno rezultate smo dobili v tretji skupini (88,9 %).

riž. 4.2.3. Rezultati razvrstitve

Informacije o dejanskih in predvidenih skupinah za vsako stranko so podane v tabeli "Statistika točk" (slika 4.2.4).

Kot rezultat diskriminantne analize je bilo z veliko verjetnostjo ugotovljeno, da nove komitente banke pripadajo izobraževalni podskupini M3 - prva, druga in tretja komitenta (serijske številke 31, 32, 33) so dodeljene podmnožici M3 z ustrezne verjetnosti 99%, 99% in 100%.

Številka opazovanja

Dejanska skupina

Najverjetneje skupina

Predvidena skupina

nezdružen

nezdružen

nezdružen

riž. 4.2.4. Statistika točk

Verjetnost odplačila posojila

riž. 4.2.5. Funkcije v centroidih skupine

Koordinate težišč po skupinah so podane v tabeli "Funkcije v težiščih skupine" (slika 4.2.5). Uporabljajo se za izris centroidov na zaznavni zemljevid (slika 4.2.6).

Polje "Teritorialni zemljevid" je z diskriminantnimi funkcijami razdeljeno na tri področja: na levi strani so predvsem opazovanja prve skupine strank z zelo nizko verjetnostjo odplačevanja posojila, na desni strani - tretja skupina z veliko verjetnostjo. , v srednji - druga skupina strank s povprečno verjetnostjo odplačila posojila.

Na sl. 4.2.7 (a - c) odraža lokacijo strank vsake od treh skupin na ravnini dveh diskriminantnih funkcij D1(X) in D2(X). Na podlagi teh grafov je mogoče izvesti podrobno analizo verjetnosti odplačevanja posojila znotraj posamezne skupine, presoditi naravo porazdelitve strank in oceniti stopnjo njihove oddaljenosti od ustreznega centra.

riž. 4.2.6. Zemljevid zaznave za tri diskriminantne funkcije D1(X) in D2(X) (* - središče skupine)

Tudi na sl. 4.2.7 (d) v istem koordinatnem sistemu je prikazan združen graf porazdelitve vseh skupin strank skupaj z njihovimi središči; z njim je mogoče izvesti primerjalno vizualno analizo narave relativnega položaja skupin komitentov banke z različnimi verjetnostmi odplačila posojila. Na levi strani grafa so posojilojemalci z veliko verjetnostjo odplačevanja posojila, na desni - z majhno verjetnostjo in v srednjem delu - s povprečno verjetnostjo. Ker se je po rezultatih izračuna druga diskriminantna funkcija D2(X) izkazala za nepomembno, so razlike v koordinatah središča vzdolž te osi nepomembne.

riž. 4.2.7. Lokacija opazovanj na ravnini dveh diskriminantnih funkcij za skupine z nizko (a), srednjo (b), visoko (c) verjetnostjo odplačila posojila in za vse skupine (d)

Bibliografija

1. »Multivarantna statistična analiza v ekonomskih problemih. Računalniško modeliranje v SPSS«, 2009

2. Orlov A.I. "Uporabna statistika" M .: Založba "Izpit", 2004

3. Fisher R.A. "Statistične metode za raziskovalce", 1954

4. Kalinina V.N., Solovjev V.I. Učbenik "Uvod v multivariatno statistično analizo" SUM, 2003;

5. Achim Buyul, Peter Zöfel, SPSS: Umetnost obdelave informacij, DiaSoft Publishing, 2005;

6. http://ru.wikipedia.org/wiki

Vam je bil članek všeč? Deli