Contacte

Analiză statistică multivariată. Introducere în analiza statistică multivariată. Concepte de bază ale metodei analizei factoriale, esența sarcinilor pe care le rezolvă

Există situații în care variabilitatea aleatoare era reprezentată de una sau două variabile aleatoare, semne.

De exemplu, atunci când studiem o populație statistică de oameni, ne interesează înălțimea și greutatea. În această situație, indiferent cât de mulți oameni sunt în populația statistică, putem întotdeauna să trasăm un grafic dispersat și să vedem întreaga imagine. Cu toate acestea, dacă există trei caracteristici, de exemplu, se adaugă o caracteristică - vârsta unei persoane, atunci graficul de dispersie trebuie construit în spațiu tridimensional. Reprezentarea unui set de puncte în spațiul tridimensional este deja destul de dificilă.

În realitate, în practică, fiecare observație este reprezentată nu de unul, două sau trei numere, ci de un set vizibil de numere care descriu zeci de caracteristici. În această situație, pentru a construi un scatterplot, ar fi necesar să se ia în considerare spațiile multidimensionale.

Ramura statisticii dedicata studiului experimentelor cu observatii multivariate se numeste analiza statistica multivariata.

Măsurarea mai multor caracteristici (proprietăți ale unui obiect) simultan într-un experiment este în general mai naturală decât măsurarea oricăruia sau a două. Prin urmare, analiza statistică potențial multivariată are un domeniu larg de aplicare.

Analiza statistică multivariată include următoarele secțiuni:

Analiza factorilor;

Analiză discriminantă;

analiza grupului;

Scalare multidimensională;

Metode de control al calității.

Analiza factorilor

În studiul obiectelor și sistemelor complexe (de exemplu, în psihologie, biologie, sociologie etc.), cantitățile (factorii) care determină proprietățile acestor obiecte de foarte multe ori nu pot fi măsurate direct și, uneori, chiar numărul și semnificația lor semnificativă. nu sunt cunoscute. Dar alte cantități pot fi disponibile pentru măsurare, într-un fel sau altul în funcție de factorii de interes. Mai mult, atunci când influența unui factor necunoscut care ne interesează se manifestă în mai multe trăsături măsurate, aceste trăsături pot arăta o relație strânsă între ele, iar numărul total de factori poate fi mult mai mic decât numărul de variabile măsurate.

Metodele de analiză factorială sunt utilizate pentru a identifica factorii care influențează variabilele măsurate.

Un exemplu de utilizare a analizei factoriale este studiul trăsăturilor de personalitate pe baza unor teste psihologice. Proprietățile personalității nu sunt susceptibile de măsurare directă, ele pot fi judecate doar după comportamentul unei persoane sau natura răspunsurilor la anumite întrebări. Pentru a explica rezultatele experimentelor, acestea sunt supuse unei analize factoriale, ceea ce face posibilă identificarea acelor proprietăți personale care influențează comportamentul indivizilor testați.


Diverse modele de analiză factorială se bazează pe următoarea ipoteză: parametrii observați sau măsurați sunt doar caracteristici indirecte ale obiectului sau fenomenului studiat; de fapt, există interne (ascunse, latent, neobservabile direct) parametri și proprietăți, al căror număr este mic și care determină valorile parametrilor observați. Acești parametri interni se numesc factori.

Sarcina analizei factoriloreste reprezentarea parametrilor observați sub formă de combinații liniare de factori și, poate, unele perturbații suplimentare, nesemnificative.

Prima etapă a analizei factorilor, de regulă, este selecția de noi caracteristici, care sunt combinații liniare ale celor dintâi și „absorb” cea mai mare parte a variabilității totale a datelor observate și, prin urmare, transmit cea mai mare parte a informațiilor conținute în observatii originale. Acest lucru se face de obicei folosind metoda componentelor principale, deși uneori se folosesc alte tehnici (metoda maximei probabilități).

Metoda componentelor principale se reduce la alegerea unui nou sistem de coordonate ortogonale în spațiul de observație. Direcția de-a lungul căreia șirul de observații are cea mai mare împrăștiere este aleasă ca primă componentă principală, fiecare componentă principală ulterioară este selectată astfel încât împrăștierea observațiilor să fie maximă și această componentă principală să fie ortogonală cu alte componente principale selectate mai devreme. Cu toate acestea, factorii obținuți prin metoda componentelor principale nu se pretează de obicei la o interpretare suficient de vizuală. Prin urmare, următorul pas în analiza factorială este transformarea, rotația factorilor pentru a facilita interpretarea.

Analiza discriminantă

Să existe un set de obiecte împărțit în mai multe grupuri, iar pentru fiecare obiect este posibil să se determine cărui grup îi aparține. Pentru fiecare obiect există măsurători cu mai multe caracteristici cantitative. Este necesar să găsiți o modalitate prin care, pe baza acestor caracteristici, puteți afla grupul căruia îi aparține obiectul. Acest lucru vă va permite să specificați grupurile cărora le aparțin obiectele noi din aceeași colecție. Pentru a rezolva problema, aplicați metode de analiză discriminantă.

Analiza discriminantă- aceasta este o secțiune de statistică, al cărei conținut este dezvoltarea unor metode de rezolvare a problemelor de distincție (discriminare) a obiectelor de observație în funcție de anumite caracteristici.

Să ne uităm la câteva exemple.

Analiza discriminantă se dovedește a fi la îndemână în gestionarea rezultatelor testelor persoanelor fizice atunci când vine vorba de angajarea pentru o anumită poziție. În acest caz, este necesar să se împartă toți candidații în două grupuri: „potriviți” și „nepotriviți”.

Utilizarea analizei discriminante este posibilă de către administrația bancară pentru a evalua situația financiară a afacerilor clienților atunci când le acordă un împrumut. Banca, în funcție de o serie de caracteristici, le clasifică în fiabile și nesigure.

Analiza discriminantă poate fi utilizată ca metodă de împărțire a unui set de întreprinderi în mai multe grupuri omogene în funcție de valorile oricăror indicatori de producție și activitate economică.

Metodele de analiză discriminantă fac posibilă construirea de funcții ale caracteristicilor măsurate, ale căror valori explică împărțirea obiectelor în grupuri. Este de dorit ca aceste funcții (trăsături discriminatorii) a fost un pic. În acest caz, rezultatele analizei sunt mai ușor de interpretat în mod semnificativ.

Datorită simplității sale, analiza discriminantă liniară joacă un rol deosebit, în care caracteristicile de clasificare sunt alese ca funcții liniare ale caracteristicilor primare.

analiza grupului

Metodele de analiză a clusterelor fac posibilă împărțirea setului studiat de obiecte în grupuri de obiecte „similare”, numite clustere.

Cuvânt cluster de origine engleză - cluster se traduce ca perie, ciorchine, grupare, roi, ciorchine.

Analiza cluster rezolvă următoarele sarcini:

Realizează clasificarea obiectelor, ținând cont de toate acele trăsături care caracterizează obiectul. Însăși posibilitatea clasificării ne avansează la o înțelegere mai profundă a totalității luate în considerare și a obiectelor incluse în ea;

Stabilește sarcina de a verifica prezența unei structuri sau clasificări date a priori în populația existentă. O astfel de verificare face posibilă utilizarea schemei standard ipotetico-deductive a cercetării științifice.

Cele mai multe metode de grupare (grup ierarhic) sunt aglomerativ(unificatoare) - încep cu crearea de clustere elementare, fiecare dintre ele constând dintr-o observație inițială (un punct), iar la fiecare pas ulterior, cele două clustere cele mai apropiate sunt combinate într-unul singur.

Momentul opririi acestui proces poate fi stabilit de către cercetător (de exemplu, prin specificarea numărului necesar de clustere sau a distanței maxime la care se realizează unirea).

O reprezentare grafică a procesului de combinare a clusterelor poate fi obținută folosind dendrograme- un arbore de unire cluster.

Luați în considerare următorul exemplu. Să clasificăm cinci întreprinderi, fiecare dintre acestea fiind caracterizată de trei variabile:

x 1– costul mediu anual al activelor fixe de producție, miliarde de ruble;

x 2- costuri materiale pentru 1 rub. produse manufacturate, kop.;

x 3- volumul produselor fabricate, miliarde de ruble.

Manualul a fost creat pe baza experienței autorului în predarea cursurilor de analiză statistică multivariată și econometrie. Conține materiale despre discriminant, factorial, regresie, analiza corespondenței și teoria seriilor temporale. Sunt prezentate abordări ale problemelor de scalare multidimensională și alte probleme ale statisticii multivariate.

Gruparea și cenzura.
Sarcina de a forma grupuri de date eșantioane în așa fel încât datele grupate să poată furniza aproape aceeași cantitate de informații pentru luarea deciziilor ca eșantionul înainte de grupare este rezolvată de cercetător în primul rând. Scopurile grupării, de regulă, sunt de a reduce cantitatea de informații, de a simplifica calculele și de a face datele mai vizibile. Unele teste statistice se concentrează inițial pe lucrul cu un eșantion grupat. În anumite aspecte, problema grupării este foarte apropiată de problema clasificării, care va fi discutată mai detaliat mai jos. Concomitent cu sarcina grupării, cercetătorul rezolvă și problema cenzurării eșantionului, adică. excluderea din acesta a datelor periferice, care, de regulă, sunt rezultatul unor erori de observație grosolane. Desigur, este de dorit să se asigure absența unor astfel de erori chiar și în cursul observațiilor în sine, dar acest lucru nu este întotdeauna posibil. Cele mai simple metode de rezolvare a acestor două probleme sunt discutate în acest capitol.

Cuprins
1 Informații preliminare
1.1 Analiză și algebră
1.2 Teoria probabilității
1.3 Statistici matematice
2 Distribuții multivariate
2.1 Vectori aleatori
2.2 Independenta
2.3 Caracteristici numerice
2.4 Distribuția normală în cazul multivariat
2.5 Teoria corelației
3 Gruparea și cenzura
3.1 Gruparea unidimensională
3.2 Cenzura unidimensională
3.3 Încrucișarea tabelelor
3.3.1 Ipoteza independenței
3.3.2 Ipoteza omogenității
3.3.3 Câmp de corelare
3.4 Gruparea multidimensională
3.5 Cenzura multidimensională
4 Date nenumerice
4.1 Observații introductive
4.2 Scale de comparare
4.3 Judecata expertului
4.4 Grupuri de experți
5 seturi de încredere
5.1 Intervale de încredere
5.2 Seturi de încredere
5.2.1 Parametru multidimensional
5.2.2 Eșantionarea multivariată
5.3 Seturi tolerante
5.4 Probă mică
6 Analiza de regresie
6.1 Declarația problemei
6.2 Căutarea GMS
6.3 Restricții
6.4 Matricea planului
6.5 Prognoza statistică
7 Analiza varianței
7.1 Observații introductive
7.1.1 Normalitate
7.1.2 Omogenitatea dispersiilor
7.2 Un factor
7.3 Doi factori
7.4 Caz general
8 Reducerea dimensionalității
8.1 De ce este necesară clasificarea
8.2 Model și exemple
8.2.1 Analiza componentelor principale
8.2.2 Grupare extremă de caracteristici
8.2.3 Scalare multidimensională
8.2.4 Selectarea indicatorilor pentru analiza discriminantă
8.2.5 Selectarea caracteristicilor într-un model de regresie
9 Analiză discriminantă
9.1 Aplicabilitatea modelului
9.2 Regula predictivă liniară
9.3 Recomandări practice
9.4 Un exemplu
9.5 Mai mult de două clase
9.6 Verificarea calității discriminării
10 metode euristice
10.1 Grupare extremă
10.1.1 Criteriul pătratelor
10.1.2 Criteriul modulului
10 2 Metoda Pleiadelor
11 Analiza componentelor principale
11 1 Enunțarea problemei
112 Calculul componentelor principale
11.3 Exemplu
114 Proprietățile componentelor principale
11.4.1 Auto-reproductibilitatea
11.4.2 Proprietăţi geometrice
12 Analiza factorială
12.1 Enunțarea problemei
12.1.1 Comunicarea cu componentele principale
12.1.2 Decizie fără ambiguitate
12.2 Model matematic
12.2.1 Condiții pentru At A
12.2.2 Condiții pe matricea de sarcină. metoda centroidului
12.3 Factori latenți
12.3.1 Metoda Bartlett
12.3.2 Metoda Thomson
12.4 Exemplu
13 Digitalizare
13.1 Analiza corespondenței
13.1.1 Distanța chi-pătrat
13.1.2 Digitalizare pentru probleme de analiză discriminantă
13.2 Mai mult de două variabile
13.2.1 Utilizarea unei matrice de date binare ca matrice de mapare
13.2.2 Corelații maxime
13.3 Dimensiunea
13.4 Exemplu
13.5 Caz de date mixte
14 Scalare multidimensională
14.1 Observații introductive
14.2 Modelul Thorgerson
14.2.1 Criteriul de stres
14.3 Algoritmul lui Thorgerson
14.4 Diferențele individuale
15 Serii de timp
15.1 Generalități
15.2 Criterii aleatorii
15.2.1 Vârfuri și gropi
15.2.2 Distribuția lungimii de fază
15.2.3 Criterii bazate pe corelarea rangului
15.2.4 Corelogramă
15.3 Tendință și sezonalitate
15.3.1 Tendințe polinomiale
15.3.2 Selectarea gradului de tendință
15.3.3 Netezire
15.3.4 Estimarea fluctuațiilor sezoniere
O distribuție normală
În distribuția X2
Cu distribuția t a lui Student
D Distribuția Fisher.


Descărcați gratuit cărți electronice într-un format convenabil, vizionați și citiți:
Descarcă cartea Analiză statistică multivariată, Dronov SV, 2003 - fileskachat.com, descărcare rapidă și gratuită.

Descărcați pdf
Mai jos puteți cumpăra această carte la cel mai bun preț redus cu livrare în toată Rusia.

Analiza dispersiei.

Scopul analizei varianței este de a testa semnificația statistică a diferenței dintre medii (pentru grupuri sau variabile). Această verificare se realizează prin împărțirea sumei pătratelor în componente, adică prin împărțirea variației totale (variația) în părți, dintre care una se datorează erorii aleatorii (adică variabilitatea intragrup), iar a doua este asociată cu diferența de valori medii. Ultima componentă a varianței este apoi utilizată pentru a analiza semnificația statistică a diferenței dintre medii. Dacă această diferență semnificativ, ipoteza nulă respinsși se acceptă o ipoteză alternativă că există o diferență între mijloace.

Împărțirea sumei pătratelor. Pentru o dimensiune a eșantionului de n, varianța eșantionului este calculată ca suma abaterilor pătrate de la media eșantionului împărțită la n-1 (dimensiunea eșantionului minus unu). Astfel, pentru o dimensiune fixă ​​a eșantionului n, varianța este o funcție a sumei pătratelor (abaterilor). Analiza varianței se bazează pe împărțirea varianței în părți sau componente, adică Eșantionul este împărțit în două părți în care se calculează media și suma abaterilor pătrate. Calculul acelorași indicatori pentru eșantion în ansamblu dă o valoare mai mare a dispersiei, ceea ce explică discrepanța dintre mediile grupului. Astfel, analiza varianței permite explicarea variabilității intragrup, care nu poate fi modificată atunci când se studiază întregul grup ca întreg.

Testarea semnificației în ANOVA se bazează pe compararea componentei varianței datorate între grupuri și a componentei varianței datorată răspândirii în interiorul grupului (numită eroare pătratică medie). Dacă ipoteza nulă este corectă (egalitatea mediilor în cele două populații), atunci ne putem aștepta la o diferență relativ mică în mediile eșantionului din cauza variabilității pur aleatoare. Prin urmare, sub ipoteza nulă, varianța intra-grup va coincide aproape cu varianța totală calculată fără a lua în considerare apartenența la grup. Varianțele obținute în cadrul grupului pot fi comparate utilizând testul F, care testează dacă raportul varianțelor este într-adevăr semnificativ mai mare decât 1.

Avantaje: 1) analiza varianţei este mult mai eficientă şi, pentru eşantioane mici, deoarece mai informativ; 2) analiza varianței vă permite să detectați efecte interacțiuniîntre factori și, prin urmare, permite testarea unor ipoteze mai complexe

Metoda componentelor principale constă în reducerea dimensionalității liniare, în care se determină direcții ortogonale perechi de variație maximă a datelor de intrare, după care datele sunt proiectate în spațiul de dimensiune inferioară generat de componentele cu cea mai mare variație.

Analiza componentelor principale este o parte a analizei factoriale, care constă în combinarea a două variabile corelate într-un singur factor. Dacă exemplul cu două variabile este extins pentru a include mai multe variabile, calculele devin mai complexe, dar principiul de bază al reprezentării a două sau mai multe variabile dependente de un singur factor rămâne valabil.

La reducerea numărului de variabile, decizia cu privire la momentul în care să se oprească procedura de extracție a factorilor depinde în principal de punctul de vedere a ceea ce contează ca variabilitate mică „aleatoare”. Cu iterații repetate, se disting factorii cu varianță din ce în ce mai mică.

Metoda centroidă pentru determinarea factorilor.

Metoda centroidului este utilizată în analiza clusterului. În această metodă, distanța dintre două clustere este definită ca distanța dintre centrele lor de greutate în metoda centroidului neponderat.

Metoda centroidului ponderat (mediana) este identică cu metoda neponderată, cu excepția faptului că ponderile sunt utilizate în calcule pentru a lua în considerare diferența dintre dimensiunile clusterului (adică, numărul de obiecte din ele). Prin urmare, dacă există (sau sunt suspectate) diferențe semnificative în dimensiunea clusterelor, această metodă este de preferat celei anterioare.

analiza grupului.

Termenul de analiză de cluster include de fapt un set de algoritmi de clasificare diferiți. O întrebare comună adresată de cercetători din multe domenii este cum să organizăm datele observate în structuri vizuale, de ex. identifica grupuri de obiecte similare. De fapt, analiza cluster nu este atât o metodă statistică obișnuită, cât un „set” de diverși algoritmi pentru „distribuirea obiectelor în clustere”. Există un punct de vedere că, spre deosebire de multe alte proceduri statistice, metodele de analiză a clusterelor sunt folosite în majoritatea cazurilor când nu aveți nicio ipoteză a priori despre clase, dar sunteți încă în stadiul descriptiv al cercetării. Trebuie înțeles că analiza cluster determină „decizia cea mai semnificativă”.

Algoritmul de grupare a arborilor. Scopul acestui algoritm este de a combina obiecte în grupuri suficient de mari folosind o anumită măsură a asemănării sau distanței dintre obiecte. Un rezultat tipic al unei astfel de grupări este un arbore ierarhic, care este o diagramă. Diagrama începe cu fiecare obiect din clasă (în partea stângă a diagramei). Acum imaginați-vă că treptat (în pași foarte mici) vă „slăbiți” criteriul pentru ce obiecte sunt unice și ce nu sunt. Cu alte cuvinte, coborâți pragul legat de decizia de a combina două sau mai multe obiecte într-un singur cluster. Ca rezultat, legați din ce în ce mai multe obiecte împreună și agregați (combinați) tot mai multe grupuri de elemente din ce în ce mai diferite. În cele din urmă, în ultimul pas, toate obiectele sunt îmbinate. În aceste diagrame, axele orizontale reprezintă distanța de pooling (în dendrogramele verticale, axele verticale reprezintă distanța de pooling). Deci, pentru fiecare nod din grafic (unde se formează un cluster nou), puteți vedea distanța pentru care elementele corespunzătoare sunt legate într-un singur cluster nou. Când datele au o „structură” clară în ceea ce privește grupurile de obiecte care sunt similare între ele, atunci această structură este probabil să fie reflectată în arborele ierarhic prin diferite ramuri. Ca rezultat al analizei cu succes prin metoda join, devine posibil să se detecteze clustere (ramuri) și să le interpreteze.

Analiza discriminantă este utilizată pentru a decide care variabile disting (discrimina) între două sau mai multe populații (grupuri) emergente. Cea mai comună aplicație a analizei discriminante este includerea mai multor variabile într-un studiu pentru a le determina pe cele care separă cel mai bine populațiile unele de altele. Cu alte cuvinte, doriți să construiți un „model” care prezice cel mai bine cărei populații îi va aparține un anumit eșantion. În următoarea discuție, termenul „în model” va fi folosit pentru a se referi la variabilele utilizate în prezicerea apartenenței populației; despre variabilele care nu sunt folosite pentru aceasta, vom spune că sunt „în afara modelului”.

În analiza pas cu pas a funcțiilor discriminante, modelul de discriminare este construit pas cu pas. Mai precis, la fiecare pas, toate variabilele sunt analizate și se găsește cea care aduce cea mai mare contribuție la diferența dintre mulțimi. Această variabilă trebuie inclusă în model la acest pas și are loc trecerea la pasul următor.

De asemenea, se poate merge în direcția opusă, caz în care toate variabilele vor fi incluse mai întâi în model, iar apoi variabilele care contribuie puțin la predicții vor fi eliminate la fiecare pas. Apoi, în urma unei analize reușite, pot fi stocate doar variabilele „importante” din model, adică acele variabile a căror contribuție la discriminare este mai mare decât celelalte.

Această procedură pas cu pas este „ghidată” de valoarea F corespunzătoare pentru includere și valoarea F corespunzătoare pentru excludere. Valoarea F a unei statistici pentru o variabilă indică semnificația sa statistică în discriminarea între populații, adică este o măsură a contribuției variabilei la prezicerea apartenenței populației.

Pentru două grupuri, analiza discriminantă poate fi considerată și o procedură de regresie multiplă. Dacă codificați două grupuri ca 1 și 2 și apoi utilizați aceste variabile ca variabile dependente într-o regresie multiplă, veți obține rezultate similare cu cele pe care le-ați obține cu analiza discriminantă. În general, în cazul a două populații, potriviți o ecuație liniară de următorul tip:

Grupa = a + b1*x1 + b2*x2 + ... + bm*xm

unde a este o constantă și b1...bm sunt coeficienții de regresie. Interpretarea rezultatelor problemei cu două populații urmează îndeaproape logica aplicării regresiei multiple: variabilele cu cei mai mari coeficienți de regresie contribuie cel mai mult la discriminare.

Dacă există mai mult de două grupuri, atunci pot fi evaluate mai mult de o funcție discriminantă, similar cu ceea ce sa făcut mai devreme. De exemplu, atunci când există trei populații, puteți evalua: (1) o funcție pentru a discrimina între populația 1 și populațiile 2 și 3 luate împreună și (2) o altă funcție pentru a discrimina între populația 2 și populația 3. De exemplu, dvs. poate avea o funcție de discriminare între acei absolvenți de liceu care merg la facultate față de cei care nu o fac (dar doresc să obțină un loc de muncă sau să meargă la școală) și o a doua funcție de a discrimina acei absolvenți care doresc să obțină un loc de muncă față de cei care nu.care vrea să meargă la școală. Coeficienții b din aceste funcții discriminante pot fi interpretați în același mod ca înainte.

Corelația canonică.

Analiza canonică este concepută pentru a analiza dependențele dintre listele de variabile. Mai precis, vă permite să explorați relația dintre două seturi de variabile. La calcularea rădăcinilor canonice, se calculează valorile proprii ale matricei de corelație. Aceste valori sunt egale cu proporția de varianță explicată prin corelația dintre variabilele canonice respective. În acest caz, ponderea rezultată este calculată în raport cu dispersia variabilelor canonice, i.e. sume ponderate pe două seturi de variabile; astfel, valorile proprii nu prezintă sensul absolut explicat în variabilele canonice respective.

Dacă luăm rădăcina pătrată a valorilor proprii obținute, obținem un set de numere care pot fi interpretate ca coeficienți de corelație. Deoarece sunt variabile canonice, ele sunt numite și corelații canonice. La fel ca și valorile proprii, corelațiile dintre variabilele canonice extrase secvenţial la fiecare pas scad. Cu toate acestea, alte variabile canonice pot fi, de asemenea, corelate semnificativ, iar aceste corelații permit adesea o interpretare destul de semnificativă.

Criteriul de semnificație a corelațiilor canonice este relativ simplu. În primul rând, corelațiile canonice sunt evaluate una după alta, în ordine descrescătoare. Doar acele rădăcini care s-au dovedit a fi semnificative din punct de vedere statistic sunt lăsate pentru analiză ulterioară. Deși în realitate calculele sunt puțin diferite. Programul evaluează mai întâi semnificația întregului set de rădăcini, apoi semnificația setului rămas după îndepărtarea primei rădăcini, a celei de-a doua rădăcini și așa mai departe.

Studiile au arătat că testul utilizat detectează corelații canonice mari chiar și cu o dimensiune mică a eșantionului (de exemplu, n = 50). Corelațiile canonice slabe (de exemplu R = .3) necesită ca eșantionul de dimensiuni mari (n > 200) să fie detectat în 50% din timp. Rețineți că corelațiile canonice de dimensiuni mici nu au, de obicei, nicio valoare practică, deoarece corespund unei mici variații reale a datelor originale.

Greutăți canonice. După determinarea numărului de rădăcini canonice semnificative, se pune problema interpretării fiecărei rădăcini (semnificative). Amintiți-vă că fiecare rădăcină reprezintă de fapt două sume ponderate, una pentru fiecare set de variabile. O modalitate de interpretare a „sensului” fiecărei rădăcini canonice este de a lua în considerare ponderile asociate fiecărui set de variabile. Aceste greutăți sunt numite și greutăți canonice.

În analiză, se folosește de obicei că, cu cât ponderea atribuită este mai mare (adică valoarea absolută a ponderii), cu atât contribuția variabilei corespunzătoare la valoarea variabilei canonice este mai mare.

Dacă sunteți familiarizat cu regresia multiplă, puteți utiliza interpretarea ponderilor canonice utilizată pentru ponderile beta din ecuația de regresie multiplă. Greutățile canonice sunt, într-un sens, analoge cu corelațiile parțiale ale variabilelor corespunzătoare rădăcinii canonice. Astfel, luarea în considerare a ponderilor canonice face posibilă înțelegerea „sensului” fiecărei rădăcini canonice, i.e. vezi cum variabilele specifice din fiecare set afectează suma ponderată (adică variabila canonică).

Metode parametrice și neparametrice de evaluare a rezultatelor.

Metode parametrice bazate pe distribuția prin eșantionare a anumitor statistici. Pe scurt, dacă cunoașteți distribuția variabilei observate, puteți prezice modul în care statisticile utilizate se vor „comporta” în eșantioane repetate de mărime egală - i.e. cum va fi distribuit.

În practică, utilizarea metodelor parametrice este limitată din cauza volumului sau mărimii probei disponibile pentru analiză; probleme cu măsurarea precisă a caracteristicilor obiectului observat

Astfel, este nevoie de proceduri care să gestioneze date de „calitate scăzută” de la dimensiuni mici ale eșantionului cu variabile a căror distribuție este puțin sau deloc cunoscută. Metodele neparametrice sunt concepute doar pentru acele situații care apar adesea în practică, când cercetătorul nu știe nimic despre parametrii populației studiate (de unde și denumirea metodelor - neparametrică). În termeni mai tehnici, metodele neparametrice nu se bazează pe estimarea parametrilor (cum ar fi media sau abaterea standard) în descrierea distribuției de eșantionare a cantității de interes. Prin urmare, aceste metode sunt uneori numite și fără parametri sau distribuite liber.

În esență, pentru fiecare test parametric există cel puțin un omolog neparametric. Aceste criterii pot fi clasificate în una din următoarele grupe:

criterii pentru diferențele dintre grupuri (eșantioane independente);

criterii pentru diferențele dintre grupuri (eșantioane dependente);

criterii de dependență între variabile.

Diferențele între grupuri independente. De obicei, atunci când există două eșantioane (de exemplu, bărbați și femei) pe care doriți să le comparați cu media unei variabile de interes, utilizați un test t pentru independenți. Alternativele neparametrice la acest test sunt: ​​testul din seria Wald-Wolfowitz, testul Mann-Whitney U și testul Kolmogorov-Smirnov cu două eșantioane. Dacă aveți mai multe grupuri, puteți utiliza ANOVA. Omoloagele săi neparametrice sunt: ​​analiza rangului Kruskal-Wallis a varianței și testul median.

Diferențele dintre grupurile dependente. Dacă doriți să comparați două variabile care aparțin aceluiași eșantion (de exemplu, performanța la matematică a studenților la începutul și la sfârșitul semestrului), atunci se folosește de obicei testul t pentru eșantioanele dependente. Testele alternative neparametrice sunt: ​​testul semnului și testul Wilcoxon al comparațiilor perechi. Dacă variabilele în cauză sunt de natură categorică sau sunt clasificate (adică reprezentate ca frecvențe care se încadrează în anumite categorii), atunci testul chi-pătrat al lui McNemar va fi adecvat. Dacă sunt luate în considerare mai mult de două variabile din același eșantion, se utilizează de obicei analiza de varianță cu măsuri repetate (ANOVA). O metodă alternativă neparametrică este analiza varianței lui Friedman sau testul Q al lui Cochran (cel din urmă este folosit, de exemplu, dacă variabila este măsurată pe o scară nominală). Testul Q al lui Cochran este, de asemenea, utilizat pentru a evalua schimbările de frecvență (acțiuni).

Dependențe între variabile. Pentru a evalua dependența (relația) dintre două variabile se calculează de obicei coeficientul de corelație. Analogii neparametrici ai coeficientului de corelație Pearson standard sunt statistica R a lui Spearman, tau al lui Kendall și coeficientul Gamma. În plus, este disponibil un criteriu de dependență între mai multe variabile, așa-numitul coeficient de concordanță al lui Kendall. Acest test este adesea folosit pentru a evalua coerența opiniilor experților independenți (judecători), în special, scorurile acordate aceluiași subiect.

Dacă datele nu sunt distribuite în mod normal și măsurătorile conțin în cel mai bun caz informații clasificate, atunci calcularea statisticilor descriptive obișnuite (de exemplu, medie, abatere standard) nu este foarte informativă. De exemplu, este bine cunoscut în psihometrie că intensitatea percepută a stimulilor (de exemplu, luminozitatea percepută a luminii) este o funcție logaritmică a intensității reale (luminanța măsurată în unități obiective, lux). În acest exemplu, estimarea obișnuită a mediei (suma valorilor împărțită la numărul de stimuli) nu oferă o idee corectă a valorii medii a intensității stimulului real. (În exemplul discutat, media geometrică ar trebui mai degrabă calculată.) Statisticile neparametrice calculează un set divers de măsuri de poziție (medie, mediană, mod etc.) și dispersie (varianță, medie armonică, interval de quartile etc.) la reprezintă mai mult „imaginea de ansamblu” a datelor.

Obiectele sociale și economice, de regulă, se caracterizează printr-un număr destul de mare de parametri care formează vectori multidimensionali, iar problemele studierii relațiilor dintre componentele acestor vectori sunt de o importanță deosebită în studiile economice și sociale, iar aceste relații trebuie să fie identificate pe baza unui număr limitat de observații multidimensionale.

Analiza statistică multivariată este o secțiune de statistică matematică care studiază metodele de colectare și prelucrare a datelor statistice multivariate, sistematizarea și prelucrarea acestora în vederea identificării naturii și structurii relațiilor dintre componentele atributului multivariat studiat, precum și pentru a trage concluzii practice.

Rețineți că metodele de colectare a datelor pot varia. Deci, dacă economia mondială este studiată, atunci este firesc să luăm țări ca obiecte pe care se observă valorile vectorului X, dar dacă se studiază sistemul economic național, atunci este firesc să se observe valorile. a vectorului X în aceeași țară (de interes pentru cercetător) în momente diferite în timp.

Metodele statistice precum corelația multiplă și analiza regresiei sunt în mod tradițional studiate în cadrul cursurilor de teoria probabilităților și statistică matematică, disciplina „Econometrie” este dedicată luării în considerare a aspectelor aplicate ale analizei de regresie.

Acest manual este dedicat altor metode de studiu a populațiilor generale multivariate bazate pe date statistice.

Metodele de reducere a dimensiunii unui spațiu multidimensional permit, fără pierderi semnificative de informații, trecerea de la sistemul original al unui număr mare de factori interrelaționați observați la un sistem al unui număr semnificativ mai mic de factori ascunși (neobservabili) care determină variația caracteristicile inițiale. Primul capitol descrie metodele de analiză componente și factori, care pot fi utilizate pentru a identifica modele existente în mod obiectiv, dar nu direct observabile, folosind componente sau factori principali.

Metodele de clasificare multidimensională sunt concepute pentru a împărți colecțiile de obiecte (caracterizate printr-un număr mare de caracteristici) în clase, fiecare dintre acestea ar trebui să includă obiecte care sunt omogene sau similare într-un anumit sens. O astfel de clasificare bazată pe date statistice cu privire la valorile caracteristicilor obiectelor poate fi realizată folosind metodele de analiză cluster și discriminantă, discutate în al doilea capitol (Analiza statistică multivariată folosind „STATISTICA”).

Dezvoltarea tehnologiei informatice și a software-ului contribuie la introducerea pe scară largă în practică a metodelor de analiză statistică multivariată. Pachetele de aplicații cu o interfață de utilizator convenabilă, cum ar fi SPSS, Statistica, SAS etc., îndepărtează dificultățile în aplicarea acestor metode, care sunt complexitatea aparatului matematic bazat pe algebra liniară, teoria probabilității și statisticile matematice și calculele greoaie. .

Cu toate acestea, utilizarea programelor fără a înțelege esența matematică a algoritmilor utilizați contribuie la dezvoltarea iluziei cercetătorului privind simplitatea utilizării metodelor statistice multivariate, ceea ce poate duce la rezultate incorecte sau nerezonabile. Rezultate practice semnificative pot fi obținute doar pe baza cunoștințelor profesionale din domeniul de studiu, susținute de cunoașterea metodelor matematice și a pachetelor de aplicații în care sunt implementate aceste metode.

Prin urmare, pentru fiecare dintre metodele luate în considerare în această carte se oferă informații teoretice de bază, inclusiv algoritmi; se discută implementarea acestor metode și algoritmi în pachetele de aplicații. Metodele luate în considerare sunt ilustrate cu exemple de aplicare practică a acestora în economie folosind pachetul SPSS.

Manualul este scris pe baza experienței de citire a cursului „Metode statistice multivariante” către studenții Universității de Stat de Management. Pentru un studiu mai detaliat al metodelor de analiză statistică multivariată aplicată se recomandă cărți.

Se presupune că cititorul cunoaște bine cursurile de algebră liniară (de exemplu, în volumul manualului și apendicele la manual), teoria probabilităților și statistica matematică (de exemplu, în volumul manualului).

Introducere

Capitolul 1 Analiza regresiei multiple

Capitolul 2. Analiza clusterelor

Capitolul 3. Analiza factorială

Capitolul 4. Analiza discriminantă

Bibliografie

Introducere

Informațiile inițiale din studiile socio-economice sunt cel mai adesea prezentate ca un set de obiecte, fiecare dintre acestea fiind caracterizat de o serie de caracteristici (indicatori). Deoarece numărul de astfel de obiecte și caracteristici poate ajunge la zeci și sute, iar analiza vizuală a acestor date este ineficientă, problemele de reducere, concentrare a datelor inițiale, dezvăluirea structurii și relației dintre ele pe baza construcției caracteristicilor generalizate ale iau naștere un set de trăsături și un set de obiecte. Astfel de probleme pot fi rezolvate prin metode de analiză statistică multivariată.

Analiza statistică multivariată este o secțiune de statistică dedicată metodelor matematice care vizează identificarea naturii și structurii relațiilor dintre componentele cercetării și destinată obținerii de concluzii științifice și practice.

Atenția principală în analiza statistică multivariată este acordată metodelor matematice de construire a planurilor optime de colectare, sistematizare și prelucrare a datelor, care vizează identificarea naturii și structurii relațiilor dintre componentele atributului multivariat studiat și destinate obținerii de concluzii științifice și practice.

Matricea inițială de date multidimensionale pentru efectuarea analizei multivariate este, de obicei, rezultatele măsurării componentelor unui atribut multidimensional pentru fiecare dintre obiectele populației studiate, i.e. o succesiune de observații multivariate. Un atribut multivariat este cel mai adesea interpretat ca și o secvență de observații ca un eșantion din populația generală. În acest caz, alegerea metodei de prelucrare a datelor statistice inițiale se face pe baza unor ipoteze privind natura legii de distribuție a atributului multidimensional studiat.

1. Analiza statistică multivariată a distribuțiilor multivariate și a principalelor caracteristici ale acestora acoperă situațiile în care observațiile prelucrate sunt de natură probabilistică, i.e. interpretat ca un eșantion din populația generală corespunzătoare. Sarcinile principale ale acestei subsecțiuni includ: estimarea statistică a distribuțiilor multivariate studiate și a parametrilor principali ai acestora; studiul proprietăților estimărilor statistice utilizate; studiul distribuțiilor de probabilitate pentru o serie de statistici, care sunt utilizate pentru a construi criterii statistice pentru testarea diferitelor ipoteze despre natura probabilistică a datelor multivariate analizate.

2. Analiza statistică multivariată a naturii și structurii interrelațiilor dintre componentele atributului multivariat studiat combină conceptele și rezultatele inerente unor astfel de metode și modele precum analiza, analiza varianței, analiza covarianței, analiza factorială etc. Metodele care aparțin acestui grup includ atât algoritmi bazați pe presupunerea naturii probabilistice a datelor, cât și metode care nu se încadrează în cadrul niciunui model probabilistic (acestea din urmă sunt adesea denumite metode).

3. Analiza statistică multidimensională a structurii geometrice a setului studiat de observații multivariate combină conceptele și rezultatele inerente unor astfel de modele și metode precum analiza discriminantă, analiza clusterului, scalarea multidimensională. Nodul pentru aceste modele este conceptul de distanță, sau o măsură a proximității dintre elementele analizate ca puncte ale unui spațiu. În acest caz, atât obiectele (ca puncte specificate în spațiul de caracteristici) cât și caracteristicile (ca puncte specificate în spațiul obiect) pot fi analizate.

Valoarea aplicată a analizei statistice multivariate constă în principal în rezolvarea următoarelor trei probleme:

sarcina studiului statistic al dependențelor dintre indicatorii luați în considerare;

sarcina de a clasifica elementele (obiecte sau caracteristici);

· sarcina de a reduce dimensiunea spațiului de caracteristici luate în considerare și de a selecta cele mai informative caracteristici.

Analiza de regresie multiplă este concepută pentru a construi un model care permite valorilor variabilelor independente să obțină estimări ale valorilor variabilei dependente.

Regresia logistică pentru rezolvarea problemei de clasificare. Acesta este un tip de regresie multiplă, al cărei scop este de a analiza relația dintre mai multe variabile independente și o variabilă dependentă.

Analiza factorială se ocupă cu determinarea unui număr relativ mic de factori ascunși (latenți), a căror variabilitate explică variabilitatea tuturor indicatorilor observați. Analiza factorială are ca scop reducerea dimensiunii problemei luate în considerare.

Analiza cluster și discriminantă sunt concepute pentru a împărți colecțiile de obiecte în clase, fiecare dintre acestea ar trebui să includă obiecte care sunt omogene sau apropiate într-un anumit sens. În analiza clusterului, nu se știe dinainte câte grupuri de obiecte vor apărea și ce dimensiune vor avea. Analiza discriminantă împarte obiectele în clase preexistente.

Capitolul 1 Analiza regresiei multiple

Misiunea: Cercetarea pieței imobiliare din Orel (regiunile sovietice și nordice).

Tabelul prezintă date despre prețul apartamentelor în Orel și despre diverși factori care îl determină:

· suprafata totala;

Zona bucătăriei

· spațiu de locuit;

tip de casa

numarul de camere. (Fig.1)

Orez. 1 Date inițiale

În coloana „Regiune” sunt utilizate denumirile:

3 - sovietic (elita, aparține regiunilor centrale);

4 - Nord.

În coloana „Tipul de casă”:

1 - caramida;

0 - panou.

Necesar:

1. Analizați relația tuturor factorilor cu indicatorul „Preț” și între ei. Selectați factorii cei mai potriviți pentru construirea unui model de regresie;

2. Construiți o variabilă dummy care să reflecte apartenența apartamentului la zonele centrale și periferice ale orașului;

3. Construiți un model de regresie liniară pentru toți factorii, inclusiv o variabilă inactivă în acesta. Explicați semnificația economică a parametrilor ecuației. Evaluați calitatea modelului, semnificația statistică a ecuației și a parametrilor acesteia;

4. Distribuiți factorii (cu excepția variabilei dummy) în funcție de gradul de influență asupra indicatorului „Preț”;

5. Construiți un model de regresie liniară pentru cei mai influenți factori, lăsând o variabilă inactivă în ecuație. Evaluează calitatea și semnificația statistică a ecuației și a parametrilor acesteia;

6. Justificați oportunitatea sau inadecvarea includerii unei variabile fictive în ecuația de la paragrafele 3 și 5;

7. Estimări de interval de estimare ale parametrilor ecuației cu o probabilitate de 95%;

8. Stabiliți cât va costa un apartament cu o suprafață totală de 74,5 m² într-o zonă de elită (periferică).

Performanţă:

1. După analizarea relației tuturor factorilor cu indicatorul „Preț” și între ei, factorii cei mai potriviți pentru construirea unui model de regresie au fost selectați folosind metoda de includere „Înainte”:

A) suprafața totală;

C) numărul de camere.

Variabile incluse/excluse (a)

a Variabilă dependentă: Preț

2. Variabila X4 „Regiune” este o variabilă inactivă, deoarece are 2 valori: 3-aparținând regiunii centrale „sovietice”, 4- regiunii periferice „Severny”.

3. Să construim un model de regresie liniară pentru toți factorii (inclusiv variabila inactivă X4).

Model primit:

Evaluarea calitatii modelului.

Eroare standard = 126,477

Raportul Durbin-Watson = 2,136

Verificarea semnificației ecuației de regresie

Valoarea testului F-Fisher = 41,687

4. Să construim un model de regresie liniară cu toți factorii (cu excepția variabilei fictive X4)

În funcție de gradul de influență asupra indicatorului „Preț”, acestea au fost distribuite:

Cel mai semnificativ factor este suprafața totală (F= 40,806)

Al doilea cel mai important factor este numărul de camere (F= 29.313)

5. Variabile incluse/excluse

a Variabilă dependentă: Preț

6. Să construim un model de regresie liniară pentru cei mai influenți factori cu o variabilă dummy, în cazul nostru este unul dintre factorii influenți.

Model primit:

Y \u003d 348,349 + 35,788 X1 -217,075 X4 +305,687 X7

Evaluarea calitatii modelului.

Coeficientul de determinare R2 = 0,807

Arată proporția de variație a trăsăturii rezultate sub influența factorilor studiați. În consecință, se ia în considerare aproximativ 89% din variația variabilei dependente și datorită influenței factorilor incluși în model.

Coeficientul de corelație multiplă R = 0,898

Arată apropierea relației dintre variabila dependentă Y cu toți factorii explicativi incluși în model.

Eroare standard = 126,477

Raportul Durbin-Watson = 2,136

Verificarea semnificației ecuației de regresie

Valoarea testului F-Fisher = 41,687

Ecuația de regresie trebuie recunoscută ca fiind adecvată, modelul fiind considerat semnificativ.

Cel mai semnificativ factor este numărul de camere (F=41.687)

Al doilea cel mai important factor este suprafața totală (F= 40,806)

Al treilea factor cel mai important este regiunea (F= 32.288)

7. Variabila inactivă X4 este un factor semnificativ, de aceea este indicat să o includeți în ecuație.

Estimările pe intervale ale parametrilor ecuației arată rezultatele prognozării prin modelul de regresie.

Cu o probabilitate de 95%, volumul vânzărilor în luna prognozată va fi de la 540,765 la 1080,147 milioane de ruble.

8. Determinarea costului unui apartament într-o zonă de elită

Pentru 1 cameră U \u003d 348.349 + 35.788 * 74, 5 - 217.075 * 3 + 305.687 * 1

Pentru 2 camere U \u003d 348.349 + 35.788 * 74, 5 - 217.075 * 3 + 305.687 * 2

Pentru 3 camere U \u003d 348.349 + 35.788 * 74, 5 - 217.075 * 3 + 305.687 * 3

în periferic

Pentru 1 cameră U \u003d 348.349 + 35.788 * 74, 5 - 217.075 * 4 + 305.687 * 1

Pentru 2 camere U \u003d 348.349 + 35.788 * 74, 5 - 217.075 * 4 + 305.687 * 2

Pentru 3 camere U \u003d 348.349 + 35.788 * 74, 5 - 217.075 * 4 + 305.687 * 3

Capitolul 2. Analiza clusterelor

Sarcina: Studiul structurii cheltuielilor și economiilor monetare ale populației.

Tabelul prezintă structura cheltuielilor și economiilor în numerar ale populației pe regiuni din Districtul Federal Central al Federației Ruse în 2003. Pentru următorii indicatori:

PTIOU - achiziționarea de bunuri și plata serviciilor;

· OPiV - plăți și contribuții obligatorii;

PN - achiziționarea de bunuri imobiliare;

· PFA – creșterea activelor financiare;

· DR - creșterea (scăderea) banilor în mâinile populației.

Orez. 8 Date inițiale

Necesar:

1) determinarea numărului optim de clustere pentru împărțirea regiunilor în grupuri omogene în funcție de toate caracteristicile de grupare simultan;

2) efectuați clasificarea zonelor printr-o metodă ierarhică cu un algoritm de relații intergrup și afișați rezultatele sub forma unei dendrograme;

3) analizarea principalelor priorități de cheltuire a numerarului și economii în clusterele rezultate;

Performanţă:

1) Determinați numărul optim de clustere pentru împărțirea regiunilor în grupuri omogene în funcție de toate caracteristicile de grupare simultan;

Pentru a determina numărul optim de clustere, trebuie să utilizați Analiza cluster ierarhică și să consultați tabelul „Pași de aglomerare” la coloana „Coeficienți”.

Acești coeficienți implică distanța dintre două clustere, determinată pe baza măsurării distanței selectate (distanța euclidiană). În etapa în care măsura distanței dintre două clustere crește brusc, procesul de fuziune în noi clustere trebuie oprit.

Ca urmare, numărul optim de clustere este considerat a fi egal cu diferența dintre numărul de observații (17) și numărul pasului (14), după care coeficientul crește brusc. Astfel, numărul optim de clustere este 3. (Fig. 9)

cluster de analiză statistică matematică

Orez. 9 Tabel „Pași de sinterizare”

2) Efectuați clasificarea zonelor printr-o metodă ierarhică cu un algoritm de relații intergrup și afișați rezultatele sub forma unei dendrograme;

Acum, folosind numărul optim de clustere, clasificăm zonele folosind o metodă ierarhică. Și în rezultat ne întoarcem la tabelul „Aparținând clusterelor”. (Fig.10)

Orez. 10 Tabel „Aparținând clusterelor”

Pe Fig. 10 arată clar că clusterul 3 include 2 regiuni (Kaluga, Moscova) și Moscova, clusterul 2 include două regiuni (Bryansk, Voronezh, Ivanovo, Lipetsk, Oryol, Ryazan, Smolensk, Tambov, Tver), cluster 1 - Belgorod, Vladimir, Kostroma , Kursk, Tula, Yaroslavl.

Orez. 11 Dendrograma

3) analizarea principalelor priorități de cheltuire a numerarului și economii în clusterele rezultate;

Pentru a analiza clusterele rezultate, trebuie să efectuăm o „Comparație a mediilor”. Fereastra de ieșire afișează următorul tabel (Fig. 12)

Orez. 12 Valorile medii ale variabilelor

În tabelul „Valori medii” putem urmări care structuri au cea mai mare prioritate în repartizarea cheltuielilor de numerar și a economiilor populației.

În primul rând, trebuie menționat că cea mai mare prioritate în toate domeniile este acordată achiziției de bunuri și plății pentru servicii. Parametrul ia o valoare mai mare în al treilea cluster.

Locul 2 este ocupat de creșterea activelor financiare. Cea mai mare valoare dintr-un grup.

Cel mai mic coeficient din clusterele 1 și 2 este pentru „achiziția de bunuri imobiliare”, iar în clusterul 3 s-a evidențiat o scădere vizibilă a banilor în mâinile populației.

În general, achiziția de bunuri și servicii și achiziția nesemnificativă de bunuri imobiliare au o importanță deosebită pentru populație.

4) comparați clasificarea rezultată cu rezultatele aplicării algoritmului de relație intragrup.

În analiza relațiilor intergrupale, situația practic nu s-a schimbat, cu excepția regiunii Tambov, care s-a împărțit în 1 din 2 clustere (Fig. 13).

Orez. 13 Analiza relaţiilor intra-grup

Nu au existat modificări în tabelul „Medii”.

Capitolul 3. Analiza factorială

Sarcina: Analiza activitatilor intreprinderilor din industria usoara.

Datele sondajului sunt disponibile pentru 20 de întreprinderi din industria uşoară (Fig. 14), conform următoarelor caracteristici:

X1 - nivelul productivității capitalului;

X2 – intensitatea muncii a unei unități de producție;

X3 - ponderea materialelor de achiziție în costurile totale;

X4 – factor de schimbare a echipamentului;

X5 - bonusuri și remunerație per angajat;

X6 - proporția pierderilor din căsătorie;

X7 – costul mediu anual al mijloacelor fixe de producție;

X8 - fondul de salariu mediu anual;

X9 - nivelul de comercializare a produselor;

· X10 – indicele activelor permanente (raportul dintre mijloacele fixe și alte active imobilizate și fondurile proprii);

X11 - cifra de afaceri a capitalului de lucru;

X12 - costuri de non-producție.

Fig.14 Date inițiale

Necesar:

1. efectuează o analiză factorială a următoarelor variabile: 1,3,5-7, 9, 11,12, identifică și interpretează caracteristicile factorilor;

2. indicați cele mai prospere și promițătoare întreprinderi.

Performanţă:

1. Efectuați o analiză factorială a următoarelor variabile: 1,3,5-7, 9, 11,12, identificați și interpretați caracteristicile factorilor.

Analiza factorială este un set de metode care, pe baza relațiilor din viața reală a obiectelor (trăsăturilor), fac posibilă identificarea caracteristicilor generalizatoare latente (implicite) ale structurii organizaționale.

În caseta de dialog de analiză factorială, selectați variabilele noastre, specificați parametrii necesari.

Orez. 15 Varianta totală explicată

Conform tabelului „Varianța totală explicată” se poate observa că au fost identificați 3 factori care explică 74,8% din variațiile variabilelor – modelul construit este destul de bun.

Acum interpretăm semnele factorilor conform „Matricea componentelor rotite”: (Fig.16).

Orez. 16 Matricea componentelor rotite

Factorul 1 este cel mai strâns legat de nivelul vânzărilor de produse și are o relație inversă cu costurile de non-producție.

Factorul 2 este cel mai strâns legat de ponderea materialelor de achiziție în costurile totale și ponderea pierderilor din căsătorie și are o relație inversă cu bonusurile și remunerația per angajat.

Factorul 3 este cel mai strâns legat de nivelul de productivitate a capitalului și de cifra de afaceri a capitalului de lucru și are o relație inversă cu costul mediu anual al mijloacelor fixe.

2. Indicați cele mai prospere și promițătoare întreprinderi.

Pentru a identifica cele mai prospere întreprinderi, vom sorta datele după 3 criterii factoriale în ordine descrescătoare. (Fig.17)

Ar trebui luate în considerare cele mai prospere întreprinderi: 13,4,5, deoarece în general, în funcție de 3 factori, indicatorii lor ocupă pozițiile cele mai înalte și mai stabile.

Capitolul 4. Analiza discriminantă

Evaluarea bonității persoanelor juridice într-o bancă comercială

Banca a selectat șase indicatori ca indicatori semnificativi care caracterizează situația financiară a organizațiilor de împrumut (Tabelul 4.1.1):

QR (X1) - raport rapid de lichiditate;

CR (X2) - raportul de lichiditate curent;

EQ/TA (X3) - raportul de independență financiară;

TD/EQ (X4) - totalul datoriilor față de capitalul propriu;

ROS (X5) - rentabilitatea vânzărilor;

FAT (X6) - cifra de afaceri a mijloacelor fixe.

Tabelul 4.1.1. Datele inițiale


Necesar:

Pe baza unei analize discriminante folosind pachetul SPSS, determinați căreia dintre cele patru categorii îi aparțin trei debitori (persoane juridice) care doresc să obțină un împrumut de la o bancă comercială:

§ Grupa 1 - cu performante financiare excelente;

§ Grupa 2 - cu performante financiare bune;

§ Grupa 3 - cu performante financiare slabe;

§ Grupa 4 - cu performante financiare foarte slabe.

Pe baza rezultatelor calculului, construiți funcții discriminante; evaluați semnificația lor prin coeficientul Wilks (λ). Construiți o hartă de percepție și diagrame ale pozițiilor relative ale observațiilor în spațiul a trei funcții. Efectuați interpretarea rezultatelor analizei.

Progres:

Pentru a stabili căreia dintre cele patru categorii îi aparțin trei debitori care doresc să obțină un împrumut de la o bancă comercială, construim o analiză discriminantă care ne permite să stabilim cărora dintre populațiile identificate anterior (eșantioane de instruire) ar trebui să li se atribuie clienți noi. .

Ca variabilă dependentă vom alege un grup din care poate face parte împrumutatul, în funcție de performanța financiară a acestuia. Din datele sarcinii, fiecărui grup i se atribuie un scor corespunzător de 1, 2, 3 și 4.

Coeficienții canonici nenormalizați ai funcțiilor discriminante prezentate în Fig. 4.1.1 sunt folosite pentru a construi ecuația funcțiilor discriminante D1(X), D2(X) și D3(X):

3.) D3(X) =


1

(Constant)

Orez. 4.1.1. Coeficienții funcției discriminante canonice

Orez. 4.1.2. Lambda Wilks

Cu toate acestea, deoarece semnificația coeficientului Wilks (Fig. 4.1.2) a doua și a treia funcții este mai mare de 0,001, nu este recomandabil să le folosiți pentru discriminare.

Datele din tabelul „Rezultatele clasificării” (Fig. 4.1.3) indică faptul că pentru 100% din observații clasificarea a fost efectuată corect, s-a obținut o precizie ridicată în toate cele patru grupuri (100%).

Orez. 4.1.3. Rezultatele clasificării

Informațiile despre grupurile reale și cele prognozate pentru fiecare împrumutat sunt date în tabelul „Statistici punctuale” (Fig. 4.1.4).

În urma analizei discriminante, s-a determinat cu mare probabilitate ca noii debitori ai băncii să aparțină subsetului de instruire M1 - primul, al doilea și al treilea debitor (numerele de serie 41, 42, 43) sunt alocați subsetului M1 cu probabilități de 100%.

Numărul de observație

Grupul real

Cel mai probabil grup

Grupul prezis

negrupate

negrupate

negrupate

Orez. 4.1.4. Statistici punctuale

Coordonatele centroizilor pe grupuri sunt date în tabelul „Funcții în centroizii de grup” (Fig. 4.1.5). Ele sunt utilizate pentru a reprezenta un grafic centroizi pe o hartă perceptivă (Figura 4.1.6).

1

Orez. 4.1.5. Funcții în centroizii de grup

Orez. 4.1.6. Harta de percepție pentru două funcții discriminante D1(X) și D2(X) (* - centroid de grup)

Câmpul „Hărții teritoriale” este împărțit prin funcții discriminante în patru zone: în partea stângă se observă în principal observațiile celui de-al patrulea grup de debitori cu performanțe financiare foarte slabe, în partea dreaptă - primul grup cu performanțe financiare excelente, în părțile mijlocii și inferioare - al treilea și al doilea grup de debitori cu performanțe financiare proaste și, respectiv, bune.

Orez. 4.1.7. Scatterplot pentru toate grupurile

Pe fig. 4.1.7 arată programul combinat pentru distribuirea tuturor grupurilor de debitori împreună cu centroizii acestora; poate fi folosit pentru a efectua o analiză vizuală comparativă a naturii poziției relative a grupurilor de debitori bănci în ceea ce privește indicatorii financiari. În partea dreaptă a graficului sunt împrumutați cu performanță ridicată, în stânga - cu performanță scăzută, iar în mijloc - cu performanță financiară medie. Deoarece, conform rezultatelor calculului, a doua funcție discriminantă D2(X) s-a dovedit a fi nesemnificativă, diferențele în coordonatele centroidului de-a lungul acestei axe sunt nesemnificative.

Evaluarea bonității persoanelor fizice dintr-o bancă comercială

Departamentul de credit al unei bănci comerciale a efectuat un sondaj pe 30 dintre clienții săi (persoane fizice). Pe baza unei analize preliminare a datelor, debitorii au fost evaluați în funcție de șase indicatori (Tabelul 4.2.1):

X1 - împrumutatul a luat mai devreme un împrumut de la băncile comerciale;

X2 este venitul mediu lunar al familiei debitorului, mii de ruble;

X3 - termenul (perioada) de rambursare a creditului, ani;

X4 - suma împrumutului acordat, mii de ruble;

X5 - componența familiei împrumutatului, persoane;

X6 - vârsta debitorului, ani.

În același timp, au fost identificate trei grupuri de debitori în funcție de probabilitatea de rambursare a creditului:

§ Grupa 1 - cu o probabilitate redusă de rambursare a creditului;

§ Grupa 2 - cu o probabilitate medie de rambursare a creditului;

§ Grupa 3 - cu o mare probabilitate de rambursare a creditului.

Necesar:

Pe baza analizei discriminante folosind pachetul SPSS, este necesar să se clasifice trei clienți bănci (în funcție de probabilitatea de rambursare a creditului), i.e. evaluați dacă fiecare dintre ei aparține unuia dintre cele trei grupuri. Pe baza rezultatelor calculului, construiți funcții discriminante semnificative, evaluați semnificația lor prin coeficientul Wilks (λ). În spațiul a două funcții discriminante pentru fiecare grup, construiți diagrame ale aranjamentului reciproc al observațiilor și o diagramă combinată. Evaluați locația fiecărui împrumutat pe aceste diagrame. Efectuați interpretarea rezultatelor analizei.

Tabelul 4.2.1. Datele inițiale

Progres:

Pentru a construi o analiză discriminantă, alegem ca variabilă dependentă probabilitatea rambursării la timp a unui împrumut de către un client. Având în vedere că poate fi scăzut, mediu și mare, fiecărei categorii i se va atribui un punctaj corespunzător de 1,2 și 3.

Coeficienții canonici nenormalizați ai funcțiilor discriminante prezentate în Fig. 4.2.1 sunt folosite pentru a construi ecuația funcțiilor discriminante D1(X), D2(X):

2.) D2(X) =

Orez. 4.2.1. Coeficienții funcției discriminante canonice

Orez. 4.2.2. Lambda Wilks

Conform coeficientului Wilks (Fig. 4.2.2) pentru a doua funcție, semnificația este mai mare de 0,001, prin urmare, nu este recomandabil să-l folosești pentru discriminare.

Datele din tabelul „Rezultatele de clasificare” (Fig. 4.2.3) indică faptul că pentru 93,3% din observații clasificarea a fost efectuată corect, s-a obținut o precizie ridicată în prima și a doua grupă (100% și 91,7%), mai puțin precisă rezultatele au fost obţinute în al treilea grup (88,9%).

Orez. 4.2.3. Rezultatele clasificării

Informațiile despre grupurile reale și previzionate pentru fiecare client sunt date în tabelul „Statistici de puncte” (Fig. 4.2.4).

În urma analizei discriminante, s-a determinat cu o probabilitate mare ca noii clienți ai băncii să aparțină subsetului de instruire M3 - primul, al doilea și al treilea clienți (numerele de serie 31, 32, 33) sunt alocați subsetului M3 cu probabilitățile corespunzătoare de 99%, 99% și 100%.

Numărul de observație

Grupul real

Cel mai probabil grup

Grupul prezis

negrupate

negrupate

negrupate

Orez. 4.2.4. Statistici punctuale

Probabilitatea rambursării creditului

Orez. 4.2.5. Funcții în centroizii de grup

Coordonatele centroizilor pe grupuri sunt date în tabelul „Funcții în centroizii de grup” (Fig. 4.2.5). Ele sunt folosite pentru a reprezenta un grafic centroizi pe o hartă perceptivă (Figura 4.2.6).

Câmpul „Harta teritorială” este împărțit prin funcții discriminante în trei zone: în partea stângă sunt în principal observații ale primului grup de clienți cu o probabilitate foarte mică de rambursare a creditului, în partea dreaptă - al treilea grup cu probabilitate mare. , la mijloc - al doilea grup de clienți cu o probabilitate medie de rambursare a creditului, respectiv.

Pe fig. 4.2.7 (a - c) reflectă locația clienților fiecăruia dintre cele trei grupuri pe planul a două funcții discriminante D1(X) și D2(X). Pe baza acestor grafice, este posibil să se efectueze o analiză detaliată a probabilității de rambursare a unui împrumut în cadrul fiecărui grup, să se judece natura distribuției clienților și să se evalueze gradul de îndepărtare a acestora față de centroidul corespunzător.

Orez. 4.2.6. Harta de percepție pentru trei funcții discriminante D1(X) și D2(X) (* - centroid de grup)

De asemenea, în fig. 4.2.7 (d) în același sistem de coordonate, graficul combinat al distribuției tuturor grupurilor de clienți este prezentat împreună cu centroizii acestora; poate fi utilizat pentru a efectua o analiză vizuală comparativă a naturii poziției relative a grupurilor de clienți bănci cu probabilități diferite de rambursare a creditului. În partea stângă a graficului sunt împrumutați cu o probabilitate mare de a rambursa împrumutul, în dreapta - cu o probabilitate scăzută, iar în partea din mijloc - cu o probabilitate medie. Deoarece, conform rezultatelor calculului, a doua funcție discriminantă D2(X) s-a dovedit a fi nesemnificativă, diferențele în coordonatele centroidului de-a lungul acestei axe sunt nesemnificative.

Orez. 4.2.7. Localizarea observațiilor pe planul a două funcții discriminante pentru grupurile cu probabilitate scăzută (a), medie (b), mare (c) de rambursare a creditului și pentru toate grupurile (d)

Bibliografie

1. „Analiza statistică multivariată în problemele economice. Modelare computerizată în SPSS”, 2009

2. Orlov A.I. „Statistică aplicată” M .: Editura „Examen”, 2004

3. Fisher R.A. „Metode statistice pentru cercetători”, 1954

4. Kalinina V.N., Soloviev V.I. Manualul SUM „Introducere în analiza statistică multivariată”, 2003;

5. Achim Buyul, Peter Zöfel, SPSS: The Art of Information Processing, DiaSoft Publishing, 2005;

6. http://ru.wikipedia.org/wiki

Ți-a plăcut articolul? Împărtășește-l