Mga contact

Multivariate na pagsusuri sa istatistika. Panimula sa multivariate statistical analysis. Mga pangunahing konsepto ng pamamaraan ng pagsusuri ng kadahilanan, ang kakanyahan ng mga gawain na nalulutas nito

May mga sitwasyon kung saan ang random na pagkakaiba-iba ay kinakatawan ng isa o dalawang random na variable, mga palatandaan.

Halimbawa, kapag nag-aaral ng istatistikal na populasyon ng mga tao, interesado kami sa taas at timbang. Sa sitwasyong ito, gaano man karami ang mga tao sa istatistikal na populasyon, maaari tayong palaging mag-plot ng scatterplot at makita ang buong larawan. Gayunpaman, kung mayroong tatlong mga tampok, halimbawa, ang isang tampok ay idinagdag - ang edad ng isang tao, kung gayon ang scatterplot ay dapat na binuo sa tatlong-dimensional na espasyo. Ang kumakatawan sa isang hanay ng mga puntos sa three-dimensional na espasyo ay medyo mahirap.

Sa katotohanan, sa pagsasagawa, ang bawat obserbasyon ay kinakatawan hindi ng isa, dalawa, o tatlong numero, ngunit ng ilang kapansin-pansing hanay ng mga numero na naglalarawan ng dose-dosenang mga tampok. Sa sitwasyong ito, upang makabuo ng isang scatterplot, kakailanganing isaalang-alang ang mga multidimensional na espasyo.

Ang sangay ng mga istatistika na nakatuon sa pag-aaral ng mga eksperimento na may mga multivariate na obserbasyon ay tinatawag na multivariate statistical analysis.

Ang pagsukat ng ilang feature (mga katangian ng isang bagay) nang sabay-sabay sa isang eksperimento ay karaniwang mas natural kaysa sa pagsukat ng alinman sa isa o dalawa. Samakatuwid, ang potensyal na multivariate na pagsusuri sa istatistika ay may malawak na larangan ng aplikasyon.

Kasama sa multivariate statistical analysis ang mga sumusunod na seksyon:

Factor analysis;

Pagsusuri ng diskriminasyon;

pagsusuri ng kumpol;

Multidimensional scaling;

Mga pamamaraan ng kontrol sa kalidad.

Factor analysis

Sa pag-aaral ng mga kumplikadong bagay at sistema (halimbawa, sa sikolohiya, biology, sosyolohiya, atbp.), ang mga dami (mga kadahilanan) na tumutukoy sa mga katangian ng mga bagay na ito ay madalas na hindi masusukat nang direkta, at kung minsan kahit na ang kanilang bilang at makabuluhang kahulugan. ay hindi kilala. Ngunit ang iba pang mga dami ay maaaring magagamit para sa pagsukat, sa isang paraan o iba pa depende sa mga kadahilanan ng interes. Higit pa rito, kapag ang impluwensya ng hindi kilalang salik ng interes sa amin ay nagpapakita mismo sa ilang mga nasusukat na tampok, ang mga tampok na ito ay maaaring magpakita ng malapit na kaugnayan sa isa't isa at ang kabuuang bilang ng mga salik ay maaaring mas mababa kaysa sa bilang ng mga nasusukat na variable.

Ginagamit ang mga paraan ng pagsusuri sa kadahilanan upang matukoy ang mga salik na nakakaimpluwensya sa mga nasusukat na variable.

Ang isang halimbawa ng paggamit ng factor analysis ay ang pag-aaral ng personality traits batay sa psychological tests. Ang mga katangian ng personalidad ay hindi pumapayag sa direktang pagsukat, maaari lamang silang hatulan ng pag-uugali ng isang tao o ang likas na katangian ng mga sagot sa ilang mga katanungan. Upang ipaliwanag ang mga resulta ng mga eksperimento, sumasailalim ang mga ito sa pagsusuri ng kadahilanan, na ginagawang posible upang matukoy ang mga personal na katangiang iyon na nakakaimpluwensya sa pag-uugali ng mga indibidwal na sinusuri.


Ang iba't ibang modelo ng factor analysis ay batay sa sumusunod na hypothesis: ang naobserbahan o nasusukat na mga parameter ay hindi direktang katangian lamang ng bagay o phenomenon na pinag-aaralan; sa katunayan, may mga panloob (nakatago, tago, hindi direktang napapansin) mga parameter at katangian, ang bilang ng kung saan ay maliit at na tumutukoy sa mga halaga ng mga sinusunod na mga parameter. Ang mga panloob na parameter na ito ay tinatawag na mga kadahilanan.

Ang gawain ng pagsusuri ng kadahilananay ang representasyon ng mga naobserbahang mga parameter sa anyo ng mga linear na kumbinasyon ng mga kadahilanan at, marahil, ilang karagdagang, hindi gaanong mga kaguluhan.

Ang unang yugto ng pagsusuri ng kadahilanan, bilang panuntunan, ay ang pagpili ng mga bagong tampok, na mga linear na kumbinasyon ng mga nauna at "sinisipsip" ang karamihan sa kabuuang pagkakaiba-iba ng naobserbahang data, at samakatuwid ay naghahatid ng karamihan sa impormasyong nakapaloob sa orihinal na mga obserbasyon. Ito ay kadalasang ginagawa gamit ang paraan ng pangunahing sangkap, bagama't minsan iba pang mga pamamaraan ang ginagamit (pinakamalaking paraan ng posibilidad).

Ang pangunahing bahagi na paraan ay nabawasan sa pagpili ng isang bagong orthogonal coordinate system sa espasyo ng pagmamasid. Ang direksyon kung saan ang hanay ng mga obserbasyon ay may pinakamalaking scatter ay pinili bilang ang unang pangunahing sangkap, ang bawat kasunod na punong bahagi ay pinili upang ang scatter ng mga obserbasyon ay pinakamataas at ang pangunahing bahagi na ito ay orthogonal sa iba pang mga pangunahing sangkap na napili nang mas maaga. Gayunpaman, ang mga salik na nakuha ng pamamaraan ng mga pangunahing bahagi ay kadalasang hindi nagbibigay ng kanilang sarili sa isang sapat na visual na interpretasyon. Samakatuwid, ang susunod na hakbang sa pagsusuri ng kadahilanan ay ang pagbabagong-anyo, pag-ikot ng mga kadahilanan upang mapadali ang interpretasyon.

Pagsusuri ng Diskriminasyon

Hayaang magkaroon ng isang hanay ng mga bagay na nahahati sa ilang grupo, at para sa bawat bagay ay posibleng matukoy kung aling grupo ito kabilang. Para sa bawat bagay ay may mga sukat ng ilang mga quantitative na katangian. Kinakailangang humanap ng paraan kung paano, batay sa mga katangiang ito, malalaman mo ang pangkat kung saan nabibilang ang bagay. Papayagan ka nitong tukuyin ang mga pangkat kung saan nabibilang ang mga bagong bagay ng parehong koleksyon. Upang malutas ang problema, mag-apply pamamaraan ng discriminant analysis.

Pagsusuri ng Diskriminasyon- ito ay isang seksyon ng mga istatistika, ang nilalaman nito ay ang pagbuo ng mga pamamaraan para sa paglutas ng mga problema ng pagkilala (diskriminasyon) ng mga bagay ng pagmamasid ayon sa ilang mga katangian.

Tingnan natin ang ilang halimbawa.

Ang discriminant analysis ay nagpapatunay na madaling gamitin sa paghawak ng mga resulta ng pagsusulit ng mga indibidwal pagdating sa pagkuha para sa isang partikular na posisyon. Sa kasong ito, kinakailangang hatiin ang lahat ng kandidato sa dalawang grupo: "angkop" at "hindi angkop".

Ang paggamit ng discriminant analysis ay posible ng banking administration upang masuri ang pinansiyal na estado ng mga gawain ng mga kliyente kapag nag-isyu ng pautang sa kanila. Ang Bangko, ayon sa isang bilang ng mga tampok, ay inuuri ang mga ito sa maaasahan at hindi mapagkakatiwalaan.

Ang pagsusuri ng diskriminasyon ay maaaring magamit bilang isang paraan ng paghahati ng isang hanay ng mga negosyo sa maraming magkakatulad na grupo ayon sa mga halaga ng anumang mga tagapagpahiwatig ng produksyon at aktibidad sa ekonomiya.

Ang mga pamamaraan ng discriminant analysis ay ginagawang posible na bumuo ng mga function ng mga sinusukat na katangian, ang mga halaga kung saan nagpapaliwanag ng paghahati ng mga bagay sa mga grupo. Ito ay kanais-nais na ang mga function na ito (mga tampok na nagpapakita ng diskriminasyon) ay medyo. Sa kasong ito, ang mga resulta ng pagsusuri ay mas madaling bigyang kahulugan.

Dahil sa pagiging simple nito, ang linear discriminant analysis ay gumaganap ng isang espesyal na papel, kung saan ang pag-uuri ng mga tampok ay pinili bilang mga linear na function ng mga pangunahing tampok.

pagsusuri ng kumpol

Ginagawang posible ng mga pamamaraan ng pagsusuri ng kumpol na hatiin ang pinag-aralan na hanay ng mga bagay sa mga pangkat ng "magkatulad" na mga bagay, na tinatawag na mga kumpol.

salita kumpol ng Ingles na pinagmulan - ang cluster ay isinasalin bilang brush, bungkos, grupo, kuyog, kumpol.

Ang pagsusuri ng cluster ay nilulutas ang mga sumusunod na gawain:

Isinasagawa ang pag-uuri ng mga bagay, na isinasaalang-alang ang lahat ng mga tampok na nagpapakilala sa bagay. Ang mismong posibilidad ng pag-uuri ay nagtutulak sa atin sa isang mas malalim na pag-unawa sa kabuuan na isinasaalang-alang at ang mga bagay na kasama dito;

Itinatakda ang gawain ng pagsuri sa pagkakaroon ng isang priori na ibinigay na istraktura o pag-uuri sa umiiral na populasyon. Ginagawang posible ng naturang pagpapatunay na gamitin ang karaniwang hypothetical-deductive scheme ng siyentipikong pananaliksik.

Karamihan sa mga pamamaraan ng clustering (hierarchical group) ay agglomerative(nagkakaisa) - nagsisimula sila sa paglikha ng mga elementary cluster, na ang bawat isa ay binubuo ng eksaktong isang paunang obserbasyon (isang punto), at sa bawat kasunod na hakbang, ang dalawang pinakamalapit na kumpol ay pinagsama sa isa.

Ang sandali ng paghinto sa prosesong ito ay maaaring itakda ng mananaliksik (halimbawa, sa pamamagitan ng pagtukoy sa kinakailangang bilang ng mga kumpol o ang maximum na distansya kung saan naabot ang unyon).

Ang isang graphical na representasyon ng proseso ng pagsasama-sama ng mga kumpol ay maaaring makuha gamit ang dendrograms- isang cluster union tree.

Isaalang-alang ang sumusunod na halimbawa. Uriin natin ang limang negosyo, na ang bawat isa ay nailalarawan sa pamamagitan ng tatlong variable:

x 1- average na taunang gastos ng mga nakapirming assets ng produksyon, bilyong rubles;

x 2- mga gastos sa materyal bawat 1 kuskusin. mga produktong gawa, kop.;

x 3- ang dami ng mga produktong gawa, bilyong rubles.

Ang aklat-aralin ay nilikha batay sa karanasan ng may-akda sa pagtuturo ng multivariate statistical analysis at econometrics na mga kurso. Naglalaman ng mga materyales sa discriminant, factorial, regression, pagsusuri ng sulat at teorya ng time series. Ang mga diskarte sa mga problema ng multidimensional scaling at ilang iba pang mga problema ng multivariate statistics ay nakabalangkas.

Pagpapangkat at pag-censor.
Ang gawain ng pagbuo ng mga grupo ng sample na data sa paraang ang pinagsama-samang data ay makapagbibigay ng halos kaparehong dami ng impormasyon para sa paggawa ng desisyon bilang sample bago ang pagpapangkat ay lutasin ng mananaliksik sa unang lugar. Ang mga layunin ng pagpapangkat, bilang panuntunan, ay bawasan ang dami ng impormasyon, gawing simple ang mga kalkulasyon at gawing mas nakikita ang data. Ang ilang mga istatistikal na pagsusulit ay unang nakatuon sa pagtatrabaho sa isang nakapangkat na sample. Sa ilang mga aspeto, ang problema sa pagpapangkat ay napakalapit sa problema sa pag-uuri, na tatalakayin nang mas detalyado sa ibaba. Kasabay ng gawain ng pagpapangkat, nalulutas din ng mananaliksik ang problema sa pag-censor ng sample, i.e. pagbubukod mula dito ng outlying data, na, bilang isang panuntunan, ay ang resulta ng mga gross observational error. Naturally, ito ay kanais-nais upang matiyak ang kawalan ng naturang mga pagkakamali kahit na sa kurso ng mga obserbasyon sa kanilang sarili, ngunit ito ay hindi palaging posible. Ang pinakasimpleng pamamaraan para sa paglutas ng dalawang problemang ito ay tinalakay sa kabanatang ito.

Talaan ng mga Nilalaman
1 Paunang impormasyon
1.1 Pagsusuri at algebra
1.2 Teorya ng posibilidad
1.3 Mga istatistika ng matematika
2 Multivariate na mga pamamahagi
2.1 Random na mga vector
2.2 Kasarinlan
2.3 Mga katangiang pang-numero
2.4 Normal na pamamahagi sa multivariate case
2.5 Teorya ng ugnayan
3 Pagpapangkat at pag-censor
3.1 Isang-dimensional na pagpapangkat
3.2 Isang-dimensional na pag-censor
3.3 Pagtawid ng mga talahanayan
3.3.1 Independence hypothesis
3.3.2 Homogeneity hypothesis
3.3.3 Larangan ng ugnayan
3.4 Multidimensional na pagpapangkat
3.5 Multidimensional na pag-censor
4 Non-numeric na data
4.1 Panimulang pangungusap
4.2 Paghahambing ng mga sukat
4.3 Ekspertong paghatol
4.4 Mga pangkat ng eksperto
5 Mga set ng kumpiyansa
5.1 Mga pagitan ng kumpiyansa
5.2 Mga set ng kumpiyansa
5.2.1 Multidimensional na parameter
5.2.2 Multivariate sampling
5.3 Mga mapagparaya na hanay
5.4 Maliit na sample
6 Pagsusuri ng regression
6.1 Paglalahad ng problema
6.2 Paghahanap ng GMS
6.3 Mga Paghihigpit
6.4 Plan matrix
6.5 Pagtataya ng istatistika
7 Pagsusuri ng pagkakaiba
7.1 Panimulang pangungusap
7.1.1 Normalidad
7.1.2 Pagkakapantay-pantay ng mga dispersion
7.2 Isang salik
7.3 Dalawang salik
7.4 Pangkalahatang kaso
8 Pagbabawas ng dimensyon
8.1 Bakit kailangan ang pag-uuri
8.2 Modelo at mga halimbawa
8.2.1 Pagsusuri ng pangunahing bahagi
8.2.2 Extreme feature grouping
8.2.3 Multidimensional scaling
8.2.4 Pagpili ng mga indicator para sa discriminant analysis
8.2.5 Pagpili ng tampok sa isang modelo ng regression
9 Pagsusuri ng diskriminasyon
9.1 Applicability ng modelo
9.2 Linear predictive rule
9.3 Mga praktikal na rekomendasyon
9.4 Isang halimbawa
9.5 Higit sa dalawang klase
9.6 Pagsusuri sa kalidad ng diskriminasyon
10 Heuristic na pamamaraan
10.1 Matinding pagpapangkat
10.1.1 Pamantayan ng mga parisukat
10.1.2 Pamantayan ng module
10 2 Paraang Pleiades
11 Pagsusuri ng pangunahing bahagi
11 1 Paglalahad ng suliranin
112 Pagkalkula ng mga pangunahing bahagi
11.3 Halimbawa
114 Mga katangian ng pangunahing bahagi
11.4.1 Self-reproducibility
11.4.2 Mga katangiang geometriko
12 Pagsusuri ng salik
12.1 Pahayag ng problema
12.1.1 Komunikasyon sa mga pangunahing bahagi
12.1.2 Hindi malabo na desisyon
12.2 Modelong matematika
12.2.1 Mga Kundisyon para sa Sa A
12.2.2 Mga kondisyon sa load matrix. paraan ng sentroid
12.3 Mga nakatagong salik
12.3.1 Paraan ng Bartlett
12.3.2 Paraang Thomson
12.4 Halimbawa
13 Digitization
13.1 Pagsusuri ng korespondensiya
13.1.1 Chi-square na distansya
13.1.2 Pag-digitize para sa mga problema sa pagsusuring may diskriminasyon
13.2 Higit sa dalawang variable
13.2.1 Paggamit ng binary data matrix bilang mapping matrix
13.2.2 Pinakamataas na mga ugnayan
13.3 Dimensyon
13.4 Halimbawa
13.5 Mixed data case
14 Multidimensional scaling
14.1 Panimulang pangungusap
14.2 Modelong Thorgerson
14.2.1 Stress criterion
14.3 Ang algorithm ni Thorgerson
14.4 Mga pagkakaiba ng indibidwal
15 Serye ng oras
15.1 Pangkalahatan
15.2 Pamantayan sa pagiging random
15.2.1 Mga taluktok at hukay
15.2.2 Pamamahagi ng haba ng yugto
15.2.3 Pamantayan batay sa ugnayan ng ranggo
15.2.4 Correlogram
15.3 Trend at seasonality
15.3.1 Mga usong polinomyal
15.3.2 Pagpili ng antas ng kalakaran
15.3.3 Pagpapakinis
15.3.4 Pagtatantya ng mga pagbabago sa pana-panahon
Isang Normal na pamamahagi
Sa Distribusyon X2
Gamit ang t-distribution ng Mag-aaral
D Pamamahagi ng Fisher.


Libreng pag-download ng e-book sa isang maginhawang format, panoorin at basahin:
I-download ang aklat na Multivariate statistical analysis, Dronov SV, 2003 - fileskachat.com, mabilis at libreng pag-download.

Mag-download ng pdf
Sa ibaba maaari mong bilhin ang aklat na ito sa pinakamahusay na may diskwentong presyo sa paghahatid sa buong Russia.

Pagsusuri ng pagpapakalat.

Ang layunin ng pagsusuri ng pagkakaiba-iba ay upang subukan ang istatistikal na kahalagahan ng pagkakaiba sa pagitan ng mga paraan (para sa mga grupo o mga variable). Ang pagsusuri na ito ay isinasagawa sa pamamagitan ng paghahati sa kabuuan ng mga parisukat sa mga bahagi, i.e. sa pamamagitan ng paghahati sa kabuuang pagkakaiba (variation) sa mga bahagi, ang isa ay dahil sa random na error (i.e., intragroup variability), at ang pangalawa ay nauugnay sa pagkakaiba sa mga mean na halaga. Ang huling bahagi ng pagkakaiba ay pagkatapos ay ginagamit upang pag-aralan ang istatistikal na kahalagahan ng pagkakaiba sa pagitan ng mga paraan. Kung ang pagkakaibang ito makabuluhan, null hypothesis tinanggihan at isang alternatibong hypothesis ay tinatanggap na may pagkakaiba sa pagitan ng mga paraan.

Paghahati sa kabuuan ng mga parisukat. Para sa sample na laki ng n, ang sample na variance ay kinakalkula bilang ang kabuuan ng mga squared deviations mula sa sample mean na hinati ng n-1 (sample size minus one). Kaya, para sa isang nakapirming laki ng sample n, ang pagkakaiba ay isang function ng kabuuan ng mga parisukat (mga deviations). Ang pagsusuri ng pagkakaiba ay batay sa paghahati ng pagkakaiba sa mga bahagi o bahagi, i.e. Ang sample ay nahahati sa dalawang bahagi kung saan kinakalkula ang mean at ang kabuuan ng mga squared deviations. Ang pagkalkula ng parehong mga tagapagpahiwatig para sa sample sa kabuuan ay nagbibigay ng mas malaking halaga ng dispersion, na nagpapaliwanag ng pagkakaiba sa pagitan ng ibig sabihin ng grupo. Kaya, ang pagsusuri ng pagkakaiba-iba ay nagpapahintulot sa isa na ipaliwanag ang pagkakaiba-iba ng intragroup, na hindi mababago kapag pinag-aaralan ang buong grupo sa kabuuan.

Ang pagsusuri sa kahalagahan sa ANOVA ay batay sa paghahambing ng bahagi ng pagkakaiba dahil sa pagitan ng pangkat at ang bahagi ng pagkakaiba dahil sa pagkalat sa loob ng pangkat (tinatawag na mean squared error). Kung ang null hypothesis ay tama (ang pagkakapantay-pantay ng mga paraan sa dalawang populasyon), maaari nating asahan ang isang medyo maliit na pagkakaiba sa sample na paraan dahil sa puro random na pagkakaiba-iba. Samakatuwid, sa ilalim ng null hypothesis, ang intra-group variance ay halos magkakasabay sa kabuuang variance na nakalkula nang hindi isinasaalang-alang ang membership ng grupo. Ang nakuhang mga pagkakaiba-iba sa loob ng pangkat ay maaaring ikumpara gamit ang F-test, na sumusubok kung ang ratio ng mga pagkakaiba ay talagang mas malaki kaysa sa 1.

Mga kalamangan: 1) ang pagsusuri ng pagkakaiba ay mas mahusay at, para sa maliliit na sample, dahil mas nagbibigay-kaalaman; 2) ang pagsusuri ng pagkakaiba-iba ay nagbibigay-daan sa iyo upang makita ang mga epekto pakikipag-ugnayan sa pagitan ng mga kadahilanan at, samakatuwid, ay nagbibigay-daan sa pagsubok ng mas kumplikadong mga hypotheses

Ang Principal Component Method ay binubuo ng linear dimensionality reduction, kung saan ang mga pairwise orthogonal na direksyon ng maximum variation ng input data ay tinutukoy, pagkatapos nito ang data ay inaasahang papunta sa space ng mas mababang dimensyon na nabuo ng mga bahagi na may pinakamalaking variation.

Ang pangunahing bahagi ng pagsusuri ay isang bahagi ng pagsusuri ng kadahilanan, na binubuo sa pagsasama-sama ng dalawang magkakaugnay na mga variable sa isang kadahilanan. Kung ang dalawang-variable na halimbawa ay pinalawak upang magsama ng higit pang mga variable, ang mga kalkulasyon ay magiging mas kumplikado, ngunit ang pangunahing prinsipyo ng kumakatawan sa dalawa o higit pang mga dependent variable sa pamamagitan ng isang solong salik ay nananatiling wasto.

Kapag binabawasan ang bilang ng mga variable, ang desisyon tungkol sa kung kailan ititigil ang pamamaraan ng pagkuha ng kadahilanan ay higit sa lahat ay nakasalalay sa punto ng view ng kung ano ang binibilang bilang maliit na "random" na pagkakaiba-iba. Sa paulit-ulit na pag-ulit, ang mga salik na may mas kaunting pagkakaiba ay nakikilala.

Paraan ng Centroid para sa pagtukoy ng mga kadahilanan.

Ang pamamaraang sentroid ay ginagamit sa pagsusuri ng kumpol. Sa pamamaraang ito, ang distansya sa pagitan ng dalawang kumpol ay tinukoy bilang ang distansya sa pagitan ng kanilang mga sentro ng grabidad sa hindi timbang na paraan ng sentroid.

Ang weighted centroid method (median) ay kapareho ng non-weighted method, maliban na ang mga weight ay ginagamit sa mga kalkulasyon upang isaalang-alang ang pagkakaiba sa pagitan ng mga laki ng cluster (ibig sabihin, ang bilang ng mga bagay sa kanila). Samakatuwid, kung mayroong (o pinaghihinalaang) makabuluhang pagkakaiba sa mga laki ng kumpol, mas mainam ang pamamaraang ito kaysa sa nauna.

pagsusuri ng kumpol.

Ang terminong pagtatasa ng cluster ay aktwal na nagsasama ng isang hanay ng iba't ibang mga algorithm ng pag-uuri. Ang karaniwang tanong ng mga mananaliksik sa maraming larangan ay kung paano ayusin ang naobserbahang data sa mga visual na istruktura, i.e. tukuyin ang mga kumpol ng mga katulad na bagay. Sa katunayan, ang pagsusuri ng kumpol ay hindi isang ordinaryong pamamaraang istatistika bilang isang "set" ng iba't ibang mga algorithm para sa "pamamahagi ng mga bagay sa mga kumpol". Mayroong isang punto ng view na, hindi tulad ng maraming iba pang mga istatistikal na pamamaraan, ang mga pamamaraan ng pagsusuri ng cluster ay ginagamit sa karamihan ng mga kaso kapag wala kang anumang priori hypotheses tungkol sa mga klase, ngunit nasa deskriptibong yugto pa rin ng pananaliksik. Dapat itong maunawaan na ang pagtatasa ng cluster ay tumutukoy sa "pinaka posibleng makabuluhang desisyon".

Algoritmo ng clustering ng puno. Ang layunin ng algorithm na ito ay upang pagsamahin ang mga bagay sa sapat na malalaking kumpol gamit ang ilang sukat ng pagkakapareho o distansya sa pagitan ng mga bagay. Ang isang tipikal na resulta ng naturang clustering ay isang hierarchical tree, na isang diagram. Ang diagram ay nagsisimula sa bawat bagay sa klase (sa kaliwang bahagi ng diagram). Ngayon isipin na unti-unti (sa napakaliit na mga hakbang) "hinahina" mo ang iyong pamantayan para sa kung anong mga bagay ang natatangi at kung ano ang hindi. Sa madaling salita, ibababa mo ang threshold na nauugnay sa desisyon na pagsamahin ang dalawa o higit pang mga bagay sa isang kumpol. Bilang resulta, nagli-link ka ng parami nang parami ng mga bagay nang magkakasama at pinagsama-sama (pagsasama-sama) ang higit pang mga kumpol ng lalong magkakaibang mga elemento. Sa wakas, sa huling hakbang, lahat ng mga bagay ay pinagsama-sama. Sa mga chart na ito, ang mga pahalang na axes ay kumakatawan sa pooling distance (sa vertical dendrograms, ang vertical axes ay kumakatawan sa pooling distance). Kaya, para sa bawat node sa graph (kung saan nabuo ang isang bagong cluster), makikita mo ang dami ng distansya kung saan naka-link ang mga kaukulang elemento sa isang bagong solong cluster. Kapag ang data ay may malinaw na "istraktura" sa mga tuntunin ng mga kumpol ng mga bagay na magkatulad sa isa't isa, ang istrakturang ito ay malamang na makikita sa hierarchical tree ng iba't ibang sanga. Bilang resulta ng matagumpay na pagsusuri sa pamamagitan ng paraan ng pagsali, nagiging posible na makita ang mga kumpol (mga sanga) at bigyang-kahulugan ang mga ito.

Ginagamit ang discriminant analysis upang magpasya kung aling mga variable ang nakikilala (nagdidiskrimina) sa pagitan ng dalawa o higit pang umuusbong na populasyon (mga grupo). Ang pinakakaraniwang aplikasyon ng discriminant analysis ay ang pagsasama ng maraming variable sa isang pag-aaral upang matukoy ang mga pinakamahusay na naghihiwalay ng mga populasyon sa isa't isa. Sa madaling salita, gusto mong bumuo ng isang "modelo" na pinakamahusay na hinuhulaan kung aling populasyon mabibibilang ang isang partikular na sample. Sa susunod na talakayan, ang terminong "sa modelo" ay gagamitin upang sumangguni sa mga variable na ginagamit sa paghula ng populasyong kasapi; tungkol sa mga variable na hindi ginagamit para dito, sasabihin namin na sila ay "sa labas ng modelo".

Sa sunud-sunod na pagsusuri ng mga discriminant function, ang modelo ng diskriminasyon ay binuo nang hakbang-hakbang. Mas tiyak, sa bawat hakbang, ang lahat ng mga variable ay tinitingnan at ang isa na gumagawa ng pinakamalaking kontribusyon sa pagkakaiba sa pagitan ng mga hanay ay matatagpuan. Dapat isama ang variable na ito sa modelo sa hakbang na ito, at magaganap ang paglipat sa susunod na hakbang.

Posible rin na pumunta sa kabaligtaran na direksyon, kung saan ang lahat ng mga variable ay isasama muna sa modelo, at pagkatapos ay ang mga variable na gumawa ng maliit na kontribusyon sa mga hula ay aalisin sa bawat hakbang. Pagkatapos, bilang resulta ng matagumpay na pagsusuri, tanging ang mga "mahalaga" na mga variable sa modelo ang maaaring maimbak, iyon ay, ang mga variable na ang kontribusyon sa diskriminasyon ay mas malaki kaysa sa iba.

Ang hakbang-hakbang na pamamaraang ito ay "ginagabayan" ng katumbas na halaga ng F para sa pagsasama at ng katumbas na halaga ng F para sa pagbubukod. Ang halaga ng F ng isang istatistika para sa isang variable ay nagpapahiwatig ng istatistikal na kahalagahan nito sa diskriminasyon sa pagitan ng mga populasyon, iyon ay, ito ay isang sukatan ng kontribusyon ng variable sa paghula ng pagiging kasapi ng populasyon.

Para sa dalawang grupo, ang pagsusuri sa diskriminasyon ay maaari ding ituring bilang isang pamamaraan ng multiple regression. Kung iko-code mo ang dalawang pangkat bilang 1 at 2 at pagkatapos ay gagamitin ang mga variable na ito bilang mga dependent na variable sa isang maramihang regression, makakakuha ka ng mga resulta na katulad ng mga makukuha mo sa discriminant analysis. Sa pangkalahatan, sa kaso ng dalawang populasyon, umaangkop ka sa isang linear na equation ng sumusunod na uri:

Pangkat = a + b1*x1 + b2*x2 + ... + bm*xm

kung saan ang a ay isang pare-pareho at ang b1...bm ay ang mga coefficient ng regression. Ang interpretasyon ng mga resulta ng problema sa dalawang populasyon ay malapit na sumusunod sa lohika ng paglalapat ng maramihang regression: ang mga variable na may pinakamalaking regression coefficient ay may pinakamalaking kontribusyon sa diskriminasyon.

Kung mayroong higit sa dalawang grupo, higit sa isang discriminant function ang maaaring masuri, katulad ng ginawa kanina. Halimbawa, kapag mayroong tatlong populasyon, maaari mong suriin ang: (1) isang function upang makita ang diskriminasyon sa pagitan ng populasyon 1 at populasyon 2 at 3 na pinagsama-sama, at (2) isa pang function upang makita ang diskriminasyon sa pagitan ng populasyon 2 at populasyon 3. Halimbawa, ikaw ay maaaring magkaroon ng isang function upang makita ang diskriminasyon sa pagitan ng mga nagtapos ng high school na nagtapos sa kolehiyo kumpara sa mga hindi (ngunit gustong makakuha ng trabaho o pumasok sa paaralan), at isang pangalawang tungkulin upang makita ang diskriminasyon sa pagitan ng mga nagtapos na gustong makakuha ng trabaho laban sa yung ayaw.na gustong pumasok sa school. Ang mga coefficient b sa mga nagdidiskriminang function na ito ay maaaring bigyang-kahulugan sa parehong paraan tulad ng dati.

Kaugnay na kanonikal.

Ang Canonical analysis ay idinisenyo upang suriin ang mga dependency sa pagitan ng mga listahan ng mga variable. Higit na partikular, pinapayagan ka nitong tuklasin ang kaugnayan sa pagitan ng dalawang hanay ng mga variable. Kapag kinakalkula ang mga canonical na ugat, ang mga eigenvalues ​​ng correlation matrix ay kinakalkula. Ang mga halagang ito ay katumbas ng proporsyon ng pagkakaiba-iba na ipinaliwanag ng ugnayan sa pagitan ng kani-kanilang mga variable na canonical. Sa kasong ito, ang resultang bahagi ay kinakalkula na may kaugnayan sa pagpapakalat ng mga canonical variable, i.e. may timbang na mga kabuuan sa dalawang hanay ng mga variable; kaya, ang mga eigenvalues ​​ay hindi nagpapakita ng ganap na kahulugan na ipinaliwanag sa kani-kaniyang canonical variable.

Kung kukunin natin ang square root ng mga nakuhang eigenvalues, makakakuha tayo ng isang set ng mga numero na maaaring bigyang-kahulugan bilang correlation coefficients. Dahil ang mga ito ay canonical variable, tinatawag din silang canonical correlations. Tulad ng eigenvalues, ang mga ugnayan sa pagitan ng mga canonical na variable ay sunud-sunod na kinukuha sa bawat hakbang. Gayunpaman, ang iba pang mga kanonikal na variable ay maaari ding makabuluhang maiugnay, at ang mga ugnayang ito ay kadalasang nagbibigay-daan para sa isang medyo makabuluhang interpretasyon.

Ang criterion para sa kahalagahan ng canonical correlations ay medyo simple. Una, ang mga canonical correlations ay sinusuri ng isa-isa sa pababang pagkakasunud-sunod. Tanging ang mga ugat na naging makabuluhan sa istatistika ang natitira para sa karagdagang pagsusuri. Bagaman sa katotohanan ang mga kalkulasyon ay medyo naiiba. Ang programa ay unang sinusuri ang kahalagahan ng buong hanay ng mga ugat, pagkatapos ay ang kahalagahan ng set na natitira pagkatapos alisin ang unang ugat, ang pangalawang ugat, at iba pa.

Ipinakita ng mga pag-aaral na nakikita ng pagsubok na ginamit ang malalaking canonical correlations kahit na may maliit na sample size (halimbawa, n = 50). Ang mahihinang canonical correlations (hal. R = .3) ay nangangailangan ng malalaking sample size (n > 200) na matukoy nang 50% ng oras. Tandaan na ang mga canonical na ugnayan ng maliit na sukat ay karaniwang walang praktikal na halaga, dahil tumutugma ang mga ito sa isang maliit na tunay na pagkakaiba-iba ng orihinal na data.

Mga timbang na kanonikal. Matapos matukoy ang bilang ng mga makabuluhang canonical roots, ang tanong ay lumitaw sa interpretasyon ng bawat (makabuluhang) ugat. Alalahanin na ang bawat ugat ay aktwal na kumakatawan sa dalawang timbang na kabuuan, isa para sa bawat hanay ng mga variable. Ang isang paraan ng pagbibigay-kahulugan sa "kahulugan" ng bawat canonical root ay ang pagsasaalang-alang sa mga timbang na nauugnay sa bawat hanay ng mga variable. Ang mga timbang na ito ay tinatawag ding mga kanonikal na timbang.

Sa pagsusuri, kadalasang ginagamit na mas malaki ang itinalagang timbang (ibig sabihin, ang ganap na halaga ng timbang), mas malaki ang kontribusyon ng kaukulang variable sa halaga ng canonical variable.

Kung pamilyar ka sa multiple regression, maaari mong gamitin ang canonical weights interpretation na ginagamit para sa beta weights sa multiple regression equation. Ang mga canonical na timbang ay, sa isang kahulugan, ay kahalintulad sa mga bahagyang ugnayan ng mga variable na tumutugma sa canonical na ugat. Kaya, ang pagsasaalang-alang ng canonical weights ay ginagawang posible na maunawaan ang "kahulugan" ng bawat canonical root, i.e. tingnan kung paano naaapektuhan ng mga partikular na variable sa bawat set ang weighted sum (i.e. ang canonical variable).

Parametric at non-parametric na pamamaraan para sa pagsusuri ng mga resulta.

Mga parametric na pamamaraan batay sa sampling distribution ng ilang partikular na istatistika. Sa madaling salita, kung alam mo ang distribusyon ng naobserbahang variable, maaari mong hulaan kung paano "kikilos" ang mga istatistika na ginamit sa paulit-ulit na mga sample ng pantay na laki - i.e. kung paano ito ipapamahagi.

Sa pagsasagawa, ang paggamit ng mga parametric na pamamaraan ay limitado dahil sa dami o laki ng sample na magagamit para sa pagsusuri; mga problema sa tumpak na pagsukat ng mga tampok ng naobserbahang bagay

Kaya, may pangangailangan para sa mga pamamaraan upang mahawakan ang "mababang kalidad" na data mula sa maliliit na laki ng sample na may mga variable na ang pamamahagi ay maliit o walang alam. Ang mga non-parametric na pamamaraan ay idinisenyo lamang para sa mga sitwasyong madalas na lumitaw sa pagsasanay, kapag ang mananaliksik ay walang alam tungkol sa mga parameter ng populasyon na pinag-aaralan (samakatuwid ang pangalan ng mga pamamaraan - non-parametric). Sa mas teknikal na termino, hindi umaasa ang mga non-parametric na pamamaraan sa pagtatantya ng mga parameter (gaya ng mean o standard deviation) sa paglalarawan ng sampling distribution ng dami ng interes. Samakatuwid, ang mga pamamaraang ito ay tinatawag ding walang parameter o malayang ipinamamahagi.

Sa totoo lang, para sa bawat parametric test ay mayroong kahit isang non-parametric na katapat. Ang mga pamantayang ito ay maaaring maiuri sa isa sa mga sumusunod na grupo:

pamantayan para sa mga pagkakaiba sa pagitan ng mga grupo (mga independiyenteng sample);

pamantayan para sa mga pagkakaiba sa pagitan ng mga grupo (mga sample na umaasa);

pamantayan para sa pagtitiwala sa pagitan ng mga variable.

Mga pagkakaiba sa pagitan ng mga independiyenteng grupo. Kadalasan, kapag mayroong dalawang sample (halimbawa, mga lalaki at babae) na gusto mong ikumpara sa ibig sabihin ng ilang variable ng interes, gagamit ka ng t-test para sa mga independent. Ang mga nonparametric na alternatibo sa pagsusulit na ito ay ang: ang Wald-Wolfowitz series test, ang Mann-Whitney U test, at ang two-sample na Kolmogorov-Smirnov test. Kung marami kang grupo, maaari mong gamitin ang ANOVA. Ang mga non-parametric na katapat nito ay: Kruskal-Wallis rank analysis ng variance at ang median na pagsubok.

Mga pagkakaiba sa pagitan ng mga umaasang grupo. Kung gusto mong paghambingin ang dalawang variable na nabibilang sa parehong sample (halimbawa, ang pagganap sa matematika ng mga mag-aaral sa simula at sa katapusan ng semestre), kung gayon ang t-test para sa mga dependent na sample ay karaniwang ginagamit. Ang mga alternatibong non-parametric na pagsusulit ay: sign test at Wilcoxon test ng mga ipinares na paghahambing. Kung ang mga variable na pinag-uusapan ay likas sa kategorya o nakategorya (ibig sabihin, kinakatawan bilang mga frequency na nabibilang sa ilang partikular na kategorya), magiging angkop ang chi-square test ng McNemar. Kung higit sa dalawang variable mula sa parehong sample ang isasaalang-alang, kadalasang ginagamit ang paulit-ulit na measures analysis of variance (ANOVA). Ang isang alternatibong non-parametric na paraan ay ang pagsusuri ng ranggo ni Friedman ng variance o Cochran's Q test (ang huli ay ginagamit, halimbawa, kung ang variable ay sinusukat sa isang nominal na sukat). Ginagamit din ang Cochran's Q test upang masuri ang mga pagbabago sa mga frequency (share).

Dependencies sa pagitan ng mga variable. Upang masuri ang pag-asa (relasyon) sa pagitan ng dalawang variable, karaniwang kinakalkula ang koepisyent ng ugnayan. Ang mga non-parametric na analogue ng karaniwang koepisyent ng ugnayan ng Pearson ay ang R statistic ni Spearman, tau ni Kendall, at Gamma coefficient. Bukod pa rito, ang isang criterion ng pagtitiwala sa pagitan ng ilang mga variable ay magagamit, ang tinatawag na Kendall's concordance coefficient. Ang pagsusulit na ito ay kadalasang ginagamit upang masuri ang pagkakapare-pareho ng mga opinyon ng mga independiyenteng eksperto (mga hukom), lalo na, ang mga marka na ibinigay sa parehong paksa.

Kung ang data ay hindi normal na ipinamamahagi at ang mga sukat ay naglalaman ng nakararanggo na impormasyon sa pinakamahusay, kung gayon ang pagkalkula ng karaniwang mga istatistika ng paglalarawan (hal., ibig sabihin, karaniwang paglihis) ay hindi masyadong nagbibigay-kaalaman. Halimbawa, kilalang-kilala sa psychometry na ang pinaghihinalaang intensity ng stimuli (hal., ang perceived brightness ng liwanag) ay isang logarithmic function ng aktwal na intensity (luminance na sinusukat sa object units, lux). Sa halimbawang ito, ang karaniwang pagtatantya ng mean (ang kabuuan ng mga halaga na hinati sa bilang ng stimuli) ay hindi nagbibigay ng tamang ideya ng ibig sabihin ng halaga ng aktwal na intensity ng stimulus. (Sa halimbawang tinalakay, ang geometric mean ay mas dapat na kalkulahin.) Ang mga hindi parametric na istatistika ay nagku-compute ng magkakaibang hanay ng mga sukat ng posisyon (mean, median, mode, atbp.) at dispersion (variance, harmonic mean, quartile range, atbp.) hanggang mas kinakatawan ang "malaking larawan" ng data.

Ang mga bagay na panlipunan at pang-ekonomiya, bilang isang patakaran, ay nailalarawan sa pamamagitan ng isang medyo malaking bilang ng mga parameter na bumubuo ng mga multidimensional na vector, at ang mga problema sa pag-aaral ng mga ugnayan sa pagitan ng mga bahagi ng mga vector na ito ay partikular na kahalagahan sa pang-ekonomiya at panlipunang pag-aaral, at ang mga ugnayang ito ay dapat matukoy batay sa limitadong bilang ng mga multidimensional na obserbasyon.

Ang multivariate statistical analysis ay isang seksyon ng mathematical statistics na pinag-aaralan ang mga paraan ng pagkolekta at pagproseso ng multivariate statistical data, ang kanilang systematization at pagproseso upang matukoy ang kalikasan at istraktura ng mga relasyon sa pagitan ng mga bahagi ng pinag-aralan na multivariate na katangian, at upang makagawa ng mga praktikal na konklusyon.

Tandaan na maaaring mag-iba ang mga paraan ng pangongolekta ng data. Kaya, kung ang ekonomiya ng mundo ay pinag-aaralan, natural na kunin ang mga bansa bilang mga bagay kung saan sinusunod ang mga halaga ng vector X, ngunit kung ang pambansang sistema ng ekonomiya ay pinag-aaralan, natural na obserbahan ang mga halaga. ng vector X sa parehong (kawili-wili sa mananaliksik) bansa sa iba't ibang mga punto ng oras.

Ang mga pamamaraan ng istatistika tulad ng maramihang ugnayan at pagsusuri ng regression ay tradisyonal na pinag-aaralan sa mga kurso ng probability theory at mathematical statistics, ang disiplina na "Econometrics" ay nakatuon sa pagsasaalang-alang ng mga inilapat na aspeto ng pagsusuri ng regression.

Ang manwal na ito ay nakatuon sa iba pang mga pamamaraan ng pag-aaral ng multivariate na pangkalahatang populasyon batay sa istatistikal na datos.

Ang mga pamamaraan para sa pagbabawas ng dimensyon ng isang multidimensional na espasyo ay nagbibigay-daan, nang walang makabuluhang pagkawala ng impormasyon, na lumipat mula sa orihinal na sistema ng isang malaking bilang ng mga naobserbahang magkakaugnay na mga kadahilanan patungo sa isang sistema ng isang makabuluhang mas maliit na bilang ng mga nakatagong (hindi napapansin) na mga kadahilanan na tumutukoy sa pagkakaiba-iba ng ang mga paunang tampok. Ang unang kabanata ay naglalarawan ng mga pamamaraan ng component at factor analysis, na maaaring gamitin upang tukuyin ang obhetibong umiiral, ngunit hindi direktang nakikitang mga pattern gamit ang mga pangunahing bahagi o salik.

Ang mga pamamaraan ng multidimensional na pag-uuri ay idinisenyo upang hatiin ang mga koleksyon ng mga bagay (nailalarawan ng isang malaking bilang ng mga tampok) sa mga klase, ang bawat isa ay dapat magsama ng mga bagay na homogenous o katulad sa isang tiyak na kahulugan. Ang ganitong pag-uuri batay sa istatistikal na data sa mga halaga ng mga tampok sa mga bagay ay maaaring isagawa gamit ang mga pamamaraan ng cluster at discriminant analysis, na tinalakay sa ikalawang kabanata (Multivariate statistical analysis gamit ang "STATISTICA").

Ang pag-unlad ng teknolohiya ng computer at software ay nag-aambag sa malawakang pagpapakilala ng mga multivariate na pamamaraan ng pagsusuri sa istatistika sa pagsasanay. Ang mga package ng application na may maginhawang user interface, tulad ng SPSS, Statistica, SAS, atbp., ay nag-aalis ng mga kahirapan sa paglalapat ng mga pamamaraang ito, na kung saan ay ang pagiging kumplikado ng mathematical apparatus batay sa linear algebra, probability theory at mathematical statistics, at ang masalimuot na kalkulasyon. .

Gayunpaman, ang paggamit ng mga programa nang hindi nauunawaan ang mathematical essence ng mga algorithm na ginamit ay nag-aambag sa pagbuo ng ilusyon ng mananaliksik sa pagiging simple ng paggamit ng multivariate na mga istatistikal na pamamaraan, na maaaring humantong sa hindi tama o hindi makatwirang mga resulta. Ang mga makabuluhang praktikal na resulta ay makukuha lamang batay sa propesyonal na kaalaman sa larangan ng paksa, na sinusuportahan ng kaalaman sa mga pamamaraan ng matematika at mga pakete ng aplikasyon kung saan ipinatupad ang mga pamamaraang ito.

Samakatuwid, para sa bawat isa sa mga pamamaraan na isinasaalang-alang sa aklat na ito, ang pangunahing teoretikal na impormasyon ay ibinibigay, kabilang ang mga algorithm; ang pagpapatupad ng mga pamamaraan at algorithm na ito sa mga pakete ng aplikasyon ay tinalakay. Ang isinasaalang-alang na mga pamamaraan ay inilalarawan kasama ng mga halimbawa ng kanilang praktikal na aplikasyon sa ekonomiya gamit ang SPSS package.

Ang manwal ay isinulat batay sa karanasan sa pagbabasa ng kursong "Multivariate statistical method" sa mga mag-aaral ng State University of Management. Para sa mas detalyadong pag-aaral ng mga pamamaraan ng inilapat na multivariate statistical analysis, inirerekomenda ang mga libro.

Ipinapalagay na ang mambabasa ay lubos na pamilyar sa mga kurso ng linear algebra (halimbawa, sa dami ng aklat-aralin at ang apendise sa aklat-aralin), teorya ng posibilidad at mga istatistika ng matematika (halimbawa, sa dami ng aklat-aralin).

Panimula

Kabanata 1 Pagsusuri ng Maramihang Pagbabalik

Kabanata 2. Cluster analysis

Kabanata 3. Pagsusuri ng Salik

Kabanata 4. Discriminant Analysis

Bibliograpiya

Panimula

Ang paunang impormasyon sa mga pag-aaral sa sosyo-ekonomiko ay madalas na ipinakita bilang isang hanay ng mga bagay, na ang bawat isa ay nailalarawan sa pamamagitan ng isang bilang ng mga tampok (mga tagapagpahiwatig). Dahil ang bilang ng mga naturang bagay at mga tampok ay maaaring umabot sa sampu at daan-daan, at ang visual na pagsusuri ng mga data na ito ay hindi epektibo, ang mga problema sa pagbabawas, pag-concentrate sa paunang data, pagbubunyag ng istraktura at ang relasyon sa pagitan ng mga ito batay sa pagbuo ng mga pangkalahatang katangian ng isang hanay ng mga tampok at isang hanay ng mga bagay ang lumitaw. Ang ganitong mga problema ay maaaring malutas sa pamamagitan ng mga pamamaraan ng multivariate statistical analysis.

Ang multivariate na pagsusuri sa istatistika ay isang seksyon ng mga istatistika na nakatuon sa mga pamamaraan ng matematika na naglalayong tukuyin ang kalikasan at istraktura ng mga relasyon sa pagitan ng mga bahagi ng pananaliksik at nilayon upang makakuha ng mga siyentipiko at praktikal na konklusyon.

Ang pangunahing pansin sa multivariate statistical analysis ay binabayaran sa mga pamamaraan ng matematika para sa pagbuo ng pinakamainam na mga plano para sa pagkolekta, pag-systematize at pagproseso ng data, na naglalayong kilalanin ang kalikasan at istraktura ng mga relasyon sa pagitan ng mga bahagi ng pinag-aralan na katangian ng multivariate at nilayon upang makakuha ng siyentipiko at praktikal na mga konklusyon.

Ang paunang hanay ng multidimensional na data para sa pagsasagawa ng multivariate analysis ay karaniwang ang mga resulta ng pagsukat sa mga bahagi ng isang multidimensional na katangian para sa bawat isa sa mga bagay ng pinag-aralan na populasyon, i.e. isang pagkakasunud-sunod ng mga multivariate na obserbasyon. Ang isang multivariate na katangian ay kadalasang binibigyang kahulugan bilang , at isang pagkakasunod-sunod ng mga obserbasyon bilang sample mula sa pangkalahatang populasyon. Sa kasong ito, ang pagpili ng paraan ng pagproseso ng paunang istatistikal na data ay ginawa batay sa ilang mga pagpapalagay tungkol sa likas na katangian ng batas sa pamamahagi ng pinag-aralan na multidimensional na katangian.

1. Ang multivariate na istatistikal na pagsusuri ng mga multivariate na distribusyon at ang kanilang mga pangunahing katangian ay sumasaklaw sa mga sitwasyon kung saan ang mga naprosesong obserbasyon ay may probabilistikong kalikasan, i.e. binibigyang kahulugan bilang sample mula sa kaukulang pangkalahatang populasyon. Ang mga pangunahing gawain ng subsection na ito ay kinabibilangan ng: istatistikal na pagtatantya ng mga pinag-aralan na multivariate distribution at ang kanilang mga pangunahing parameter; pag-aaral ng mga katangian ng mga istatistikal na pagtatantya na ginamit; pag-aaral ng mga pamamahagi ng posibilidad para sa isang bilang ng mga istatistika, na ginagamit upang bumuo ng mga istatistikal na pamantayan para sa pagsubok ng iba't ibang mga hypotheses tungkol sa probabilistic na katangian ng nasuri na multivariate na data.

2. Pinagsasama-sama ng multivariate na istatistikal na pagsusuri ang kalikasan at istruktura ng mga interrelasyon ng mga bahagi ng pinag-aralan na katangiang multivariate ang mga konsepto at resultang likas sa mga pamamaraan at modelo tulad ng pagsusuri, pagsusuri ng pagkakaiba, pagsusuri ng covariance, pagsusuri ng kadahilanan, atbp. Kasama sa mga pamamaraan na kabilang sa pangkat na ito ang parehong mga algorithm batay sa pagpapalagay ng probabilistikong katangian ng data, at mga pamamaraan na hindi akma sa balangkas ng anumang probabilistikong modelo (ang huli ay madalas na tinutukoy bilang mga pamamaraan).

3. Pinagsasama-sama ng multidimensional na istatistikal na pagsusuri ng geometric na istruktura ng pinag-aralan na hanay ng mga multivariate na obserbasyon ang mga konsepto at resultang likas sa mga modelo at pamamaraan tulad ng discriminant analysis, cluster analysis, multidimensional scaling. Ang nodal para sa mga modelong ito ay ang konsepto ng distansya, o isang sukatan ng kalapitan sa pagitan ng mga nasuri na elemento bilang mga punto ng ilang espasyo. Sa kasong ito, maaaring suriin ang parehong mga bagay (bilang mga puntong tinukoy sa espasyo ng tampok) at mga tampok (bilang mga puntong tinukoy sa espasyo ng bagay).

Ang inilapat na halaga ng multivariate statistical analysis ay pangunahing binubuo sa paglutas ng sumusunod na tatlong problema:

ang gawain ng istatistikal na pag-aaral ng mga dependencies sa pagitan ng mga tagapagpahiwatig na isinasaalang-alang;

ang gawain ng pag-uuri ng mga elemento (mga bagay o tampok);

· ang gawain ng pagbabawas ng dimensyon ng feature space na isinasaalang-alang at pagpili ng pinaka-kaalaman na mga feature.

Ang pagsusuri ng maramihang regression ay idinisenyo upang bumuo ng isang modelo na nagpapahintulot sa mga halaga ng mga independiyenteng variable na makakuha ng mga pagtatantya ng mga halaga ng dependent variable.

Logistic regression para sa paglutas ng problema sa pag-uuri. Ito ay isang uri ng multiple regression, ang layunin nito ay suriin ang relasyon sa pagitan ng ilang independent variable at isang dependent variable.

Ang pagsusuri sa salik ay tumatalakay sa pagpapasiya ng medyo maliit na bilang ng mga nakatagong (latent) na mga salik, ang pagkakaiba-iba nito ay nagpapaliwanag ng pagkakaiba-iba ng lahat ng naobserbahang tagapagpahiwatig. Ang pagsusuri sa kadahilanan ay naglalayong bawasan ang sukat ng problemang isinasaalang-alang.

Ang cluster at discriminant analysis ay idinisenyo upang hatiin ang mga koleksyon ng mga bagay sa mga klase, bawat isa ay dapat magsama ng mga bagay na homogenous o malapit sa isang tiyak na kahulugan. Sa pagsusuri ng kumpol, hindi alam nang maaga kung gaano karaming mga grupo ng mga bagay ang lalabas at kung anong laki ang mga ito. Hinahati ng discriminant analysis ang mga bagay sa mga dati nang klase.

Kabanata 1 Pagsusuri ng Maramihang Pagbabalik

Takdang-aralin: Pananaliksik sa merkado ng pabahay sa Orel (mga rehiyon ng Sobyet at Hilaga).

Ipinapakita ng talahanayan ang data sa presyo ng mga apartment sa Orel at sa iba't ibang salik na tumutukoy dito:

· kabuuang lugar;

Ang lugar ng kusina

· buhay na espasyo;

uri ng bahay

ang bilang ng mga silid. (Fig.1)

kanin. 1 Paunang data

Sa hanay na "Rehiyon" ang mga pagtatalaga ay ginagamit:

3 - Sobyet (mga piling tao, kabilang sa mga gitnang rehiyon);

4 - Hilaga.

Sa column na "Uri ng bahay":

1 - ladrilyo;

0 - panel.

Kailangan:

1. Suriin ang kaugnayan ng lahat ng mga kadahilanan sa tagapagpahiwatig ng "Presyo" at sa kanilang sarili. Piliin ang mga salik na pinakaangkop para sa pagbuo ng modelo ng regression;

2. Bumuo ng dummy variable na sumasalamin sa pagmamay-ari ng apartment sa gitna at paligid na mga lugar ng lungsod;

3. Bumuo ng linear regression model para sa lahat ng salik, kabilang ang dummy variable dito. Ipaliwanag ang pang-ekonomiyang kahulugan ng mga parameter ng equation. Suriin ang kalidad ng modelo, ang istatistikal na kahalagahan ng equation at ang mga parameter nito;

4. Ipamahagi ang mga salik (maliban sa dummy variable) ayon sa antas ng impluwensya sa indicator ng "Presyo";

5. Bumuo ng linear regression na modelo para sa pinaka-maimpluwensyang mga salik, na nag-iiwan ng dummy variable sa equation. Suriin ang kalidad at istatistikal na kahalagahan ng equation at mga parameter nito;

6. Bigyang-katwiran ang kapakinabangan o kawalan ng pagsasama ng isang dummy variable sa equation ng mga talata 3 at 5;

7. Tantyahin ang mga pagtatantya ng pagitan ng mga parameter ng equation na may posibilidad na 95%;

8. Tukuyin kung magkano ang halaga ng isang apartment na may kabuuang lawak na 74.5 m² sa isang elite (peripheral) na lugar.

Pagganap:

1. Matapos suriin ang kaugnayan ng lahat ng mga salik sa tagapagpahiwatig ng "Presyo" at sa kanilang mga sarili, ang mga salik na pinakaangkop para sa pagbuo ng isang modelo ng regression ay pinili gamit ang paraan ng pagsasama ng "Pasulong":

A) ang kabuuang lugar;

C) ang bilang ng mga silid.

Kasama/ibinukod na mga variable(a)

isang Dependent variable: Presyo

2. Ang Variable X4 "Region" ay isang dummy variable, dahil mayroon itong 2 value: 3-na kabilang sa gitnang rehiyon na "Soviet", 4- sa peripheral na rehiyon na "Severny".

3. Bumuo tayo ng linear regression model para sa lahat ng mga salik (kabilang ang dummy variable na X4).

Natanggap na modelo:

Pagsusuri ng kalidad ng modelo.

Karaniwang error = 126.477

Durbin-Watson ratio = 2.136

Pagsusuri sa Kahalagahan ng Regression Equation

Halaga ng pagsubok sa F-Fisher = 41.687

4. Bumuo tayo ng linear regression model na may lahat ng mga salik (maliban sa dummy variable na X4)

Ayon sa antas ng impluwensya sa tagapagpahiwatig ng "Presyo", sila ay ibinahagi:

Ang pinakamahalagang salik ay ang kabuuang lawak (F= 40.806)

Ang pangalawang pinakamahalagang salik ay ang bilang ng mga silid (F= 29.313)

5. Kasama/ibinukod na mga variable

isang Dependent variable: Presyo

6. Bumuo tayo ng linear regression model para sa pinaka-maimpluwensyang salik na may dummy variable, sa aming kaso ito ay isa sa mga maimpluwensyang salik.

Natanggap na modelo:

Y \u003d 348.349 + 35.788 X1 -217.075 X4 +305.687 X7

Pagsusuri ng kalidad ng modelo.

Determination coefficient R2 = 0.807

Ipinapakita ang proporsyon ng pagkakaiba-iba ng nagresultang katangian sa ilalim ng impluwensya ng mga pinag-aralan na salik. Dahil dito, ang humigit-kumulang 89% ng variation ng dependent variable ay isinasaalang-alang at dahil sa impluwensya ng mga kasamang salik sa modelo.

Multiple correlation coefficient R = 0.898

Ipinapakita ang lapit ng ugnayan sa pagitan ng dependent variable Y kasama ang lahat ng nagpapaliwanag na salik na kasama sa modelo.

Karaniwang error = 126.477

Durbin-Watson ratio = 2.136

Pagsusuri sa Kahalagahan ng Regression Equation

Halaga ng pagsubok sa F-Fisher = 41.687

Ang regression equation ay dapat kilalanin bilang sapat, ang modelo ay itinuturing na makabuluhan.

Ang pinakamahalagang kadahilanan ay ang bilang ng mga silid (F=41,687)

Ang pangalawang pinakamahalagang salik ay ang kabuuang lugar (F= 40.806)

Ang ikatlong pinakamahalagang salik ay ang rehiyon (F= 32.288)

7. Ang dummy variable na X4 ay isang makabuluhang salik, kaya ipinapayong isama ito sa equation.

Ang mga pagtatantya ng pagitan ng mga parameter ng equation ay nagpapakita ng mga resulta ng pagtataya ng modelo ng regression.

Sa posibilidad na 95%, ang dami ng mga benta sa buwan ng pagtataya ay mula 540.765 hanggang 1080.147 milyong rubles.

8. Pagpapasiya ng halaga ng isang apartment sa isang piling lugar

Para sa 1 kwarto U \u003d 348.349 + 35.788 * 74, 5 - 217.075 * 3 + 305.687 * 1

Para sa 2 silid U \u003d 348.349 + 35.788 * 74, 5 - 217.075 * 3 + 305.687 * 2

Para sa 3 silid U \u003d 348.349 + 35.788 * 74, 5 - 217.075 * 3 + 305.687 * 3

sa paligid

Para sa 1 silid U \u003d 348.349 + 35.788 * 74, 5 - 217.075 * 4 + 305.687 * 1

Para sa 2 silid U \u003d 348.349 + 35.788 * 74, 5 - 217.075 * 4 + 305.687 * 2

Para sa 3 silid U \u003d 348.349 + 35.788 * 74, 5 - 217.075 * 4 + 305.687 * 3

Kabanata 2. Cluster analysis

Takdang-Aralin: Pag-aaral ng istruktura ng mga gastusin sa pananalapi at pagtitipid ng populasyon.

Ipinapakita ng talahanayan ang istraktura ng mga paggasta ng pera at pagtitipid ng populasyon ayon sa mga rehiyon ng Central Federal District ng Russian Federation noong 2003. Para sa mga sumusunod na tagapagpahiwatig:

PTIOU - pagbili ng mga kalakal at pagbabayad para sa mga serbisyo;

· OPiV - mga obligasyong pagbabayad at kontribusyon;

PN - pagbili ng real estate;

· PFA – pagtaas ng mga asset sa pananalapi;

· DR - pagtaas (pagbaba) ng pera sa mga kamay ng populasyon.

kanin. 8 Paunang datos

Kailangan:

1) tukuyin ang pinakamainam na bilang ng mga kumpol para sa paghahati ng mga rehiyon sa magkakatulad na mga grupo ayon sa lahat ng mga katangian ng pagpapangkat nang sabay-sabay;

2) isagawa ang pag-uuri ng mga lugar sa pamamagitan ng isang hierarchical na pamamaraan na may isang algorithm ng mga relasyon sa pagitan ng grupo at ipakita ang mga resulta sa anyo ng isang dendrogram;

3) pag-aralan ang mga pangunahing priyoridad ng paggastos ng pera at pagtitipid sa mga resultang kumpol;

Pagganap:

1) Tukuyin ang pinakamainam na bilang ng mga kumpol para sa paghahati ng mga rehiyon sa magkakatulad na mga grupo ayon sa lahat ng katangian ng pagpapangkat nang sabay-sabay;

Upang matukoy ang pinakamainam na bilang ng mga cluster, kailangan mong gamitin ang Hierarchical cluster analysis at sumangguni sa talahanayan na "Mga Hakbang ng pagsasama-sama" sa column na "Mga Coefficient".

Ang mga coefficient na ito ay nagpapahiwatig ng distansya sa pagitan ng dalawang kumpol, na tinutukoy batay sa napiling sukat ng distansya (Euclidean distance). Sa yugto kung kailan ang sukat ng distansya sa pagitan ng dalawang kumpol ay biglang tumaas, ang proseso ng pagsasama sa mga bagong kumpol ay dapat na itigil.

Bilang resulta, ang pinakamainam na bilang ng mga kumpol ay itinuturing na katumbas ng pagkakaiba sa pagitan ng bilang ng mga obserbasyon (17) at ang bilang ng hakbang (14), pagkatapos nito ay biglang tumaas ang koepisyent. Kaya, ang pinakamainam na bilang ng mga kumpol ay 3. (Larawan 9)

kumpol ng pagtatasa ng istatistikal na matematika

kanin. 9 Talahanayan "Mga hakbang sa sintering"

2) Isagawa ang pag-uuri ng mga lugar sa pamamagitan ng isang hierarchical na pamamaraan na may isang algorithm ng mga relasyon sa intergroup at ipakita ang mga resulta sa anyo ng isang dendrogram;

Ngayon, gamit ang pinakamainam na bilang ng mga kumpol, inuuri namin ang mga lugar gamit ang isang hierarchical na pamamaraan. At sa output ay bumaling tayo sa talahanayan na "Nauukol sa mga kumpol". (Fig.10)

kanin. 10 Talahanayan "Nauukol sa mga kumpol"

Sa Fig. Malinaw na ipinapakita ng 10 na ang cluster 3 ay kinabibilangan ng 2 rehiyon (Kaluga, Moscow) at Moscow, ang cluster 2 ay kinabibilangan ng dalawang rehiyon (Bryansk, Voronezh, Ivanovo, Lipetsk, Oryol, Ryazan, Smolensk, Tambov, Tver), cluster 1 - Belgorod , Vladimir, Kostroma , Kursk, Tula, Yaroslavl.

kanin. 11 Dendrogram

3) pag-aralan ang mga pangunahing priyoridad ng paggastos ng pera at pagtitipid sa mga resultang kumpol;

Upang pag-aralan ang mga nagresultang kumpol, kailangan nating magsagawa ng "Paghahambing ng mga average". Ang output window ay nagpapakita ng sumusunod na talahanayan (Fig. 12)

kanin. 12 Ang ibig sabihin ng mga halaga ng mga variable

Sa talahanayan na "Average na mga halaga" maaari nating matunton kung aling mga istruktura ang binibigyan ng pinakamataas na priyoridad sa pamamahagi ng mga paggasta at pagtitipid ng populasyon.

Una sa lahat, dapat tandaan na ang pinakamataas na priyoridad sa lahat ng mga lugar ay ibinibigay sa pagbili ng mga kalakal at pagbabayad para sa mga serbisyo. Ang parameter ay tumatagal ng mas malaking halaga sa 3rd cluster.

Ang 2nd place ay inookupahan ng paglago ng mga financial asset. Ang pinakamataas na value sa 1 cluster.

Ang pinakamaliit na koepisyent sa 1st at 2nd clusters ay para sa "acquisition of real estate", at sa 3rd cluster isang kapansin-pansing pagbaba ng pera sa mga kamay ng populasyon ay ipinahayag.

Sa pangkalahatan, ang pagbili ng mga kalakal at serbisyo at ang hindi gaanong halaga ng pagbili ng real estate ay partikular na kahalagahan para sa populasyon.

4) ihambing ang resultang pag-uuri sa mga resulta ng paglalapat ng intragroup na algorithm ng relasyon.

Sa pagsusuri ng mga ugnayan ng intergroup, halos hindi nagbago ang sitwasyon, maliban sa rehiyon ng Tambov, na nahulog sa 1 sa 2 kumpol. (Larawan 13)

kanin. 13 Pagsusuri ng mga relasyon sa loob ng grupo

Walang mga pagbabago sa talahanayang "Mga Average."

Kabanata 3. Pagsusuri ng Salik

Gawain: Pagsusuri ng mga aktibidad ng mga negosyo ng magaan na industriya.

Available ang data ng survey para sa 20 light industry enterprise (Fig. 14) ayon sa mga sumusunod na katangian:

X1 - ang antas ng pagiging produktibo ng kapital;

X2 - lakas ng paggawa ng isang yunit ng produksyon;

X3 - ang bahagi ng mga materyales sa pagkuha sa kabuuang gastos;

X4 - salik ng paglilipat ng kagamitan;

X5 - mga bonus at suweldo bawat empleyado;

X6 - ang proporsyon ng mga pagkalugi mula sa kasal;

X7 – average na taunang gastos ng mga fixed production asset;

X8 - ang karaniwang taunang pondo ng sahod;

X9 - ang antas ng pagiging mabibili ng mga produkto;

· X10 – permanenteng asset index (ratio ng mga fixed asset at iba pang hindi kasalukuyang asset na nagmamay-ari ng mga pondo);

X11 - turnover ng working capital;

X12 - mga gastos sa hindi produksyon.

Fig.14 Paunang data

Kailangan:

1. magsagawa ng factor analysis ng mga sumusunod na variable: 1,3,5-7, 9, 11,12, kilalanin at bigyang-kahulugan ang mga katangian ng salik;

2. ipahiwatig ang pinaka-maunlad at promising na mga negosyo.

Pagganap:

1. Magsagawa ng factor analysis ng mga sumusunod na variable: 1,3,5-7, 9, 11,12, tukuyin at bigyang-kahulugan ang mga katangian ng salik.

Ang pagsusuri sa kadahilanan ay isang hanay ng mga pamamaraan na, batay sa totoong buhay na mga relasyon ng mga bagay (mga tampok), ginagawang posible upang makilala ang mga nakatagong (implicit) na pangkalahatang katangian ng istraktura ng organisasyon.

Sa dialog box ng factor analysis, piliin ang aming mga variable, tukuyin ang mga kinakailangang parameter.

kanin. 15 Kabuuang ipinaliwanag na pagkakaiba

Ayon sa talahanayan ng "Total explained variance" makikita na 3 mga kadahilanan ang natukoy na nagpapaliwanag ng 74.8% ng mga pagkakaiba-iba ng mga variable - ang itinayong modelo ay medyo maganda.

Ngayon ay binibigyang-kahulugan namin ang mga palatandaan ng kadahilanan ayon sa "Matrix of Rotated Components": (Fig.16).

kanin. 16 Matrix ng mga pinaikot na bahagi

Ang Factor 1 ay pinaka malapit na nauugnay sa antas ng mga benta ng produkto at may kabaligtaran na kaugnayan sa mga hindi gastos sa produksyon.

Ang Factor 2 ay pinaka malapit na nauugnay sa bahagi ng mga materyales sa pagkuha sa kabuuang gastos at ang bahagi ng mga pagkalugi mula sa kasal at may kabaligtaran na kaugnayan sa mga bonus at suweldo sa bawat empleyado.

Ang Factor 3 ay pinaka malapit na nauugnay sa antas ng produktibidad ng kapital at turnover ng kapital na nagtatrabaho at may kabaligtaran na kaugnayan sa average na taunang halaga ng mga fixed asset.

2. Ipahiwatig ang pinaka-maunlad at promising na mga negosyo.

Upang matukoy ang pinakamaunlad na mga negosyo, pag-uuri-uriin namin ang data ayon sa 3 pamantayang kadahilanan sa pababang pagkakasunud-sunod. (Larawan 17)

Ang pinaka-maunlad na negosyo ay dapat isaalang-alang: 13,4,5, dahil sa pangkalahatan, ayon sa 3 mga kadahilanan, ang kanilang mga tagapagpahiwatig ay sumasakop sa pinakamataas at pinaka-matatag na posisyon.

Kabanata 4. Discriminant Analysis

Pagtatasa ng pagiging creditworthiness ng mga legal na entity sa isang komersyal na bangko

Pinili ng bangko ang anim na tagapagpahiwatig bilang makabuluhang tagapagpahiwatig na nagpapakilala sa kalagayang pinansyal ng mga organisasyong humihiram (Talahanayan 4.1.1):

QR (X1) - mabilis na ratio ng pagkatubig;

CR (X2) - kasalukuyang ratio ng pagkatubig;

EQ/TA (X3) - ratio ng kalayaan sa pananalapi;

TD/EQ (X4) - kabuuang pananagutan sa equity capital;

ROS (X5) - kakayahang kumita ng mga benta;

FAT (X6) - turnover ng fixed assets.

Talahanayan 4.1.1. Paunang data


Kailangan:

Batay sa isang discriminant analysis gamit ang SPSS package, alamin kung alin sa apat na kategorya ang tatlong borrower (legal na entity) na gustong kumuha ng loan mula sa isang komersyal na bangko ay kabilang sa:

§ Grupo 1 - na may mahusay na pagganap sa pananalapi;

§ Pangkat 2 - na may mahusay na pagganap sa pananalapi;

§ Pangkat 3 - na may mahinang pagganap sa pananalapi;

§ Pangkat 4 - na may napakahinang pagganap sa pananalapi.

Batay sa mga resulta ng pagkalkula, bumuo ng mga discriminant function; suriin ang kanilang kahalagahan sa pamamagitan ng Wilks coefficient (λ). Bumuo ng isang perception map at mga diagram ng mga relatibong posisyon ng mga obserbasyon sa espasyo ng tatlong function. Magsagawa ng interpretasyon ng mga resulta ng pagsusuri.

Pag-unlad:

Upang matukoy kung saan kabilang sa apat na kategorya ang tatlong borrower na gustong kumuha ng pautang mula sa isang komersyal na bangko, bumuo kami ng isang discriminant analysis na nagpapahintulot sa amin na matukoy kung alin sa mga dating natukoy na populasyon (mga sample ng pagsasanay) ang mga bagong customer ang dapat italaga sa .

Bilang isang dependent variable, pipili tayo ng isang grupo kung saan maaaring kabilang ang nanghihiram, depende sa pagganap nito sa pananalapi. Mula sa datos ng gawain, ang bawat pangkat ay bibigyan ng kaukulang marka na 1, 2, 3, at 4.

Mga hindi normal na canonical coefficient ng mga discriminant function na ipinapakita sa Fig. 4.1.1 ay ginagamit upang bumuo ng equation ng mga discriminant function na D1(X), D2(X) at D3(X):

3.) D3(X) =


1

(Patuloy)

kanin. 4.1.1. Coefficients ng canonical discriminant function

kanin. 4.1.2. Lambda Wilks

Gayunpaman, dahil ang kahalagahan ng Wilks coefficient (Larawan 4.1.2) ng pangalawa at pangatlong function ay higit sa 0.001, hindi ipinapayong gamitin ang mga ito para sa diskriminasyon.

Ang data ng talahanayan na "Mga resulta ng pag-uuri" (Larawan 4.1.3) ay nagpapahiwatig na para sa 100% ng mga obserbasyon ang pag-uuri ay natupad nang tama, ang mataas na katumpakan ay nakamit sa lahat ng apat na grupo (100%).

kanin. 4.1.3. Mga resulta ng pag-uuri

Ang impormasyon tungkol sa aktwal at hinulaang mga grupo para sa bawat borrower ay ibinibigay sa talahanayan na "Point Statistics" (Fig. 4.1.4).

Bilang resulta ng discriminant analysis, natukoy na may mataas na posibilidad na ang mga bagong borrower ng bangko ay kabilang sa training subset M1 - ang una, pangalawa at pangatlong borrower (mga serial number 41, 42, 43) ay itinalaga sa M1 subset na may kaukulang probabilidad ng 100%.

Numero ng pagmamasid

Aktwal na Grupo

Malamang na Grupo

Hinulaang pangkat

ungrouped

ungrouped

ungrouped

kanin. 4.1.4. Mga istatistika ng punto

Ang mga coordinate ng mga centroid ayon sa mga grupo ay ibinibigay sa talahanayan na "Mga Pag-andar sa mga centroid ng grupo" (Larawan 4.1.5). Ginagamit ang mga ito upang i-plot ang mga centroid sa isang perceptual na mapa (Figure 4.1.6).

1

kanin. 4.1.5. Mga pag-andar sa mga sentroid ng pangkat

kanin. 4.1.6. Mapa ng perception para sa dalawang discriminant function na D1(X) at D2(X) (* - group centroid)

Ang patlang ng "Mapa ng teritoryo" ay nahahati ng mga discriminant function sa apat na lugar: sa kaliwang bahagi mayroong pangunahing mga obserbasyon ng ika-apat na grupo ng mga borrower na may napakahirap na pagganap sa pananalapi, sa kanang bahagi - ang unang pangkat na may mahusay na pagganap sa pananalapi, sa gitna at ibabang bahagi - ang ikatlo at pangalawang grupo ng mga nanghihiram na may masama at mahusay na pagganap sa pananalapi, ayon sa pagkakabanggit.

kanin. 4.1.7. Scatterplot para sa lahat ng grupo

Sa fig. Ipinapakita ng 4.1.7 ang pinagsamang iskedyul para sa pamamahagi ng lahat ng grupo ng mga nanghihiram kasama ng kanilang mga centroid; maaari itong magamit upang magsagawa ng isang paghahambing na visual na pagsusuri ng likas na katangian ng kamag-anak na posisyon ng mga grupo ng mga nanghihiram sa bangko sa mga tuntunin ng mga tagapagpahiwatig ng pananalapi. Sa kanang bahagi ng graph ay ang mga borrower na may mataas na pagganap, sa kaliwa - na may mababa, at sa gitna - na may average na pagganap sa pananalapi. Dahil, ayon sa mga resulta ng pagkalkula, ang pangalawang discriminant function na D2(X) ay naging hindi gaanong mahalaga, ang mga pagkakaiba sa mga coordinate ng centroid sa kahabaan ng axis na ito ay hindi gaanong mahalaga.

Pagtatasa ng pagiging creditworthiness ng mga indibidwal sa isang komersyal na bangko

Ang departamento ng kredito ng isang komersyal na bangko ay nagsagawa ng isang sample na survey ng 30 sa mga kliyente nito (mga indibidwal). Batay sa isang paunang pagsusuri ng data, ang mga nanghihiram ay nasuri ayon sa anim na tagapagpahiwatig (Talahanayan 4.2.1):

X1 - ang nanghihiram ay kumuha ng pautang mula sa mga komersyal na bangko nang mas maaga;

Ang X2 ay ang average na buwanang kita ng pamilya ng nanghihiram, libong rubles;

X3 - termino (panahon) ng pagbabayad ng utang, taon;

X4 - ang halaga ng utang na ibinigay, libong rubles;

X5 - komposisyon ng pamilya ng nanghihiram, mga tao;

X6 - edad ng nanghihiram, taon.

Kasabay nito, tatlong grupo ng mga nanghihiram ang nakilala ayon sa posibilidad ng pagbabayad ng utang:

§ Pangkat 1 - na may mababang posibilidad ng pagbabayad ng utang;

§ Pangkat 2 - na may average na posibilidad ng pagbabayad ng utang;

§ Pangkat 3 - na may mataas na posibilidad ng pagbabayad ng utang.

Kailangan:

Batay sa discriminant analysis gamit ang SPSS package, kinakailangang pag-uri-uriin ang tatlong customer ng bangko (ayon sa posibilidad ng pagbabayad ng utang), i.e. suriin kung ang bawat isa sa kanila ay kabilang sa isa sa tatlong pangkat. Batay sa mga resulta ng pagkalkula, bumuo ng mga makabuluhang discriminant function, suriin ang kanilang kahalagahan sa pamamagitan ng Wilks coefficient (λ). Sa espasyo ng dalawang discriminant function para sa bawat grupo, bumuo ng mga diagram ng mutual arrangement ng mga obserbasyon at isang pinagsamang diagram. Tayahin ang lokasyon ng bawat nanghihiram sa mga chart na ito. Magsagawa ng interpretasyon ng mga resulta ng pagsusuri.

Talahanayan 4.2.1. Paunang data

Pag-unlad:

Upang bumuo ng isang discriminant analysis, pipiliin namin ang posibilidad ng napapanahong pagbabayad ng isang loan ng isang kliyente bilang isang dependent variable. Dahil maaari itong mababa, katamtaman at mataas, ang bawat kategorya ay bibigyan ng katumbas na marka na 1,2 at 3.

Mga hindi normal na canonical coefficient ng mga discriminant function na ipinapakita sa Fig. 4.2.1 ay ginagamit upang bumuo ng equation ng mga discriminant function D1(X), D2(X):

2.) D2(X) =

kanin. 4.2.1. Coefficients ng canonical discriminant function

kanin. 4.2.2. Lambda Wilks

Ayon sa Wilks coefficient (Fig. 4.2.2) para sa pangalawang function, ang kahalagahan ay higit sa 0.001, samakatuwid, hindi ipinapayong gamitin ito para sa diskriminasyon.

Ang data ng talahanayan na "Mga resulta ng pag-uuri" (Larawan 4.2.3) ay nagpapahiwatig na para sa 93.3% ng mga obserbasyon ang pag-uuri ay natupad nang tama, ang mataas na katumpakan ay nakamit sa una at pangalawang grupo (100% at 91.7%), hindi gaanong tumpak ang mga resulta ay nakuha sa ikatlong pangkat (88.9%).

kanin. 4.2.3. Mga resulta ng pag-uuri

Ang impormasyon tungkol sa aktwal at hinulaang mga grupo para sa bawat kliyente ay ibinibigay sa talahanayan na "Mga istatistika ng punto" (Larawan 4.2.4).

Bilang resulta ng discriminant analysis, natukoy na may mataas na posibilidad na ang mga bagong kliyente ng bangko ay kabilang sa training subset M3 - ang una, pangalawa at pangatlong kliyente (mga serial number 31, 32, 33) ay itinalaga sa M3 subset na may ang kaukulang probabilidad ng 99%, 99% at 100%.

Numero ng pagmamasid

Aktwal na Grupo

Malamang na Grupo

Hinulaang pangkat

ungrouped

ungrouped

ungrouped

kanin. 4.2.4. Mga istatistika ng punto

Ang posibilidad ng pagbabayad ng utang

kanin. 4.2.5. Mga pag-andar sa mga sentroid ng pangkat

Ang mga coordinate ng mga centroid ayon sa mga grupo ay ibinibigay sa talahanayan na "Mga Pag-andar sa mga centroid ng grupo" (Larawan 4.2.5). Ginagamit ang mga ito upang mag-plot ng mga centroid sa isang perceptual na mapa (Figure 4.2.6).

Ang patlang na "Mapa ng Teritoryo" ay nahahati ng mga discriminant function sa tatlong lugar: sa kaliwang bahagi mayroong pangunahing mga obserbasyon sa unang grupo ng mga kliyente na may napakababang posibilidad na mabayaran ang utang, sa kanang bahagi - ang ikatlong pangkat na may mataas na posibilidad , sa gitna - ang pangalawang grupo ng mga kliyente na may average na posibilidad na mabayaran ang utang, ayon sa pagkakabanggit. .

Sa fig. 4.2.7 (a - c) ay sumasalamin sa lokasyon ng mga kliyente ng bawat isa sa tatlong grupo sa eroplano ng dalawang discriminant function na D1(X) at D2(X). Batay sa mga graph na ito, posibleng magsagawa ng detalyadong pagsusuri sa posibilidad ng pagbabayad ng utang sa loob ng bawat grupo, upang hatulan ang likas na katangian ng pamamahagi ng mga customer at upang masuri ang antas ng kanilang pagkalayo mula sa kaukulang centroid.

kanin. 4.2.6. Mapa ng perception para sa tatlong discriminant function na D1(X) at D2(X) (* - group centroid)

Gayundin sa fig. 4.2.7 (d) sa parehong coordinate system, ang pinagsamang graph ng distribusyon ng lahat ng grupo ng customer ay ipinapakita kasama ng kanilang mga centroid; maaari itong magamit upang magsagawa ng isang paghahambing na visual na pagsusuri ng likas na katangian ng kamag-anak na posisyon ng mga grupo ng mga customer sa bangko na may iba't ibang posibilidad ng pagbabayad ng utang. Sa kaliwang bahagi ng graph ay ang mga borrower na may mataas na posibilidad na mabayaran ang utang, sa kanan - na may mababang posibilidad, at sa gitnang bahagi - na may average na posibilidad. Dahil, ayon sa mga resulta ng pagkalkula, ang pangalawang discriminant function na D2(X) ay naging hindi gaanong mahalaga, ang mga pagkakaiba sa mga coordinate ng centroid sa kahabaan ng axis na ito ay hindi gaanong mahalaga.

kanin. 4.2.7. Lokasyon ng mga obserbasyon sa eroplano ng dalawang discriminant function para sa mga grupong may mababang (a), medium (b), mataas (c) na posibilidad ng pagbabayad ng utang at para sa lahat ng grupo (d)

Bibliograpiya

1. “Multivariate statistical analysis in economic problems. Pagmomodelo ng computer sa SPSS", 2009

2. Orlov A.I. "Applied statistics" M .: Publishing house "Exam", 2004

3. Fisher R.A. "Mga Paraan ng Istatistika para sa mga Mananaliksik", 1954

4. Kalinina V.N., Soloviev V.I. "Introduction to Multivariate Statistical Analysis" Textbook SUM, 2003;

5. Achim Buyul, Peter Zöfel, SPSS: The Art of Information Processing, DiaSoft Publishing, 2005;

6. http://ru.wikipedia.org/wiki

Nagustuhan ang artikulo? Ibahagi ito