Contacte

Analiza comparativă a metodelor de analiză a clusterelor în rezolvarea problemelor de grupare. Analiza cluster ierarhică Ce este procedura de analiză cluster Lapin

Introducere

Capitolul 1. Fundamentele teoretice ale analizei Big Data

1.1 Despre Big Data

.2 Hartă-Reducere

.3 Data Mining pentru Big Data

1.4 Sarcini rezolvate prin metodele Data Mining

Concluzie la primul capitol

Capitolul 2. Analiza cluster pentru Big Data

.1 Alegerea unei metode de grupare

.2 Metode ierarhice

.3 Metode neierarhice

.4 Compararea tipurilor de clustering

.5 Statistici legate de analiza clusterului

Concluzia celui de-al doilea capitol

capitolul 3

.1 Profilul clientului

.2 Analiza conformității

.3 Ideea principală a analizei cluster

.4 Caracteristici pentru grupare

.5 Identificarea punctelor omogene în locație

.5.1 Stratificare finală

.6 Agruparea obiectelor în grupuri omogene

.7 Gruparea gamei de prize

Concluzia celui de-al treilea capitol

Concluzie

Bibliografie

Introducere

Omenirea în dezvoltarea sa folosește resurse materiale, energetice, instrumentale și informaționale. Informațiile despre evenimentele din trecut, prezent și posibil viitor sunt de mare interes pentru analiza a ceea ce se întâmplă. După cum spuneau anticii: Praemonitus praemunitus - "precautia este ca o inarmare".

Dezvoltarea modernă a societății se caracterizează printr-o creștere fără precedent a fluxurilor de informații - în industrie, comerț, piețe financiare. Capacitatea unei societăți de a stoca și procesa rapid informațiile determină, în general, nivelul de dezvoltare al statalității unei țări.

Problemei culegerii, stocării și procesării informațiilor în societatea modernă i se acordă o mare atenție. Cu toate acestea, în acest moment există o contradicție clară. Pe de o parte, civilizația umană se confruntă cu o explozie informațională, cantitatea de informații crește de multe ori în fiecare an. Pe de altă parte, creșterea volumului actual de informații în societate depășește capacitatea individului de a-l asimila. Prezența unor astfel de probleme inițiază dezvoltarea masivă a tehnologiilor, a mijloacelor tehnice și a fluxurilor de comutare.

Rolul extrem de important al informaţiei în lumea modernă a condus la identificarea informaţiei ca resursă proprie, la fel de importantă şi necesară precum energia, financiara, materiile prime.

Nevoile societății în colectarea, stocarea și prelucrarea informațiilor ca marfă au creat o nouă gamă de servicii - piața tehnologiei informației.

Pentru utilizarea cât mai completă și completă a tehnologiilor informaționale, informațiile trebuie colectate, prelucrate, create locuri de stocare și acumulare, create sisteme de transmisie și sisteme de restricție a accesului și, în final, informația trebuie sistematizată. Ultima problemă este cea mai relevantă în ultima vreme, deoarece o cantitate mare, chiar uriașă, de informații care intră în matricele de stocare globale, fără sistematizarea acesteia, poate duce la colapsul informației, atunci când accesarea sau căutarea informațiilor potrivite poate duce la căutarea unui acul in carul cu fan.

Scopul acestei lucrări : Analiza comparativă a metodelor de analiză a clusterelor în rezolvarea problemelor de grupare.

Sarcină : Analizați abordări ale utilizării analizei cluster în problemele de tastare a unui set mare de date.

Pe parcursul lucrărilor se vor folosi diverse metode de analiză a clusterelor pentru a identifica avantajele și dezavantajele fiecăruia dintre ele, precum și pentru a alege cea mai optimă pentru implementarea sarcinilor. Se va pune și problema principală a analizei clusterelor - problema numărului de clustere și se vor da recomandări pentru soluționarea acesteia. Relevanța acestei lucrări se datorează nevoii urgente de a determina metodele optime de prelucrare a unor cantități mari de date și de rezolvare a problemelor de sistematizare a datelor în cel mai scurt timp posibil. Aplicarea practică largă a datelor obținute prin analiza cluster determină relevanța acestui studiu. Anumite aspecte ale unor astfel de probleme în dezvoltarea modernă a tehnologiilor informaționale fac obiectul tezei mele.

Capitolul 1. Fundamentele teoretice ale analizeiMareDate

.1 Despre Big Data

Termenul „Big Data” caracterizează seturi de date cu o posibilă creștere exponențială care sunt prea mari, prea neformatate sau deloc structurate pentru a fi analizate prin metode tradiționale.

Tehnologii Big Data - o serie de abordări, instrumente și metode de prelucrare a datelor structurate și nestructurate de volume uriașe și o varietate semnificativă. Aceste tehnologii sunt folosite pentru a obține rezultate perceptibile de om care sunt eficiente în condiții de creștere continuă, de distribuție a informațiilor pe numeroase noduri ale unei rețele de calculatoare. Au fost formate la sfârșitul anilor 2000 ca o alternativă la sistemele tradiționale de gestionare a bazelor de date și soluțiile de business intelligence. În prezent, cei mai mari furnizori de tehnologie a informației pentru organizații folosesc conceptul de „big data” în strategiile lor de afaceri, iar principalii analiști ai pieței tehnologiei informației consacră acestui concept studii dedicate.

În prezent, un număr semnificativ de companii urmăresc îndeaproape dezvoltarea tehnologiei. Potrivit rapoartelor „Global Institute, Big data: următoarea frontieră pentru inovare, competiție și productivitate” ale lui McKinsey, datele au devenit un factor important de producție, împreună cu forța de muncă și resursele de capital. Utilizarea Big Data devine baza pentru avantajul competitiv și creșterea companiilor.

În condiții moderne, organizațiile și companiile creează o cantitate imensă de date nestructurate: text, diverse documente, imagini, videoclipuri, coduri de mașină, tabele și altele asemenea. Toate aceste informații sunt găzduite și stocate în mai multe depozite, adesea în afara organizației.

Organizațiile pot avea acces la o gamă uriașă de date proprii, dar în același timp pot să nu aibă instrumentele necesare cu care ar fi realist să stabilească relații între toate aceste date și să tragă concluzii semnificative pe baza acestora. Având în vedere creșterea rapidă și continuă a datelor, devine urgent necesară trecerea de la metodele tradiționale de analiză la tehnologiile mai avansate din clasa Big Data.

Specificații.În sursele moderne, conceptul de Big Data este definit ca date de volum de ordinul teraocteților. Semnele Big Data pot fi definite ca „trei V”: volum - volum; varietate - eterogenitate, set; viteza - viteza (necesita procesare foarte rapida).

Figura 1 Semne de date mari

· Volum. Dezvoltarea rapidă a tehnologiei și popularizarea rețelelor sociale contribuie la creșterea foarte rapidă a volumelor de date. Aceste date, generate atât de oameni, cât și de mașini, sunt distribuite în diverse locuri și formate în volume uriașe.

· Viteză. Această caracteristică este viteza de generare a datelor. Obținerea datelor de care aveți nevoie în cel mai scurt timp posibil este un avantaj competitiv important pentru dezvoltatorii de soluții, și pentru că diferite aplicații au cerințe diferite de latență.

· Diversitate. Diversitatea poate fi atribuită diferitelor formate de stocare a datelor. Astăzi, în lume sunt generate cantități semnificative de date nestructurate, iar acestea se adaugă datelor structurate pe care le primesc întreprinderile. Înainte de apariția erei de dezvoltare a tehnologiei Big Data, nu existau instrumente puternice și de încredere în industrie care să poată lucra cu datele voluminoase nestructurate pe care le vedem astăzi.

Consumul de cantități mari de date structurate generate atât în ​​interiorul, cât și în afara întreprinderii este o necesitate pentru organizațiile din lumea actuală pentru a rămâne competitive.

„Categoria” Big data include în mod tradițional nu numai foile de calcul obișnuite, ci și date nestructurate care pot fi stocate sub formă de imagini, fișiere audio, fișiere video, jurnale web, date de senzor și multe altele. O variație în lumea datelor mari va fi numită acest aspect al diferitelor formate de date.

Mai jos, în Figura 2, este o descriere comparativă a bazei de date tradiționale și a bazei de date Big Data.

Există o serie de industrii în care datele sunt colectate și acumulate foarte intens. Pentru aplicațiile din această clasă, în care este nevoie de stocarea datelor de ani de zile, datele acumulate sunt clasificate ca Extremely Big Data.

Există, de asemenea, o creștere a numărului de aplicații Big Data în sectoarele comerciale și guvernamentale, cantitatea de date a unor astfel de aplicații este în stocare și se ridică adesea la sute de petabytes.

Figura 2 Caracteristicile comparative ale datelor

Dezvoltarea anumitor tehnologii face posibilă „urmărirea” oamenilor, a obiceiurilor, intereselor și comportamentului consumatorilor în diverse moduri. Exemplele includ utilizarea internetului în general și în special cumpărăturile de la comercianții cu amănuntul online, cum ar fi Walmart (conform Wikipedia, stocarea datelor Walmart este evaluată la peste 2 petaocteți), sau călătoriile și deplasarea cu telefoanele mobile, efectuarea de apeluri, scrierea de e-mailuri, realizarea de fotografii, accesarea conturilor de social media din diferite părți ale lumii – toate acestea se acumulează în baze de date și pot fi folosite util datorită procesării rapide a datelor mari.

În mod similar, tehnologiile medicale moderne generează cantități mari de date legate de acordarea de îngrijiri medicale (imagini, videoclipuri, monitorizare în timp real).

Surse de date mari. La fel cum formatele de stocare a datelor s-au schimbat, sursele de date au evoluat și se extind constant. Datele trebuie stocate într-o mare varietate de formate.

Odată cu dezvoltarea și progresul tehnologiei, cantitatea de date care este generată crește constant. Sursele de date mari pot fi împărțite în șase categorii diferite, după cum se arată mai jos.

Figura 3 Surse de date mari

· Datele întreprinderii.Întreprinderile au cantități mari de date în diferite formate. Formatele comune includ fișiere plate, e-mailuri, documente Word, foi de calcul, prezentări, pagini HTML, documente PDF, fișiere XML, formate vechi etc. Aceste date, distribuite în întreaga organizație în diferite formate, numite date corporative .

· date tranzacționale. Fiecare întreprindere are propriile aplicații, care includ executarea diferitelor tipuri de tranzacții, cum ar fi aplicații web, aplicații mobile, sisteme CRM și multe altele.

Pentru a sprijini tranzacțiile în aceste aplicații, una sau mai multe baze de date relaționale sunt de obicei utilizate ca infrastructură de bază. Practic sunt date structurate și se numesc tranzacționale. date.

· Social media. Rețelele sociale precum Twitter, Facebook și multe altele generează o mulțime de date. De obicei, rețelele sociale folosesc formate de date nestructurate, inclusiv text, imagini, audio, video. Această categorie de surse de date se numește social mass-media .

· Generare activitate. Acestea includ date de la dispozitive medicale, date cenzurate, video de supraveghere, sateliți, turnuri de telefoane mobile, echipamente industriale și alte date generate în principal de mașini. Aceste tipuri de date se numesc date Generare activitate.

· date publice. Aceste date includ date care sunt disponibile public, cum ar fi date publicate de guverne, date de cercetare publicate de institutele de cercetare, date de la departamentele meteorologice și meteorologice, date de recensământ, Wikipedia, eșantioane de date open source și alte date care sunt disponibile gratuit pentru public . Acest tip de date publice se numește date publice .

· Arhiva. Organizațiile arhivează o mulțime de date care fie nu mai sunt necesare, fie sunt rareori necesare. În lumea de astăzi, în care hardware-ul devine din ce în ce mai ieftin, nicio organizație nu dorește să ștergă date, ea vrea să păstreze cât mai multe date posibil. Acest tip, care este accesat mai rar, se numește date de arhivă.

Exemple de implementare. Ca exemplu de implementare a acestei tehnologii, cel mai des este citat proiectul Hadoop, care este conceput pentru a implementa calcularea distribuită folosită pentru a procesa cantități impresionante de date.

Acest proiect este dezvoltat de Apache Software Foundation. Cloudera sprijină acest proiect din punct de vedere comercial.

Dezvoltatorii din diverse țări ale lumii sunt implicați în proiect ca participanți. furnizor de clustering de informații

Din punct de vedere tehnologic, Apache Hadoop poate fi numit un cadru Java gratuit care suportă execuția aplicațiilor distribuite care rulează pe clustere mari construite pe hardware standard.

Deoarece prelucrarea datelor este efectuată pe un cluster de servere, dacă unul dintre ele nu reușește, munca va fi redistribuită între altele funcționale.

De asemenea, este necesar să spunem despre implementarea tehnologiei MapReduce în Hadoop, a cărei sarcină principală este paralelizarea automată a datelor și procesarea lor pe clustere.

Nucleul Hadoop este un sistem de fișiere distribuit HDFS (Hadoop Distributed File System), care operează sisteme de stocare.

Esența sistemului este împărțirea datelor primite în blocuri, pentru care există o poziție special alocată în pool-ul de servere pentru fiecare dintre ele. Sistemul face posibilă scalarea aplicațiilor. Un nivel va fi mii de noduri și petaocteți de date.

1.2 Hartă-Reducere

În acest paragraf, ne vom concentra pe algoritmul Map-Reduce, care este un model pentru calculul distribuit.

Principiile funcționării sale se bazează pe distribuția datelor de intrare către nodurile de lucru ale unui sistem de fișiere distribuit pentru preprocesare (map-step) și, apoi, urmează convoluția (combinația) datelor preprocesate (reduce step) .

Algoritmul calculează subtotalurile fiecărui nod de sistem de fișiere distribuit, apoi calculează suma subtotalurilor și ajunge la suma finală.

Magic Quadrant pentru furnizorii de soluții de gestionare a stocării (Gartner, februarie 2017)

Figura 4 Lideri

Companii:

Lideri: IBM, SAS, RapidMiner, KNIME

Provocatori: MathWorks, Quest (fost Dell), Alteryx, Angoss

Vizualizatori: Microsoft, H2O.ai, Dataiku, Domino Data Lab, Alpine Data

Jucători de nișă: FICO, SAP, Teradata

1.3 Exploatarea datelorpentrumuncăCuDate mare

extragerea datelor(DM) - „Aceasta este o tehnologie care este concepută pentru a căuta modele neevidente, obiective și practice în cantități mari de date.”

O caracteristică a Data Mining este combinarea unui set de instrumente matematice larg (de la analiza statistică clasică la noi metode cibernetice) și cele mai recente progrese în tehnologia informației.

Această tehnologie combină metode strict formalizate și metode de analiză informală, adică. analiza datelor cantitative și calitative.

.4 Sarcini rezolvate prin metodele Data Mining

· Corelație - stabilirea unei dependențe statistice a ieșirii continue de variabilele de intrare.

· Clustering este o grupare de obiecte (observații, evenimente) bazată pe date (proprietăți) care descriu esența acestor obiecte. Obiectele dintr-un cluster trebuie să fie „asemănătoare” între ele și, în același timp, să aibă diferențe față de obiectele care se încadrează în alte clustere.

Precizia grupării va fi mai mare dacă obiectele din cluster sunt cât mai asemănătoare și clusterele sunt cât mai diferite.

· Clasificarea este atribuirea de obiecte (observații, evenimente) uneia dintre clasele cunoscute anterior.

· Asociere - identificarea tiparelor între evenimentele înrudite. Un exemplu de astfel de model este o regulă care indică faptul că evenimentul Y decurge din evenimentul X. Astfel de reguli se numesc asociative.

Concluzie la primul capitol

Big Data nu este doar un alt hype pe piața IT, ci este o tranziție sistematică, de înaltă calitate, către compilarea lanțurilor valorice bazate pe cunoștințe.

Efectul său poate fi comparat cu apariția tehnologiei computerizate la prețuri accesibile la sfârșitul secolului trecut.

În timp ce conservatorii miopi vor aplica abordări profund depășite, întreprinderile care folosesc deja tehnologiile Big Data se vor găsi în poziții de lider și vor câștiga avantaje competitive pe piață în viitor. Nu există nicio îndoială că toate organizațiile majore vor implementa această tehnologie în următorii ani, deoarece este atât prezentă, cât și viitoare.

Capitolul 2. Analiza cluster pentruMareDate

Analiza cluster este o clasă de metode care sunt folosite pentru a clasifica obiecte sau evenimente în grupuri suficient de omogene, care vor fi numite clustere.

Va fi fundamental ca obiectele din clustere să fie similare între ele, dar, în același timp, trebuie să fie diferite de obiectele situate în alte clustere.

Figura 5 ilustrează o situație ideală de grupare, fiecare dintre clustere este clar separat pe baza diferențelor a două variabile: orientarea către calitate (X) și sensibilitatea la preț (Y),

Figura 5 Situația ideală de grupare

Trebuie remarcat faptul că absolut fiecare consumator se încadrează într-unul dintre grupuri și nu există zone care se suprapun.

Cu toate acestea, ilustrația de mai jos arată cea mai frecventă situație de grupare în practică.

În conformitate cu datele din Figura 6, granițele clusterelor sunt extrem de vagi și nu este complet clar care consumatori sunt alocați cărui cluster, deoarece o parte semnificativă a acestora nu poate fi grupată într-unul sau altul.

Figura 6 Situația reală a grupării

În analiza clusterelor, grupurile sau clusterele sunt identificate folosind datele reale colectate, și nu în avans. Astfel - nu este absolut necesar să pregătiți informații preliminare despre apartenența la cluster a vreunuia dintre obiecte .

Segmentarea pieței. De exemplu, consumatorii ar trebui împărțiți în grupuri în funcție de beneficiile pe care le așteaptă de la achiziționarea unui anumit produs. Un cluster poate conține consumatori care caută beneficii similare. Această metodă este denumită în mod obișnuit metoda de segmentare a beneficiilor.

Înțelegerea comportamentului cumpărătorului. Utilizarea analizei cluster dacă este necesar să se identifice categorii omogene de cumpărători.

Determinarea posibilităților unui produs nou. Definirea grupurilor și ansamblurilor competitive pe o anumită piață se realizează și prin gruparea mărcilor și produselor.

Selectarea piețelor de testare. O selecție a unor astfel de orașe pentru a testa mai multe strategii de marketing este realizată prin gruparea orașelor în clustere omogene.

Reducerea dimensiunii datelor X. Analiza cluster este, de asemenea, utilizată ca instrument primar de reducere a datelor pentru a crea clustere sau subgrupuri de date care sunt mai susceptibile de analiză decât observațiile individuale. În plus, analiza multivariată efectuată este efectuată pe clustere, și nu pe observații individuale.

2.1 Metode de grupare

Există două tipuri de metode de grupare: ierarhicși neierarhic.

Figura 7 Metode de analiză în cluster

.2 Metode ierarhice

Metode ierarhice sunt împărțite în două tipuri - aglomerative și divizibile.

Aglomerativ gruparea începe cu fiecare obiect într-un grup separat. Obiectele sunt grupate în grupuri din ce în ce mai mari. Acest proces va continua până când toate obiectele devin membre ale unui singur cluster.

De asemenea, trebuie subliniat divizionară clustering, care provine din toate obiectele care sunt grupate într-un singur cluster. Clusterele se vor împărți până când fiecare obiect se află într-un grup separat. Cel mai adesea pentru cercetare sunt luate metode aglomerative, cum ar fi metodele de comunicare, precum și metodele dispersive și centroide.

Metode de comunicare include metoda linkului unic, metoda linkului complet și metoda linkului mediu. Metodele de legătură sunt metode de grupare ierarhică aglomerativă care combină obiecte într-un cluster pe baza distanței calculate dintre ele.

Figura 8 Metoda legăturii unice

In nucleu metoda legăturii unice se află distanța minimă sau regula vecinului cel mai apropiat (Formula 1).

Când se formează un grup, două obiecte sunt mai întâi combinate, distanța dintre care este minimă. În continuare, se determină următoarea distanță cea mai scurtă și un al treilea obiect este introdus în grupul cu primele două obiecte.

În fiecare etapă, distanța dintre două grupuri este distanța dintre punctele lor cele mai apropiate. În orice etapă, două grupuri sunt combinate prin distanța cea mai scurtă dintre ele.

Acest proces este continuat până când toate obiectele sunt grupate. Dacă clusterele sunt prost definite, atunci metoda legăturii unice nu funcționează suficient de bine.

Figura 9 Metoda de legătură completă

In nucleu metoda linkului complet se află distanța maximă dintre obiecte sau regula vecinului îndepărtat. În metoda legăturii complete, distanța dintre două grupuri este calculată ca distanța dintre cele două puncte exterioare ale acestora.

Figura 10 Metoda de legătură medie

V metoda medie de conectare distanța dintre două grupuri este definită ca media tuturor distanțelor măsurate între obiecte din două grupuri, fiecare pereche incluzând obiecte din grupuri diferite. Metoda de legătură medie utilizează informații despre toate distanțele dintre perechi, nu doar distanța minimă sau maximă. Din acest motiv, metoda de legare medie este în general preferată în detrimentul metodelor de legare unică sau completă.

Metode de dispersie clusterele sunt formate în așa fel încât să minimizeze dispersia intracluster.

Figura 11 Metoda Ward

O metodă de dispersie larg cunoscută utilizată în acest scop este metoda lui Ward, în care clusterele sunt formate în așa fel încât să minimizeze pătratele distanțelor euclidiene față de mediile cluster.

Pentru fiecare grup, mediile tuturor variabilelor sunt calculate. Apoi, pentru fiecare obiect, se calculează distanțele euclidiene pătrate față de cluster.

Aceste distanțe pătrate sunt însumate pentru toate obiectele. În fiecare etapă, două grupuri cu cea mai mică creștere a variației totale intracluster sunt combinate.

Figura 12 Metoda Centroid

V metodele centroide distanța dintre două clustere este distanța dintre centroizii lor (medii pentru toate variabilele).

Metoda centroidului este o metodă de dispersie pentru gruparea ierarhică. De fiecare dată când obiectele sunt grupate și se calculează un nou centroid.

Metoda Ward și conexiunea medie arată cele mai bune rezultate dintre toate metodele ierarhice.

2.3 Metode neierarhice

Un alt tip de proceduri de grupare sunt metode neierarhice clustering, denumită adesea metoda k-means. metoda k-means(k-înseamnă grupare) - o metodă care determină centrul clusterului și apoi grupează toate obiectele în cadrul valorii de prag specificate din centru. Aceste metode includ thresholding secvenţial, thresholding paralel şi optimizarea alocării.

unde k este numărul de clustere, _(i)) sunt clusterele rezultate, i=1,2,…,k

Centrele de masă ale vectorilor .

Figura 13 Un exemplu de funcționare a algoritmului k-medii (k=2)

V metoda pragului secvenţial grupează obiectele care se află într-o valoare de prag cu un centru dat.

Următorul pas este definirea unui nou centru de cluster, iar acest proces va fi repetat pentru punctele negrupate. După plasarea unui obiect într-un grup cu un centru nou, acesta nu va mai fi considerat ca obiect pentru gruparea ulterioară.

Funcționează într-un mod similar metoda pragului paralel, dar are o diferență importantă - mai multe centre de cluster sunt selectate simultan și obiectele care se află în nivelul pragului sunt grupate cu cel mai apropiat centru.

Optimizarea metodei de distribuție va diferi de cele două metode de prag anterioare prin aceea că obiectele pot fi ulterior atribuite altor clustere (redistribuite), pentru a optimiza criteriul general, care este distanța medie intra-cluster stabilită pentru un anumit număr de clustere.

algoritmul BIRCH datorită reprezentărilor generalizate ale clusterelor, viteza de clustering crește, în timp ce algoritmul are o scalare mare. Acest algoritm implementează un proces de grupare în două etape.

Prima etapă este formarea unui set preliminar de clustere. Următorul pas este aplicarea clusterelor identificate alți algoritmi de clustering care ar fi potriviti pentru lucrul cu RAM.

Imaginați-vă fiecare element de date ca o mărgele care se află pe suprafața mesei, atunci este absolut posibil să „înlocuiți” aceste grupuri cu mingi de tenis și apoi să continuați să studiați grupurile de mingi de tenis mai detaliat.

Numărul de margele poate fi destul de mare, dar diametrul mingilor de tenis poate fi într-adevăr ales astfel încât în ​​a doua etapă, folosind algoritmi tradiționali de grupare, să devină posibilă determinarea formei complexe reale a clusterelor.

Printre noii algoritmi scalabili, se poate remarca și algoritmul VINDECA- algoritm de clustering ierarhic, unde conceptul de cluster este formulat folosind conceptul de densitate. Mulți cercetători lucrează activ la metode scalabile, a căror sarcină principală este de a depăși deficiențele algoritmilor care există astăzi.

2.4 Compararea tipurilor de clustering

Tabelul prezintă avantajele și dezavantajele unor astfel de metode precum: algoritmul CURE, BIRCH, MST, k-means (k-means), PAM, CLOPE, hărți de auto-organizare Kohonen, HCM (Hard C - Means), Fuzzy C-means .

2.5 Statistici legate de analiza clusterului

Următoarele statistici și concepte sunt legate de analiza cluster:

1. Cluster centroid. Valoarea medie a variabilelor pentru toate cazurile sau obiectele dintr-un anumit cluster.

2. Centrele de clustere. Puncte de plecare inițiale în clustering non-ierarhic. Clusterele sunt construite în jurul acestor centre sau granule de clustering.

3. Apartenența la un cluster. Specifică clusterul căruia îi aparține fiecare caz sau obiect.

4. Diagrama arborelui- un instrument grafic pentru afișarea rezultatelor grupării. Liniile verticale reprezintă grupuri care sunt îmbinate. Poziția liniei verticale pe scara distanțelor arată distanțele la care au fost combinate clusterele. Această diagramă este citită de la stânga la dreapta.

5. Indicele de variație. Verificarea calității grupării.Raportul abaterii standard la medie.

7. Diagrama de țurțuri. Aceasta este o afișare grafică a rezultatelor grupării.

8. Matricea asemănării / matricea distanțelor dintre obiectele combinate este o matrice triunghiulară inferioară care conține valori de distanță între perechi de obiecte sau carcase

Concluzia celui de-al doilea capitol

Analiza cluster poate fi cu adevărat numită cel mai convenabil și cel mai optim instrument pentru identificarea segmentelor de piață. Utilizarea acestor metode a devenit deosebit de relevantă în era tehnologiei înalte, în care este atât de importantă accelerarea proceselor de lungă durată și intensivă în muncă cu ajutorul tehnologiei. Variabilele folosite ca bază pentru grupare vor fi alegerea corectă pe baza experienței studiilor anterioare, a fundamentelor teoretice, a diverselor ipoteze testate și, de asemenea, pe baza dorințelor cercetătorului. În plus, se recomandă să se ia o măsură adecvată de similitudine. O trăsătură distinctivă a grupării ierarhice este dezvoltarea unei structuri ierarhice. Există și sunt utilizate două tipuri de metode de grupare ierarhică - aglomerative și divizibile.

Metodele aglomerative includ: metoda de conectare unică, completă și medie. Cea mai comună metodă de dispersie este metoda Bard. Metodele de grupare non-ierarhice sunt adesea denumite metode k-means. Alegerea metodei de grupare și alegerea măsurii distanței sunt interdependente. În gruparea ierarhică, un criteriu important pentru a decide numărul de clustere este distanța la care clusterele sunt combinate. Dimensiunile relative ale clusterelor ar trebui să fie astfel încât să aibă sens să păstrați acest cluster și să nu îl îmbinați cu altele. Clusterele sunt interpretate în termeni de centroizi cluster. Este adesea util să interpretați clusterele prin profilarea acestora prin variabile care nu au stat la baza grupării. Fiabilitatea și validitatea soluțiilor de clustering sunt evaluate în diferite moduri.

capitolul 3

A fost luată ca obiect de studiu o întreprindere comercială cu 36.651 de puncte de vânzare de produse de cofetărie. Lista mărfurilor vândute de întreprindere include mai mult de 350 de unități de produse.

Scopul acestui studiu va fi o analiză comparativă a metodelor de analiză a clusterelor în rezolvarea problemelor:

Studiul profilului clientului și analiza corespondenței relațiilor caracteristicilor date;

2. Împărțirea în clustere - alocarea grupelor omogene;

Împărțirea în grupe omogene a sortimentului unei întreprinderi comerciale.

.1 Profilul clientului

Potrivit unui studiu Galileo realizat în a doua jumătate a anului 2016, aproximativ 42 de milioane de persoane care consumă produse de cofetărie au fost intervievate.

Din acest sondaj rezultă că principalii consumatori de produse de cofetărie sunt femeile.

Acest lucru poate fi atribuit faptului că femeile primesc în mod tradițional produse de ciocolată cadou, iar majoritatea iubitorilor de cofetărie sunt femei. Acest lucru poate fi văzut clar în Figura 10.

· până la 16 ani - principalii consumatori de ciocolată sub formă de cifre;

· de la 16 la 24 de ani - principalii consumatori de batoane de ciocolată;

ciocolata într-un baton în majoritatea cazurilor este achiziționată de femei de la 25 la 34 de ani;

· persoane de la 25 la 45 de ani - principalii cumpărători de dulciuri în cutii;

· De la 45 de ani și peste preferă dulciurile vrac.

Figura 14 Consumul de produse de cofetărie pe sexe

În figura 12 este prezentată distribuția consumului total în 3 grupe, în funcție de avere: A-scăzut, B-mediu, C-ridicat. Ponderea leului a consumatorilor revine grupului cu un venit mediu - 54%, urmat de un grup cu un venit mic - 29%, cea mai mică contribuție o aduce un grup cu un venit mare - 17%.

Figura 15 Consumul de cofetărie pe venituri

Acest grafic ilustrează preferințele publicului în alegerea locului de cumpărare, să luăm în considerare și distribuția în funcție de venituri. Evident, cel mai mare număr de achiziții se fac în hiper și supermarketuri, ceea ce este adevărat în raport cu fiecare dintre grupele de venituri.

Ponderea achizițiilor din supermarketuri este de aproape jumătate (46%) pentru grupa C, pe baza căreia se poate concluziona că este oportună extinderea gamei de bunuri populare în rândul persoanelor cu venituri mari.

Persoanele cu venituri medii reprezintă 41% din achizițiile de la supermarketuri, în timp ce persoanele cu venituri mici reprezintă cea mai mică pondere, 37%. Urmează ponderea achizițiilor din magazinele mici cu autoservire; achizițiile în astfel de magazine sunt făcute de toate cele trei grupuri în proporții egale. Cea mai mică pondere revine piețelor și tarabelor, unde contribuția principală o au reprezentanții grupei A, care include un număr mare de pensionari care fac adesea achiziții în piață „din obișnuință”.

Figura 16 Locațiile achizițiilor de produse de cofetărie în funcție de venituri

Următorul grafic ilustrează în mod clar gradul de importanță al unei anumite caracteristici a produsului pentru fiecare dintre cele trei grupuri de venituri. Pentru grupele A și B, cel mai important factor este prețul, iar aspectul ambalajului și țara de producție a mărfurilor au o importanță mică. Comportamentul reprezentanților grupului cu venituri mari va fi ușor diferit, unde, pe lângă preț, sunt importante marca și aspectul și țara de producție a mărfurilor.

Figura 17 Priorități la alegerea produselor de cofetărie pentru diferite grupuri de venituri

.2 Analiza conformității

Analiza corespondenței este utilizată pentru a vizualiza tabelele. Această metodă vă permite să identificați relația dintre caracteristicile din coloanele și rândurile tabelului.

Să luăm în continuare în considerare analiza corespondenței dintre consumul de produse de cofetărie pe sex și vârstă, ilustrată în Figura 7, precum și în Figura 8, care prezintă consumul diferitelor categorii de produse în funcție de veniturile consumatorilor.

În primul rând, să luăm în considerare preferințele a trei grupuri de bărbați: 16-19 ani, 20-24 și 25-34 de ani, deoarece preferințele lor de consum pot fi caracterizate ca fiind aproape identice.

Figura 18 Analiza corespondenței dulciurilor populare în funcție de vârstă și sex

Bărbații din aceste grupe de vârstă preferă bomboanele Snickers, Mars, Nuts, Twix, Picnic, Kinder bueno și M&m's. Aceste tipuri de produse se încadrează în categoria „Batoane de ciocolată și alte ciocolate în pachete mici” și vor fi cele mai populare în rândul persoanelor cu venituri mici.

Urmează cele patru grupe de vârstă rămase pentru bărbați: 35-44, 45-54, 55-64, 65-74. De asemenea, se vor caracteriza prin aproximativ același comportament de consumator și sunt consumatori extrem de pasivi. Pentru aceste grupuri este adevărată afirmația că odată cu creșterea nivelului veniturilor, nivelul consumului se va modifica invers, adică în rândul bărbaților de 35-74 de ani cu un venit mare, va fi cea mai scăzută activitate de consum.

Evident, nișa care include bărbați solvenți 35-74 este foarte promițătoare și în același timp neocupată, dar setul de produse existent nu este capabil să satisfacă nevoile acestei categorii de consumatori. Pe baza celor de mai sus, putem face o contribuție că are sens să influențăm acest public țintă cu un produs complet nou care poate atrage consumatorii.

Următorul pas va fi de a descrie grupuri de femei cu vârste cuprinse între 16-19, 20-24, 25-34 care au un comportament similar de consumator. Grupurile menționate, de regulă, preferă batoanele de ciocolată, unele dintre ele vor fi similare cu cele preferate de bărbații de aceeași vârstă - Picnic, Twix, Nuts etc., iar Tempo, bounty, Kit Kat, Milky Way sunt și batoanele. foarte popular printre femei. , Kinder country, un miracol obișnuit.

Pentru aceste grupuri va fi valabilă și regula venitului mic, pe măsură ce crește, popularitatea batoanelor de ciocolată va scădea. Acesta este urmat de un grup de femei cu vârsta cuprinsă între 35-44 de ani, Alpen Gold fiind cea mai populară alegere, urmată de Geisha și un mini tort fad, o afirmație care este valabilă atât pentru persoanele cu venituri mici, cât și pentru persoanele cu venituri medii. Pe măsură ce vârsta crește, devin de preferat următoarele (grupe 45-54, 55-64, 65-74): Alenka, Korovka, Sladko, dulciuri din grupul Krupskaya și alte domestice. Acest lucru este cel mai adevărat în raport cu persoanele cu un venit mediu. Evaluând consumul de produse de cofetărie în general, trebuie remarcat că 2/3 din totalul consumului revine ponderii feminine a populației.

.3 Ideea principală a analizei cluster

Înainte de aplicarea algoritmului de grupare, toate punctele de vânzare sunt împărțite în straturi. Algoritmul se aplică separat fiecărui strat obținut. Clusterele obținute pentru grupuri individuale sunt apoi combinate într-un set final de clustere.

Să descriem detaliile algoritmului de grupare. Să notăm numărul de ieșiri la care se aplică algoritmul cu , setul de ieșiri cu , metrica euclidiană cu , iar numărul de caracteristici cu . Numărul de caracteristici și, în consecință, numărul lor depind de strat.

În primul rând, valorile tuturor caracteristicilor sunt standardizate. Standardizarea este transformarea unei caracteristici prin scăderea mediei acesteia și împărțirea la abaterea sa standard. Media și abaterea standard sunt calculate o dată peste datele care sunt grupate și fac parte din modelul de grupare.

Utilizăm algoritmul KMeans ca algoritm de grupare. Acest algoritm necesită specificarea numărului de clustere și a numărului de inițializari ale procesului de clustering iterativ (sau centroizii inițiali). Numărul de inițializari depinde de timpul disponibil pentru grupare. Pentru a determina numărul de clustere, folosim algoritmul KMeans cu numărul de clustere de la 2 la 75. Notă modelele de clustering rezultate cu , iar centroizii cu . Pentru fiecare, determinăm măsura răspândirii intracluster

Putem lua în considerare un model de clustering pentru cazul . În acest caz, există un singur centroid, definit ca media elementară a tuturor . Măsura împrăștierii intra-cluster care rezultă în acest caz se numește măsura împrăștierii totale a ieșirilor:

Atitudine

poate fi interpretat ca proporția de diferențe inexplicabile între punctele de vânzare din cadrul clusterelor. Acest raport scade pe măsură ce . Definim numărul optim de clustere ca


Cu alte cuvinte, alegem numărul minim de clustere astfel încât proporția diferențelor inexplicabile să nu fie mai mare de 20%.

Notă . În loc de valoarea 0,2, puteți lua orice valoare de la 0 la 1. Alegerea depinde de restricțiile privind numărul de clustere, precum și de tipul de grafic în funcție de raportul dintre . Cu toate acestea, dacă proporția maximă admisă de diferențe inexplicabile este setată înainte de începerea grupării, atunci pentru căutare nu este necesar să se construiască modele de cluster pentru toate de la 2 la 75. Puteți utiliza metoda de căutare binară, care crește semnificativ viteza de clustering.

Ca rezultat al grupării, obținem următoarele componente ale modelului de clustering complet:

· - valori medii ale caracteristicilor pentru strat și tip;

· - abateri standard ale caracteristicilor pentru strat și tip ;

· - numărul optim de clustere pentru strat și tip;

· - model de clustering obţinut cu numărul optim de clustere pentru strat şi tip .

Algoritmul pentru aplicarea modelului de clustering complet este următorul. Să existe o ieșire de tip aparținând stratului dat de vectorul caracteristic. Prin vector definim un vector cu elemente

Aplicam modelul de clustering la vectorul rezultat. Ca rezultat, obținem numărul clusterului. Astfel, „numărul clusterului” în cadrul modelului de clustering complet constă din trei părți:

· strat;

· număr cluster conform modelului de clustering pentru strat și tip (în continuare, acest număr va fi numit pur și simplu număr cluster).

3.4 Caracteristici pentru clustering

Pentru grupare, este necesar să compilați o listă de caracteristici care descriu punctele de vânzare. Următorii indicatori au fost utilizați pentru a caracteriza punctele de vânzare:

· Distanțe până la locurile de atragere a populației (în continuare MPN);

· Mediu competitiv. Distanța până la infrastructura de transport și alte puncte de desfacere ale rețelelor KA și ale rețelelor non-KA (se determină distanțele până la cel mai apropiat obiect și numărul de obiecte pe o rază de 1000 de metri);

· Solvabilitatea populației din vecinătatea punctului de desfacere.

Formal, caracteristicile includ și stratul și tipul de priză. Cu toate acestea, gruparea pe aceste caracteristici nu este efectuată.

Lista semnelor pentru puncte de vânzare:

) venitul populației ( sursa de venit);

2) costul mediu al unui metru pătrat de locuință ( mp_ Preț;);

) costul mediu al închirierii unui apartament cu o cameră ( chirie_ Preț) ;

) numărul de MPN de orice tip pe o rază de 1000 de metri ( num_ în_ rază_ mpn_ toate);

) numărul de prize ale rețelelor non-KA pe o rază de 1000 de metri ( num_ în_ rază_ tt);

) numărul de prize ale rețelelor KA pe o rază de 1000 de metri ( num_în_rază_ ka);

) numărul de gări pe o rază de 1000 de metri ( num_ în_ rază_ calea ferata_ statie);

) numărul de stații de metrou pe o rază de 1000 de metri (câmp num_ în_ rază_ metrou_ statie);

) numărul de stații de transport public terestre pe o rază de 1000 de metri ( num_ în_ rază_ oraș);

) distanța până la cel mai apropiat MPN de tip arbitrar ( dist_ la_ cel mai apropiat_ mpn);

) distanța până la cea mai apropiată gară ( pts_railway_station_d01_distance);

) distanta pana la cea mai apropiata statie de metrou ( pts_subway_station_d01_distance);

) distanța până la cea mai apropiată stație de transport public de suprafață ( pts_city_d01_distance);

) distanța până la cea mai apropiată priză care nu face parte din rețea KA ( tt_to_tt_d001_distanța);

) distanța până la cea mai apropiată priză a rețelei KA ( ka_d01_distanța);

3.5 Identificarea punctelor care sunt omogene ca locație

Ca parte a pregătirii datelor, toate datele au fost împărțite în straturi omogene în funcție de populație. Acest lucru este necesar pentru a realiza în continuare clustering de înaltă calitate. La împărțirea în straturi s-a aplicat metoda de comparare a mediilor. Calitatea partiției a fost verificată prin gradul de diferență dintre straturi pe baza analizei neparametrice a varianței. Rezultatele aplicației sunt prezentate mai jos:

1. Venitul populației . Ipoteza egalității veniturilor pentru 4 straturi a fost respinsă (vezi tabelul 1).

Tabelul 1 Ipoteza despre venitul populației


După cum se poate observa din Figura 20, există o diferență notabilă în valoarea medie a venitului. În primul strat, este semnificativ mai mare decât în ​​celelalte. Cel mai mic venit este notat în stratul al patrulea.

Figura 20 Comparații între straturi (venitul populației)

2. Costul mediu al unui metru pătrat de locuință . Ipoteza despre egalitatea costului unui pătrat. metri de locuințe pentru 4 straturi a fost respinsă (vezi tabelul 2).

Tabelul 2. Ipoteza despre costul mediu al unui metru pătrat de locuință


După cum se poate observa din Figura 21, există o diferență vizibilă în valoarea medie a costului de 1 mp. metri de locuințe. În primul strat, este semnificativ mai mare decât în ​​celelalte. Cea mai mică valoare se află în al doilea strat. În straturile 3 și 4, costul este aproximativ același.

Figura 21 Comparații între straturi (costul pe metru pătrat de locuință)

3. Costul mediu al închirierii unui apartament cu o cameră . Ipoteza costurilor egale de închiriere pentru cele 4 straturi a fost respinsă (vezi Tabelul 3).

Tabelul 3 Ipoteza despre costul mediu al chiriei


După cum se poate observa din Figura 22, există o diferență notabilă în valoarea medie a costului de închiriere a locuințelor. În primul strat, este semnificativ mai mare decât în ​​celelalte. Cea mai mică valoare se află în al doilea strat.

Figura 22 Comparații între straturi (costul mediu de închiriere)

4. Numărul de MPN de orice tip pe o rază de 1000 de metri . Ipoteza pentru 4 straturi a fost respinsă (vezi Tabelul 4).

Tabelul 4. Ipoteza despre numărul de MPN


După cum se poate observa din Figura 23, există o diferență notabilă în valoarea medie a numărului de MPN. În primul strat, este semnificativ mai mare decât în ​​celelalte. Cel mai mic număr de MPN se află în stratul al patrulea.

Figura 23 Comparații între straturi (număr de MPN)

5. Numărul de prize nu este KA - rețele pe o rază de 1000 de metri . Ipoteza pentru 4 straturi a fost respinsă (vezi Tabelul 5).

Tabelul 5 Ipoteza despre numărul de puncte de vânzare cu amănuntul ale rețelelor non-KA


După cum se poate observa din Figura 24, există o diferență notabilă în valorile medii. În al doilea strat, valoarea medie este semnificativ mai mare decât în ​​restul. Cea mai mică valoare se află în stratul al patrulea.

Figura 24 Comparații între straturi (Numărul de TT non-KA)

6. Numărul de prize KA - rețele pe o rază de 1000 de metri . Ipoteza pentru 4 straturi a fost respinsă (vezi Tabelul 6).

Tabelul 6 Ipoteza despre numărul de prize ale rețelelor KA


După cum se poate observa din Figura 25, există o diferență notabilă în valorile medii.

În al doilea strat, valoarea medie este mai mare decât în ​​celelalte, iar cea mai mică în al patrulea strat.

Figura 25 Comparații între straturi (Numărul de rețele TT KA)

. Numărul de gări pe o rază de 1000 de metri . Ipoteza pentru 4 straturi a fost respinsă (vezi Tabelul 7).

Tabelul 7 Ipoteza despre numărul de gări


După cum se poate observa din Figura 26, există o diferență notabilă în valorile medii.

În primul strat, valoarea medie este mai mare decât în ​​celelalte.

Cel mai mic număr de gări din stratul a treia și a patra.

8. Numărul de stații de transport public terestre pe o rază de 1000 de metri. Ipoteza pentru 4 straturi a fost respinsă (vezi Tabelul 8).

Tabelul 8 Ipoteza privind numărul de opriri de transport terestru


După cum se poate observa din Figura 27, există o diferență notabilă în valorile medii. În primul strat, valoarea medie este mai mare decât în ​​celelalte, cea mai mică valoare este în stratul 4.

Figura 27 Comparații între straturi (număr de opriri de transport terestru)

9. Distanța până la cel mai apropiat MPN de orice tip. Ipoteza pentru 4 straturi a fost respinsă (vezi Tabelul 9).

Tabelul 9 Ipoteza despre distanța până la cel mai apropiat MPN


După cum se poate observa din Figura 28, există o diferență notabilă în valorile medii. În stratul al patrulea, valoarea medie este mai mare decât în ​​celelalte. Cea mai scăzută valoare se notează în primul și al doilea strat.

Figura 28 Comparații între straturi (număr de opriri de transport terestru)

. Distanța până la cea mai apropiată gară . Ipoteza pentru 4 straturi a fost respinsă (vezi Tabelul 10).

Tabelul 10 Ipoteza despre distanța până la cea mai apropiată gară


După cum se poate observa din Figura 29, există o diferență notabilă în valorile medii. În stratul al patrulea, valoarea medie este mai mare decât în ​​celelalte. Cea mai mică valoare se notează în primul strat.

Figura 29 Comparații între straturi (distanța până la cea mai apropiată gară)

11. Distanța până la cea mai apropiată stație de metrou . Ipoteza pentru 4 straturi a fost respinsă (vezi Tabelul 11).

Tabelul 11 ​​Ipoteza despre distanța până la stația de metrou


După cum se poate observa din Figura 30, există o diferență notabilă în valorile medii. În al doilea, al treilea și al patrulea strat valoarea medie este mai mare, iar cea mai mică valoare se notează în primul strat.

Figura 30 Comparații între straturi (distanța până la cea mai apropiată stație de metrou)

12. Distanța până la cea mai apropiată stație de transport public terestre. Ipoteza pentru 4 straturi a fost respinsă (vezi Tabelul 12).

Tabelul 12 Ipoteza despre distanța până la cea mai apropiată stație de transport terestru


După cum se poate observa din Figura 31, există o diferență notabilă în valorile medii. În al patrulea strat, valoarea medie este mai mare, iar cea mai mică valoare este notă în stratul 1.

Figura 31 Comparații între straturi (distanța până la cea mai apropiată stație de transport terestre)

13. Distanța până la cea mai apropiată priză nu este KA -rețele. Ipoteza pentru 4 straturi a fost respinsă (vezi Tabelul 12).

Tabelul 13 Ipoteza despre distanța până la cea mai apropiată priză care nu face parte din rețea KA


După cum se poate observa din Figura 32, există o diferență notabilă în valorile medii. În al treilea strat, valoarea medie este mai mare, iar cea mai scăzută valoare este notă în primul, al doilea și al treilea strat.

Figura 32 Comparații între straturi (distanța până la cea mai apropiată priză care nu face parte din rețea KA)

14. Distanța până la cea mai apropiată priză KA -rețele

Tabelul 14 Ipoteza despre distanța până la cel mai apropiat punct de vânzare cu amănuntul al rețelei KA


După cum se poate observa din Figura 33, există o diferență notabilă în valorile medii. În al treilea strat, valoarea medie este mai mare, iar cea mai scăzută valoare este notă în primul, al doilea și al treilea strat.

Figura 33 Comparații între straturi (distanța până la cea mai apropiată priză de rețea KA)

Astfel, ca rezultat, s-au obținut rezultatele similarității straturilor (vezi Tabelul 15).

Tabelul 15 Comparația între straturi

.5.1 Împărțirea finală în straturi

Ca urmare, s-a ales o împărțire în 4 straturi cu atribuirea orașelor satelit principalelor orașe. Stratu (câmp pop_ straturi) determinăm după populația din localitatea în care se află punctul de desfacere.

· 1 strat - orașe mari cu o populație de peste 1 milion de oameni;

2 straturi - orașe cu o populație de peste 250 de mii de oameni și până la 1 milion de oameni;

3 straturi - orașe cu o populație de peste 100 de mii de oameni și mai puțin de 250 de mii de oameni;

4 straturi - orașe cu o populație mai mică de 100 de mii de oameni.

.6 Agruparea obiectelor în grupuri omogene

Pentru a identifica SP cu o locație similară, vom grupa obiectele (pentru fiecare dintre straturi). Înainte de a aplica gruparea, este necesar să se identifice puncte de vânzare cu amănuntul mai omogene în funcție de locație. Pentru a determina calitatea grupării, a fost utilizat indicele de variație. Ca rezultat, 36.651 de puncte de desfacere au fost împărțite în 15 grupuri (36.598 de puncte de vânzare) + al 16-lea grup este format din 53 de puncte de desfacere anormale. Prin anormal ne referim la punctele cu vânzări foarte mari.

Următorii 7 indicatori din statistica descriptivă au fost utilizați pentru a caracteriza clusterele:

· Valoarea minimă, cea mai mică a vânzărilor;

· Percentila 5%;

· Percentila 25%;

· Mediana este un punct pe scara valorilor măsurate ale vânzărilor, deasupra și sub care se află jumătate din toate valorile măsurate ale vânzărilor;

· Percentila 75%;

95% percentilă;

· Valoarea maximă, cea mai mare a vânzărilor.

Tabelul 16 Gruparea finală

Tabelul 1 arată clar distribuția finală a clusterelor în cadrul straturilor. Cel mai mare număr de puncte de desfacere aparțin stratului al patrulea, iar cel mai mic stratului al treilea.

· Stratul 1. Pentru primul strat (4402 prize), prin aplicarea metodei k-means (Capitolul 2, paragraful 2.3), s-a obţinut împărţirea optimă în 4 clustere cu 15 caracteristici. Numărul de clustere a fost ales pe baza optimizării criteriului Akaike.

· primul cluster - include astfel de puncte de vânzare cu amănuntul ale căror zone sunt apropiate de centrul marilor orașe, sau puncte de vânzare situate în centre comerciale.

Profilul clusterului : Acest cluster caracterizează un număr semnificativ de locuri de atracție a populației (MPN), o concentrare mare de zone comerciale și o infrastructură dezvoltată.

Figura 34 Ponderea clusterelor din primul strat

Reprezintă 61,5% din vânzările totale ale stratului. Există 2708 puncte de vânzare în cluster. Vânzările medii lunare în punctele de vânzare cu amănuntul ale acestui cluster sunt estimate în intervalul de la 3 la 7 mii de ruble. Venitul mediu al populației este de 34-36 mii de ruble, ceea ce este peste medie și înaintea majorității celorlalte grupuri din acest indicator.

Costul mediu al unui metru pătrat de locuințe va fi de 63 - 64 de mii de ruble, ceea ce poate fi numit o medie. Costul mediu al închirierii unui apartament cu o cameră este estimat la 14-15 mii de ruble, care poate fi, de asemenea, descris ca o cifră medie în comparație cu alte grupuri.

Numărul de locuri de atracție ale populației de orice tip pe o rază de 1000 de metri este de la 32 la 47 - un indicator peste medie, iar numărul de puncte de desfacere ale rețelelor non-KA pe o rază de 1000 de metri este de aproximativ 40 - 53 , care este, de asemenea, un indicator peste medie. Punctele de vânzare ale rețelelor KA pe o rază de 1000 de metri sunt reprezentate în medie de 10 unități. Prezența gărilor pe o rază de 1000 de metri este estimată la cel mult două.

Acest cluster se caracterizează prin absența completă a stațiilor de metrou pe o rază de 1000 de metri. Numărul de stații de transport public terestre pe o rază de 1000 de metri este de 13-20 de unități.

: Distanța până la cel mai apropiat loc de atracție al populației de tip arbitrar este minimă - în apropiere. Distanța până la cea mai apropiată gară poate fi caracterizată ca mare - departe. Distanța până la cea mai apropiată stație de metrou - niciuna în zonă. Distanta de la cea mai apropiata statie de transport in comun terestru va fi mica, caracteristica va fi in apropiere. Distanța până la cea mai apropiată priză fără rețea KA este minimă - în apropiere, iar distanța de la cea mai apropiată priză KA-network este puțin mai mare, dar și mică, caracteristica este apropiată.

· al 2-lea cluster - Acestea sunt zone rezidențiale (de dormit) ale orașelor mari.

Profilul clusterului : Număr nesemnificativ de MPN, concentrație redusă de trafic uman, zone de cumpărături.

: Reprezintă 12,2% din numărul de puncte de vânzare din strat. În cluster există 539 de puncte de vânzare cu amănuntul. Vânzările medii lunare sunt estimate în intervalul de la 3.000 la 8.000 de ruble. Venitul mediu al populației este estimat la aproximativ 34 de mii de ruble, ceea ce este similar cu indicatorii clusterelor 1 și 3 din acest strat, dar mai mare decât indicatorii majorității clusterelor altor straturi.

Costul mediu al unui metru pătrat de locuință este de 61 - 63 mii de ruble, iar costul mediu al închirierii unui apartament cu o cameră va fi de 14 - 15 mii de ruble, ca în primul grup. Numărul locurilor de atracție ale populației de tip arbitrar pe o rază de 1000 de metri este de 7-8 unități, iar numărul de ieșiri ale rețelelor non-KA pe o rază de 1000 de metri este estimat la 24 până la 43 de unități. Numărul de prize ale rețelelor KA pe o rază de 1000 de metri va fi de 2. Nu mai mult de două gări pe o rază de 1000 de metri.O caracteristică importantă este absența stațiilor de metrou pe o rază de 1000 de metri. Numărul de opriri de transport public terestre pe o rază de 1000 de metri este în medie de 3-4.

Caracteristicile geografice ale clusterului : Distanța până la cel mai apropiat MPN de orice tip este destul de mică și este caracterizată ca - aproape. Distanța de la cea mai apropiată gară este mare, caracteristica este departe. Absența totală a stațiilor de metrou. O caracteristică diferită de primul grup este distanța mare până la cea mai apropiată stație de transport public terestre (departe). Distanța până la cea mai apropiată priză care nu face parte din rețea KA este mică - în apropiere. Și distanța până la cea mai apropiată priză a rețelei KA este mare - departe

· al 3-lea cluster - este centrul marilor orașe.

Profilul clusterului : Cele mai mari valori în ceea ce privește numărul locurilor de atracție ale populației, indicatorii activității comerciale și alte locuri indică un nivel ridicat de activitate economică și flux uman.

Principalele caracteristici cantitative și calitative ale clusterului: Reprezintă 25,9% din numărul total de puncte de vânzare din strat. Acest grup include dimensiunea a 1139 de puncte de vânzare. Vânzările lunare medii variază de la 3,2 la 10 mii de ruble. Venitul mediu al populației este de 36 mii de ruble și este destul de bun. indicator - medie mai mare.

Costul mediu al unui metru pătrat de locuințe este estimat la 63 - 68 mii de ruble, iar costul mediu al închirierii unui apartament cu o cameră este de aproximativ 14 - 15 mii de ruble, ceea ce nu diferă de indicatorii primului și celui de-al doilea grup. .înalt și este egal cu 51 - 66 de unități și există 46 - 55 de unități de prize ale rețelelor non-KA pe o rază de 1000 de metri, care este, de asemenea, o cifră mare.

Numărul de prize ale rețelelor KA pe o rază de 1000 de metri este de 15 - mult. Prezența gărilor pe o rază de 1000 de metri este de aproximativ una sau două. Numărul de stații de metrou pe o rază de 1000 de metri este în medie una, dar nu mai mult de 3. Numărul de opriri de transport public terestre pe o rază de 1000 de metri este de 20-30 de unități, ceea ce este o cifră foarte mare.

Caracteristicile geografice ale clusterului : Distanța până la cel mai apropiat MPN de orice tip nu este mare - în apropiere Distanța de la cea mai apropiată gară, de asemenea, nu este mare, caracteristica este apropiată. Distanța până la cea mai apropiată stație de metrou este mică - aproape.

Cea mai apropiată stație de transport public se află la o distanță foarte scurtă - în apropiere. Distanță mică până la cea mai apropiată priză care nu face parte din rețea KA - în apropiere. Distanța de la cea mai apropiată priză de rețea KA este, de asemenea, foarte mică - în apropiere.

· al 4-lea cluster - acestea sunt zone rezidențiale, scumpe și proprietăți private îndepărtate de centru.

Profilul clusterului : Cele mai mari valori ale caracteristicilor costurilor (venituri, imobiliare), cele mai mici valori ale numărului de MPN, indicatori comerciali. Reprezintă doar 0,4% din toate punctele de vânzare cu amănuntul din strat.

Principalele caracteristici cantitative și calitative ale clusterului : Clusterul include doar 16 puncte de desfacere și este cel mai mic dintre toate clusterele din strat. Vânzările pe lună variază de la 4 la 40 de mii de ruble. Venitul mediu lunar al populației este de 49-66 de mii de ruble, ceea ce este o cifră foarte mare. Costul mediu al unui metru pătrat de locuințe este, de asemenea, foarte mare și este estimat la 85 - 124 mii de ruble. Costul mediu al închirierii unui apartament cu o cameră este mai mare decât în ​​alte grupuri din acest strat și se ridică la 21-34 mii de ruble. Numărul de MPN-uri de orice tip pe o rază de 1000 de metri este scăzut - de la 4 la 20. Nu există prize de rețele non-KA pe o rază de 1000 de metri în apropiere. Numărul de puncte de desfacere ale rețelelor KA pe o rază de 1000 de metri este 2. Prezența gărilor pe o rază de 1000 de metri - nu mai mult de una. Nu există mai mult de două stații de metrou pe o rază de 1000 de metri. Numărul de stații de transport public terestre pe o rază de 1000 de metri este doar unul.

Caracteristicile geografice ale clusterului : Distanța până la cel mai apropiat MPN de orice tip este mică - aproape. Distanța de la cea mai apropiată gară este mare - departe. Nu există stații de metrou în apropiere. Distanța până la cea mai apropiată stație de transport public terestre este mare, caracteristica este departe. Distanța de la cel mai apropiat punct de vânzare care nu face parte din rețea KA este foarte mare - departe. Acest cluster caracterizează absența punctelor de desfacere din rețeaua KA - niciuna în apropiere.

strat. Pentru stratul al doilea (9269 prize), prin aplicarea metodei k-means (Capitolul 2, paragraful 2.3), s-a obţinut o împărţire optimă în 5 clustere pe 15 caracteristici. Numărul de clustere a fost ales pe baza optimizării criteriului Akaike.

Figura 35 Ponderea clusterelor în al doilea strat

· al 5-lea cluster - Acestea sunt periferiile orașelor, mici așezări.

Profilul clusterului : Valorile medii ale indicatorilor de dezvoltare a infrastructurii (există căi ferate rusești, opriri). Activitatea de tranzacționare este afișată numai într-o parte a rețelelor non-ka. Cele mai scăzute valori ale indicatorilor de activitate economică din strat.

Principalele caracteristici cantitative și calitative ale clusterului : Reprezintă 10% din numărul total de puncte de vânzare cu amănuntul din strat. Acest grup include 892 de puncte de vânzare cu amănuntul. Vânzările medii lunare sunt estimate în intervalul de la 2,4 la 6 mii de ruble. Venitul populației este estimat la o medie de 27 mii de ruble, care este un indicator scăzut în comparație cu indicatorii clusterelor din primul strat.

Costul mediu al unui metru pătrat de locuințe fluctuează în jurul valorii de 47-53 de mii de ruble, ceea ce este, de asemenea, mai mic decât indicatorii stratului 1. Costul mediu al închirierii unui apartament cu o cameră este de 12 mii de ruble. Numărul de MPN de orice tip pe o rază de 1000 de metri este de la 2 la 5 bucăți. Prezența unor prize non-ka pe o rază de 1000 de metri este de 9-30 de bucăți. Absența completă a prizelor de rețele ka pe o rază de 1000 de metri - niciuna în apropiere. Numărul de gări pe o rază de 1000 de metri nu este mai mare de două bucăți.Transportul public terestre oprește pe o rază de 1000 de metri - în medie două bucăți.

Caracteristicile geografice ale clusterului : Distanța mică până la cel mai apropiat MPN de orice tip nu este departe. Distanța de la cea mai apropiată gară este mare, caracteristica este departe. Distanța până la cea mai apropiată stație de transport public terestre va fi, de asemenea, mare - departe. Distanța de la cea mai apropiată priză non-ka este nesemnificativă, caracteristica este apropiată. Și distanța până la cea mai apropiată priză a rețelei ka este mare - prizele sunt departe.

· al 6-lea cluster - Acestea sunt zone rezidențiale, de dormit ale orașelor .

Profilul clusterului : Indicatorii medii ai activității de tranzacționare datorate rețelelor non-ka și indicatorii activității economice datorate MPN-urilor apropiate;

Principalele caracteristici cantitative și calitative ale clusterului : Clusterul reprezintă 15% din numărul total de puncte de vânzare din strat și include 1345 de puncte de vânzare. Vânzările lunare sunt estimate la 3-6 mii de ruble. Venitul mediu al populației este de 26 de mii de ruble, care este media pentru acest strat. Costul mediu al unui metru pătrat de locuințe este de 53 de mii de ruble, iar costul mediu de închiriere a unui apartament cu o cameră va fi de 12 mii de ruble, ca și în grupul anterior. Numărul de MPN de orice tip pe o rază de 1000 de metri este de 18-25 de bucăți, iar punctele de vânzare cu amănuntul ale rețelelor non-ka pe o rază de 1000 de metri variază de la 30 la 44 de bucăți. Numărul de puncte de desfacere ale rețelelor ka pe o rază de 1000 de metrou este în medie de 6-9 bucăți - o cifră mare. Nu există mai mult de două gări pe o rază de 1000 de metri. Absența totală a transportului public terestre se oprește pe o rază de 1000 de metri.

Distanța până la cel mai apropiat MPN de orice tip este mică - în apropiere,

și aproape de cea mai apropiată gară.

Distanța până la cea mai apropiată stație de transport public terestre este mare, caracteristica este departe. Nu este aproape de cea mai apropiată priză a rețelei ka, precum și de cea mai apropiată priză a rețelei ka.

· al 7-lea cluster - sunt zone apropiate de centru, orașe, lângă autostrăzi

Profilul clusterului : Indicatori înalți ai activității comerciale și a dezvoltării infrastructurii (opriri de transport terestru), indicatori medii ai MPN.

Principalele caracteristici cantitative și calitative ale clusterului: Reprezintă 34% din numărul total de puncte de desfacere din strat. Acest cluster include 3194 de puncte de desfacere și este cel mai mare din strat, împreună cu al 8-lea cluster.

Vânzările lunare sunt estimate în intervalul de la 2 la 6 mii de ruble.

Venitul mediu al populației este de 28 de mii de ruble.

Costul mediu al unui metru pătrat de locuințe este de 42-49, ceea ce este mai mic decât indicatorii similari din clusterele 5 și 6.

Costul mediu al închirierii unui apartament cu o cameră practic nu diferă de grupurile considerate anterior ale acestui strat și se ridică la 11-12 mii de ruble.

Numărul de MPN-uri de tip arbitrar pe o rază de 1000 de metri este 21-33, iar numărul de prize care nu fac parte din rețea ka pe o rază de 1000 de metri este de aproximativ 50. Numărul de prize din rețea ka pe o rază de 1000 metri este în medie 7-10. Nu există gări pe o rază de 1000 de metri.

Există aproximativ 14 stații de transport public terestre pe o rază de 1000 de metri.

Caracteristicile geografice ale clusterului : Distanță mică până la cel mai apropiat MPN de orice tip, distanță mare până la cea mai apropiată gară. Nu departe de cea mai apropiată stație de transport public de suprafață. Distanța până la cea mai apropiată priză non-rețea ka este mică, caracteristica este în apropiere. Este, de asemenea, aproape de cea mai apropiată priză ka-network.

· al 8-lea cluster - acestea sunt centrele orașelor mici (~500 mii de oameni).

Profilul clusterului : Număr semnificativ de MPN, concentrare mare de zone comerciale, indicatori de infrastructură scăzut.

Principalele caracteristici cantitative și calitative ale clusterului: Reprezintă 34% din numărul total de puncte de vânzare din strat. Acest grup include 3191 de puncte de vânzare și este cel mai mare din strat, împreună cu al 7-lea grup. Datele medii de vânzări pentru luna este de 3-8 mii de ruble. Media Venitul lunar al populației este estimat la 28 de mii de ruble, costul mediu al unui metru pătrat de locuințe este de 47 - 50 de mii de ruble, iar costul mediu de închiriere a unui apartament cu o cameră este de 12 mii de ruble. Numărul de MPN de orice tip pe o rază de 1000 de metri este în medie de 28-40 de bucăți, prezența punctelor de vânzare cu amănuntul ale rețelelor non-ka pe o rază de 1000 de metri - de la 38 la 52 de bucăți. Disponibilitatea punctelor de desfacere ale rețelelor ka pe o rază de 1000 de metri - de la 7 la 11 unități. Nu există gări pe o rază de 1000 de metri Numărul de opriri de transport public terestre pe o rază de 1000 de metri este foarte mic, aproape că nu există.

Caracteristicile geografice ale clusterului : Cel mai apropiat MPN de orice tip este în apropiere.Distanța până la cea mai apropiată gară este mare, caracteristica este departe.Distanța de la cea mai apropiată stație de transport public terestre este, de asemenea, mare - departe. Cel mai apropiat punct de vânzare cu amănuntul nu este ka-network close. Distanța până la cel mai apropiat punct de vânzare ka-network este aproape.

· al 9-lea cluster - acestea sunt centrele orașelor, cu o populație de până la 1 milion de oameni.

Profilul clusterului : Cele mai mari valori ale indicatorilor de activitate economică și comercială din strat.

Principalele caracteristici cantitative și calitative ale clusterului : Reprezintă 7% din numărul total de puncte de vânzare cu amănuntul din strat. Acest grup include 647 de puncte de vânzare cu amănuntul și este cel mai mic din strat. Vânzările lunare sunt de 6-8 mii de ruble și acest lucru este mai mare decât indicatorii similari pentru alte grupuri din acest strat. strat. Venitul populației, ca și în alte grupuri ale stratului, este estimat la 28 de mii de ruble. Costul mediu al unui metru pătrat de locuințe este de 50-53 mii de ruble. Costul mediu al închirierii unui apartament cu o cameră, de asemenea, nu diferă de indicatorii similari din alte grupuri ale stratului și este egal cu 12 mii de ruble.

Numărul de MPN-uri de tip arbitrar pe o rază de 1000 de metri este de 90 de bucăți și este un indicator foarte mare, iar prizele non-ka-rețea pe o rază de 1000 de metri - 155 de bucăți, care poate fi numit și un indicator foarte mare. Numărul de prize ale rețelelor ka pe o rază de 1000 de metri este de 20-21 de unități. Nu există gări pe o rază de 1000 de metri.

Numărul de stații de transport public terestre pe o rază de 1000 de metri este de aproximativ 15-18.

Caracteristicile geografice ale clusterului : Cel mai apropiat MPN de orice tip este în apropiere, iar cea mai apropiată gară este departe. Aproape de cea mai apropiată stație de transport public terestre. Distanța până la cea mai apropiată priză non-ka-network este mică, este în apropiere și cea mai apropiată priză ka-network este, de asemenea, aproape.

strat. Pentru al treilea strat (1958 debușeuri), prin aplicarea metodei k-means (Capitolul 2, paragraful 2.3), s-a obținut împărțirea optimă în 2 clustere în funcție de 13 caracteristici, întrucât în ​​acest strat nu există puncte de desfacere în apropierea metroului. Numărul de clustere a fost ales pe baza optimizării criteriului Akaike.

Figura 36 Ponderea clusterelor în al treilea strat

· al 10-lea cluster - Sunt zone și orașe îndepărtate, cu o populație mai mică.

Profilul clusterului : Activitate economică scăzută, grad mediu de activitate comercială.

Principalele caracteristici cantitative și calitative ale clusterului: Reprezintă 55% din numărul total de puncte de vânzare cu amănuntul din strat. Acest grup include 1084 de puncte de vânzare cu amănuntul. Venitul populației este estimat la 24 de mii de ruble, ceea ce este mai mic decât indicatorii stratului 1 și 2. Media lunară vânzările sunt estimate la 18 mii de ruble, ceea ce este semnificativ mai mare decât indicatorii stratului 1 și 2. Se caracterizează prin absența MPN de orice tip pe o rază de 1000 de metri.Numărul de ieșiri ale rețelelor non-ka pe o rază de 1000 de metri este de la 15 la 40 de bucăți. Există 3 ieșiri de rețele ka în o rază de 1000 de metri.De regulă, nu există gări pe o rază de 1000 de metri .Opriții de transport public terestre pe o rază de 1000 de metri, 75% din puncte nu au, restul de 25% - până la 20 piese.

Caracteristicile geografice ale clusterului: Nu există MPN-uri de orice tip în apropiere și nici stații de cale ferată. Nu există stații de transport public în apropiere. Distanța până la cea mai apropiată priză non-ka-network este mică - este în apropiere, iar cea mai apropiată priză ka-network este, de asemenea, aproape.

· al 11-lea cluster - centrele oraselor mici, zonele comerciale.

Profilul clusterului: Gradul semnificativ de activitate economică și comercială.

De regulă, nu există gări pe o rază de 1000 de metri.

Numărul de transport public terestre oprește pe o rază de 1000 de metri: 75% din puncte de vânzare nu au, restul de 25% - până la 22.

Caracteristicile geografice ale clusterului : Distanța până la cel mai apropiat MPN de orice tip este mică și nu există stații de cale ferată în apropiere, precum și stații de transport public terestre. Distanța până la cea mai apropiată priză care nu face parte din rețea ka este mică, punctele de vânzare sunt în apropiere. Distanța până la cea mai apropiată priză ka-network este, de asemenea, mică.

strat. Pentru stratul al patrulea (20.969 debușeuri), prin aplicarea metodei k-means (Capitolul 2, paragraful 2.3), s-a obținut o împărțire optimă în 4 clustere în funcție de 12 trăsături, întrucât nu există puncte de desfacere apropiate de infrastructura de transport în acest strat. . Numărul de clustere a fost ales pe baza optimizării criteriului Akaike.

Figura 37 Ponderea clusterelor în stratul al patrulea

· al 12-lea cluster - periferia orașelor mici.

Profilul clusterului : cei mai mici indicatori de venit, nu există infrastructură de transport, există mai multe magazine.

Principalele caracteristici cantitative și calitative ale clusterului: Reprezintă 37% din numărul total de puncte de vânzare cu amănuntul din strat. Acest grup include 7682 de puncte de vânzare cu amănuntul. Venitul populației este estimat la 18-20 mii de ruble, ceea ce este semnificativ mai mic decât indicatorii similari din alte straturi.

Vânzările lunare sunt de 19-35 mii de ruble. Nu există MPN de orice tip pe o rază de 1000 de metri. Numărul de prize nu rețele ka pe o rază de 1000 de metri este de 3 - 8 bucăți. Lipsa prizelor de rețele ka pe o rază de 1000 de metri. Nu există stații de cale ferată pe o rază de 1000 de metri, precum și stații de transport public terestre. Distanța până la cel mai apropiat MPN arbitrar este mare - departe. Cea mai apropiată gară este, de asemenea, departe. Distanța de la cea mai apropiată stație de transport public terestre este mare - departe. Cea mai apropiată priză nu este aproape de rețeaua ka, dar cea mai apropiată priză a rețelei ka este departe.

· al 13-lea cluster - zonele comerciale ale orașelor mici

Profilul clusterului : Activitate comercială medie, dovezi slabe ale infrastructurii de transport.

Principalele caracteristici cantitative și calitative ale clusterului: Reprezintă 31% din numărul total de puncte de vânzare cu amănuntul din strat. Acest cluster include 6.514 puncte de vânzare cu amănuntul. Venitul populației este estimat la 21-24 mii de ruble, ceea ce este semnificativ mai mic decât cel al altor straturi, dar mai mare decât indicatorul celui de-al 12-lea cluster al acestui strat.

Vânzările lunare se ridică la 21-46 mii de ruble. Nu există MPN-uri de niciun tip pe o rază de 1000 de metri. Nu există gări pe o rază de 1000 de metri.

Majoritatea transportului public terestre opresc pe o rază de 1000 de metri, unele au până la 3.

Caracteristicile geografice ale clusterului : Departe până la cel mai apropiat MPN de orice tip, până la cea mai apropiată gară până la cea mai apropiată stație de transport public de suprafață. Cea mai apropiată priză care nu face parte din rețea ka din apropiere. Distanța până la cea mai apropiată priză a rețelei ka este mică - nu departe (până la 1 km).

· al 14-lea grup - mici aşezări cu cel mai scăzut grad de activitate comercială

Profilul clusterului : Cele mai mici rate de activitate de tranzacționare, cu un set minim de magazine. Nivelul mediu de venit al populației.

Principalele caracteristici cantitative și calitative ale clusterului: Reprezintă 20% din numărul total de puncte de vânzare cu amănuntul din strat. Acest grup include 4188 de puncte de vânzare cu amănuntul. Venitul populației este estimat la 24-26 mii de ruble, ceea ce este semnificativ mai mic decât indicatorii similari pentru alte straturi, dar mai mare. decât indicatorii clusterelor 12 și 13 ale acestei straturi. Vânzările lunare sunt de 21-38 mii de ruble.

Absența completă a MPN de orice tip pe o rază de 1000 de metri.

Numărul de prize ale rețelelor non-ka pe o rază de 1000 de metri este de la 1 la 4 și nu există prize ale rețelelor ka pe o rază de 1000 de metri. Lipsa gărilor pe o rază de 1000 de metri. Nu există stații de transport public terestre pe o rază de 1000 de metri.

Caracteristicile geografice ale clusterului : Cel mai apropiat MPN de orice tip este departe, precum și cea mai apropiată gară și cea mai apropiată stație de transport public de suprafață. Distanța până la cea mai apropiată priză ka-network este departe.

· al 15-lea grup - aşezări economic active cu mai puţin de 100 de mii de locuitori.

Profilul clusterului : Singurul cluster în care există semne de activitate economică în strat. Cele mai mari rate ale activității de tranzacționare.

Principalele caracteristici cantitative și calitative ale clusterului: Reprezintă 12% din numărul total de puncte de vânzare cu amănuntul din strat. Acest cluster include 2.585 de puncte de vânzare cu amănuntul. Venitul populației este de 25-28 mii de ruble, ceea ce este semnificativ mai mic decât cel al altor straturi, dar mai mare decât alte grupuri. a acestui strat. Vânzările lunare sunt de 24-52 mii de ruble, care este cea mai mare cifră dintre toate straturile.

Există 2-7 MPN-uri de orice tip pe o rază de 1000 de metri.Numărul de puncte de vânzare cu amănuntul ale rețelelor non-ka pe o rază de 1000 de metri este de la 14 la 28 de bucăți, puncte de desfacere ale rețelelor ka pe o rază de 1000 metri de la 1 la 4 bucati.Gari in raza de 1000 metri nr.Numarul de opriri de transport in comun terestru pe o raza de 1000 metri nu este pentru majoritatea, pentru unii pana la 7.

Caracteristicile geografice ale clusterului : Este aproape de cel mai apropiat MPN de orice tip, și departe de cea mai apropiată gară, precum și de cea mai apropiată stație de transport public de suprafață. Distanța până la cea mai apropiată priză nu este mică de rețele ka - sunt în apropiere. Distanța până la cea mai apropiată priză a rețelei ka este de până la 500 m pentru jumătate și departe pentru restul.

3.7 Clustering gama de puncte de vânzare

Figura 38 Numărul de TT-uri cu un sortiment grupat

Prin aplicarea unei metode de analiză a clusterelor în două etape, sortimentul de puncte de vânzare a fost împărțit în 5 clustere. Măsura siluetei este 0,2, care este calitatea medie a grupării. Dimensiunile fiecăruia dintre ele pot fi văzute în figura de mai jos. Cel mai mare cluster este primul, el reprezintă aproape 59% (17.622 de puncte de vânzare) din toate clusterele. Cel mai mic cluster 5 este de aproape 2% - este de 452 de puncte de vânzare. Diferențele față de gruparea punctelor de vânzare cu amănuntul: Împărțirea produselor cât mai diferite unele de altele și TT-urile au fost combinate conform principiului asemănării dintre ele.

17 Ponderea fiecărui cluster


Figura 39 Lărgimea sortimentului în fiecare grup

· Primul cluster - acesta este grupul de sortimente cu cea mai mică selecție. Acestea sunt dulciuri sau batoane de ciocolată în pachete mici. Astfel de bunuri sunt cel mai probabil prezentate la benzinării sau în corturi mici. Cele mai bine vândute cinci produse din acest grup sunt: ​​ciocolată amară Babaevsky 100 de grame, ciocolată Alenka 15 grame, ciocolată Alenka 100 de grame, baton de cofetărie Khorosha Kompaniya cu firimituri de napolitană 80 de grame și baton de ciocolată Khorosha Kompaniya cu alune 80 de grame.

· Al doilea grup - un astfel de grup de mărfuri cu o alegere medie de sortiment se referă la magazinele din orașe cu o populație de peste 250 de mii de oameni. Cele mai bine vândute cinci produse din acest grup sunt: ​​baton de cofetărie Khorosha Kompaniya cu firimituri de napolitană 80 de grame, ciocolată Alenka 20 de grame, ciocolată Alenka cu lapte 100 de grame, baton de ciocolată Horoshaya Kompaniya cu alune 80 de grame și ciocolată cu lapte Alenka cu multicoloră drajeuri.

· Al treilea cluster - Acest grup conține o mică selecție de produse. Acestea sunt în principal produse de ciocolată și prăjituri de vafe. Magazinele din orașele sau satele mici pot fi atribuite acestei categorii de mărfuri. Cele mai bine vândute cinci produse din acest grup: ciocolată Alenka 100 grame, ciocolată Alenka 15 grame, ciocolată Alenka 20 grame, caramel Moskvichka și ciocolată amară Babaevsky 100 grame

· Al patrulea cluster - Acestea sunt grupuri cu o gamă largă de sortimente. Acest grup de mărfuri aparține magazinelor mari de cofetărie de marcă din orașele mari. Cele mai bine vândute cinci produse din acest grup sunt: ​​ciocolată Alenka 100 de grame, caramel Moskvichka, ciocolată amară Babaevsky 100 de grame, napolitane Korovka cu aromă de lapte copt și bomboane Romashka.

· Al cincilea cluster - acestea sunt clusterele cu cea mai mare selecție de sortimente. Acest grup de mărfuri aparține magazinelor mari de cofetărie de marcă din orașele satelit. Cele mai bine vândute cinci produse din acest grup sunt: ​​dulciuri Ptichye Moloko, caramel Moskvichka, ciocolată Alenka 100 de grame, Babaevsky bitter 100 de grame și napolitane Korovka cu aromă de lapte copt.

Se poate concluziona că cel mai popular produs este ciocolata Alenka. Este acest produs care se găsește în fiecare grup din plumb.

Concluzia celui de-al treilea capitol

Studiile efectuate prin metoda analizei cluster au ajutat la împărțirea punctelor de desfacere în straturi după locație, apoi fiecare strat a fost împărțit în clustere. Ca rezultat, o astfel de analiză de cluster a ajutat la reducerea omogenității cu 1,77. Au fost analizate și identificate relațiile dintre indicatorii socio-demografici (sex, vârstă, venit) și comportamentul consumatorului. De asemenea, s-a realizat o grupare a sortimentului de puncte de vânzare cu amănuntul, ceea ce a permis să dezvăluie că cel mai mic sortiment este prezentat în cel mai mare cluster din punct de vedere al numărului de puncte de vânzare.

Concluzie

Big Data nu este doar un alt hype pe piața IT, ci este o tranziție sistematică, de înaltă calitate, către compilarea lanțurilor valorice bazate pe cunoștințe. Efectul său poate fi comparat cu apariția tehnologiei computerizate la prețuri accesibile la sfârșitul secolului trecut. În timp ce conservatorii miopi vor aplica abordări profund depășite, întreprinderile care folosesc deja tehnologiile Big Data se vor găsi în poziții de lider și vor câștiga avantaje competitive pe piață în viitor. Nu există nicio îndoială că toate organizațiile majore vor implementa această tehnologie în următorii ani, deoarece este atât prezentă, cât și viitoare.

Această teză este o abordare științifică, sistematică a alegerii locației punctelor de vânzare cu amănuntul, iar metodele de obținere și analiză a informațiilor, cu rezultatul final, sunt foarte bugetare, permițând ca o astfel de procedură să fie efectuată chiar și de către antreprenori individuali cu o cifră de afaceri mică. de fonduri.

Având în vedere creșterea ratei de acumulare a informațiilor, este nevoie urgentă de tehnologii de analiză a datelor, care, în acest sens, se dezvoltă rapid și ele. Dezvoltarea acestor tehnologii în ultimii ani a făcut posibilă trecerea de la segmentarea clienților în grupuri cu preferințe similare la construirea de modele în timp real, pe baza, printre altele, pe solicitările clienților de pe Internet și vizitele pe anumite pagini. Devine realist să afișați oferte și reclame specifice pe baza analizei intereselor consumatorilor, făcând aceste oferte mult mai direcționate. De asemenea, este posibilă corectarea și reconfigurarea modelului în timp real.

Analiza cluster poate fi cu adevărat numită cel mai convenabil și cel mai optim instrument pentru identificarea segmentelor de piață. Utilizarea acestor metode a devenit deosebit de relevantă în era tehnologiei înalte, în care este atât de importantă accelerarea proceselor de lungă durată și intensivă în muncă cu ajutorul tehnologiei. Variabilele folosite ca bază pentru grupare vor fi alegerea corectă pe baza experienței studiilor anterioare, a fundamentelor teoretice, a diverselor ipoteze testate și, de asemenea, pe baza dorințelor cercetătorului. În plus, se recomandă să se ia o măsură adecvată de similitudine. O trăsătură distinctivă a grupării ierarhice este dezvoltarea unei structuri ierarhice. Cea mai comună și eficientă metodă de dispersie este metoda Bard. Metodele de grupare non-ierarhice sunt adesea denumite metode k-means. Alegerea metodei de grupare și alegerea măsurii distanței sunt interdependente. În gruparea ierarhică, un criteriu important pentru a decide numărul de clustere este distanța la care clusterele sunt combinate. Dimensiunile clusterului ar trebui să fie astfel încât să aibă sens să păstrați acest cluster și să nu îl îmbinați cu altele. Fiabilitatea și validitatea soluțiilor de clustering sunt evaluate în diferite moduri.

Studiile efectuate prin metoda analizei cluster au ajutat la împărțirea punctelor de desfacere în straturi după locație, apoi fiecare strat a fost împărțit în clustere. Ca rezultat, o astfel de analiză de cluster a ajutat la reducerea omogenității cu 1,77. Au fost analizate și identificate relațiile dintre indicatorii socio-demografici (sex, vârstă, venit) și comportamentul consumatorului. De asemenea, s-a realizat o grupare a sortimentului de puncte de vânzare cu amănuntul, ceea ce a permis să dezvăluie că cel mai mic sortiment este prezentat în cel mai mare cluster din punct de vedere al numărului de puncte de vânzare.

Bibliografie

1. StatSoft - Manual electronic de statistică

2. Mandel I.D. Analiza clusterelor, 1988

N. Paklin. „Clustering de date: un algoritm CLOPE scalabil”.

Olenderfer M.S., Blashfield R.K. Analiză cluster / Analiza factorială, discriminantă și cluster: per. din engleza; Sub. ed. I. S. Enyukova. - M.: Finanţe şi statistică, 1989-215 p.

Daniel Fasulo „Analiza lucrărilor recente privind algoritmii de clustering”.

Duran B., Odell P. Analiza clusterului. M.: Statistică, 1977

Jambue M. Analiza grupurilor ierarhice și corespondențe, 1988

Khaidukov D.S. Aplicarea analizei cluster în administrația publică// Filosofia matematicii: probleme actuale. - M.: MAKS Press, 2009. - 287 p.

Clasificare și cluster. Ed. J. Wen Raizina. M.: Mir, 1980.

Tryon R.C. Analiza clusterului - Londra:, 1939. - 139 p.

Berikov V.S., Lbov G.S. Tendințe moderne în analiza clusterelor 2008. - 67 p.

Vyatchenin D. A. Metode fuzzy de clasificare automată. - Minsk: Technoprint, 2004. - 320 p.

I. A. Chubukova Data Mining. Tutorial. - M.: Internet University of Information Technologies;

N. Paklin. „Clustering categoric de date: un algoritm CLOPE scalabil”.

16. Sudipto Guha, Rajeev Rastogi, Kyuseok Shim „CURE: an eficient clustering algorithm for large databases”. Ediție electronică.

17. Tian Zhang, Raghu Ramakrishnan, Miron Livny „Mesteacan: O tehnică eficientă de grupare a datelor pentru baze de date foarte mari”.

N. Paklin „Algoritmi de clusterizare în serviciul data mining”.

Jan Janson „Modeling”.

20. I. A. Chubukova Data Mining. Manual, 2006.

. Analiza datelor accesibile de Anil Maheshwari

Kenneth Kekjer „Big data: o revoluție care va schimba modul în care trăim, muncim și gândim”

Cathy O'neil și Rachel Schutt „Data Science”

, administrație publică, filologie, antropologie, marketing, sociologie, geologie și alte discipline. Cu toate acestea, universalitatea aplicării a dus la apariția unui număr mare de termeni, metode și abordări incompatibile care fac dificilă utilizarea fără ambiguitate și interpretarea consecventă a analizei cluster.

YouTube enciclopedic

  • 1 / 5

    Analiza cluster îndeplinește următoarele sarcini principale:

    • Dezvoltarea unei tipologii sau clasificări.
    • Explorarea schemelor conceptuale utile pentru gruparea obiectelor.
    • Generarea de ipoteze pe baza explorării datelor.
    • Testarea ipotezelor sau cercetarea pentru a determina dacă tipurile (grupurile) identificate într-un fel sau altul sunt de fapt prezente în datele disponibile.

    Indiferent de subiectul de studiu, utilizarea analizei cluster implică următorii pași:

    • Eșantionare pentru grupare. Se înțelege că are sens să grupăm doar date cantitative.
    • Definirea unui set de variabile prin care vor fi evaluate obiectele din eșantion, adică un spațiu caracteristic.
    • Calculul valorilor uneia sau altei măsuri de asemănare (sau diferență) între obiecte.
    • Aplicarea metodei de analiză a clusterelor pentru a crea grupuri de obiecte similare.
    • Validarea rezultatelor soluției cluster.

    Puteți găsi o descriere a două cerințe fundamentale pentru date - uniformitate și completitudine. Omogenitatea necesită ca toate entitățile grupate să fie de aceeași natură, descrise de un set similar de caracteristici. Dacă analiza de grup este precedată de analiză factorială, atunci eșantionul nu trebuie „reparat” - cerințele declarate sunt îndeplinite automat prin procedura de modelare factorială în sine (există un alt avantaj - standardizarea z fără consecințe negative pentru eșantion; dacă se efectuează direct pentru analiza clusterului, poate duce la scăderea clarității separării grupurilor). În caz contrar, eșantionul trebuie ajustat.

    Tipologia problemelor de clustering

    Tipuri de intrare

    În știința modernă, sunt utilizați mai mulți algoritmi pentru procesarea datelor de intrare. Se numește analiza prin compararea obiectelor pe baza trăsăturilor (cele mai frecvente în științele biologice). Q- tipul de analiză, iar în cazul comparării caracteristicilor, pe baza obiectelor - R- tipul analizei. Există încercări de a utiliza tipuri hibride de analiză (de exemplu, RQ analiză), dar această metodologie nu a fost încă dezvoltată corespunzător.

    Obiectivele grupării

    • Înțelegerea datelor prin identificarea structurii clusterului. Împărțirea eșantionului în grupuri de obiecte similare face posibilă simplificarea ulterioară a procesării datelor și a luării deciziilor prin aplicarea propriei metode de analiză fiecărui grup (strategia „împărți și cuceri”).
    • Comprimarea datelor. Dacă eșantionul inițial este excesiv de mare, atunci acesta poate fi redus, lăsând unul dintre cei mai tipici reprezentanți din fiecare cluster.
    • Detectare noutate (ing. detectie noutate). Sunt selectate obiecte atipice care nu pot fi atașate la niciunul dintre clustere.

    În primul caz, ei încearcă să micșoreze numărul de clustere. În cel de-al doilea caz, este mai important să se asigure un grad ridicat de similitudine a obiectelor din cadrul fiecărui cluster și poate exista orice număr de clustere. În al treilea caz, obiectele individuale care nu se încadrează în niciunul dintre grupuri sunt de cel mai mare interes.

    În toate aceste cazuri, se poate aplica gruparea ierarhică, atunci când clusterele mari sunt împărțite în altele mai mici, care, la rândul lor, sunt împărțite și mai mici, etc. Astfel de sarcini sunt numite sarcini de taxonomie. Rezultatul taxonomiei este o structură ierarhică arborescentă. În plus, fiecare obiect este caracterizat de o enumerare a tuturor clusterelor cărora le aparține, de obicei de la mare la mic.

    Metode de grupare

    Nu există o clasificare general acceptată a metodelor de grupare, dar se pot distinge un număr de grupuri de abordări (unele metode pot fi atribuite mai multor grupuri simultan și, prin urmare, se propune să se considere această tipificare ca o aproximare a clasificării reale a grupării). metode):

    1. Abordare probabilistică. Se presupune că fiecare obiect luat în considerare aparține uneia din clasele k. Unii autori (de exemplu, A. I. Orlov) consideră că acest grup nu aparține deloc grupării și i se opun sub denumirea de „discriminare”, adică alegerea de a atribui obiecte unuia dintre grupurile cunoscute (eșantioane de antrenament).
    2. Abordări bazate pe sisteme de inteligență artificială: un grup foarte condiționat, deoarece există o mulțime de metode și metodologic sunt foarte diferite.
    3. abordare logica. Construcția unei dendrograme se realizează folosind un arbore de decizie.
    4. Abordare graf-teoretică.
    5. Abordare ierarhică. Se presupune prezența unor grupuri imbricate (clustere de ordine diferite). Algoritmii, la rândul lor, sunt împărțiți în aglomerative (unificatoare) și divizoare (separatoare). În funcție de numărul de caracteristici, uneori se disting metodele monotetice și politetice de clasificare.
      • Clustering divizional ierarhic sau taxonomie. Problemele de grupare sunt luate în considerare în taxonomia cantitativă.
    6. Alte metode. Nu sunt incluse în grupele anterioare.
      • Algoritmi de grupare statistică
      • Ansamblu de clustere
      • Algoritmi din familia KRAB
      • Algoritm bazat pe metoda cernerii

    Abordările 4 și 5 sunt uneori combinate sub denumirea de abordare structurală sau geometrică, care are un concept mai formalizat de proximitate. În ciuda diferențelor semnificative dintre metodele enumerate, toate se bazează pe originalul " ipoteza compactității»: în spațiul obiectelor, toate obiectele apropiate trebuie să aparțină aceluiași grup și, respectiv, toate obiectele diferite trebuie să fie în grupuri diferite.

    Declarație formală a problemei grupării

    Lăsa X (\displaystyle X)- multe obiecte Y (\displaystyle Y)- set de numere (nume, etichete) de clustere. Funcția de distanță între obiecte este setată ρ (x , x ′) (\displaystyle \rho (x,x")). Există un set finit de obiecte de antrenament X m = ( x 1 , … , x m ) ⊂ X (\displaystyle X^(m)=\(x_(1),\dots,x_(m)\)\subset X). Este necesară împărțirea eșantionului în subseturi care nu se suprapun, numite clustere, astfel încât fiecare grup să fie format din obiecte apropiate în metrică ρ (\displaystyle \rho ), iar obiectele diferitelor clustere diferă semnificativ. În același timp, fiecare obiect x i ∈ X m (\displaystyle x_(i)\in X^(m)) numărul de grup atribuit y i (\displaystyle y_(i)).

    Algoritmul de grupare este o funcție a: X → Y (\displaystyle a\colon X\to Y), care la orice obiect x ∈ X (\displaystyle x\in X) se potrivește cu numărul clusterului y ∈ Y (\displaystyle y\în Y). O multime de Y (\displaystyle Y)în unele cazuri se știe dinainte, dar cel mai adesea sarcina este de a determina numărul optim de clustere, din punctul de vedere al unuia sau altuia. criterii de calitate gruparea.

    În general, este de remarcat faptul că din punct de vedere istoric s-a dezvoltat astfel încât măsurile de similitudine sunt mai des folosite ca măsuri de proximitate în biologie, mai degrabă decât măsuri de diferență (distanță).

    În sociologie

    La analiza rezultatelor cercetărilor sociologice, se recomandă efectuarea analizei folosind metodele unei familii aglomerative ierarhice, respectiv metoda Ward, în care dispersia minimă este optimizată în cadrul clusterelor, ca urmare, clustere de dimensiuni aproximativ egale. sunt create. Metoda lui Ward este cea mai de succes pentru analiza datelor sociologice. Ca măsură a diferenței, distanța pătratică euclidiană este mai bună, ceea ce contribuie la creșterea contrastului clusterelor. Principalul rezultat al analizei ierarhice a clusterului este o dendrogramă sau „diagrama cu gheață”. Atunci când îl interpretează, cercetătorii se confruntă cu o problemă de același fel ca și interpretarea rezultatelor analizei factoriale - lipsa unor criterii clare de identificare a clusterelor. Se recomandă utilizarea a două metode ca principale - analiza vizuală a dendrogramei și compararea rezultatelor grupării efectuate prin diferite metode.

    Analiza vizuală a dendrogramei presupune „tăierea” arborelui la nivelul optim de asemănare a elementelor eșantionului. „Ramură de viță de vie” (terminologia lui Oldenderfer M.S. și Blashfield R.K.) ar trebui „tăiată” la aproximativ 5 pe scara Combină a clusterelor de distanță redimensionată, atingând astfel un nivel de similitudine de 80%. Dacă selectarea clusterelor după această etichetă este dificilă (mai multe grupuri mici se îmbină într-unul mare pe ea), atunci puteți alege o altă etichetă. Această tehnică este propusă de Oldenderfer și Blashfield.

    Acum se pune problema stabilității soluției de cluster adoptate. De fapt, verificarea stabilității grupării se reduce la verificarea fiabilității acesteia. Există o regulă generală aici - o tipologie stabilă este păstrată atunci când metodele de grupare se schimbă. Rezultatele analizei cluster ierarhice pot fi verificate prin analiza cluster iterativă k-means. Dacă clasificările comparate ale grupurilor de respondenți au o pondere a coincidențelor de peste 70% (mai mult de 2/3 din coincidențe), atunci se ia o decizie de cluster.

    Este imposibil să se verifice caracterul adecvat al soluției fără a recurge la un alt tip de analiză. Cel puțin teoretic, această problemă nu a fost rezolvată. Analiza clusterelor clasice a lui Oldenderfer și Blashfield elaborează și în cele din urmă respinge cinci metode suplimentare de testare a robusteței:

    1. corelație cofenetică - nerecomandat și limitat în utilizare;
    2. teste de semnificație (analiza varianței) - dau întotdeauna un rezultat semnificativ;
    3. tehnica probelor repetate (aleatorie), care, însă, nu dovedește validitatea deciziei;
    4. testele de semnificație pentru caracteristicile externe sunt potrivite numai pentru măsurători repetate;
    5. Metodele Monte Carlo sunt foarte complexe și accesibile numai matematicienilor experimentați [ (ing. detectarea marginilor) sau recunoașterea obiectelor.
    6. Analiza inteligentă a datelor (mining de date în engleză) - clustering în Data Mining devine valoroasă atunci când acționează ca una dintre etapele analizei datelor, construind o soluție analitică completă. Este adesea mai ușor pentru un analist să identifice grupuri de obiecte similare, să le studieze caracteristicile și să construiască un model separat pentru fiecare grup decât să creeze un model general pentru toate datele. Această tehnică este utilizată constant în marketing, evidențiind grupuri de clienți, cumpărători, mărfuri și dezvoltând o strategie separată pentru fiecare dintre ei.

    Există două tipuri principale de analiză de cluster în statistică (ambele reprezentate în SPSS): ierarhică și k-means. În primul caz, procedura statistică automată determină în mod independent numărul optim de clustere și o serie de alți parametri necesari pentru clustering.

    analiză. Al doilea tip de analiză are limitări semnificative în aplicabilitatea practică - pentru aceasta este necesar să se determine în mod independent numărul exact de clustere alocate și valorile inițiale ale centrelor fiecărui grup (centroizi) și alte câteva statistici. Atunci când se analizează prin metoda k-means, aceste probleme sunt rezolvate prin efectuarea preliminară a unei analize de cluster ierarhice și apoi, pe baza rezultatelor acesteia, calcularea modelului de cluster folosind metoda k-means, care în majoritatea cazurilor nu numai că nu simplifică, dar , dimpotrivă, complică munca unui cercetător (mai ales a unuia nepregătit).

    În general, putem spune că, datorită faptului că analiza clusterului ierarhică este foarte solicitantă pentru resursele hardware ale computerului, analiza cluster k-means a fost introdusă în SPSS pentru a procesa seturi de date foarte mari constând din multe mii de observații (respondenți), în condiții capacitatea insuficientă a echipamentelor informatice1. Dimensiunile eșantioanelor utilizate în cercetarea de marketing în majoritatea cazurilor nu depășesc patru mii de respondenți. Practica cercetării de marketing arată că este primul tip de analiză cluster – ierarhică – care este recomandată pentru utilizare în toate cazurile ca fiind cea mai relevantă, universală și precisă. În același timp, trebuie subliniat faptul că selectarea variabilelor relevante este importantă atunci când se efectuează analiza cluster. Această remarcă este foarte importantă, întrucât includerea mai multor sau chiar a unei variabile irelevante în analiză poate duce la eșecul întregii proceduri statistice.

    Vom descrie metodologia de realizare a analizei cluster folosind următorul exemplu din practica cercetării de marketing.

    Date inițiale:

    În timpul studiului, au fost intervievați 745 de pasageri aerieni care zboară cu una dintre cele 22 de companii aeriene ruse și străine. Pasagerii aerieni au fost rugați să evalueze, pe o scară de cinci puncte, de la 1 (foarte slab) la 5 (excelent), șapte aspecte ale performanței personalului de la sol al companiei aeriene în timpul procesului de check-in: curtoazie, profesionalism, promptitudine, utilitate, managementul cozilor. , aspectul, personalul de lucru în general.

    Necesar:

    Segmentează companiile aeriene studiate în funcție de nivelul calității muncii personalului de la sol perceput de pasagerii aerieni.

    Deci, avem un fișier de date, care constă din șapte variabile de interval care denotă evaluările de performanță ale personalului de la sol al diferitelor companii aeriene (ql3-ql9), prezentate pe o singură scară de cinci puncte. Fișierul de date conține o singură variabilă q4 care indică companiile aeriene selectate de respondenți (22 în total). Să efectuăm o analiză de grup și să stabilim în ce grupuri țintă pot fi împărțite datele companiei aeriene.

    Analiza ierarhică a clusterelor se realizează în două etape. Rezultatul primei etape este numărul de clustere (segmente țintă) în care ar trebui împărțit eșantionul de respondenți studiat. Procedura de analiză a clusterului ca atare nu este

    poate determina independent numărul optim de clustere. Ea poate sugera doar numărul dorit. Întrucât problema determinării numărului optim de segmente este una esențială, aceasta este de obicei rezolvată într-o etapă separată a analizei. În a doua etapă, gruparea efectivă a observațiilor se realizează în funcție de numărul de clustere care a fost determinat în prima etapă a analizei. Acum să ne uităm la acești pași de analiză a clusterului în ordine.

    Procedura de analiză a clusterului este lansată utilizând meniul Analiză > Clasificare > Cluster ierarhic. În caseta de dialog care se deschide, din lista din stânga a tuturor variabilelor disponibile în fișierul de date, selectați variabilele care sunt criteriile de segmentare. În cazul nostru, există șapte dintre ele și ele denotă estimări ale parametrilor muncii personalului de la sol ql3-ql9 (Fig. 5.44). În principiu, specificarea unui set de criterii de segmentare va fi suficientă pentru a efectua prima etapă a analizei cluster.

    Orez. 5.44.

    În mod implicit, pe lângă tabelul cu rezultatele formării clusterelor, pe baza căruia vom determina numărul optim al acestora, SPSS afișează și un gheață special cu histogramă inversată, care, conform intenției creatorilor programului , ajută la determinarea numărului optim de clustere; Diagramele sunt afișate folosind butonul Plots (Fig. 5.45). Totuși, dacă lăsăm setată această opțiune, vom petrece mult timp procesând chiar și un fișier de date relativ mic. Pe lângă țurțuri, poate fi selectată o diagramă cu bare Dendogram mai rapidă în fereastra Plots. Este o bară orizontală care reflectă procesul de formare a clusterelor. Teoretic, cu un număr mic (până la 50-100) de respondenți, această diagramă ajută cu adevărat la alegerea soluției optime pentru numărul necesar de clustere. Cu toate acestea, în aproape toate exemplele din cercetările de marketing, dimensiunea eșantionului depășește această valoare. Dendograma devine complet inutilă, deoarece chiar și cu un număr relativ mic de observații este o secvență foarte lungă de numere de linii ale fișierului de date original, conectate prin linii orizontale și verticale. Majoritatea manualelor SPSS conțin exemple de analiză a grupurilor pe astfel de eșantioane artificiale mici. În acest tutorial, vă arătăm cum să profitați la maximum de SPSS într-un cadru practic și exemple reale de cercetare de piață.

    Orez. 5.45.

    După cum am stabilit, nici Icicle, nici Dendogram nu sunt potrivite pentru scopuri practice. Prin urmare, în caseta de dialog principală a Analizei clusterelor ierarhice, se recomandă să nu afișați diagrame prin deselectarea opțiunii implicite Plots din zona Display, așa cum se arată în Fig. 5.44. Acum totul este gata pentru a efectua prima etapă a analizei cluster. Începeți procedura făcând clic pe butonul OK.

    După un timp, rezultatele vor apărea în fereastra SPSS Viewer. După cum am menționat mai sus, singurul rezultat al primei etape a analizei care este semnificativ pentru noi va fi tabelul Legături medii (între grupuri), prezentat în Fig. 5.46. Pe baza acestui tabel, trebuie să stabilim numărul optim de clustere. Trebuie remarcat faptul că nu există o metodă universală unică pentru determinarea numărului optim de clustere. În fiecare caz, cercetătorul trebuie să determine singur acest număr.

    Pe baza experienței, autorul propune următoarea schemă a acestui proces. În primul rând, să încercăm să aplicăm cea mai comună metodă standard pentru determinarea numărului de clustere. Folosind tabelul Legătura medie (Între grupuri), este necesar să se determine în ce etapă a procesului de formare a clusterului (Stapa de coloană) are loc primul salt relativ mare în coeficientul de aglomerare (Coeficienți de coloană). Acest salt înseamnă că înainte de el, observațiile care se aflau la distanțe destul de mici unele de altele au fost combinate în clustere (în cazul nostru, respondenți cu un nivel similar de aprecieri în ceea ce privește parametrii analizați), iar începând din această etapă, observații mai îndepărtate. sunt combinate.

    În cazul nostru, coeficienții cresc ușor de la 0 la 7,452, adică diferența dintre coeficienții în trepte de la primul la 728 a fost mică (de exemplu, între 728 și 727 de trepte - 0,534). Începând de la pasul 729, are loc primul salt semnificativ al coeficientului: de la 7,452 la 10,364 (cu 2,912). Pasul la care coeficientul sare pentru prima dată este 729. Acum, pentru a determina numărul optim de clustere, este necesar să scădem valoarea obținută din numărul total de observații (mărimea eșantionului). Dimensiunea totală a eșantionului în cazul nostru este de 745 de persoane; prin urmare, numărul optim de clustere este 745-729 = 16.


    Orez. 5.46.

    Avem un număr destul de mare de clustere, care va fi greu de interpretat în viitor. Prin urmare, acum este necesar să examinăm clusterele obținute și să stabilim care dintre ele sunt semnificative și pe care ar trebui încercat să le reducă. Această problemă este rezolvată în a doua etapă a analizei cluster.

    Deschideți caseta de dialog principală a procedurii de analiză a clusterului (meniul Analizare > Clasificare > Cluster ierarhic). În domeniul variabilelor analizate avem deja șapte parametri. Faceți clic pe butonul Salvare. Fereastra de dialog care se deschide (Fig. 5.47) vă permite să creați o nouă variabilă în fișierul de date sursă care distribuie respondenții în grupuri țintă. Selectați opțiunea Soluție unică și specificați numărul necesar de clustere în câmpul corespunzător - 16 (determinat în prima etapă a analizei cluster). Făcând clic pe butonul Continuare, veți reveni la caseta de dialog principală, unde puteți face clic pe butonul OK pentru a începe procedura de analiză a clusterului.

    Înainte de a continua descrierea procesului de analiză a clusterelor, este necesar să descriem pe scurt ceilalți parametri. Printre acestea se numără atât caracteristici utile, cât și de fapt superflue (din punct de vedere al cercetării practice de marketing). De exemplu, caseta de dialog principală Analiza clusterului ierarhic conține un câmp Etichetare cazuri după, în care puteți plasa opțional o variabilă de text care identifică respondenții. În cazul nostru, variabila q4, care codifică companiile aeriene alese de respondenți, poate servi în aceste scopuri. În practică, este dificil să veniți cu o explicație rațională pentru utilizarea Caselor de etichetă în funcție de câmp, astfel încât să îl puteți lăsa mereu gol în siguranță.

    Orez. 5.47.

    Rareori, la efectuarea analizei cluster, este folosită caseta de dialog Statistici, apelată de butonul cu același nume din caseta de dialog principală. Vă permite să afișați tabelul de apartenență la cluster în fereastra SPSS Viewer, în care fiecare respondent din fișierul de date sursă este mapat la un număr de cluster. Cu un număr suficient de mare de respondenți (în aproape toate exemplele de cercetare de marketing), acest tabel devine complet inutil, deoarece este o secvență lungă de perechi de valori „număr respondent / număr cluster”, care în această formă nu poate fi interpretată . Scopul tehnic al analizei cluster este întotdeauna de a crea o variabilă suplimentară în fișierul de date care să reflecte împărțirea respondenților în grupuri țintă (făcând clic pe butonul Salvare din caseta de dialog principală pentru analiza cluster). Această variabilă, împreună cu numărul de respondenți, este tabelul de membri ai grupului. Singura opțiune practică din fereastra Statistici este afișarea tabelului Legături medii (între grupuri), dar acesta este deja setat în mod implicit. Astfel, utilizarea butonului Statistici și afișarea unui tabel separat de apartenență la Cluster în fereastra SPSS Viewer nu este practică.

    Butonul Plots a fost deja menționat mai sus: ar trebui dezactivat prin deselectarea parametrului Plots din caseta de dialog principală pentru analiza clusterului.

    Pe lângă aceste caracteristici rar utilizate ale procedurii de analiză a clusterelor, SPSS oferă și câteva opțiuni foarte utile. Printre acestea, în primul rând, butonul Salvare, care vă permite să creați o nouă variabilă în fișierul de date sursă care distribuie respondenții în clustere. Tot în caseta de dialog principală există o zonă pentru selectarea obiectului grupării: respondenți sau variabile. Această posibilitate a fost discutată mai sus în secțiunea 5.4. În primul caz, analiza cluster este utilizată în principal pentru a segmenta respondenții în funcție de anumite criterii; în al doilea, scopul analizei cluster este similar cu analiza factorială: clasificarea (reducerea numărului) de variabile.

    După cum se poate observa din fig. 5.44, singura posibilitate de analiză a clusterului neconsiderată este butonul de selectare a metodei de efectuare a procedurii statistice Metoda. Experimentarea acestui parametru vă permite să obțineți o precizie mai mare în determinarea numărului optim de clustere. Vederea generală a acestei casete de dialog cu setările implicite este prezentată în fig. 5.48.

    Orez. 5.48.

    Primul lucru care este setat în această fereastră este metoda de formare a clusterelor (adică combinarea observațiilor). Dintre toate opțiunile posibile pentru metodele statistice oferite de SPSS, ar trebui să alegeți fie metoda implicită de legătură între grupuri, fie metoda Ward (metoda Ward). Prima metodă este folosită mai des datorită versatilității și simplității relative a metodei. procedură statistică pe care se bazează.Folosind această metodă, distanța dintre clustere se calculează ca media distanțelor dintre toate perechile posibile de observații, fiecare iterație implicând o observație dintr-un cluster și a doua din altul.perechi posibile teoretic de observații. observații.Metoda Ward este mai greu de înțeles și mai puțin utilizată.Ea constă din mai multe etape și se bazează pe media valorilor tuturor variabilelor pentru fiecare observație și apoi însumarea distanțelor pătrate de la mediile calculate la fiecare observație.Pentru scopuri practice, marketing Pentru cercetări noi, vă recomandăm să utilizați întotdeauna metoda implicită de conectare între grupuri.

    După ce ați selectat o procedură de grupare statistică, selectați o metodă pentru calcularea distanțelor dintre observații (Măsurați zona în caseta de dialog Metodă). Există diferite metode de determinare a distanțelor pentru cele trei tipuri de variabile implicate în analiza clusterului (criterii de segmentare). Aceste variabile pot avea o scală de interval (Interval), nominală (Numărări) sau dihotomică (Binară). Scala dihotomică (Binară) implică doar variabile care reflectă apariția/neapariția unui eveniment (cumpărat/nu cumpărat, da/nu etc.). Alte tipuri de variabile dihotomice (de exemplu, bărbat/femeie) ar trebui luate în considerare și analizate ca nominale (Număr).

    Metoda cea mai frecvent utilizată pentru determinarea distanțelor pentru variabilele de interval este distanța euclidiană pătrată implicită. Această metodă s-a dovedit în cercetarea de marketing ca fiind cea mai precisă și universală. Cu toate acestea, pentru variabilele dihotomice în care observațiile sunt reprezentate doar de două valori (de exemplu, 0 și 1), această metodă nu este potrivită. Ideea este că ia în considerare doar interacțiunile dintre observații de tipul: X = 1,Y = 0 și X = 0, Y=l (unde X și Y sunt variabile) și nu ia în considerare alte tipuri de interacțiuni. Cea mai cuprinzătoare măsură a distanței, luând în considerare toate tipurile importante de interacțiuni între două variabile dihotomice, este metoda Lambda. Vă recomandăm să folosiți această metodă datorită versatilității sale. Cu toate acestea, există și alte metode, precum Shape, Hamann sau Anderbergs D.

    La specificarea metodei de determinare a distanțelor pentru variabilele dihotomice, este necesar să se indice în câmpul corespunzător valorile specifice pe care variabilele dihotomice studiate le pot lua: în câmpul Prezent - codificarea răspunsului Da, iar în câmpul Absent - Nu . Denumirile câmpurilor prezente și absente sunt asociate cu faptul că în grupul metodei binare se presupune că folosește doar variabile dihotomice care reflectă apariția/neapariția unui eveniment. Pentru cele două tipuri de variabile Interval și Binary, există mai multe metode de determinare a distanței. Pentru variabilele cu un tip de scară nominală, SPSS oferă doar două metode: (măsură Chi-pătrat) și (măsură Phi-pătrat). Vă recomandăm să folosiți prima metodă ca fiind cea mai comună.

    Dialogul Metodă are o zonă Transform Values ​​care conține un câmp Standardize. Acest câmp este utilizat atunci când variabile cu diferite tipuri de scară (de exemplu, interval și nominal) iau parte la analiza cluster. Pentru a utiliza aceste variabile în analiza clusterului este necesar să se efectueze o standardizare, ducându-le la un singur tip de scară - interval. Cea mai comună metodă de standardizare a variabilelor este standardizarea 2 (Zscores): toate variabilele sunt reduse la un singur interval de valori de la -3 la +3 și după transformare sunt intervale.

    Deoarece toate metodele optime (clustering și determinarea distanței) sunt setate implicit, este recomandabil să folosiți caseta de dialog Metodă doar pentru a specifica tipul de variabile care trebuie analizate, precum și pentru a indica necesitatea efectuării 2-standardizării variabilelor.

    Deci, am descris toate caracteristicile principale oferite de SPSS pentru analiza clusterului. Să revenim la descrierea analizei cluster realizată în scopul segmentării companiilor aeriene. Amintiți-vă că am optat pentru o soluție cu șaisprezece clustere și am creat o nouă variabilă clul6_l în fișierul de date original, distribuind toate companiile aeriene analizate în clustere.

    Pentru a stabili cât de corect am determinat numărul optim de clustere, vom construi o distribuție liniară a variabilei clul6_l (meniul Analiză > Statistică descriptivă > Frecvențe). După cum se vede în fig. 5.49, în clusterele numerotate 5-16, numărul respondenților variază de la 1 la 7. Alături de metoda universală descrisă mai sus pentru determinarea numărului optim de clustere (pe baza diferenței dintre numărul total de respondenți și primul salt în coeficient de aglomerare), există și o recomandare suplimentară: dimensiunea clusterelor ar trebui să fie semnificativă și practică din punct de vedere statistic. Cu dimensiunea eșantionului nostru, o astfel de valoare critică poate fi setată cel puțin la nivelul 10. Vedem că numai grupurile cu numerele 1-4 se încadrează în această condiție. Prin urmare, acum este necesar să se recalculeze procedura de analiză a clusterului cu rezultatul unei soluții cu patru clustere (va fi creată o nouă variabilă du4_l).


    Orez. 5.49.

    După ce am construit o distribuție liniară pe variabila nou creată du4_l, vom vedea că doar în două clustere (1 și 2) numărul de respondenți este practic semnificativ. Trebuie să reconstruim modelul cluster din nou -- acum pentru o soluție cu două clustere. După aceea, construim distribuția în raport cu variabila du2_l (Fig. 5.50). După cum se poate observa din tabel, soluția cu două clustere are un număr semnificativ statistic și practic de respondenți în fiecare dintre cele două clustere formate: în clusterul 1 - 695 respondenți; în clusterul 2 - 40. Astfel, am determinat numărul optim de clustere pentru sarcina noastră și am realizat segmentarea efectivă a respondenților în funcție de șapte criterii selectate. Acum putem considera obiectivul principal al sarcinii noastre ca fiind atins și trecem la etapa finală a analizei cluster - interpretarea grupurilor țintă (segmente) obținute.


    Orez. 5.50.

    Soluția rezultată este oarecum diferită de ceea ce ați văzut în tutorialele SPSS. Chiar și cele mai practic manuale oferă exemple artificiale în care gruparea are ca rezultat grupuri țintă ideale de respondenți. În unele cazuri (5) autorii chiar indică direct originea artificială a exemplelor. În acest tutorial, vom folosi un exemplu din viața reală din cercetările practice de marketing, care nu diferă în proporții ideale, ca o ilustrare a funcționării analizei cluster. Acest lucru ne va permite să arătăm cele mai frecvente dificultăți în efectuarea analizei cluster, precum și cele mai bune metode de a le elimina.

    Înainte de a continua cu interpretarea clusterelor rezultate, să rezumăm. Avem următoarea schemă pentru determinarea numărului optim de clustere.

    ¦ În pasul 1, determinăm numărul de clustere pe baza unei metode matematice bazată pe coeficientul de aglomerare.

    ¦ În etapa 2, grupăm respondenții în funcție de numărul de clustere obținut și apoi construim o distribuție liniară în funcție de noua variabilă formată (cul6_l). Aici ar trebui să determinați, de asemenea, câte grupuri constau dintr-un număr semnificativ statistic de respondenți. În general, se recomandă stabilirea numărului minim semnificativ de clustere la nivelul a cel puțin 10 respondenți.

    ¦ Dacă toate clusterele îndeplinesc acest criteriu, se trece la etapa finală a analizei cluster: interpretarea clusterelor. Dacă există clustere cu un număr nesemnificativ de observații constitutive ale acestora, determinăm câte clustere constau dintr-un număr semnificativ de respondenți.

    ¦ Recalculăm procedura de analiză a clusterelor specificând în caseta de dialog Salvare numărul de clustere constând dintr-un număr semnificativ de observații.

    ¦ Construim o distribuție liniară pe o nouă variabilă.

    Această secvență de acțiuni se repetă până când se găsește o soluție în care toate clusterele vor consta dintr-un număr semnificativ statistic de respondenți. După aceea, puteți trece la etapa finală a analizei clusterului - interpretarea clusterelor.

    Trebuie remarcat în mod special că criteriul semnificației practice și statistice a numărului de clustere nu este singurul criteriu prin care poate fi determinat numărul optim de clustere. Cercetătorul poate, în mod independent, pe baza experienței sale, să sugereze numărul de clustere (trebuie îndeplinită condiția de semnificație). O altă opțiune este o situație destul de comună când, în scopul studiului, se stabilește în prealabil o condiție pentru a segmenta respondenții în funcție de un anumit număr de grupuri țintă. În acest caz, trebuie doar să faceți o analiză ierarhică a clusterului o dată, păstrând numărul necesar de clustere, apoi încercați să interpretați ceea ce se întâmplă.

    Pentru a descrie segmentele țintă rezultate, ar trebui să se folosească procedura de comparare a valorilor medii ale variabilelor studiate (centroizii cluster). Vom compara valorile medii ale celor șapte criterii de segmentare luate în considerare în fiecare dintre cele două clustere rezultate.

    Procedura de comparare a mediilor este denumită folosind meniul Analiză > Comparați medii > Mijloace. În caseta de dialog care se deschide (Fig. 5.51), selectați cele șapte variabile selectate ca criterii de segmentare (ql3-ql9) din lista din stânga și transferați-le în câmpul Lista dependentă pentru variabilele dependente. Apoi mutați variabila сШ2_1, care reflectă împărțirea respondenților în grupuri în soluția finală (cu două grupuri) a problemei, din lista din stânga în câmpul pentru variabile independente Lista independentă. Apoi faceți clic pe butonul Opțiuni.

    Orez. 5.51.

    Se va deschide caseta de dialog Opțiuni, selectați statisticile necesare în ea pentru a compara clusterele (Fig. 5.52). Pentru a face acest lucru, în câmpul Statistici celule, lăsați doar rezultatul valorilor medii, eliminând alte statistici implicite din acesta. Închideți caseta de dialog Opțiuni făcând clic pe butonul Continuare. În cele din urmă, din caseta de dialog principală Mijloace, începeți procedura de comparare a mediei (butonul OK).

    Orez. 5,52.

    În fereastra SPSS Viewer care se deschide, vor apărea rezultatele procedurii statistice de comparare a mediilor. Suntem interesați de tabelul Raport (Fig. 5.53). Din aceasta puteți vedea pe ce bază SPSS a împărțit respondenții în două grupuri. În cazul nostru, un astfel de criteriu este nivelul evaluărilor pentru parametrii analizați. Clusterul 1 este format din respondenți pentru care scorurile medii pentru toate criteriile de segmentare sunt la un nivel relativ ridicat (4,40 puncte și mai mult). Clusterul 2 include respondenți care au evaluat criteriile de segmentare considerate destul de scăzute (3,35 puncte și mai jos). Astfel, putem concluziona că 93,3% dintre respondenții care au format clusterul 1 au apreciat companiile aeriene analizate din toate punctele de vedere ca fiind în general bune; 5,4% este destul de scăzut; 1,3% le-a fost greu să răspundă (vezi Fig. 5.50). Din fig. 5.53, se poate concluziona și care nivel de rating pentru fiecare dintre parametrii considerați separat este ridicat și care este scăzut (și această concluzie va fi făcută de respondenți, ceea ce permite realizarea unei precizii ridicate de clasificare). Din tabelul Raport, puteți vedea că Limitarea cozii are un scor mediu ridicat de 4,40, iar Aspectul este 4,72.


    Orez. 5.53.

    Se poate dovedi că, într-un caz similar, 4,5 este considerat un scor mare pentru parametrul X și doar 3,9 pentru parametrul Y. Aceasta nu va fi o eroare de clustering, ci, dimpotrivă, va face posibilă tragerea unei concluzii importante cu privire la semnificația parametrilor luați în considerare pentru respondenți. Astfel, pentru parametrul Y, deja 3,9 puncte este o estimare bună, în timp ce pentru parametrul X respondenții impun cerințe mai stricte.

    Am identificat două grupuri semnificative care diferă în nivelul scorurilor medii în funcție de criteriile de segmentare. Acum puteți atribui etichete clusterelor primite: pentru 1 - Companii aeriene care îndeplinesc cerințele respondenților (conform celor șapte criterii analizate); pentru 2 -- Companiile aeriene care nu îndeplinesc cerințele respondenților. Acum puteți vedea care companii aeriene (codate în variabila q4) îndeplinesc cerințele respondenților și care nu în funcție de criteriile de segmentare. Pentru a face acest lucru, ar trebui să construiți o distribuție încrucișată a variabilei q4 (linii aeriene analizate) în funcție de variabila de grupare clu2_l. Rezultatele unei astfel de analize în secțiune transversală sunt prezentate în Fig. 5,54.

    Pe baza acestui tabel se pot trage următoarele concluzii cu privire la apartenența companiilor aeriene studiate în segmentele țintă selectate.


    Orez. 5,54.

    1. Companii aeriene care îndeplinesc pe deplin cerințele tuturor clienților în ceea ce privește munca personalului de la sol (inclus doar într-un singur prim grup):

    ¦ Companiile aeriene Vnukovo;

    ¦ American Airlines;

    ¦ Delta Airlines;

    Austrian Airlines;

    ¦ British Airways;

    ¦ Korean Airlines;

    Japan Airlines.

    2. Companiile aeriene care îndeplinesc cerințele majorității clienților lor în ceea ce privește munca personalului la sol (majoritatea respondenților care zboară cu aceste companii aeriene sunt mulțumiți de munca personalului la sol):

    ¦ Transaero.

    3. Companiile aeriene care nu îndeplinesc cerințele majorității clienților lor în ceea ce privește munca personalului la sol (majoritatea respondenților care zboară cu aceste companii aeriene nu sunt mulțumiți de munca personalului la sol):

    ¦ Companiile aeriene Domodedovo;

    ¦ Pulkovo;

    ¦ Siberia;

    ¦ Ural Airlines;

    ¦ Samara Airlines;

    Astfel, trei segmente țintă de companii aeriene au fost obținute prin nivelul ratingurilor medii, caracterizat prin grade variate de satisfacție a respondenților cu munca personalului la sol:

    • 1. cele mai atractive companii aeriene pentru pasageri din punct de vedere al nivelului de muncă al personalului de la sol (14);
    • 2. companii aeriene destul de atractive (1);
    • 3. companii aeriene destul de neatractive (7).

    Am finalizat cu succes toate etapele analizei cluster și am segmentat companiile aeriene în funcție de șapte criterii selectate.

    Acum oferim o descriere a metodologiei de analiză a clusterelor asociată cu analiza factorială. Folosim condiția problemei din secțiunea 5.2.1 (analiza factorială). După cum sa menționat deja, în problemele de segmentare cu un număr mare de variabile, este recomandabil să precedăm analiza cluster cu analiza factorială. Acest lucru se face pentru a reduce numărul de criterii de segmentare la cele mai semnificative. În cazul nostru, avem 24 de variabile în fișierul de date original. Ca rezultat al analizei factoriale, am reușit să reducem numărul lor la 5. Acum acest număr de factori poate fi utilizat eficient pentru analiza clusterului, iar factorii înșiși pot fi utilizați ca criterii de segmentare.

    Dacă ne confruntăm cu sarcina de a segmenta respondenții în funcție de evaluarea lor asupra diferitelor aspecte ale poziției concurențiale actuale a companiei aeriene X, putem efectua o analiză de cluster ierarhică în funcție de cele cinci criterii identificate (variabile nfacl_l-nfac5_l). În cazul nostru, variabilele au fost evaluate pe diferite scale. De exemplu, un scor de 1 pentru afirmația Nu aș dori ca compania aeriană să se schimbe și același punctaj pentru afirmația Modificări în compania aeriană va fi un moment pozitiv, diametral opus ca sens. În primul caz, 1 punct (total dezacord) înseamnă că respondentul salută schimbările din compania aeriană; în al doilea caz, un punctaj de 1 indică faptul că respondentul respinge modificările din compania aeriană. Atunci când interpretăm clustere, vom întâmpina inevitabil dificultăți, deoarece astfel de variabile care sunt opuse ca semnificație pot

    cad in acelasi factor. Astfel, în scopul segmentării, se recomandă ca mai întâi să se alinieze scalele variabilelor studiate, apoi să se recalculeze modelul factorial. Și deja în continuare să efectuăm analiza cluster asupra variabilelor-factori obținuți ca rezultat al analizei factoriale. Nu vom descrie din nou în detaliu procedurile pentru analiza factorială și cluster (acest lucru a fost făcut mai sus în secțiunile relevante). Remarcăm doar că prin această tehnică, ca urmare, am obținut trei grupuri țintă de pasageri aerieni, care diferă în nivelul de evaluări a factorilor selectați (adică grupuri de variabile): cel mai scăzut, cel mai mare și cel mai mare.

    O aplicație foarte utilă a analizei cluster este împărțirea în grupuri de tabele de frecvență. Să presupunem că avem o distribuție liniară a răspunsurilor la întrebarea Ce mărci de antivirusuri sunt instalate în organizația dvs.?. Pentru a formula concluzii cu privire la această distribuție, este necesar să se împartă mărcile de antivirus în mai multe grupuri (de obicei 2-3). Pentru a împărți toate mărcile în trei grupuri (cele mai populare mărci, popularitate medie și mărci nepopulare), cel mai bine este să folosiți analiza cluster, deși, de regulă, cercetătorii separă elementele tabelelor de frecvență după ochi, pe baza unor considerente subiective. Spre deosebire de această abordare, analiza cluster face posibilă fundamentarea științifică a grupării efectuate. Pentru a face acest lucru, introduceți valorile fiecărui parametru în SPSS (este recomandabil să exprimați aceste valori ca procent) și apoi efectuați o analiză de cluster pe aceste date. Salvând soluția cluster pentru numărul necesar de grupuri (3 în cazul nostru) ca o nouă variabilă, obținem o grupare validă statistic.

    Vom dedica partea finală a acestei secțiuni descrierii utilizării analizei cluster pentru clasificarea variabilelor și compararea rezultatelor acesteia cu rezultatele analizei factoriale efectuate în Secțiunea 5.2.1. Pentru a face acest lucru, vom folosi din nou condiția problemei despre evaluarea poziției actuale a companiei aeriene X pe piața transportului aerian. Metodologia de realizare a analizei cluster o repetă aproape complet pe cea descrisă mai sus (când respondenții au fost segmentați).

    Deci, în fișierul de date inițial, avem 24 de variabile care descriu atitudinea respondenților față de diverse aspecte ale poziției competiționale actuale a companiei aeriene X. Deschideți caseta de dialog principală Analiza clusterului ierarhic și plasați 24 de variabile (ql-q24) în Variabilă (s) câmp, fig. 5.55. În zona Cluster, indicați că clasificați variabile (bifați opțiunea Variabile). Veți vedea că butonul Salvare a devenit indisponibil -- spre deosebire de analiza factorială, analiza de grup nu poate salva evaluările factorilor pentru toți respondenții. Dezactivați trasarea dezactivând opțiunea Plots. În primul pas, nu aveți nevoie de alte opțiuni, așa că faceți clic pe butonul OK pentru a începe procedura de analiză a clusterului.

    În fereastra SPSS Viewer a apărut tabelul Agglomeration Schedule, conform căruia am determinat numărul optim de clustere folosind metoda descrisă mai sus (Fig. 5.56). Primul salt în coeficientul de aglomerare se observă la pasul 20 (de la 18834.000 la 21980.967). Pe baza numărului total de variabile analizate, egal cu 24, se poate calcula numărul optim de clustere: 24 - 20 = 4.

    Orez. 5.55.


    Orez. 5,56.

    La clasificarea variabilelor, un cluster format dintr-o singură variabilă este semnificativ practic și statistic. Prin urmare, deoarece am obținut un număr acceptabil de clustere prin metoda matematică, nu sunt necesare verificări suplimentare. În schimb, deschideți din nou caseta de dialog principală pentru analiza clusterului (toate datele utilizate în pasul anterior sunt păstrate) și faceți clic pe butonul Statistici pentru a afișa tabelul de clasificare. Veți vedea o casetă de dialog cu același nume, în care trebuie să specificați numărul de clustere în care trebuie împărțite 24 de variabile (Fig. 5.57). Pentru a face acest lucru, selectați opțiunea Soluție unică și specificați numărul necesar de clustere în câmpul corespunzător: 4. Acum închideți caseta de dialog Statistici făcând clic pe butonul Continue și rulați procedura din fereastra principală de analiză a clusterelor.

    Ca rezultat, tabelul Cluster Membership va apărea în fereastra SPSS Viewer, distribuind variabilele analizate în patru clustere (Fig. 5.58).

    Orez. 5,58.

    Conform acestui tabel, fiecare variabilă luată în considerare poate fi atribuită unui grup specific, după cum urmează.

    Clusterul 1

    ql. Compania aeriană X are o reputație de servicii excelente pentru pasageri.

    q2. Compania aeriană X poate concura cu cele mai bune companii aeriene din lume.

    q3. Cred că Airline X are un viitor promițător în aviația globală.

    q5. Sunt mândru că lucrez pentru Airline X.

    q9. Mai avem un drum lung de parcurs până să putem pretinde că suntem o companie aeriană de clasă mondială.

    qlO. Companiei aeriene X îi pasă foarte mult de pasageri.

    ql3. Îmi place cum Airline X se prezintă vizual publicului larg (în termeni de culori și branding).

    ql4. Compania aeriană X este chipul Rusiei.

    ql6. Serviciul Airline X este consecvent și ușor de recunoscut

    ql8. Compania aeriană X trebuie să se schimbe pentru a-și exploata întregul potențial.

    ql9. Cred că Airline X trebuie să se prezinte vizual într-un mod mai modern.

    q20. Schimbările în compania aeriană X vor fi un lucru pozitiv. q21. Compania aeriană X este o companie aeriană eficientă.

    q22. Aș dori să văd imaginea companiei aeriene X îmbunătățită în ceea ce privește pasagerii străini.

    q23. Compania aeriană X este mai bună decât cred majoritatea oamenilor.

    q24. Este important ca oamenii din întreaga lume să știe că suntem o companie aeriană rusă.

    Clusterul 2

    q4. Știu care va fi strategia viitoare a companiei Airline X.

    q6. Compania aeriană X are o bună comunicare între departamente.

    q7. Fiecare angajat al companiei aeriene depune toate eforturile pentru a-i asigura succesul.

    q8. Acum Airline X se îmbunătățește rapid.

    qll. Există un grad ridicat de satisfacție în muncă în rândul angajaților companiilor aeriene.

    ql2. Cred că managerii seniori fac tot posibilul pentru a obține succesul unei companii aeriene.

    Clusterul 3

    ql5. Arătăm ca „ieri” în comparație cu alte companii aeriene.

    Clusterul 4

    ql7. Nu aș vrea să se schimbe compania aeriană X.

    Dacă comparați rezultatele analizelor factoriale (secțiunea 5.2.1) și ale analizelor cluster, veți vedea că acestea diferă semnificativ. Analiza cluster nu numai că oferă mult mai puține oportunități pentru gruparea variabilelor (de exemplu, incapacitatea de a salva evaluările grupului) în comparație cu analiza factorială, dar produce și rezultate vizuale mult mai puține. În cazul nostru, dacă clusterele 2, 3 și 4 sunt încă susceptibile de interpretare logică1, atunci clusterul 1 conține declarații care au sens complet diferit. În această situație, puteți încerca fie să descrieți clusterul 1 așa cum este, fie să reconstruiți modelul statistic cu un număr diferit de clustere. În acest din urmă caz, pentru a găsi numărul optim de clustere care pot fi descrise logic, puteți utiliza parametrul Gama de soluții din caseta de dialog Statistici (vezi Figura 5.57), specificând numărul minim și maxim de clustere în câmpurile corespunzătoare ( în cazul nostru, 4 și, respectiv, 6). Într-o astfel de situație, SPSS va reconstrui tabelul Cluster Membership pentru fiecare număr de clustere. Sarcina analistului în acest caz este să încerce să aleagă un model de clasificare în care toate clusterele să fie interpretate fără ambiguitate. Pentru a demonstra capacitățile procedurii de analiză a clusterelor pentru gruparea variabilelor, nu vom reconstrui modelul cluster, ci ne vom limita la cele spuse mai sus.

    Trebuie remarcat faptul că, în ciuda aparentei simplități a analizei cluster în comparație cu analiza factorială, în aproape toate cazurile de cercetare de marketing, analiza factorială este mai rapidă și mai eficientă decât analiza cluster. Prin urmare, pentru clasificarea (reducerea) variabilelor, recomandăm cu tărie folosirea analizei factoriale și lăsați utilizarea analizei cluster pentru clasificarea respondenților.

    Analiza clasificării este, poate, unul dintre cele mai complexe instrumente statistice din punctul de vedere al unui utilizator nepregătit. Acest lucru se datorează prevalenței sale foarte scăzute în companiile de marketing. În același timp, acest grup special de metode statistice este și unul dintre cele mai utile pentru practicienii din domeniul cercetării de marketing.

    V STATISTICI sunt implementate metode clasice de analiză a clusterelor, inclusiv k-means, clustering ierarhic și metode de îmbinare cu două intrări.

    Datele pot veni atât în ​​forma sa originală, cât și sub forma unei matrice a distanțelor dintre obiecte.

    Observațiile și variabilele pot fi grupate folosind diverse măsuri de distanță (euclidian, pătrat euclidian, Manhattan, Chebyshev etc.) și diverse reguli de grupare (single, conexiune completă, medii de grup neponderate și ponderate pe perechi etc.).

    Formularea problemei

    Fișierul de date original conține următoarele informații despre vehicule și proprietarii acestora:

    Scopul acestei analize este de a împărți mașinile și proprietarii acestora în clase, fiecare dintre acestea corespunzând unui anumit grup de risc. Observațiile care se încadrează într-un singur grup sunt caracterizate de aceeași probabilitate a unui eveniment asigurat, care este evaluată ulterior de către asigurător.

    Utilizarea analizei cluster pentru a rezolva această problemă este cea mai eficientă. În cazul general, analiza cluster este concepută pentru a combina unele obiecte în clase (clustere) în așa fel încât cele mai asemănătoare să se încadreze într-o singură clasă, iar obiectele din clase diferite să difere cât mai mult unele de altele. Scorul de similaritate este calculat într-o manieră predeterminată pe baza datelor care caracterizează obiectele.

    Scala de măsurare

    Toți algoritmii cluster trebuie să estimeze distanțele dintre clustere sau obiecte și este clar că atunci când se calculează distanța, este necesar să se specifice scara de măsurare.

    Deoarece măsurătorile diferite folosesc tipuri complet diferite de scale, datele trebuie să fie standardizate (în meniu Date selectați elementul Standardiza), astfel încât fiecare variabilă va avea o medie de 0 și o abatere standard de 1.

    Tabelul cu variabile standardizate este prezentat mai jos.

    Pasul 1. Clasificarea ierarhică

    În prima etapă, vom afla dacă mașinile formează grupuri „naturale” care pot fi înțelese.

    Să alegem analiza grupuluiîn meniu Analiză - Analiză exploratorie multivariată pentru a afișa panoul de pornire al modulului analiza grupului. În acest dialog, alegeți Clasificarea ierarhicăși apăsați O.K.

    Hai să apăsăm butonul Variabile, alege Tot, în câmp Obiecte alege Observatii (linii). Ca regulă sindicală, notăm Metoda linkului complet, ca măsură a proximității - distanta euclidiana. Hai să apăsăm O.K.

    Metoda de legătură completă definește distanța dintre grupuri ca fiind cea mai mare distanță dintre oricare două obiecte din grupuri diferite (adică „vecinii cei mai îndepărtați”).

    Măsura de proximitate definită de distanța euclidiană este distanța geometrică în spațiul n-dimensional și se calculează după cum urmează:

    Cel mai important rezultat al grupării arborilor este arborele ierarhic. Hai să apăsăm butonul Dendrograma verticală.

    Diagramele arborelui pot părea puțin confuze la început, dar după unele studii devin mai ușor de înțeles. Diagrama începe în partea de sus (pentru o dendrogramă verticală) cu fiecare mașină în propriul său grup.

    Pe măsură ce începi să cobori, mașinile care sunt „mai aproape una de cealaltă” se unesc și formează grupuri. Fiecare nod al diagramei de mai sus reprezintă o unire a două sau mai multe clustere, poziția nodurilor pe axa verticală determină distanța la care au fost combinate clusterele respective.

    Pasul 2. Clustering folosind metoda K înseamnă

    Pe baza reprezentării vizuale a rezultatelor, se poate presupune că mașinile formează patru grupuri naturale. Să verificăm această ipoteză împărțind datele inițiale prin metoda K mijloacelor în 4 clustere și să verificăm semnificația diferenței dintre grupurile obținute.

    În panoul de lansare al modulului analiza grupului alege Clustering prin intermediul K mijloace.

    Hai să apăsăm butonul Variabileși alegeți Tot, în câmp Obiecte alege Observatii (linii), definim 4 clustere de partiții.

    Metodă K-înseamnă este următoarea: calculele încep cu k observații alese aleatoriu (în cazul nostru, k=4), care devin centrele grupurilor, după care compoziția obiectului clusterelor este modificată pentru a minimiza variabilitatea în cadrul clusterelor și maximizează variabilitatea dintre clustere.

    Fiecare observație următoare (K+1) aparține grupului a cărui măsură de similitudine cu centrul de greutate este minimă.

    După modificarea compoziției clusterului, se calculează un nou centru de greutate, cel mai adesea ca vector de medii pentru fiecare parametru. Algoritmul continuă până când compoziția clusterelor încetează să se schimbe.

    Când se obțin rezultatele clasificării, puteți calcula valoarea medie a indicatorilor pentru fiecare cluster pentru a evalua cât de mult diferă unul de celălalt.

    La fereastră Rezultatele metodei K înseamnă alege Analiza variatiei pentru a determina semnificația diferenței dintre clusterele rezultate.

    Deci valoarea lui p<0.05, что говорит о значимом различии.

    Hai să apăsăm butonul Cluster elemente și distanțe pentru a vizualiza observațiile incluse în fiecare dintre grupuri. Opțiunea vă permite, de asemenea, să afișați distanțele euclidiene ale obiectelor față de centrele (valorile medii) ale grupurilor lor respective.

    Primul cluster:

    Al doilea grup:

    Al treilea cluster:

    Al patrulea grup:

    Deci, în fiecare dintre cele patru clustere există obiecte cu un impact similar asupra procesului de pierdere.

    Pasul 3. Statistici descriptive

    Cunoașterea statisticilor descriptive în fiecare grup este cu siguranță importantă pentru orice cercetător.

    Mulți dintre noi au auzit sintagma „analiza cluster”, dar nu toată lumea înțelege ce înseamnă. În plus, sună mai mult decât misterios! De fapt, acesta este doar numele unei metode de împărțire a unui eșantion de date în categorii de elemente după anumite criterii. De exemplu, analiza cluster vă permite să împărțiți oamenii în grupuri cu stima de sine ridicată, medie și scăzută. Mai simplu spus, un cluster este un tip de obiecte care sunt similare într-un anumit fel.

    Analiza clusterelor: probleme în utilizare

    După ce ați decis să aplicați această metodă în studiul dvs., trebuie să vă amintiți că clusterele identificate în cursul său pot fi instabile. Prin urmare, ca și în cazul analizei factorilor, trebuie să verificați rezultatele pe un alt grup de obiecte sau să calculați eroarea de măsurare după o anumită perioadă de timp. Mai mult decât atât, cel mai bine este să utilizați analiza cluster pe eșantioane mari selectate prin randomizare sau stratificare, deoarece aceasta este singura modalitate de a trage o concluzie științifică folosind inducție. S-a arătat cel mai bine în a testa ipoteze, și nu în a le crea de la zero.

    Analiza clusterului ierarhic

    Dacă trebuie să clasificați rapid elemente aleatorii, atunci puteți începe prin a le trata pe fiecare dintre ele inițial ca un cluster separat. Aceasta este esența unuia dintre cele mai ușor de înțeles tipuri de analiză de cluster. Folosind-o, cercetătorul din a doua etapă formează perechi de elemente care sunt similare în caracteristica dorită și apoi le conectează împreună de numărul necesar de ori. Clusterele situate la o distanță minimă între ele sunt determinate folosind o procedură integrativă. Se repetă până când este îndeplinit unul dintre următoarele criterii:

    • obținerea unui număr preplanificat de clustere;
    • fiecare dintre clustere conține numărul necesar de elemente;
    • fiecare grup are raportul necesar de eterogenitate și omogenitate în interiorul său.

    Pentru a calcula corect distanța dintre clustere, se folosesc adesea următoarele metode:

    • comunicare unică și completă;
    • Relația rea ​​a lui King;
    • metoda centroidului;
    • luând medii de grup.

    Pentru a evalua rezultatele grupării, se folosesc următoarele criterii:

    • indice de claritate;
    • raport de împărțire;
    • entropia obișnuită, normalizată și modificată;
    • al doilea și al treilea Rubens funcțional.

    Metode de analiză a clusterelor

    Cel mai adesea, atunci când se analizează un eșantion de obiecte, se utilizează metoda distanței minime. Constă în faptul că elementele cu un coeficient de similaritate mai mare decât o valoare de prag sunt combinate într-un cluster. Când se utilizează metoda distanței locale, se disting două grupuri: distanța dintre punctele primului dintre ele este maximă, iar a doua este minimă. Metoda de grupare centroid presupune calcularea distanțelor dintre valorile medii ale indicatorilor în grupuri. Și metoda Word este folosită cel mai rațional pentru gruparea clusterelor apropiate în parametrul studiat.

Ți-a plăcut articolul? Împărtășește-l