Контакты

Сравнительный анализ методов кластерного анализа в решении задач группировки. Иерархический кластерный анализ В чем заключается процедуры кластерного анализа лапина

Введение

Глава 1. Теоретические основы анализа Big Data

1.1 О Big Data

.2 Map-Reduce

.3 Data Mining для работы с Big Data

1.4 Задачи, решаемые методами Data Mining

Вывод к первой главе

Глава 2. Кластерный анализ для Big Data

.1 Выбор метода кластеризации

.2 Иерархические методы

.3 Неиерархические методы

.4 Сравнение видов кластеризации

.5 Статистики, связанные с кластерным анализом

Вывод ко второй главе

Глава 3. Алгоритм разбиения торговых точек

.1 Профиль клиента

.2 Анализ соответствий

.3 Основная идея кластерного анализа

.4 Признаки для кластеризации

.5 Выявление однородных по местоположению точек

.5.1 Итоговое деление на страты

.6 Кластеризация объектов на однородные группы

.7 Кластеризация ассортимента торговых точек

Вывод к третьей главе

Заключение

Список литературы

Введение

Человечество в свое м развитии использует материальные, энергетические, инструментальные и информационные ресурсы. Информация о событиях прошлого, настоящего и возможного будущего представляет огромный интерес для анализа происходящего. Как говорили древние: Praemonitus praemunitus - «предупреждён - значит вооружён».

Современное развитие общества характеризуется небывалым ростом информационных потоков - в промышленности, торговле, финансовых ранках. Способность общества хранить и быстро обрабатывать информацию определяет в целом уровень развития государственности той или иной страны.

Проблема сбора, хранения и обработки информации в современном обществе уделяется огромное внимание. Однако, в настоящий момент существует явное противоречие. С одной стороны, человеческая цивилизация переживает информационный взрыв, объем информации с каждым годом увеличивается в разы. С другой стороны, рост текущего объема информации в обществе превышает индивидуальные возможности личности по ее усвоению. Наличие такой проблематики инициирует массовое развитие технологий, технических средств, коммутационных потоков.

Исключительно важная роль информации в современном мире, привела к выявлению информации как собственного ресурса, столь же важного и необходимого, как энергетические, финансовые, сырьевые ресурсы.

Потребности общества в сборе, хранении и обработке информации как товара создали новый спектр услуг - рынок информационных технологий.

Для наиболее полного и цельного использования информационных технологий, информацию нужно собирать, обрабатывать, создавать места хранения, накопления, создавать системы передачи и системы ограничения доступа, наконец, информацию нужно систематизировать. Последняя проблема наиболее актуальна в последнее время, поскольку большой, даже огромный, объем информации, поступающий в глобальные массивы хранения, без ее систематизации может привести к информационному коллапсу, когда доступ или поиск нужной информации может привести к поиску иголки в стоге сена.

Цель данной работы : Сравнительный анализ методов кластерного анализа в решении задач группировки.

Задача : Проанализировать подходы к использованию кластерного анализа в задачах типизации большого множества данных.

В ходе работы будут использованы различные методы кластерного анализа, с целью выявления преимуществ и недостатков каждого из них, а также выбора наиболее оптимального под выполнение поставленных задач. Также будет поднят главный вопрос кластерного анализа - вопрос о количестве кластеров, и будут даны рекомендации по его решению. Актуальность данной работы обусловлена острой необходимостью определения оптимальных методов обработки больших объемов данных и решения задач систематизации данных в кратчайшие сроки. Широкое практическое применение полученных посредством кластерного анализа данных и обуславливает актуальность данного исследования. Определенным аспектам такой проблематики в современном развитии информационных технологий и посвящена моя дипломная работа.

Глава 1. Теоретические основы анализа Big Data

.1 О Big Data

Термин «Big Data» характеризует совокупности данных c возможным экспоненциальным ростом, которые слишком велики, слишком неформатированы или совсем неструктурированы для анализа традиционными методами.

Технологии Big Data - серия подходов, инструментов и методов обработки структурированных и неструктурированных данных огромных объемов и значительного многообразия. Данные технологии применяются для получения воспринимаемых человеком результатов, эффективных в условиях непрерывного прироста, распределения информации по многочисленным узлам вычислительной сети. Они сформировались в конце 2000-х годов в качестве альтернативы традиционным системам управления базами данных и решениям класса Business Intelligence. В настоящее время большинство крупнейших поставщиков информационных технологий для организаций в своих деловых стратегиях используют понятие «большие данные», а основные аналитики рынка информационных технологий посвящают концепции выделенные исследования.

В настоящее время значительное количество компаний внимательно следят за развитием технологий. Согласно отчетам компании McKinsey «Global Institute, Big data: The next frontier for innovation, competition, and productivity» (Глобальный Институт, большие данные: следующий рубеж для инноваций, конкуренции и производительности), данные стали важным фактором производства наряду с трудовыми и капитальными ресурсами. Использование Big Data становится основой конкурентного преимущества и роста компаний.

В условиях современности организации и компании создают огромное количество неструктурированных данных: текст, различные документы изображения, видео, машинные коды, таблицы и тому подобное. Все эта информация размещается и хранится в множестве репозиториев, зачастую за пределами организации.

Организации могут обладать доступом к огромному массиву собственных данных, но при этом необходимых инструментов, с которыми реально было бы установить взаимосвязи между всеми этими данными и основываясь на них сделать значимые выводы, могут и не иметь. Учитывая быстрый и непрерывный рост данных, становится остро необходимым переход от традиционных методов анализа к более прогрессивным технологиям класса Big Data.

Характеристики. В современных источниках понятие Big Data определяется как данные объема в порядках терабайт. Признаки Big Data можно определить как «три V»: volume - объем; variety - разнородность, множество; velocity - скорость (необходимость очень быстрой обработки).

Рисунок 1 Признаки больших данных

· Объем. Стремительное развитие технологий и популяризация социальных сетей способствуют очень быстрому росту объемов данных. Эти данные, генерируемые как людьми, так и машинами распространяются в различных местах и форматах в огромных объемах.

· Скорость. Данный признак - это скорость генерации данных. Получение необходимых данных в кратчайшие сроки является важным конкурентным преимуществом для разработчиков решений, в том числе и потому что разные приложения имеют различные требования к задержкам.

· Разнообразие. Разнообразие можно отнести к различным форматам хранения данных. На сегодняшний день в мире генерируются значительные объемы неструктурированных данных, и это помимо структурированных данных, которые получают на предприятиях. До начала эры развития технологии Big Data совсем не было мощных и надежных инструментов в отрасли, которым было бы по силам работать с объемными неструктурированными данными, с которыми приходится видеть сегодня.

Потребление огромного количества структурированных данных, генерируемых как внутри, так и вне пределов предприятия является необходимостью для организаций в современном мире для того, дабы оставаться конкурентоспособными.

К «категории» Big data традиционно относят не только привычные электронные таблицы, но и неструктурированные данные, которые могут храниться в виде изображений, аудиофайлов, видеофайлов, веб-журналов, данных датчиков и многие другие. Разновидностью в мире больших данных и будет называться этот аспект различных форматов данных.

Ниже в рисунке 2 находится сравнительная характеристика традиционной базы и базы Big Data.

Существуют некоторое количество отраслей, данные в которых собираются и накапливаются весьма интенсивно. Для приложений такого класса, в которых есть необходимость хранения данных годами, накопленные данные классифицируются как Extremely Big Data.

Отмечается также рост числа приложений Big Data в коммерческих и государственных секторах, объем данных такого рода приложений находится в хранилищах и зачастую составляет сотни петабайт.

Рисунок 2 Сравнительные характеристики данных

Развитие определенных технологий делает возможным «отслеживание» людей, их привычек, интересов и потребительского поведения различными методами. В качестве примера можно привести использование интернета в целом и в частности - покупки в Интернет-магазинах, таких как Walmart (по данным Википедии, хранилище данных Walmart оценивается более чем в 2 петабайт), или путешествуем и перемещаемся с мобильными телефонами, совершаем звонки, пишем письма, делаем фотографии, заходим в аккаунты в социальных сетях из различных точек планеты - все это накапливается в базах данных и может быть полезно использовано благодаря быстрой обработке больших данных.

Аналогичным образом, современные медицинские технологии генерируют большие объемы данных, относящиеся к оказанию медицинской помощи (изображения, видео, мониторинг в реальном времени).

Источники больших данных. Подобно тому, как изменились форматы хранения данных, источники данных также эволюционировали и постоянно расширяются. Необходимо хранить данные в широком разнообразии форматов.

С развитием и продвижением технологии объем данных, которые генерируются, постоянно растет. Источники больших данных можно разделить на шесть различных категорий, как показано ниже.

Рисунок 3 Источники больших данных

· Данные предприятия. На предприятиях в разных форматах имеются большие объемы данных. Общие форматы включают плоские файлы, электронные письма, документы Word, электронные таблицы, презентации, HTML-страницы, документы PDF, XML-файлы, устаревшие форматы и т. д. Эти данные, распространяемые по всей организации в разных форматах, называются корпоративными данными .

· Транзакционные данные. Каждое предприятие имеет свои приложения, которые включают в себя выполнение различных видов транзакций, таких как веб-приложения, мобильные приложения, CRM-системы и многие другие.

Для поддержки транзакций в этих приложениях в качестве базовой инфраструктуры обычно используется одна или несколько реляционных баз данных. В основном это структурированные данные и называются транзакционными данными.

· Социальные медиа. В социальных сетях, таких как Twitter, Facebook и многие другие, генерируются большое количество данных. Обычно в социальных сетях используются неструктурированные форматы данных, в том числе текст, изображения, аудио, видео. Эта категория источников данных называется социальной СМИ .

· Activity Generate. Сюда входят данные из медицинских устройств, цензурные данные, видео наблюдения, спутники, башни сотовых телефонов, промышленное оборудование и другие данные, генерируемые в основном машинами. Эти типы данных называются данными Activity Generate .

· Публичные данные. Эти данные включают в себя данные, которые общедоступны, как данные, публикуемые правительствами, данные исследований, публикуемые научно-исследовательскими институтами, данные метеорологических и метеорологических отделов, данные переписи, Википедия, образцы данных с открытым исходным кодом и другие данные, которые свободно доступны для общественности. Этот тип общедоступных данных называется Public Data .

· Архив. Организации архивируют много данных, которые либо больше не требуются, либо очень редко требуются. В сегодняшнем мире, когда оборудование дешевеет, ни одна организация не хочет удалять какие-либо данные, они хотят хранить как можно больше данных. Этот тип, к которым менее часто обращаются, называется архивными данными.

Примеры реализации. В качестве примера реализации данной технологии чаще всего приводится проект Hadoop, который разработан для осуществления распределенных вычислений, используемых для обработки внушительных объемов данных.

Этот проект разрабатывается в рамках Apache Software Foundation. Компания Cloudera поддерживает данный проект в коммерческом плане.

В качестве участников в проект привлечены разработчики из различных стран мира. информация кластеризация провайдер

Технологически Apache Hadoop можно назвать свободным Java-фреймворком, который поддерживает выполнение распределенных приложений, работающих на больших кластерах, построенных на стандартном оборудовании.

Так как обработка данных выполняется на кластере серверов, в случае выхода из строя одного из них, работа будет перераспределена между другими работающими.

Также необходомо сказать о реализации в Hadoop технологии MapReduce, основной задачей которой является автоматическое распараллеливание данных и их обработку на кластерах.

Ядром Hadoop является отказоустойчивая распределенная файловая система HDFS (Hadoop Distributed File System), оперирующая системами хранения.

Суть системы в разбитии входящих данных на блоки, для которых есть специально отведенная позиция в пуле серверов для каждого из них. Система делает возможным для приложений масштабироваться. Уровнем будут тысячи узлов и петабайты данных.

1.2 Map-Reduce

В данном пункте речь пойдет об алгоритме Map-Reduce, который является моделью для распределенных вычислений.

В основе принципов его работы лежит распределение входных данных на рабочие узлы распределенной файловой системы для предварительной обработки (map-шаг) и, затем следует свертка (объединение) заранее обработанных данных (reduce-шаг).

Алгоритм вычисляет промежуточные суммы каждого узла распределенной файловой системы, затем вычисляет сумму промежуточных значений и получает итоговую сумму.

Магический квадрант провайдеров решений в области систем управления хранилищами данных (Gartner, февраль 2017)

Рисунок 4 Лидеры

Компании:

· Лидеры: IBM, SAS, RapidMiner, KNIME

· Претенденты: MathWorks, Quest (ранее Dell), Alteryx, Angoss

· Вижуанарии: Microsoft, H2O.ai, Dataiku, Domino Data Lab, Alpine Data

· Нишевые игроки: FICO, SAP, Teradata

1.3 Data Mining для работы с Big Data

Data Mining (DM) - “Это технология, которая предназначена для поиска в больших объемах данных неочевидных, объективных и полезных на практике закономерностей”.

Особенностью Data Mining можно назвать сочетание широкого математического инструментария (от классического статистического анализа до новых кибернетических методов) и последних достижений в сфере информационных технологий.

Данная технология объединяет строго формализованные методы и методы неформального анализа, т.е. количественный и качественный анализ данных.

.4 Задачи, решаемые методами Data Mining

· Корреляция - установление статистической зависимости непрерывных выходных от входных переменных.

· Кластеризация - это группировка объектов (наблюдений, событий) на основе данных (свойств), описывающих сущность этих объектов. Объекты внутри кластера обязаны быть "похожими" друг на друга и при этом иметь отличия от объектов, попавших в другие кластеры.

Точность кластеризации будет выше если объекты внутри кластера максимально похожи, а кластеры максимально различаются.

· Классификация - это отнесение объектов (наблюдений, событий) к одному из заранее известных классов.

· Ассоциация - выявление закономерностей между связанными событиями. Примером такой закономерности служит правило, указывающее, что из события X следует событие Y. Такие правила называются ассоциативными.

Вывод к первой главе

Большие данные - это не очередной ажиотаж на ИТ-рынке, это системный, качественный переход к составлению цепочек ценностей, основанных на знаниях.

По эффекту его можно сравнить с появлением доступной компьютерной техники в конце прошлого века.

В то время как недальновидные консерваторы будут применять глубоко устаревшие подходы, предприятия, уже сейчас использующие технологии Big Data, в будущем окажутся на лидирующих позициях и получат конкурентные преимущества на рынке. Нет никаких сомнений в том, что все крупные организации в ближайшие годы внедрят эту технологию, так как за ней как настоящее, так и будущее.

Глава 2. Кластерный анализ для Big Data

Кластерный анализ представляет собой класс методов, которые используются для классификации объектов или событий в достаточной степени однородные группы, которые и будут называться кластерами .

Принципиальным будет то, что объекты в кластерах обязаны быть похожими между собой, но при этом обязательно отличаться от объектов, находящихся в других кластерах.

На рисунке 5 проиллюстрирована идеальная ситуация кластеризации, каждых из кластеров четко отделены на основании различий двух переменных: ориентация на качество (X), и чувствительность к цене (Y),

Рисунок 5 Идеальная ситуация кластеризации

Необходимо отметить, что абсолютно каждый потребитель попадает в какой-либо из кластеров, и перекрывающихся областей нет.

Однако, на иллюстрации снизу показана ситуация кластеризации, наиболее часто встречающаяся на практике.

В соответствии с данными рисунка 6 границы кластеров очерчены крайне нечетко, и не совсем очевидно какие потребители в какой кластер отнесены, так как солидную часть из них невозможно сгруппировать в тот или иной кластер.

Рисунок 6 Реальная ситуация кластеризации

В кластерном анализе группы, либо же кластеры выявляются при помощи собранных актуальных данных, а не заранее. Таким образом - нет абсолютно никакой необходимости в подготовке предварительной информации о кластерной принадлежности какого-либо из объектов.

Сегментация рынка . К примеру, потребителей следует поделить на кластеры, основываясь на выгодах, ожидаемых ими от покупки данного товара. Кластер может содержать потребителей, ищущих схожие выгоды.. Такой метод и принято называть методом сегментаций преимуществ.

Понимание поведения покупателей . Использование кластерного анализа в случае необходимости идентификации однородных категорий покупателей.

Определение возможностей нового товара . Определение конкурентоспособных групп и наборов в рамках данного рынка также проводится посредством кластеризации торговых марок и товаров.

Выбор тестовых рынков . Подборка подобных городов с целью проверки многочисленных маркетинговых стратегий выполняется посредством группировки городов в однородные кластеры.

Сокращение размерности данны х. Кластерный анализ также применяется в качестве основного инструмента уменьшения размерности данных при создании кластеров или подгрупп данных, в большей степени удобных для анализа, чем отдельные наблюдения. Далее проводимый многомерный анализ производится над кластерами, а не над отдельными наблюдениями.

2.1 Методы кластеризации

Существует два типа методов кластеризации: иерархические и неиерархические .

Рисунок 7 Методы кластерного анализа

.2 Иерархические методы

Иерархические методы делятся на два типа - агломеративные и дивизивные.

Агломеративная кластеризация берет начало с каждого объекта в отдельном кластере. Объекты группируются во все более крупные кластеры. Этот процесс будет идти до тех пор, пока все объекты не станут членами одного единственного кластера.

Также следует выделить дивизивную кластеризацию, которая берет начало со всех объектов, являющихся сгруппированными в единственном кластере. Кластеры будут делить пока каждый объект не окажется в отдельном кластере. Чаще всего для исследований берутся агломеративные методы , такие как методы связи, а также дисперсионные и центроидные.

Методы связи включают метод одиночной связи, метод полной связи и метод средней связи . Методы связи - агломеративные методы иерархической кластеризации, которые объединяют объекты в кластер, исходя из вычисленного расстояния между ними.

Рисунок 8 Метод одиночной связи

В основе метода одиночной связи лежит минимальное расстояние, или правило ближайшего соседа (формула 1) .

При формировании кластера первыми объединяют два объекта, расстояние между которыми минимально. Далее определяют следующее по величине самое короткое расстояние, и в кластер с первыми двумя объектами вводят третий объект.

На каждой стадии расстояние между двумя кластерами представляет собой расстояние между их ближайшими точками. На любой стадии два кластера объединяют по единственному кратчайшему расстоянию между ними.

Этот процесс продолжают до тех пор, пока все объекты не будут объединены в кластер. Если кластеры плохо определены, то метод одиночной связи работает недостаточно хорошо.

Рисунок 9 Метод полной связи

В основе метода полной связи лежит максимальное расстояние между объектами, или правило дальнего соседа. В методе полной связи расстояние между двумя кластерами вычисляют как расстояние между двумя их самыми удаленными точками.

Рисунок 10 Метод средней связи

В методе средней связи расстояние между двумя кластерами определяется как среднее значение всех расстояний, измеренных между объектами двух кластеров, при этом в каждую пару входят объекты из разных кластеров. Метод средней связи использует информацию обо всех расстояния между парами, а не только минимальное или максимальное расстояние. По этой причине обычно предпочитают метод средней связи, а не методы одиночной или полной связи.

Дисперсионные методы формируют кластеры таким образом, чтобы минимизировать внутрикластерную дисперсию.

Рисунок 11 Метод Варда

Широко известным дисперсионным методом, используемым для этой цели, является метод Варда , в котором кластеры формируют таким образом, чтобы минимизировать квадраты евклидовых расстояний до кластерных средних.

Для каждого кластера вычисляют средние всех переменных. Затем для каждого объекта вычисляют квадраты евклидовых расстояний до кластерных средних.

Эти квадраты расстояний суммируют для всех объектов. На каждой стадии объединяют два кластера с наименьшим приростом в полной внутрикластерной дисперсии.

Рисунок 12 Центроидный метод

В центроидных методах расстояние между двумя кластерами представляет собой расстояние между их центроидами (средними для всех переменных).

Центроидный метод - это дисперсионный метод иерархической кластеризации. Каждый раз объекты группируют и вычисляют новый центроид.

Метод Варда и средней связи показывают лучшие результаты из всех иерархических методов.

2.3 Неиерархические методы

Иным типом процедур кластеризации являются неиерархические методы кластеризации, зачастую называемые методом k-средних. Метод k-средних (k-means clustering) - метод, определяющий центр кластера, а в следующую очередь группирует все объекты в пределах заданного от центра порогового значения. Эти методы включают последовательный пороговый метод, параллельный пороговый метод и оптимизирующее распределение.

где k - число кластеров, _{i}} - полученные кластеры, i=1,2,…,k

Центры масс векторов .

Рисунок 13 Пример работы алгоритма k-средних (k=2)

В последовательном пороговом методе группируются вместе объекты, которые находятся в пределах порогового значения с заданным центром.

Следующим этапом определяется новый кластерный центр, а данный процесс будет повторен для несгруппированных точек. После помещения объекта в кластер, имеющим новый центр, он уже не будет рассматриваться в качестве объекта для дальнейшей кластеризации.

По схожей схеме работает параллельный пороговый метод , но он имеет одно важное отличие - одновременно выбираются несколько кластерных центров и объекты, находящиеся в пределах порогового уровня группируются с ближайшим центром.

Метод оптимизирующего распределения будет иметь отличия от двух предыдущих пороговых методов в том, что объекты возможно впоследствии поставить в соответствие другим кластерам (перераспределить), в целях оптимизации суммарного критерия, которым является среднее внутри кластерное расстояние, установленное для данного числа кластеров.

Алгоритм BIRCH благодаря обобщенным представлениям кластеров, скорость кластеризации увеличивается, алгоритм при этом обладает большим масштабированием. В этом алгоритме реализован двухэтапный процесс кластеризации.

Первый этап заключается в формировании предварительного набора кластеров. Следующий этап заключается в применении к выявленным кластерам других алгоритмов кластеризации, которые были бы пригодны в работе с оперативной памятью.

Представим себе каждый элемент данных в качестве бусины, которая лежит на поверхности стола, то данные кластеры абсолютно реально "заменить" теннисными шариками и в дальнейшем перейти к изучению кластеров теннисных шариков более детально.

Количество бусин может быть достаточно большим, но диаметр теннисных шариков реально так подобрать, чтобы на втором этапе, применяя традиционные алгоритмы кластеризации, стало возможным определить действительную сложную форму кластеров.

Среди новых масштабируемых алгоритмов также можно отметить алгоритм CURE - алгоритм иерархической кластеризации, где понятие кластера формулируется с использованием концепции плотности. Над масштабируемыми методами сейчас активно работают многие исследователи, основная задача которых - преодолеть недостатки алгоритмов, существующих на сегодняшний день.

2.4 Сравнение видов кластеризации

В таблице перечислены достоинства и недостатки таких методов, как: Алгоритм CURE, BIRCH, MST, k-средних (k-means), PAM, CLOPE, Самоорганизующиеся карты Кохонена, HCM (Hard C - Means), Fuzzy C-means.

2.5 Статистики, связанные с кластерным анализом

Следующие статистики и понятия связаны с кластерным анализом:

1. Кластерный центроид . Среднее значение переменных для всех случаев или объектов в конкретном кластере.

2. Кластерные центры . Исходные начальные точки в неиерархической кластеризации. Кластеры строят вокруг этих центров, или зерен кластеризации.

3. Принадлежность кластеру . Указывает кластер, которому принадлежит каждый случай или объект.

4. Древовидная диаграмма - графическое средство для показа результатов кластеризации. Вертикальные линии представляют объединяемые кластеры. Положение вертикальной линии на шкале расстояния показывает расстояния, при которых объединяли кластеры. Такую диаграмму читают слева направо.

5. Показатель вариации. Проверка качества кластеризации.Отношение стандартного отклонения к среднему значению.

7. Сосульчатая диаграмма . Это графическое отображение результатов кластеризации.

8. Матрица сходства/матрица расстояний между объединяемыми объектами - это нижняя треугольная матрица, содержащая значения расстояния между парами объектов или случаев

Вывод ко второй главе

Кластерный анализ поистине можно назвать удобнейшим и самым оптимальным инструментом выделения сегментов рынка. Использование данных методов стало особенно актуально в век высоких технологий, в который так актуально ускорить трудоемкие и длительные процессы при помощи технологий. Переменные, используемые в качестве основания для кластеризации, правильным будет выбирать, опираясь на опыт предыдущих исследований, теоретических предпосылок, различных проверенных гипотез, а еще исходя из пожеланий исследователя. Помимо этого, рекомендуется взять соответствующую меру сходства. Отличительной особенностью иерархической кластеризации является разработка иерархической структуры. Существуют и используются два типа иерархических методов кластеризации - агломеративные и дивизивные.

Агломеративные методы включают в себя: метод одиночной, полной и средней связи. Самым распространенным дисперсионным методом является метод Барда. Неиерархические методы кластеризации часто называют методами k-means. Выбор метода кластеризации и выбор меры расстояния взаимосвязаны. В иерархической кластеризации важным критерием принятия решения о числе кластеров являются расстояния, при которых происходит объединение кластеров. Относительные размеры кластеров должны быть такими, чтобы имело смысл сохранить данный кластер, а не объединить его с другими. Кластеры интерпретируют с точки зрения кластерных центроидов. Часто интерпретировать кластеры помогает их профилирование через переменные, которые не лежали в основе кластеризации. Надежность и достоверность решений кластеризации оценивают разными способами.

Глава 3. Алгоритм разбиения торговых точек

В качестве исследуемого объекта взято торговое предприятие, имеющее 36 651 торговую точку, реализующую кондитерскую продукцию. В списке реализуемых предприятием товаров свыше 350 единиц продукции.

Целью данного исследования будет сравнительный анализ методов кластерного анализа в решении задач:

Изучение профиля клиента и анализ соответствия взаимосвязей заданных признаков;

2. Разделение на кластеры - выделение однородных групп;

Разбиение на однородные группы ассортимента торгового предприятия.

.1 Профиль клиента

По данным исследования Galileo, проведенного во втором полугодии 2016 года, было опрошено около 42 миллионов людей, употребляющих кондитерские изделия.

Из этого опроса следует, что основными потребителями кондитерских изделий являются женщины.

Это можно связать с тем, что женщины традиционно получают в качестве подарка шоколадные изделия, а также большая часть любителей кондитерских изделий - женщины. Это наглядно можно увидеть на рисунке 10.

· до 16 лет - основные потребители шоколада в виде фигур;

· от 16 до 24 лет - основные потребители шоколадных батончиков;

· шоколад в плитке в большинстве случаев приобретается женщинами от 25 до 34 лет;

· люди от 25 до 45 лет - основные покупатели конфет в коробках;

· От 45 и старше предпочитают развесные конфеты.

Рисунок 14 Потребление кондитерских изделий в зависимости от пола

На рисунке 12 изображено распределение общего объема потребления на 3 группы, в зависимости от достатка: А-низкий, В-средний, С-высокий. Львиная доля потребителей приходится на группу со средним достатком - 54%, затем следует группа с низким достатком - 29%, наименьший вклад вносит группа с высоким доходом - 17%.

Рисунок 15 Потребление кондитерских изделий в зависимости от дохода

Данный график иллюстрирует предпочтения аудитории в выборе места покупки, рассмотрим также распределение в зависимости от дохода. Очевидно, что наибольшее число покупок совершается в гипер и супермаркетах, что справедливо по отношению к каждой из доходных групп.

Доля покупок в супермаркетах составляет практически половину (46%) для группы С, исходя из чего можно сделать вывод о целесообразности расширения линейки товаров, популярных среди людей с высоким достатком.

На людей со средним достатком приходится 41% покупок в супермаркетах, а на людей с низким достатком самая маленькая доля - 37%. Далее идет доля покупок в небольших магазинах самообслуживания, покупки в таких магазинах совершают все три группы в равных пропорциях. Наименьшая доля приходится на рынки и ларьки, там основной вклад вносят представители группы А, которая включает в себя большое количество пенсионеров, которые зачастую совершают покупки на рынке «по привычке».

Рисунок 16 Места покупок кондитерских изделий в зависимости от дохода

Следующий график наглядно иллюстрирует степень важности того или иного признака товара для каждой из трех доходных групп. Для групп А и В наиболее важным фактором является цена, а внешний вид упаковки и страна производства товара имеет небольшое значение. Поведение представителей группы с высоким доходом будет немного отличаться, там, помимо цены, важное значение имеет бренд и внешний вид и страна производства товара.

Рисунок 17 Приоритеты при выборе кондитерских изделий различных доходных групп

.2 Анализ соответствий

Анализ соответствий используется для визуализации таблиц. Этот метод позволяет выявить взаимосвязь между признаками в столбцах и строках таблицы.

Рассмотрим далее проведенный анализ соответствий потребления кондитерских изделий по полу и возрасту, проиллюстрированный на рисунке 7, а также рисунок 8, на котором показано потребление различных категорий продукции в зависимости от дохода потребителей.

Сперва рассмотрим предпочтения трех групп мужчин: в возрасте 16-19 лет, 20-24 и 25-34, так как их потребительские предпочтения можно охарактеризовать как практически идентичные.

Рисунок 18 Анализ соответствий популярных конфет по возрасту и полу

Мужчины этих возрастных групп предпочитают шоколадные батончики Snickers, Mars, Nuts, Twix, Picnic, Kinder bueno и конфеты M&m’s. Продукция такого типа относится к категории «Шоколадные батончики и другой шоколад в мелкой упаковке» и в наибольшей степени будут популярны среди лиц с низким доходом.

Далее следуют четыре оставшиеся возрастные группы мужчин: 35-44, 45-54, 55-64, 65-74. Для них также будет характерно примерно одинаковое потребительское поведение и они являются крайне пассивными потребителями. Для этих групп будет справедливо утверждение, что с ростом уровня дохода обратно пропорционально будет изменяться уровень потребления, то есть среди мужчин в возрасте 35-74, имеющих высокий доход, будет наиболее низкая потребительская активность.

Очевидно, что ниша включающая в себя платежеспособных мужчин 35-74 является весьма перспективной и при этом незанятой, но существующий набор товаров не способен удовлетворить запросы этой категории потребителей. Исходя из вышесказанного, можно сделать ввод, что имеет смысл воздействовать на данную целевую аудиторию каким-то абсолютно новым продуктом, способным привлечь потребителей.

Следующим этапом будет описание групп женщин в возрасте 16-19, 20-24, 25-34, которые имеют схожее потребительское поведение. Упомянутые группы, как правило, предпочитают шоколадные батончики, часть из них будут аналогичны тем, что предпочитают мужчины такого же возраста - Picnic, Twix, Nuts и др., а также среди женщин высокую популярность имеют батончики Tempo, bounty, Kit Kat, Milky way, Kinder country, обыкновенное чудо.

Для этих групп также будет справедливо правило низкого дохода, по мере его увеличения популярность шоколадных батончиков будет снижаться. Далее следует группа женщин 35-44, для них самым популярным выбором является Alpen Gold, затем Geisha и мини-торт причуда, это утверждение справедливо для лиц с низким и средним доходом, в равной степени. По мере увеличения возраста предпочтительными становятся (группы 45-54, 55-64, 65-74): Аленка, Коровка, Сладко, конфеты группы “Крупской” и другие отечественные. Наиболее справедливо это по отношению к лицам со средним доходом. Оценивая потребление кондитерских изделий в целом, нужно отметить, что 2/3 всего потребления приходится на женскую долю населения.

.3 Основная идея кластерного анализа

Перед применением алгоритма кластеризации все торговые точки разбиваются на стратам. Алгоритм применяется отдельно к каждой из полученных страт. Полученные для отдельных групп кластеры затем объединяются в один итоговый набор кластеров.

Опишем детали алгоритма кластеризации. Обозначим количество торговых точек, к которым применяется алгоритм, через , множество торговых точек через , евклидову метрику через , количество признаков через . Количество признаков и, как следствие, их количество зависят от страты.

Прежде всего, значения всех признаков стандартизируются. Стандартизация - это преобразование признака путём вычитания его среднего значения и деления на его стандартное отклонение. Среднее значение и стандартное отклонение вычисляются один раз по данным, по которым делается кластеризации, и являются частью модели кластеризации.

В качестве алгоритма кластеризации мы используем алгоритм KMeans. Этот алгоритм требует задания количества кластеров и количества инициализаций итерационного процесса кластеризации (или начальных центроидов). Количество инициализаций зависит от имеющегося в нашем распоряжении времени на кластеризацию. Для определения количества кластеров мы применяем алгоритм KMeans с количеством кластеров от 2 до 75. Обозначим получающиеся при этом модели кластеризации через , а центроиды через . Для каждого мы определяем меру внутрикластерного разброса

Можно рассмотреть модель кластеризации для случая . В этом случае есть лишь один центроид , определяемый как поэлементное среднее всех . Получающаяся в этом случае мера внутрикластерного разброса называется мерой полного разброса торговых точек:

Отношение

можно интерпретировать, как долю необъяснённых различий между торговыми точками внутри кластеров. Это отношение убывает с ростом . Мы определяем оптимальное количество кластеров как


Другими словами, мы выбираем такое минимально количество кластеров, чтобы доля необъяснённых различий составляла не более 20%.

Примечание . Вместо значения 0.2 можно взять любое значение от 0 до 1. Выбор зависит от ограничений на количество кластеров, а также от вида графика зависимости отношения от . Однако, если максимально допустимая доля необъяснённых различий задана до начала кластеризации, то для поиска не обязательно строить кластерные модели для всех от 2 до 75. Можно применить метод бинарного поиска, что существенно повышает скорость кластеризации.

В результате выполнения кластеризации мы получаем следующие компоненты полной модели кластеризации:

· - средние значения признаков для страты и типа ;

· - стандартные отклонения признаков для страты и типа ;

· - оптимальное количество кластеров для страты и типа ;

· - модель кластеризации, полученная при оптимальном количестве кластеров, для страты и типа .

Алгоритм применения полной модели кластеризации состоит в следующем. Пусть есть торговая точка типа , относящаяся к страте , заданная вектором признаков . По вектору определяем вектор с элементами

К полученному вектору применяем модель кластеризации . В результате получаем номер кластера . Таким образом, «номер кластера» в рамках полной модели кластеризации, состоит из трёх частей:

· страта;

· номер кластера согласно модели кластеризации для страты и типа (всюду далее этот номер будет называться просто номером кластера).

3.4 Признаки для кластеризации

Для кластеризации необходимо составить список признаков, описывающих торговые точки. Для характеристики торговых точек использовались показатели:

· Расстояния до мест притяжения населения (далее МПН);

· Конкурентная среда. Расстояние до объектов транспортной инфраструктуры и других торговых точек KA-сетей и не KA-сетей (определяются расстояния до ближайшего объекта и количество объектов в радиусе 1000 метров);

· Платёжеспособность населения в окрестности торговой точки.

Формально, к признакам также относятся страта и тип торговой точки. Однако, кластеризация по этим признакам не проводится.

Список признаков для торговых точек:

) доход населения (income );

2) средняя стоимость 1 квадратного метра жилья (sqm _ price ;);

) средняя стоимость аренды однокомнатной квартиры (rent _ price ) ;

) количество МПН произвольного типа в радиусе 1000 метров (num _ in _ radius _ mpn _ all );

) количество торговых точек не KA-сетей в радиусе 1000 метров (num _ in _ radius _ tt );

) количество торговых точек KA-сетей в радиусе 1000 метров (num _in_ radius _ ka );

) количество ж/д станций в радиусе 1000 метров (num _ in _ radius _ railway _ station );

) количество станций метро в радиусе 1000 метров (поле num _ in _ radius _ subway _ station );

) количество остановок наземного общественного транспорта в радиусе 1000 метров (num _ in _ radius _ city );

) расстояние до ближайшего МПН произвольного типа (dist _ to _ closest _ mpn );

) расстояние до ближайшей ж/д станции (pts_railway_station_d01_distance );

) расстояние до ближайшей станции метро (pts_subway_station_d01_distance );

) расстояние до ближайшей остановки наземного общественного транспорта (pts_city_d01_distance );

) расстояние до ближайшей торговой точки не KA-сети (tt_to_tt_d001_distance );

) расстояние до ближайшей торговой точки KA-сети (ka_d01_distance );

3.5 Выявление однородных по местоположению точек

В рамках подготовки данных было проведено деление всех данных на однородные страты по численности населения. Это необходимо для выполнения в дальнейшем качественной кластеризации. При делении на страты был применён метод сравнения средних. Качество разбиения проверялось по степени различия между стратами на основании непараметрического дисперсионного анализа. Результаты применения приведены ниже:

1. Доход населения . Гипотеза о равенстве дохода для 4 страт отвергалась (смотри таблицу 1).

Таблица 1 Гипотеза о доходе населения


Как видно из рисунка 20 заметна разница в среднем значение дохода. В первой страте существенно выше, чем в остальных. Наименьший доход отмечен в четвертой страте.

Рисунок 20 Сравнения между стратами (доход населения)

2. Средняя стоимость одного квадратного метра жилья . Гипотеза о равенстве стоимости 1 кв. метра жилья для 4 страт отвергалась (смотри таблицу 2).

Таблица 2. Гипотеза о средней стоимости 1кв.метра жилья


Как видно из рисунка 21 заметна разница в среднем значение стоимости 1 кв. метра жилья. В первой страте существенно выше, чем в остальных. Наименьшее значение во второй страте. В 3 и 4 страте примерно одинаковая стоимость.

Рисунок 21 Сравнения между стратами (стоимость 1кв.метра жилья)

3. Средняя стоимость аренды однокомнатной квартиры . Гипотеза о равенстве стоимости аренды для 4 страт отвергалась (смотри таблицу 3).

Таблица 3 Гипотеза о средней стоимости аренды


Как видно из рисунка 22 заметна разница в среднем значение стоимости аренды жилья. В первой страте существенно выше, чем в остальных. Наименьшее значение во второй страте.

Рисунок 22 Сравнения между стратами (средней стоимость аренды жилья)

4. Количество МПН произвольного типа в радиусе 1000 метров . Гипотеза для 4 страт отвергалась (смотри таблицу 4).

Таблица 4 Гипотеза о количестве МПН


Как видно из рисунка 23 заметна разница в среднем значение количества МПН. В первой страте существенно выше, чем в остальных. Наименьшее количество МПН в четвертой страте.

Рисунок 23 Сравнения между стратами (количество МПН)

5. Количество торговых точек не KA -сетей в радиусе 1000 метров . Гипотеза для 4 страт отвергалась (смотри таблицу 5).

Таблица 5 Гипотеза о количестве торговых точек не КА-сетей


Как видно из рисунка 24 заметна разница в средних значениях. Во второй страте среднее значение существенно выше, чем в остальных. Наименьшее значение в четвертой страте.

Рисунок 24 Сравнения между стратами (Количество ТТ не KA-сетей)

6. Количество торговых точек KA -сетей в радиусе 1000 метров . Гипотеза для 4 страт отвергалась (смотри таблицу 6).

Таблица 6 Гипотеза о количестве торговых точек КА-сетей


Как видно из рисунка 25 заметна разница в средних значениях.

Во второй страте среднее значение выше, чем в остальных, а наименьшее в четвертой страте.

Рисунок 25 Сравнения между стратами (Количество ТТ KA-сетей)

. Количество ж/д станций в радиусе 1000 метров . Гипотеза для 4 страт отвергалась (смотри таблицу 7).

Таблица 7 Гипотеза о количестве ж/д станций


Как видно из рисунка 26 заметна разница в средних значениях.

В первой страте среднее значение выше, чем в остальных.

Наименьшее количество ж/д станций в третьей и четвертой страте.

8. Количество остановок наземного общественного транспорта в радиусе 1000 метров. Гипотеза для 4 страт отвергалась (смотри таблицу 8).

Таблица 8 Гипотеза о количестве остановок наземного транспорта


Как видно из рисунка 27 заметна разница в средних значениях. В первой страте среднее значение выше, чем в остальных, наименьшее значение в 4 страте.

Рисунок 27 Сравнения между стратами (количестве остановок наземного транспорта)

9. Расстояние до ближайшего МПН произвольного типа. Гипотеза для 4 страт отвергалась (смотри таблицу 9).

Таблица 9 Гипотеза о расстоянии до ближайшего МПН


Как видно из рисунка 28, заметна разница в средних значениях. В четвертой страте среднее значение выше, чем в остальных. Наименьшее значение отмечено в первой и второй страте.

Рисунок 28 Сравнения между стратами (количестве остановок наземного транспорта)

. Расстояние до ближайшей ж/д станции . Гипотеза для 4 страт отвергалась (смотри таблицу 10).

Таблица 10 Гипотеза о расстоянии до ближайшей ж/д станции


Как видно из рисунка 29 заметна разница в средних значениях. В четвертой страте среднее значение выше, чем в остальных. Наименьшее значение отмечено в первой страте.

Рисунок 29 Сравнения между стратами (расстояние до ближайшей ж/д станции)

11. Расстояние до ближайшей станции метро . Гипотеза для 4 страт отвергалась (смотри таблицу 11).

Таблица 11 Гипотеза о расстоянии до станции метро


Как видно из рисунка 30, заметна разница в средних значениях. Во второй, третье и четвертой страте среднее значение выше, а наименьшее значение отмечено в первой страте.

Рисунок 30 Сравнения между стратами (расстояние до ближайшей станции метро)

12. Расстояние до ближайшей остановки наземного общественного транспорта. Гипотеза для 4 страт отвергалась (смотри таблицу 12).

Таблица 12 Гипотеза о расстоянии до ближайшей останове наземного транспорта


Как видно из рисунка 31 заметна разница в средних значениях. В четвертой страте среднее значение выше, а наименьшее значение отмечено в 1 страте.

Рисунок 31 Сравнения между стратами (расстояние до ближайшей останове наземного транспорта)

13. Расстояние до ближайшей торговой точки не KA -сети. Гипотеза для 4 страт отвергалась (смотри таблицу 12).

Таблица 13 Гипотеза о расстоянии до ближайшей торговой точки не КА-сети


Как видно из рисунка 32 заметна разница в средних значениях. В третьей страте среднее значение выше, а наименьшее значение отмечено в первой, второй и третьей страте.

Рисунок 32 Сравнения между стратами (расстоянии до ближайшей торговой точки не КА-сети)

14. Расстояние до ближайшей торговой точки KA -сети

Таблица 14 Гипотеза о расстоянии до ближайшей торговой точки КА-сети


Как видно из рисунка 33 заметна разница в средних значениях. В третьей страте среднее значение выше, а наименьшее значение отмечено в первой, второй и третьей страте.

Рисунок 33 Сравнения между стратами (расстояние до ближайшей торговой точки КА-сети)

Таким образом, в итоге были получены результаты схожести страт (см. таблицу 15).

Таблица 15 Сравнение между стратами

.5.1Итоговое деление на страты

В итоге было выбрано разбиение на 4 страты с отнесением городов сателлитов к основным городам. Страту (поле pop _ strata ) определяем мы по численности населения в населённом пункте, в котором находится торговая точка.

· 1 страта - крупные города, с численностью населения более 1 миллиона человек;

· 2 страта - города, с численностью населения более 250 тысяч человек и до 1 миллиона человек;

· 3 страта - города, с численностью населения более 100 тысяч человек и менее 250 тысяч человек;

· 4 страта - города, с численностью населения менее 100 тысяч человек.

.6 Кластеризация объектов на однородные группы

Для выделения ТТ со схожим местоположением проведем кластеризацию объектов (для каждой из страт). Перед применение кластеризации необходимо выделить более однородные торговые точки по местоположению. Для определения качества разбиения на кластеры был использован показатель вариации. В результате 36 651 торговых точек были поделены на 15 кластеров (36 598 торговых точек) + 16-ый кластер состоит из 53 аномальных точек. Под аномальными подразумеваем точки с очень высокими продажами.

Для характеристики кластеров использовались следующие 7 показателей из описательной статистики:

· Минимум, наименьшее значение продаж;

· Процентиль 5%;

· Процентиль 25%;

· Медиана, это точка на шкале измеренных значений продаж, выше и ниже которой лежит по половине всех измеренных значений продаж;

· Процентиль 75%;

· Процентиль 95%;

· Максимум, наибольшее значение продаж.

Таблица 16 Итоговое разбиение на кластеры

В таблице 1 можно наглядно увидеть итоговое распределение кластеров внутри страт. Самое большое количество торговых точек относятся к четвертой страте, а самое маленькое к третей страте.

· Страта 1. Для первой страты (4402 торговых точек) путем применения метода к-средних (глава 2 пункт 2.3) было получено оптимальное разбиение на 4 кластера по 15 признакам. Количество кластеров выбрано на основании оптимизации критерия Акаике.

· 1-й кластер - включает в себя такие торговые точки, чьи районы близки к центру крупных городов, или точки, находящиеся в торговых центрах.

Профиль кластера : Данный кластер характеризует значительное количество мест притяжения населения (МПН), высокая концентрация торговых зон и развитая инфраструктура.

Рисунок 34 Доля кластеров в первой страте

Составляет 61,5% процент от общей реализации страты. В кластере 2708 торговых точек. Среднемесячные продажи в торговых точках данного кластера оцениваются в диапазоне от 3 до 7 тысяч рублей. Усредненный показатель дохода населения равен 34-36 тысячам рублей, что является выше среднего и опережает большую часть остальных кластеров по данному показателю.

Средняя стоимость 1 квадратного метра жилья будет равняться 63 - 64 тысячам рублей, что можно назвать средним показателем. Средняя стоимость аренды однокомнатной квартиры оценивается в 14 - 15 тысяч рублей, что так же можно охарактеризовать как средний показатель в сравнении с другими кластерами.

Количество мест притяжения населения произвольного типа в радиусе 1000 метров составляет от 32 до 47 -показатель выше среднего, а количество торговых точек не KA-сетей в радиусе 1000 метров около 40 - 53, что также является показателем выше среднего. Торговые точки KA-сетей в радиусе 1000 метров представлены в среднем - 10 единицами. Наличие железнодорожных станций в радиусе 1000 метров оценивается как не более двух.

Данный кластер характеризуется полным отсутствием станций метро в радиусе 1000 метров. Количество остановок наземного общественного транспорта в радиусе 1000 метров составляет 13-20 единиц.

: Расстояние до ближайшего места притяжения населения произвольного типа минимальное - рядом. Охарактеризовать расстояние до ближайшей ж/д станции можно как высокое - далеко. Расстояние до ближайшей станции метро - нет в округе. Удаленность от ближайшей остановки наземного общественного транспорта будет невысокой, характеристика - рядом. Расстояние до ближайшей торговой точки не KA-сети минимальное - рядом, а удаленность от ближайшей торговой точки KA-сети чуть больше, но также невелико, характеристика - близко.

· 2-й кластер - это жилые (спальные) районы крупных городов.

Профиль кластера : Незначительное количество МПН, низкая концентрация человеко-потока, торговых зон.

: Составляет 12,2% процента от количества торговых точек в страте. В кластере 539 торговых точек.Среднемесячные продажи оцениваются в диапазоне от 3 до 8 тысяч рублей. Средний доход населения около оценен в 34 тысячи рублей, что является похожим на показатели 1-го и 3-го кластера данной страты, но выше показателей большинства кластеров других страт.

Средняя стоимость 1 квадратного метра жилья составляет 61 - 63 тысяч рублей, а средняя стоимость аренды однокомнатной квартиры будет равняться 14 - 15 тысячам рублей, как и в первом кластере. Количество мест притяжения населения произвольного типа в радиусе 1000 метров составляет 7-8 единиц, а торговых точек не KA-сетей в радиусе 1000 метров оценивается в диапазоне от 24 до 43 единиц. Количество торговых точек KA-сетей в радиусе 1000 метров будет равняться 2. Не более двух железнодорожных станций в радиусе 1000 метров.Важной характеристикой является отсутствие станций метро в радиусе 1000 метров. Количество остановок наземного общественного транспорта в радиусе 1000 метров в среднем равняется 3-4.

Географические характеристики кластера : Расстояние до ближайшего МПН произвольного типа является достаточно низким и характеризуется как - близко. Удаленность от ближайшей ж/д станции высокая, характеристика - далеко. Полное отсутствие станций метро. Отличная от 1-го кластера характеристика -высокое расстояние до ближайшей остановки наземного общественного транспорта (далеко). Расстояние до ближайшей торговой точки не KA-сети низкое - рядом. А расстояние до ближайшей торговой точки KA-сети высокое - далеко

· 3-й кластер - это центр крупных городов.

Профиль кластера : Самые высокие значения по количеству мест притяжения населения, показателей торговой активности и других мест свидетельствующих о высоком уровне экономической активности и человеко-потока.

Основные количественные и качественные характеристики кластера: Составляет 25,9% процентов от общего количества торговых точек страты.Данный кластер включает в себя размер 1139 торговых точек.Среднемесячные продажи составляют от 3,2 до 10 тысяч рублей.Доход населения составляет 36 тысяч рублей в среднем и является достаточно неплохим показателем - выше среднего.

Средняя стоимость 1 квадратного метра жилья оценивается в 63 - 68 тысяч рублей, а средняя стоимость аренды однокомнатной квартиры равна приблизительно 14 - 15 тысячам рублей, что не отличается от показателей 1-го и 2-го кластера.Количество МПН произвольного типа в радиусе 1000 метров высокое и равняется 51 - 66 единицам, а торговых точек не KA-сетей в радиусе 1000 метров находится 46 - 55 единиц, что также является высоким показателем.

Количество торговых точек KA-сетей в радиусе 1000 метров равно 15 - очень много. Наличие железнодорожных станций в радиусе 1000 метров равно примерно одной-двум. Количество станций метро в радиусе 1000 метров равно в среднем одной, но не более 3-х. Количество остановок наземного общественного транспорта в радиусе 1000 метров составляет 20-30 единиц, что является очень высоким показателем.

Географические характеристики кластера : Расстояние до ближайшего МПН произвольного типа невысокое - рядом.Удаленность от ближайшей ж/д станции также невысока, характеристика - близко. Расстояние до ближайшей станции метро низкое - близко.

До ближайшей остановки наземного общественного транспорта очень маленькое расстояние -рядом. Низкое расстояние до ближайшей торговой точки не KA-сети - рядом. Удаление от ближайшей торговой точки KA-сети также очень низкое - рядом.

· 4-й кластер - это удаленные от центра жилые, дорогие районы и частные владения.

Профиль кластера : Самые высокие значения стоимостных характеристик (доходы, недвижимость), самые низкие значения количества МПН, показателей торговли. Составляет всего 0,4% от всех торговых точек страты.

Основные количественные и качественные характеристики кластера : К кластеру относится всего 16 торговых точек и он является наименьшим из всех кластеров в страте. Продажи в месяц составляют от 4 до 40 тысяч рублей. Среднемесячный доход населения составляет 49-66 тысяч рублей, что является очень высоким показателем. Средняя стоимость 1 квадратного метра жилья также очень высока и оценивается в 85 - 124 тысяч рублей. Средняя стоимость аренды однокомнатной квартиры выше, чем в других кластерах данной страты и составляет 21-34 тысячи рублей. Количество МПН произвольного типа в радиусе 1000 метров низкое - от 4 до 20. Торговых точек не KA-сетей в радиусе 1000 метров - нет рядом. Количество торговых точек KA-сетей в радиусе 1000 метро равно 2. Наличие железнодорожных станций в радиусе 1000 метров - не более одной. Станций метро в радиусе 1000 метров не более двух. Количество остановок наземного общественного транспорта в радиусе 1000 метров - только одна.

Географические характеристики кластера : Расстояние до ближайшего МПН произвольного типа низкое - близко. Удаление от ближайшей железнодорожной станции высокое - далеко. Станции метро отсутствуют - нет рядом. Расстояние до ближайшей остановки наземного общественного транспорта высокое, характеристика -далеко. Удаленность от ближайшей торговой точки не KA-сети очень высокая - далеко. Данный кластер характеризует отсутствие торговых точек KA-сети - нет рядом.

страта. Для второй страты (9269 торговых точек) путем применения метода к-средних (глава 2 пункт 2.3) было получено оптимальное разбиение на 5 кластера по 15 признакам. Количество кластеров выбрано на основании оптимизации критерия Акаике.

Рисунок 35 Доля кластеров во второй страте

· 5-й кластер - это окраины городов, небольшие населенные пункты.

Профиль кластера : Средние значения показателей развития инфраструктуры (есть РЖД, остановки). Торговая активность проявляется только в части не ka-сетей. Самые низкие значения показателей экономической активности в страте.

Основные количественные и качественные характеристики кластера : Составляет 10% процентов от общего количества торговых точек страты.Данный кластер включает в себя 892 торговые точки.Среднемесячные продажи оценены в промежутке от 2,4 до 6 тысяч рублей.Доход населения оценивается в среднем в 27 тысяч рублей, что является невысоким показателем в сравнении с показателями кластеров первой страты.

Средняя стоимость 1 квадратного метра жилья колеблется в районе 47-53 тысяч рублей, что также ниже показателей 1 страты. Средняя стоимость аренды однокомнатной квартиры составляет 12 тысяч рублей. Количество МПН произвольного типа в радиусе 1000 метров составляет от 2 до 5 штук. Наличие торговых точек не ka-сетей в радиусе 1000 метров равняется 9-30 штукам. Полное отсутствие торговых точек ka-сетей в радиусе 1000 метров - нет рядом. Количество ж/д станций в радиусе 1000 метров не более двух штук.Остановки наземного общественного транспорта в радиусе 1000 метров - в среднем две штуки.

Географические характеристики кластера : Низкое расстояние до ближайшего МПН произвольного типа - недалеко. Удаленность от ближайшей ж/д станции высокая, характеристика - далеко. Расстояние до ближайшей остановки наземного общественного транспорта будет также высоким -далеко. Удаление от ближайшей торговой точки не ka-сети незначительное, характеристика -рядом. А расстояние до ближайшей торговой точки ka-сети большое - точки находятся далеко.

· 6-й кластер - это жилые, спальные районы городов.

Профиль кластера : Средние показатели торговой активности за счет не ka-сетей и показатели экономической активности за счет близко расположенных МПН;

Основные количественные и качественные характеристики кластера : Кластер составляет 15% процентов от общего количества торговых точек страты и включает в себя 1345 торговых точек.Ежемесячные продажи оценены в 3-6 тысяч рублей. Доход населения усредненный составляет 26 тысяч рублей, что является средним показателем для данной страты. Средняя стоимость 1 квадратного метра жилья равна 53 тысячам рублей, а средняя стоимость аренды однокомнатной квартиры будет равняться 12 тысячам рублей, как и в предыдущем кластере. Количество МПН произвольного типа в радиусе 1000 метров -18-25 штук, а торговых точек не ka-сетей в радиусе 1000 метров в промежутке от 30 до 44 штук. Количество торговых точек ka-сетей в радиусе 1000 метро в среднем 6-9 штук -высокий показатель. Железнодорожных станций в радиусе 1000 метров не более двух. Полное отсутствие остановок наземного общественного транспорта в радиусе 1000 метров.

Расстояние до ближайшего МПН произвольного типа низкое - рядом,

и до ближайшей ж/д станции также недалеко.

Расстояние до ближайшей остановки наземного общественного транспорта высокое, характеристика - далеко. До ближайшей торговой точки не ka-сети близко, как и до ближайшей торговой точки ka-сети.

· 7-й кластер - это районы близкие к центру, городов, вблизи автодорог

Профиль кластера : Высокие показатели торговой активности и развития инфраструктуры (остановки наземного транспорта), средние показатели МПН.

Основные количественные и качественные характеристики кластера: Составляет 34% процентов от общего количества торговых точек страты.Данный кластер включает в себя 3194 торговые точки и является крупнейшим в страте, наравне с 8-м кластером.

Ежемесячные продажи оценены в промежутке от 2 до 6 тысяч рублей.

Усредненный доход населения равен 28 тысячам рублей.

Средняя стоимость 1 квадратного метра жилья равна 42-49 и это ниже аналогичных показателей в 5-м и 6-м кластере.

Средняя стоимость аренды однокомнатной квартиры практически не отличается от ранее рассмотренных кластеров данной страты и составляет 11-12 тысяч рублей.

Количество МПН произвольного типа в радиусе 1000 метров равна 21-33, а торговых точек не ka-сетей в радиусе 1000 метров около 50. Количество торговых точек ka-сетей в радиусе 1000 метро в среднем равно 7-10. Железнодорожных станций в радиусе 1000 метров нет.

Остановок наземного общественного транспорта в радиусе 1000 метров около 14 штук.

Географические характеристики кластера : Низкое расстояние до ближайшего МПН произвольного типа, высокое расстояние до ближайшей ж/д станции.До ближайшей остановки наземного общественного транспорта недалеко.Расстояние до ближайшей торговой точки не ka-сети низкое, характеристика - рядом. До ближайшей торговой точки ka-сети также близко.

· 8-й кластер - это центры небольших городов (~500 тыс. чел.).

Профиль кластера : Значительное количество МПН, высокая концентрация торговых зон, показатели инфраструктуры низкие.

Основные количественные и качественные характеристики кластера: Составляет 34% процентов от общего количества торговых точек страты.Данный кластер включает в себя 3191 торговую точку и является крупнейшим в страте, наравне с 7-м кластером.Усредненные данные по продажам за месяц равны 3-8 тысячам рублей.Среднемесячный доход населения оценен 28 тысяч рублей.Средняя стоимость 1 квадратного метра жилья равна 47 - 50 тысячам рублей, а средняя стоимость аренды однокомнатной квартиры равна 12 тысячам рублей. Количество МПН произвольного типа в радиусе 1000 метров в среднем равно 28-40 штукам, наличие торговых точек не ka-сетей в радиусе 1000 метров - от 38 до 52 штук. Наличие торговых точек ka-сетей в радиусе 1000 метров - от 7 до 11 единиц. Железнодорожных станций в радиусе 1000 метров нет.Количество остановок наземного общественного транспорта в радиусе 1000 метров очень невысокое, их почти нет.

Географические характеристики кластера : Ближайшее МПН произвольного типа находится рядом.Расстояние до ближайшей ж/д станции высокое, характеристика - далеко.Удаление от ближайшей остановки наземного общественного транспорта также высокое - далеко. До ближайшей торговой точки не ka-сети близко.Расстояние до ближайшей торговой точки ka-сети - близко.

· 9-й кластер - это центры городов, с численностью до 1 млн. чел.

Профиль кластера : Самые высокие значения показателей экономической и торговой активности в страте.

Основные количественные и качественные характеристики кластера : Составляет 7% процентов от общего количества торговых точек страты.Данный кластер включает в себя 647 торговую точку и является наименьшим в страте.Ежемесячные продажи равны 6-8 тысячам рублей и это выше аналогичных показателей других кластеров данной страты. Доход населения, как и в других кластерах страты, оценена в 28 тысяч рублей. Средняя стоимость 1 квадратного метра жилья равна 50-53 тысячам рублей.Средняя стоимость аренды однокомнатной квартиры также не отличается от аналогичных показателей других кластеров страты и равна 12 тысячам рублей.

Количество МПН произвольного типа в радиусе 1000 метров равно 90 штукам и является очень высоким показателем, а торговых точек не ka-сетей в радиусе 1000 метров -155 штук, что также можно назвать очень высоким показателем. Количество торговых точек ka-сетей в радиусе 1000 метров - 20-21 единица. Железнодорожных станций в радиусе 1000 метров нет.

Количество остановок наземного общественного транспорта в радиусе 1000 метров около 15-18.

Географические характеристики кластера : Ближайшее МПН произвольного типа находится рядом, а до ближайшей ж/д станции далеко. До ближайшей остановки наземного общественного транспорта недалеко. Расстояние до ближайшей торговой точки не ka-сети низкое, она находится рядом, а до ближайшей торговой точки ka-сети также близко.

страта. Для третьей страты (1958 торговых точек) путем применения метода к-средних (глава 2 пункт 2.3) было получено оптимальное разбиение на 2 кластера по 13 признакам, так как в данной страте нет торговых точек близких к метро. Количество кластеров выбрано на основании оптимизации критерия Акаике.

Рисунок 36 Доля кластеров в третьей страте

· 10-й кластер - это удаленные районы и города, с более малочисленным населением.

Профиль кластера : Низкая экономическая активность, средняя степень торговой активности.

Основные количественные и качественные характеристики кластера: Составляет 55% процентов от общего количества торговых точек страты.Данный кластер включает в себя 1084 торговую точку.Доход населения оценен в 24 тысячи рублей, что ниже показателей 1-й и 2-й страт.Среднемесячные продажи оценени в 18 тысяч рублей, что знчительно выше показателей 1-й и 2-й страт. Характеризуется отсутствиемМПН произвольного типа в радиусе 1000 метров.Количество торговых точек не ka-сетей в радиусе 1000 метров - от 15 до 40 штук.Торговых точек ka-сетей в радиусе 1000 метров -3 штуки.Железнодорожных станций в радиусе 1000 метров, как правило нет.Остановок наземного общественного транспорта в радиусе 1000 метров, у 75% точек нет, у остальных 25% - до 20 штук.

Географические характеристики кластера: МПН произвольного типа нет рядом, железнодорожных станций тоже нет. Нет поблизости остановок наземного общественного транспорта. Расстояние до ближайшей торговой точки не ka-сети низкое -находится рядом, а до ближайшей торговой точки ka-сети тоже близко.

· 11-й кластер - центры небольших городов, торговые зоны.

Профиль кластера: Значительная степень экономической и торговой активности.

Как правило отсутствуют железнодорожные станции в радиусе 1000 метров.

Количество остановок наземного общественного транспорта в радиусе 1000 метров: у 75% торговых точек нет, у остальных 25% - до 22 штук.

Географические характеристики кластера : Расстояние до ближайшего МПН произвольного типа низкое,а железнодорожных станций нет рядом, как и остановок наземного общественного транспорта. Расстояние до ближайшей торговой точки не ka-сети низкое, точки находятся рядом. Расстояние до ближайшей торговой точки ka-сети также низкое.

страта. Для четвертой страты (20 969 торговых точек) путем применения метода к-средних (глава 2 пункт 2.3) было получено оптимальное разбиение на 4 кластера по 12 признакам, так как в данной страте нет торговых точек близких к транспортной инфраструктуре. Количество кластеров выбрано на основании оптимизации критерия Акаике.

Рисунок 37 Доля кластеров в четвертой страте

· 12-й кластер - окраины маленьких населенных пунктов.

Профиль кластера : самые низкие показатели доходов, отсутствует транспортная инфраструктура, есть несколько магазинов.

Основные количественные и качественные характеристики кластера: Составляет 37% процентов от общего количества торговых точек страты.Данный кластер включает в себя 7682 торговые точки.Доход населения оценивается в 18-20 тысяч рублей, что значительно ниже аналогичных показателей других страт.

Ежемесячные продажи составляют 19-35 тысяч рублей. МПН произвольного типа в радиусе 1000 метров отсутствуют. Количество торговых точек не ka-сетей в радиусе 1000 метров равно 3 - 8 штукам. Отсутствие торговых точек ka-сетей в радиусе 1000 метров. Железнодорожных станций в радиусе 1000 метров нет, как и остановок наземного общественного транспорта. Расстояние до ближайшего МПН произвольного большое -далеко. До ближайшей ж/д станции также далеко. Удаленность от ближайшей остановки наземного общественного транспорта высокая -далеко. До ближайшей торговой точки не ka-сети близко, а ближайшая торговая точка ka-сети далеко.

· 13-й кластер - торговые зоны маленьких населенных пунктов

Профиль кластера : Средние показатели торговой активности, слабые признаки наличия транспортной инфраструктуры.

Основные количественные и качественные характеристики кластера: Составляет 31% процент от общего количества торговых точек страты.Данный кластер включает в себя 6514 торговых точек.Доход населения оценивается в 21-24 тысячи рублей, что значительно ниже аналогичных показателей других страт, но выше показателя 12-го кластера данной страты.

Ежемесячные продажи составляют 21-46 тысяч рублей.МПН произвольного типа в радиусе 1000 метров отсутствуют.Количество торговых точек не ka-сетей в радиусе 1000 метров равняется 18-28.Торговых точек ka-сетей в радиусе 1000 метров - 2-3 штуки. Ж/д станций в радиусе 1000 метров нет.

Остановок наземного общественного транспорта в радиусе 1000 метров нет у большинства, у некоторых до 3.

Географические характеристики кластера : Далеко до ближайшего МПН произвольного типа, до ближайшей ж/д станции также далеко, как и до ближайшей остановки наземного общественного транспорта. Ближайшая торговая точка не ka-сети рядом. Расстояние до ближайшей торговой точки ka-сети низкое -недалеко (до 1 км).

· 14-й кластер - маленькие населенные пункты с самой низкой степенью торговой активности

Профиль кластера : Самые низкие показатели торговой активности, с минимальным набором магазинов. Средний уровень доходов населения.

Основные количественные и качественные характеристики кластера: Составляет 20% процентов от общего количества торговых точек страты.Данный кластер включает в себя 4188 торговых точек.Доход населения оценивается в 24-26 тысяч рублей, что значительно ниже аналогичных показателей других страт, но выше показателей 12-го и 13-го кластеров данной страты. Ежемесячные продажи составляют 21-38 тысяч рублей.

Полное отсутствие МПН произвольного типа в радиусе 1000 метров.

Количество торговых точек не ka-сетей в радиусе 1000 метров - от 1 до 4 штук, а торговых точек ka-сетей в радиусе 1000 метров нет. Отсутствие ж/д станций в радиусе 1000 метров. Нет остановок наземного общественного транспорта в радиусе 1000 метров.

Географические характеристики кластера : До ближайшего МПН произвольного типа далеко, как и до ближайшей ж/д станции и ближайшей остановки наземного общественного транспорта.Расстояние до ближайшей торговой точки не ka-сети: у половины до 400м, остальные далеко. Расстояние до ближайшей торговой точки ka-сети -далеко.

· 15-й кластер - экономически активные населенные пункты с численностью менее 100 тыс. человек.

Профиль кластера : Единственный кластер, где присутствуют признаки экономической активности в страте. Самые высокие показатели торговой активности.

Основные количественные и качественные характеристики кластера: Составляет 12% процентов от общего количества торговых точек страты.Данный кластер включает в себя 2585 торговых точек.Доход населения равен 25-28 тысячам рублей, что значительно ниже аналогичных показателей других страт, но выше показателей других кластеров данной страты. Ежемесячные продажи составляют 24-52 тысяч рублей, что является наивысшим показателем среди всех страт.

Находится 2-7 МПН произвольного типа в радиусе 1000 метров.Количество торговых точек не ka-сетей в радиусе 1000 метров - от 14 до 28 штук, торговых точек ka-сетей в радиусе 1000 метров от 1 до 4 штук.Ж/д станций в радиусе 1000 метров нет.Количество остановок наземного общественного транспорта в радиусе 1000 метров - нет у большинства, у некоторых до 7.

Географические характеристики кластера : До ближайшего МПН произвольного типа близко, а до ближайшей ж/д станции далеко, как и до ближайшей остановки наземного общественного транспорта. Расстояние до ближайшей торговой точки не ka-сети низкое - находятся рядом. Расстояние до ближайшей торговой точки ka-сети - у половины до 500м, у остальных - далеко.

3.7 Кластеризация ассортимента торговых точек

Рисунок 38 Количество ТТ со сгруппированным ассортиментом

Путем применения двухэтапного метода кластерного анализа ассортимент торговых точек разделился на 5 кластеров. Силуэтная мера составляет 0,2, что является средним качеством разделения на кластеры. Размеры каждого из них можно увидеть на рисунке снизу. Самым большим кластером является первый, он составляет почти 59% (17 622 торговые точки) от всех кластеров. Наименьший по размеру 5 кластер он составляет почти 2% - это 452 торговые точки. Отличия от кластеризации торговых точек: Деление максимально не похожих друг на друга товаров, а ТТ объединялись по принципу похожести между ними.

17 Доля каждого кластера


Рисунок 39 Широта ассортимента в каждом кластере

· Первый кластер - это группа ассортимента с самым маленьким выбором. Это конфеты или шоколадные плитки в маленьких упаковках. Такой товар скорее всего представлен на заправка или в маленьких палатках. Пять самых продаваемых товаров в данном кластере: шоколад Бабаевский горький 100 грамм, шоколад Аленка 15 грамм, шоколад Аленка 100 грамм, кондитерская плитка «Хорошая компания» с вафельной крошкой 80 грамм и шоколадная плитка «Хорошая компания» с арахисом 80 грамм.

· Второй кластер - такая группа товара со средним выбором ассортимента относится к магазинам в городах, с численностью населения более 250 тысяч человек. Пять самых продаваемых товаров в данном кластере: кондитерская плитка «Хорошая компания» с вафельной крошкой 80 грамм, шоколад Аленка 20 грамм, шоколад Аленка много молока 100 грамм, шоколадная плитка «Хорошая компания» с арахисом 80 грамм и шоколад молочный Аленка с разноцветным драже.

· Третий кластер - в данной группе представлен маленький выбор ассортимента. В основном это шоколадная продукция и вафельные торты. К такой категории товара можно отнести магазины в маленьких городах или поселках. Пять самых продаваемых товаров в данном кластере: шоколад Аленка 100 грамм, шоколад Аленка 15 грамм, шоколад Аленка 20 грамм, карамель «Москвичка» и шоколад Бабаевский горький 100 грамм

· Четвертый кластер - это кластеры с большим выбором ассортимента. Такая группа товаров относится к большим фирменным магазинам кондитерских изделий в крупных городах. Пять самых продаваемых товаров в данном кластере: шоколад Аленка 100 грамм, карамель «Москвичка», шоколад Бабаевский горький 100 грамм, вафли «Коровка» со вкусом топленого молока и конфеты «Ромашка».

· Пятый кластер - это кластеры с самым большим выбором ассортимента. Такая группа товаров относится к большим фирменным магазинам кондитерских изделий в городах-сателлитах. Пять самых продаваемых товаров в данном кластере: Конфеты Птичье молоко, карамель «Москвичка», шоколад Аленка 100 грамм, Бабаевский горький 100 грамм и вафли «Коровка» со вкусом топленого молока.

Можно сделать вывод, что самым популярным товаром является шоколад «Аленка». Именно этот товар встречается в каждом кластере в лидерах.

Вывод к третьей главе

Проведенные методом кластерного анализа исследования помогли разделить торговые точки на страты по местоположению, затем каждая страта была разделена на кластеры. В итоге такой кластерный анализ помог снизить однородность на 1,77. Были проанализированы и выявлены взаимосвязи между социально-демографическими показателями (пол, возраст, доход) и потребительским поведением. Также была проведена кластеризация ассортимента торговых точек, что позволило выявить то, что в крупнейшем по количеству точек кластере представлен наименьший ассортимент.

Заключение

Большие данные - это не очередной ажиотаж на ИТ-рынке, это системный, качественный переход к составлению цепочек ценностей, основанных на знаниях. По эффекту его можно сравнить с появлением доступной компьютерной техники в конце прошлого века. В то время как недальновидные консерваторы будут применять глубоко устаревшие подходы, предприятия, уже сейчас использующие технологии Big Data, в будущем окажутся на лидирующих позициях и получат конкурентные преимущества на рынке. Нет никаких сомнений в том, что все крупные организации в ближайшие годы внедрят эту технологию, так как за ней как настоящее, так и будущее.

Данная дипломная работа представляет собой научный, систематизированный подход к выбору месторасположения торговых точек, причем способы получения и анализа информации, с получением конечного результата, являются весьма бюджетными, позволяющими провести такую процедуру даже индивидуальным предпринимателям с небольшим оборотом денежных средств.

Учитывая рост темпов накопления информации, появляется острая необходимость в технологиях анализа данных, которые, в этой связи, также стремительно развиваются. Развитие данных технологий в последние годы позволило перейти от сегментирования клиентов на группы с аналогичными предпочтениями к построению моделей в режиме реального времени, опираясь, в том числе, на его запросы в интернет и посещения тех или иных страниц. Становится реальным выводить конкретные предложения и рекламу на основе анализа интересов потребителя, делая эти предложения намного более целевыми. Также возможны корректировки и перенастройка модели в режиме реального времени.

Кластерный анализ поистине можно назвать удобнейшим и самым оптимальным инструментом выделения сегментов рынка. Использование данных методов стало особенно актуально в век высоких технологий, в который так актуально ускорить трудоемкие и длительные процессы при помощи технологий. Переменные, используемые в качестве основания для кластеризации, правильным будет выбирать, опираясь на опыт предыдущих исследований, теоретических предпосылок, различных проверенных гипотез, а еще исходя из пожеланий исследователя. Помимо этого, рекомендуется взять соответствующую меру сходства. Отличительной особенностью иерархической кластеризации является разработка иерархической структуры. Самым распространенным и эффективным дисперсионным методом является метод Барда. Неиерархические методы кластеризации часто называют методами k-средних. Выбор метода кластеризации и выбор меры расстояния взаимосвязаны. В иерархической кластеризации важным критерием принятия решения о числе кластеров являются расстояния, при которых происходит объединение кластеров. Размеры кластеров должны быть такими, чтобы был смысл сохранить данный кластер, а не объединить его с другими. Надежность и достоверность решений кластеризации оценивают разными способами.

Проведенные методом кластерного анализа исследования помогли разделить торговые точки на страты по местоположению, затем каждая страта была разделена на кластеры. В итоге такой кластерный анализ помог снизить однородность на 1,77. Были проанализированы и выявлены взаимосвязи между социально-демографическими показателями (пол, возраст, доход) и потребительским поведением. Также была проведена кластеризация ассортимента торговых точек, что позволило выявить то, что в крупнейшем по количеству точек кластере представлен наименьший ассортимент.

Список литературы

1. StatSoft - Электронные учебник по статистике

2. Мандель И.Д. Кластерный анализ., 1988 год

Н.Паклин. «Кластеризация данных: масштабируемый алгоритм CLOPE».

Олендерфер М. С., Блэшфилд Р. К. Кластерный анализ / Факторный, дискриминантный и кластерный анализ: пер. с англ.; Под. ред. И. С. Енюкова. - М.: Финансы и статистика, 1989-215 с.

Дэниал Фасуло «Анализ последних работ по алгоритмам кластеризации».

Дюран Б., Оделл П. Кластерный анализ. М.: Статистика, 1977 год

Жамбю М. Иерархический кластер-анализ и соответствия, 1988 год

Хайдуков Д. С. Применение кластерного анализа в государственном управлении// Философия математики: актуальные проблемы. - М.: МАКС Пресс, 2009. - 287 с.

Классификация и кластер. Под ред. Дж. Вэн Райзина. М.: Мир, 1980.

Трион Р.C. Кластерный анализ- Лондон:, 1939. - 139 p.

Бериков В. С., Лбов Г. С. Современные тенденции в кластерном анализе 2008. - 67 с.

Вятченин Д. А. Нечёткие методы автоматической классификации. - Минск: Технопринт, 2004. - 320 с.

И. А. Чубукова Data Mining. Учебное пособие. - М.: Интернет-Университет Информационных технологий;

Н. Паклин. «Кластеризация категорийных данных: масштабируемый алгоритм CLOPE».

16. Sudipto Guha, Rajeev Rastogi, Kyuseok Shim « CURE: эффективный кластерный алгоритм для больших баз данных». Электронное издание.

17. Tian Zhang, Raghu Ramakrishnan, Miron Livny « BIRCH: эффективный метод кластеризации данных для очень больших баз данных ».

Н. Паклин «Алгоритмы кластеризации на службе Data Mining».

Ян Янсон «Моделирование ».

20. И. А. Чубукова Data Mining. Учебное пособие., 2006.

. «Доступная аналитика данных», Anil Maheshwari

Кеннет Кекьер «Большие данные: революция, которая изменит нашу жизнь, работу и мысли»

Кэти О"нейл и Рейчел Шутт “Наука о данных”

, государственном управлении , филологии , антропологии , маркетинге , социологии , геологии и других дисциплинах. Однако универсальность применения привела к появлению большого количества несовместимых терминов, методов и подходов, затрудняющих однозначное использование и непротиворечивую интерпретацию кластерного анализа.

Энциклопедичный YouTube

  • 1 / 5

    Кластерный анализ выполняет следующие основные задачи:

    • Разработка типологии или классификации.
    • Исследование полезных концептуальных схем группирования объектов.
    • Порождение гипотез на основе исследования данных.
    • Проверка гипотез или исследования для определения, действительно ли типы (группы), выделенные тем или иным способом, присутствуют в имеющихся данных.

    Независимо от предмета изучения применение кластерного анализа предполагает следующие этапы:

    • Отбор выборки для кластеризации. Подразумевается, что имеет смысл кластеризовать только количественные данные.
    • Определение множества переменных, по которым будут оцениваться объекты в выборке, то есть признакового пространства.
    • Вычисление значений той или иной меры сходства (или различия) между объектами.
    • Применение метода кластерного анализа для создания групп сходных объектов.
    • Проверка достоверности результатов кластерного решения.

    Можно встретить описание двух фундаментальных требований предъявляемых к данным - однородность и полнота. Однородность требует, чтобы все кластеризуемые сущности были одной природы, описывались сходным набором характеристик . Если кластерному анализу предшествует факторный анализ , то выборка не нуждается в «ремонте» - изложенные требования выполняются автоматически самой процедурой факторного моделирования (есть ещё одно достоинство - z-стандартизация без негативных последствий для выборки; если её проводить непосредственно для кластерного анализа, она может повлечь за собой уменьшение чёткости разделения групп). В противном случае выборку нужно корректировать.

    Типология задач кластеризации

    Типы входных данных

    В современной науке применяется несколько алгоритмов обработки входных данных. Анализ путём сравнения объектов, исходя из признаков, (наиболее распространённый в биологических науках) называется Q -типом анализа, а в случае сравнения признаков, на основе объектов - R -типом анализа. Существуют попытки использования гибридных типов анализа (например, RQ -анализ), но данная методология ещё должным образом не разработана.

    Цели кластеризации

    • Понимание данных путём выявления кластерной структуры. Разбиение выборки на группы схожих объектов позволяет упростить дальнейшую обработку данных и принятия решений, применяя к каждому кластеру свой метод анализа (стратегия «разделяй и властвуй »).
    • Сжатие данных . Если исходная выборка избыточно большая, то можно сократить её, оставив по одному наиболее типичному представителю от каждого кластера.
    • Обнаружение новизны (англ. novelty detection ). Выделяются нетипичные объекты, которые не удаётся присоединить ни к одному из кластеров.

    В первом случае число кластеров стараются сделать поменьше. Во втором случае важнее обеспечить высокую степень сходства объектов внутри каждого кластера, а кластеров может быть сколько угодно. В третьем случае наибольший интерес представляют отдельные объекты, не вписывающиеся ни в один из кластеров.

    Во всех этих случаях может применяться иерархическая кластеризация , когда крупные кластеры дробятся на более мелкие, те в свою очередь дробятся ещё мельче, и т. д. Такие задачи называются задачами таксономии . Результатом таксономии является древообразная иерархическая структура. При этом каждый объект характеризуется перечислением всех кластеров, которым он принадлежит, обычно от крупного к мелкому.

    Методы кластеризации

    Общепринятой классификации методов кластеризации не существует, но можно выделить ряд групп подходов (некоторые методы можно отнести сразу к нескольким группам и потому предлагается рассматривать данную типизацию как некоторое приближение к реальной классификации методов кластеризации) :

    1. Вероятностный подход . Предполагается, что каждый рассматриваемый объект относится к одному из k классов. Некоторые авторы (например, А. И. Орлов) считают, что данная группа вовсе не относится к кластеризации и противопоставляют её под названием «дискриминация», то есть выбор отнесения объектов к одной из известных групп (обучающих выборок).
    2. Подходы на основе систем искусственного интеллекта: весьма условная группа, так как методов очень много и методически они весьма различны.
    3. Логический подход. Построение дендрограммы осуществляется с помощью дерева решений.
    4. Теоретико-графовый подход.
    5. Иерархический подход. Предполагается наличие вложенных групп (кластеров различного порядка). Алгоритмы в свою очередь подразделяются на агломеративные (объединительные) и дивизивные (разделяющие). По количеству признаков иногда выделяют монотетические и политетические методы классификации.
      • Иерархическая дивизивная кластеризация или таксономия. Задачи кластеризации рассматриваются в количественной таксономии .
    6. Другие методы. Не вошедшие в предыдущие группы.
      • Статистические алгоритмы кластеризации
      • Ансамбль кластеризаторов
      • Алгоритмы семейства KRAB
      • Алгоритм, основанный на методе просеивания

    Подходы 4 и 5 иногда объединяют под названием структурного или геометрического подхода, обладающего большей формализованностью понятия близости . Несмотря на значительные различия между перечисленными методами все они опираются на исходную «гипотезу компактности »: в пространстве объектов все близкие объекты должны относиться к одному кластеру, а все различные объекты соответственно должны находиться в различных кластерах.

    Формальная постановка задачи кластеризации

    Пусть X {\displaystyle X} - множество объектов, Y {\displaystyle Y} - множество номеров (имён, меток) кластеров. Задана функция расстояния между объектами ρ (x , x ′) {\displaystyle \rho (x,x")} . Имеется конечная обучающая выборка объектов X m = { x 1 , … , x m } ⊂ X {\displaystyle X^{m}=\{x_{1},\dots ,x_{m}\}\subset X} . Требуется разбить выборку на непересекающиеся подмножества, называемые кластерами , так, чтобы каждый кластер состоял из объектов, близких по метрике ρ {\displaystyle \rho } , а объекты разных кластеров существенно отличались. При этом каждому объекту x i ∈ X m {\displaystyle x_{i}\in X^{m}} приписывается номер кластера y i {\displaystyle y_{i}} .

    Алгоритм кластеризации - это функция a: X → Y {\displaystyle a\colon X\to Y} , которая любому объекту x ∈ X {\displaystyle x\in X} ставит в соответствие номер кластера y ∈ Y {\displaystyle y\in Y} . Множество Y {\displaystyle Y} в некоторых случаях известно заранее, однако чаще ставится задача определить оптимальное число кластеров, с точки зрения того или иного критерия качества кластеризации.

    В общем стоит отметить, что исторически сложилось так, что в качестве мер близости в биологии чаще используются меры сходства , а не меры различия (расстояния).

    В социологии

    При анализе результатов социологических исследований рекомендуется осуществлять анализ методами иерархического агломеративного семейства, а именно методом Уорда, при котором внутри кластеров оптимизируется минимальная дисперсия, в итоге создаются кластеры приблизительно равных размеров. Метод Уорда наиболее удачен для анализа социологических данных. В качестве меры различия лучше квадратичное евклидово расстояние, которое способствует увеличению контрастности кластеров. Главным итогом иерархического кластерного анализа является дендрограмма или «сосульчатая диаграмма». При её интерпретации исследователи сталкиваются с проблемой того же рода, что и толкование результатов факторного анализа - отсутствием однозначных критериев выделения кластеров. В качестве главных рекомендуется использовать два способа - визуальный анализ дендрограммы и сравнение результатов кластеризации, выполненной различными методами.

    Визуальный анализ дендрограммы предполагает «обрезание» дерева на оптимальном уровне сходства элементов выборки. «Виноградную ветвь» (терминология Олдендерфера М. С. и Блэшфилда Р. К. ) целесообразно «обрезать» на отметке 5 шкалы Rescaled Distance Cluster Combine, таким образом будет достигнут 80 % уровень сходства. Если выделение кластеров по этой метке затруднено (на ней происходит слияние нескольких мелких кластеров в один крупный), то можно выбрать другую метку. Такая методика предлагается Олдендерфером и Блэшфилдом.

    Теперь возникает вопрос устойчивости принятого кластерного решения. По сути, проверка устойчивости кластеризации сводится к проверке её достоверности. Здесь существует эмпирическое правило - устойчивая типология сохраняется при изменении методов кластеризации. Результаты иерархического кластерного анализа можно проверять итеративным кластерным анализом по методу k-средних. Если сравниваемые классификации групп респондентов имеют долю совпадений более 70 % (более 2/3 совпадений), то кластерное решение принимается.

    Проверить адекватность решения, не прибегая к помощи другого вида анализа, нельзя. По крайней мере, в теоретическом плане эта проблема не решена. В классической работе Олдендерфера и Блэшфилда «Кластерный анализ» подробно рассматриваются и в итоге отвергаются дополнительные пять методов проверки устойчивости:

    1. кофенетическая корреляция - не рекомендуется и ограниченна в использовании;
    2. тесты значимости (дисперсионный анализ) - всегда дают значимый результат;
    3. методика повторных (случайных) выборок, что, тем не менее, не доказывает обоснованность решения;
    4. тесты значимости для внешних признаков пригодны только для повторных измерений;
    5. методы Монте-Карло очень сложны и доступны только опытным математикам [ (англ. edge detection ) или распознавания объектов .
    6. Интеллектуальный анализ данных (англ. data mining) - кластеризация в Data Mining приобретает ценность тогда, когда она выступает одним из этапов анализа данных, построения законченного аналитического решения. Аналитику часто легче выделить группы схожих объектов, изучить их особенности и построить для каждой группы отдельную модель, чем создавать одну общую модель для всех данных. Таким приемом постоянно пользуются в маркетинге, выделяя группы клиентов, покупателей, товаров и разрабатывая для каждой из них отдельную стратегию.

    В статистике существует два основных типа кластерного анализа (оба представлены в SPSS): иерархический и осуществляемый методом k-средних. В первом случае автоматизированная статистическая процедура самостоятельно определяет оптимальное число кластеров и ряд других параметров, необходимых для кластерного

    анализа. Второй тип анализа имеет существенные ограничения по практической применимости -- для него необходимо самостоятельно определять и точное количество выделяемых кластеров, и начальные значения центров каждого кластера (центроиды), и некоторые другие статистики. При анализе методом k-средних данные проблемы решаются предварительным проведением иерархического кластерного анализа и затем на основании его результатов расчетом кластерной модели по методу k-средних, что в большинстве случаев не только не упрощает, а наоборот, усложняет работу исследователя (в особенности неподготовленного).

    В целом можно сказать, что в связи с тем, что иерархический кластерный анализ весьма требователен к аппаратным ресурсам компьютера, кластерный анализ по методу k-средних введен в SPSS для обработки очень больших массивов данных, состоящих из многих тысяч наблюдений (респондентов), в условиях недостаточной мощности компьютерного оборудования1. Размеры выборок, используемых в маркетинговых исследованиях, в большинстве случаев не превышают четыре тысячи респондентов. Практика маркетинговых исследований показывает, что именно первый тип кластерного анализа -- иерархический -- рекомендуется для использования во всех случаях как наиболее релевантный, универсальный и точный. Вместе с тем необходимо подчеркнуть, что при проведении кластерного анализа важным является отбор релевантных переменных. Данное замечание очень существенно, так как включение в анализ нескольких или даже одной нерелевантной переменной способно привести к неудаче всей статистической процедуры.

    Описание методики проведения кластерного анализа мы проведем на следующем примере из практики маркетинговых исследований.

    Исходные данные:

    В ходе исследования было опрошено 745 авиапассажиров, летавших одной из 22 российских и зарубежных авиакомпаний. Авиапассажиров просили оценить по пятибалльной шкале -- от 1 (очень плохо) до 5 (отлично) -- семь параметров работы наземного персонала авиакомпаний в процессе регистрации пассажиров на рейс: вежливость, профессионализм, оперативность, готовность помочь, регулирование очереди, внешний вид, работа персонала в целом.

    Требуется:

    Сегментировать исследуемые авиакомпании по уровню воспринимаемого авиапассажирами качества работы наземного персонала.

    Итак, у нас есть файл данных, который состоит из семи интервальных переменных, обозначающих оценки качества работы наземного персонала различных авиакомпаний (ql3-ql9), представленные в единой пятибалльной шкале. Файл данных содержит одновариантную переменную q4, указывающую выбранные респондентами авиакомпании (всего 22 наименования). Проведем кластерный анализ и определим, на какие целевые группы можно разделить данные авиакомпании.

    Иерархический кластерный анализ проводится в два этапа. Результат первого этапа -- число кластеров (целевых сегментов), на которые следует разделить исследуемую выборку респондентов. Процедура кластерного анализа как таковая не

    может самостоятельно определить оптимальное число кластеров. Она может только подсказать искомое число. Поскольку задача определения оптимального числа сегментов является ключевой, она обычно решается на отдельном этапе анализа. На втором этапе производится собственно кластеризация наблюдений по тому числу кластеров, которое было определено в ходе первого этапа анализа. Теперь рассмотрим эти шаги кластерного анализа по порядку.

    Процедура кластерного анализа запускается при помощи меню Analyze > Classify > Hierarchical Cluster. В открывшемся диалоговом окне из левого списка всех имеющихся в файле данных переменных выберите переменные, являющиеся критериями сегментирования. В нашем случае их семь, и обозначают они оценки параметров работы наземного персонала ql3-ql9 (рис. 5.44). В принципе указания совокупности критериев сегментирования будет вполне достаточно для выполнения первого этапа кластерного анализа.

    Рис. 5.44.

    По умолчанию кроме таблицы с результатами формирования кластеров, на основании которой мы определим их оптимальное число, SPSS выводит также специальную перевернутую гистограмму icicle, помогающую, по замыслу создателей программы, определить оптимальное количество кластеров; вывод диаграмм осуществляется кнопкой Plots (рис. 5.45). Однако если оставить данный параметр установленным, мы потратим много времени на обработку даже сравнительно небольшого файла данных. Кроме icicle в окне Plots можно выбрать более быструю линейчатую диаграмму Dendogram. Она представляет собой горизонтальные столбики, отражающие процесс формирования кластеров. Теоретически при небольшом (до 50-100) количестве респондентов данная диаграмма действительно помогает выбрать оптимальное решение относительно требуемого числа кластеров. Однако практически во всех примерах из маркетинговых исследований размер выборки превышает это значение. Дендограмма становится совершенно бесполезной, так как даже при относительно небольшом числе наблюдений представляет собой очень длинную последовательность номеров строк исходного файла данных, соединенных между собой горизонтальными и вертикальными линиями. Большинство учебников по SPSS содержат примеры кластерного анализа именно на таких искусственных, малых выборках. В настоящем пособии мы показываем, как наиболее эффективно работать с SPSS в практических условиях и на примере реальных маркетинговых исследований.

    Рис. 5.45.

    Как мы установили, для практических целей ни Icicle, ни Dendogram не пригодны. Поэтому в главном диалоговом окне Hierarchical Cluster Analysis рекомендуется не выводить диаграммы, отменив выбранный по умолчанию параметр Plots в области Display, как показано на рис. 5.44. Теперь все готово для выполнения первого этапа кластерного анализа. Запустите процедуру, щелкнув на кнопке ОК.

    Через некоторое время в окне SPSS Viewer появятся результаты. Как было сказано выше, единственным значимым для нас итогом первого этапа анализа будет таблица Average Linkage (Between Groups), представленная на рис. 5.46. На основании этой таблицы мы должны определить оптимальное число кластеров. Необходимо заметить, что единого универсального метода определения оптимального числа кластеров не существует. В каждом конкретном случае исследователь должен сам определить это число.

    Исходя из имеющегося опыта, автор предлагает следующую схему данного процесса. Прежде всего, попробуем применить наиболее распространенный стандартный метод для определения числа кластеров. По таблице Average Linkage (Between Groups) следует определить, на каком шаге процесса формирования кластеров (колонка Stage) происходит первый сравнительно большой скачок коэффициента агломерации (колонка Coefficients). Данный скачок означает, что до него в кластеры объединялись наблюдения, находящиеся на достаточно малых расстояниях друг от друга (в нашем случае респонденты со схожим уровнем оценок по анализируемым параметрам), а начиная с этого этапа происходит объединение более далеких наблюдений.

    В нашем случае коэффициенты плавно возрастают от 0 до 7,452, то есть разница между коэффициентами на шагах с первого по 728 была мала (например, между 728 и 727 шагами -- 0,534). Начиная с 729 шага происходит первый существенный скачок коэффициента: с 7,452 до 10,364 (на 2,912). Шаг, на котором происходит первый скачок коэффициента, -- 729. Теперь, чтобы определить оптимальное количество кластеров, необходимо вычесть полученное значение из общего числа наблюдений (размера выборки). Общий размер выборки в нашем случае составляет 745 человек; следовательно, оптимальное количество кластеров составляет 745-729 = 16.


    Рис. 5.46.

    Мы получили достаточно большое число кластеров, которое в дальнейшем будет сложно интерпретировать. Поэтому теперь следует исследовать полученные кластеры и определить, какие из них являются значимыми, а какие нужно попытаться сократить. Данная задача решается на втором этапе кластерного анализа.

    Откройте главное диалоговое окно процедуры кластерного анализа (меню Analyze > Classify > Hierarchical Cluster). В поле для анализируемых переменных у нас уже есть семь параметров. Щелкните на кнопке Save. Открывшееся диалоговое окно (рис. 5.47) позволяет создать в исходном файле данных новую переменную, распределяющую респондентов на целевые группы. Выберите параметр Single Solution и укажите в соответствующем поле необходимое количество кластеров -- 16 (определено на первом этапе кластерного анализа). Щелкнув на кнопке Continue, вернитесь в главное диалоговое окно, в котором щелкните на кнопке ОК, чтобы запустить процедуру кластерного анализа.

    Прежде чем продолжить описание процесса кластерного анализа, необходимо привести краткое описание других параметров. Среди них есть как полезные возможности, так и фактически лишние (с точки зрения практических маркетинговых исследований). Так, например, главное диалоговое окно Hierarchial Cluster Analysis содержит поле Label Cases by, в которое при желании можно поместить текстовую переменную, идентифицирующую респондентов. В нашем случае для этих целей может служить переменная q4, кодирующая выбранные респондентами авиакомпании. На практике сложно придумать рациональное объяснение использованию поля Label Cases by, поэтому можно спокойно всегда оставлять его пустым.

    Рис. 5.47.

    Нечасто при проведении кластерного анализа используется диалоговое окно Statistics, вызываемое одноименной кнопкой в главном диалоговом окне. Оно позволяет организовать вывод в окне SPSS Viewer таблицы Cluster Membership, в которой каждому респонденту в исходном файле данных сопоставляется номер кластера. Данная таблица при достаточно большом количестве респондентов (практически во всех примерах маркетинговых исследований) становится совершенно бесполезной, так как представляет собой длинную последовательность пар значений «номер респондента/номер кластера», в таком виде не поддающуюся интерпретации. Технически цель кластерного анализа всегда состоит в образовании в файле данных дополнительной переменной, отражающей разделение респондентов на целевые группы (при помощи щелчка на кнопке Save в главном диалоговом окне кластерного анализа). Эта переменная в совокупности с номерами респондентов и есть таблица Cluster Membership. Единственный практически полезный параметр в окне Statistics -- вывод таблицы Average Linkage (Between Groups), однако он уже установлен по умолчанию. Таким образом, использование кнопки Statistics и вывод отдельной таблицы Cluster Membership в окне SPSS Viewer является нецелесообразным.

    Про кнопку Plots уже было сказано выше: ее следует дезактивизировать, отменив параметр Plots в главном диалоговом окне кластерного анализа.

    Кроме этих редко используемых возможностей процедуры кластерного анализа, SPSS предлагает и весьма полезные параметры. Среди них прежде всего кнопка Save, позволяющая создать в исходном файле данных новую переменную, распределяющую респондентов по кластерам. Также в главном диалоговом окне существует область для выбора объекта кластеризации: респондентов или переменных. Об этой возможности говорилось выше в разделе 5.4. В первом случае кластерный анализ используется в основном для сегментирования респондентов по некоторым критериям; во втором цель проведения кластерного анализа аналогична факторному анализу: классификация (сокращение числа) переменных.

    Как видно из рис. 5.44, единственной не рассмотренной возможностью кластерного анализа является кнопка выбора метода проведения статистической процедуры Method. Эксперименты с данным Параметром позволяют добиться большей точности при определении оптимального числа кластеров. Общий вид этого диалогового окна с параметрами, установленными по умолчанию, представлен на рис. 5.48.

    Рис. 5.48.

    Первое, что устанавливается в данном окне, -- это метод формирования кластеров (то есть объединения наблюдений). Среди всех возможных вариантов статистических методик, предлагаемых SPSS, следует выбирать либо установленный по умолчанию метод Between-groups linkage, либо процедуру Ward (Ward"s method). Первый метод используется чаще ввиду его универсальности и относительной простоты статистической процедуры, на которой он основан. При использовании этого метода расстояние между кластерами вычисляется как среднее значение расстояний между всеми возможными парами наблюдений, причем в каждой итерации принимает участие одно наблюдение из одного кластера, а второе -- из другого. Информация, необходимая для расчетов расстояния между наблюдениями, находится на основании всех теоретически возможных пар наблюдений. Метод Ward более сложен для понимания и используется реже. Он состоит из множества этапов и основан на усреднении значений всех переменных для каждого наблюдения и последующем суммировании квадратов расстояний от вычисленных средних до каждого наблюдения. Для решения практических задач маркетинговых исследований мы рекомендуем всегда использовать метод Between-groups linkage, установленный по умолчанию.

    После выбора статистической процедуры кластеризации следует выбрать метод для вычисления расстояний между наблюдениями (область Measure в диалоговом окне Method). Существуют различные методы определения расстояний для трех типов переменных, участвующих в кластерном анализе (критериев сегментирования). Эти переменные могут иметь интервальную (Interval), номинальную (Counts) или дихотомическую (Binary) шкалу. Дихотомическая шкала (Binary) подразумевает только переменные, отражающие наступление/ненаступление какого-либо события (купил/не купил, да/нет и т. д.). Другие типы дихотомических переменных (например, мужчина/женщина) следует рассматривать и анализировать как номинальные (Counts).

    Наиболее часто используемым методом определения расстояний для интервальных переменных является квадрат евклидова расстояния (Squared Euclidean Distance), устанавливаемый по умолчанию. Именно этот метод зарекомендовал себя в маркетинговых исследованиях как наиболее точный и универсальный. Однако для дихотомических переменных, где наблюдения представлены только двумя значениями (например, 0 и 1), данный метод не подходит. Дело в том, что он учитывает только взаимодействия между наблюдениями типа: X = 1,Y = 0 и X = 0, Y=l (где X и Y -- переменные) и не учитывает другие типы взаимодействий. Наиболее комплексной мерой расстояния, учитывающей все важные типы взаимодействий между двумя дихотомическими переменными, является метод Лямбда (Lambda). Мы рекомендуем применять именно данный метод ввиду его универсальности. Однако существуют и другие методы, например Shape, Hamann или Anderbergs"s D.

    При указании метода определения расстояний для дихотомических переменных в соответствующем поле необходимо указать конкретные значения, которые могут принимать исследуемые дихотомические переменные: в поле Present -- кодировку ответа Да, а в поле Absent -- Нет. Названия полей присутствует и отсутствует ассоциированы с тем, что в группе методов Binary предполагается использовать только дихотомические переменные, отражающие наступление/ненаступление какого-либо события. Для двух типов переменных Interval и Binary существует несколько методов определения расстояния. Для переменных с номинальным типом шкалы SPSS предлагает всего два метода: (Chi-square measure) и (Phi-square measure). Мы рекомендуем использовать первый метод как наиболее распространенный.

    В диалоговом окне Method есть область Transform Values, в которой находится поле Standardize. Данное поле применяется в том случае, когда в кластерном анализе принимают участие переменные с различным типом шкалы (например, интервальные и номинальные). Для того чтобы использовать эти переменные в кластерном анализе, следует провести стандартизацию, приводящую их к единому типу шкалы -- интервальному. Самым распространенным методом стандартизации переменных является 2-стандартизация (Zscores): все переменные приводятся к единому диапазону значений от -3 до +3 и после преобразования являются интервальными.

    Так как все оптимальные методы (кластеризации и определения расстояний) установлены по умолчанию, целесообразно использовать диалоговое окно Method только для указания типа анализируемых переменных, а также для указания необходимости произвести 2-стандартизацию переменных.

    Итак, мы описали все основные возможности, предоставляемые SPSS для проведения кластерного анализа. Вернемся к описанию кластерного анализа, проводимого с целью сегментирования авиакомпаний. Напомним, что мы остановились на шестнадцатикластерном решении и создали в исходном файле данных новую переменную clul6_l, распределяющую все анализируемые авиакомпании по кластерам.

    Чтобы установить, насколько верно мы определили оптимальное число кластеров, построим линейное распределение переменной clul6_l (меню Analyze > Descriptive Statistics > Frequencies). Как видно на рис. 5.49, в кластерах с номерами 5-16 число респондентов составляет от 1 до 7. Наряду с вышеописанным универсальным методом определения оптимального количества кластеров (на основании разности между общим числом респондентов и первым скачком коэффициента агломерации) существует также дополнительная рекомендация: размер кластеров должен быть статистически значимым и практически приемлемым. При нашем размере выборки такое критическое значение можно установить хотя бы на уровне 10. Мы видим, что под данное условие попадают лишь кластеры с номерами 1-4. Поэтому теперь необходимо пересчитать процедуру кластерного анализа с выводом четы-рехкластерного решения (будет создана новая переменная du4_l).


    Рис. 5.49.

    Построив линейное распределение по вновь созданной переменной du4_l, мы увидим, что только в двух кластерах (1 и 2) число респондентов является практически значимым. Нам необходимо снова перестроить кластерную модель -- теперь для двухкластерного решения. После этого построим распределение по переменной du2_l (рис. 5.50). Как вы видите из таблицы, двухкластерное решение имеет статистически и практически значимое число респондентов в каждом из двух сформированных кластеров: в кластере 1 -- 695 респондентов; в кластере 2 -- 40. Итак, мы определили оптимальное число кластеров для нашей задачи и провели собственно сегментирование респондентов по семи избранным критериям. Теперь можно считать основную цель нашей задачи достигнутой и приступать к завершающему этапу кластерного анализа -- интерпретации полученных целевых групп (сегментов).


    Рис. 5.50.

    Полученное решение несколько отличается от тех, которые вы, может быть, видели в учебных пособиях по SPSS. Даже в наиболее практически ориентированных учебниках приведены искусственные примеры, где в результате кластеризации получаются идеальные целевые группы респондентов. В некоторых случаях (5) авторы даже прямо указывают на искусственное происхождение примеров. В настоящем пособии мы применим в качестве иллюстрации действия кластерного анализа реальный пример из практического маркетингового исследования, не отличающийся идеальными пропорциями. Это позволит нам показать наиболее распространенные трудности проведения кластерного анализа, а также оптимальные методы их устранения.

    Перед тем как приступить к интерпретации полученных кластеров, давайте подведем итоги. У нас получилась следующая схема определения оптимального числа кластеров.

    ¦ На этапе 1 мы определяем количество кластеров на основании математического метода, основанного на коэффициенте агломерации.

    ¦ На этапе 2 мы проводим кластеризацию респондентов по полученному числу кластеров и затем строим линейное распределение по образованной новой переменной (clul6_l). Здесь также следует определить, сколько кластеров состоят из статистически значимого количества респондентов. В общем случае рекомендуется устанавливать минимально значимую численность кластеров на уровне не менее 10 респондентов.

    ¦ Если все кластеры удовлетворяют данному критерию, переходим к завершающему этапу кластерного анализа: интерпретации кластеров. Если есть кластеры с незначимым числом составляющих их наблюдений, устанавливаем, сколько кластеров состоят из значимого количества респондентов.

    ¦ Пересчитываем процедуру кластерного анализа, указав в диалоговом окне Save число кластеров, состоящих из значимого количества наблюдений.

    ¦ Строим линейное распределение по новой переменной.

    Такая последовательность действий повторяется до тех пор, пока не будет найдено решение, в котором все кластеры будут состоять из статистически значимого числа респондентов. После этого можно переходить к завершающему этапу кластерного анализа -- интерпретации кластеров.

    Необходимо особо отметить, что критерий практической и статистической значимости численности кластеров не является единственным критерием, по которому можно определить оптимальное число кластеров. Исследователь может самостоятельно, на основании имеющегося у него опыта предложить число кластеров (условие значимости должно удовлетворяться). Другим вариантом является довольно распространенная ситуация, когда в целях исследования заранее ставится условие сегментировать респондентов по заданному числу целевых групп. В этом случае необходимо просто один раз провести иерархический кластерный анализ с сохранением требуемого числа кластеров и затем пытаться интерпретировать то, что получится.

    Для того чтобы описать полученные целевые сегменты, следует воспользоваться процедурой сравнения средних значений исследуемых переменных (кластерных центроидов). Мы сравним средние значения семи рассматриваемых критериев сегментирования в каждом из двух полученных кластеров.

    Процедура сравнения средних значений вызывается при помощи меню Analyze > Compare Means > Means. В открывшемся диалоговом окне (рис. 5.51) из левого списка выберите семь переменных, избранных в качестве критериев сегментирования (ql3-ql9), и перенесите их в поле для зависимых переменных Dependent List. Затем переменную сШ2_1, отражающую разделение респондентов на кластеры при окончательном (двухкластерном) решении задачи, переместите из левого списка в поле для независимых переменных Independent List. После этого щелкните на кнопке Options.

    Рис. 5.51.

    Откроется диалоговое окно Options, выберите в нем необходимые статистики для сравнения кластеров (рис. 5.52). Для этого в поле Cell Statistics оставьте только вывод средних значений Mean, удалив из него другие установленные по умолчанию статистики. Закройте диалоговое окно Options щелчком на кнопке Continue. Наконец, из главного диалогового окна Means запустите процедуру сравнения средних значений (кнопка ОК).

    Рис. 5.52.

    В открывшемся окне SPSS Viewer появятся результаты работы статистической процедуры сравнения средних значений. Нас интересует таблица Report (рис. 5.53). Из нее можно увидеть, на каком основании SPSS разделила респондентов на два кластера. Таким критерием в нашем случае служит уровень оценок по анализируемым параметрам. Кластер 1 состоит из респондентов, для которых средние оценки по всем критериям сегментирования находятся на сравнительно высоком уровне (4,40 балла и выше). Кластер 2 включает респондентов, оценивших рассматриваемые критерии сегментирования достаточно низко (3,35 балла и ниже). Таким образом, можно сделать вывод о том, что 93,3 % респондентов, сформировавшие кластер 1, оценили анализируемые авиакомпании по всем параметрам в целом хорошо; 5,4 % -- достаточно низко; 1,3 % -- затруднились ответить (см. рис. 5.50). Из рис. 5.53 можно также сделать вывод о том, какой уровень оценок для каждого из рассматриваемых параметров в отдельности является высоким, а какой -- низким (причем данный вывод будет сделан со стороны респондентов, что позволяет добиться высокой точности классификации). Из таблицы Report можно видеть, что для переменной Регулирование очереди высоким считается уровень средней оценки 4,40, а для параметра Внешний вид -- 4.72.


    Рис. 5.53.

    Может оказаться, что в аналогичном случае по параметру X высокой оценкой считается 4,5, а по параметру Y -- только 3,9. Это не будет ошибкой кластеризации, а напротив, позволит сделать важный вывод относительно значимости для респондентов рассматриваемых параметров. Так, для параметра Y уже 3,9 балла является хорошей оценкой, тогда как к параметру X респонденты предъявляют более строгие требования.

    Мы идентифицировали два значимых кластера, различающиеся по уровню средних оценок по критериям сегментирования. Теперь можно присвоить метки полученным кластерам: для 1 -- Авиакомпании, удовлетворяющие требованиям респондентов (по семи анализируемым критериям); для 2 -- Авиакомпании, не удовлетворяющие требованиям респондентов. Теперь можно посмотреть, какие конкретно авиакомпании (закодированные в переменной q4) удовлетворяют требованиям респондентов, а какие -- нет по критериям сегментирования. Для этого следует построить перекрестное распределение переменной q4 (анализируемые авиакомпании) в зависимости от кластеризующей переменной clu2_l. Результаты такого перекрестного анализа представлены на рис. 5.54.

    По этой таблице можно сделать следующие выводы относительно членства исследуемых авиакомпаний в выделенных целевых сегментах.


    Рис. 5.54.

    1. Авиакомпании, полностью удовлетворяющие требованиям всех клиентов по параметру работы наземного персонала (входят только в один первый кластер):

    ¦ Внуковские авиалинии;

    ¦ American Airlines;

    ¦ Delta Airlines;

    ¦ Austrian Airlines;

    ¦ British Airways;

    ¦ Korean Airlines;

    ¦ Japan Airlines.

    2. Авиакомпании, удовлетворяющие требованиям большинства своих клиентов по параметру работы наземного персонала (большая часть респондентов, летающих данными авиакомпаниями, удовлетворены работой наземного персонала):

    ¦ Трансаэро.

    3. Авиакомпании, не удовлетворяющие требованиям большинства своих клиентов по параметру работы наземного персонала (большая часть респондентов, летающих данными авиакомпаниями, не удовлетворены работой наземного персонала):

    ¦ Домодедовские авиалинии;

    ¦ Пулково;

    ¦ Сибирь;

    ¦ Уральские авиалинии;

    ¦ Самарские авиалинии;

    Таким образом, получено три целевых сегмента авиакомпаний по уровню средних оценок, характеризующиеся различной степенью удовлетворенности респондентов работой наземного персонала:

    • 1. наиболее привлекательные для пассажиров авиакомпании по уровню работы наземного персонала (14);
    • 2. скорее привлекательные авиакомпании (1);
    • 3. скорее непривлекательные авиакомпании (7).

    Мы успешно завершили все этапы кластерного анализа и сегментировали авиакомпании по семи выделенным критериям.

    Теперь приведем описание методики кластерного анализа в паре с факторным. Используем условие задачи из раздела 5.2.1 (факторный анализ). Как уже было сказано, в задачах сегментирования при большом числе переменных целесообразно предварять кластерный анализ факторным. Это делается для сокращения количества критериев сегментирования до наиболее значимых. В нашем случае в исходном файле данных у нас есть 24 переменные. В результате факторного анализа нам удалось сократить их число до 5. Теперь это число факторов может эффективно применяться для кластерного анализа, а сами факторы -- использоваться в качестве критериев сегментирования.

    Если перед нами стоит задача сегментировать респондентов по их оценке различных аспектов текущей конкурентной позиции авиакомпании X, можно провести иерархический кластерный анализ по выделенным пяти критериям (переменные nfacl_l-nfac5_l). В нашем случае переменные оценивались по разным шкалам. Например, оценка 1 для утверждения Я бы не хотел, чтобы авиакомпания менялась и такая же оценка утверждению Изменения в авиакомпании будут позитивным моментом диаметрально противоположны по смыслу. В первом случае 1 балл (совершенно не согласен) означает, что респондент приветствует изменения в авиакомпании; во втором случае оценка в 1 балл свидетельствует о том, что респондент отвергает изменения в авиакомпании. При интерпретации кластеров у нас неизбежно возникнут трудности, так как такие противоположные по смыслу переменные могут

    попасть в один и тот же фактор. Таким образом, для целей сегментирования рекомендуется сначала привести в соответствие шкалы исследуемых переменных, а затем пересчитать факторную модель. И уже далее проводить кластерный анализ над полученными в результате факторного анализа переменными-факторами. Мы не будем снова подробно описывать процедуры факторного и кластерного анализа (это было сделано выше в соответствующих разделах). Отметим лишь, что при такой методике в результате у нас получилось три целевые группы авиапассажиров, различающихся по уровню оценок выделенным факторам (то есть группам переменных): низшая, средняя и высшая.

    Весьма полезным применением кластерного анализа является разделение на группы частотных таблиц. Предположим, у нас есть линейное распределение ответов на вопрос Какие марки антивирусов установлены в Вашей организации?. Для формирования выводов по данному распределению необходимо разделить марки антивирусов на несколько групп (обычно 2-3). Чтобы разделить все марки на три группы (наиболее популярные марки, средняя популярность и непопулярные марки), лучше всего воспользоваться кластерным анализом, хотя, как правило, исследователи разделяют элементы частотных таблиц на глаз, основываясь на субъективных соображениях. В противоположность такому подходу кластерный анализ позволяет научно обосновать выполненную группировку. Для этого следует ввести значения каждого параметра в SPSS (эти значения целесообразно выражать в процентах) и затем выполнить кластерный анализ для этих данных. Сохранив кластерное решение для необходимого количества групп (в нашем случае 3) в виде новой переменной, мы получим статистически обоснованную группировку.

    Заключительную часть этого раздела мы посвятим описанию применения кластерного анализа для классификации переменных и сравнения его результатов с результатами факторного анализа, проведенного в разделе 5.2.1. Для этого мы вновь воспользуемся условием задачи про оценку текущей позиции авиакомпании X на рынке авиаперевозок. Методика проведения кластерного анализа практически полностью повторяет описанную выше (когда сегментировались респонденты).

    Итак, в исходном файле данных у нас есть 24 переменные, описывающие отношение респондентов к различным аспектам текущей конкурентной позиции авиакомпании X. Откройте главное диалоговое окно Hierarchical Cluster Analysis и поместите 24 переменные (ql-q24) в поле Variable(s), рис. 5.55. В области Cluster укажите, что вы классифицируете переменные (отметьте параметр Variables). Вы увидите, что кнопка Save стала недоступна -- в отличие от факторного, в кластерном анализе нельзя сохранить факторные рейтинги для всех респондентов. Откажитесь от вывода диаграмм, дезактивизировав параметр Plots. На первом этапе вам не нужны другие параметры, поэтому просто щелкните на кнопке О К, чтобы запустить процедуру кластерного анализа.

    В окне SPSS Viewer появилась таблица Agglomeration Schedule, по которой мы определили оптимальное число кластеров описанным выше методом (рис. 5.56). Первый скачок коэффициента агломерации наблюдается на 20 шаге (с 18834,000 до 21980,967). Исходя из общего числа анализируемых переменных, равного 24, можно вычислить оптимальное число кластеров: 24 - 20 = 4.

    Рис. 5.55.


    Рис. 5.56.

    При классификации переменных практически и статистически значимым является кластер, состоящий всего из одной переменной. Поэтому, поскольку мы получили приемлемое число кластеров математическим методом, проведение дальнейших проверок не требуется. Вместо этого снова откройте главное диалоговое окно кластерного анализа (все данные, использованные на предыдущем этапе, сохранились) и щелкните на кнопке Statistics, чтобы организовать вывод классификационной таблицы. Вы увидите одноименное диалоговое окно, где необходимо указать число кластеров, на которое необходимо разделить 24 переменные (рис. 5.57). Для этого выберите параметр Single solution и в соответствующем поле укажите требуемое число кластеров: 4. Теперь закройте диалоговое окно Statistics щелчком на кнопке Continue и из главного окна кластерного анализа запустите процедуру на выполнение.

    В результате в окне SPSS Viewer появится таблица Cluster Membership, распределяющая анализируемые переменные на четыре кластера (рис. 5.58).

    Рис. 5.58.

    По данной таблице можно отнести каждую рассматриваемую переменную в определенный кластер следующим образом.

    Кластер 1

    ql. Авиакомпания X обладает репутацией компании, превосходно обслуживающей пассажиров.

    q2. Авиакомпания X может конкурировать с лучшими авиакомпаниями мира.

    q3. Я верю, что у авиакомпании X есть перспективное будущее в мировой авиации.

    q5. Я горжусь тем, что работаю в авиакомпании X.

    q9. Нам предстоит долгий путь, прежде чем мы сможем претендовать на то, чтобы называться авиакомпанией мирового класса.

    qlO. Авиакомпания X действительно заботится о пассажирах.

    ql3. Мне нравится, как в настоящее время авиакомпания X представлена визуально широкой общественности (в плане цветовой гаммы и фирменного стиля).

    ql4. Авиакомпания X -- лицо России.

    ql6. Обслуживание авиакомпании X является последовательным и узнаваемым во всем

    ql8. Авиакомпании X необходимо меняться для того, чтобы использовать в полной мере имеющийся потенциал.

    ql9. Я думаю, что авиакомпании X необходимо представить себя в визуальном плане более современно.

    q20. Изменения в авиакомпании X будут позитивным моментом. q21. Авиакомпания X -- эффективная авиакомпания.

    q22. Я бы хотел, чтобы имидж авиакомпании X улучшился с точки зрения иностранных пассажиров.

    q23. Авиакомпания X -- лучше, чем многие о ней думают.

    q24. Важно, чтобы люди во всем мире знали, что мы -- российская авиакомпания.

    Кластер 2

    q4. Я знаю, какой будет стратегия развития авиакомпании X в будущем.

    q6. В авиакомпании X хорошее взаимодействие между подразделениями.

    q7. Каждый сотрудник авиакомпании прикладывает все усилия для того, чтобы обеспечить ее успех.

    q8. Сейчас авиакомпания X быстро улучшается.

    qll. Среди сотрудников авиакомпании имеет место высокая степень удовлетворенности работой.

    ql2. Я верю, что менеджеры высшего звена прикладывают все усилия для достижения успеха авиакомпании.

    Кластер 3

    ql5. Мы выглядим «вчерашним днем» по сравнению с другими авиакомпаниями.

    Кластер 4

    ql7. Я бы не хотел, чтобы авиакомпания X менялась.

    Сравнив результаты факторного (раздел 5.2.1) и кластерного анализов, вы увидите, что они существенно различаются. Кластерный анализ не только предоставляет существенно меньшие возможности для кластеризации переменных (например, отсутствие возможности сохранять групповые рейтинги) по сравнению с факторным анализом, но и выдает гораздо менее наглядные результаты. В нашем случае, если кластеры 2, 3 и 4 еще поддаются логической интерпретации1, то кластер 1 содержит совершенно разные по смыслу утверждения. В данной ситуации можно либо попытаться описать кластер 1 как есть, либо перестроить статистическую модель с другим числом кластеров. В последнем случае для поиска оптимального числа кластеров, поддающихся логическому описанию, можно воспользоваться параметром Range of solutions в диалоговом окне Statistics (см. рис. 5.57), указав в соответствующих полях минимальное и максимальное число кластеров (в нашем случае 4 и 6 соответственно). В такой ситуации SPSS перестроит таблицу Cluster Membership для каждого числа кластеров. Задача аналитика в данном случае -- попытаться подобрать такую классификационную модель, при которой все кластеры будут интерпретироваться однозначно. С целью демонстрации возможностей процедуры кластерного анализа для кластеризации переменных мы не будем перестраивать кластерную модель, а ограничимся лишь сказанным выше.

    Необходимо отметить, что, несмотря на кажущуюся простоту проведения кластерного анализа по сравнению с факторным, практически во всех случаях из маркетинговых исследований факторный анализ оказывается быстрее и эффективнее кластерного. Поэтому для классификации (сокращения) переменных мы настоятельно рекомендуем использовать именно факторный анализ и оставить применение кластерного анализа для классификации респондентов.

    Классификационный анализ является, пожалуй, одним из наиболее сложных, с точки зрения неподготовленного пользователя, статистических инструментов. С этим связана его весьма малая распространенность в маркетинговых компаниях. Вместе с тем именно данная группа статистических методов является и одной из наиболее полезных для практиков в области маркетинговых исследований.

    В STATISTICA реализованы классические методы кластерного анализа, включая методы k-средних, иерархической кластеризации и двухвходового объединения.

    Данные могут поступать как в исходном виде, так и в виде матрицы расстояний между объектами.

    Наблюдения и переменные можно кластеризовать, используя различные меры расстояния (евклидово, квадрат евклидова, манхэттеновское, Чебышева и др.) и различные правила объединения кластеров (одиночная, полная связь, невзвешенное и взвешенное попарное среднее по группам и др.).

    Постановка задачи

    Исходный файл данных содержит следующую информацию об автомобилях и их владельцах:

    Целью данного анализа является разбиение автомобилей и их владельцев на классы, каждый из которых соответствует определенной рисковой группе. Наблюдения, попавшие в одну группу, характеризуются одинаковой вероятностью наступления страхового случая, которая впоследствии оценивается страховщиком.

    Использование кластер-анализа для решения данной задачи наиболее эффективно. В общем случае кластер-анализ предназначен для объединения некоторых объектов в классы (кластеры) таким образом, чтобы в один класс попадали максимально схожие, а объекты различных классов максимально отличались друг от друга. Количественный показатель сходства рассчитывается заданным способом на основании данных, характеризующих объекты.

    Масштаб измерений

    Все кластерные алгоритмы нуждаются в оценках расстояний между кластерами или объектами, и ясно, что при вычислении расстояния необходимо задать масштаб измерений.

    Поскольку различные измерения используют абсолютно различные типы шкал, данные необходимо стандартизовать (в меню Данные выберете пункт Стандартизовать ), так что каждая переменная будет иметь среднее 0 и стандартное отклонение 1.

    Таблица со стандартизованными переменными приведена ниже.

    Шаг 1. Иерархическая классификация

    На первом этапе выясним, формируют ли автомобили "естественные" кластеры, которые могут быть осмыслены.

    Выберем Кластерный анализ в меню Анализ - Многомерный разведочный анализ для отображения стартовой панели модуля Кластерный анализ . В этом диалоге выберем Иерархическая классификация и нажмем OK .

    Нажмем кнопку Переменные , выберем Все , в поле Объекты выберем Наблюдения (строки ). В качестве правила объединения отметим Метод полной связи , в качестве меры близости - Евклидово расстояние . Нажмем ОК .

    Метод полной связи определяет расстояние между кластерами как наибольшее расстояние между любыми двумя объектами в различных кластерах (т.е. "наиболее удаленными соседями").

    Мера близости, определяемая евклидовым расстоянием, является геометрическим расстоянием в n- мерном пространстве и вычисляется следующим образом:

    Наиболее важным результатом, получаемым в результате древовидной кластеризации, является иерархическое дерево. Нажмем на кнопку Вертикальная дендрограмма .

    Вначале древовидные диаграммы могут показаться немного запутанными, однако после некоторого изучения они становятся более понятными. Диаграмма начинается сверху (для вертикальной дендрограммы) с каждого автомобиля в своем собственном кластере.

    Как только вы начнете двигаться вниз, автомобили, которые "теснее соприкасаются друг с другом" объединяются и формируют кластеры. Каждый узел диаграммы, приведенной выше, представляет объединение двух или более кластеров, положение узлов на вертикальной оси определяет расстояние, на котором были объединены соответствующие кластеры.

    Шаг 2. Кластеризация методом К средних

    Исходя из визуального представления результатов, можно сделать предположение, что автомобили образуют четыре естественных кластера. Проверим данное предположение, разбив исходные данные методом К средних на 4 кластера, и проверим значимость различия между полученными группами.

    В Стартовой панели модуля Кластерный анализ выберем Кластеризация методом К средних .

    Нажмем кнопку Переменные и выберем Все , в поле Объекты выберем Наблюдения (строки ), зададим 4 кластера разбиения.

    Метод K-средних заключается в следующем: вычисления начинаются с k случайно выбранных наблюдений (в нашем случае k=4), которые становятся центрами групп, после чего объектный состав кластеров меняется с целью минимизации изменчивости внутри кластеров и максимизации изменчивости между кластерами.

    Каждое следующее наблюдение (K+1) относится к той группе, мера сходства с центром тяжести которого минимальна.

    После изменения состава кластера вычисляется новый центр тяжести, чаще всего как вектор средних по каждому параметру. Алгоритм продолжается до тех пор, пока состав кластеров не перестанет меняться.

    Когда результаты классификации получены, можно рассчитать среднее значение показателей по каждому кластеру, чтобы оценить, насколько они различаются между собой.

    В окне Результаты метода К средних выберем Дисперсионный анализ для определения значимости различия между полученными кластерами.

    Итак, значение р<0.05, что говорит о значимом различии.

    Нажмем кнопку Элементы кластеров и расстояния для просмотра наблюдений, входящих в каждый из кластеров. Опция также позволяет отобразить евклидовы расстояния объектов от центров (средних значений) соответствующих им кластеров.

    Первый кластер:

    Второй кластер:

    Третий кластер:

    Четвертый кластер:

    Итак, в каждом из четырех кластеров находятся объекты со схожим влиянием на процесс убытков.

    Шаг 3. Описательные статистики

    Знание описательных статистик в каждой группе, безусловно, является важным для любого исследователя.

    Многие из нас слышали словосочетание «кластерный анализ», но вот что оно означает, представляют далеко не все. К тому же звучит оно более чем загадочно! На самом деле это всего лишь название метода разбиения выборки данных на категории элементов по определенным критериям. Например, кластерный анализ позволяет разделить людей на группы с высокой, средней и низкой самооценкой. Проще говоря, кластер - это тип объектов, схожих по определенному признаку.

    Кластерный анализ: проблемы в использовании

    Решив применить в своем исследовании данный метод, нужно помнить, что выделенные в его ходе кластеры могут быть неустойчивыми. Поэтому, как и в случае с факторным анализом, нужно проверить результаты на другой группе объектов или через определенный промежуток времени вычислить погрешность измерения. Более того, лучше всего использовать кластерный анализ на больших выборках, подобранных методом рандомизации или стратификации, ведь только так можно сделать научный вывод, применяя индукцию. Лучше всего он показал себя в проверке гипотез, а не в их создании на пустом месте.

    Иерархический кластерный анализ

    Если вам нужно классифицировать случайные элементы быстро, то начать можно с рассмотрения каждого из них на начальном этапе как отдельного кластера. В этом и заключается суть одного из самых простых для понимания видов кластерного анализа. Используя его, исследователь на втором этапе образует пары элементов, которые являются похожими по нужному признаку, а потом соединяет их между собой необходимое количество раз. Кластеры, находящиеся на минимальном расстоянии между собой, определяются с помощью интегративной процедуры. Повторяется она до тех пор, пока не будет достигнуто соответствие одному из следующих критериев:

    • получение заранее запланированного количества кластеров;
    • каждый из кластеров содержит необходимое количество элементов;
    • каждая группа обладает нужным соотношением разнородности и однородности внутри нее.

    Для того чтобы правильно вычислить расстояние между кластерами, зачастую используют такие приемы:

    • одиночной и полной связи;
    • средней взаимосвязи Кинга;
    • центроидный метод;
    • прием групповых средних.

    Для оценки результатов кластеризации применяют следующие критерии:

    • индекс четкости;
    • коэффициент разбиения;
    • обычная, нормализованная и модифицированная энтропия;
    • второй и третий функционал Рубенса.

    Методы кластерного анализа

    Чаще всего при анализе выборки объектов применяют метод минимального расстояния. Он заключается в том, что в кластер объединяют элементы с коэффициентом сходства, который больше порогового значения. При использовании метода локального расстояния выделяются два кластера: расстояние между точками первого из них максимальное, а второго - минимальное. Центроидный способ кластеризации предполагает вычисление расстояний между средними значениями показателей в группах. А метод Ворда рациональнее всего применять для группировки близких по исследуемому параметру кластеров.

Понравилась статья? Поделитесь ей