На этой странице

Требования
Шаг 1: метод и настройки
Режим кластеризации
Алгоритмы для кластеризации наблюдений и переменных
Алгоритмы бикластеризации
Автоматическая стандартизация
Шаг 2: определение оптимального числа кластеров
Стандартная кластеризация (наблюдения / переменные)
Бикластеризация
Шаг 3: полный анализ
Метрики валидности (кластеризация наблюдений и переменных)
Параметры вывода (кластеризация наблюдений и переменных)
Кластеризация переменных
Параметры вывода (бикластеризация)
Предупреждения
Добавление результатов в набор данных
Пропущенные данные
Контрольный список для отчёта
Воспроизводимость
Типичные ошибки

Кластерный анализ

Модуль Кластерный анализ группирует наблюдения, переменные или и то и другое в кластеры на основе их сходства. Поддерживаются три режима — кластеризация наблюдений, кластеризация переменных и бикластеризация — с несколькими алгоритмами в каждом режиме. Трёхэтапный процесс проведёт вас через выбор метода, определение оптимального числа кластеров и запуск полного анализа с метриками валидности и визуализациями.

Что такое кластерный анализ? Представьте, что у вас есть данные опроса 500 человек по 20 измеренным переменным. Кластерный анализ находит группы людей, ответивших похожим образом, — без предварительного указания того, какими должны быть эти группы. В отличие от классификации (где категории уже известны), кластеризация обнаруживает категории в самих данных. Метод применяется в маркетинговой сегментации («какие типы покупателей у нас есть?»), биологии («какие виды похожи?») и психологии («существуют ли отчётливые профили ответов?»).

Выберите переменные (не менее 2 числовых)
Выберите режим кластеризации и алгоритм
Задайте диапазон числа кластеров и нажмите Анализировать и определить k
Задайте k, настройте метрики валидности и параметры вывода
Нажмите Запустить кластерный анализ (или Запустить бикластерный анализ)

Требования

Необходимо выбрать не менее 2 числовых переменных. Нечисловые переменные автоматически исключаются (и перечисляются в выводе).

Шаг 1: метод и настройки

Режим кластеризации

Режим	Что группирует	Когда использовать
Кластеризация наблюдений	Строки (наблюдения)	«Какие типы участников есть в моих данных?»
Кластеризация переменных	Столбцы (переменные)	«Какие переменные ведут себя похожим образом?» — альтернатива факторному анализу для группировки переменных.
Бикластеризация	Строки и столбцы одновременно	«Есть ли подмножества наблюдений, схожих по подмножеству переменных?» — полезно, когда структура кластеров охватывает не все переменные.

Алгоритмы для кластеризации наблюдений и переменных

Алгоритм	Описание	Лучше всего подходит для
K-средних	Относит наблюдения к ближайшему центру кластера, затем пересчитывает центры. Быстрый и эффективный для больших наборов данных.	Хорошо разделённых, примерно сферических кластеров схожего размера
K-медоиды (PAM)	Аналогичен K-средних, но использует реальные точки данных в качестве центров (медоиды) вместо вычисленных средних.	Данных с выбросами — медоиды устойчивее средних
Иерархический	Строит дерево (дендрограмму) путём последовательного слияния наиболее похожих наблюдений или разделения наиболее различных.	Изучения структуры кластеров на нескольких уровнях; наборов данных малого и среднего размера

Настройки K-средних:

Инициализация — Хартигана–Вонга (по умолчанию), Ллойда, Форджи или МакКуина
Случайных запусков (по умолчанию: 25) — алгоритм выполняется несколько раз с разными начальными точками; сохраняется лучший результат. Большие значения снижают вероятность субоптимального решения.
Максимум итераций (по умолчанию: 100)

К-медоиды не имеют специфических настроек алгоритма, кроме метрики расстояния.

Настройки иерархического метода:

Метрика расстояния — Евклидово (по умолчанию), Манхэттэнское, Максимум (Чебышёва), Канберра или Минковского
Метод связи — как измеряется расстояние между кластерами:

Метод связи	Принцип работы	Как правило, даёт
Метод Уорда D2 (по умолчанию)	Минимизирует прирост суммарной внутрикластерной дисперсии при каждом слиянии	Компактные, примерно равновеликие кластеры
Полная	Расстояние = максимальное расстояние между любыми двумя точками кластеров	Компактные кластеры; чувствителен к выбросам
Среднего (UPGMA)	Расстояние = среднее всех попарных расстояний	Кластеры умеренного размера, сбалансированные
Одиночная	Расстояние = минимальное расстояние между любыми двумя точками	Длинные, цепочечные кластеры — хорошо для вытянутых форм, но склонны к «цепочечному эффекту»
Центроидная	Расстояние между центроидами кластеров	Может давать инверсии в дендрограмме
Медианная	Как центроидная, но взвешивает кластеры поровну вне зависимости от размера	Аналогична центроидной
МакКити (WPGMA)	Как средняя, но взвешивает кластеры поровну	Аналогична средней

При сочетании метода Уорда с неевклидовой метрикой расстояния появляется предупреждение: метод Уорда предполагает евклидовы расстояния.

Выбор метрики расстояния доступен для PAM и иерархического метода (K-средних использует собственное внутреннее расстояние).

Допущения:

K-средних предполагает примерно сферические кластеры схожего размера и лучше работает с непрерывными переменными. Метод минимизирует внутрикластерную дисперсию (евклидово расстояние), поэтому плохо справляется с вытянутыми, кольцеобразными или сильно различающимися по размеру кластерами.
PAM опирается на те же допущения о расстоянии, но устойчивее к выбросам благодаря использованию медоидов.
Иерархический не предъявляет распределительных требований, однако выбор метода связи сильно влияет на результат. Метод Уорда предполагает евклидовы расстояния; одиночная связь может порождать цепочечные артефакты.
Все методы предполагают, что выбранные переменные релевантны для структуры группировки. Нерелевантные переменные добавляют шум и ухудшают качество кластеров.

Какой алгоритм выбрать? K-средних — разумный выбор по умолчанию: быстрый, хорошо масштабируется и подходит для большинства задач. Используйте PAM при наличии выбросов или когда нужны интерпретируемые центры кластеров (реальные точки данных). Иерархический — когда хотите визуально исследовать разные числа кластеров с помощью дендрограммы или когда форма кластеров может быть не сферической.

Алгоритмы бикластеризации

Бикластеризация находит подгруппы наблюдений, схожих по подмножеству переменных, — в отличие от стандартной кластеризации, которая использует все переменные для каждого кластера.

Алгоритм	Описание	Определяет k автоматически?
BiMax	Находит бикластеры максимального размера в бинаризованных данных	Нет
Plaid	Аддитивная модель — каждый бикластер является «слоем», добавляемым к фону	Да
FABIA	Факторный подход — находит разреженные перекрывающиеся бикластеры	Нет
Чэна–Чёрча	Находит бикластеры с малым средним квадратичным остатком (высокая когерентность)	Нет
Спектральный	Использует разложение по сингулярным значениям для поиска шахматных паттернов	Да

Настройки BiMax:

Минимум строк и минимум столбцов (по умолчанию: 2)
Порог бинаризации (по умолчанию: 0) — значения выше порога становятся 1, ниже — 0

Настройки Plaid:

Фоновая модель — эффекты строк + столбцов (по умолчанию) или только константа
Максимум слоёв (по умолчанию: 20)
Порог обрезки строк/столбцов (по умолчанию: 0.7 для каждого, диапазон 0–1) — управляет интенсивностью исключения строк/столбцов из слоёв

Настройки FABIA:

Априорная разреженность нагрузок и факторов (по умолчанию: 0.6 и 0.5) — более высокие значения дают более разреженные (избирательные) бикластеры
Итераций (по умолчанию: 500)

Настройки Чэна–Чёрча:

Порог остатков (дельта) (по умолчанию: 1.5) — максимально допустимый средний квадратичный остаток. Меньшие значения требуют более когерентных бикластеров.
Альфа (по умолчанию: 1.5) — масштабирующий коэффициент при удалении узлов

Настройки спектрального метода:

Сингулярных векторов (по умолчанию: 3) — число используемых измерений SVD
Нормализация — Логарифмическая (по умолчанию), IRRC или Бистохастизация

Какой алгоритм бикластеризации выбрать? BiMax — хорошая отправная точка: простой и быстрый. Plaid подходит, когда бикластеры могут перекрываться и вы хотите, чтобы алгоритм сам определил их число. FABIA хорошо работает с зашумленными данными благодаря вероятностной модели. Чэна–Чёрча даёт прямой контроль над когерентностью через порог остатков. Спектральный — для данных с шахматным паттерном.

Автоматическая стандартизация

Если переменные имеют разные диапазоны, они автоматически стандартизируются (z-оценки). Это предотвращает доминирование переменных с большими значениями в расчётах расстояния. При применении стандартизация отмечается в выводе.

Зачем стандартизировать? Если одна переменная принимает значения от 0 до 100 (баллы за экзамен), а другая — от 1 до 5 (шкала Лайкерта), первая будет доминировать в кластеризации просто потому, что её числа больше. Стандартизация приводит все переменные к единой шкале, чтобы каждая вносила равный вклад.

Шаг 2: определение оптимального числа кластеров

До запуска полного анализа этот шаг сравнивает решения для разного числа кластеров, помогая выбрать k.

Стандартная кластеризация (наблюдения / переменные)

Задайте диапазон числа кластеров (по умолчанию: 2–10) и нажмите Анализировать и определить k.

Доступны четыре диагностических графика:

График локтя (внутрикластерная SS) — суммарная внутрикластерная сумма квадратов для каждого k. Ищите «локоть», где кривая сильнее изгибается: добавление кластеров сверх этой точки даёт убывающий прирост.
Силуэтный график — средний силуэтный коэффициент для каждого k. Наилучшее k (с наивысшим значением) выделено. Ориентировочные линии на уровнях 0.25, 0.50 и 0.70 помогают оценить качество.
График статистики разрыва — сравнивает внутрикластерное рассеяние с ожидаемым для случайных (равномерно распределённых) данных. Планки погрешностей отражают неопределённость, полученную методом Монте-Карло (50 бутстрэп-выборок).
Дендрограмма (только иерархический) — полное дерево с перетаскиваемой линией разреза. Перетащите её вверх или вниз для исследования разных значений k — ветви окрашиваются по принадлежности к кластеру в реальном времени.

Что такое силуэтный коэффициент? Для каждого наблюдения силуэт измеряет, насколько оно похоже на свой кластер по сравнению с ближайшим другим. Значения лежат в диапазоне от −1 до +1: около +1 — наблюдение хорошо размещено; около 0 — оно находится на границе между кластерами; отрицательные значения — вероятно, наблюдение попало в неверный кластер. Среднее по всем наблюдениям отражает общее качество кластеризации.

Что такое статистика разрыва? Она сравнивает компактность кластеров с тем, что получилось бы при кластеризации случайного шума. Если данные имеют реальную структуру, разрыв (разность) будет большим. Оптимальное k — наименьшее значение, при котором разрыв находится в пределах одного стандартного отклонения от максимума: это баланс между качеством и простотой.

Сравнительная таблица

Таблица с одной строкой на k:

Метрика	Хорошее значение	Что измеряет
Внутрикластерная SS	Ниже	Суммарная внутрикластерная сумма квадратов — насколько компактны кластеры внутри
Силуэт	Выше (≥ 0.50 — приемлемо, ≥ 0.70 — хорошо)	Насколько хорошо разделены кластеры
Калинского–Харабаша	Выше	Отношение межкластерной к внутрикластерной дисперсии — выше означает более компактные и дальше расположенные кластеры
Дэвиса–Болдина	Ниже	Среднее сходство каждого кластера с наиболее похожим соседом — ниже означает более различимые кластеры
Данна	Выше	Отношение минимального межкластерного расстояния к максимальному внутрикластерному диаметру — чувствителен к выбросам
Статистика разрыва	Выше	Насколько ваша кластеризация лучше, чем для случайных данных
Хартигана	> 10 указывает на целесообразность добавления кластера	Оправдывает ли переход от k к k+1 прирост качества

Наилучшие значения подсвечены зелёным. Значения Хартигана выше 10 выделены жёлтым.

Под таблицей отображаются рекомендации:

Рекомендуемое k (силуэт) — k с наивысшим средним силуэтным значением
Рекомендуемое k (статистика разрыва) — по критерию firstSEmax

Метрики расходятся — какой из них доверять? Это типичная ситуация. Силуэт — наиболее интуитивная и широко используемая метрика; начинайте с неё. Статистика разрыва тяготеет к более простым решениям (меньше кластеров). Калинского–Харабаша и Дэвиса–Болдина предполагают примерно сферические кластеры и могут вводить в заблуждение при вытянутых или нерегулярных формах. Воспринимайте таблицу сравнения как ориентир, а не как приговор: попробуйте 2–3 лучших кандидата и выберите тот, что даёт наиболее интерпретируемые кластеры.

Бикластеризация

Для алгоритмов, требующих указания k (BiMax, FABIA, Чэна–Чёрча), задайте диапазон числа бикластеров (по умолчанию: 2–10) и нажмите Сравнить решения.

Диагностические графики:

Объяснённая дисперсия — процент общей дисперсии, захваченный при каждом k
Когерентность — средний квадратичный остаток (ниже = более когерентные бикластеры)
Покрытие — три линии: покрытие строк, столбцов и ячеек в процентах

Три дополнительные медленные диагностики (по умолчанию отключены):

Анализ стабильности — бутстрэп-ресэмплинг для оценки согласованности выявленных бикластеров в разных выборках (схожесть Жаккара)
F-статистики — проверяет статистическую значимость строчных и столбцовых эффектов внутри каждого бикластера. Ориентировочная линия на уровне 80% помогает оценить качество.
Консенсусное оценивание — алгоритм запускается несколько раз с разными начальными значениями; измеряется согласованность между запусками

Сравнительная таблица бикластеров

Метрика	Что измеряет
Найдено	Фактическое число обнаруженных бикластеров (может быть меньше запрошенного)
Объяснённая дисперсия (%)	Какую долю общей дисперсии захватывают бикластеры
Прирост	Дополнительная объяснённая дисперсия по сравнению с предыдущим k
Средний MSR	Средний квадратичный остаток — когерентность бикластеров (ниже = более когерентные)
Среднее перекрытие	Сходство Жаккара между бикластерами — высокое перекрытие (> 0.3, жёлтый цвет) означает, что бикластеры разделяют много общих членов
Покрытие ячеек (%)	Процент ячеек данных, входящих хотя бы в один бикластер

При включении диагностики стабильности, F-статистик или консенсусного оценивания добавляются соответствующие столбцы.

Выдаётся рекомендуемое k на основе определения локтя на кривой объяснённой дисперсии.

Для алгоритмов с автоматическим определением k (Plaid, спектральный) на шаге 2 отображается информационное примечание — эти алгоритмы определяют k самостоятельно.

Шаг 3: полный анализ

Задайте число кластеров и нажмите Запустить кластерный анализ (или Запустить бикластерный анализ).

Метрики валидности (кластеризация наблюдений и переменных)

Метрика	По умолчанию	Хорошее значение	Что измеряет
Силуэтный анализ	Вкл	≥ 0.50 приемлемо, ≥ 0.70 хорошо	Общее качество разделения кластеров
Калинского–Харабаша	Вкл	Выше лучше	Отношение межкластерной к внутрикластерной дисперсии
Дэвиса–Болдина	Вкл	Ниже лучше	Насколько каждый кластер похож на ближайшего соседа (ниже = более различимые кластеры)
Индекс Данна	Выкл	Выше лучше	Отношение наименьшего межкластерного расстояния к наибольшему внутрикластерному диаметру

При включённой интерпретации силуэтные значения сопровождаются метками:

Значение	Интерпретация
≥ 0.70	Выраженная структура
≥ 0.50	Приемлемая структура
≥ 0.25	Слабая структура
< 0.25	Структура не выражена

Параметры вывода (кластеризация наблюдений и переменных)

Параметр	По умолчанию	Что показывает
Профили кластеров	Вкл	Среднее каждой переменной в каждом кластере плюс общее среднее. Помогает охарактеризовать, чем различаются кластеры. Недоступно в режиме переменных.
Размеры кластеров	Вкл	Число наблюдений и доля в каждом кластере
Внутрикластерная SS	Вкл	Сумма квадратов внутри каждого кластера и процент от общей — показывает, какие кластеры компактные, а какие разрежённые
Межкластерная SS	Выкл	Дисперсия, объяснённая кластеризацией — доля общей дисперсии, приходящаяся на межкластерные различия
Центры кластеров (медоиды)	Только PAM	Реальные точки данных, используемые как представители кластеров, с номерами строк
Силуэтный график	Выкл	Столбчатая диаграмма с силуэтной шириной каждого наблюдения, сгруппированная по кластерам
Вклад переменных	Выкл	F-статистика и эта-квадрат для каждой переменной — какие переменные лучше всего различают кластеры. Недоступно в режиме переменных.

Специфические параметры иерархического метода:

Дендрограмма (включена по умолчанию) — дерево с ветвями, окрашенными по кластерам
Оптимизация порядка листьев — перестраивает листья для улучшения визуализации

Чтение профилей кластеров: таблица профилей — как правило, наиболее полезный результат. Обратите внимание, какие переменные имеют высокие или низкие средние в каждом кластере по сравнению с общим средним. Если Кластер 1 отличается высокой тревожностью, высоким стрессом и низким благополучием, а Кластер 2 — противоположным паттерном, перед вами психологически различимые группы. Давайте кластерам названия по их определяющим характеристикам, но помните: метки — это ваша интерпретация, а не вывод из данных (та же оговорка, что и при именовании факторов).

Вклад переменных (эта-квадрат): эта-квадрат показывает, какая доля дисперсии переменной объясняется принадлежностью к кластеру. Высокое значение (например, 0.60) означает, что кластеры сильно различаются по этой переменной — она является мощным разграничителем. Низкое значение (0.05) означает, что кластеры схожи по этой переменной — она мало влияет на структуру кластеров.

Кластеризация переменных

В режиме кластеризации переменных матрица данных транспонируется — переменные становятся «наблюдениями», которые кластеризуются. Расстояние между переменными основано на их корреляции по наблюдениям: сильно коррелирующие переменные попадают в один кластер.

Результат включает таблицу Распределение переменных по кластерам с указанием кластерной принадлежности каждой переменной. Профили кластеров и параметр вклада переменных скрыты (неприменимы). На силуэтном графике и дендрограмме используются имена переменных.

Кластеризация переменных vs. факторный анализ: оба подхода группируют переменные, но работают по-разному. Факторный анализ моделирует латентные конструкты: предполагается, что переменные обусловлены глубинными факторами, и оценивается формальная модель с нагрузками и коммунальностями. Кластеризация переменных основана исключительно на расстояниях — она группирует сильно коррелирующие переменные, не предполагая никакой порождающей модели. Используйте факторный анализ, когда нужно моделировать латентную структуру и вычислять факторные оценки. Используйте кластеризацию переменных, когда нужна быстрая группировка — например, для выявления избыточных переменных перед другим анализом или для проверки того, естественно ли переменные разбиваются на ожидаемые субшкалы.

Если дендрограмма включена, переменные, сливающиеся на малой высоте, наиболее похожи (высоко коррелируют). Ищите отчётливые ветви — каждая из них является потенциальным кластером переменных. Переменная, которая присоединяется поздно (на большой высоте слияния), может явно не принадлежать ни к одной группе.

Параметры вывода (бикластеризация)

Параметр	По умолчанию	Что показывает
Сводка бикластеров	Вкл	Число строк, столбцов, общий размер, среднее значение и средний квадратичный остаток каждого бикластера
Таблицы членства	Вкл	Какие переменные входят в какие бикластеры (матрица с галочками) и столбец с количеством
Профили бикластеров	Вкл	Среднее каждой переменной внутри каждого бикластера (только для переменных, входящих в данный бикластер)
Когерентность по бикластерам	Вкл	MSR, дисперсия строк и дисперсия столбцов для каждого бикластера
Анализ перекрытий	Выкл	Матрицы сходства Жаккара, показывающие, в какой мере бикластеры разделяют строки и столбцы
Тепловая карта	Вкл	Цветовая матрица с контурами принадлежности к бикластерам

Тепловая карта поддерживает необязательные дендрограммы для строк и столбцов (обе включены по умолчанию), использует дивергентную цветовую шкалу (синий–белый–красный для стандартизованных данных) и показывает всплывающие подсказки с именем строки, столбца, значением и принадлежностью к бикластеру при наведении.

Обзор бикластеризации

Каждый запуск включает сводку с объяснённой дисперсией (%), покрытием строк, столбцов и ячеек.

Покрытие бикластеризации: покрытие показывает, какая часть данных «объяснена» бикластерами. Низкое покрытие ячеек означает, что бикластеры захватывают лишь небольшую часть данных — либо структура разреженная (что нормально для некоторых задач), либо k слишком мало. Покрытие строк и столбцов показывает, не остаются ли некоторые наблюдения или переменные полностью за пределами бикластеров.

Предупреждения

Анализ генерирует предупреждения о потенциально проблемных результатах:

Сильно несбалансированные кластеры — наименьший кластер содержит менее 5% наблюдений
Очень малые кластеры — менее 10 наблюдений
Экстремальный дисбаланс размеров — наибольший кластер более чем в 10 раз больше наименьшего
Низкий силуэт — ниже 0.25 («структура не выражена») или 0.25–0.50 («слабая структура»)
Много отрицательных силуэтов — более 10% наблюдений с отрицательными значениями (вероятно, в неверном кластере)
Низкая объяснённая дисперсия — ниже 50%
Кластеры из одной переменной (режим переменных) — кластер, содержащий единственную переменную, может не иметь смысла

Добавление результатов в набор данных

Кластеризация наблюдений: нажмите Добавить принадлежность к кластерам в набор данных, чтобы создать новую категориальную переменную (например, Cluster_k3) с номером кластера для каждого наблюдения. Наблюдения с пропущенными данными получают NA.

Бикластеризация: нажмите Добавить принадлежность к бикластерам в набор данных, чтобы создать по одной бинарной переменной на бикластер (например, BC1_k3, BC2_k3). Переменная равна 1, если наблюдение входит в данный бикластер, и 0 в противном случае.

Добавленные переменные можно использовать в дальнейших анализах — как группирующие переменные для сравнительного анализа, как предикторы в регрессии или как групповые переменные для проверки инвариантности измерений.

Пропущенные данные

Пропущенные значения обрабатываются построчным удалением — используются только полные наблюдения. Если число полных наблюдений отличается от общего, в выводе указываются оба. Фиксированное начальное значение генератора случайных чисел (42) обеспечивает воспроизводимость результатов.

Пропущенные данные и кластеризация: в отличие от некоторых других модулей, кластерный анализ не поддерживает попарное удаление — каждому наблюдению необходимы полные данные по всем выбранным переменным. При широко распространённых пропусках рассмотрите уменьшение числа переменных или применение импутации перед анализом.

Контрольный список для отчёта

Что важно включить при описании результатов кластерного анализа:

Метод:

Режим кластеризации (наблюдений, переменных или бикластеризация)
Использованный алгоритм (K-средних, PAM, иерархический или алгоритм бикластеризации)
Метрика расстояния и метод связи (для иерархического / PAM)
Проводилась ли стандартизация (и почему — например, разные шкалы измерений)
Как определялось число кластеров: какие метрики использовались (силуэт, статистика разрыва, «локоть», дендрограмма) и как разрешались противоречия
Объём выборки и число переменных
Способ обработки пропущенных данных

Результаты:

Число кластеров и их размеры
Метрики валидности — как минимум средняя силуэтная ширина; желательно также Калинского–Харабаша и Дэвиса–Болдина
Профили кластеров (средние по переменным и кластерам) — основа интерпретации
Объяснённая дисперсия (межкластерная SS как процент от общей)
Все предупреждения (несбалансированные кластеры, низкий силуэт, отрицательные силуэты)

Для бикластеризации: укажите алгоритм, число найденных бикластеров, объяснённую дисперсию, покрытие ячеек и когерентность (MSR). Включите таблицу членства или тепловую карту.

Воспроизводимость

Каждый анализ выводит соответствующий R-код в консоль R — его можно просматривать, копировать и повторно запускать. Кластерный анализ использует базовые функции R (kmeans, hclust) и пакет cluster (для PAM и силуэтного анализа); бикластеризация — пакеты biclust и fabia. Ссылки на использованные пакеты R автоматически появляются в начале раздела вывода. Фиксированное начальное значение генератора псевдослучайных чисел (42) обеспечивает воспроизводимость результатов между запусками.

Типичные ошибки

Кластерный анализ по своей природе разведочный — он всегда найдёт кластеры, независимо от того, являются ли они содержательными. Несколько вещей, которые стоит иметь в виду.

Кластеры существуют всегда — даже в случайных данных. K-средних разобьёт случайный шум на k групп и с невозмутимым видом сообщит центры кластеров. Низкий силуэтный коэффициент (< 0.25) или низкая объяснённая дисперсия (< 50%) — признаки того, что «кластеры» могут не отражать реальную структуру. Всегда проверяйте метрики валидности, прежде чем интерпретировать результаты.

Результаты зависят от метода. K-средних, PAM и иерархический могут давать разные кластеры на одних и тех же данных. Разные методы связи в иерархическом методе могут давать разные кластеры. Разные метрики расстояния могут давать разные кластеры. Если кластеры проявляются только при одной конкретной комбинации настроек — они могут быть неустойчивы. Попробуйте несколько подходов и ищите согласующиеся паттерны.

Слишком много переменных могут навредить. При большом числе переменных расстояния начинают определяться шумом — каждое наблюдение выглядит одинаково удалённым от всех остальных («проклятие размерности»). При 50 переменных рассмотрите их предварительное сокращение с помощью факторного анализа или АГК и кластеризацию по факторным оценкам.

Не проверяйте различия кластеров на переменных, использованных для кластеризации. Если испытуемые кластеризованы по баллам тревожности и депрессии, а затем запускается t-критерий с вопросом «различаются ли кластеры по тревожности?» — конечно, различаются: вы сами сделали их такими. Проверка различий кластеров по переменным, участвовавшим в кластеризации, является круговым рассуждением. Вместо этого сравнивайте кластеры по внешним переменным, не использованным при кластеризации (например, кластеризуйте по личностным пунктам, затем проверяйте, различаются ли кластеры по эффективности работы).

Кластеры могут быть произвольными разрезами континуума. Не все данные имеют естественные группы. Баллы депрессии могут образовывать плавный градиент от низкого к высокому, а не отдельные кластеры «депрессивных» и «недепрессивных». Принудительное разбиение на два кластера создаёт искусственную границу. Известный пример этой дискуссии — типология личности: исследователи кластеризовали оценки «Большой пятёрки» в типы «устойчивых», «сверхконтролируемых» и «недоконтролируемых» — однако сами измерения «Большой пятёрки» непрерывны и нормально распределены, поэтому «типы» могут быть просто областями гладкого пространства, а не естественными категориями. Проверьте, показывает ли силуэтный график чёткое разделение или размытое перекрытие.

Метки кластеров — это интерпретации. Та же оговорка, что и при именовании факторов: назвать кластер «Устойчивые высокоэффективные» только потому, что у него выше средних по ряду положительных черт, — это ваша интерпретация. Приводите фактические средние профиля, чтобы читатели могли судить самостоятельно.

Решения специфичны для выборки. Структуры кластеров чувствительны к составу выборки. Решение с 3 кластерами в вашей выборке может не воспроизводиться в другой генеральной совокупности. По возможности разделите данные пополам и проверьте, воспроизводятся ли одни и те же кластеры в обеих частях — или используйте диагностику стабильности в сравнении алгоритмов бикластеризации как ориентир.

Кластерный анализ #

Требования #

Шаг 1: метод и настройки #

Режим кластеризации #

Алгоритмы для кластеризации наблюдений и переменных #

Алгоритмы бикластеризации #

Автоматическая стандартизация #

Шаг 2: определение оптимального числа кластеров #

Стандартная кластеризация (наблюдения / переменные) #

Сравнительная таблица #

Бикластеризация #

Сравнительная таблица бикластеров #

Шаг 3: полный анализ #

Метрики валидности (кластеризация наблюдений и переменных) #

Параметры вывода (кластеризация наблюдений и переменных) #

Кластеризация переменных #

Параметры вывода (бикластеризация) #

Обзор бикластеризации #

Предупреждения #

Добавление результатов в набор данных #

Пропущенные данные #

Контрольный список для отчёта #

Воспроизводимость #

Типичные ошибки #