На этой странице
- Требования
- Шаг 1: метод и настройки
- Тип корреляции
- Метод извлечения
- Метод вращения
- Шаг 2: определение числа факторов
- Настройка
- Проверка пригодности данных
- MSA по переменным (необязательно)
- График осыпи
- Сравнительная таблица моделей
- Шаг 3: полный анализ
- Настройка анализа
- Параметры вывода
- Диагностика и предупреждения
- Индексы подгонки модели (только РФА)
- Объяснённая дисперсия
- Матрица нагрузок
- Диаграмма путей
- Корреляции факторов/компонент (только косоугольные вращения)
- Матрицы антиобраза
- Факторные/компонентные оценки
- Преобразование Шмида-Леймана
- Коэффициенты надёжности омега
- Декомпозиция дисперсии
- Иерархические факторные нагрузки
- Иерархическая диаграмма путей
- Факторные оценки Шмида–Леймана
- Сравнение методов извлечения
- Выбор методов
- Сравнение индексов подгонки
- Коэффициенты конгруэнтности Такера
- Взаимосвязь настроек
- Пропущенные данные
- Пороги интерпретации
- Контрольный список для отчёта
- Воспроизводимость
- Типичные ошибки
Разведочный факторный анализ и анализ главных компонент
Модуль Факторный анализ выявляет латентную структуру в наборе переменных. Поддерживаются анализ главных компонент (АГК, англ. PCA) и девять методов извлечения для разведочного факторного анализа (РФА/ЭФА, англ. EFA), а также ортогональные и косоугольные вращения. Трёхэтапный процесс проведёт вас через выбор настроек, определение числа факторов и полное извлечение с нагрузками, диагностикой и факторными оценками. Когда структура ясна — одномерная или многомерная, — можно перейти к IRT-анализу для моделирования на уровне отдельных пунктов, включая многомерную IRT.
АГК или РФА — что нужно вам? Оба метода сводят множество переменных к меньшему числу измерений, но отвечают на разные вопросы. АГК создаёт компоненты — взвешенные линейные комбинации исходных переменных, объясняющие максимальную дисперсию. Это метод снижения размерности: «У меня 20 вопросов анкеты, и я хочу описать их меньшим числом показателей». РФА извлекает факторы — гипотетические латентные переменные, объясняющие, почему пункты коррелируют между собой. Это инструмент для построения теории: «Я думаю, что ответы определяются несколькими глубинными чертами — что это за черты?» На практике АГК и РФА нередко дают схожие результаты, однако если вы разрабатываете психологическую шкалу или проверяете теоретическую структуру, РФА — более подходящий выбор.
- Выберите переменные (не менее 3 числовых)
- Выберите тип корреляции, метод извлечения и вращение
- Задайте диапазон числа факторов и включите параллельный анализ и/или график осыпи
- Нажмите Анализировать и определить число факторов, чтобы проверить пригодность данных и сравнить решения
- Задайте число факторов, настройте параметры вывода
- Нажмите Запустить полный анализ для получения нагрузок, диагностики и оценок
Требования
Должны быть выбраны не менее 3 числовых переменных. Категориальные переменные исключаются автоматически.
Шаг 1: метод и настройки
Три параметра определяют, как будет выполнен анализ.
Тип корреляции
| Тип | Когда применять |
|---|---|
| Пирсона | Непрерывные, примерно нормально распределённые переменные (по умолчанию) |
| Спирмена | Непрерывные переменные с нелинейными связями или выбросами |
| Смешанный (полихорические/полисериальные) | Порядковые переменные (например, шкалы Ликерта) или смесь порядковых и непрерывных |
Зачем полихорические корреляции? Стандартные корреляции Пирсона между порядковыми пунктами (шкалы Ликерта 1–5) занижают истинные связи, поскольку трактуют дискретные ответы как непрерывные. Полихорические корреляции оценивают, какой была бы корреляция, если бы измеряемый признак имел непрерывную природу. Для ответов на опросники тип «Смешанный», как правило, является наиболее подходящим.
Метод извлечения
| Метод | Описание |
|---|---|
| Анализ главных компонент (PCA) | Не факторный анализ — извлекает компоненты, максимизирующие общую дисперсию. Без статистик подгонки модели. |
| Максимального правдоподобия (ML) | Предполагает многомерную нормальность. Даёт критерий хи-квадрат и индексы подгонки для оценки модели. |
| Метод главных осей (PA) | Итеративно оценивает коммунальности. Без распределительных допущений. Надёжный вариант по умолчанию для РФА. |
| Минимум остатков (MINRES) | Минимизирует внедиагональные остаточные корреляции. Устойчив и широко рекомендуется. |
| Невзвешенный МНК (ULS) | Аналогичен MINRES. Минимизирует сумму квадратов остатков. |
| Взвешенный МНК (WLS) | Взвешивает остатки по обратной величине их дисперсии. |
| Обобщённый МНК (GLS) | Аналогичен ML, но устойчивее к ненормальности. |
| Минимум хи-квадрат (MINCHI) | Минимизирует хи-квадрат, взвешенный по объёму выборки. |
| Минимум ранга (MINRANK) | Минимизирует ранг матрицы остаточных корреляций. |
| Альфа-факторизация | Максимизирует обобщаемость (альфа-надёжность) факторов. |
При выборе АГК косоугольные вращения, бифакторное вращение, сравнение методов извлечения и преобразование Шмида–Леймана недоступны.
Какой метод извлечения выбрать? В большинстве ситуаций MINRES или PA — безопасный вариант по умолчанию: они не предъявляют требований к распределению и хорошо справляются с типичными данными. Используйте ML, если данные примерно нормальны и вы хотите получить формальные тесты подгонки (хи-квадрат, RMSEA, CFI). Если ML не сходится (что часто бывает при неположительно определённых матрицах), переключитесь на MINRES или PA.
Метод вращения
Вращение облегчает интерпретацию факторного решения, перераспределяя дисперсию между факторами.
Ортогональное — факторы остаются некоррелированными:
- Варимакс (по умолчанию) — максимизирует разброс высоких нагрузок внутри каждого фактора. Наиболее распространённый выбор.
- Квартимакс — максимизирует разброс высоких нагрузок внутри каждой переменной. Как правило, выделяет один доминирующий общий фактор.
- Эквамакс — компромисс между Varimax и Quartimax.
- Варимин, Геомин Т, T-инвариант Бентлера — менее распространённые альтернативы.
- Бифактор — извлекает общий фактор плюс специфические групповые факторы. Если ожидается 3 содержательных измерения, задайте число факторов равным 4 (один общий + три специфических). Связанный подход — преобразование Шмида–Леймана.
Косоугольное — факторам разрешается коррелировать:
- Облимин — наиболее распространённое косоугольное вращение.
- Промакс — быстрое приближение косоугольного вращения, начинающееся с решения Варимакс.
- Квартимин, Симплимакс, Кластер, Геомин Q, Q-инвариант Бентлера, Биквартимин — менее распространённые альтернативы.
Без вращения — результаты извлечения без применения вращения.
Ортогональное или косоугольное? Если факторы, скорее всего, коррелируют между собой (что почти всегда верно в психологии — тревожность и депрессия коррелируют, экстраверсия и общительность коррелируют), используйте косоугольное вращение. Оно даёт более реалистичные результаты и не навязывает искусственную независимость. Если факторы окажутся некоррелированными, косоугольное вращение покажет около нулевые межфакторные корреляции и результат будет похож на Варимакс. При сомнениях начинайте с Облимин.
Шаг 2: определение числа факторов
До запуска полного анализа этот шаг помогает решить, сколько факторов или компонент извлекать. Оцениваются пригодность данных и сравниваются решения для разного числа факторов.
Настройка
- Диапазон числа факторов/компонент — минимум (по умолчанию: 1) и максимум (по умолчанию: 6). Максимум должен быть меньше числа выбранных переменных.
- Запустить параллельный анализ (включено по умолчанию) — сравнивает собственные значения с теми, что получаются на случайных данных
- Показать график осыпи (включено по умолчанию)
- Показать MSA по переменным (выключено по умолчанию) — мера выборочной пригодности для каждой отдельной переменной
Нажмите Анализировать и определить число факторов.
Проверка пригодности данных
Сводная таблица с тремя проверками:
- Кайзера–Мейера–Олькина (KMO) — общая мера выборочной пригодности, от 0 до 1. Чем выше, тем лучше.
| KMO | Интерпретация |
|---|---|
| ≥ 0.90 | Превосходно |
| ≥ 0.80 | Хорошо |
| ≥ 0.70 | Средне |
| ≥ 0.60 | Посредственно |
| ≥ 0.50 | Плохо |
| < 0.50 | Неприемлемо |
- Критерий сферичности Бартлетта — проверяет, отличается ли корреляционная матрица от единичной. Значимый результат (p < 0.05) означает, что переменные достаточно коррелируют для факторного анализа.
- Определитель корреляционной матрицы — очень малые значения (< 0.00001) указывают на мультиколлинеарность, способную вызвать проблемы оценивания.
Что говорят эти проверки? KMO измеряет, малы ли частные корреляции между переменными: если это так, переменные имеют общие факторы и факторный анализ оправдан. Критерий Бартлетта проверяет минимальное условие: коррелируют ли переменные вообще? Если KMO ниже 0.50, факторный анализ для этих данных, скорее всего, неуместен. Если критерий Бартлетта незначим, переменные могут быть слишком независимы для выделения осмысленных факторов.
При включённой настройке интерпретации значения KMO сопровождаются приведёнными выше метками.
MSA по переменным (необязательно)
Таблица, отсортированная по MSA (от меньшего к большему): мера выборочной пригодности для каждой переменной. Переменные с MSA ниже 0.50 выделены красным, ниже 0.60 — жёлтым. Переменные с MSA ниже 0.50 стоит рассмотреть для исключения — они не разделяют достаточно общей дисперсии с остальными переменными, чтобы внести вклад в чистое факторное решение.
График осыпи
Интерактивный график собственных значений по компонентам. Ищите «локоть» — точку, где собственные значения резко падают.
На графике отображаются:
- Реальные собственные значения — синяя линия с интерактивными точками
- Критерий Кайзера — красная пунктирная линия на уровне 1
- Случайные данные — оранжевая пунктирная линия (из параллельного анализа, при включённой опции)
- Данные с ресэмплингом — зелёная пунктирная линия (из параллельного анализа, при включённой опции)
Под графиком расположен блок рекомендаций по трём методам:
- Критерий Кайзера — число факторов с собственным значением > 1 (склонен к избыточному извлечению)
- Метод локтя — определяется автоматически методом ускорения
- Параллельный анализ — факторы, собственные значения которых превышают 95-й процентиль случайных данных (как правило, наиболее надёжный метод)
Какой рекомендации следовать? Три метода нередко расходятся. Параллельный анализ считается наиболее точным и является рекомендуемой отправной точкой. Критерий Кайзера (собственное значение > 1) прост, но склонен предлагать слишком много факторов. Метод локтя субъективен, но полезен как дополнительная проверка. При расхождении методов попробуйте разные варианты числа факторов и выберите то решение, которое даёт наиболее интерпретируемые факторы.
График осыпи можно экспортировать в SVG.
Сравнительная таблица моделей
Таблица с одной строкой на каждое проверяемое число факторов:
- N — число факторов/компонент
- Собственное значение — для данного числа факторов
- Дисперсия, % — доля дисперсии, объяснённая этим фактором
- Кумулятивная, % — нарастающий итог объяснённой дисперсии
Для методов РФА дополнительно отображаются индексы подгонки:
| Индекс | Хорошее значение | Что измеряет |
|---|---|---|
| RMSEA | ≤ 0.08 | Насколько хорошо модель аппроксимирует ковариационную матрицу генеральной совокупности (чем меньше, тем лучше) |
| CFI | ≥ 0.90 | Улучшение относительно нулевой модели, в которой все переменные некоррелированы |
| TLI | ≥ 0.90 | То же, что CFI, но с штрафом за сложность модели |
| BIC | Минимальный | Байесовский информационный критерий — баланс подгонки и сложности |
| SABIC | Минимальный | BIC с поправкой на объём выборки |
| SRMR | ≤ 0.08 | Среднее расхождение между наблюдаемыми и предсказанными корреляциями |
Для АГК и РФА:
- Средняя h² — средняя коммунальность (доля дисперсии переменных, объяснённая факторами; выделена жирным при ≥ 0.70)
- Сложность — сложность по Хоффману (1.0 = каждая переменная нагружает ровно один фактор; выделена жирным при ≤ 1.2)
- Гиперплоскость — переменные без нагрузки выше 0.3 ни на одном факторе (выделена жирным при 0 — каждая переменная нагружает хотя бы один фактор)
- VSS1 / VSS2 — критерий очень простой структуры при сложности 1 и 2 (лучшее значение выделено жирным)
- Интерпретация — общая оценка подгонки (при включённой интерпретации)
Значения, соответствующие порогам «хорошей подгонки», выделены жирным. Строки, где собственное значение превышает 1, подсвечены синим.
Как читать индексы подгонки: ни один индекс не даёт полной картины. Распространённый подход — искать согласованность: если RMSEA, CFI и TLI указывают на одно и то же число факторов, это убедительный сигнал. BIC удобен для прямого сравнения моделей (побеждает меньшее значение). Средняя коммунальность ниже 0.40 говорит о том, что факторы объясняют недостаточно дисперсии отдельных переменных.
Шаг 3: полный анализ
Задав число факторов, нажмите Запустить полный анализ.
Настройка анализа
- Число факторов/компонент — по умолчанию 3; должно быть не менее 1 и меньше числа переменных
- Кнопка Сравнить методы извлечения (только для РФА) — сравнение нескольких методов бок о бок
- Нормализация по Кайзеру (выключено по умолчанию) — нормализует нагрузки перед вращением. Автоматически отключается для вращений Промакс и Эквамакс (они выполняют нормализацию внутренне).
Параметры вывода
| Параметр | По умолчанию | Примечание |
|---|---|---|
| Матрица нагрузок | Вкл | Основной результат — какие переменные нагружают какие факторы |
| Коммунальности | Вкл | Доля дисперсии каждой переменной, объяснённая факторами |
| Объяснённая дисперсия | Вкл | Доля общей дисперсии, приходящаяся на каждый фактор |
| Корреляции факторов | Выкл | Только для косоугольных вращений |
| Преобразование Шмида–Леймана | Скрыто | Только для косоугольных РФА-вращений (кроме Биквартимин) |
| Факторные оценки Шмида–Леймана | Скрыто | Только при включённом преобразовании Шмида–Леймана |
| Антиобраз корреляций | Выкл | Полезен для диагностики пригодности отдельных переменных |
| Антиобраз ковариаций | Выкл | |
| Факторные/компонентные оценки | Выкл | Вычисляет оценки по каждому случаю для использования в дальнейших анализах |
| Диаграмма путей | Выкл | Визуальное представление факторной структуры |
При включении факторных оценок или оценок Шмида–Леймана появляется выпадающий список Метод оценивания:
| Метод | Описание |
|---|---|
| Регрессионный | Максимизирует корреляцию с фактором (по умолчанию) |
| Бартлетта | Даёт несмещённые оценки |
| Андерсона–Рубина | Даёт ортогональные (некоррелированные) оценки |
Порог отображения нагрузок — нагрузки ниже этого абсолютного значения скрываются в таблице (по умолчанию: 0.3). Значение 0.3 и выше уменьшает «шум» и облегчает чтение факторной структуры.
Диагностика и предупреждения
До и после извлечения анализ проверяет ряд потенциальных проблем:
| Проблема | Серьёзность | Значение |
|---|---|---|
| Неположительно определённая матрица | Ошибка (только ML) | Корреляционная матрица имеет отрицательные собственные значения. Используйте MINRES или PA. |
| Идеальные корреляции | Ошибка | Пары переменных с r = 1.0. Удалите одну из каждой пары. |
| Экстремальный случай Хейвуда | Ошибка | Коммунальность превышает 1.0 — серьёзная проблема оценивания. Попробуйте меньшее число факторов или другой метод извлечения. |
| Случай Хейвуда | Предупреждение | Коммунальность близка к 1.0 — возможная переподгонка переменной. |
| Высокое SMC | Предупреждение | Квадрат множественной корреляции > 0.99 — возможный случай Хейвуда. |
| Очень высокие корреляции | Предупреждение | Пары переменных с |r| > 0.9 — возможная мультиколлинеарность. |
| Отрицательные собственные значения | Предупреждение (РФА) | Возможно, извлечено слишком много факторов. |
| Малый объём выборки | Информация | Менее 50 наблюдений. Для факторного анализа обычно нужно 100+. |
| Низкое соотношение наблюдений и переменных | Информация | Соотношение ниже 5:1 — результаты могут быть нестабильны. |
Случай Хейвуда: когда коммунальность переменной достигает или превышает 1.0, модель утверждает, что объясняет более 100% дисперсии этой переменной — что невозможно. Как правило, это означает слишком большое число факторов или что одна переменная почти является линейной комбинацией других. Попробуйте уменьшить число факторов или проверьте наличие почти дублирующих переменных.
Индексы подгонки модели (только РФА)
Сводная таблица:
- Критерий хи-квадрат (ст.св., p-значение) — проверяет идеальную подгонку модели. При больших выборках почти всегда значим — см. примечание ниже.
- RMSEA с 90% ДИ — ошибка на степень свободы. Можно представить как «насколько в среднем неточна модель для каждой из объясняемых ею связей». Отлично ≤ 0.05, хорошо ≤ 0.08, удовлетворительно ≤ 0.10, плохо > 0.10.
- CFI — насколько лучше ваша модель по сравнению с базовой, в которой все переменные некоррелированы. Диапазон 0–1. Отлично ≥ 0.95, приемлемо ≥ 0.90.
- TLI — аналогичен CFI, но штрафует за сложность модели: добавление бесполезных факторов не улучшит его. Пороги те же, что у CFI.
- SRMR и скорректированный SRMR — среднее расхождение между предсказанными и наблюдаемыми корреляциями. Пороги те же, что у RMSEA.
- BIC и BIC с поправкой на объём выборки — баланс подгонки и сложности. Меньше — лучше, но сравнение осмысленно только между моделями на одних и тех же данных.
- Подгонка (доля дисперсии) и Подгонка внедиагональных элементов
- Значение целевой функции
Интерпретации отображаются при включённой настройке интерпретации.
Хи-квадрат почти всегда значим. При больших выборках (N > 200) даже малейшие отклонения от идеальной подгонки дают значимое хи-квадрат. Не отвергайте модель только потому, что хи-квадрат значим — смотрите на RMSEA, CFI и TLI.
Объяснённая дисперсия
Таблица с одной строкой на фактор/компоненту:
- Сумма квадратов нагрузок (SS) — «сила» фактора
- Доля дисперсии — процент общей дисперсии, объясняемой этим фактором
- Кумулятивная дисперсия — нарастающий итог
Сколько дисперсии достаточно? В АГК распространённый (приблизительный) ориентир — 60–70% кумулятивной дисперсии. В РФА акцент делается на интерпретируемости, а не на пороговом значении дисперсии: решение с 3 факторами, объясняющее 45% дисперсии, вполне приемлемо, если факторы имеют теоретический смысл. Не добавляйте факторы только ради того, чтобы поднять это число.
Матрица нагрузок
Таблица нагрузок — основной результат анализа: она показывает, насколько сильно каждая переменная связана с каждым фактором. Интерактивные элементы управления над таблицей позволяют настроить:
- Порог отображения — нагрузки ниже этого значения скрываются (по умолчанию: 0.3)
- Порог выделения — нагрузки на уровне этого значения и выше выделяются жирным (по умолчанию: 0.6)
- Сортировка — «Исходный порядок» или «По наибольшей нагрузке» (группирует переменные по основному фактору)
После изменения нажмите Обновить таблицу.
Каждая строка — одна переменная, каждый столбец — один фактор/компонента. При включённых коммунальностях последний столбец показывает коммунальность каждой переменной (значения ниже 0.40 помечаются жёлтым).
При бифакторном вращении первый столбец обозначается «g» (общий фактор), последующие нумеруются с 1.
Как читать нагрузки: нагрузка — это корреляция между переменной и фактором. Значения выше 0.40 обычно считаются содержательными, выше 0.60 — высокими. Переменная с высокой нагрузкой на один фактор и низкими на остальные имеет чёткую принадлежность — она «относится» к этому фактору. Переменная с умеренными нагрузками на два или более фактора (перекрёстная нагрузка) неоднозначна и, возможно, требует удаления или пересмотра.
Что такое коммунальность? Коммунальность (h²) — доля дисперсии переменной, объяснённая всеми извлечёнными факторами вместе. Высокая коммунальность (> 0.60) означает, что факторы хорошо улавливают эту переменную. Низкая (< 0.40) означает, что переменная в основном уникальна — факторы её не объясняют. Рассмотрите удаление переменных с низкой коммунальностью и повторный анализ.
Легенда под таблицей объясняет форматирование.
Диаграмма путей
Визуальное представление факторной структуры:
- Факторы/компоненты — синие эллипсы слева (PC1, PC2… для АГК; F1, F2… для РФА; «g» оранжевым для бифактора)
- Переменные — серые прямоугольники справа (длинные названия усекаются; при наведении отображается полное)
- Стрелки — от факторов к переменным, представляют нагрузки:
- Зелёный цвет для положительных нагрузок, красный — для отрицательных
- Толщина пропорциональна абсолютной величине нагрузки
- Прямые линии — для основных нагрузок, изогнутые — для перекрёстных
- Отображаются только нагрузки выше порога
- Корреляции факторов (косоугольные вращения) — изогнутые двунаправленные стрелки, соединяющие факторы с левой стороны
Диаграмму можно экспортировать в SVG.
Корреляции факторов/компонент (только косоугольные вращения)
Симметричная матрица корреляций между всеми факторами. Диагональ отображает 1.00 приглушённым шрифтом.
Высокие корреляции факторов: если два фактора коррелируют выше 0.70, они могут быть недостаточно различимы, чтобы оправдывать отдельное существование. Рассмотрите извлечение на один фактор меньше или воспользуйтесь преобразованием Шмида–Леймана для разделения общей и специфической дисперсии.
Матрицы антиобраза
- Матрица корреляций антиобраза — внедиагональные элементы должны быть малы (близки к нулю). Диагональ содержит MSA по переменным с цветовым кодированием: зелёный (≥ 0.80), нейтральный (0.60–0.79), жёлтый (0.50–0.59), красный (< 0.50).
- Матрица ковариаций антиобраза — та же структура, без цветового кодирования MSA.
Что такое матрицы антиобраза? Антиобраз корреляции — часть дисперсии, которую нельзя предсказать по другим переменным. Малые внедиагональные элементы антиобраза означают, что переменные разделяют много общей дисперсии — это хорошо для факторного анализа. Большие значения указывают на то, что переменная слишком уникальна для общей факторной модели.
Факторные/компонентные оценки
Предпросмотр первых 10 наблюдений с вычисленными оценками по каждому фактору/компоненте. Примечание показывает общее число оценённых наблюдений и использованный метод оценивания.
Нажмите Добавить оценки в набор данных, чтобы добавить их как новые переменные:
- АГК: PC1, PC2, … (с суффиксом метода для Бартлетта или Андерсона–Рубина)
- РФА: F1, F2, … (та же логика)
Если переменные с такими именами уже существуют, будет запрошено подтверждение перезаписи. Наблюдения с пропущенными данными получают значение Н/Д.
Что такое факторные оценки? Каждое наблюдение (строка) в данных получает оценку по каждому фактору — она показывает, где этот человек или объект находится на латентном измерении. Например, в личностном опроснике высокая оценка по F1 может означать высокую экстраверсию. Добавление оценок в набор данных позволяет использовать их в дальнейших анализах — в качестве предикторов в регрессии, для кластеризации или для сравнения групп.
Преобразование Шмида-Леймана
Доступно для РФА с косоугольными вращениями (кроме Биквартимин). Преобразование Шмида–Леймана (ПШЛ, англ. SLT) берёт существующее косоугольное решение и переформулирует его иерархически: общий фактор, влияющий на все переменные, плюс ортогональные групповые факторы, улавливающие остаток. В отличие от бифакторного вращения, которое оценивает общий и групповые факторы одновременно в процессе извлечения, ПШЛ — апостериорная декомпозиция: сначала выполняется стандартный косоугольный РФА, а ПШЛ переинтерпретирует коррелированные факторы как иерархию.
Когда применять преобразование Шмида–Леймана: когда в РФА обнаружены коррелированные факторы и вы хотите выяснить, есть ли единое доминирующее измерение, объединяющее их все. Например, если факторы тревожности, депрессии и стресса коррелируют на уровне 0.50+, преобразование Шмида–Леймана может выявить общий фактор «психологического дистресса», лежащий в основе всех трёх, тогда как каждый исходный фактор улавливает специфическую дисперсию сверх общей тенденции.
Коэффициенты надёжности омега
| Метрика | Что показывает |
|---|---|
| Иерархическая омега (ωH) | Надёжность, объясняемая общим фактором. ≥ 0.80 — высокая, ≥ 0.50 — умеренная, < 0.50 — слабая. |
| Полная омега (ωT) | Общая надёжность от всех факторов вместе. Пороги те же, что у стандартных метрик надёжности. |
| Доля общей объяснённой дисперсии (ECV) | Доля общей дисперсии, приходящаяся на общий фактор. ≥ 0.70 — фактически одномерна, ≥ 0.50 — умеренная многомерность, < 0.50 — существенная многомерность. |
| Омега субшкалы | Надёжность каждого группового фактора сверх общего (по одному значению на групповой фактор, при наличии). |
ECV и одномерность: если ECV превышает 0.70, шкала управляется единственным общим фактором — субшкалы практически не добавляют информации сверх суммарного балла. Это важно при подсчёте: при высоком ECV суммарного балла достаточно; при низком ECV баллы субшкал несут самостоятельную информацию, которую стоит приводить отдельно.
Декомпозиция дисперсии
Таблица с разбивкой дисперсии на общий фактор и каждый групповой фактор с долями. В нижней части выделенная строка с итогами.
Иерархические факторные нагрузки
Интерактивная таблица с теми же элементами управления (порог отображения, порог выделения, сортировка), что и стандартная матрица нагрузок (порог выделения по умолчанию: 0.40). Дополнительные столбцы:
- g — нагрузка на общий фактор
- F1, F2, … — нагрузки на групповые факторы
- h² — коммунальность (дисперсия, объяснённая всеми факторами)
- u² — уникальность (дисперсия, не объяснённая факторами)
- p² — доля общей дисперсии, объяснённой общим фактором
- com — сложность (1 = нагружает ровно один фактор)
Пустой столбец группового фактора? SLT перераспределяет дисперсию из косоугольных факторов в общий фактор, что может оставить у некоторых групповых факторов очень малые нагрузки — все ниже порога отображения. Это означает, что общий фактор поглотил большую часть дисперсии данной группы и групповой фактор не несёт значимой специфической информации. Можно снизить порог, чтобы увидеть остаточные нагрузки, но пустой столбец — как правило, признак того, что стоит попробовать извлечь меньше факторов: исчезнувшее измерение, вероятно, было недостаточно самостоятельным.
Иерархическая диаграмма путей
Аналогична стандартной диаграмме путей, но имеет три уровня:
- Общий фактор «g» — оранжевый эллипс слева
- Групповые факторы — синие эллипсы в центре
- Переменные — прямоугольники справа
- Пунктирные линии соединяют общий фактор с переменными, сплошные изогнутые — групповые факторы с переменными
Факторные оценки Шмида–Леймана
Тот же формат, что у стандартных факторных оценок, но включает столбец «g» и столбцы групповых факторов. Нажмите Добавить оценки SLT в набор данных, чтобы создать переменные с именами SLT_g, SLT_F1, SLT_F2 и т.д.
Сравнение методов извлечения
Вызывается кнопкой Сравнить методы извлечения на шаге 3 (только для РФА). Диалоговое окно позволяет сравнить несколько методов бок о бок, чтобы оценить, насколько выбор метода влияет на результаты.
Выбор методов
Кнопки быстрого выбора:
- Основные 3 (ML, PA, MINRES) — три наиболее широко используемых метода
- Выбрать все / Снять все
Плюс отдельные флажки для всех девяти методов РФА. Должны быть выбраны не менее 2. Нажмите Запустить сравнение.
Сравнение индексов подгонки
Таблица с одной строкой на метод и теми же индексами подгонки, что в сравнительной таблице моделей (RMSEA, CFI, TLI, BIC, SABIC, SRMR, средняя h², сложность, гиперплоскость). Лучшее значение по каждому индексу выделено жирным. Методы, не достигшие сходимости, отображаются красным.
Коэффициенты конгруэнтности Такера
Показывают, насколько схожи факторные решения разных методов. Сводка содержит среднее, минимальное и максимальное значение конгруэнтности:
| Конгруэнтность | Интерпретация |
|---|---|
| ≥ 0.95 | Отлично — решения практически идентичны |
| 0.85–0.94 | Хорошо — решения достаточно схожи |
| < 0.85 | Плохо — решения существенно различаются |
Подробная таблица ниже показывает конгруэнтность для каждой пары методов в разбивке по факторам. Цветовое кодирование: зелёный (≥ 0.95), жёлтый (0.85–0.94), красный (< 0.85).
Что означает конгруэнтность? Если разные методы извлечения дают почти идентичные факторные структуры (конгруэнтность ≥ 0.95), результаты устойчивы — факторы не являются артефактом выбранного метода. Низкая конгруэнтность указывает на нестабильность структуры; причины стоит исследовать: слишком мало наблюдений, слабо очерченные факторы, неверное число факторов.
Взаимосвязь настроек
Ряд настроек влияет друг на друга:
- Выбор АГК отключает косоугольные вращения, бифакторное вращение, сравнение методов извлечения, преобразование Шмида–Леймана и корреляции факторов
- Выбор Промакс или Эквамакс отключает нормализацию по Кайзеру (эти вращения выполняют её внутренне)
- Выбор косоугольного вращения открывает параметр вывода «Корреляции факторов»
- Выбор косоугольного РФА-вращения (кроме Биквартимин) открывает параметр «Преобразование Шмида–Леймана»
- Включение Шмида–Леймана открывает вложенный параметр «Факторные оценки Шмида–Леймана»
- Включение любого параметра факторных оценок открывает выпадающий список метода оценивания
Пропущенные данные
Пропущенные значения обрабатываются согласно глобальным настройкам пропущенных данных. Факторный анализ требует полной корреляционной матрицы, поэтому построчное удаление может сократить выборку, если пропуски рассеяны по многим переменным.
Объём выборки для факторного анализа: правила большого пальца сильно расходятся — от 50 (абсолютный минимум) до 10 наблюдений на переменную и до 300+ для стабильных результатов. Важнее любого эмпирического правила — сила корреляций: сильные, чёткие факторы проявляются даже на небольших выборках, тогда как слабые факторы требуют большой выборки, чтобы выделиться на фоне шума. KMO-тест на шаге 2 — более надёжный ориентир, чем любое фиксированное правило.
Пороги интерпретации
При включённой интерпретации таблицы результатов содержат текстовые метки. Ключевые пороги:
| Метрика | Пороги |
|---|---|
| KMO | < 0.50 неприемлемо, < 0.60 плохо, < 0.70 посредственно, < 0.80 средне, < 0.90 хорошо, ≥ 0.90 превосходно |
| RMSEA | ≤ 0.05 отлично, ≤ 0.08 хорошо, ≤ 0.10 удовлетворительно, > 0.10 плохо |
| CFI / TLI | ≥ 0.95 отлично, ≥ 0.90 приемлемо, < 0.90 плохо |
| Коммунальность | ≥ 0.70 высокая, ≥ 0.40 достаточная, < 0.40 низкая |
| Нагрузка | ≥ 0.60 высокая, ≥ 0.40 умеренная, < 0.40 слабая |
| Иерархическая омега | ≥ 0.80 высокая, ≥ 0.50 умеренная, < 0.50 слабый общий фактор |
| ECV | ≥ 0.70 фактически одномерна, ≥ 0.50 умеренная, < 0.50 существенная многомерность |
| Конгруэнтность Такера | ≥ 0.95 отлично, ≥ 0.85 хорошо, < 0.85 плохо |
Контрольный список для отчёта
Что важно включить при описании результатов факторного анализа:
Метод:
- Метод извлечения (например, MINRES, ML, АГК) и обоснование
- Метод вращения (например, Облимин, Варимакс) и обоснование
- Тип корреляций (Пирсона, полихорические и т.д.)
- Как определялось число факторов (параллельный анализ, график осыпи, индексы подгонки, теоретические соображения)
- Порог отображения нагрузок
- Объём выборки и соотношение наблюдений и переменных
- Способ обработки пропущенных данных
Результаты:
- KMO и критерий Бартлетта (пригодность данных)
- Индексы подгонки (RMSEA, CFI, TLI — для РФА)
- Общая объяснённая дисперсия
- Полная матрица нагрузок (или как минимум нагрузки выше порога) с коммунальностями
- Корреляции факторов (для косоугольных вращений)
- Удалённые переменные и обоснование удаления
Для Шмида–Леймана: иерархическая омега, полная омега, ECV и матрица иерархических нагрузок.
Воспроизводимость
Каждый анализ выводит соответствующий R-код в консоль R — его можно просматривать, копировать и повторно запускать. Факторный анализ использует пакет R psych; ссылки на использованные пакеты R автоматически появляются в начале раздела вывода.
Типичные ошибки
Факторный анализ — один из мощнейших инструментов в социальных и поведенческих науках и, вместе с тем, один из наиболее часто применяемых некорректно. Несколько вещей, которые стоит иметь в виду перед интерпретацией результатов.
РФА открывает структуру — не подтверждает её. РФА находит одну из структур, подходящих для ваших данных, но те же данные могут дать разные структуры в зависимости от метода извлечения, вращения и числа факторов. Трактовать решение РФА как доказательство «реальности» структуры — логический круг. Чтобы проверить, согласуются ли данные с гипотетической структурой, используйте конфирматорный факторный анализ — желательно на отдельной выборке.
Названия факторов — ваша интерпретация, а не вывод из данных. Назвать фактор «Эмоциональный интеллект» потому, что на него нагружают пункты об эмпатии, самосознании и регуляции настроения — это творческий акт, а не статистический факт. Математика говорит лишь о том, что эти переменные разделяют дисперсию; содержательный смысл — ваше утверждение. Читатели должны видеть нагрузки и сами судить о том, обоснован ли выбранный ярлык.
Не используйте РФА как «улучшенный корреляционный анализ». РФА моделирует латентную структуру — предполагается, что переменные порождены глубинными факторами. Если вам просто нужно знать, какие переменные связаны между собой, используйте матрицу корреляций. Запуск РФА на переменных, не имеющих теоретического основания иметь общую причину (ВВП, температура и размер обуви), исправно даст факторы — но они будут бессмысленны.
Компоненты АГК — не латентные факторы. АГК — инструмент снижения размерности: он создаёт взвешенные линейные комбинации, максимизирующие объяснённую дисперсию. Он не моделирует причинно-следственные связи. Интерпретировать главную компоненту как латентную черту («первая компонента и есть общий интеллект») — это более сильное утверждение, чем то, что поддерживает АГК. Когда нужно делать выводы о латентных конструктах, используйте РФА.
Не гонитесь за идеальными нагрузками. Соблазнительно удалять переменные с перекрёстными нагрузками или низкими коммунальностями до тех пор, пока каждый пункт не будет нагружать ровно один фактор. Но это может дать шкалу, которая «работает» только на вашей выборке — вы подгоняете модель под шум. Удаляйте переменные по содержательным причинам (слабая формулировка, теоретическое несоответствие, эффекты пола/потолка), а не только потому, что нагрузки выглядят красивее.
Не проводите РФА и КФА на одних и тех же данных. Распространённый паттерн в публикуемых исследованиях: запустить РФА, выявить 3 фактора, затем запустить КФА на тех же данных, чтобы «подтвердить» структуру. Это логический круг — КФА, разумеется, даст хорошую подгонку, ведь структура только что была извлечена из тех же данных. Разделите выборку (РФА на одной половине, КФА на другой) или используйте независимую выборку для репликации.
Больше факторов — не значит лучше. Добавление факторов всегда увеличивает объяснённую дисперсию, так же как добавление предикторов всегда увеличивает R² в регрессии. Вопрос в том, отражает ли каждый фактор содержательное измерение. Решение с 7 факторами, объясняющее 75% дисперсии, хуже, чем решение с 3 факторами, объясняющее 50%, если лишние факторы неинтерпретируемы или содержат по 1–2 пункта. Факторы менее чем из 3 пунктов, как правило, нестабильны.
Специфика выборки. Факторные структуры могут варьироваться в зависимости от выборки, культуры и контекста. Пятифакторная модель личности, извлечённая на студентах американских университетов, может не воспроизводиться на клинической популяции или в другой культуре. Всегда описывайте характеристики своей выборки и используйте сравнение методов извлечения, чтобы проверить устойчивость структуры хотя бы в собственных данных.