На этой странице

Анализ надёжности

Модуль Анализ надёжности имеет три вкладки: Внутренняя согласованность оценивает, насколько хорошо пункты шкалы измеряют один конструкт, Воспроизводимость оценивает согласованность измерений между экспертами, временными точками или методами измерения, а Теория тестовых заданий позволяет подобрать IRT-модели к отдельным пунктам для углублённого анализа характеристик пунктов и испытуемых.

Внутренняя согласованность

Что такое внутренняя согласованность? Если в анкете 10 вопросов, все направленных на измерение «тревожности», внутренняя согласованность показывает, действительно ли они «держатся вместе». Высокая согласованность (например, альфа = 0.85) означает, что испытуемые, набирающие высокий балл по одному пункту, как правило, набирают высокий балл по остальным. Низкая — что некоторые пункты могут измерять что-то другое или закодированы в неверном направлении.

  1. Выберите пункты шкалы (не менее двух числовых переменных)
  2. Отметьте обратные пункты
  3. Выберите метрики надёжности
  4. Настройте параметры вывода
  5. Нажмите Рассчитать надёжность

Требования

  • Должны быть выбраны не менее двух числовых переменных. Категориальные переменные исключаются автоматически (и перечисляются в выводе).
  • Должна быть отмечена хотя бы одна метрика надёжности.

Обратные пункты

На левой панели отображаются все выбранные числовые переменные. Нажмите или выделите протяжкой пункты, которые нужно перекодировать перед анализом. Обратное кодирование переворачивает каждое значение по формуле: новое = (макс + мин) − старое, где мин и макс — наблюдаемый диапазон пункта.

Под списком расположены две кнопки:

  • Снять все отметки — отменяет все выбранные обратные пункты
  • Инвертировать выбор — меняет состояние каждого пункта на противоположное

Когда применять обратное кодирование: многие анкеты включают вопросы как с положительной, так и с отрицательной формулировкой, чтобы снизить систематическую ошибку ответов. Например, шкала самооценки может содержать вопрос «Я доволен собой» (положительный) и «Я чувствую себя бесполезным» (отрицательный). Без обратного кодирования отрицательные пункты будут тянуть итоговый балл в неверную сторону и искусственно снижать надёжность по некоторым метрикам. Пошаговые примеры — в руководстве по подсчёту баллов.

Метрики надёжности

Каждую метрику можно включать и отключать независимо:

Метрика По умолчанию Что измеряет
Альфа Кронбаха Вкл Средняя межпунктовая ковариация относительно общей дисперсии. Наиболее широко используемая метрика.
Омега Макдональда (total) Вкл Основана на факторной модели — учитывает неодинаковый вклад пунктов в шкалу. Как правило, точнее альфы.
Составная надёжность (CR) Выкл Аналогична омеге, но в рамках конфирматорного факторного анализа. Распространена в уравнениях структурного моделирования.
Надёжность методом расщепления Выкл Делит пункты на две половины и коррелирует их с поправкой Спирмена–Брауна. Чувствительна к способу разбиения.
Лямбда Гутмана Выкл Включает λ4 (максимальное расщепление) и λ6 (множественная корреляция пункта).
Средняя извлечённая дисперсия (AVE) Вкл Средняя доля дисперсии пунктов, объяснённая латентным фактором. Используется для оценки конвергентной валидности.
Коэффициент H Выкл Максимальная надёжность на основе факторных нагрузок. Всегда ≥ омеги.
Бета Ревелла Выкл Наихудшая надёжность методом расщепления — нижняя граница насыщенности общим фактором.
Точная нижняя граница (GLB) Выкл Теоретический минимум надёжности. На некоторых данных может не сходиться.

Альфа и омега: альфа Кронбаха предполагает, что все пункты вносят одинаковый вклад в шкалу (тау-эквивалентность). На практике это редко так — одни пункты являются лучшими индикаторами, чем другие. Омега Макдональда учитывает это через факторную модель и даёт более точную оценку. Если аудитория ожидает альфу — приводите обе; при расхождении омеге можно доверять больше.

Что такое AVE? AVE отвечает на иной вопрос, нежели остальные метрики: «объясняет ли латентный фактор в среднем более половины дисперсии каждого пункта?» AVE выше 0.50 означает, что фактор объясняет больше дисперсии, чем ошибка измерения — это порог конвергентной валидности.

Низкий AVE — не повод для паники. Порог 0.50 строгий, и значения 0.30–0.45 встречаются даже у хорошо зарекомендовавших себя, широко публикуемых шкал. Причина в том, что психологические конструкты по природе своей широки: шкала депрессии из 10 вопросов охватывает сон, аппетит, настроение и концентрацию, поэтому ни один фактор не объяснит большую часть дисперсии каждого пункта. Если альфа и омега достаточно высоки (0.70+), низкий AVE, как правило, лишь указывает на широту конструкта, а не на проблему со шкалой. AVE важнее всего тогда, когда нужно показать, что две шкалы измеряют разные вещи (дискриминантная валидность) — в этом контексте правило 0.50 имеет больший вес.

Допущения:

  • Все метрики предполагают, что пункты направлены на измерение единого конструкта (одномерность). Если шкала многомерна (например, смешаны пункты двух субшкал), общая надёжность может вводить в заблуждение — рассчитывайте её отдельно для каждой субшкалы.
  • Альфа Кронбаха дополнительно предполагает тау-эквивалентность — одинаковый вклад всех пунктов. Когда факторные нагрузки пунктов неодинаковы (что типично), альфа занижает или завышает истинную надёжность. Омега лишена этого ограничения.
  • Пункты должны иметь схожие шкалы ответов. Смешение пунктов с разными диапазонами (например, шкала Ликерта 1–5 вместе со слайдером 0–100) нарушает допущение о равных весах и может исказить все метрики. Сначала стандартизируйте пункты или анализируйте их раздельно.
  • Достаточный объём выборки. Оценки надёжности стабилизируются с ростом данных — на малых выборках (N < 50) коэффициенты могут быть неустойчивы. При малом N доверительные интервалы существенно расширяются, поэтому всегда включайте и указывайте их в отчёте.
  • Все пункты должны быть закодированы в одном направлении. Отрицательно сформулированные пункты требуют обратного кодирования перед анализом — иначе они искусственно снижают надёжность.

Параметры вывода

Можно включать и отключать пять разделов вывода:

Параметр По умолчанию Что показывает
Статистика пунктов Вкл Среднее и СО для каждого пункта
Статистика шкалы Вкл Число пунктов, число наблюдений, среднее шкалы, её СО и дисперсия
Корреляции пунктов с суммой Вкл Скорректированные корреляции пункта с общей суммой и с остальной частью шкалы
Надёжность при удалении пункта Выкл Каждая выбранная метрика, пересчитанная после исключения каждого пункта
Матрица межпунктовых корреляций Выкл Полная матрица попарных корреляций между пунктами

Дополнительные параметры

  • Доверительные интервалы (включено по умолчанию) — добавляет столбец ДИ в таблицу метрик. Уровень доверия берётся из глобальных настроек.

Чтение результатов

Результаты отображаются в карточке вывода «Анализ надёжности» со следующими разделами.

Сведения о шкале

Сводный блок в начале:

  • Пункты шкалы, использованные в анализе
  • Обратные пункты (при наличии)
  • Исключённые нечисловые переменные (при наличии)

Таблица м��трик надёжности

Таблица с одной строкой на выбранную метрику:

  • Метрика — название коэффициента
  • Значение — вычисленный коэффициент надёжности
  • ДИ — доверительный интервал (при включённой опции)
  • Интерпретация — текстовое заключение (при включённой интерпретации)

Пороги интерпретации:

Значение Оценка
Ниже 0.50 Неприемлемо
0.50–0.60 Слабо
0.60–0.70 Сомнительно
0.70–0.80 Приемлемо
0.80–0.90 Хорошо
0.90–0.95 Отлично
Выше 0.95 Отлично (возможна избыточность)

Для AVE используется отдельная шкала:

Значение Оценка
Ниже 0.50 Слабая конвергентная валидность
0.50–0.70 Приемлемая конвергентная валидность
0.70 и выше Хорошая конвергентная валидность

Выше 0.95 — слишком хорошо? Очень высокая надёжность может означать, что пункты почти дублируют друг друга. Если альфа равна 0.97, шкалу, возможно, можно сократить без потери информации. Изучите матрицу межпунктовых корреляций: если большинство корреляций превышают 0.90 — задумайтесь об укорочении шкалы.

Статистика шкалы

Таблица ключ–значение: число пунктов, число наблюдений, среднее шкалы, СО шкалы и дисперсия шкалы.

Среднее и СО шкалы: описывают суммарный балл (сумма всех пунктов после обратного кодирования). Среднее шкалы, делённое на число пунктов, даёт средний ответ на один пункт — это удобно при сравнении шкал с разным числом пунктов.

Анализ пунктов

Сводная таблица с одной строкой на пункт. Состав столбцов определяется выбранными параметрами вывода:

  • Среднее и СО — базовая статистика пункта
  • Скорректированная корреляция с суммой — корреляция пункта с суммой всех пунктов
  • Корреляция с остатком — корреляция пункта с суммой остальных пунктов шкалы (несколько иная поправка)
  • [Метрика] при удалении — значение метрики при исключении данного пункта (по одному столбцу на выбранную метрику)
  • Интерпретация — диагностика по каждому пункту при включённой опции:
    • Отрицательная корреляция с суммой — рекомендуется проверить обратное кодирование
    • Очень слабая дискриминативность — скорректированная корреляция с суммой ниже 0.20
    • Слабая дискриминативность — скорректированная корреляция с суммой от 0.20 до 0.30
    • Хорошая дискриминативность — скорректированная корреляция с суммой от 0.50 и выше
    • Возможный эффект пола или потолка — среднее близко к минимуму или максимуму пункта
    • Низкая дисперсия / однообразные ответы — очень малое СО относительно диапазона пункта
    • Удаление улучшит метрику — указывается название метрики и величина улучшения
    • «Хороший пункт» — замечаний нет

Что такое корреляция пункта с суммой? Она показывает, насколько хорошо пункт «согласуется» со шкалой в целом. Высокое значение (0.50+) означает, что пункт измеряет то же, что и другие пункты. Низкое (ниже 0.30) — что пункт выбивается: возможно, он сформулирован неудачно, неверно понимается респондентами или измеряет что-то иное. Отрицательное значение почти всегда означает, что пункт требует обратного кодирования.

«При удалении» — стоит ли удалять пункты? Не автоматически. Этот столбец показывает, что произойдёт с надёжностью, если убрать каждый пункт. Если удаление существенно улучшает метрику (например, альфа вырастает с 0.72 до 0.81) — это повод разобраться. Но удалять пункты следует только при наличии весомых оснований (слабая формулировка, низкая дискриминативность, теоретическое несоответствие), а не ради погони за большим числом.

Матрица межпунктовых корреляций

Симметричная матрица попарных корреляций между всеми пунктами. Полезна для выявления кластеров тесно связанных пунктов или пар, явно выбивающихся из общего паттерна.

На что обращать внимание: большинство корреляций должны лежать в диапазоне 0.20–0.80. Ниже 0.20 — пункты, вероятно, не измеряют одно и то же. Выше 0.80 — возможная избыточность. Блок высоких корреляций среди части пунктов может указывать на субфактор — рассмотрите возможность применения факторного анализа для выявления структуры более явным способом.

Воспроизводимость

Вкладка Воспроизводимость оценивает, могут ли результаты измерения быть воспроизведены при повторном замере другими экспертами, в другие моменты времени или другими методами. Вкладка работает с данными в длинном формате: каждая строка — одно наблюдение одного испытуемого при одном условии.

Внутренняя согласованность и воспроизводимость: внутренняя согласованность отвечает на вопрос «связаны ли пункты друг с другом?» — она анализирует одно измерение. Воспроизводимость спрашивает «получим ли мы тот же результат при повторном измерении?» — она сравнивает экспертов или временные точки. Шкала может обладать отличной внутренней согласованностью, но низким межэкспертным согласием, если эксперты по-разному интерпретируют пункты.

Структура данных

Два выпадающих списка определяют, как DataSuite считывает данные:

  • Идентификатор испытуемого — столбец, идентифицирующий каждого испытуемого. Если данные были преобразованы из широкого в длинный формат с помощью компоновщика столбцов, этот столбец выбирается автоматически.
  • Переменная условия — столбец, идентифицирующий эксперта, временную точку или метод измерения.

Все остальные выбранные переменные считаются переменными-показателями и анализируются массово.

Метрики воспроизводимости

Можно включить любую комбинацию метрик. Для каждой переменной рассчитываются те метрики, которые подходят для её типу данных:

Метрика Непрерывная Порядковая Номинальная Примечания
ICC Да Модель и форма настраиваются
Пирсон r Да Только для 2 условий
Спирмен ρ Да Да Только для 2 условий
SEM и SDC Да Вычисляются на основе ICC
W Кендалла Да Да
κ Коэна / Флейсса Да Да Автоматически: Коэн (2 эксперта) или Флейсс (3+)
α Криппендорфа Да Да Да ДИ методом бутстрепа — может быть медленным

Результаты группируются по типу переменных, поэтому нет необходимости запускать анализ отдельно для непрерывных и категориальных переменных.

Что такое ICC? Коэффициент внутриклассовой корреляции показывает, какая доля общей дисперсии баллов обусловлена истинными различиями между испытуемыми, а не различиями между экспертами или случайной ошибкой. ICC = 0.90 означает, что 90% дисперсии отражает реальные различия — измерение обладает высокой воспроизводимостью.

Что такое каппа? Каппа Коэна измеряет согласие двух экспертов в категориальных оценках с поправкой на случайное согласие. Два эксперта могут совпадать в 80% случаев, но если они оценивают бинарный исход, где 90% — «да», одно лишь совпадение даст 82%. Каппа это учитывает. Каппа Флейсса расширяет этот подход на трёх и более экспертов.

SEM и SDC: стандартная ошибка измерения (SEM) характеризует точность индивидуальных баллов — чем она меньше, тем точнее измерение. Наименьшее обнаруживаемое изменение (SDC) показывает минимальное изменение балла, превышающее ошибку измерения. Если балл пациента изменился на величину менее SDC, нельзя быть уверенным, что изменение реально.

Параметры ICC

При выборе ICC появляются две группы переключателей:

Модель:

  • Однофакторная случайная — каждого испытуемого оценивает случайный набор экспертов
  • Двухфакторная случайная — одни и те же эксперты оценивают всех испытуемых, и эксперты — случайная выборка из большей совокупности (наиболее распространённый вариант)
  • Двухфакторная смешанная — одни и те же эксперты оценивают всех испытуемых, и интересуют именно эти конкретные эксперты

Форма:

  • Единичные измерения — надёжность оценки одного эксперта
  • Усреднённые измерения — надёжность среднего значения по всем экспертам

Какой ICC выбрать? В большинстве исследовательских ситуаций подходит двухфакторная случайная модель, единичные измерения (ICC2,1): одни и те же эксперты оценивают всех испытуемых, эксперты представляют более широкую совокупность, и вас интересует, насколько надёжна оценка одного эксперта. Усреднённые измерения используются, когда на практике вы всегда будете усреднять одинаковое число экспертов.

Чтение результатов воспроизводимости

Результаты группируются по типу переменных под отдельными заголовками:

  • Непрерывные переменные — ICC, Пирсон r, Спирмен ρ, SEM, SDC, W Кендалла, α Криппендорфа
  • Порядковые переменные — Спирмен ρ, W Кендалла, κ, α Криппендорфа
  • Номинальные переменные — κ, α Криппендорфа

Каждая таблица содержит по одной строке на переменную и столбцы для каждой применимой метрики с необязательными доверительными интервалами и интерпретацией.

Пороги интерпретации для ICC и коэффициентов согласия (Koo & Li, 2016):

Значение Оценка
Ниже 0.50 Слабо
0.50–0.75 Умеренно
0.75–0.90 Хорошо
Выше 0.90 Отлично

Для каппы используется шкала Лэндиса и Коха:

Значение Оценка
Ниже 0 Слабо
0–0.20 Незначительно
0.20–0.40 Посредственно
0.40–0.60 Умеренно
0.60–0.80 Существенно
Выше 0.80 Почти идеально

α Криппендорфа и бутстреп: доверительный интервал для α Криппендорфа вычисляется методом бутстрепа, что может заметно замедлять анализ при большом числе переменных или большой выборке. Число повторений бутстрепа задаётся в настройках. Остальные метрики используют аналитические доверительные интервалы и вычисляются мгновенно.

Допущения

  • Испытуемые независимы. Каждый испытуемый — отдельный человек (или единица наблюдения). Повторные измерения одного испытуемого при разных условиях — это нормально, именно для этого и существует переменная условия.
  • Одинаковый набор условий для всех испытуемых. В идеале каждый испытуемый должен иметь балл при каждом условии (эксперт, временная точка). Отсутствующие комбинации обрабатываются, но могут снизить точность.
  • ICC предполагает непрерывные, нормально распределённые данные. Для порядковых или номинальных данных используйте каппу или α Криппендорфа.
  • Каппа предполагает категориальные данные. Для порядковых данных автоматически используется взвешенная каппа, учитывающая расстояние между категориями. Для непрерывных данных используйте ICC.

Пропущенные данные

Пропущенные значения обрабатываются согласно глобальным настройкам пропущенных данных. При построчном удалении из анализа исключается любое наблюдение, у которого пропущен хотя бы один пункт. При импутации пропущенные значения заменяются перед анализом.

Пропущенные данные и надёжность: построчное удаление может значительно сократить выборку, если пропуски рассеяны по многим пунктам. Однако попарное удаление для анализа надёжности недоступно: метрики требуют полной матрицы «пункты × наблюдения». Если потери наблюдений слишком велики, оцените, уместна ли в вашей ситуации импутация (средним или медианой).

Контрольный список для отчёта

Что важно включить при описании результатов анализа надёжности:

Метод:

  • Какие метрики надёжности вычислялись и почему (например, «рассчитаны альфа Кронбаха и омега Макдональда»)
  • Число пунктов шкалы
  • Наличие обратных пунктов (и каких именно)
  • Способ обработки пропущенных данных
  • Объём выборки

Результаты:

  • Значения коэффициентов надёжности с доверительными интервалами
  • Корреляции пунктов с суммой (или хотя бы упоминание проблемных пунктов)
  • Удалённые пункты и обоснование удаления
  • Для многомерных шкал: надёжность по субшкалам, а не только в целом

Для анализа воспроизводимости:

  • Использованные модель и форма ICC (например, «ICC(2,1), двухфакторная случайная модель, единичные измерения»)
  • Число экспертов/временных точек и число испытуемых
  • Значения ICC или каппы с доверительными интервалами
  • Значения SEM и SDC при оценке точности измерения

Воспроизводимость в R

Каждый анализ выводит соответствующий R-код в консоль R — его можно просматривать, копировать и повторно запускать. Внутренняя согласованность использует пакет R psych. Воспроизводимость дополнительно использует irr (каппа, α Криппендорфа, W Кендалла), lme4 (зависимость ICC) и tidyr (преобразование данных). Ссылки на использованные пакеты R автоматически появляются в начале раздела вывода.

Типичные ошибки

Приводить только альфу. Альфа Кронбаха остаётся наиболее востребованной метрикой, однако предполагает одинаковый вклад всех пунктов (тау-эквивалентность) — что редко соответствует действительности. Если альфа и омега расходятся, альфа, как правило, менее точна. Приводите обе; журналы всё чаще ожидают омегу.

Считать альфу мерой одномерности. Шкала может иметь высокую альфу и при этом быть многомерной — альфа отражает среднюю межпунктовую корреляцию, а не факторную структуру. Шкала из 20 пунктов с двумя самостоятельными субфакторами легко даёт альфу = 0.85. Если необходимо продемонстрировать одномерность, используйте факторный анализ.

Ошибки обратного кодирования. Забытые обратные пункты — наиболее частая причина неожиданно низкой надёжности. Явный признак: один или несколько пунктов с отрицательной корреляцией с суммой. Перед запуском анализа сверьтесь с инструкцией по подсчёту баллов оригинального опросника.

Удалять пункты для максимизации альфы. Последовательное исключение всех пунктов, улучшающих альфу при удалении, может дать более короткую шкалу, которая хорошо работает на вашей выборке, но плохо воспроизводится. Удаляйте пункты только при наличии содержательных оснований (низкая дискриминативность, неоднозначная формулировка, теоретическое несоответствие) — не ради прироста в 0.02.

Игнорировать зависимость результатов от выборки. Надёжность — свойство баллов в вашей выборке, а не теста как такового. Шкала с опубликованной альфой 0.90 может дать 0.65 на вашей выборке, если ваша генеральная совокупность более однородна или пункты работают иначе в вашем контексте. Всегда вычисляйте и указывайте надёжность на собственных данных.