На этой странице

Внутренняя согласованность
Требования
Обратные пункты
Метрики надёжности
Параметры вывода
Дополнительные параметры
Чтение результатов
Сведения о шкале
Таблица м��трик надёжности
Статистика шкалы
Анализ пунктов
Матрица межпунктовых корреляций
Воспроизводимость
Структура данных
Метрики воспроизводимости
Параметры ICC
Чтение результатов воспроизводимости
Допущения
Пропущенные данные
Контрольный список для отчёта
Воспроизводимость в R
Типичные ошибки

Анализ надёжности

Модуль Анализ надёжности имеет три вкладки: Внутренняя согласованность оценивает, насколько хорошо пункты шкалы измеряют один конструкт, Воспроизводимость оценивает согласованность измерений между экспертами, временными точками или методами измерения, а Теория тестовых заданий позволяет подобрать IRT-модели к отдельным пунктам для углублённого анализа характеристик пунктов и испытуемых.

Внутренняя согласованность

Что такое внутренняя согласованность? Если в анкете 10 вопросов, все направленных на измерение «тревожности», внутренняя согласованность показывает, действительно ли они «держатся вместе». Высокая согласованность (например, альфа = 0.85) означает, что испытуемые, набирающие высокий балл по одному пункту, как правило, набирают высокий балл по остальным. Низкая — что некоторые пункты могут измерять что-то другое или закодированы в неверном направлении.

Выберите пункты шкалы (не менее двух числовых переменных)
Отметьте обратные пункты
Выберите метрики надёжности
Настройте параметры вывода
Нажмите Рассчитать надёжность

Требования

Должны быть выбраны не менее двух числовых переменных. Категориальные переменные исключаются автоматически (и перечисляются в выводе).
Должна быть отмечена хотя бы одна метрика надёжности.

Обратные пункты

На левой панели отображаются все выбранные числовые переменные. Нажмите или выделите протяжкой пункты, которые нужно перекодировать перед анализом. Обратное кодирование переворачивает каждое значение по формуле: новое = (макс + мин) − старое, где мин и макс — наблюдаемый диапазон пункта.

Под списком расположены две кнопки:

Снять все отметки — отменяет все выбранные обратные пункты
Инвертировать выбор — меняет состояние каждого пункта на противоположное

Когда применять обратное кодирование: многие анкеты включают вопросы как с положительной, так и с отрицательной формулировкой, чтобы снизить систематическую ошибку ответов. Например, шкала самооценки может содержать вопрос «Я доволен собой» (положительный) и «Я чувствую себя бесполезным» (отрицательный). Без обратного кодирования отрицательные пункты будут тянуть итоговый балл в неверную сторону и искусственно снижать надёжность по некоторым метрикам. Пошаговые примеры — в руководстве по подсчёту баллов.

Метрики надёжности

Каждую метрику можно включать и отключать независимо:

Метрика	По умолчанию	Что измеряет
Альфа Кронбаха	Вкл	Средняя межпунктовая ковариация относительно общей дисперсии. Наиболее широко используемая метрика.
Омега Макдональда (total)	Вкл	Основана на факторной модели — учитывает неодинаковый вклад пунктов в шкалу. Как правило, точнее альфы.
Составная надёжность (CR)	Выкл	Аналогична омеге, но в рамках конфирматорного факторного анализа. Распространена в уравнениях структурного моделирования.
Среднее по разбиениям пополам (с поправкой Брауна)	Выкл	Усредняет надёжности с поправкой Брауна по множеству случайных разбиений пунктов (`psych::splitHalf`). Отображается среднее по разбиениям; минимальное и максимальное расщепление приводятся как дополнительные границы.
Лямбда Гутмана	Выкл	Включает λ4 (максимальное расщепление) и λ6 (множественная корреляция пункта).
Средняя извлечённая дисперсия (AVE)	Вкл	Средняя доля дисперсии пунктов, объяснённая латентным фактором. Используется для оценки конвергентной валидности.
Коэффициент H	Выкл	Максимальная надёжность на основе факторных нагрузок. Всегда ≥ омеги.
Бета Ревелла	Выкл	Наихудшая надёжность методом расщепления — нижняя граница насыщенности общим фактором.
Точная нижняя граница (GLB)	Выкл	Теоретический минимум надёжности. На некоторых данных может не сходиться.

Альфа и омега: альфа Кронбаха предполагает, что все пункты вносят одинаковый вклад в шкалу (тау-эквивалентность). На практике это редко так — одни пункты являются лучшими индикаторами, чем другие. Омега Макдональда учитывает это через факторную модель и даёт более точную оценку. Если аудитория ожидает альфу — приводите обе; при расхождении омеге можно доверять больше.

Что такое AVE? AVE отвечает на иной вопрос, нежели остальные метрики: «объясняет ли латентный фактор в среднем более половины дисперсии каждого пункта?» AVE выше 0.50 означает, что фактор объясняет больше дисперсии, чем ошибка измерения — это порог конвергентной валидности.

Низкий AVE — не повод для паники. Порог 0.50 строгий, и значения 0.30–0.45 встречаются даже у хорошо зарекомендовавших себя, широко публикуемых шкал. Причина в том, что психологические конструкты по природе своей широки: шкала депрессии из 10 вопросов охватывает сон, аппетит, настроение и концентрацию, поэтому ни один фактор не объяснит большую часть дисперсии каждого пункта. Если альфа и омега достаточно высоки (0.70+), низкий AVE, как правило, лишь указывает на широту конструкта, а не на проблему со шкалой. AVE важнее всего тогда, когда нужно показать, что две шкалы измеряют разные вещи (дискриминантная валидность) — в этом контексте правило 0.50 имеет больший вес.

Допущения:

Все метрики предполагают, что пункты направлены на измерение единого конструкта (одномерность). Если шкала многомерна (например, смешаны пункты двух субшкал), общая надёжность может вводить в заблуждение — рассчитывайте её отдельно для каждой субшкалы.
Альфа Кронбаха дополнительно предполагает тау-эквивалентность — одинаковый вклад всех пунктов. Когда факторные нагрузки пунктов неодинаковы (что типично), альфа занижает или завышает истинную надёжность. Омега лишена этого ограничения.
Пункты должны иметь схожие шкалы ответов. Смешение пунктов с разными диапазонами (например, шкала Ликерта 1–5 вместе со слайдером 0–100) нарушает допущение о равных весах и может исказить все метрики. Сначала стандартизируйте пункты или анализируйте их раздельно.
Достаточный объём выборки. Оценки надёжности стабилизируются с ростом данных — на малых выборках (N < 50) коэффициенты могут быть неустойчивы. При малом N доверительные интервалы существенно расширяются, поэтому всегда включайте и указывайте их в отчёте.
Все пункты должны быть закодированы в одном направлении. Отрицательно сформулированные пункты требуют обратного кодирования перед анализом — иначе они искусственно снижают надёжность.

Параметры вывода

Можно включать и отключать пять разделов вывода:

Параметр	По умолчанию	Что показывает
Статистика пунктов	Вкл	Среднее и СО для каждого пункта
Статистика шкалы	Вкл	Число пунктов, число наблюдений, среднее шкалы, её СО и дисперсия
Корреляции пунктов с суммой	Вкл	Скорректированные корреляции пункта с общей суммой и с остальной частью шкалы
Надёжность при удалении пункта	Выкл	Каждая выбранная метрика, пересчитанная после исключения каждого пункта
Матрица межпунктовых корреляций	Выкл	Полная матрица попарных корреляций между пунктами

Дополнительные параметры

Доверительные интервалы (включено по умолчанию) — добавляет столбец ДИ в таблицу метрик. Уровень доверия берётся из глобальных настроек.

Как вычисляются ДИ: для альфы Кронбаха используется F-интервал Фельдта (Feldt 1965) — точный при тау-эквивалентности, ограниченный сверху единицей, рассчитывается мгновенно. Для всех остальных метрик — омеги, CR, среднего по разбиениям пополам, λ4/λ6, AVE, H, β и GLB — применяются бутстрэп-интервалы методом перцентилей. Каждая реплика заново подгоняет нужные модели один раз и считывает все выбранные метрики, поэтому добавление метрик почти не увеличивает время; число реплик задаётся в настройке числа повторений бутстрэпа. При выбранной омеге или GLB включение ДИ может заметно замедлять анализ на больших шкалах — omega() и glb.fa() пересчитываются на каждой реплике.

Чтение результатов

Результаты отображаются в карточке вывода «Анализ надёжности» со следующими разделами.

Сведения о шкале

Сводный блок в начале:

Пункты шкалы, использованные в анализе
Обратные пункты (при наличии)
Исключённые нечисловые переменные (при наличии)

Таблица м��трик надёжности

Таблица с одной строкой на выбранную метрику:

Метрика — название коэффициента
Значение — вычисленный коэффициент надёжности
ДИ — доверительный интервал (при включённой опции)
Интерпретация — текстовое заключение (при включённой интерпретации)

Пороги интерпретации:

Значение	Оценка
Ниже 0.50	Неприемлемо
0.50–0.60	Слабо
0.60–0.70	Сомнительно
0.70–0.80	Приемлемо
0.80–0.90	Хорошо
0.90–0.95	Отлично
Выше 0.95	Отлично (возможна избыточность)

Для AVE используется отдельная шкала:

Значение	Оценка
Ниже 0.50	Слабая конвергентная валидность
0.50–0.70	Приемлемая конвергентная валидность
0.70 и выше	Хорошая конвергентная валидность

Выше 0.95 — слишком хорошо? Очень высокая надёжность может означать, что пункты почти дублируют друг друга. Если альфа равна 0.97, шкалу, возможно, можно сократить без потери информации. Изучите матрицу межпунктовых корреляций: если большинство корреляций превышают 0.90 — задумайтесь об укорочении шкалы.

Статистика шкалы

Таблица ключ–значение: число пунктов, число наблюдений, среднее шкалы, СО шкалы и дисперсия шкалы. Если способ обработки пропусков задан как попарный и в данных есть пропуски, дополнительно выводится строка Наблюдений с полными данными — среднее, СО и дисперсия шкалы считаются только по этим полным наблюдениям (частично пропущенная строка иначе суммировалась бы с подстановкой нулей вместо пропусков, занижая суммарный балл).

Среднее и СО шкалы: описывают суммарный балл (сумма всех пунктов после обратного кодирования). Среднее шкалы, делённое на число пунктов, даёт средний ответ на один пункт — это удобно при сравнении шкал с разным числом пунктов.

Анализ пунктов

Сводная таблица с одной строкой на пункт. Состав столбцов определяется выбранными параметрами вывода:

Среднее и СО — базовая статистика пункта
Скорректированная корреляция с суммой — корреляция пункта с суммой всех пунктов
Корреляция с остатком — корреляция пункта с суммой остальных пунктов шкалы (несколько иная поправка)
[Метрика] при удалении — значение метрики при исключении данного пункта (по одному столбцу на выбранную метрику)
Интерпретация — диагностика по каждому пункту при включённой опции:
- Отрицательная корреляция с суммой — рекомендуется проверить обратное кодирование
- Очень слабая дискриминативность — скорректированная корреляция с суммой ниже 0.20
- Слабая дискриминативность — скорректированная корреляция с суммой от 0.20 до 0.30
- Хорошая дискриминативность — скорректированная корреляция с суммой от 0.50 и выше
- Возможный эффект пола или потолка — среднее близко к минимуму или максимуму пункта
- Низкая дисперсия / однообразные ответы — очень малое СО относительно диапазона пункта
- Удаление улучшит метрику — указывается название метрики и величина улучшения
- «Хороший пункт» — замечаний нет

Что такое корреляция пункта с суммой? Она показывает, насколько хорошо пункт «согласуется» со шкалой в целом. Высокое значение (0.50+) означает, что пункт измеряет то же, что и другие пункты. Низкое (ниже 0.30) — что пункт выбивается: возможно, он сформулирован неудачно, неверно понимается респондентами или измеряет что-то иное. Отрицательное значение почти всегда означает, что пункт требует обратного кодирования.

«При удалении» — стоит ли удалять пункты? Не автоматически. Этот столбец показывает, что произойдёт с надёжностью, если убрать каждый пункт. Если удаление существенно улучшает метрику (например, альфа вырастает с 0.72 до 0.81) — это повод разобраться. Но удалять пункты следует только при наличии весомых оснований (слабая формулировка, низкая дискриминативность, теоретическое несоответствие), а не ради погони за большим числом.

Матрица межпунктовых корреляций

Симметричная матрица попарных корреляций между всеми пунктами. Полезна для выявления кластеров тесно связанных пунктов или пар, явно выбивающихся из общего паттерна.

На что обращать внимание: большинство корреляций должны лежать в диапазоне 0.20–0.80. Ниже 0.20 — пункты, вероятно, не измеряют одно и то же. Выше 0.80 — возможная избыточность. Блок высоких корреляций среди части пунктов может указывать на субфактор — рассмотрите возможность применения факторного анализа для выявления структуры более явным способом.

Воспроизводимость

Вкладка Воспроизводимость оценивает, могут ли результаты измерения быть воспроизведены при повторном замере другими экспертами, в другие моменты времени или другими методами. Вкладка работает с данными в длинном формате: каждая строка — одно наблюдение одного испытуемого при одном условии.

Внутренняя согласованность и воспроизводимость: внутренняя согласованность отвечает на вопрос «связаны ли пункты друг с другом?» — она анализирует одно измерение. Воспроизводимость спрашивает «получим ли мы тот же результат при повторном измерении?» — она сравнивает экспертов или временные точки. Шкала может обладать отличной внутренней согласованностью, но низким межэкспертным согласием, если эксперты по-разному интерпретируют пункты.

Структура данных

Два выпадающих списка определяют, как DataSuite считывает данные:

Идентификатор испытуемого — столбец, идентифицирующий каждого испытуемого. Если данные были преобразованы из широкого в длинный формат с помощью компоновщика столбцов, этот столбец выбирается автоматически.
Переменная условия — столбец, идентифицирующий эксперта, временную точку или метод измерения.

Все остальные выбранные переменные считаются переменными-показателями и анализируются массово.

Метрики воспроизводимости

Можно включить любую комбинацию метрик. Для каждой переменной рассчитываются те метрики, которые подходят для её типу данных:

Метрика	Непрерывная	Порядковая	Номинальная	Примечания
ICC	Да			Модель и форма настраиваются
Пирсон r	Да			Только для 2 условий
Спирмен ρ	Да	Да		Только для 2 условий
SEM и SDC	Да			На основе ANOVA; модель совпадает с моделью ICC
W Кендалла	Да	Да
κ Коэна / Лайта / Флейсса		Да	Да	Коэн (2 эксперта); Лайт (3+ экспертов, порядковые); Флейсс (3+ экспертов, номинальные)
α Криппендорфа	Да	Да	Да	ДИ методом бутстрэпа — может быть медленным

Результаты группируются по типу переменных, поэтому нет необходимости запускать анализ отдельно для непрерывных и категориальных переменных.

Что такое ICC? Коэффициент внутриклассовой корреляции показывает, какая доля общей дисперсии баллов обусловлена истинными различиями между испытуемыми, а не различиями между экспертами или случайной ошибкой. ICC = 0.90 означает, что 90% дисперсии отражает реальные различия — измерение обладает высокой воспроизводимостью.

Что такое каппа? Каппа Коэна измеряет согласие двух экспертов в категориальных оценках с поправкой на случайное согласие. Два эксперта могут совпадать в 80% случаев, но если они оценивают бинарный исход, где 90% — «да», одно лишь совпадение даст 82%. Каппа это учитывает. При трёх и более экспертах модуль автоматически выбирает подходящее расширение: κ Флейсса для номинальных (неупорядоченных) категорий и κ Лайта — среднее по всем попарным κ Коэна с квадратичными весами — для порядковых, чтобы расстояние между соседними категориями по-прежнему учитывалось как частичное согласие.

SEM и SDC: стандартная ошибка измерения (SEM) характеризует точность индивидуальных баллов — чем она меньше, тем точнее измерение. Вычисляется как sqrt(MS_residual) из ANOVA, соответствующей выбранной модели ICC (однофакторная — остаточный средний квадрат внутри испытуемых; двухфакторная / смешанная — взаимодействие испытуемый×эксперт). Наименьшее обнаруживаемое изменение (SDC = SEM · z · √2) показывает минимальное изменение балла, превышающее ошибку измерения. Если балл пациента изменился на величину менее SDC, нельзя быть уверенным, что изменение реально.

Параметры ICC

При выборе ICC или SEM и SDC появляются две группы переключателей (ANOVA-модель для SEM берётся из того же выбора):

Модель:

Однофакторная случайная — каждого испытуемого оценивает случайный набор экспертов
Двухфакторная случайная — одни и те же эксперты оценивают всех испытуемых, и эксперты — случайная выборка из большей совокупности (наиболее распространённый вариант)
Двухфакторная смешанная — одни и те же эксперты оценивают всех испытуемых, и интересуют именно эти конкретные эксперты

Форма:

Единичные измерения — надёжность оценки одного эксперта
Усреднённые измерения — надёжность среднего значения по всем экспертам

Какой ICC выбрать? В большинстве исследовательских ситуаций подходит двухфакторная случайная модель, единичные измерения (ICC2,1): одни и те же эксперты оценивают всех испытуемых, эксперты представляют более широкую совокупность, и вас интересует, насколько надёжна оценка одного эксперта. Усреднённые измерения используются, когда на практике вы всегда будете усреднять одинаковое число экспертов.

Чтение результатов воспроизводимости

Результаты группируются по типу переменных под отдельными заголовками:

Непрерывные переменные — ICC, Пирсон r, Спирмен ρ, SEM, SDC, W Кендалла, α Криппендорфа
Порядковые переменные — Спирмен ρ, W Кендалла, κ, α Криппендорфа
Номинальные переменные — κ, α Криппендорфа

Каждая таблица содержит по одной строке на переменную и столбцы для каждой применимой метрики с необязательными доверительными интервалами и интерпретацией. Для метрик с осмысленным нулевым распределением — ICC, κ Коэна / Флейсса, W Кендалла, r Пирсона и ρ Спирмена — рядом с коэффициентом также выводится столбец p-значения и звёзды значимости. κ Лайта (порядковые, 3+ экспертов), SEM, SDC и α Криппендорфа не имеют закрытой формы p-значения и отображают только коэффициент и ДИ.

Пороги интерпретации для ICC и коэффициентов согласия (Koo & Li, 2016):

Значение	Оценка
Ниже 0.50	Слабо
0.50–0.75	Умеренно
0.75–0.90	Хорошо
Выше 0.90	Отлично

Для каппы используется шкала Лэндиса и Коха:

Значение	Оценка
Ниже 0	Слабо
0–0.20	Незначительно
0.20–0.40	Посредственно
0.40–0.60	Умеренно
0.60–0.80	Существенно
Выше 0.80	Почти идеально

Бутстрэп-ДИ: доверительные интервалы для κ Коэна / Лайта / Флейсса, W Кендалла, SEM (и SDC) и α Криппендорфа рассчитываются методом перцентильного бутстрэпа — ни у одной из этих метрик нет устойчивой замкнутой формы интервала на всём диапазоне входных данных. ICC, r Пирсона и ρ Спирмена используют свои стандартные аналитические интервалы и вычисляются мгновенно. Число повторений бутстрэпа задаётся в настройках; при большом числе переменных или большой выборке бутстрэп может заметно замедлять анализ.

Допущения

Испытуемые независимы. Каждый испытуемый — отдельный человек (или единица наблюдения). Повторные измерения одного испытуемого при разных условиях — это нормально, именно для этого и существует переменная условия.
Одинаковый набор условий для всех испытуемых. В идеале каждый испытуемый должен иметь балл при каждом условии (эксперт, временная точка). Отсутствующие комбинации обрабатываются, но могут снизить точность.
ICC предполагает непрерывные, нормально распределённые данные. Для порядковых или номинальных данных используйте каппу или α Криппендорфа.
Каппа предполагает категориальные данные. Для порядковых данных автоматически применяется взвешенная каппа с квадратичными весами (взвешенная κ Коэна при 2 экспертах, κ Лайта при 3+), учитывающая расстояние между категориями. Для непрерывных данных используйте ICC.

Пропущенные данные

Пропущенные значения обрабатываются согласно глобальным настройкам пропущенных данных. При построчном удалении из анализа исключается любое наблюдение, у которого пропущен хотя бы один пункт. При импутации пропущенные значения заменяются перед анализом.

Пропущенные данные и надёжность: построчное удаление может значительно сократить выборку, если пропуски рассеяны по многим пунктам. Однако попарное удаление для анализа надёжности недоступно: метрики требуют полной матрицы «пункты × наблюдения». Если потери наблюдений слишком велики, оцените, уместна ли в вашей ситуации импутация (средним или медианой).

Контрольный список для отчёта

Что важно включить при описании результатов анализа надёжности:

Метод:

Какие метрики надёжности вычислялись и почему (например, «рассчитаны альфа Кронбаха и омега Макдональда»)
Число пунктов шкалы
Наличие обратных пунктов (и каких именно)
Способ обработки пропущенных данных
Объём выборки

Результаты:

Значения коэффициентов надёжности с доверительными интервалами
Корреляции пунктов с суммой (или хотя бы упоминание проблемных пунктов)
Удалённые пункты и обоснование удаления
Для многомерных шкал: надёжность по субшкалам, а не только в целом

Для анализа воспроизводимости:

Использованные модель и форма ICC (например, «ICC(2,1), двухфакторная случайная модель, единичные измерения»)
Число экспертов/временных точек и число испытуемых
Значения ICC или каппы с доверительными интервалами
Значения SEM и SDC при оценке точности измерения

Воспроизводимость в R

Каждый анализ выводит соответствующий R-код в консоль R — его можно просматривать, копировать и повторно запускать. Внутренняя согласованность использует пакет R psych. Воспроизводимость дополнительно использует irr (каппа и W Кендалла) и tidyr (преобразование данных). α Криппендорфа и её бутстрэп-доверительный интервал вычисляются встроенным кодом без дополнительного пакета; SEM использует функцию aov() из базового R. Ссылки на использованные пакеты R автоматически появляются в начале раздела вывода. Бутстрэп-ДИ (для ω, композитной надёжности, среднего по разбиениям пополам, λ Гуттмана, AVE, коэффициента H, β Ревеллы, GLB, κ Коэна / Лайта / Флейсса, W Кендалла, SEM и α Криппендорфа) инициализируются настройкой Зерно бутстрэпа — задайте его, чтобы ДИ воспроизводились между запусками.

Типичные ошибки

Приводить только альфу. Альфа Кронбаха остаётся наиболее востребованной метрикой, однако предполагает одинаковый вклад всех пунктов (тау-эквивалентность) — что редко соответствует действительности. Если альфа и омега расходятся, альфа, как правило, менее точна. Приводите обе; журналы всё чаще ожидают омегу.

Считать альфу мерой одномерности. Шкала может иметь высокую альфу и при этом быть многомерной — альфа отражает среднюю межпунктовую корреляцию, а не факторную структуру. Шкала из 20 пунктов с двумя самостоятельными субфакторами легко даёт альфу = 0.85. Если необходимо продемонстрировать одномерность, используйте факторный анализ.

Ошибки обратного кодирования. Забытые обратные пункты — наиболее частая причина неожиданно низкой надёжности. Явный признак: один или несколько пунктов с отрицательной корреляцией с суммой. Перед запуском анализа сверьтесь с инструкцией по подсчёту баллов оригинального опросника.

Удалять пункты для максимизации альфы. Последовательное исключение всех пунктов, улучшающих альфу при удалении, может дать более короткую шкалу, которая хорошо работает на вашей выборке, но плохо воспроизводится. Удаляйте пункты только при наличии содержательных оснований (низкая дискриминативность, неоднозначная формулировка, теоретическое несоответствие) — не ради прироста в 0.02.

Игнорировать зависимость результатов от выборки. Надёжность — свойство баллов в вашей выборке, а не теста как такового. Шкала с опубликованной альфой 0.90 может дать 0.65 на вашей выборке, если ваша генеральная совокупность более однородна или пункты работают иначе в вашем контексте. Всегда вычисляйте и указывайте надёжность на собственных данных.

Анализ надёжности #

Внутренняя согласованность #

Требования #

Обратные пункты #

Метрики надёжности #

Параметры вывода #

Дополнительные параметры #

Чтение результатов #

Сведения о шкале #

Таблица м��трик надёжности #

Статистика шкалы #

Анализ пунктов #

Матрица межпунктовых корреляций #

Воспроизводимость #

Структура данных #

Метрики воспроизводимости #

Параметры ICC #

Чтение результатов воспроизводимости #

Допущения #

Пропущенные данные #

Контрольный список для отчёта #

Воспроизводимость в R #

Типичные ошибки #