На этой странице
- Как пользоваться
- Требования
- Предварительный анализ
- Сводка классификации пунктов
- Достаточность объёма выборки
- Таблица сводки по пунктам
- Проверка одномерности
- Проверка качества ответов
- Анализ шкалы Моккена
- Размерность
- Одномерная
- Разведочная
- Конфирматорная
- Типы моделей
- Дихотомические пункты
- Политомические пункты
- Непараметрические пункты
- Частично компенсаторные (только MD)
- Метод оценивания
- Метод подсчёта баллов
- Дифференциальное функционирование пунктов (DIF)
- Якорные пункты
- Дополнительные настройки
- Параметры вывода
- Таблицы
- Параметры графиков
- Чтение результатов
- Подгонка модели
- Сравнение моделей
- Сравнение размерностей
- Конфирматорное в сравнении с разведочным
- Факторные нагрузки
- Корреляции факторов
- Статистика пунктов
- Локальная зависимость
- Оценки способности испытуемых
- Подгонка испытуемых
- Надёжность и разделение
- Таблица перевода баллов
- Ожидаемые баллы по измерениям
- Результаты DIF
- Графики
- Характеристические кривые пунктов (ICC)
- Кривые информации
- Карта Райта
- Тепловая карта факторных нагрузок
- Допущения
- Пропущенные данные
- Чек-лист для отчёта
- Воспроизводимость в R
- Типичные ошибки
IRT-анализ
Вкладка Теория тестовых заданий (внутри модуля Анализ надёжности) подбирает одномерные IRT-модели и многомерные IRT-модели (MIRT) к пунктам анкет, тестов и опросников. В отличие от классических метрик надёжности, которые характеризуют шкалу в целом, IRT моделирует каждый пункт по отдельности — оценивает, насколько он труден, насколько хорошо различает респондентов и каково положение каждого испытуемого на латентной черте.
КТТ и IRT в одном предложении: классическая теория тестов отвечает на вопрос «Насколько надёжен суммарный балл?»; теория тестовых заданий — на вопрос «Как ведёт себя каждый пункт по всему диапазону способности?»
Что такое θ? θ (тета) — это оценка латентной черты: способности, установки, тяжести симптома — того, что измеряет шкала. Она задана на стандартизованной шкале с центром 0 и СО ≈ 1 (положительные значения выше среднего, отрицательные — ниже). В отличие от сырых баллов, θ находится на интервальной шкале: расстояние между θ = 0.5 и 1.0 равно расстоянию между 1.0 и 1.5.
Как пользоваться
- Выберите пункты — не менее двух числовых переменных
- Выберите режим размерности (одномерный, разведочный или конфирматорный)
- Нажмите Диагностика и Моккен, чтобы проверить пригодность данных перед подбором модели
- Выберите тип модели, метод оценивания и метод подсчёта баллов
- При необходимости выберите группирующую переменную для DIF
- Дополнительные настройки меняйте только если точно знаете, зачем
- Включите или выключите параметры вывода и графики
- Нажмите Запустить IRT-анализ
Требования
- Должны быть выбраны не менее двух числовых переменных.
- Пункты должны быть дихотомическими (два уникальных значения) или политомическими (порядковые либо непрерывные с 3–10 целочисленными категориями). Переменные с более чем 10 уникальными значениями или с нецелочисленными значениями исключаются, если их тип не задан как порядковый в панели данных.
- Для конфирматорной MIRT каждый пункт должен быть назначен хотя бы одному фактору.
- Должен быть включён хотя бы один параметр вывода.
Автоматическая классификация пунктов: DataSuite проверяет каждую переменную перед анализом. Бинарные переменные всегда считаются дихотомическими, порядковые — политомическими, непрерывные с 3–10 уникальными целочисленными значениями автоматически распознаются как политомические — когда это происходит, вы увидите соответствующее примечание. Для наилучших результатов задавайте типы переменных явно в панели данных.
Предварительный анализ
Нажмите Диагностика и Моккен, чтобы выполнить набор быстрых диагностик без подбора IRT-модели. Это недорогой способ выявить проблемы до запуска полного анализа.
Сводка классификации пунктов
Показывает, как каждая выбранная переменная была классифицирована (дихотомическая, политомическая или исключена) и почему. Для исключённых переменных приводится причина — например, слишком много уникальных значений или нецелочисленные данные.
Достаточность объёма выборки
Предупреждает, если выборка слишком мала для выбранной модели:
| Модель | Рекомендуемый минимум N |
|---|---|
| Раш / 1PL | 100 |
| 2PL | 200 |
| 3PL, 3PLu | 500 |
| 4PL | 1000 |
Это ориентировочные рекомендации — меньшие выборки могут работать, но дают менее устойчивые оценки параметров. Многомерные модели, как правило, требуют ещё больших выборок; чем больше факторов и параметров, тем больше нужно респондентов.
Таблица сводки по пунктам
Таблица по пунктам, где для каждого приводятся тип переменной, число категорий ответа, количество и доля пропущенных значений.
Проверка одномерности
Используется отношение собственных чисел матрицы межпунктовых корреляций (полихорической, если доступна, иначе Пирсона). Отношение первого собственного числа ко второму показывает, насколько доминирует первый фактор:
| Отношение | Интерпретация |
|---|---|
| ≥ 3 | Сильные свидетельства одномерности |
| 2–3 | Умеренные свидетельства |
| < 2 | Слабые — рассмотрите многомерные модели |
Почему важна одномерность: одномерные IRT-модели предполагают, что все пункты измеряют единую латентную черту. Если данные существенно многомерны, оценки параметров пунктов искажаются, а баллы испытуемых теряют смысл. Когда отношение ниже 2, либо исследуйте структуру с помощью факторного анализа, либо переходите к разведочной или конфирматорной MIRT.
Проверка качества ответов
Шесть флагов выявляют респондентов, чьи данные могут быть ненадёжны:
| Флаг | Проблема | Порог |
|---|---|---|
| M | Много пропусков | > 50% пунктов пропущено |
| L | Длинная серия | ≥ k одинаковых ответов подряд (k = максимум из 5 и половины числа пунктов) |
| V | Низкая вариабельность ответов | СО внутри респондента < 0.5 |
| C | Низкая корреляция с суммарным баллом | r < 0.1 |
| R | Низкая индивидуальная надёжность по бутстрэпу | RIR < 0.3 |
| D | Выброс по расстоянию Махаланобиса | p < .001 |
Что означают эти флаги? «Длинная серия» выявляет прямые линии — когда человек подряд отмечает один и тот же вариант. Низкая вариабельность внутри респондента отмечает почти нулевой разброс ответов между пунктами. Корреляция «человек–сумма» сравнивает паттерн ответов каждого респондента с остальными, а RIR делает то же самое по случайным подвыборкам для устойчивости. Расстояние Махаланобиса выявляет многомерные выбросы, чей общий паттерн ответов необычно далёк от центра выборки.
Кнопка под результатами позволяет вставить флаги качества в набор данных — добавляются два столбца: IRT_QC_nFlags (количество флагов на человека) и IRT_QC_Flags (буквы флагов, например «LV»).
Анализ шкалы Моккена
Непараметрический IRT-подход, не предполагающий конкретного функционального вида кривых отклика пунктов. Сообщается несколько анализов — читайте их вместе, чтобы решить, стоит ли пытаться применить параметрическую IRT.
Когда использовать Моккена вместо параметрической IRT: у анализа Моккена более слабые допущения — он не требует, чтобы пункты следовали логистической функции, только чтобы вероятность ответа монотонно возрастала с ростом черты. Используйте его как предварительный отсев. Если шкалируемость по Моккену плоха, параметрическая IRT вряд ли справится лучше.
Коэффициенты шкалируемости (H Лёвингера)
Hi для каждого пункта и общий H шкалы показывают, насколько хорошо пункты образуют гуттмановскую шкалу:
| H | Интерпретация |
|---|---|
| ≥ 0.5 | Сильная шкалируемость |
| 0.4–0.5 | Умеренная |
| 0.3–0.4 | Слабая |
| < 0.3 | Непригодна для шкалы |
Матрица H по парам пунктов (H_ij)
Симметричная матрица парных коэффициентов шкалируемости. Полезна для выявления пар, которые группируются вместе (высокий H_ij), и пар, которые почти не шкалируются совместно (низкий или отрицательный H_ij). Отрицательные значения указывают на пункты, которым может потребоваться обратное кодирование или исключение.
Проверка монотонности
Проверяет, возрастает ли (или хотя бы не убывает) вероятность подтверждения каждого пункта с ростом латентной черты. Пункты со значимыми нарушениями могут не соответствовать модели монотонной гомогенности. Перечисляются только пункты с нарушениями.
Инвариантное упорядочение пунктов (IIO)
Проверяет, сохраняют ли пункты один и тот же порядок трудности у разных респондентов. Коэффициент H_T суммирует IIO по шкале:
- H_T ≥ 0.3 — пункты упорядочиваются согласованно; одна и та же иерархия трудности применима ко всем
- H_T < 0.3 — упорядочение пунктов зависит от респондента
Почему важна IIO: когда IIO выполняется, можно сказать «пункт A труднее пункта B» без оговорок. Когда нарушается — это утверждение верно лишь в среднем: для некоторых респондентов A проще, чем B. Требуется для непараметрического упорядочения испытуемых.
Локальная независимость (метод rest-score)
Непараметрический аналог проверок Q3 / LD-X², которые выполняются в основном анализе. Отмечаются пары пунктов, чья условная связь превышает случайную (после учёта rest-score). Избыточные пары завышают надёжность, их стоит проверить.
Непараметрическая надёжность
Три модельно-независимые оценки надёжности, представленные рядом:
- Моленар–Сейтсма (ρ) — предпочтительная непараметрическая надёжность для шкал Моккена
- α — альфа Кронбаха, приводится для сравнения
- λ₂ — лямбда₂ Гутмана, обычно чуть более высокая нижняя граница, чем α
Автоматический подбор шкал (AISP)
Распределяет пункты по шкалам при заданной пользователем нижней границе H (по умолчанию 0.3 — задаётся полем Нижняя граница AISP на панели вывода). Если все пункты попадают в одну шкалу, это поддерживает одномерность. Пункты, отнесённые к шкале 0, не были выбраны — они могут не подходить ни к одной шкале.
Размерность
Селектор Размерность в верхней части настроек модели управляет общей структурой IRT-модели. Остальная часть интерфейса подстраивается под выбор.
Одномерная
Все пункты измеряют единую латентную черту. Это стандартная настройка IRT — подходит для сфокусированных анкет и тестов с единым предполагаемым конструктом.
Разведочная
Подбирает разведочную многомерную IRT-модель (MIRT). Вы задаёте:
- Число измерений — сколько латентных факторов извлекать
- Метод вращения — как ориентировать факторное решение (см. ниже)
Разведочная MIRT аналогична разведочному факторному анализу, но сохраняет IRT-правдоподобие. Используйте её, когда подозреваете наличие нескольких черт, но ещё нет конкретной гипотезы о том, какой пункт нагружает какой фактор.
Методы вращения:
- Ортогональные вращения (Варимакс, Квартимакс, Эквамакс, Варимин, T-Геомин, T-инвариант Бентлера, Бифактор) дают некоррелированные факторы. Проще интерпретировать; межфакторные корреляции фиксируются на 0.
- Косоугольные вращения (Облимин, Промакс, Квартимин, Симплимакс, Кластер, Q-Геомин, Q-инвариант Бентлера, Биквартимин) позволяют факторам коррелировать. Более реалистичны для большинства психологических конструктов — связанные черты обычно действительно коррелируют. Облимин — разумный выбор по умолчанию.
- Без вращения показывает «сырое» решение, в котором доминирует общий фактор; редко поддаётся прямой интерпретации.
Конфирматорная
Подбирает конфирматорную MIRT-модель с факторной структурой, которую вы задаёте. Структуру можно задать двумя способами:
- Виджет назначения факторов — матрица пункты (строки) × факторы (столбцы). Щёлкните ячейку, чтобы включить или выключить нагрузку пункта на фактор. Это тот же виджет, что и в КФА.
- Синтаксис mirt — текстовый редактор в аккордеоне. Синтаксис:
ИмяФактора = пункт1, пункт2, ...(одна строка на фактор; пункты — либо номера начиная с 1, либо имена переменных). Редактируйте свободно и нажмите Применить, чтобы обновить виджет.
Флажок Коррелирующие факторы определяет, могут ли факторы ковариировать (косоугольное решение) или ограничены ортогональностью.
Когда использовать конфирматорную, а когда разведочную MIRT: конфирматорный режим уместен, когда у вас есть теоретическая модель того, какие пункты затрагивают какую черту — например, эмоциональный опросник с заранее заданной структурой позитивного/негативного аффекта. Разведочный режим уместен, когда структура неизвестна или предварительна.
Типы моделей
Выберите модель в выпадающем списке Тип модели. Авто подбирает наиболее подходящий вариант по типам пунктов: 2PL для дихотомических, Graded Response Model для политомических. Список отключает варианты, не соответствующие текущему режиму размерности (например, модель Раша доступна только в одномерном режиме; PC2PL/PC3PL — только в MD).
Дихотомические пункты
| Модель | Параметры | Когда использовать |
|---|---|---|
| Раш (1PL / PCM) | Только трудность | Предполагается равная дискриминация; задачи с акцентом на измерение, рашевская традиция (только UD) |
| 2PL | Трудность + дискриминация | Стандартный выбор для бинарных пунктов, когда пункты могут различаться по дискриминации |
| 3PL | Трудность + дискриминация + угадывание (нижняя асимптота) | Тесты с вариантами ответа, где возможно угадывание; требует N ≥ 500 (только UD) |
| 3PLu | Трудность + дискриминация + верхняя асимптота | Пункты, где даже высокоспособные респонденты иногда «промахиваются» (невнимательные ошибки); требует N ≥ 500 (только UD) |
| 4PL | Все четыре асимптоты | Комбинирует угадывание и промахи; требует N ≥ 1000 (только UD) |
| Идеальная точка (unfolding) | Положение пункта + латентное расстояние | Пункты установок, где и низкое, и высокое θ приводят к отклонению (например, политические шкалы); только UD |
Политомические пункты
| Модель | Параметры | Когда использовать |
|---|---|---|
| Graded Response Model (GRM) | Пороги + дискриминация | Порядковые шкалы ответов (Ликерта); самый распространённый политомический выбор |
| GPCM | Пороги + дискриминация | Альтернатива GRM; моделирует логиты соседних категорий вместо кумулятивных |
| GPCM (IRT-параметризация) | Та же модель, что GPCM | Используйте, когда нужны пороги в стиле трудности, а не интерсепты |
| GRSM | Общая структура рейтинговой шкалы + дискриминация | У всех пунктов общий паттерн порогов; различаются только по общему положению (только UD) |
| GRSM (IRT-параметризация) | Та же модель, что GRSM | Параметры в IRT-стиле для GRSM (только UD) |
| RSM (Андрич) | Рашевская рейтинговая шкала | Общие пороги и равная дискриминация (только UD) |
| Номинальная | Наклоны, специфичные для категорий | У категорий нет предполагаемого упорядочения; редко нужна для стандартных анкет |
| GGUM | Политомический unfolding | Политомические пункты установок с немонотонными кривыми отклика (только UD) |
| Секвенциальная | Пошаговые переходы | Пункты, где достижение категории k требует прохождения k − 1 (например, упорядоченные достижения); только UD |
Непараметрические пункты
Не предполагают параметрической формы кривой — функция отклика пункта подбирается гибко. Используйте, когда стандартные параметрические модели плохо подходят, но шкалируемость по Моккену приемлема. Обе модели — только UD.
| Модель | Когда использовать |
|---|---|
| Сплайновая | Гибкие кривые на основе B-сплайнов; подходит для нестандартных форм пунктов |
| Монотонный полином | Монотонные кривые без предположения о логистической форме |
Частично компенсаторные (только MD)
В стандартной MIRT высокое значение по одному измерению может «компенсировать» низкое по другому. Частично компенсаторные модели ограничивают этот обмен — каждое измерение должно вносить вклад.
| Модель | Описание |
|---|---|
| PC2PL | Частично компенсаторная 2PL |
| PC3PL | Частично компенсаторная 3PL (добавляет параметр угадывания) |
Раш и 2PL: модель Раша накладывает на все пункты равную дискриминацию — варьируется только трудность. У этого есть практическое преимущество: сырые суммарные баллы становятся достаточной статистикой для латентной черты, то есть все с одинаковым суммарным баллом получают одну и ту же оценку способности. Модель 2PL снимает это ограничение, позволяя каждому пункту дискриминировать по-своему, что обычно улучшает подгонку, но лишает сырые баллы свойства достаточности.
Что такое параметр угадывания? В модели 3PL нижняя асимптота (c) представляет вероятность правильного ответа наугад. Для пункта с 4 вариантами ответа ожидаемо c ≈ 0.25. Этот параметр общеизвестно сложно оценить — он требует больших выборок (N > 500). Если ваш тест — не тест с вариантами ответа, используйте 2PL.
Что такое unfolding? В стандартной (кумулятивной) IRT вероятность подтверждения пункта монотонно возрастает с θ. В разворачивающих (с идеальной точкой) моделях она одновершинная — респонденты соглашаются с пунктами, ближайшими к их позиции, и отклоняют пункты, слишком крайние или слишком умеренные относительно их собственной точки зрения. Так часто ведут себя пункты политических установок.
Метод оценивания
Интерфейс предлагает все методы оценивания из mirt. Для большинства одномерных моделей по умолчанию используется EM — быстрый и надёжный. Многомерным моделям, как только вы выходите за пределы двух измерений, обычно нужен MHRM.
| Метод | Описание |
|---|---|
| EM (по умолчанию) | Expectation-Maximization — быстрый, детерминированный. Очень медленный при 3+ измерениях |
| MCEM | Монте-Карло EM — стохастический E-шаг; полезен, когда интегрирование затруднено |
| QMCEM | Квази-Монте-Карло EM — более точное многомерное интегрирование, чем MCEM |
| MHRM | Метрополис-Гастингс-Роббинс-Монро — стохастический; рекомендован для 3+ измерений. В MIRT даёт стандартные ошибки параметров пунктов |
| SEM | Стохастический EM — в некоторых случаях быстрее MHRM |
| BL | Бок-Либерман — классическая двумерная квадратура; в основном историческое значение |
Стандартные ошибки в MIRT: EM и QMCEM не вычисляют информационную матрицу для многомерных моделей — если СО отсутствуют, вы увидите соответствующее примечание. Если нужны стандартные ошибки параметров пунктов, используйте MHRM.
Метод подсчёта баллов
Определяет, как оценивается способность испытуемого (θ) после подбора модели:
| Метод | Описание |
|---|---|
| EAP (по умолчанию) | Expected A Posteriori — байесовская оценка по полному апостериорному распределению; устойчивая, слегка стянутая к среднему |
| MAP | Maximum A Posteriori — байесовская мода; меньше стяжения, чем у EAP, но более вариативна |
| MLE | Maximum Likelihood — без априорного распределения; даёт экстремальные (±∞) баллы для полностью правильных или полностью неправильных паттернов ответов, которые отфильтровываются из индивидуальных результатов |
| WLE | Взвешенное правдоподобие (Варм) — MLE с поправкой на смещение; на экстремальных паттернах даёт конечные оценки, без стяжения к априорному среднему |
Какой метод выбрать? EAP — самый безопасный выбор по умолчанию: он всегда даёт конечную оценку и аккуратно обрабатывает экстремальные паттерны ответов. WLE — хорошая альтернатива, если вы хотите обойтись без байесовского стяжения, но всё же получить конечные оценки. MLE теоретически «чище» (без влияния априорного распределения), но не работает для тех, кто ответил на всё правильно или всё неправильно.
Дифференциальное функционирование пунктов (DIF)
DIF проверяет, работают ли пункты по-разному в разных группах (например, по полу или языку). Чтобы включить анализ DIF, выберите категориальную или бинарную группирующую переменную. DataSuite использует подход constrained-baseline Вудса (2009): подбирается мультигрупповая модель, в которой параметры каждого пункта зафиксированы равными между группами, затем ограничение каждого не-якорного пункта снимается по очереди и проверяется полученное отношение правдоподобия.
Якорные пункты
При выборе группирующей переменной для DIF появляется панель якорных пунктов. Якорные пункты предполагаются свободными от DIF и служат опорой для проверки остальных. По умолчанию якорями являются все пункты (подход free baseline). Снимите отметки с тех пунктов, которые нужно проверить на DIF — тестироваться будут только не-якорные пункты.
Что такое DIF? Пункт демонстрирует DIF, когда люди из разных групп с одним и тем же уровнем способности имеют разную вероятность его подтверждения. Например, если у мужчин и женщин с одинаковыми математическими способностями разные шансы верно ответить на конкретный математический пункт, то у этого пункта есть DIF. DIF не обязательно означает предвзятость — пункт может законно измерять что-то, что действительно различается между группами, — но его стоит исследовать.
Для моделей Раша и GRSM (с ограниченной дискриминацией) проверяются только параметры трудности. Для остальных одномерных моделей дискриминация и трудность проверяются совместно. Для многомерных моделей все дискриминации по измерениям вместе с интерсептом проверяются одновременно.
Дополнительные настройки
Эти параметры расположены в аккордеоне Дополнительные настройки. Оставляйте значения по умолчанию, если точно не знаете, зачем их менять.
| Настройка | Варианты | Когда менять |
|---|---|---|
| Расчёт СО | По умолчанию / Сандвичевый (робастный) / Кросс-произведение / Полные данные | Сандвичевые СО робастны к неправильной спецификации модели; полезны, когда модель приближённая |
| Латентное распределение | Гауссово / Эмпирическая гистограмма | Эмпирическая гистограмма ослабляет допущение о нормальности θ; доступна только для UD + EM |
| Оптимизатор | BFGS (по умолчанию) / Ньютон–Рафсон / Нелдер–Мид | Попробуйте другой оптимизатор, если оценивание не сходится |
| Точки квадратуры | По умолчанию / Точные (91) / Очень точные (121) | Увеличивайте для более точного интегрирования (медленнее); полезно для «хвостов» распределения |
| Ускоритель EM | Рамсей (по умолчанию) / SQUAREM / Нет | SQUAREM может ускорить сходимость на сложных задачах; «Нет» — для отладки |
| Допуск сходимости | Число (значение mirt по умолчанию: 1e-4) | Уменьшайте для более точных оценок (медленнее) |
| Макс. итераций | Число (значение mirt по умолчанию: 500) | Увеличивайте, если появляется предупреждение о сходимости, но оценки выглядят стабильными |
Параметры вывода
Таблицы
| Параметр | По умолчанию | Что показывает |
|---|---|---|
| Параметры пунктов | Вкл | Дискриминация (a), трудность (b) или пороги, интерсепты (d), MDISC/MDIFF (MD), угадывание (c), верхняя асимптота (u) со стандартными ошибками, когда они доступны |
| Сводка подгонки модели | Вкл | AIC, BIC, логарифм правдоподобия, статистика M2 с RMSEA, SRMSR, TLI, CFI |
| Статистика подгонки пунктов | Вкл | S-X² для каждого пункта с p-значением; MNSQ Infit/Outfit |
| Оценки способности (θ) | Вкл | Сводные статистики распределения θ (по каждому измерению в MD), с возможностью вставки баллов в набор данных |
| Надёжность и разделение | Вкл | Маргинальная надёжность, разделение испытуемых и пунктов, таргетинг теста (по каждому измерению в MD) |
| Статистика подгонки испытуемых | Выкл | Количество плохо подогнанных испытуемых (|Zh| > 2, outfit > 1.5) |
| Локальная зависимость (Q3 и LD-X²) | Выкл | Пары пунктов, нарушающие локальную независимость |
| Сравнение моделей (LR-тесты) | Выкл | Раш и 2PL (бинарные) или GRM и GPCM (политомические) с AIC/BIC и тестом отношения правдоподобия (только UD) |
| Условное СО измерения для каждого испытуемого | Выкл | Стандартная ошибка измерения на уровне θ каждого испытуемого (только UD) |
| Таблица перевода баллов (сырой → θ) | Выкл | Для каждого возможного сырого балла выводит оценку θ и её СО (только UD) |
| Факторные нагрузки | Вкл (MD) | Стандартизованные факторные нагрузки из вращённого решения |
| Корреляции факторов | Вкл (MD, косоугольное) | Матрица корреляций факторов при косоугольном вращении или коррелирующих конфирматорных факторах |
| Ожидаемые баллы по измерениям | Вкл (MD) | Ожидаемый суммарный балл как функция каждого измерения при остальных измерениях, зафиксированных на θ = 0 |
| Сравнение размерностей | Выкл (разведочный) | Подбирает разведочные модели при соседних размерностях и сравнивает AIC, BIC, LR-тест |
| Сравнение с неограниченной разведочной | Выкл (конфирматорный) | Проверяет, допустимы ли конфирматорные ограничения по сравнению с сопоставимой разведочной подгонкой той же размерности |
Параметры графиков
| График | По умолчанию | Что показывает |
|---|---|---|
| Характеристические кривые пунктов (ICC) | Вкл | Вероятность каждого ответа как функция θ — общий график для дихотомических пунктов, отдельные кривые категорий + кривые ожидаемого балла для политомических |
| Кривые информации и характеристические кривые теста | Вкл | Функции информации пунктов и теста, кривая стандартной ошибки, характеристическая кривая теста, кривая условной надёжности |
| Карта Райта (карта «испытуемый–пункт») | Вкл | Параллельное отображение распределения способности испытуемых и трудности пунктов на общей шкале θ |
| Тепловая карта факторных нагрузок | Вкл (MD) | Визуальная сводка нагрузок пунктов на факторы |
Чтение результатов
Подгонка модели
При включённой подгонке модели появляются две таблицы:
Информационные критерии — AIC, BIC и логарифм правдоподобия. Меньшие значения AIC/BIC указывают на лучший баланс между подгонкой и сложностью. Они наиболее полезны при сравнении моделей или размерностей.
Абсолютная подгонка (статистика M2):
| Индекс | Хорошая подгонка | Приемлемая | Плохая |
|---|---|---|---|
| RMSEA | < 0.05 | 0.05–0.08 | ≥ 0.08 |
| SRMSR | < 0.05 | 0.05–0.08 | ≥ 0.08 |
| TLI | > 0.95 | 0.90–0.95 | < 0.90 |
| CFI | > 0.95 | 0.90–0.95 | < 0.90 |
Что такое статистика M2? Это тест согласия с ограниченной информацией, разработанный для IRT-моделей. В отличие от χ²-тестов, сравнивающих все возможные паттерны ответов, M2 использует маргинальные распределения первого и второго порядка, что делает его практичным для тестов с большим числом пунктов. Значимое p-значение указывает на несогласие, но на больших выборках даже тривиальное рассогласование становится значимым — ориентируйтесь на RMSEA и CFI.
Сравнение моделей
Доступно для одномерных моделей, если включено. DataSuite подбирает альтернативную модель и сообщает AIC, BIC и (для вложенных моделей) тест отношения правдоподобия:
- Дихотомические пункты: Раш и 2PL — проверяется, улучшает ли подгонку возможность варьирования дискриминации
- Политомические пункты: GRM и GPCM — сравнение двух распространённых политомических моделей
- Смешанные данные: 2PL + GRM и 2PL + GPCM — меняется политомическая параметризация; для бинарных пунктов 2PL остаётся в обоих случаях
Как читать сравнение: если AIC и BIC оба предпочитают более простую модель, усложнение неоправданно. Если тест отношения правдоподобия значим и AIC/BIC предпочитают более сложную модель, дополнительные параметры оправданны. Когда AIC и BIC расходятся, BIC сильнее штрафует за сложность — склоняйтесь к более простой модели, если нет теоретических оснований для сложной.
Сравнение размерностей
(Разведочный режим.) Подбирает модели при соседних размерностях и сообщает AIC, BIC, логарифм правдоподобия и тест отношения правдоподобия между соседними решениями. Отвечает на вопрос: «Стоит ли добавлять ещё одно измерение?»
Конфирматорное в сравнении с разведочным
(Конфирматорный режим.) Сравнивает ваше конфирматорное решение с неограниченной разведочной подгонкой той же размерности. Незначимое p-значение указывает, что ограничения допустимы; значимое — что данные предпочитают более гибкую структуру.
Факторные нагрузки
(Только MD.) Таблица вращённых факторных нагрузок — пункты в строках, факторы в столбцах. Значения > 0.3 обычно считаются содержательными.
Корреляции факторов
(Только MD, косоугольное вращение.) Матрица корреляций, показывающая, насколько сильно факторы ковариируют. Высокие корреляции факторов (> 0.8) могут указывать на то, что факторы плохо разделяются.
Статистика пунктов
Сводная таблица с одной строкой на пункт. Столбцы зависят от того, какие параметры вывода включены, и от размерности.
Столбцы одномерных параметров:
- Дискриминация (a) — насколько резко пункт различает уровни способности. Цветовая разметка: красный для низкой (< 0.65), оранжевый для умеренной (0.65–1.0), без цвета для высокой (> 1.0)
- Трудность (b) — уровень θ, на котором вероятность подтверждения пункта составляет 50% (дихотомический) или ожидаемый ответ находится в середине (политомический). Выше = труднее
- Пороги (b1, b2, …) — для политомических пунктов, значения θ, где пересекаются вероятности соседних категорий
- Угадывание (c) — нижняя асимптота (3PL, 4PL)
- Верхняя асимптота (u) — верхняя граница вероятности подтверждения (3PLu, 4PL)
- Столбцы СО — стандартная ошибка каждого параметра
Столбцы многомерных параметров:
- a1, a2, … — дискриминация по каждому измерению (вектор наклонов)
- d или d1, d2, … — интерсепт (или интерсепты по категориям для политомических пунктов); заменяет одномерное b
- MDISC — многомерная дискриминация; длина вектора параметров a по измерениям
- MDIFF — многомерная трудность; −интерсепт / MDISC. Выводится как «Среднее положение» и отмечается как приближённое для политомических пунктов
Столбцы подгонки:
- S-X² — статистика подгонки пунктов Орландо и Тиссена со степенями свободы и p-значением. Значимое p указывает на плохую подгонку
- Infit MNSQ и Outfit MNSQ — средние квадратичные показатели подгонки рашевского семейства
Infit и Outfit: infit — информационно-взвешенная статистика; она делает упор на ответы тех, чья способность близка к уровню трудности пункта (где пункт наиболее информативен). Outfit невзвешен и чувствителен к неожиданным ответам, далёким от трудности пункта. Значения от 0.5 до 1.5 считаются продуктивными для измерения. Значения выше 2.0 говорят о том, что пункт ухудшает, а не улучшает измерение. Для не-рашевских моделей диапазон 0.5–1.5 показан для справки; при варьирующихся наклонах эти статистики имеют иные распределительные свойства.
Интерпретация дискриминации:
- > 1.0 — высокая дискриминация; пункт хорошо различает уровни способности
- 0.65–1.0 — умеренная; приемлемая, но менее резкая
- < 0.65 — низкая; пункт даёт мало информации о черте
- Отрицательная — пункт обратно связан с чертой; проверьте, не нужно ли его перекодировать в обратном направлении
MDISC и MDIFF: в MIRT-модели у пункта есть вектор дискриминаций — по одной на измерение. MDISC сворачивает этот вектор в одну длину, а MDIFF даёт соответствующую общую трудность. Воспринимайте их как сводки «где этот пункт находится в целом» — полезны для быстрого ранжирования, но для понимания, что именно измеряет пункт, всё равно нужны нагрузки по отдельным измерениям.
Локальная зависимость
Отмеченные пары пунктов и их статистики:
- Q3 — Q3 Йена, корреляция остатков пунктов после учёта латентной черты. Отмечаются значения |Q3| > 0.2
- Q3* — Q3 с поправкой на среднее (Марэ, 2013); из Q3 вычитается среднее значение по недиагональным элементам, что делает порог интерпретируемым, даже если глобальные остатки слегка смещены
- LD-X² — χ²-тест локальной зависимости. Отмечаются пары с p < .05
Если ни один метод не отмечает пары, допущение о локальной независимости поддерживается.
Что вызывает локальную зависимость? У двух пунктов может быть общая дисперсия сверх той, что объясняется латентной чертой — например, пункты с перекрывающимся содержанием («Я чувствую тревогу» и «Я чувствую нервозность»), пункты, относящиеся к общему стимулу (тексту для чтения), или пункты, образующие тестлет. Локальная зависимость завышает оценки параметров пунктов и смещает надёжность вверх. Рассмотрите объединение зависимых пунктов в тестлет или исключение одного пункта из каждой отмеченной пары.
Оценки способности испытуемых
Сводная таблица распределения θ:
- Среднее θ — средняя способность в выборке (близка к 0 для хорошо настроенных тестов)
- СО θ — разброс оценок способности
- Мин / Макс θ — диапазон оценок способности
- Среднее СО — средняя стандартная ошибка по всем испытуемым; меньше = точнее
В многомерном режиме выводится строка на каждое измерение (F1, F2, …).
Кнопка под таблицей вставляет θ и СО в набор данных. Если также включена подгонка испытуемых, вставляется и статистика Zh. Имена столбцов отражают метод подсчёта баллов — например, IRT_Theta_EAP, IRT_SE_EAP, IRT_Zh (одномерный) или IRT_Theta1_EAP, IRT_SE1_EAP, IRT_Theta2_EAP, … (многомерный).
Если были отфильтрованы экстремальные паттерны ответов (полностью минимальные или полностью максимальные при MLE), примечание сообщает, сколько респондентов было исключено из индивидуальных статистик.
Подгонка испытуемых
Сообщает количество плохо подогнанных испытуемых по двум критериям:
- |Zh| > 2 — стандартизированный остаток подгонки испытуемого; аберрантные паттерны ответов
- Outfit > 1.5 — неожиданные ответы на пункты, далёкие от способности испытуемого (рашевская традиция)
Что означает плохая подгонка испытуемого? Человек, чьи ответы не соответствуют ожиданиям модели, может отвечать наугад, невнимательно или обладать знаниями, не вписывающимися в измеряемую черту (например, специалист, который легко решает трудные пункты, но промахивается на простых). Небольшая доля плохо подогнанных (< 5%) — это нормально. Систематические паттерны (например, когда плохо подогнаны все высокоспособные) заслуживают внимания. Для не-рашевских моделей Zh — более надёжный индикатор подгонки испытуемого; порог outfit > 1.5 — это рашевская конвенция.
Надёжность и разделение
| Индекс | Что измеряет |
|---|---|
| Маргинальная надёжность | Доля «истинной» дисперсии в дисперсии θ (аналог альфы Кронбаха, но модельно-обоснованный) |
| Разделение испытуемых | Сколько различных страт способности способен различить тест |
| Надёжность пунктов | Согласованность оценок трудности пунктов (насколько устойчиво упорядочены пункты) |
| Разделение пунктов | Сколько различных страт трудности существует среди пунктов |
| Таргетинг теста | Разность между средней способностью испытуемых и средней трудностью пунктов |
В MIRT надёжность, разделение и таргетинг выводятся по каждому измерению. Надёжность и разделение пунктов — индексы в стиле Раша; для не-рашевских моделей они сопровождаются пометкой «(в стиле Раша)».
Пороговые интерпретации надёжности:
| Значение | Метка |
|---|---|
| ≥ 0.90 | Отличная |
| 0.80–0.90 | Хорошая |
| 0.70–0.80 | Приемлемая |
| 0.60–0.70 | Сомнительная |
| < 0.60 | Плохая |
Интерпретация разделения испытуемых:
| Значение | Метка |
|---|---|
| ≥ 3 | Высокое (≥ 4 страт) |
| 2–3 | Достаточное (≥ 3 страт) |
| 1–2 | Низкое (2 страты) |
| < 1 | Очень низкое (< 2 страт) |
Интерпретация таргетинга теста:
| Значение | Метка |
|---|---|
| |diff| < 0.5 | Хорошо нацелен |
| |diff| 0.5–1.0 | Умеренно нацелен |
| diff > 1.0 | Тест слишком лёгкий для выборки |
| diff < −1.0 | Тест слишком трудный для выборки |
Если были исключены респонденты с неконечными θ или СО (обычно MLE на экстремальных паттернах), примечание сообщает их количество.
Что такое разделение испытуемых? Если разделение равно 3, тест может различить около 4 разных групп способности (страт ≈ (4 × разделение + 1) / 3). Тест, который способен разделить людей только на «высоких» и «низких» (разделение < 2), не очень полезен для индивидуальных решений.
Таргетинг теста: когда среднее испытуемых и среднее пунктов близки (разница около 0), тест хорошо согласован с выборкой. Большая положительная разница означает, что тест слишком лёгкий — большинство респондентов находятся выше диапазона трудности пунктов. Большая отрицательная разница — что он слишком трудный.
Таблица перевода баллов
(Только одномерный режим.) Для каждого возможного сырого (суммарного) балла выводит оценку θ и её стандартную ошибку, используя функцию ожидаемого балла теста (эквейтинг). Когда доступен перевод EAPsum, он выводится в дополнительных столбцах рядом с результатом эквейтинга.
Зачем переводить сырые баллы в θ? Сырые баллы порядковые — разница между 10 и 15 не обязательно равна разнице между 25 и 30. Баллы θ в IRT находятся на интервальной шкале, то есть равным различиям в θ соответствуют равные различия в способности. Таблица перевода позволяет перевести привычные сырые баллы в шкалу с полноценными измерительными свойствами.
Ожидаемые баллы по измерениям
(Только MD.) Показывает ожидаемый суммарный балл как функцию каждого измерения при остальных измерениях, зафиксированных на θ = 0. Полезно для понимания того, как каждое измерение вносит вклад в наблюдаемые баллы.
Результаты DIF
Таблица, в которой каждому тестируемому пункту соответствует одна строка со статистикой χ², степенями свободы и p-значением. Имя группирующей переменной отображается над таблицей.
Графики
Характеристические кривые пунктов (ICC)
Дихотомические пункты: единый совмещённый график, показывающий вероятность правильного ответа (ось Y) по диапазону способности (ось X) для всех пунктов. Каждая кривая — это логистическая функция, сформированная параметрами пункта. Более крутые кривые указывают на более высокую дискриминацию; кривые, сдвинутые вправо, — на более трудные пункты.
Политомические пункты: строятся два типа графиков:
- Кривые отклика категорий — один график на пункт, показывающий вероятность каждой категории ответа как функцию θ. Кривые пересекаются в параметрах порогов
- Кривые ожидаемого балла — один совмещённый график, показывающий ожидаемый балл пункта как функцию θ для всех пунктов. Удобно для одновременного сравнения трудности и дискриминации
Кривые информации
Строится несколько панелей:
- Кривые информации пунктов — вклад каждого пункта в точность измерения по диапазону θ. Пики кривых показывают, где каждый пункт наиболее информативен
- Кривая информации теста — сумма функций информации всех пунктов. Показывает, где тест в целом измеряет точнее всего
- Кривая стандартной ошибки — обратный квадратный корень из информации теста. Меньшая СО = более точное измерение
- Характеристическая кривая теста — ожидаемый суммарный балл как функция θ. Показывает нелинейную связь между способностью и сырыми баллами
- Кривая условной надёжности — надёжность как функция θ, вычисляемая как 1 − SE(θ)² / σ²θ. Пунктирная опорная линия проходит на уровне 0.70
Как читать кривую информации: пик кривой информации теста показывает, где тест наиболее точен. Тест, предназначенный для клинического скрининга (отличающий страдающих расстройством от не страдающих), должен иметь пик вблизи клинического порога. Тест для общего измерения способности должен иметь широкую пологую кривую информации. Узкие пики означают, что тест точен для небольшого диапазона способности и неточен в остальном.
Карта Райта
Двухпанельное отображение с общей осью θ:
- Левая панель — горизонтальная гистограмма оценок способности испытуемых
- Правая панель — маркеры трудности пунктов с метками (разнесённые во избежание наложения)
Для многомерных моделей отдельные гистограммы испытуемых и положения пунктов строятся для каждого измерения.
Как читать карту Райта: пункты и испытуемые нанесены на одну шкалу. Пункты, расположенные на той же высоте, что и скопление испытуемых, оптимально нацелены на этих людей — они дают максимум информации. Пункты, намного выше распределения испытуемых, слишком трудные (почти все отвечают неверно); пункты намного ниже — слишком лёгкие (почти все отвечают верно). Хорошо нацеленный тест имеет пункты, распределённые по всему диапазону испытуемых.
Тепловая карта факторных нагрузок
(Только MD.) Пункты на одной оси, факторы на другой, цвет ячейки кодирует величину нагрузки. Быстрая визуальная сводка того, какие пункты нагружают какие факторы — особенно полезна для разведочной MIRT после вращения.
Допущения
- Одномерность (режим UD) — все пункты измеряют единую латентную черту. Используйте предварительный анализ для проверки перед подбором UD-модели. В режиме MD она заменяется более слабым допущением о том, что пункты измеряют заданное число черт.
- Локальная независимость — после учёта латентной черты (черт) ответы на пункты независимы. Нарушается, когда у пунктов общее содержание, общий стимул или они образуют тестлеты. Проверяется через локальную зависимость в выводе.
- Монотонность — вероятность подтверждения более высоких категорий возрастает со способностью. Проверяется анализом Моккена на этапе предварительной диагностики.
- Корректная спецификация модели — выбранная модель (Раш, 2PL и т. д.) адекватно описывает данные. Проверяйте подгонку модели и рассматривайте сравнение моделей.
- Достаточный объём выборки — параметры IRT оцениваются менее точно на малых выборках. См. рекомендации по объёму.
- Пункты должны быть закодированы в одном направлении. Отрицательно сформулированные пункты требуют обратного кодирования перед IRT-анализом — воспользуйтесь руководством по подсчёту баллов или функцией обратного кодирования во вкладке внутренней согласованности.
Пропущенные данные
Пропущенные значения обрабатываются глобальной настройкой пропусков. При построчном удалении (listwise) исключается любой случай с пропуском хотя бы по одному пункту. Число полных наблюдений сообщается в выводе.
Пропущенные данные и IRT: IRT обрабатывает пропуски более аккуратно, чем классические методы — способность испытуемого можно оценить по тем пунктам, на которые он ответил. Однако текущая реализация DataSuite использует построчное удаление при подборе модели. Если вы теряете много случаев, рассмотрите, уместна ли импутация, но помните, что импутация ответов на пункты может исказить IRT-оценки параметров сильнее, чем это повлияло бы на классическую надёжность.
Чек-лист для отчёта
Метод:
- Размерность (одномерная, разведочная MIRT с k измерениями и вращением или конфирматорная MIRT с заданной факторной структурой)
- Использованная IRT-модель (например, «Подобрана модель градуированного отклика в R-пакете
mirt») - Метод оценивания (EM, QMCEM, MHRM, …)
- Метод подсчёта способности испытуемых (EAP, MAP, MLE, WLE)
- Число пунктов и объём выборки (общий и полные наблюдения)
- Типы пунктов (дихотомические, политомические или смешанные)
- Как обрабатывались пропущенные данные
- Любые отклонения от значений по умолчанию в дополнительных настройках
- Использованное ПО и R-пакеты
Результаты:
- Индексы подгонки модели (как минимум RMSEA, CFI; AIC/BIC при сравнении моделей или размерностей)
- Оценки параметров пунктов со стандартными ошибками (по измерениям в MD, плюс MDISC/MDIFF)
- Статистики подгонки пунктов (S-X², infit/outfit, где применимо)
- Распределение способности испытуемых (среднее, СО, диапазон), по измерениям в MD
- Маргинальная надёжность и разделение испытуемых, по измерениям в MD
- Факторные нагрузки (и корреляции для косоугольных решений) для MIRT
- Любые проблемные пункты (низкая дискриминация, плохая подгонка, локальная зависимость)
- Результаты DIF, если применимы, включая группирующую переменную и стратегию якорей
- Карта Райта или другие визуализации в виде рисунков
Воспроизводимость в R
Каждый анализ печатает соответствующий R-код в консоль R. IRT-анализ использует R-пакет mirt для подбора модели, вращений, параметров пунктов и испытуемых, статистик подгонки, DIF и перевода баллов. Предварительный анализ дополнительно использует mokken для шкалируемости, монотонности, IIO, локальной независимости по rest-score и непараметрической надёжности. Цитирования R-пакетов автоматически появляются в начале вывода.
Типичные ошибки
Запуск IRT без предварительной проверки данных. Предварительный анализ сделан не просто так — он выявляет нарушения одномерности, невнимательных респондентов и пункты, не вписывающиеся в монотонную модель. Подбор IRT-модели к непригодным данным даёт параметры, которые выглядят точными, но ничего не значат. Всегда сначала запускайте Диагностику и Моккен.
Выбор 3PL по умолчанию. Параметр угадывания соблазнителен («у моего теста варианты ответа!»), но крайне сложен для оценивания. При выборке менее 500 респондентов параметры угадывания часто плохо идентифицированы и могут дестабилизировать всю модель. Начинайте с 2PL; добавляйте параметр угадывания только если у вас большая выборка и 2PL демонстрирует систематическую плохую подгонку на низких уровнях способности.
Использование EM при высокой размерности. EM плохо масштабируется за пределами двух измерений — он может быть очень медленным или не сходиться. Для 3+ измерений переходите на MHRM; он намного быстрее и дополнительно даёт стандартные ошибки параметров пунктов.
Чтение MIRT-нагрузок без вращения. В невращённом MIRT-решении доминирует общий фактор, и оно не поддаётся прямой интерпретации. Выбирайте косоугольное вращение (Облимин — разумный выбор по умолчанию), если у вас нет конкретной причины предпочесть ортогональное или невращённое решение.
Игнорирование подгонки пунктов. Хорошо подогнанная модель в целом (хороший RMSEA) может содержать отдельные пункты, подгонка которых плоха. Всегда проверяйте S-X² пункта и статистики infit/outfit. Один плохо подогнанный пункт может искажать баллы всех испытуемых вблизи его уровня трудности.
Переинтерпретация DIF. Статистически значимый результат DIF не означает автоматически, что пункт предвзят. На больших выборках значимыми становятся и малые эффекты DIF. Смотрите на величину различий параметров между группами, а не только на p-значение. Пункты с DIF могут законно отражать реальное межгрупповое различие, а не артефакт тестирования.
Отношение к IRT-баллам как к «лучшим» сырым баллам. Оценки θ имеют стандартные ошибки — они не точны. Два человека с θ = 0.5 и θ = 0.7 могут не различаться содержательно, если у обоих СО = 0.3. Всегда учитывайте СО при интерпретации индивидуальных баллов и используйте кривую условной надёжности, чтобы понимать, где тест измеряет точно, а где — нет.
Навязывание параметрической модели при неудаче Моккена. Если пункты не образуют шкалируемую шкалу по Моккену (H < 0.3), они вряд ли впишутся и в параметрическую IRT. Плохая шкалируемость по Моккену обычно указывает, что пункты измеряют не единый конструкт — рассмотрите факторный анализ или перейдите к многомерной IRT, прежде чем пытаться подобрать одномерную параметрическую модель.