На этой странице
- Типы анализа
- Назначение переменных
- Роли переменных
- Предпросмотр групп
- Несколько группирующих переменных
- Выбор критерия
- Независимые выборки — числовые переменные
- Независимые выборки — дисперсия
- Зависимые выборки — числовые переменные
- Одна выборка — числовые переменные
- Независимые выборки — категориальные переменные
- Зависимые выборки — категориальные переменные
- Смешанная модель
- Параметры
- Направление критерия
- Апостериорные критерии
- Формат попарных сравнений
- Поправка на непрерывность
- Размеры эффекта
- Классификационный анализ (ROC)
- Описательная статистика
- Включить визуализацию
- Проверка допущений
- Сводная таблица
- Рекомендации
- Подробные результаты
- Чтение результатов
- Стандартные критерии (t-критерий, дисперсионный анализ, Краскела–Уоллиса и др.)
- Категориальные критерии (хи-квадрат, точный критерий Фишера и др.)
- Попарные сравнения
- Результаты классификационного анализа (ROC)
- Факторный дисперсионный анализ
- ANCOVA
- Смешанный дисперсионный анализ
- ART-ANOVA
- MANOVA / MANCOVA
- Пакетный анализ
- Псевдофакторный анализ
- Поправка p-значений
- Пропущенные данные
- Визуализация
- Коробчатый график
- Скрипичный график
- График ECDF
- График средних и доверительных интервалов
- График парных линий
- График взаимодействия
- Форест-график
- ROC-кривая
- Контрольный список для отчёта
- Воспроизводимость
- Типичные ошибки
Сравнительный анализ
Модуль Сравнительный анализ проверяет, различаются ли группы или замеры по одной или нескольким переменным. Поддерживаются независимые выборки (отдельные группы), зависимые выборки (повторные измерения одних и тех же испытуемых), смешанные дизайны, сочетающие оба подхода, а также одновыборочный режим, сравнивающий одну переменную с фиксированным эталонным значением.
Что значит «сравнивать группы» статистически? Вы проверяете, достаточно ли велики наблюдаемые различия в выборке (например, экспериментальная группа набрала, в среднем, на 5 баллов больше), чтобы их нельзя было объяснить случайностью. Значимый результат означает, что различие, скорее всего, реально существует в генеральной совокупности, а не является артефактом конкретной выборки.
- Выберите тип анализа (независимые, зависимые или смешанные выборки)
- Назначьте роли переменным (группирующая, замер, идентификатор участника)
- Выберите статистический критерий
- Настройте параметры (размеры эффекта, апостериорные критерии, описательная статистика)
- При необходимости проверьте допущения, затем нажмите Запустить сравнительный анализ
Типы анализа
Выберите дизайн, соответствующий способу сбора данных:
| Дизайн | Применяется когда | Пример |
|---|---|---|
| Независимые выборки | Группы состоят из разных, не связанных между собой людей | Экспериментальная и контрольная группы, мужчины и женщины |
| Зависимые выборки | Одни и те же люди измерены в разных условиях | Тест до и после, три временных точки |
| Смешанная модель | Присутствуют как межгрупповые, так и внутригрупповые факторы | Экспериментальная и контрольная группы, каждая измерена до и после воздействия |
| Одна выборка | Одна переменная сравнивается с фиксированным эталонным значением (μ₀) | Баллы теста относительно проходного балла 70, смещение измерения относительно калибровочного значения |
Почему важен дизайн? Критерии для независимых и зависимых выборок основаны на принципиально разной математике. Критерии для зависимых выборок мощнее: они учитывают индивидуальные различия — если испытуемый А всегда набирает больше испытуемого Б, критерий исключает этот фактор и сосредотачивается на том, вызвали ли условия изменение. Применение критерия для независимых выборок к парным данным лишает анализ этого преимущества; применение критерия для зависимых выборок к по-настоящему независимым группам даёт бессмысленные результаты.
Требуется длинный формат: сравнительный анализ ожидает одно наблюдение в строке. Если замеры представлены в отдельных столбцах (широкий формат), воспользуйтесь кнопкой Преобразовать широкий формат в длинный, которая появляется в интерфейсе, — она открывает инструмент объединения столбцов.
Назначение переменных
Роли переменных
Роли переменных назначаются на левой панели:
- Группирующие переменные — определяют принадлежность к группе (дизайны с независимыми и смешанными выборками). Выберите, чтобы указать переменные, разбивающие данные на группы.
- Переменные условий — определяют принадлежность к замеру (дизайны с зависимыми и смешанными выборками)
- Идентификатор участника — позволяет сопоставить данные одного испытуемого в разных замерах. Обязателен для дизайнов с зависимыми и смешанными выборками, необязателен для независимых. Если в данных есть столбец «Subject ID» (например, созданный инструментом объединения столбцов), он выбирается автоматически.
- Ковариаты — непрерывные контрольные переменные; отображаются, когда выбранный критерий их поддерживает (ANCOVA, MANCOVA, смешанный дисперсионный анализ, дисперсионный анализ с повторными измерениями). При добавлении ковариат к дисперсионному анализу с повторными измерениями расчёт ведётся на многомерной модели, допускающей ковариаты, но результаты представляются в обычной одномерной форме (одна F-статистика на эффект, частный η², эффекты ковариат — из той же модели).
Что такое ковариата? Переменная, влияние которой нужно «устранить» — вы предполагаете, что она влияет на результат, но она не является предметом исследования. Например, при сравнении результатов тестов по методам обучения средний балл студента до начала курса может влиять на итоги. Добавление этого показателя в качестве ковариаты статистически устраняет его влияние — и тогда оставшееся межгрупповое различие с большей вероятностью объясняется именно методом обучения.
Все переменные, которым не назначена ни одна из этих ролей, автоматически становятся зависимыми переменными — данными, сравниваемыми между группами.
Одновыборочный режим не использует роли группирующей переменной, замера или идентификатора участника — каждая выбранная числовая переменная является зависимой переменной и проверяется относительно эталонного значения. Появляется поле Эталонное значение (μ₀): введите одно значение для всех выбранных переменных или включите Задать для каждой переменной, чтобы задать своё μ₀ для каждой (список для каждой переменной предзаполняется общим значением).
Предпросмотр групп
Для независимых выборок отображается предпросмотр:
- Количество групп и их объёмы
- Предупреждения об очень малых группах (менее 3 наблюдений)
- Количество возможных попарных сравнений
- Предупреждение, если в качестве группирующей используется числовая переменная с большим числом уникальных значений (возможно, она непрерывная, а не категориальная)
Несколько группирующих переменных
При выборе двух и более группирующих переменных в режиме независимых выборок доступны две стратегии:
- Пакетный режим — отдельный анализ для каждой группирующей переменной; p-значения корректируются глобально по всем тестам.
- Факторный режим — все группирующие переменные перемножаются в комбинированные подгруппы (например, Пол × Группа лечения) и анализируются как один фактор. Ограничение: не более 10 000 комбинаций.
Пакетный или факторный? Пакетный режим подходит, когда группирующие переменные отвечают на независимые вопросы (есть ли различие по полу? есть ли различие по методу лечения?»). Факторный — когда вас интересуют взаимодействия («зависит ли эффект лечения от пола?»).
Выбор критерия
Выпадающий список автоматически показывает только критерии, подходящие для вашего дизайна и типов переменных.
Независимые выборки — числовые переменные
| Критерий | Когда применять |
|---|---|
| t-критерий для независимых выборок | Две группы, предполагается равенство дисперсий |
| t-критерий Уэлча | Две группы, дисперсии неравны (более безопасный вариант по умолчанию) |
| U-критерий Манна–Уитни | Две группы, непараметрическая альтернатива |
| Критерий Бруннера–Манцеля | Две группы, непараметрический — как Манна–Уитни, но корректен, когда у групп разный разброс/форма распределения |
| Однофакторный дисперсионный анализ | Три и более группы, параметрический, предполагаются равные дисперсии |
| Однофакторный дисперсионный анализ Уэлча | Три и более группы, параметрический, неравные дисперсии (k-групповой аналог t-критерия Уэлча) |
| Критерий Краскела–Уоллиса | Три и более группы, непараметрический |
| Критерий Колмогорова–Смирнова | Две группы — различаются ли распределения целиком (в любом аспекте, а не только по положению)? При трёх и более автоматически разворачивается в попарные сравнения. |
| k-выборочный критерий Андерсона–Дарлинга | Общая (омнибусная) версия предыдущего; проверяет равенство распределений сразу по двум и более группам, более чувствителен в хвостах |
| Критерий взаимной информации | Непараметрический общий критерий; выявляет любые различия в распределениях (сдвиг, разброс, форма). Две и более группы. |
| Критерий дивергенции Йенсена–Шеннона | Непараметрическая мера различия распределений групп. Две группы; при трёх и более автоматически разворачивается в попарную матрицу. |
| Факторный дисперсионный анализ | Два и более группирующих фактора, анализируются совместно |
| ANCOVA | Группы с непрерывными ковариатами |
| MANOVA | Несколько зависимых переменных одновременно |
| MANCOVA | Несколько зависимых переменных с ковариатами |
Информационно-теоретические критерии. Взаимная информация и дивергенция Йенсена–Шеннона показывают, насколько знание группы снижает неопределённость о значении зависимой переменной — в битах (log₂). В отличие от t-критерия и ранговых критериев, они реагируют на любое различие в распределениях, а не только на сдвиг среднего или медианы. P-значения получаются перестановкой меток групп, поэтому зависят от настройки Повторы бутстрэпа: чем больше повторов, тем точнее p-значения, но дольше расчёт. Отдельного показателя величины эффекта у этих критериев нет — сама статистика уже выражена в ограниченной шкале. Для зависимых и смешанных дизайнов не предлагаются: вопрос «произошёл ли сдвиг Y внутри испытуемого?» не имеет корректного информационно-теоретического эквивалента.
Зачем MANOVA вместо отдельных дисперсионных анализов? При отдельном дисперсионном анализе для каждой зависимой переменной растёт вероятность ложноположительных результатов: чем больше тестов, тем выше шанс случайного срабатывания. MANOVA проверяет все зависимые переменные совместно, удерживая уровень ложных срабатываний под контролем. Кроме того, она способна выявить межгрупповые различия, заметные лишь в сочетании переменных: например, группы могут не различаться ни по тревожности, ни по депрессии по отдельности, но их совместный паттерн может оказаться значимо разным.
Дисперсионный анализ Уэлча при неравных дисперсиях. Подобно тому как t-критерий Уэлча — более безопасный выбор для двух групп, однофакторный дисперсионный анализ Уэлча является устойчивым общим критерием для трёх и более: он не предполагает равенства дисперсий групп. Когда критерий Левена выявляет неравные дисперсии в многогрупповом дизайне, обычный однофакторный анализ исключается из рекомендаций, а анализ Уэлча остаётся рекомендованной параметрической альтернативой. Его апостериорный критерий — Критерий Геймса–Хауэлла (см. апостериорные критерии). Размеры эффекта (η², ω², ε²) не предлагаются — они предполагают равенство дисперсий, от которого Уэлч отказывается.
Бруннер–Манцель против Манна–Уитни. Привычное для критерия Манна–Уитни прочтение «группы различаются по положению» негласно предполагает, что у обоих распределений одинаковая форма — лишь со сдвигом. Когда разброс или форма различаются, такая интерпретация перестаёт работать. Критерий Бруннера–Манцеля не делает подобного допущения: он оценивает p̂ = P(случайное значение из группы 1 меньше значения из группы 2) и проверяет, равно ли оно ½, оставаясь корректным при неравных дисперсиях. Поэтому, когда критерий Левена выявляет неравные дисперсии в дизайне с двумя группами, у критерия Манна–Уитни сохраняется оговорка, направляющая сюда. Его размеры эффекта — общеязыковый размер эффекта (само p̂) и δ Клиффа.
Критерии равенства распределений (Колмогорова–Смирнова и Андерсона–Дарлинга). Большинство критериев выше спрашивают про одну характеристику — среднее, медиану, положение. Критерий Колмогорова–Смирнова вместо этого задаёт широкий вопрос: различаются ли распределения вообще? Его статистика D — это наибольший разрыв между кривыми накопленных частот (эмпирическими функциями распределения) двух групп, поэтому он улавливает различия в разбросе, асимметрии или форме, которые критерий положения пропустил бы. Андерсона–Дарлинга — это омнибусный k-выборочный аналог: он проверяет все группы за один проход и сильнее взвешивает хвосты, что делает его более чувствительным выбором, когда различия сосредоточены в крайних значениях. Используйте Колмогорова–Смирнова для целенаправленного сравнения двух групп (при трёх и более он автоматически разворачивается в попарную таблицу), а Андерсона–Дарлинга — когда нужен единый вердикт сразу по всем группам. Ни у того, ни у другого нет отдельного столбца величины эффекта — D (как и стандартизированная статистика AD) сама по себе является мерой величины.
Независимые выборки — дисперсия
Эти критерии задают иной вопрос, чем все критерии выше: не «различаются ли группы по положению?», а «различаются ли группы по разбросу?» Гипотеза проверяется о самой дисперсии.
| Критерий | Когда применять |
|---|---|
| F-критерий равенства дисперсий | Две группы — является ли одна более изменчивой, чем другая? Параметрический (предполагает нормальность). При трёх и более автоматически разворачивается в попарные сравнения. |
| Критерий Бартлетта | Три и более группы, параметрический — чувствителен к ненормальности. |
| Критерий Флигнера–Килина | Три и более группы, ранговый — устойчив к ненормальности; безопасный вариант по умолчанию, когда данные не нормальны. |
Когда вопрос именно о разбросе? Обычно сравнивают средние. Но иногда важна именно стабильность: два метода обучения могут давать одинаковый средний балл, при этом один даёт куда более разбросанные результаты, или изменение процесса может оставить среднее на целевом уровне, но сузить (или расширить) допуски. Эти критерии нацелены прямо на это. F-критерий работает с двумя группами и сообщает отношение дисперсий s₁²/s₂² как размер эффекта (1 = равный разброс) с доверительным интервалом; Критерий Бартлетта и Критерий Флигнера–Килина — это омнибусные k-групповые версии. Все три двусторонние.
Здесь важна нормальность — выбирайте с её учётом. Критерий Бартлетта и F-критерий предполагают нормальность каждой группы и, в отличие от t-критерия и дисперсионного анализа, остаются чувствительными к этому допущению даже на больших выборках (защиты центральной предельной теоремы нет). Критерий Флигнера–Килина работает на рангах и устойчив к ненормальности, поэтому он — надёжный выбор, когда нормальность под вопросом. Когда проверка допущений выявляет ненормальность, F-критерий и Бартлетта исключаются из рекомендаций, а Флигнера–Килина остаётся рекомендованным — это аналог перехода от параметрических к непараметрическим критериям в семействе дисперсии.
Это не критерий Левена. Критерий Левена (Брауна–Форсайта с центрированием по медиане) запускается автоматически как проверка допущения для критериев положения — это «привратник», решающий, безопасен ли t-критерий или дисперсионный анализ с равными дисперсиями (см. проверку допущений). Критерии же здесь делают неравенство дисперсий проверяемой гипотезой, сообщая p-значение и (для F-критерия) размер эффекта, а не предварительной проверкой какого-то другого критерия.
Зависимые выборки — числовые переменные
| Критерий | Когда применять |
|---|---|
| Парный t-критерий | Два условия, параметрический |
| Критерий знаковых рангов Уилкоксона | Два условия, непараметрический |
| Дисперсионный анализ с повторными измерениями | Три и более условия, параметрический |
| Критерий Фридмана | Три и более условия, непараметрический |
| MANOVA с повторными измерениями | Несколько зависимых переменных в разных условиях |
Одна выборка — числовые переменные
Каждый критерий сравнивает положение одной переменной с эталонным значением μ₀:
| Критерий | Когда применять |
|---|---|
| Одновыборочный t-критерий | Среднее относительно μ₀, приблизительно нормальные данные. Размер эффекта: d Коэна / g Хеджеса, (среднее − μ₀) / СО |
| Одновыборочный критерий знаковых рангов Уилкоксона | Псевдомедиана относительно μ₀, непараметрический. Размер эффекта: рангово-бисериальный r / r Уилкоксона |
| Критерий знаков | Медиана относительно μ₀, наиболее устойчивый — учитывает только число наблюдений выше μ₀ (значения, равные μ₀, отбрасываются; их число указывается под таблицей). Тестовая статистика показывается как число значений выше μ₀ из эффективного n (без учёта совпадений). Размер эффекта: доля значений выше μ₀ |
Какой одновыборочный критерий выбрать? t-критерий обладает наибольшей мощностью, когда данные приблизительно нормальны. Критерий знаковых рангов Уилкоксона — непараметрическая альтернатива, использующая ранги модулей отклонений от μ₀. Критерий знаков наиболее устойчив — он полностью игнорирует величину и учитывает лишь то, лежат ли значения выше или ниже μ₀, что делает его пригодным для порядковых данных или данных с тяжёлыми выбросами, но снижает мощность. Доверительный интервал для t-критерия и критерия Уилкоксона относится к самой оценке положения (среднему или псевдомедиане), а не к различию между замерами. Эталонное значение μ₀, относительно которого проверялась каждая переменная, показано отдельным столбцом в таблице результатов — это удобно, когда режим Задать для каждой переменной назначает своё μ₀ каждой переменной. Проверка допущений тестирует нормальность переменной и направляет вас к t-критерию (при нормальности) или ранговым критериям (при её отсутствии).
Режимы эквивалентности и не меньшей эффективности пока недоступны в одновыборочном режиме — доступны только стандартные двусторонние и односторонние направления.
Независимые выборки — категориальные переменные
| Критерий | Когда применять |
|---|---|
| Критерий хи-квадрат независимости | Связь между категориальными переменными |
| Точный критерий Фишера | Таблицы 2×2, особенно при малых выборках |
Зависимые выборки — категориальные переменные
| Критерий | Когда применять |
|---|---|
| Критерий Макнемара | Два условия, бинарные исходы |
| Критерий Стюарта–Максвелла | Два условия, исходы с 3 и более категориями |
| Критерий Q Кокрена | Три и более условия, бинарные исходы |
Поправка на непрерывность. Критерий хи-квадрат независимости, критерий Макнемара и U-критерий Манна–Уитни поддерживают поправку на непрерывность, включённую по умолчанию для соответствия R и SPSS. О том, что она делает и когда её стоит отключить, см. раздел параметров.
Дублирующиеся строки (испытуемый, условие) в парных данных. Парные и повторно-измеряемые критерии предполагают одно наблюдение на испытуемого и условие. Если в данных есть дубликаты, шаг reshape молча оставляет первую строку для каждой пары и критерий выполняется на подмножестве данных — но модуль показывает предупреждающее уведомление с числом затронутых испытуемых, чтобы их можно было исправить и запустить анализ повторно.
Смешанная модель
| Критерий | Когда применять |
|---|---|
| Смешанный дисперсионный анализ | Межгрупповые и внутригрупповые факторы, одна зависимая переменная, параметрический |
| ART-ANOVA (преобразование выровненных рангов) | Межгрупповые и внутригрупповые факторы, одна зависимая переменная, непараметрический |
| Смешанный MANOVA | Межгрупповые и внутригрупповые факторы, несколько зависимых переменных |
Любое число факторов. Все три смешанных критерия принимают любое число группирующих (межгрупповых) переменных и любое число переменных условия (внутригрупповых) — они не ограничены одной переменной каждого типа. Сообщаются все главные эффекты и все взаимодействия по полному перекрёстному плану. Смешанный дисперсионный анализ и ART-ANOVA также принимают несколько зависимых переменных (анализируются по одной за раз); смешанный MANOVA моделирует зависимые переменные совместно.
Когда применять ART-ANOVA? ART-ANOVA — это непараметрическая замена для смешанного плана: используйте её, когда остатки не подчиняются нормальному распределению и допущения смешанного дисперсионного анализа не выполняются. Метод выравнивает и ранжирует данные так, что обычный факторный вывод можно проводить на рангах, при этом (в отличие от простого рангового преобразования) главные эффекты и взаимодействия остаются разделимыми. Критерий строго факторный: он сообщает F-критерии и частную η² для каждого эффекта, но не поддерживает ковариаты и апостериорные сравнения (см. Результаты ART-ANOVA).
Параметрические и непараметрические критерии: параметрические (t-критерий, дисперсионный анализ) предполагают примерную нормальность данных и обладают большей статистической мощностью — они лучше обнаруживают реальные различия. Непараметрические (Манна–Уитни, Краскела–Уоллиса) предъявляют меньше требований к данным и надёжнее при асимметричных распределениях или выбросах, однако для обнаружения тех же эффектов им нужны бо́льшие выборки. Воспользуйтесь проверкой допущений, чтобы сделать обоснованный выбор.
Двухвыборочные критерии при более чем двух группах: если выбран двухвыборочный критерий (например, t-критерий), но групп больше двух, модуль автоматически выполняет все возможные попарные сравнения. Каждая пара проверяется напрямую — отдельный общий критерий предварительно не требуется — а полученные p-значения попадают в общую поправку p-значений по всему запуску.
Какую оценку разброса использует каждая пара. Будет ли у пар общая оценка разброса, зависит от допущения о дисперсиях, уже заложенного в выбранном критерии:
- t-критерий для независимых выборок (Стьюдента) — объединяет внутригрупповой разброс по всем группам (остаточная дисперсия дисперсионного анализа, со степенями свободы N − k), поэтому каждая пара опирается на всю выборку. Это стандартное семейство попарных сравнений с объединённой оценкой разброса — эквивалент
pairwise.t.test(pool.sd = TRUE)в R, контраст наименьшей значимой разности (НЗР) Фишера — и оно мощнее, чем проверка каждой пары по отдельности. Это корректно именно потому, что t-критерий Стьюдента уже предполагает равенство дисперсий между группами.- t-критерий Уэлча — сохраняет отдельную оценку дисперсии для каждой пары (подход Геймса–Хауэлла, Games–Howell), что является правильным выбором при неравных дисперсиях групп.
- U-критерий Манна–Уитни, парный t-критерий, критерий знаковых рангов Уилкоксона — каждая пара проверяется по своим данным, что соответствует
pairwise.wilcox.test/pairwise.t.test(paired = TRUE)в R.
Параметры
Направление критерия
Для двухвыборочных критериев (t-критерии, Манна–Уитни, Уилкоксона) и одновыборочных критериев в выпадающем списке Направление критерия доступны две группы вариантов. Для многогрупповых критериев список скрыт. В одновыборочном режиме группа «Эквивалентность» скрыта.
Стандартные:
- Двусторонний (по умолчанию) — проверяет различие групп в любом направлении
- Односторонний: группа 1 > группы 2 — проверяет конкретную направленную гипотезу
- Односторонний: группа 1 < группы 2
Когда использовать односторонние критерии: только при наличии веского обоснования для конкретного направления эффекта до просмотра данных. Односторонний критерий мощнее в ожидаемом направлении, но полностью игнорирует эффекты в противоположном. При сомнениях выбирайте двусторонний.
Эквивалентность:
- Эквивалентность (TOST) — проверяет, что различие попадает в интервал ±Δ (т.е. группы практически одинаковы)
- Ненижестоящий — проверяет, что группа 1 не хуже группы 2 более чем на Δ
- Превосходство — проверяет, что группа 1 превосходит группу 2 как минимум на Δ
- Минимальный эффект (MET) — проверяет, что различие составляет не менее Δ (подтверждает наличие практически значимого эффекта)
При выборе любого варианта эквивалентности появляется поле Граница эквивалентности (Δ). Значение задаётся в одном из двух форматов:
- В единицах измерения — в тех же единицах, что и зависимая переменная
- Стандартизированное (d Коэна) — автоматически пересчитывается в единицы измерения через стандартизатор, соответствующий выбранному критерию: объединённое СО для классического t-критерия для независимых выборок, среднеквадратичное СО √[(s₁² + s₂²) / 2] для t-критерия Уэлча (d Уэлча) и СО разностей для парных критериев.
Что такое тестирование эквивалентности? Стандартный критерий спрашивает: «Различаются ли группы?» Незначимый результат не означает, что группы одинаковы — он лишь говорит о том, что различие не удалось обнаружить. Тест эквивалентности ставит вопрос иначе: «Достаточно ли группы похожи?» Он использует метод двух односторонних тестов (TOST), чтобы показать, что разница укладывается в заранее заданные границы Δ. Значимый результат TOST — это положительное свидетельство эквивалентности, а не просто отсутствие свидетельств различий.
Как выбрать Δ: граница эквивалентности должна отражать наименьшее различие, которое имело бы практическое значение в вашей области. Например, если разница в 3 балла на 100-балльной шкале пренебрежимо мала, задайте Δ = 3 (в единицах измерения) или оцените стандартизированный эквивалент. Слишком широкая граница облегчает демонстрацию эквивалентности, но обесценивает вывод; слишком узкая — требует очень больших выборок.
Ненижестоящее и превосходство — односторонние варианты тестирования эквивалентности, особенно распространённые в клинических исследованиях. Ненижестоящий тест спрашивает: «Не хуже ли новое лечение стандартного более чем на Δ?» — полезно, когда более дешёвая или безопасная альтернатива приемлема, если она не уступает значимо. Тест превосходства спрашивает: «Лучше ли новое лечение на величину не менее Δ?» — более сильное утверждение, чем обычная значимость.
Тест минимального эффекта (MET) — противоположность тестирования эквивалентности. Если TOST стремится показать, что различие достаточно мало, то MET стремится показать, что различие достаточно велико — что оно превышает содержательно значимый порог Δ. Это полезно, когда нужно подтвердить не просто наличие эффекта (p < 0.05), а его практическую значимость.
Апостериорные критерии
Доступны для многогрупповых тестов (дисперсионный анализ, дисперсионный анализ Уэлча, Краскела–Уоллиса, дисперсионный анализ с повторными измерениями, Фридмана, факторный дисперсионный анализ, смешанный дисперсионный анализ, ANCOVA). Установите флажок Включить апостериорные критерии и выберите метод:
- Тьюки HSD — для критериев семейства дисперсионного анализа
- Попарные t-тесты (объединённая ошибка, скорректированное p) — для критериев семейства дисперсионного анализа
- Критерий Геймса–Хауэлла — для дисперсионного анализа Уэлча: попарные t-тесты с раздельными дисперсиями и эталонным распределением стьюдентизированного размаха, что сохраняет корректность при неравных дисперсиях и контролирует групповую ошибку внутренне (без отдельной поправки, как у Тьюки)
- Критерий Данна — для критерия Краскела–Уоллиса
- Критерий Коновера — для критерия Фридмана: попарные сравнения с t-распределением, мощнее критерия Неменьи, с применением выбранной поправки на множественность
- Тест Неменьи — для критерия Фридмана: эталонное распределение стьюдентизированного размаха, контролирует групповую ошибку внутренне (без отдельной поправки)
Для критериев, использующих emmeans (факторный дисперсионный анализ, смешанный дисперсионный анализ, ANCOVA), вариант Тьюки HSD выбирает поправку Тьюки для однофакторных пар, а Попарные t-тесты — метод, заданный в поправке на множественную проверку (Бонферрони / Холм / Хоммель / Хохберг / FDR / без поправки). Для попарных сравнений ячеек в составе взаимодействия, где поправка Тьюки некорректна, всегда используется заданный пользователем метод поправки.
Зачем нужны апостериорные критерии? Общий критерий дисперсионного анализа показывает лишь то, что какие-то группы различаются, не указывая какие именно. Апостериорные критерии выполняют все попарные сравнения с поправкой на множественную проверку.
Формат попарных сравнений
При получении попарных сравнений (из апостериорных критериев или автоматического расширения):
- Матричный формат — симметричная матрица с группами на обеих осях; каждая ячейка содержит статистику, p-значение и, при необходимости, размер эффекта и ДИ
- Длинный формат — плоская таблица с одной строкой на пару сравниваемых групп
Поправка на непрерывность
Флажок Применять поправку на непрерывность появляется после выбора критерия хи-квадрат независимости, критерия Макнемара, U-критерия Манна–Уитни или критерия Стюарта–Максвелла. По умолчанию он установлен, поэтому p-значения сразу соответствуют значениям по умолчанию в R и SPSS.
- Для хи-квадрат это поправка Йейтса — R применяет её только к таблицам 2×2 — и она сдвигает p-значение вверх (делает критерий более консервативным).
- Для критерия Макнемара поправка применяется только при числе дискордантных пар b + c ≥ 25. При меньшем значении критерий Макнемара автоматически переключается на точный биномиальный тест по дискордантным парам (где поправка не нужна), поэтому флажок там не действует. Это аналогично тому, как U-критерий Манна–Уитни сам выбирает точный тест.
- Для критерия Манна–Уитни это поправка ±0,5 к нормальному приближению, которая действует только тогда, когда точный критерий не используется (большие выборки или связки).
- Для критерия Стюарта–Максвелла настройка влияет только на случай 2×2 (когда критерий сводится к Макнемару, включая то же автоматическое переключение на точный тест); на таблицы большего размера k×k она не влияет.
Когда её отключать. Поправку Йейтса часто считают излишне консервативной для таблиц 2×2, начиная с числа наблюдений в любой ячейке — или, для критерия Макнемара, числа дискордантных пар b + c — не менее 25; снятие флажка возвращает нескорректированную статистику. Для малых выборок ничего особого делать не нужно: при b + c < 25 критерий Макнемара автоматически использует точный биномиальный тест, а для разреженных независимых таблиц 2×2 можно перейти на точный критерий Фишера.
Размеры эффекта
Установите флажок Включить размеры эффекта и выберите меру из выпадающего списка. Доступные меры обновляются в зависимости от выбранного критерия (например, d Коэна, g Хеджеса, Δ Гласса или d Уэлча для t-критериев; η², ω², ε² или частный η² для дисперсионного анализа; частный η² для ART-ANOVA; ранговый бисериальный коэффициент или r Уилкоксона для критериев Манна–Уитни и знаковых рангов; общеязыковый размер эффекта или δ Клиффа для критерия Бруннера–Манцеля; ε² или η²_H для критерия Краскела–Уоллиса; W Кендалла для критерия Фридмана; V Крамера для хи-квадрат; φ или отношение шансов для критерия Макнемара; отношение шансов для точного критерия Фишера; g Коэна для критерия Стюарта–Максвелла; w Коэна (Q) или средний φ² Кокрена для критерия Q Кокрена; отношение дисперсий для F-критерия равенства дисперсий).
Дополнительные параметры:
- Доверительные интервалы для размера эффекта — для ранговых и категориальных мер (r Уилкоксона, ранговый бисериальный для связанных выборок, ε²/η²_H Краскела–Уоллиса, W Фридмана, g Коэна, φ̄² Кокрена) это бутстреп-интервалы, поэтому включение этой опции добавляет время расчёта, растущее с настройкой Повторы бутстрэпа. При выключенной опции они не вычисляются вовсе.
- Стандартные ошибки для размера эффекта
Что такое размер эффекта? p-значение говорит о том, существует ли эффект; размер эффекта — насколько он велик. Незначительное различие может быть статистически значимым при достаточно большой выборке, тогда как существенное различие может оказаться незначимым при малом числе участников. Ориентиры для d Коэна: 0.2 — малый эффект, 0.5 — средний, 0.8 — большой; однако границы «значимого» зависят от области исследования.
Как рассчитываются ДИ. Метод построения интервала соответствует семейству размера эффекта. Семейство d делится по стандартизатору: d Коэна и g Хеджеса (объединённая SD) используют точную инверсию нецентрального t-распределения (Steiger & Fouladi 1997; Cumming 2012), дающую асимметричный интервал, ограниченный данными, — d и g оценивают один и тот же эффект в генеральной совокупности, поэтому интервал у них общий, а с поправкой на смещение сдвигается только точечная оценка. В попарных сравнениях с объединённой SD (семейство попарных сравнений Стьюдента) стандартизатором служит объединённая по всем группам остаточная дисперсия (√MSE) со степенями свободы N − k — тот же остаточный член, что использует попарный t-критерий с объединённой оценкой, — поэтому d, его интервал и статистика критерия используют один стандартизатор и одни степени свободы. Δ Гласса и d Уэлча сохраняют аналитические ДИ Вальда на основе t-распределения, поскольку их необъединённые стандартизаторы (SD одной группы; знаменатель по усреднённой дисперсии) не допускают корректного нецентрального t. Пирсоновский r и точечно-бисериальный — обратное преобразование Фишера (z-преобразование). Ранговые корреляционные меры используют распределение-специфические методы вместо z Фишера (который откалиброван для двумерного нормального распределения): независимый ранговый бисериальный r и δ Клиффа (это одна и та же статистика) используют распределение-специфическую дисперсию Клиффа (1996) с асимметричным интервалом Клиффа, который остаётся в пределах (−1; 1) по построению, а не усекается на границах; ранговый бисериальный для связанных выборок и одновыборочный ранговый бисериальный r используют бутстреп-перцентильный ДИ (как и r Уилкоксона) — он остаётся в пределах [−1; 1] по построению и напрямую улавливает структуру связок, а не опирается на аналитическую дисперсию, которая даёт сбой на этой дискретной решётчатой статистике; r Вилкоксона — бутстреп-перцентильный ДИ (число повторов задаётся настройкой Повторы бутстрэпа), так как для конструкции r = Z/√n нет аналитической формы дисперсии, а бутстреп напрямую улавливает поправки на связки и непрерывность. Интервалы, полученные бутстрепом, помечаются в таблице результатов надстрочной буквой «b», чтобы их не путали с аналитическими ДИ. Общеязыковый размер эффекта использует дисперсию Хенли–Макнила с компонентами конкордантности (Q1, Q2) и SE по дельта-методу на логит-шкале, учитывая зависимость между n1·n2 попарными сравнениями, которую игнорирует наивная биномиальная форма. Параметрические меры из семейства объяснённой дисперсии (η², ω², частный η², ε² для t-критериев и семейства дисперсионного анализа — однофакторного, факторного, с повторными измерениями, смешанного и ANCOVA) — инверсию нецентрального F-распределения (Steiger 2004), поэтому интервал асимметричен и ограничен пределами [0; 1] — это соответствует стандартным реализациям, например
MBESS::ci.pvaf. Для планов с повторными измерениями приводимый η² — это классическая доля для всей модели (знаменатель охватывает страту испытуемых), и он выводится только как точечная оценка — у классического η² для повторных измерений нет обоснованного доверительного интервала, поскольку страта испытуемых, которую охватывает его знаменатель, не ограничивается внутригрупповым нецентральным F. Интервал вместо этого строится для частного η²ₚ и ω²ₚ (скорректированная на смещение частная омега-квадрат, Olejnik & Algina 2003), которые остаются частными и несут границу нецентрального F. Меры на основе χ² — V Крамера, φ и w Коэна (Q) — используют инверсию нецентрального χ²-распределения (Smithson 2003), что также даёт асимметричные интервалы; V и φ ограничены сверху единицей, w не ограничен. Для отношения шансов используется точный ДИ изfisher.testдля точного критерия Фишера и ДИ Вальда на логарифмической шкале для критерия Макнемара (см. примечание о поправке Холдейна–Анскомба ниже). g Коэна (для критерия Стюарта–Максвелла) и средний φ² Кокрена (для критерия Q Кокрена) используют бутстреп-перцентильные ДИ — ресэмплингом связанных пар и испытуемых соответственно, с пересчётом статистики на каждом повторе, — поскольку выборочные распределения этих статистик (маргинальной однородности / с поправкой на степень свободы) не имеют замкнутой инверсионной формы, пригодной для малых таблиц, на которые рассчитаны эти критерии. Отношение дисперсий (F-критерий равенства дисперсий) сообщает отношение s₁²/s₂² с интервалом из R-функцииvar.test— точным, выведенным из F-распределения, — и не имеет метки «малый/средний/большой», так как канонического ориентира для отношения дисперсий не существует (1 означает равный разброс).Стандартные ошибки выводятся для каждой меры, у которой есть осмысленная SE в замкнутой форме, — семейство d, δ Клиффа и общеязыковый размер эффекта, — даже если показываемый интервал построен более точным асимметричным методом (нецентральное t для d Коэна и g Хеджеса; интервал Клиффа для мер доминирования; дельта-метод на логит-шкале для общеязыкового размера эффекта). Они опускаются для мер из семейства объяснённой дисперсии (η², ω², ε², частный η²) и семейства χ², а также для любых бутстреп-ДИ, где симметричной SE в шкале эффекта попросту не существует.
Δ Гласса выводится в виде Δ₁ и Δ₂. Δ Гласса стандартизирует разность средних по SD одной из групп, а не по объединённой оценке — это правильный выбор, когда дисперсии групп различаются (именно тот случай, в котором допущение об объединённой дисперсии Коэна нарушается). По соглашению в качестве стандартизатора берут SD контрольной группы, но в модуле нет элемента интерфейса для выбора контрольной группы. Поэтому выводятся обе версии: Δ₁ делит на SD группы 1, Δ₂ — на SD группы 2. При равных дисперсиях они совпадают; чем сильнее отличается отношение SD, тем больше они расходятся — причём расходятся в противоположных направлениях, так что вывод обеих величин не даёт читателю забыть, по какому стандартизатору он смотрит. Когда включена Интерпретация, и Δ₁, и Δ₂ получают собственную метку «малый/средний/большой» — ориентиры d Коэна применимы к каждой, поскольку обе являются стандартизованными эффектами на одной шкале.
t-критерий Уэлча не предлагает размеры эффекта на объединённой SD. Поскольку Уэлч отказывается от допущения о равенстве дисперсий, его меню размеров эффекта предлагает только меры, учитывающие неравные дисперсии — d Уэлча (стандартизатор по усреднённой дисперсии), Δ Гласса и точечно-бисериальный r — но не d Коэна или g Хеджеса на объединённой SD. Объединение SD для размера эффекта противоречило бы тому самому допущению, из-за которого вы выбрали Уэлча.
Средний φ² Кокрена (φ̄²) = Q / (N · (k − 1)), где N — число испытуемых, k — число условий. Это форма w² Коэна с поправкой на степень свободы для статистики Q, ограниченная пределами [0; 1] и интерпретируемая как доля максимально возможной разнородности между условиями: 0 означает, что доли одинаковы во всех условиях, 1 — теоретический максимум (каждый испытуемый отвечает одинаково внутри условия, но различно между условиями). Канонической таблицы порогов в духе Коэна для φ̄² не существует — модуль использует пороги семейства объяснённой дисперсии (0.01 — малый, 0.06 — средний, 0.14 — большой эффект), откалиброванные для η²/ω²; это разумная аналогия, поскольку φ̄² также является ограниченной мерой, похожей на долю объяснённой дисперсии. Относитесь к столбцу интерпретации как к ориентиру; альтернативная мера w Коэна (Q) опирается на исходную шкалу Коэна 0.10 / 0.30 / 0.50, если вам важно использовать его опубликованные пороги. При публикации φ̄² всегда указывайте рядом Q, N и k — одно и то же значение φ̄² несёт разный смысл при k = 3 и k = 8.
Отношение шансов Макнемара при нулевых дискордантных ячейках. Если одна из внедиагональных ячеек парной таблицы 2×2 (b или c) равна нулю, обычное отношение шансов не определено. Поправка на непрерывность Холдейна–Анскомба (+0.5 к b и c) применяется только в этом граничном случае, чтобы оценка OR и её ДИ Вальда на логарифмической шкале оставались конечными. Скорректированная оценка помечается надстрочным символом
‡в столбце размера эффекта.
Меры из семейства объяснённой дисперсии для ранговых критериев — ε² и η²_H Краскела–Уоллиса, W Фридмана — используют бутстрэп-перцентильные ДИ. Эти статистики не имеют аналитического нецентрального распределения, пригодного для инверсии, а аналитические аппроксимации Вальда на ограниченных ранговых статистиках дают плохой охват, поэтому интервал строится ресэмплингом: для Краскела–Уоллиса ресэмплируются наблюдения внутри каждой группы (с сохранением размеров групп), для Фридмана — испытуемые (блоки), с пересчётом статистики на каждом повторе. Как и остальные бутстрэп-интервалы, они учитывают настройку Повторы бутстрэпа, инициализируются настройкой Зерно бутстрэпа для воспроизводимости и помечаются надстрочной буквой «b».
Классификационный анализ (ROC)
Для двухгрупповых независимых числовых критериев (t-критерий для независимых выборок, t-критерий Уэлча, U-критерий Манна–Уитни, критерий дивергенции Йенсена–Шеннона) установите флажок Включить классификационный анализ (ROC), чтобы рассчитать площадь под ROC-кривой и сопутствующие метрики классификации параллельно с самим критерием. Флажок появляется после выбора подходящего критерия.
Что добавляет ROC-анализ. Если t-критерий или Манна–Уитни отвечает на вопрос «различаются ли группы?», то ROC-анализ ставит парный вопрос: «насколько хорошо это значение разделяет группы?» Эти вопросы математически связаны (AUC равна нормированной к [0; 1] статистике U Манна–Уитни), но ROC даёт ещё и практическую составляющую: оптимальный порог, выше которого наблюдение относится к группе с более высокими значениями, а также чувствительность, специфичность и прогностические ценности при этом пороге.
При трёх и более группах ROC-анализ выполняется для каждого попарного сравнения — аналогично тому, как обрабатывает многогрупповые данные сам критерий.
Правило выбора оптимального порога:
- J Юдена (по умолчанию) — максимизирует сумму «чувствительность + специфичность − 1»; равный вес обеих ошибок.
- Ближайший к (0, 1) — точка кривой, ближайшая к верхнему левому углу (идеальному классификатору).
- Взвешенный по стоимости — асимметричные стоимости ошибок. Задайте Коэффициент асимметрии стоимостей k > 1, если одна ошибка в k раз серьёзнее другой. В выводе показываются оба направления (для каждого варианта «какую группу хуже ошибочно классифицировать»), чтобы вы могли выбрать нужную строку.
Выберите правило до просмотра данных. Та же логика, что и с границей эквивалентности: подгонка правила под получившийся порог обесценивает анализ.
Доверительный интервал AUC:
- Делонга (по умолчанию) — замкнутая формула, быстрый расчёт; рекомендуется при n ≥ 30 в каждой группе.
- Бутстрэп — на основе ресэмплинга; устойчивее на малых выборках. Использует глобальную настройку числа повторов бутстрэпа из настроек; медленнее.
Сравнить AUC (попарный критерий Делонга) — появляется при наличии 2 и более AUC (несколько зависимых переменных или попарное расширение для 3 и более групп). Проверяет, значимо ли различаются AUC, с помощью критерия Делонга, учитывающего корреляцию AUC, рассчитанных на одних и тех же испытуемых. P-значения корректируются по семейству сравнений согласно глобальному методу поправки.
Полный охват по всем зависимым переменным. Парный критерий Делонга предполагает, что все ROC-кривые построены на одной и той же подвыборке испытуемых. Чтобы соблюсти это предположение и сохранить одинаковое N для всех выводимых AUC, при ROC-анализе нескольких зависимых переменных строки с пропусками в любой из выбранных зависимых переменных (или в группирующем факторе) исключаются из всех ROC-моделей. Столбец N в таблице отражает эту полностью наблюдаемую подвыборку: он может быть меньше N, который вы получили бы при изолированном анализе каждой переменной, но он одинаков для каждой выводимой AUC.
Метрики классификации при оптимальном пороге — переключает столбцы с пороговыми метриками (чувствительность, специфичность, PPV, NPV, точность). Отключите, если нужна только сводка по AUC.
Почему не для зависимых и повторных измерений? Статистический аппарат AUC опирается на независимость наблюдений. В дизайне «До/После» стандартный ДИ некорректен, а вопрос «насколько эта переменная разделяет «До» и «После» внутри одного испытуемого?» редко соответствует реальной задаче пользователя. Если требуется дискриминация на парных данных, рассчитайте разностные оценки и проведите независимый ROC-анализ относительно внешней метки (например, «ответивший/не ответивший»).
Описательная статистика
Выберите, какие описательные показатели отображаются рядом с результатами:
- Средние (включено по умолчанию) и Медианы
- Моды (с процентом частоты)
- Стандартные отклонения (включено по умолчанию) и Стандартные ошибки
- Доверительные интервалы (включено по умолчанию, уровень — из настроек)
- Процентили (К1, К3, МКР)
- Минимум и максимум
- Средние ранги (актуально для ранговых критериев)
- Объёмы выборок
- Таблицы частот (для категориальных критериев)
Включить визуализацию
Установите флажок Включить визуализацию, чтобы открыть выбор типов графиков с индивидуальными настройками. Доступно несколько типов, некоторые — условно. Подробнее — в разделе визуализация. Доступно только для числовых зависимых переменных. ROC-кривая включается отдельно — в составе классификационного анализа.
Проверка допущений
Нажмите Проверить допущения, чтобы выполнить набор тестов, соответствующих вашему дизайну. Результаты отображаются в карточке вывода «Результаты проверки допущений», состоящей из трёх разделов.
Сводная таблица
Краткий обзор: каждое допущение, статус его выполнения и примечание. Состав проверяемых допущений зависит от дизайна анализа:
| Допущение | Критерий | Когда проверяется |
|---|---|---|
| Нормальность | Шапиро–Уилка | По каждой ячейке и каждой переменной — по внутрипарным разностям для зависимых планов с двумя условиями, по значениям каждой переменной в одновыборочном режиме либо по остаткам внутрисубъектной модели (при отсутствии Subject ID — по маргинальным распределениям условий) для планов с повторными измерениями при 3 и более условиях |
| Симметрия | Критерий асимметрии Д’Агостино | Одновыборочные планы и зависимые планы с двумя условиями — допущение критерия знаковых рангов |
| Многомерная нормальность | Критерий Мардиа | 2 и более зависимых переменных между группами; а также внутрисубъектные векторы откликов для MANOVA с повторными измерениями |
| Однородность дисперсий | Критерий Левена (Брауна–Форсайта, центрирование по медиане) | Дизайны с независимыми выборками. В смешанных дизайнах между-групповые дисперсии проверяются отдельно на каждом уровне внутригруппового условия (по одной строке на переменную × условие), поскольку именно это — а не объединённую по условиям дисперсию — предполагает смешанный дисперсионный анализ |
| Сферичность | Критерий Мочли | Повторные измерения, 3 и более условия |
| Однородность матриц ковариаций | Критерий М Бокса (фиксированный α = 0,001) | 2 и более зависимых переменных. Для независимых групп проверяется по группирующему фактору; для смешанных планов (смешанный MANOVA, при наличии ID субъекта) внутригрупповые отклики приводятся к широкому формату, и критерий М Бокса проверяется по межгрупповым ячейкам — в каждой ячейке межгрупповой × внутригрупповой требуется ≥ 5 полных испытуемых |
| Мультиколлинеарность | Проверка корреляции (|r| > 0.90) | 2 и более зависимых переменных |
| Ковариата: наклоны регрессии | Тест взаимодействия | При наличии ковариат |
| Ковариата: линейность | Внутригрупповой F-тест квадратичного члена | При наличии ковариат |
| Ковариата: независимость | Сравнение групп | При наличии ковариат |
| Ожидаемые частоты | Правило Кокрена (ни одна ячейка с E < 1; не более 20% ячеек с E < 5) | Категориальные зависимые переменные |
Почему симметрия, а не нормальность? Критерий знаковых рангов Уилкоксона (парный и одновыборочный) не требует нормальности данных, но предполагает, что распределение разностей — или значений вокруг μ₀ в одновыборочном режиме — симметрично, поскольку он ранжирует модули положительных и отрицательных отклонений по общей шкале. Симметричная, но тяжёлохвостая выборка не проходит проверку нормальности, но всё равно пригодна для критерия знаковых рангов, поэтому отдельный тест асимметрии различает эти два случая. При обнаружении асимметрии в одновыборочном режиме рекомендация направляет вас к Критерию знаков (который не делает предположений о форме); для зависимых планов, где варианта с критерием знаков нет, она выводится как предостережение интерпретировать результат критерия знаковых рангов с осторожностью. Для запуска нужно n ≥ 8.
Факторные планы и единица анализа. Если между-субъектных группирующих факторов больше одного, правильной единицей для нормальности, Левена, М Бокса и Мардиа является пересечение всех факторов по ячейкам, а не один отдельный фактор. Проверки допущений строят синтетический комбинированный фактор (объединяющий значения всех группирующих переменных) перед запуском этих тестов. Проверка ожидаемых частот для категориальных зависимых переменных продолжает использовать первую группирующую переменную, поскольку таблица сопряжённости χ² по определению двумерная.
Что делать при нарушении допущений: без паники — многие критерии устойчивы к умеренным нарушениям, особенно при достаточном объёме выборки. По результатам проверки система даёт конкретные рекомендации: какие критерии применимы, а каких следует избегать.
Рекомендации
На основе результатов проверки система перечисляет:
- Рекомендуемые критерии — те, допущения которых выполнены. Рекомендуемый критерий может сопровождаться оговоркой (приглушённым текстом), когда допущение формально нарушено, но это не является дисквалифицирующим: если нормальность не выполняется, но в каждой группе n ≥ 30, критерий остаётся рекомендованным с примечанием, что он устойчив в силу центральной предельной теоремы; если многомерную нормальность не удалось проверить для некоторых или всех групп (слишком мало полных наблюдений или вырожденная ковариационная матрица для критерия семейства MANOVA), критерий рекомендуется с примечанием, что допущение не проверено; а если нормальность вообще не удалось проверить — каждая группа слишком мала для проверки или, наоборот, настолько велика, что проверка пропущена, — критерий сопровождается примечанием: предостерегающим для малых выборок (нет защиты центральной предельной теоремы, поэтому стоит рассмотреть точный или непараметрический критерий) и успокаивающим для больших. В большинстве случаев критерий по-прежнему безопасно применять — оговорка лишь подсказывает, на что обратить внимание.
- Не рекомендуемые критерии — с указанием конкретных причин. Они охватывают как нарушенные допущения (например, «нарушена нормальность», «нарушена однородность дисперсий»), так и соответствие плану: критерий, которому нужны ровно две группы, помечается «Требуется сравнение двух групп», общий критерий (дисперсионный анализ, Краскела–Уоллиса, Фридмана), фактор сравнения которого имеет только один уровень, помечается «Требуется фактор с двумя или более уровнями», факторный критерий — «Требуется два или более группирующих фактора», а если полная модель ещё не задана (например, не выбрана группирующая переменная), затронутые критерии показывают «Не оценено — укажите полную модель для оценки», а не рекомендуются вслепую. Для дисперсионного анализа с повторными измерениями и смешанного дисперсионного анализа точное допущение о нормальности относится к остаткам модели: при наличии Subject ID остатки проверяются напрямую, а без него в качестве практического приближения проверяются маргинальные распределения по условиям. Когда остатки проверяются напрямую, оговорка центральной предельной теоремы (n ≥ 30) опирается на число испытуемых — независимых единиц наблюдения, — а не на число остатков, и в таблице приводится именно это число испытуемых. В причине о нормальности — и в самой таблице нормальности — указывается, какой из вариантов был использован.
Подробные результаты
Отдельные таблицы для каждого теста допущений: результаты по переменным и группам со значениями статистики, p-значениями и цветовой индикацией (зелёный — выполнено, красный — нарушено, жёлтый — предупреждение). Допущение по ковариате (наклоны регрессии, линейность, независимость) показывается в сводке как Не оценено, если модель не удалось подобрать ни для одной переменной, вместо того чтобы по умолчанию считаться выполненным.
Чтение результатов
Нажмите Запустить сравнительный анализ. Перед выполнением система проверяет корректность настроек: если чего-то не хватает (зависимых переменных, группирующей переменной и т. д.), появится сообщение с объяснением.
Вид результатов зависит от типа критерия.
Диагностика. Некоторые критерии добавляют под результатами блок Диагностика, где показаны решения, принятые модулем за вас: проигнорированные ковариаты (ART-ANOVA), испытуемые, исключённые из-за неполных ячеек (смешанные планы), и подобные корректировки. Он нужен, чтобы ничего не происходило незаметно; прочитайте его, чтобы убедиться, что анализ выполнен на ожидаемых данных.
Стандартные критерии (t-критерий, дисперсионный анализ, Краскела–Уоллиса и др.)
Таблица «Общие результаты» с одной строкой на зависимую переменную:
- Описательная статистика по группам (согласно выбранным параметрам)
- Доверительный интервал разности (для двухгрупповых критериев при включённых ДИ)
- Значение статистики критерия со звёздочками значимости
- Степени свободы
Доверительный интервал разности: диапазон, в котором с заданной вероятностью находится истинное различие в генеральной совокупности. Например, «ДИ [2.1; 8.7]» означает, что реальное различие, скорее всего, лежит между 2.1 и 8.7. Если интервал не пересекает ноль — различие статистически значимо. Более широкий интервал означает большую неопределённость — как правило, из-за малой выборки. Этот интервал всегда двусторонний, даже при одностороннем критерии: он описывает величину и точность эффекта, тогда как направление определяется односторонним p-значением.
Степени свободы (ст.св.): число, отражающее количество независимых единиц информации в расчёте — примерно равно объёму выборки минус количество оцениваемых параметров. Интерпретировать ст.св. напрямую не нужно; они приводятся для верификации правильности расчётов и поиска критических значений. Например, t-критерий с 58 ст.св. означает, что в анализе использовалось около 60 наблюдений.
- p-значение (форматируется согласно настройкам p-значений)
- Скорректированные на сферичность p-значения (дисперсионный анализ с повторными измерениями при трёх и более условиях) — столбцы ε (GG) / p (GG) и ε (HF) / p (HF), а также отдельная таблица Критерий сферичности Мочли под результатами. Нескорректированное p предполагает сферичность; скорректированные столбцы применяют эпсилон к числу степеней свободы. О выборе между GG и HF см. Сферичность и две поправки.
- Скорректированное p-значение (при активной поправке в режиме добавления)
- p-значения эквивалентности (при выбранном направлении эквивалентности) — см. ниже
- Размер эффекта с ДИ и стандартной ошибкой (при включённой опции — ДИ и стандартная ошибка отображаются только там, где их поддерживает выбранная мера; см. раздел Размеры эффекта)
- Интерпретация (при включённой опции в настройках)
При ошибках в отдельных переменных выводится сводка проблем, сгруппированных по сообщению об ошибке.
Результаты тестирования эквивалентности
При выборе направления эквивалентности над таблицей появляется пометка с типом теста и границей Δ (пересчитанной в единицы измерения, если задана в стандартизированном виде). Для параметрических критериев (t-критерии) в качестве стандартизатора используется d Коэна (объединённое СО или √[(s₁² + s₂²) / 2] по Уэлчу при неравных дисперсиях). Для непараметрических критериев (знаковые ранги Вилкоксона, Манна–Уитни) Δ интерпретируется по робастной шкале — медианному абсолютному отклонению (MAD, приведённому к нормальному СО делением на 0.6745) разностей для связанных выборок или объединённому MAD для независимых, — чтобы стандартизатор соответствовал параметру положения рангового критерия, а не смешивал параметрическую шкалу с непараметрическим тестом. В режиме эквивалентности общий критерий выполняется двусторонним, поэтому его столбец стандартного p-значения помечается как p (двусторонний), чтобы отличать его от решения об эквивалентности. После него добавляются столбцы:
- p (нижн.) и p (верхн.) — p-значения двух односторонних тестов (для TOST и MET, проверяющих обе границы)
- p (экви.) или p (MET) — итоговое p-значение эквивалентности
Для TOST итоговое p-значение — это максимум двух односторонних (обе границы должны быть соблюдены). Для MET — минимум (достаточно превышения хотя бы одной границы). Ненижестоящий тест и тест превосходства используют одну границу и выводят одно p-значение.
Двустороннее p — это не результат теста эквивалентности. p (двусторонний) отвечает на обычный вопрос «различаются ли группы?» и никак не связано с тем, эквивалентны ли они. Решение об эквивалентности читайте по p (экви.) / p (MET) (и столбцу интерпретации), а не по p (двусторонний). Различие может быть одновременно статистически значимым и практически эквивалентным.
Столбец интерпретации отражает результат тестирования эквивалентности:
- Значимый TOST → «Эквивалентны (в пределах Δ = X)»
- Значимый ненижестоящий → «Не хуже (Δ = X)»
- Значимый тест превосходства → «Превосходит (Δ = X)»
- Значимый MET → «Значимый эффект (|d| > Δ = X)»
Здесь Δ = X — это заданная вами граница (стандартизированная или в единицах измерения), поэтому она отображается ровно так, как вы её задали; пересчёт в единицы измерения показан в пометке над таблицей.
Таблицы попарных сравнений (как матричные, так и длинные) также включают p-значения эквивалентности, когда это применимо.
Категориальные критерии (хи-квадрат, точный критерий Фишера и др.)
Таблица сопряжённости:
- Наблюдаемые частоты с процентами по столбцам
- Ожидаемые частоты (из критерия хи-квадрат)
- Итоговые суммы по строкам и столбцам
У точного критерия Фишера нет статистики критерия. Фишер вычисляет p-значение напрямую из гипергеометрического распределения, поэтому столбец «Статистика» для него пуст; в качестве размера эффекта приводится отношение шансов (с точным ДИ из
fisher.test).
Критерий Макнемара переключается на точный тест при малых выборках. Когда число дискордантных пар (b + c) меньше 25, критерий Макнемара автоматически использует точный биномиальный тест по дискордантным парам вместо асимптотического χ². Как и у Фишера, у точного теста нет статистики χ², поэтому столбец «Статистика» пуст, а примечание указывает, что был применён точный тест (с числом b + c). То же относится к сведению критерия Стюарта–Максвелла к случаю 2×2. Если b + c = 0 (полное согласие), критерий не определён, и статистика с p-значением выводятся как NA с примечанием.
Критерий Стюарта–Максвелла и вырожденные парные таблицы. χ² Стюарта–Максвелла не определён, когда матрица разностей маргинальных частот полностью вырождена — это обычно вызвано пустыми или дублирующимися категориями. В таком случае статистика и p-значение выводятся как NA, а отдельное примечание помечает соответствующую переменную, вместо того чтобы молча возвращать χ² = 0, p = 1. Когда матрица вырождена частично (часть категориальной структуры избыточна, но не вся), χ² рассчитывается через псевдообратную матрицу пониженного ранга с поправкой степеней свободы до эффективного ранга, а примечание помечает результат как приближённый. Для таблиц 2×2 критерий делегируется Макнемару (с которым он эквивалентен) и учитывает настройку поправки на непрерывность, так что результат совпадает с отдельным критерием Макнемара, а название метода в выводе отражает это.
Критерий Q Кокрена с бинарными значениями, отличными от 0 и 1. Если зависимая переменная критерия Q использует два значения, не равные 0 и 1 (например, «да» / «нет»), большее значение кодируется как «успех». Примечание в выводе указывает, какое значение трактовалось как успех, чтобы корректно читать таблицу частот.
Попарные сравнения
Формируются при автоматическом расширении (двухвыборочный критерий с 3 и более группами) или апостериорных критериях.
Матричный формат — нижнетреугольная матрица, в каждой ячейке которой на отдельных строках указаны значение статистики (со степенями свободы), ДИ разности, p-значение и размер эффекта. Ячейки окрашены по уровню значимости.
Длинный формат — плоская таблица со столбцами: пара сравниваемых групп, статистика по группам, ДИ разности, значение критерия, степени свободы, p-значение, скорректированное p-значение, размер эффекта, интерпретация.
Легенда объясняет использованные обозначения.
Степени свободы при расширении критерия Стьюдента. Поскольку пары в t-критерии для независимых выборок используют общую объединённую оценку разброса (см. Выбор критерия), указываемое число степеней свободы равно N − k (общий объём выборки минус число групп), а не двухгрупповому n₁ + n₂ − 2 — это ожидаемо и отражает дополнительную точность от объединения. При расширении критерия Уэлча у каждой пары сохраняются собственные (дробные) степени свободы.
Результаты классификационного анализа (ROC)
При включённом ROC-анализе в результатах появляется подраздел «Классификационный анализ (ROC)». В основной таблице — по одной строке на (зависимая переменная × пара × порог):
- Переменная — зависимая переменная, по значениям которой строится порог.
- Сравнение — пара групп (отображается только при попарном расширении для 3 и более групп).
- Предсказываемая группа — группа, принадлежность к которой соответствует более высоким значениям. Направленность определяется автоматически, чтобы AUC всегда была ≥ 0.5.
- AUC — площадь под ROC-кривой. 0.5 — случайное угадывание, 1.0 — идеальная классификация.
- {level}% ДИ — доверительный интервал AUC (Делонга или бутстрэп — согласно выбранному методу).
- N — общее число наблюдений в формате «всего (предсказываемая/другая)».
- Хуже ошибиться с — отображается только при взвешенном по стоимости пороге; указывает, какому из двух показанных порогов соответствует данное направление асимметричной стоимости.
- Порог — точка отсечения. Значения ≥ порога относятся к предсказываемой группе.
- Чувствительность / Специфичность — чувствительность и специфичность для предсказываемой группы при данном пороге.
- PPV / NPV — положительная и отрицательная прогностические ценности.
- Точность — общая доля верно классифицированных наблюдений.
Интерпретация AUC. Часто используемые ориентиры: 0.5–0.6 — слабая, 0.6–0.7 — удовлетворительная, 0.7–0.8 — хорошая, 0.8–0.9 — отличная, 0.9+ — выдающаяся. Это лишь ориентиры, а не правила: практическая ценность AUC зависит от стоимости ошибок в вашей предметной области. AUC = 0.65 может быть прорывом для задачи, где раньше не было ни одного маркера; AUC = 0.85 может оказаться недостаточной для диагностического решения с высокой ценой ошибки.
Чувствительность и специфичность. Чувствительность — доля корректно классифицированных наблюдений из предсказываемой группы (доля истинно положительных), специфичность — доля корректно классифицированных наблюдений из другой группы (доля истинно отрицательных). Они находятся в обратной зависимости при сдвиге порога: ниже порог → выше чувствительность, ниже специфичность, и наоборот. Правила Юдена / ближайшего к углу / взвешенного по стоимости выбирают одну точку этого компромисса.
PPV и NPV зависят от распространённости. В отличие от чувствительности и специфичности, прогностические ценности меняются вместе с долей предсказываемой группы в выборке. Если в вашей выборке группы поделены 50/50, а реальная распространённость — 5%, выводимое здесь PPV окажется намного выше того, что вы получите при практическом использовании. Чувствительность и специфичность от распространённости не зависят и переносятся на другие популяции; PPV и NPV в этом выводе характеризуют именно вашу выборку.
Сравнение AUC (критерий Делонга)
Если включена опция Сравнить AUC и получено 2 и более AUC, добавляется таблица их попарного сравнения:
- Переменная 1 и Переменная 2 — пара сравниваемых AUC.
- Δ AUC — AUC(Переменная 1) − AUC(Переменная 2).
- Z — статистика критерия Делонга для разности парных AUC, рассчитанных на одних и тех же испытуемых.
- p-значение (и скорректированное p-значение, если поправка p-значений задана в режиме добавления).
При попарном расширении на 3 и более групп таблица разбивается по парам групп — в каждом разделе содержатся сравнения AUC между переменными для соответствующей пары.
Факторный дисперсионный анализ
Факторный дисперсионный анализ рассчитан на два и более группирующих фактора, чтобы можно было проверить взаимодействия. При одном факторе он вырождается в однофакторный анализ с единственной строкой эффекта — в этом случае выбирайте критерий Однофакторный дисперсионный анализ напрямую: вывод будет аккуратнее, а проверки допущений — точнее.
Одна таблица на зависимую переменную с отдельной строкой для каждого эффекта (главные эффекты и взаимодействия):
- Название эффекта, F-статистика со звёздочками значимости, степени свободы (эффекта и ошибки), p-значение
- Размер эффекта (при включении): частный η² (по умолчанию), η², ω² или ε² — выбирается в выпадающем списке Размер эффекта
- Интерпретация с разграничением главных эффектов и взаимодействий
При включении апостериорных критериев под таблицей эффектов появляется раздел с отдельным блоком для каждого эффекта:
- Главный эффект — попарные сравнения уровней этого фактора, маргинализированные по остальным факторам
- Взаимодействие — все попарные сравнения ячеек по задействованным факторам. Для двухфакторных взаимодействий добавляются две таблицы простых эффектов: попарные сравнения одного фактора в каждом уровне другого (и наоборот)
В каждом блоке указан применённый метод поправки. Если общий эффект незначим, над таблицей попарных сравнений выводится предупреждение.
Чтение факторных апостериорных сравнений: начните с таблицы общих эффектов, чтобы решить, какие из них значимы, затем разверните соответствующий блок. Значимое взаимодействие удобнее интерпретировать через таблицы простых эффектов — они показывают, где именно «живёт» взаимодействие (например, «эффект лечения проявляется у женщин, но не у мужчин»). При незначимом взаимодействии главным ориентиром служат сравнения главных эффектов.
ANCOVA
Для каждой зависимой переменной — до трёх разделов:
- Таблица эффектов — строки для ковариат и факторов, каждая с F-статистикой, степенями свободы, p-значением и частным эта-квадратом; метки указывают, ковариата это или фактор
- Скорректированные средние — исходное среднее, СО, скорректированное среднее (выделено жирным), стандартная ошибка и ДИ по каждой группе
- Апостериорные сравнения — попарные контрасты по скорректированным средним с разностью, стандартной ошибкой, степенями свободы, t-статистикой и p-значением
Что такое скорректированные средние? При контроле ковариат средние по группам пересчитываются так, как если бы все группы имели одинаковые значения ковариат. Эти «скорректированные», или «оценочные маргинальные», средние устраняют влияние ковариаты и дают более чистое сравнение групп.
Смешанный дисперсионный анализ
Для каждой зависимой переменной:
-
Таблица эффектов — каждый эффект помечен как «(межгрупповой)», «(внутригрупповой)» или «(ковариата)». При трёх и более условиях добавляются столбцы с эпсилонами и скорректированными p-значениями по обоим методам — Гринхауса–Гейссера (GG) и Хюйна–Фельдта (HF).
-
Критерий сферичности Мочли — при наличии трёх и более условий: статистика W, p-значение и интерпретация
-
Апостериорные сравнения — разбиты на разделы:
- Межгрупповые сравнения (по группе)
- Внутригрупповые сравнения (по замеру)
- Простые эффекты: сравнение групп внутри каждого замера
- Простые эффекты: сравнение замеров внутри каждой группы
Контекстные подсказки отображаются в зависимости от значимости, например: «Главный эффект группы незначим — интерпретируйте сравнения с осторожностью» или «Взаимодействие значимо — рассмотрите анализ простых эффектов».
-
Скорректированные средние по группам — при наличии ковариат
Сферичность и две поправки: сферичность означает равенство дисперсий разностей между всеми парами условий — техническое допущение дисперсионного анализа с повторными измерениями. При нарушении этого допущения (по критерию Мочли) степени свободы уменьшаются, делая критерий более консервативным. Выводятся две поправки: Гринхауса–Гейссера (GG) — более консервативная; Хюйна–Фельдта (HF) — менее консервативная, обычно точнее, когда сферичность нарушена не сильно. Распространённое правило (Girden 1992): применяйте GG при эпсилоне GG ≤ 0,75 и HF в остальных случаях. В отчёт включайте выбранную поправку вместе с её значением эпсилона.
ART-ANOVA
Непараметрический аналог смешанного дисперсионного анализа. Результаты выводятся в отдельной карточке «Результаты ART-ANOVA» и используют ту же компоновку таблицы, что и смешанный дисперсионный анализ, — по одной таблице на зависимую переменную:
- Каждый эффект помечен (межгрупповой), (внутригрупповой) или (межгрупповой × внутригрупповой) — главные эффекты и взаимодействия по полному перекрёстному плану факторов
- F-статистика со звёздочками значимости
- Степени свободы — степени свободы эффекта и знаменателя (ошибки). Степени свободы знаменателя оцениваются методом Кенуорда–Роджера на основе соответствующей смешанной модели, поэтому могут быть нецелыми
- p-значение (форматируется согласно настройкам p-значений)
- Частная η² с доверительным интервалом — единственный размер эффекта, который сообщает ART-ANOVA; вычисляется из F и степеней свободы (обращение нецентрального F-распределения, та же механика, что и для параметрического семейства дисперсионного анализа)
Критерия Мочли и поправки на сферичность нет — ранги обходят допущение о сферичности — и апостериорной таблицы тоже нет, поскольку контрасты на выровненных рангах требуют отдельного выравнивания для каждого члена, которое модуль пока не предоставляет.
Почему нет ковариат? ART работает за счёт выравнивания отклика — удаления всех эффектов, кроме того, который ранжируется, — а такое выравнивание определено только для категориальных факторов. У непрерывных предикторов нет уровней для выравнивания, поэтому при назначении ковариат в ART-ANOVA они молча отбрасываются, а в блоке Диагностика появляется примечание о том, какие именно были проигнорированы. Чтобы учесть непрерывную ковариату, используйте смешанный дисперсионный анализ.
Вырожденные степени свободы. Если степени свободы знаменателя оценить не удаётся — ковариационная матрица случайных эффектов вырождена — эффект сообщает об ошибке: «ART-ANOVA не удалось оценить число степеней свободы знаменателя (вырожденная ковариационная матрица)». Обычно это означает слишком мало испытуемых в межгрупповой ячейке либо коллинеарность межгруппового/внутригруппового фактора с другим. Добавьте испытуемых или уберите избыточный фактор.
MANOVA / MANCOVA
Единая карточка вывода для всех зависимых переменных:
- Сведения о методе — перечень зависимых переменных, группирующей или условной переменной и ковариат (при наличии)
- Многомерные критерии — след Пиллаи, лямбда Уилкса, след Хотеллинга–Лоули и наибольший корень Роя; для каждого — приближённый F, степени свободы и p-значение. Все четыре статистики проверяют одну и ту же гипотезу разными способами; при активной поправке p-значений во всех четырёх строках отображается одно и то же скорректированное p (одна гипотеза — одна поправка).
- Одномерные апостериорные критерии — отдельные дисперсионные анализы для каждой зависимой переменной (или ANCOVA при наличии ковариат, дисперсионный анализ с повторными измерениями для MANOVA с повторными измерениями, смешанный дисперсионный анализ для смешанного MANOVA). Заголовок раздела отражает фактический тип последующих критериев. Их p-значения не включаются в глобальный пул поправок — они контролируются многомерным общим критерием, согласно стандартной практике. При этом они корректируются внутренне, как собственное семейство: внутри каждого многомерного эффекта K p-значений по зависимым переменным корректируются вместе (K — число зависимых переменных) выбранным методом поправки, а примечание над таблицей указывает K и метод.
- Описательная статистика — сводки по зависимым переменным и группам
MANCOVA добавляет многомерные тесты для ковариат (отдельный критерий Пиллаи на каждую ковариату, по Type III SS, так что порядок ковариат не влияет на результат) и скорректированные средние по группам для каждой зависимой переменной.
Для смешанных дизайнов многомерные и одномерные таблицы организованы по эффектам (межгрупповой, внутригрупповой, взаимодействие).
Смешанному MANOVA нужно достаточно испытуемых. Поскольку он моделирует зависимые переменные совместно внутри каждой межгрупповой ячейки, смешанному MANOVA требуется больше испытуемых, чем зависимых переменных, в каждом межгрупповом сочетании ячеек — иначе исчерпываются степени свободы ошибки, и анализ останавливается с сообщением, в котором указаны число испытуемых, число межгрупповых ячеек и число зависимых переменных. Уменьшите число зависимых переменных или факторов либо добавьте испытуемых.
Матрица откликов неполного ранга. Если матрицу внутригрупповых откликов нельзя обратить (её ранг меньше числа столбцов), анализ сообщает о неполном ранге. Обычные причины — мультиколлинеарность зависимых переменных, систематические паттерны пропусков или слишком мало испытуемых. Уберите избыточную зависимую переменную или проверьте пропуски перед повторным запуском.
Испытуемые, исключённые из-за неполных ячеек. Смешанные планы требуют присутствия каждого испытуемого во всех внутригрупповых ячейках. Испытуемые, у которых отсутствует одна или несколько ячеек, удаляются построчно перед анализом, и примечание сообщает, сколько из общего числа было исключено, — так уменьшение N остаётся видимым, а не происходит незаметно.
Какой многомерный критерий указывать? След Пиллаи наиболее устойчив — он лучше переносит нарушения допущений, чем остальные. Лямбда Уилкса — наиболее распространённый показатель в публикациях. Когда все четыре критерия дают согласующиеся результаты, выбор не принципиален; при расхождении доверяйте следу Пиллаи.
Пакетный анализ
В пакетном режиме для каждой группирующей переменной создаётся отдельная карточка вывода с заголовком «Пакетный анализ 1/N: [название переменной]». P-значения объединяются в общий пул по всем итерациям — см. Поправку p-значений о составе пула.
Псевдофакторный анализ
При использовании факторной стратегии с несколькими группирующими переменными результаты отображаются под заголовком «Псевдофакторный анализ: [Перем1 × Перем2]».
Поправка p-значений
Множественные тесты на одних и тех же данных повышают вероятность ложноположительных результатов. P-значения автоматически корректируются в соответствии с глобальными настройками поправки.
Что входит в пул. Все p-значения общих критериев по всему запуску объединяются в один пул поправки — одна независимая гипотеза на строку:
- Стандартные критерии (t-критерии, Уэлч, Манн–Уитни, χ², однофакторный дисперсионный анализ, …) — по одному p на зависимую переменную.
- Попарные расширения (двухвыборочный критерий при 3 и более группах) — вклад вносит каждая пара.
- Факторный, смешанный, с повторными измерениями дисперсионный анализ и ANCOVA — каждая строка эффекта (главные эффекты, взаимодействия, ковариаты).
- MANOVA / MANCOVA / варианты с повторными измерениями и смешанные — общий критерий по группирующему (или по каждому факторному) эффекту плюс критерий по каждой ковариате. Четыре многомерных статистики (Пиллаи / Уилкс / Хотеллинг–Лоули / Рой) разделяют одно скорректированное значение, поскольку проверяют одну гипотезу.
- Пакетный режим — пул объединяется по всем итерациям пакета.
Что в пул не входит:
- Одномерные апостериорные критерии MANOVA — остаются «сырыми», контролируются многомерным общим критерием, согласно стандартной практике.
- Апостериорные таблицы (Тьюки HSD, Данн, попарные t-критерии, …) — корректируются внутренне тем же выбранным методом, но как самостоятельное семейство. Включение их в общий пул привело бы к двойной поправке.
- Сравнения AUC по ROC (Делонг) — корректируются внутренне в рамках семейства сравнений AUC.
Если метод поправки не выбран, появляется предупреждение с рекомендацией его задать.
Сколько анализов я провожу? Больше, чем может показаться. Пять зависимых переменных при одной группирующей — это уже пять анализов. Добавьте факторный дисперсионный анализ с двумя факторами и взаимодействием — получите три строки эффекта на каждую ЗП. Добавьте попарное расширение по четырём группам — это шесть пар на ЗП. Всё это быстро накапливается — поправка удерживает уровень ложных срабатываний под контролем по всему исследованию. Подробнее о выборе метода — в разделе поправка на множественную проверку.
Пропущенные данные
Пропущенные значения обрабатываются согласно глобальным настройкам пропущенных данных:
- Попарное — каждый тест использует все доступные наблюдения для задействованных переменных
- Построчное — используются только наблюдения, полные по всем выбранным переменным
- Импутация — пропущенные значения заменяются перед анализом (среднее, медиана, мода или константа)
Для сравнительного анализа построчное исключение внутри каждого теста — наиболее распространённый подход в публикуемых исследованиях: он гарантирует, что каждое попарное сравнение групп основано на одном и том же наборе наблюдений.
Визуализация
При включённой опции отдельная карточка вывода «Сравнение распределений» показывает выбранные типы графиков для каждой числовой зависимой переменной — распределение по группам или условиям. В факторных дизайнах метка оси X содержит названия всех задействованных переменных. Группы и условия располагаются в том же порядке, что и в таблицах результатов, — численно, когда все уровни являются числами (так доза 1, 2, 5, 10 идёт по порядку, а не 1, 10, 2, 5), и по алфавиту в остальных случаях. В одновыборочном режиме коробчатый, скрипичный графики, ECDF и график средних и доверительных интервалов рисуют опорную линию на уровне μ₀; ось значений всегда расширяется, чтобы включить её, поэтому линия остаётся видимой, даже когда μ₀ выходит за пределы наблюдаемых данных. Все графики можно изменять в размере и экспортировать как SVG, PNG или JPG.
Коробчатый график
Сгруппированные коробчатые графики — по одному на зависимую переменную. Настройки: показать выбросы, показать среднее, показать выемку (ДИ медианы), показать точки данных. Включён по умолчанию.
Коробчатые графики строятся по тому же принципу, что и в анализе распределения.
Скрипичный график
Групповые графики ядерной плотности со вписанным коробчатым графиком. Настройка: показать внутренний коробчатый график.
Коробчатый vs. скрипичный: коробчатые графики лучше для сравнения медиан и выявления выбросов. Скрипичные показывают полную форму распределения — полезны при бимодальных или асимметричных распределениях, которые коробчатые графики скрывают.
График ECDF
Групповые эмпирические функции распределения — кривая каждой группы показывает долю наблюдений, не превышающих каждое значение. Настройки: показать линию медианы, показать доверительный интервал (поточечный интервал Уилсона на уровне доверия, включён по умолчанию).
Когда ECDF полезен: графики ECDF позволяют сравнивать распределения при каждом значении, а не только по сводным статистикам. Две группы могут иметь одинаковые среднее и СО, но кривые ECDF покажут различия. Они также полезны для обнаружения эффектов пола/потолка и скоплений значений.
График средних и доверительных интервалов
Групповые средние с усами доверительных интервалов. Подпись под графиком указывает уровень доверия, которому соответствуют усы, чтобы их не приняли за СО или стандартную ошибку. При наведении отображаются среднее, стандартная ошибка, ДИ и объём выборки.
График парных линий
Графики «спагетти», соединяющие значения каждого испытуемого между условиями, с жирной линией среднего поверх. Выравнивание по идентификатору испытуемого, если он доступен; в противном случае — позиционное. Настройка: показать линию среднего.
Доступен только для зависимых или смешанных выборок.
Чтение графика парных линий: отдельные линии показывают паттерн для каждого участника — если большинство линий наклонены в одну сторону, эффект устойчив. Пересекающиеся линии указывают на индивидуальные различия в эффекте. Жирная линия среднего показывает общую тенденцию.
График взаимодействия
Групповые средние, соединённые линиями по уровням одного фактора, с отдельными кривыми для каждого уровня второго фактора. Включает легенду. При наведении на среднее отображаются метка ячейки, среднее, стандартная ошибка, ДИ и объём выборки. Настройка: показать планки ошибок — при включении подпись указывает уровень доверия, которому они соответствуют. Когда задействован внутрисубъектный фактор (зависимые или смешанные дизайны), планки представляют внутрисубъектные (Кузино–Мори) доверительные интервалы (Мори, 2008), которые удаляют межсубъектную дисперсию и потому отражают неопределённость, релевантную для внутрисубъектных сравнений; в чисто межгрупповых (факторных) дизайнах используются обычные межъячейковые ДИ. Испытуемые с пропущенной ячейкой исключаются из внутрисубъектных оценок, о чём сообщается под графиком.
Доступен только при выборе двух и более факторных переменных (факторный межгрупповой или смешанный межгрупповой × внутригрупповой дизайн).
Чтение графика взаимодействия: параллельные линии означают отсутствие взаимодействия — оба фактора действуют независимо. Пересекающиеся или сходящиеся линии указывают на взаимодействие: эффект одного фактора зависит от уровня другого. Статистический критерий покажет, значим ли визуальный паттерн.
Форест-график
Горизонтальная диаграмма с точечными оценками размеров эффекта (ромбы, размер которых отражает точность — самая точная оценка с самым узким ДИ получает наибольший ромб, а остальные масштабируются относительно неё) и доверительными интервалами для каждой зависимой переменной. Включает пунктирную линию отсчёта на значении «нет эффекта» — нуле для мер различия и корреляции, 0,5 для размера эффекта общего языка, 1 для отношения дисперсий — и числовые аннотации.
Доступен только при включённом флажке Включить размеры эффекта и при наличии валидных ДИ размеров эффекта в результатах.
ROC-кривая
График зависимости доли истинно положительных результатов (чувствительности) от доли ложно положительных (1 − специфичность). Если применяется попарное расширение, на графике строится по одной кривой на пару групп. Диагональ — линия случайного угадывания; кривые, смещённые ближе к верхнему левому углу, отражают лучшее различение. AUC и предсказываемая группа отображаются в легенде. Точки на каждой кривой обозначают выводимые пороги; при наведении отображаются значение порога, чувствительность, специфичность, PPV, NPV, а при взвешенном по стоимости пороге — также тип более затратной ошибки.
Доступна при включённом флажке Включить классификационный анализ (ROC) и подходящем критерии. Сам анализ описан в разделе классификационный анализ.
Чтение ROC-кривой. Каждая точка кривой соответствует возможному порогу. При движении вдоль кривой чувствительность обменивается на специфичность. Порог, выводимый в анализе (Юдена, ближайший или взвешенный по стоимости), — это одна выбранная точка, тогда как вся кривая характеризует различительную способность сразу при всех возможных значениях отсечки.
Контрольный список для отчёта
Что важно включить при описании результатов сравнительного анализа:
Метод:
- Дизайн анализа (независимые, зависимые или смешанные выборки)
- Использованный критерий и обоснование (например, «применён t-критерий Уэлча в связи с неравенством дисперсий»)
- Проводилась ли проверка допущений и какие из них выполнены или нарушены
- Способ обработки пропущенных данных
- Метод корректировки p-значений (при использовании)
- Для апостериорных критериев: метод и поправка
- Для критериев хи-квадрат, Макнемара, Манна–Уитни и Стюарта–Максвелла: применялась ли поправка на непрерывность (а для критериев Макнемара и Стюарта–Максвелла при малом числе дискордантных пар — что использовался точный биномиальный тест)
- Для ART-ANOVA: что в качестве непараметрического анализа смешанного плана применялось преобразование выровненных рангов и что степени свободы знаменателя получены приближением Кенуорда–Роджера (отсюда нецелые степени свободы ошибки)
- Для критериев дисперсии (разброса): какой критерий и почему (например, «использован критерий Флигнера–Килина, поскольку группы ненормальны»), а также что гипотеза касается разброса, а не положения
- Направленность критерия (одно- или двусторонний)
- Для тестов эквивалентности: тип (TOST, ненижестоящий, превосходство или MET), граница Δ, а также задана ли она в единицах измерения или стандартизированном виде
- Для ROC-анализа: правило выбора порога (Юдена / ближайший / взвешенный по стоимости — с указанием коэффициента асимметрии стоимостей при необходимости), метод ДИ для AUC (Делонга или бутстрэп), а также применение критерия Делонга при сравнении AUC
Результаты:
- Описательная статистика по группам (как минимум: средние, СО, объёмы выборок)
- Значение критерия со степенями свободы (например, t(58) = 2.34; F(2, 87) = 5.12)
- Точное p-значение (или p < 0.001 при очень малых значениях)
- Размер эффекта с доверительным интервалом (например, d Коэна = 0.65, 95% ДИ [0.12; 1.18])
- Для F-критерия дисперсий: отношение дисперсий с его ДИ (например, F(29, 29) = 1.84, отношение дисперсий 1.84, 95% ДИ [0.88; 3.86])
- Для тестов эквивалентности: итоговое p-значение TOST и два односторонних p-значения, а также использованная граница Δ в единицах измерения
- Для многогрупповых критериев: сначала общий критерий, затем апостериорные сравнения
- Для факторных и смешанных дизайнов: главные эффекты, взаимодействия и, при необходимости, простые эффекты
- Для ROC-анализа: AUC с ДИ для каждой переменной (и каждой пары, если применимо), а также чувствительность и специфичность при выводимом пороге; для сравнений AUC — Δ AUC, Z и p-значение(я)
Воспроизводимость
Каждый анализ выводит соответствующий R-код в консоль R — его можно просматривать, копировать и повторно запускать. Сравнительный анализ использует базовый R для t-тестов, хи-квадрат, однофакторного дисперсионного анализа Уэлча (oneway.test), двухвыборочного критерия Колмогорова–Смирнова (ks.test), критериев дисперсии (var.test, bartlett.test, fligner.test) и апостериорных критериев Геймса–Хауэлла, Коновера и Неменьи (вычисляются напрямую через ptukey/pt, без пакета), car для критериев семейства дисперсионного анализа, emmeans для апостериорных сравнений и скорректированных маргинальных средних, dunn.test для критерия Данна, brunnermunzel для критерия Бруннера–Манцеля, kSamples для k-выборочного критерия Андерсона–Дарлинга, ARTool для ART-ANOVA (с lme4 / pbkrtest для подгонки смешанной модели и степеней свободы по Кенуорду–Роджеру), effectsize для вычисления размеров эффекта и pROC для ROC- и AUC-анализа, а также критерия Делонга. Ссылки на использованные пакеты R автоматически появляются в начале раздела вывода. Перестановочный тест Ross MI, бутстрэп-ДИ ROC и бутстрэп-ДИ для размеров эффекта (r Уилкоксона, ранговый бисериальный для знаковых рангов — для связанных выборок и одновыборочный, ε²/η²_H Краскела–Уоллиса, W Фридмана, g Коэна и средний φ² Кокрена) инициализируются настройкой Зерно бутстрэпа — задайте её, чтобы p-значения перестановок и бутстрэп-ДИ воспроизводились между запусками.
Типичные ошибки
Проверять допущения после просмотра результатов. Проверка допущений должна предшествовать основному анализу, а не следовать за ним. Если запустить t-критерий, получить незначимый результат и переключиться на критерий Манна–Уитни в надежде на значимость — это повышает вероятность ложноположительных выводов. Именно проверка допущений должна определять выбор критерия, а не наоборот.
Игнорировать размеры эффекта. Значимое p-значение при ничтожном размере эффекта (d = 0.05) означает, что группы «статистически различаются», но практически это различие несущественно. Напротив, незначимый результат при умеренном размере эффекта (d = 0.50) может просто указывать на нехватку участников. Всегда приводите и интерпретируйте размеры эффекта наряду с p-значениями.
Использовать пакетный анализ по нескольким группирующим переменным там, где нужны взаимодействия. Если вас интересует, зависит ли эффект лечения от пола, два отдельных анализа (один по группе лечения, другой по полу) или пакетный анализ с обеими переменными не ответят на этот вопрос — для проверки взаимодействия необходим многофакторный дисперсионный анализ или другой, поддерживающий смешанный дизайн.
Применять критерии для зависимых выборок к независимым данным (и наоборот). Распространённая ошибка: сравнивать результаты теста до и после с помощью t-критерия для независимых выборок вместо парного t-критерия. Критерий для независимых выборок воспринимает два набора результатов как принадлежащие разным людям, теряя статистическую мощность, которую даёт знание об индивидуальном изменении каждого участника.
Утверждать эквивалентность на основании незначимого результата. Если стандартный критерий не достиг значимости (p > 0.05), это не означает, что группы одинаковы — лишь то, что различие не удалось обнаружить. Для положительного утверждения об эквивалентности необходим тест эквивалентности (TOST). Это разграничение особенно важно в клинических исследованиях, где «различие не выявлено» и «доказана эквивалентность» имеют совершенно разные регуляторные последствия.
Подбирать границу эквивалентности после просмотра данных. Граница Δ должна быть выбрана до анализа на основании предметных знаний о том, какое различие является практически значимым. Подбор Δ после получения результатов — так, чтобы она оказалась достаточно широкой для значимости — обесценивает тест. По возможности предварительно регистрируйте выбранную границу.
Слишком много веры в высокий AUC при малой выборке. На малых выборках доверительные интервалы AUC широкие, а ДИ Делонга опирается на асимптотическую теорию. При числе наблюдений менее ~30 в каждой группе используйте бутстрэповый ДИ и относитесь к точечной оценке как к предварительной. AUC = 0.85 с 95% ДИ [0.55; 1.0] — это не убедительный сигнал, а широкий диапазон, в который случайно попадает «отличная» оценка.
Считать PPV и NPV универсальными. Прогностические ценности зависят от распространённости предсказываемой группы в выборке. Если выборка сбалансирована 50/50, а реальная распространённость — 5%, выводимое здесь PPV окажется намного выше реального при практическом применении. Чувствительность и специфичность от распространённости не зависят и переносятся на другие популяции; PPV и NPV здесь описывают только вашу выборку.
Выбирать направление стоимости после просмотра порогов. Взвешенное по стоимости правило выводит два порога — по одному на каждое направление асимметричной стоимости. Выбор строки, которая «выглядит правильнее», уже после просмотра чисел — а не заранее, на основе содержательного решения о том, какая ошибка серьёзнее, — это та же постфактумная подгонка, что и переключение направления одностороннего критерия после получения результатов.