На этой странице

Сравнительный анализ

Модуль Сравнительный анализ проверяет, различаются ли группы или замеры по одной или нескольким переменным. Поддерживаются независимые выборки (отдельные группы), зависимые выборки (повторные измерения одних и тех же испытуемых) и смешанные дизайны, сочетающие оба подхода.

Что значит «сравнивать группы» статистически? Вы проверяете, достаточно ли велики наблюдаемые различия в выборке (например, экспериментальная группа набрала, в среднем, на 5 баллов больше), чтобы их нельзя было объяснить случайностью. Значимый результат означает, что различие, скорее всего, реально существует в генеральной совокупности, а не является артефактом конкретной выборки.

  1. Выберите тип анализа (независимые, зависимые или смешанные выборки)
  2. Назначьте роли переменным (группирующая, замер, идентификатор участника)
  3. Выберите статистический критерий
  4. Настройте параметры (размеры эффекта, апостериорные критерии, описательная статистика)
  5. При необходимости проверьте допущения, затем нажмите Запустить сравнительный анализ

Типы анализа

Выберите дизайн, соответствующий способу сбора данных:

Дизайн Применяется когда Пример
Независимые выборки Группы состоят из разных, не связанных между собой людей Экспериментальная и контрольная группы, мужчины и женщины
Зависимые выборки Одни и те же люди измерены в разных условиях Тест до и после, три временных точки
Смешанная модель Присутствуют как межгрупповые, так и внутригрупповые факторы Экспериментальная и контрольная группы, каждая измерена до и после воздействия

Почему важен дизайн? Критерии для независимых и зависимых выборок основаны на принципиально разной математике. Критерии для зависимых выборок мощнее: они учитывают индивидуальные различия — если испытуемый А всегда набирает больше испытуемого Б, критерий исключает этот фактор и сосредотачивается на том, вызвали ли условия изменение. Применение критерия для независимых выборок к парным данным лишает анализ этого преимущества; применение критерия для зависимых выборок к по-настоящему независимым группам даёт бессмысленные результаты.

Требуется длинный формат: сравнительный анализ ожидает одно наблюдение в строке. Если замеры представлены в отдельных столбцах (широкий формат), воспользуйтесь кнопкой Преобразовать широкий формат в длинный, которая появляется в интерфейсе, — она открывает инструмент объединения столбцов.

Назначение переменных

Роли переменных

Роли переменных назначаются на левой панели:

  • Группирующие переменные — определяют принадлежность к группе (дизайны с независимыми и смешанными выборками). Выберите, чтобы указать переменные, разбивающие данные на группы.
  • Переменные условий — определяют принадлежность к замеру (дизайны с зависимыми и смешанными выборками)
  • Идентификатор участника — позволяет сопоставить данные одного испытуемого в разных замерах. Обязателен для дизайнов с зависимыми и смешанными выборками, необязателен для независимых. Если в данных есть столбец «Subject ID» (например, созданный инструментом объединения столбцов), он выбирается автоматически.
  • Ковариаты — непрерывные контрольные переменные; отображаются, когда выбранный критерий их поддерживает (ANCOVA, MANCOVA, смешанный дисперсионный анализ)

Что такое ковариата? Переменная, влияние которой нужно «устранить» — вы предполагаете, что она влияет на результат, но она не является предметом исследования. Например, при сравнении результатов тестов по методам обучения средний балл студента до начала курса может влиять на итоги. Добавление этого показателя в качестве ковариаты статистически устраняет его влияние — и тогда оставшееся межгрупповое различие с большей вероятностью объясняется именно методом обучения.

Все переменные, которым не назначена ни одна из этих ролей, автоматически становятся зависимыми переменными — данными, сравниваемыми между группами.

Предпросмотр групп

Для независимых выборок отображается предпросмотр:

  • Количество групп и их объёмы
  • Предупреждения об очень малых группах (менее 3 наблюдений)
  • Количество возможных попарных сравнений
  • Предупреждение, если в качестве группирующей используется числовая переменная с большим числом уникальных значений (возможно, она непрерывная, а не категориальная)

Несколько группирующих переменных

При выборе двух и более группирующих переменных в режиме независимых выборок доступны две стратегии:

  • Пакетный режим — отдельный анализ для каждой группирующей переменной; p-значения корректируются глобально по всем тестам.
  • Факторный режим — все группирующие переменные перемножаются в комбинированные подгруппы (например, Пол × Группа лечения) и анализируются как один фактор. Ограничение: не более 10 000 комбинаций.

Пакетный или факторный? Пакетный режим подходит, когда группирующие переменные отвечают на независимые вопросы (есть ли различие по полу? есть ли различие по методу лечения?»). Факторный — когда вас интересуют взаимодействия («зависит ли эффект лечения от пола?»).

Выбор критерия

Выпадающий список автоматически показывает только критерии, подходящие для вашего дизайна и типов переменных.

Независимые выборки — числовые переменные

Критерий Когда применять
t-критерий для независимых выборок Две группы, предполагается равенство дисперсий
t-критерий Уэлча Две группы, дисперсии неравны (более безопасный вариант по умолчанию)
U-критерий Манна–Уитни Две группы, непараметрическая альтернатива
Однофакторный дисперсионный анализ Три и более группы, параметрический
Критерий Краскела–Уоллиса Три и более группы, непараметрический
Критерий взаимной информации Непараметрический общий критерий; выявляет любые различия в распределениях (сдвиг, разброс, форма). Две и более группы.
Критерий дивергенции Йенсена–Шеннона Непараметрическая мера различия распределений групп. Две группы; при трёх и более автоматически разворачивается в попарную матрицу.
Факторный дисперсионный анализ Два и более группирующих фактора, анализируются совместно
ANCOVA Группы с непрерывными ковариатами
MANOVA Несколько зависимых переменных одновременно
MANCOVA Несколько зависимых переменных с ковариатами

Информационно-теоретические критерии. Взаимная информация и дивергенция Йенсена–Шеннона показывают, насколько знание группы снижает неопределённость о значении зависимой переменной — в битах (log₂). В отличие от t-критерия и ранговых критериев, они реагируют на любое различие в распределениях, а не только на сдвиг среднего или медианы. P-значения получаются перестановкой меток групп, поэтому зависят от настройки Повторы бутстрэпа: чем больше повторов, тем точнее p-значения, но дольше расчёт. Отдельного показателя величины эффекта у этих критериев нет — сама статистика уже выражена в ограниченной шкале. Для зависимых и смешанных дизайнов не предлагаются: вопрос «произошёл ли сдвиг Y внутри испытуемого?» не имеет корректного информационно-теоретического эквивалента.

Зачем MANOVA вместо отдельных дисперсионных анализов? При отдельном дисперсионном анализе для каждой зависимой переменной растёт вероятность ложноположительных результатов: чем больше тестов, тем выше шанс случайного срабатывания. MANOVA проверяет все зависимые переменные совместно, удерживая уровень ложных срабатываний под контролем. Кроме того, она способна выявить межгрупповые различия, заметные лишь в сочетании переменных: например, группы могут не различаться ни по тревожности, ни по депрессии по отдельности, но их совместный паттерн может оказаться значимо разным.

Зависимые выборки — числовые переменные

Критерий Когда применять
Парный t-критерий Два условия, параметрический
Критерий знаковых рангов Уилкоксона Два условия, непараметрический
Дисперсионный анализ с повторными измерениями Три и более условия, параметрический
Критерий Фридмана Три и более условия, непараметрический
MANOVA с повторными измерениями Несколько зависимых переменных в разных условиях

Независимые выборки — категориальные переменные

Критерий Когда применять
Критерий хи-квадрат независимости Связь между категориальными переменными
Точный критерий Фишера Таблицы 2×2, особенно при малых выборках

Зависимые выборки — категориальные переменные

Критерий Когда применять
Критерий Макнемара Два условия, бинарные исходы
Критерий Стюарта–Максвелла Два условия, исходы с 3 и более категориями
Критерий Q Кокрена Три и более условия, бинарные исходы

Смешанная модель

Критерий Когда применять
Смешанный дисперсионный анализ Межгрупповые и внутригрупповые факторы, одна зависимая переменная
Смешанный MANOVA Межгрупповые и внутригрупповые факторы, несколько зависимых переменных

Параметрические и непараметрические критерии: параметрические (t-критерий, дисперсионный анализ) предполагают примерную нормальность данных и обладают большей статистической мощностью — они лучше обнаруживают реальные различия. Непараметрические (Манна–Уитни, Краскела–Уоллиса) предъявляют меньше требований к данным и надёжнее при асимметричных распределениях или выбросах, однако для обнаружения тех же эффектов им нужны бо́льшие выборки. Воспользуйтесь проверкой допущений, чтобы сделать обоснованный выбор.

Двухвыборочные критерии при более чем двух группах: если выбран двухвыборочный критерий (например, t-критерий), но групп больше двух, модуль автоматически выполняет все возможные попарные сравнения.

Параметры

Направление критерия

Для двухвыборочных критериев (t-критерии, Манна–Уитни, Уилкоксона) в выпадающем списке Направление критерия доступны две группы вариантов. Для многогрупповых критериев список скрыт.

Стандартные:

  • Двусторонний (по умолчанию) — проверяет различие групп в любом направлении
  • Односторонний: группа 1 > группы 2 — проверяет конкретную направленную гипотезу
  • Односторонний: группа 1 < группы 2

Когда использовать односторонние критерии: только при наличии веского обоснования для конкретного направления эффекта до просмотра данных. Односторонний критерий мощнее в ожидаемом направлении, но полностью игнорирует эффекты в противоположном. При сомнениях выбирайте двусторонний.

Эквивалентность:

  • Эквивалентность (TOST) — проверяет, что различие попадает в интервал ±Δ (т.е. группы практически одинаковы)
  • Ненижестоящий — проверяет, что группа 1 не хуже группы 2 более чем на Δ
  • Превосходство — проверяет, что группа 1 превосходит группу 2 как минимум на Δ
  • Минимальный эффект (MET) — проверяет, что различие составляет не менее Δ (подтверждает наличие практически значимого эффекта)

При выборе любого варианта эквивалентности появляется поле Граница эквивалентности (Δ). Значение задаётся в одном из двух форматов:

  • В единицах измерения — в тех же единицах, что и зависимая переменная
  • Стандартизированное (d Коэна) — автоматически пересчитывается в единицы измерения через объединённое стандартное отклонение (для независимых выборок) или стандартное отклонение разностей (для парных)

Что такое тестирование эквивалентности? Стандартный критерий спрашивает: «Различаются ли группы?» Незначимый результат не означает, что группы одинаковы — он лишь говорит о том, что различие не удалось обнаружить. Тест эквивалентности ставит вопрос иначе: «Достаточно ли группы похожи?» Он использует метод двух односторонних тестов (TOST), чтобы показать, что разница укладывается в заранее заданные границы Δ. Значимый результат TOST — это положительное свидетельство эквивалентности, а не просто отсутствие свидетельств различий.

Как выбрать Δ: граница эквивалентности должна отражать наименьшее различие, которое имело бы практическое значение в вашей области. Например, если разница в 3 балла на 100-балльной шкале пренебрежимо мала, задайте Δ = 3 (в единицах измерения) или оцените стандартизированный эквивалент. Слишком широкая граница облегчает демонстрацию эквивалентности, но обесценивает вывод; слишком узкая — требует очень больших выборок.

Ненижестоящее и превосходство — односторонние варианты тестирования эквивалентности, особенно распространённые в клинических исследованиях. Ненижестоящий тест спрашивает: «Не хуже ли новое лечение стандартного более чем на Δ?» — полезно, когда более дешёвая или безопасная альтернатива приемлема, если она не уступает значимо. Тест превосходства спрашивает: «Лучше ли новое лечение на величину не менее Δ?» — более сильное утверждение, чем обычная значимость.

Тест минимального эффекта (MET) — противоположность тестирования эквивалентности. Если TOST стремится показать, что различие достаточно мало, то MET стремится показать, что различие достаточно велико — что оно превышает содержательно значимый порог Δ. Это полезно, когда нужно подтвердить не просто наличие эффекта (p < 0.05), а его практическую значимость.

Апостериорные критерии

Доступны для многогрупповых тестов (дисперсионный анализ, Краскела–Уоллиса, дисперсионный анализ с повторными измерениями, Фридмана, смешанный дисперсионный анализ, ANCOVA). Установите флажок Включить апостериорные критерии и выберите метод:

  • Тьюки HSD — для критериев семейства дисперсионного анализа
  • Попарные t-тесты (объединённая ошибка, скорректированное p) — для критериев семейства дисперсионного анализа
  • Критерий Данна — для критерия Краскела–Уоллиса

Зачем нужны апостериорные критерии? Общий критерий дисперсионного анализа показывает лишь то, что какие-то группы различаются, не указывая какие именно. Апостериорные критерии выполняют все попарные сравнения с поправкой на множественную проверку.

Формат попарных сравнений

При получении попарных сравнений (из апостериорных критериев или автоматического расширения):

  • Матричный формат — симметричная матрица с группами на обеих осях; каждая ячейка содержит статистику, p-значение и, при необходимости, размер эффекта и ДИ
  • Длинный формат — плоская таблица с одной строкой на пару сравниваемых групп

Размеры эффекта

Установите флажок Включить размеры эффекта и выберите меру из выпадающего списка. Доступные меры обновляются в зависимости от выбранного критерия (например, d Коэна для t-критериев, эта-квадрат для дисперсионного анализа, ранговый бисериальный коэффициент для критерия Манна–Уитни, V Крамера для хи-квадрат).

Дополнительные параметры:

  • Доверительные интервалы для размера эффекта
  • Стандартные ошибки для размера эффекта

Что такое размер эффекта? p-значение говорит о том, существует ли эффект; размер эффекта — насколько он велик. Незначительное различие может быть статистически значимым при достаточно большой выборке, тогда как существенное различие может оказаться незначимым при малом числе участников. Ориентиры для d Коэна: 0.2 — малый эффект, 0.5 — средний, 0.8 — большой; однако границы «значимого» зависят от области исследования.

Классификационный анализ (ROC)

Для двухгрупповых независимых числовых критериев (t-критерий для независимых выборок, t-критерий Уэлча, U-критерий Манна–Уитни, критерий дивергенции Йенсена–Шеннона) установите флажок Включить классификационный анализ (ROC), чтобы рассчитать площадь под ROC-кривой и сопутствующие метрики классификации параллельно с самим критерием. Флажок появляется после выбора подходящего критерия.

Что добавляет ROC-анализ. Если t-критерий или Манна–Уитни отвечает на вопрос «различаются ли группы?», то ROC-анализ ставит парный вопрос: «насколько хорошо это значение разделяет группы?» Эти вопросы математически связаны (AUC равна нормированной к [0; 1] статистике U Манна–Уитни), но ROC даёт ещё и практическую составляющую: оптимальный порог, выше которого наблюдение относится к группе с более высокими значениями, а также чувствительность, специфичность и прогностические ценности при этом пороге.

При трёх и более группах ROC-анализ выполняется для каждого попарного сравнения — аналогично тому, как обрабатывает многогрупповые данные сам критерий.

Правило выбора оптимального порога:

  • J Юдена (по умолчанию) — максимизирует сумму «чувствительность + специфичность − 1»; равный вес обеих ошибок.
  • Ближайший к (0, 1) — точка кривой, ближайшая к верхнему левому углу (идеальному классификатору).
  • Взвешенный по стоимости — асимметричные стоимости ошибок. Задайте Коэффициент асимметрии стоимостей k > 1, если одна ошибка в k раз серьёзнее другой. В выводе показываются оба направления (для каждого варианта «какую группу хуже ошибочно классифицировать»), чтобы вы могли выбрать нужную строку.

Выберите правило до просмотра данных. Та же логика, что и с границей эквивалентности: подгонка правила под получившийся порог обесценивает анализ.

Доверительный интервал AUC:

  • Делонга (по умолчанию) — замкнутая формула, быстрый расчёт; рекомендуется при n ≥ 30 в каждой группе.
  • Бутстрэп — на основе ресэмплинга; устойчивее на малых выборках. Использует глобальную настройку числа повторов бутстрэпа из настроек; медленнее.

Сравнить AUC (попарный критерий Делонга) — появляется при наличии 2 и более AUC (несколько зависимых переменных или попарное расширение для 3 и более групп). Проверяет, значимо ли различаются AUC, с помощью критерия Делонга, учитывающего корреляцию AUC, рассчитанных на одних и тех же испытуемых. P-значения корректируются по семейству сравнений согласно глобальному методу поправки.

Метрики классификации при оптимальном пороге — переключает столбцы с пороговыми метриками (чувствительность, специфичность, PPV, NPV, точность). Отключите, если нужна только сводка по AUC.

Почему не для зависимых и повторных измерений? Статистический аппарат AUC опирается на независимость наблюдений. В дизайне «До/После» стандартный ДИ некорректен, а вопрос «насколько эта переменная разделяет «До» и «После» внутри одного испытуемого?» редко соответствует реальной задаче пользователя. Если требуется дискриминация на парных данных, рассчитайте разностные оценки и проведите независимый ROC-анализ относительно внешней метки (например, «ответивший/не ответивший»).

Описательная статистика

Выберите, какие описательные показатели отображаются рядом с результатами:

  • Средние (включено по умолчанию) и Медианы
  • Моды (с процентом частоты)
  • Стандартные отклонения (включено по умолчанию) и Стандартные ошибки
  • Доверительные интервалы (включено по умолчанию, уровень — из настроек)
  • Процентили (К1, К3, МКР)
  • Минимум и максимум
  • Средние ранги (актуально для ранговых критериев)
  • Объёмы выборок
  • Таблицы частот (для категориальных критериев)

Включить визуализацию

Установите флажок Включить визуализацию, чтобы открыть выбор типов графиков с индивидуальными настройками. Доступно несколько типов, некоторые — условно. Подробнее — в разделе визуализация. Доступно только для числовых зависимых переменных. ROC-кривая включается отдельно — в составе классификационного анализа.

Проверка допущений

Нажмите Проверить допущения, чтобы выполнить набор тестов, соответствующих вашему дизайну. Результаты отображаются в карточке вывода «Результаты проверки допущений», состоящей из трёх разделов.

Сводная таблица

Краткий обзор: каждое допущение, статус его выполнения и примечание. Состав проверяемых допущений зависит от дизайна анализа:

Допущение Критерий Когда проверяется
Нормальность Шапиро–Уилка По каждой группе и каждой переменной
Многомерная нормальность Критерий Мардиа 2 и более зависимых переменных
Однородность дисперсий Критерий Левена Дизайны с независимыми выборками
Сферичность Критерий Мочли Повторные измерения, 3 и более условия
Однородность матриц ковариаций Критерий М Бокса 2 и более зависимых переменных с независимыми группами
Мультиколлинеарность Проверка корреляции (|r| > 0.90) 2 и более зависимых переменных
Ковариата: наклоны регрессии Тест взаимодействия При наличии ковариат
Ковариата: линейность Корреляция При наличии ковариат
Ковариата: независимость Сравнение групп При наличии ковариат
Ожидаемые частоты Проверка ячеек (< 5) Категориальные зависимые переменные

Что делать при нарушении допущений: без паники — многие критерии устойчивы к умеренным нарушениям, особенно при достаточном объёме выборки. По результатам проверки система даёт конкретные рекомендации: какие критерии применимы, а каких следует избегать.

Рекомендации

На основе результатов проверки система перечисляет:

  • Рекомендуемые критерии — те, допущения которых выполнены
  • Не рекомендуемые критерии — с указанием конкретных причин (например, «нарушена нормальность», «нарушена однородность дисперсий»)

Подробные результаты

Отдельные таблицы для каждого теста допущений: результаты по переменным и группам со значениями статистики, p-значениями и цветовой индикацией (зелёный — выполнено, красный — нарушено, жёлтый — предупреждение).

Чтение результатов

Нажмите Запустить сравнительный анализ. Перед выполнением система проверяет корректность настроек: если чего-то не хватает (зависимых переменных, группирующей переменной и т. д.), появится сообщение с объяснением.

Вид результатов зависит от типа критерия.

Стандартные критерии (t-критерий, дисперсионный анализ, Краскела–Уоллиса и др.)

Таблица «Общие результаты» с одной строкой на зависимую переменную:

  • Описательная статистика по группам (согласно выбранным параметрам)
  • Доверительный интервал разности (для двухгрупповых критериев при включённых ДИ)
  • Значение статистики критерия со звёздочками значимости
  • Степени свободы

Доверительный интервал разности: диапазон, в котором с заданной вероятностью находится истинное различие в генеральной совокупности. Например, «ДИ [2.1; 8.7]» означает, что реальное различие, скорее всего, лежит между 2.1 и 8.7. Если интервал не пересекает ноль — различие статистически значимо. Более широкий интервал означает большую неопределённость — как правило, из-за малой выборки.

Степени свободы (ст.св.): число, отражающее количество независимых единиц информации в расчёте — примерно равно объёму выборки минус количество оцениваемых параметров. Интерпретировать ст.св. напрямую не нужно; они приводятся для верификации правильности расчётов и поиска критических значений. Например, t-критерий с 58 ст.св. означает, что в анализе использовалось около 60 наблюдений.

При ошибках в отдельных переменных выводится сводка проблем, сгруппированных по сообщению об ошибке.

Результаты тестирования эквивалентности

При выборе направления эквивалентности над таблицей появляется пометка с типом теста и границей Δ (пересчитанной в единицы измерения, если задана как d Коэна). В таблице после стандартного p-значения добавляются столбцы:

  • p (нижн.) и p (верхн.) — p-значения двух односторонних тестов (для TOST и MET, проверяющих обе границы)
  • p (эквив.) или p (MET) — итоговое p-значение эквивалентности

Для TOST итоговое p-значение — это максимум двух односторонних (обе границы должны быть соблюдены). Для MET — минимум (достаточно превышения хотя бы одной границы). Ненижестоящий тест и тест превосходства используют одну границу и выводят одно p-значение.

Столбец интерпретации отражает результат тестирования эквивалентности:

  • Значимый TOST → «Эквивалентны (в пределах Δ = X)»
  • Значимый ненижестоящий → «Не хуже (Δ = X)»
  • Значимый тест превосходства → «Превосходит (Δ = X)»
  • Значимый MET → «Значимый эффект (|d| > Δ = X)»

Таблицы попарных сравнений (как матричные, так и длинные) также включают p-значения эквивалентности, когда это применимо.

Категориальные критерии (хи-квадрат, точный критерий Фишера и др.)

Таблица сопряжённости:

  • Наблюдаемые частоты с процентами по столбцам
  • Ожидаемые частоты (из критерия хи-квадрат)
  • Итоговые суммы по строкам и столбцам

Попарные сравнения

Формируются при автоматическом расширении (двухвыборочный критерий с 3 и более группами) или апостериорных критериях.

Матричный формат — нижнетреугольная матрица, в каждой ячейке которой на отдельных строках указаны значение статистики (со степенями свободы), ДИ разности, p-значение и размер эффекта. Ячейки окрашены по уровню значимости.

Длинный формат — плоская таблица со столбцами: пара сравниваемых групп, статистика по группам, ДИ разности, значение критерия, степени свободы, p-значение, скорректированное p-значение, размер эффекта, интерпретация.

Легенда объясняет использованные обозначения.

Классификационный анализ (ROC)

При включённом ROC-анализе в результатах появляется подраздел «Классификационный анализ (ROC)». В основной таблице — по одной строке на (зависимая переменная × пара × порог):

  • Переменная — зависимая переменная, по значениям которой строится порог.
  • Сравнение — пара групп (отображается только при попарном расширении для 3 и более групп).
  • Предсказываемая группа — группа, принадлежность к которой соответствует более высоким значениям. Направленность определяется автоматически, чтобы AUC всегда была ≥ 0.5.
  • AUC — площадь под ROC-кривой. 0.5 — случайное угадывание, 1.0 — идеальная классификация.
  • {level}% ДИ — доверительный интервал AUC (Делонга или бутстрэп — согласно выбранному методу).
  • N — общее число наблюдений в формате «всего (предсказываемая/другая)».
  • Хуже ошибиться с — отображается только при взвешенном по стоимости пороге; указывает, какому из двух показанных порогов соответствует данное направление асимметричной стоимости.
  • Порог — точка отсечения. Значения ≥ порога относятся к предсказываемой группе.
  • Чувствительность / Специфичность — чувствительность и специфичность для предсказываемой группы при данном пороге.
  • PPV / NPV — положительная и отрицательная прогностические ценности.
  • Точность — общая доля верно классифицированных наблюдений.

Интерпретация AUC. Часто используемые ориентиры: 0.5–0.6 — слабая, 0.6–0.7 — удовлетворительная, 0.7–0.8 — хорошая, 0.8–0.9 — отличная, 0.9+ — выдающаяся. Это лишь ориентиры, а не правила: практическая ценность AUC зависит от стоимости ошибок в вашей предметной области. AUC = 0.65 может быть прорывом для задачи, где раньше не было ни одного маркера; AUC = 0.85 может оказаться недостаточной для диагностического решения с высокой ценой ошибки.

Чувствительность и специфичность. Чувствительность — доля корректно классифицированных наблюдений из предсказываемой группы (доля истинно положительных), специфичность — доля корректно классифицированных наблюдений из другой группы (доля истинно отрицательных). Они находятся в обратной зависимости при сдвиге порога: ниже порог → выше чувствительность, ниже специфичность, и наоборот. Правила Юдена / ближайшего к углу / взвешенного по стоимости выбирают одну точку этого компромисса.

PPV и NPV зависят от распространённости. В отличие от чувствительности и специфичности, прогностические ценности меняются вместе с долей предсказываемой группы в выборке. Если в вашей выборке группы поделены 50/50, а реальная распространённость — 5%, выводимое здесь PPV окажется намного выше того, что вы получите при практическом использовании. Чувствительность и специфичность от распространённости не зависят и переносятся на другие популяции; PPV и NPV в этом выводе характеризуют именно вашу выборку.

Сравнение AUC (критерий Делонга)

Если включена опция Сравнить AUC и получено 2 и более AUC, добавляется таблица их попарного сравнения:

  • Переменная 1 и Переменная 2 — пара сравниваемых AUC.
  • Δ AUC — AUC(Переменная 1) − AUC(Переменная 2).
  • Z — статистика критерия Делонга для разности парных AUC, рассчитанных на одних и тех же испытуемых.
  • p-значение (и скорректированное p-значение, если поправка p-значений задана в режиме добавления).

При попарном расширении на 3 и более групп таблица разбивается по парам групп — в каждом разделе содержатся сравнения AUC между переменными для соответствующей пары.

Факторный дисперсионный анализ

Одна таблица на зависимую переменную с отдельной строкой для каждого эффекта (главные эффекты и взаимодействия):

  • Название эффекта, F-статистика со звёздочками значимости, степени свободы (эффекта и ошибки), p-значение
  • Частный эта-квадрат (при включённых размерах эффекта)
  • Интерпретация с разграничением главных эффектов и взаимодействий

ANCOVA

Для каждой зависимой переменной — до трёх разделов:

  1. Таблица эффектов — строки для ковариат и факторов, каждая с F-статистикой, степенями свободы, p-значением и частным эта-квадратом; метки указывают, ковариата это или фактор
  2. Скорректированные средние — исходное среднее, СО, скорректированное среднее (выделено жирным), стандартная ошибка и ДИ по каждой группе
  3. Апостериорные сравнения — попарные контрасты по скорректированным средним с разностью, стандартной ошибкой, степенями свободы, t-статистикой и p-значением

Что такое скорректированные средние? При контроле ковариат средние по группам пересчитываются так, как если бы все группы имели одинаковые значения ковариат. Эти «скорректированные», или «оценочные маргинальные», средние устраняют влияние ковариаты и дают более чистое сравнение групп.

Смешанный дисперсионный анализ

Для каждой зависимой переменной:

  1. Таблица эффектов — каждый эффект помечен как «(межгрупповой)», «(внутригрупповой)» или «(ковариата)». При трёх и более условиях добавляются столбцы с эпсилоном Гринхауса–Гейссера и скорректированным p-значением.

  2. Критерий сферичности Мочли — при наличии трёх и более условий: статистика W, p-значение и интерпретация

  3. Апостериорные сравнения — разбиты на разделы:

    • Межгрупповые сравнения (по группе)
    • Внутригрупповые сравнения (по замеру)
    • Простые эффекты: сравнение групп внутри каждого замера
    • Простые эффекты: сравнение замеров внутри каждой группы

    Контекстные подсказки отображаются в зависимости от значимости, например: «Главный эффект группы незначим — интерпретируйте сравнения с осторожностью» или «Взаимодействие значимо — рассмотрите анализ простых эффектов».

  4. Скорректированные средние по группам — при наличии ковариат

Сферичность и поправка Гринхауса–Гейссера: сферичность означает равенство дисперсий разностей между всеми парами условий — техническое допущение дисперсионного анализа с повторными измерениями. При нарушении этого допущения (по критерию Мочли) поправка Гринхауса–Гейссера уменьшает степени свободы, делая критерий более консервативным. Именно скорректированное p-значение следует включать в отчёт.

MANOVA / MANCOVA

Единая карточка вывода для всех зависимых переменных:

  1. Сведения о методе — перечень зависимых переменных, группирующей или условной переменной и ковариат (при наличии)
  2. Многомерные критерии — след Пиллаи, лямбда Уилкса, след Хотеллинга–Лоули и наибольший корень Роя; для каждого — приближённый F, степени свободы и p-значение
  3. Одномерные апостериорные критерии — отдельные дисперсионные анализы для каждой зависимой переменной
  4. Описательная статистика — сводки по зависимым переменным и группам

MANCOVA добавляет многомерные тесты для ковариат и скорректированные средние по группам для каждой зависимой переменной.

Для смешанных дизайнов многомерные и одномерные таблицы организованы по эффектам (межгрупповой, внутригрупповой, взаимодействие).

Какой многомерный критерий указывать? След Пиллаи наиболее устойчив — он лучше переносит нарушения допущений, чем остальные. Лямбда Уилкса — наиболее распространённый показатель в публикациях. Когда все четыре критерия дают согласующиеся результаты, выбор не принципиален; при расхождении доверяйте следу Пиллаи.

Пакетный анализ

В пакетном режиме для каждой группирующей переменной создаётся отдельная карточка вывода с заголовком «Пакетный анализ 1/N: [название переменной]». P-значения корректируются глобально по всем анализам.

Псевдофакторный анализ

При использовании факторной стратегии с несколькими группирующими переменными результаты отображаются под заголовком «Псевдофакторный анализ: [Перем1 × Перем2]».

Поправка p-значений

Множественные тесты на одних и тех же данных повышают вероятность ложноположительных результатов. P-значения автоматически корректируются в соответствии с глобальными настройками поправки. В пакетном режиме поправка применяется глобально по всем анализам.

Если метод поправки не выбран, появляется предупреждение с рекомендацией его задать.

Сколько анализов я провожу? Больше, чем может показаться. Пять зависимых переменных при одной группирующей — это уже пять анализов. Добавьте апостериорные сравнения четырёх групп — и каждая переменная порождает ещё шесть попарных анализов. Всё это быстро накапливается — поправка помогает удерживать уровень ложных срабатываний под контролем. Подробнее о выборе метода — в разделе поправка на множественную проверку.

Пропущенные данные

Пропущенные значения обрабатываются согласно глобальным настройкам пропущенных данных:

  • Попарное — каждый тест использует все доступные наблюдения для задействованных переменных
  • Построчное — используются только наблюдения, полные по всем выбранным переменным
  • Импутация — пропущенные значения заменяются перед анализом (среднее, медиана, мода или константа)

Для сравнительного анализа построчное исключение внутри каждого теста — наиболее распространённый подход в публикуемых исследованиях: он гарантирует, что каждое попарное сравнение групп основано на одном и том же наборе наблюдений.

Визуализация

При включённой опции отдельная карточка вывода «Сравнение распределений» показывает выбранные типы графиков для каждой числовой зависимой переменной — распределение по группам или условиям. В факторных дизайнах метка оси X содержит названия всех задействованных переменных. Все графики можно изменять в размере и экспортировать как SVG, PNG или JPG.

Коробчатый график

Сгруппированные коробчатые графики — по одному на зависимую переменную. Настройки: показать выбросы, показать среднее, показать выемку (ДИ медианы), показать точки данных. Включён по умолчанию.

Коробчатые графики строятся по тому же принципу, что и в анализе распределения.

Скрипичный график

Групповые графики ядерной плотности со вписанным коробчатым графиком. Настройка: показать внутренний коробчатый график.

Коробчатый vs. скрипичный: коробчатые графики лучше для сравнения медиан и выявления выбросов. Скрипичные показывают полную форму распределения — полезны при бимодальных или асимметричных распределениях, которые коробчатые графики скрывают.

График ECDF

Групповые эмпирические функции распределения — кривая каждой группы показывает долю наблюдений, не превышающих каждое значение. Настройка: показать линию медианы.

Когда ECDF полезен: графики ECDF позволяют сравнивать распределения при каждом значении, а не только по сводным статистикам. Две группы могут иметь одинаковые среднее и СО, но кривые ECDF покажут различия. Они также полезны для обнаружения эффектов пола/потолка и скоплений значений.

График средних и доверительных интервалов

Групповые средние с усами доверительных интервалов. При наведении отображаются среднее, стандартная ошибка, ДИ и объём выборки.

График парных линий

Графики «спагетти», соединяющие значения каждого испытуемого между условиями, с жирной линией среднего поверх. Выравнивание по идентификатору испытуемого, если он доступен; в противном случае — позиционное. Настройка: показать линию среднего.

Доступен только для зависимых или смешанных выборок.

Чтение графика парных линий: отдельные линии показывают паттерн для каждого участника — если большинство линий наклонены в одну сторону, эффект устойчив. Пересекающиеся линии указывают на индивидуальные различия в эффекте. Жирная линия среднего показывает общую тенденцию.

График взаимодействия

Групповые средние, соединённые линиями по уровням одного фактора, с отдельными кривыми для каждого уровня второго фактора. Включает легенду. Настройка: показать планки ошибок.

Доступен только при выборе двух и более факторных переменных (факторный межгрупповой или смешанный межгрупповой × внутригрупповой дизайн).

Чтение графика взаимодействия: параллельные линии означают отсутствие взаимодействия — оба фактора действуют независимо. Пересекающиеся или сходящиеся линии указывают на взаимодействие: эффект одного фактора зависит от уровня другого. Статистический критерий покажет, значим ли визуальный паттерн.

Форест-график

Горизонтальная диаграмма с точечными оценками размеров эффекта (ромбы) и доверительными интервалами для каждой зависимой переменной. Включает пунктирную линию отсчёта на нуле и числовые аннотации.

Доступен только при включённом флажке Включить размеры эффекта и при наличии валидных ДИ размеров эффекта в результатах.

ROC-кривая

График зависимости доли истинно положительных результатов (чувствительности) от доли ложно положительных (1 − специфичность). Если применяется попарное расширение, на графике строится по одной кривой на пару групп. Диагональ — линия случайного угадывания; кривые, смещённые ближе к верхнему левому углу, отражают лучшее различение. AUC и предсказываемая группа отображаются в легенде.

Доступна при включённом флажке Включить классификационный анализ (ROC) и подходящем критерии. Сам анализ описан в разделе классификационный анализ.

Чтение ROC-кривой. Каждая точка кривой соответствует возможному порогу. При движении вдоль кривой чувствительность обменивается на специфичность. Порог, выводимый в анализе (Юдена, ближайший или взвешенный по стоимости), — это одна выбранная точка, тогда как вся кривая характеризует различительную способность сразу при всех возможных значениях отсечки.

Контрольный список для отчёта

Что важно включить при описании результатов сравнительного анализа:

Метод:

  • Дизайн анализа (независимые, зависимые или смешанные выборки)
  • Использованный критерий и обоснование (например, «применён t-критерий Уэлча в связи с неравенством дисперсий»)
  • Проводилась ли проверка допущений и какие из них выполнены или нарушены
  • Способ обработки пропущенных данных
  • Метод корректировки p-значений (при использовании)
  • Для апостериорных критериев: метод и поправка
  • Направленность критерия (одно- или двусторонний)
  • Для тестов эквивалентности: тип (TOST, ненижестоящий, превосходство или MET), граница Δ, а также задана ли она в единицах измерения или стандартизированном виде
  • Для ROC-анализа: правило выбора порога (Юдена / ближайший / взвешенный по стоимости — с указанием коэффициента асимметрии стоимостей при необходимости), метод ДИ для AUC (Делонга или бутстрэп), а также применение критерия Делонга при сравнении AUC

Результаты:

  • Описательная статистика по группам (как минимум: средние, СО, объёмы выборок)
  • Значение критерия со степенями свободы (например, t(58) = 2.34; F(2, 87) = 5.12)
  • Точное p-значение (или p < 0.001 при очень малых значениях)
  • Размер эффекта с доверительным интервалом (например, d Коэна = 0.65, 95% ДИ [0.12; 1.18])
  • Для тестов эквивалентности: итоговое p-значение TOST и два односторонних p-значения, а также использованная граница Δ в единицах измерения
  • Для многогрупповых критериев: сначала общий критерий, затем апостериорные сравнения
  • Для факторных и смешанных дизайнов: главные эффекты, взаимодействия и, при необходимости, простые эффекты
  • Для ROC-анализа: AUC с ДИ для каждой переменной (и каждой пары, если применимо), а также чувствительность и специфичность при выводимом пороге; для сравнений AUC — Δ AUC, Z и p-значение(я)

Воспроизводимость

Каждый анализ выводит соответствующий R-код в консоль R — его можно просматривать, копировать и повторно запускать. Сравнительный анализ использует базовый R для t-тестов и хи-квадрат, car для критериев семейства дисперсионного анализа, emmeans для апостериорных сравнений и скорректированных маргинальных средних, dunn.test для критерия Данна, effectsize для вычисления размеров эффекта и pROC для ROC- и AUC-анализа, а также критерия Делонга. Ссылки на использованные пакеты R автоматически появляются в начале раздела вывода.

Типичные ошибки

Проверять допущения после просмотра результатов. Проверка допущений должна предшествовать основному анализу, а не следовать за ним. Если запустить t-критерий, получить незначимый результат и переключиться на критерий Манна–Уитни в надежде на значимость — это повышает вероятность ложноположительных выводов. Именно проверка допущений должна определять выбор критерия, а не наоборот.

Игнорировать размеры эффекта. Значимое p-значение при ничтожном размере эффекта (d = 0.05) означает, что группы «статистически различаются», но практически это различие несущественно. Напротив, незначимый результат при умеренном размере эффекта (d = 0.50) может просто указывать на нехватку участников. Всегда приводите и интерпретируйте размеры эффекта наряду с p-значениями.

Использовать пакетный анализ по нескольким группирующим переменным там, где нужны взаимодействия. Если вас интересует, зависит ли эффект лечения от пола, два отдельных анализа (один по группе лечения, другой по полу) или пакетный анализ с обеими переменными не ответят на этот вопрос — для проверки взаимодействия необходим многофакторный дисперсионный анализ или другой, поддерживающий смешанный дизайн.

Применять критерии для зависимых выборок к независимым данным (и наоборот). Распространённая ошибка: сравнивать результаты теста до и после с помощью t-критерия для независимых выборок вместо парного t-критерия. Критерий для независимых выборок воспринимает два набора результатов как принадлежащие разным людям, теряя статистическую мощность, которую даёт знание об индивидуальном изменении каждого участника.

Утверждать эквивалентность на основании незначимого результата. Если стандартный критерий не достиг значимости (p > 0.05), это не означает, что группы одинаковы — лишь то, что различие не удалось обнаружить. Для положительного утверждения об эквивалентности необходим тест эквивалентности (TOST). Это разграничение особенно важно в клинических исследованиях, где «различие не выявлено» и «доказана эквивалентность» имеют совершенно разные регуляторные последствия.

Подбирать границу эквивалентности после просмотра данных. Граница Δ должна быть выбрана до анализа на основании предметных знаний о том, какое различие является практически значимым. Подбор Δ после получения результатов — так, чтобы она оказалась достаточно широкой для значимости — обесценивает тест. По возможности предварительно регистрируйте выбранную границу.

Слишком много веры в высокий AUC при малой выборке. На малых выборках доверительные интервалы AUC широкие, а ДИ Делонга опирается на асимптотическую теорию. При числе наблюдений менее ~30 в каждой группе используйте бутстрэповый ДИ и относитесь к точечной оценке как к предварительной. AUC = 0.85 с 95% ДИ [0.55; 1.0] — это не убедительный сигнал, а широкий диапазон, в который случайно попадает «отличная» оценка.

Считать PPV и NPV универсальными. Прогностические ценности зависят от распространённости предсказываемой группы в выборке. Если выборка сбалансирована 50/50, а реальная распространённость — 5%, выводимое здесь PPV окажется намного выше реального при практическом применении. Чувствительность и специфичность от распространённости не зависят и переносятся на другие популяции; PPV и NPV здесь описывают только вашу выборку.

Выбирать направление стоимости после просмотра порогов. Взвешенное по стоимости правило выводит два порога — по одному на каждое направление асимметричной стоимости. Выбор строки, которая «выглядит правильнее», уже после просмотра чисел — а не заранее, на основе содержательного решения о том, какая ошибка серьёзнее, — это та же постфактумная подгонка, что и переключение направления одностороннего критерия после получения результатов.