На этой странице

Регрессионный анализ

Модуль Регрессионный анализ строит модели, предсказывающие исход по одному или нескольким предикторам. Поддерживаются шесть типов регрессии, четыре метода оценивания (включая регуляризацию), диагностические опции и режим сравнения моделей, перебирающий все возможные комбинации предикторов.

Что такое регрессия? Корреляция говорит о том, что две переменные связаны; регрессия объясняет как — она оценивает формулу, предсказывающую одну переменную по другим. Например, линейная регрессия может показать, что каждый дополнительный год образования предсказывает прирост годового дохода на 50 000 ₽ при поправке на возраст и стаж. Модель количественно выражает уникальный вклад каждого предиктора.

  1. Выберите зависимую переменную, предикторы и необязательные медиаторы, модераторы или ковариаты
  2. Выберите тип регрессии и метод оценивания
  3. Включите нужные дополнительные статистики и диагностику
  4. Нажмите Запустить регрессию — или воспользуйтесь сравнением моделей для поиска лучшей комбинации предикторов
  5. Для многоуравненных моделей используйте вкладку «Продвинутый» для построения диаграммы путей

Выбор переменных

Слева расположены три списка переменных:

  • Зависимая переменная(ы) — исход, который вы хотите предсказать. При выборе нескольких зависимых переменных для каждой запускается отдельная регрессия. Список фильтруется по совместимым типам переменных (например, числовые — для линейной, бинарные — для биномиальной логистической).
  • Предикторы — независимые переменные, включаемые в модель. Необходим хотя бы один предиктор или ковариат.
  • Ковариаты (необязательно) — контрольные переменные, которые всегда включаются в модель. При сравнении моделей ковариаты остаются фиксированными, а предикторы варьируются.

Переменная, выбранная в одном списке, скрывается из двух других — это предотвращает её появление по обе стороны уравнения.

Предикторы и ковариаты: оба типа являются независимыми переменными и математически обрабатываются одинаково. Различие важно при сравнении моделей: предикторы — это переменные, которые вы проверяете (какая комбинация работает лучше?), ковариаты — переменные, которые всегда нужно контролировать независимо от результата.

Медиаторы, модераторы и ковариаты

Под списком предикторов расположены три дополнительных панели-аккордеона: Медиаторы, Модераторы и Ковариаты. Все пять списков (ЗП, предикторы, медиаторы, модераторы, ковариаты) взаимоисключающи — переменная может находиться только в одном списке. Панели медиаторов и модераторов скрыты при выборе регуляризованного метода оценивания.

Что такое медиаторы и модераторы? Медиатор объясняет, как работает эффект — это механизм. Если физические упражнения снижают депрессию, качество сна может опосредовать этот эффект (упражнения → лучший сон → меньше депрессии). Модератор объясняет, когда или для кого эффект сильнее — он изменяет силу или направление связи. Пол может модерировать связь упражнений и депрессии, если эффект сильнее для одной группы.

Медиация — при выборе медиаторов автоматически выполняется анализ каузальных шагов Бэрона и Кенни для каждой пары предиктор × медиатор. Результаты включают:

  • Путь a (X → M) — влияние предиктора на медиатор
  • Путь b (M → Y) — влияние медиатора на исход при контроле предиктора
  • Полный эффект c — общее влияние предиктора на исход
  • Прямой эффект c’ — влияние предиктора при контроле медиатора
  • Непрямой эффект a × b — с бутстрэп-доверительным интервалом. Значимость оценивается по тому, исключает ли ДИ ноль (p-значение не выводится).
  • Доля опосредования — какая часть полного эффекта проходит через медиатор

Число бутстрэп-повторений берётся из глобальных настроек.

Чтение результатов медиации: ключевой вопрос — отличается ли непрямой эффект (a × b) от нуля. Если бутстрэп-ДИ не включает ноль, медиатор передаёт значимую долю эффекта. Высокая доля опосредования (например, 60%) означает, что бо́льшая часть эффекта работает через медиатор. Значимый прямой эффект (c’) наряду со значимым непрямым указывает на частичную медиацию — предиктор влияет на исход и через медиатор, и напрямую.

Модерация — при выборе модераторов в основную модель добавляются члены взаимодействия (предиктор × модератор) и выполняется анализ простых наклонов. Результаты отображаются рядом с основной таблицей коэффициентов.

  • Числовые модераторы — наклоны при −1 СО, среднем и +1 СО
  • Категориальные модераторы — наклоны при каждом уровне

Чтение результатов модерации: значимый член взаимодействия означает, что эффект предиктора зависит от модератора. Простые наклоны показывают, как выглядит эффект при различных значениях модератора. Например, если взаимодействие возраст × пол значимо, простые наклоны могут показать, что возраст сильно влияет на женщин, но слабо — на мужчин.

Условные непрямые эффекты — флажок, доступный только при одновременном выборе медиаторов и модераторов. Проверяет, различается ли непрямой эффект (X → M → Y) на разных уровнях модератора (модерированная медиация). Результаты включают:

  • Непрямые эффекты при каждом значении модератора с бутстрэп-ДИ
  • Индекс модерированной медиации — если его ДИ исключает ноль, медиация значимо модерирована

Все бутстрэп-вычисления используют общий цикл ресэмплирования: данные повторно выбираются один раз за итерацию, и все модели медиаторов/модераторов подгоняются на одном и том же ресэмпле, что обеспечивает приемлемую скорость при множестве предикторов, медиаторов и модераторов.

Проверка объёма выборки блокирует анализ, если число полных наблюдений не превышает числа параметров основной модели.

Настройка модели

Тип регрессии

Тип Когда применять Требуемая ЗП
Линейная Непрерывный числовой исход Числовая
Биномиальная логистическая Исход с двумя категориями (да/нет, сдал/не сдал) Бинарная
Порядковая логистическая Упорядоченные категории (например, низкий/средний/высокий) Порядковая
Мультиномиальная логистическая Три и более неупорядоченных категории Категориальная (3+ уровня)
Пуассоновская Счётные исходы (0, 1, 2, …) Числовая
Отрицательная биномиальная Счётные исходы с избыточным разбросом Числовая

Для исходов «время до события» (длительности с возможным цензурированием — выживаемость, время до отказа, время до рецидива) используйте модуль Анализ времени до события. Если рассматривать цензурированные данные о времени до события как обычный числовой исход в линейной или пуассоновской регрессии, результаты получаются смещёнными.

Для упорядоченных по времени числовых исходов (продажи, показания датчиков, трафик — всё, где соседние наблюдения автокоррелированы) используйте модуль Анализ временных рядов. Линейная регрессия на автокоррелированных данных даёт смещённые стандартные ошибки и излишне уверенные коэффициенты; ARIMA, ETS и гонка прогнозов в модуле временных рядов специально рассчитаны на работу с такой зависимостью.

Линейная или логистическая? Линейная регрессия предсказывает непрерывное число (доход, температуру, балл). Логистическая предсказывает вероятность принадлежности к категории (выздоровеет ли пациент? какой товар купит клиент?). Применение линейной регрессии к бинарному исходу может давать невозможные предсказания (вероятности ниже 0 или выше 1) — логистическая регрессия лишена этого недостатка.

Пуассоновская или отрицательная биномиальная? Обе моделируют счётные данные, но пуассоновская предполагает равенство среднего и дисперсии. Реальные счётные данные зачастую демонстрируют большую вариабельность (избыточный разброс) — число визитов к врачу, статистика несчастных случаев и т. д. Если параметр дисперсии в пуассоновской модели заметно превышает 1, переходите к отрицательной биномиальной.

Что такое ОЛМ? В опциях диагностики встречается упоминание «типов ОЛМ». ОЛМ расшифровывается как обобщённая линейная модель (англ. GLM) — семейство, включающее биномиальную логистическую, пуассоновскую и отрицательную биномиальную регрессию. Линейная регрессия технически является частным случаем ОЛМ, но в этом модуле вынесена отдельно, поскольку имеет дополнительные опции вывода (бета-коэффициенты, таблица ANOVA, корреляции), неприменимые к другим типам ОЛМ. Порядковая и мультиномиальная логистические используют иные процедуры подгонки и не классифицируются здесь как ОЛМ.

Метод оценивания

Метод Описание
Классический (МНК/ММП) Стандартное оценивание — МНК для линейной регрессии, метод максимального правдоподобия для остальных. Полная диагностика доступна.
Гребневый (L2) Сжимает коэффициенты к нулю, сохраняя все предикторы. Помогает при мультиколлинеарности.
LASSO (L1) Может сжимать некоторые коэффициенты точно до нуля, выполняя автоматический отбор переменных.
Эластичная сеть (L1 + L2) Сочетание гребневого и LASSO. Слайдер Альфа управляет пропорцией смешения (0 = чистый гребневый, 1 = чистый LASSO, по умолчанию 0.5).

Когда применять регуляризацию? Если предикторов много относительно объёма выборки или предикторы сильно коррелируют между собой, классическая регрессия может давать нестабильные или переподогнанные модели. Регуляризация ограничивает коэффициенты, снижая переподгонку. LASSO особенно полезен, когда многие предикторы, предположительно, нерелевантны — он автоматически исключает их. Гребневый лучше, когда большинство предикторов вносят вклад, но оценки нужно стабилизировать. Эластичная сеть объединяет оба подхода.

Выбор лямбда (только для регуляризованных методов)

Управляет степенью регуляризации:

  • Минимальная ошибка КВ (lambda.min) (по умолчанию) — значение лямбда, минимизирующее ошибку 10-кратной перекрёстной проверки
  • Правило 1 СО (lambda.1se) — наибольшая лямбда в пределах одного стандартного отклонения от минимума; обеспечивает бо́льшую регуляризацию (более простая модель)
  • Вручную — введите произвольное значение лямбда

lambda.min и lambda.1se: lambda.min даёт наилучшую предсказательную точность, но модель может быть избыточно сложной. lambda.1se жертвует малой части точности ради более простой модели — часто лучший выбор, когда важна интерпретируемость.

Допущения:

  • Линейная регрессия предполагает линейность связи между предикторами и исходом, нормальность остатков, гомоскедастичность (постоянство дисперсии ошибок), отсутствие мультиколлинеарности и независимость наблюдений. Включите диагностику для проверки этих допущений.
  • Логистическая регрессия (биномиальная, порядковая, мультиномиальная) предполагает независимость наблюдений, отсутствие мультиколлинеарности и достаточный объём выборки для стабильной оценки методом максимального правдоподобия. Требования к нормальности нет — однако порядковая логистическая дополнительно предполагает пропорциональность шансов: эффект каждого предиктора одинаков для всех пороговых точек разреза.
  • Пуассоновская регрессия предполагает, что исход является счётным, события независимы и среднее равно дисперсии (эквидисперсия). При превышении дисперсией среднего (избыточный разброс) используйте отрицательную биномиальную.
  • Регуляризованные методы ослабляют допущение об отсутствии мультиколлинеарности — именно с коррелированными предикторами они и призваны справляться. Тем не менее они по-прежнему предполагают корректную функциональную форму (линейную для линейной регрессии, логистическую связь для логистической и т. д.).
  • Все типы предполагают отсутствие смещения из-за пропущенных переменных: предполагается, что все важные предикторы включены в модель. Пропущенная побочная (спутывающая) переменная может сделать включённый предиктор значимым (или незначимым) без реальных оснований.

Дополнительные статистики

Флажки управляют дополнительными разделами вывода. Доступность зависит от типа регрессии и метода оценивания:

Опция Доступна при
Корреляции нулевого порядка Линейная + классический
Частные и получастные корреляции Линейная + классический
Таблица ANOVA Линейная + классический
Отношения шансов с доверительными интервалами Логистические типы (биномиальный, порядковый, мультиномиальный) + классический

Что такое отношения шансов? В логистической регрессии коэффициенты выражены в логарифме шансов — это неинтуитивно. Отношение шансов (ОШ) переводит их в понятный вид: ОШ = 2.0 означает, что шансы наступления события удваиваются при увеличении предиктора на единицу; ОШ = 0.5 — шансы уменьшаются вдвое; ОШ = 1.0 — эффекта нет. Всегда проверяйте доверительный интервал: если он включает 1.0, то эффект незначим.

Диагностика

Опция Доступна при
Диагностика коллинеарности (VIF/допуск) Все классические методы
Диагностика остатков (нормальность, автокорреляция, гетероскедастичность) Линейная и типы ОЛМ + классический
Статистики влияния (D Кука, рычаг, выбросы) Линейная и типы ОЛМ + классический
Качество подгонки (Хосмера–Лемешова, девианс, RESET и др.) Все классические методы

Диагностика недоступна для регуляризованных методов.

Чтение результатов — классическая регрессия

Каждый результат отображается в виде карточки с заголовком, включающим тип регрессии и название зависимой переменной.

Информация о модели

Сводный блок с зависимой переменной, именами предикторов и ковариатов, объёмом выборки (N).

Качество подгонки

Линейная регрессия:

  • и скорректированный R² — доля объяснённой дисперсии (см. ниже)
  • F-статистика, ст.св., p-значение — проверяет значимость модели в целом (превосходят ли предикторы в совокупности простое использование среднего)
  • Корень из MSE — средняя ошибка предсказания в единицах исходной переменной. Меньше — лучше.
  • AIC и BIC — информационные критерии для сравнения моделей (см. сравнение моделей). Меньше — лучше, но значимы только при сравнении моделей на одних данных.

Логистическая и другие типы ОЛМ:

  • R² Макфаддена, R² Нагелькерке, R² Кокса–Снелла — различные приближения объяснённой дисперсии (см. ниже)
  • Нулевой девианс — насколько плохо модель подгоняется без предикторов (только с константой)
  • Остаточный девианс — насколько плохо модель подгоняется с предикторами. Чем больше снижение от нулевого к остаточному, тем больше пользы от предикторов.
  • Хи-квадрат (критерий отношения правдоподобия), ст.св., p-значение — проверяет значимость модели в целом
  • Логарифм правдоподобия — исходная мера качества подгонки, из которой выводятся псевдо-R² и информационные критерии
  • AIC и BIC — для сравнения моделей (меньше — лучше)

R² в регрессии: R² показывает, какая доля дисперсии исхода объясняется предикторами. R² = 0.45 означает, что модель объясняет 45% вариации — оставшиеся 55% обусловлены факторами, не включёнными в модель. Скорректированный R² штрафует за добавление предикторов, реально не улучшающих модель. В социальных науках R² = 0.20 нередко считается приемлемым; в физике ожидается значение 0.99.

Псевдо-R² для логистических моделей: у логистической регрессии нет истинного R², поэтому существует несколько приближений. R² Макфаддена выше 0.20 считается хорошей подгонкой (он масштабируется иначе, чем линейный R²). R² Нагелькерке перемасштабирован до теоретического максимума 1.0, что делает его более сопоставимым с линейным R². Ни одно псевдо-R² не даёт полной картины — смотрите также на общий тест модели (p-значение хи-квадрата) и точность классификации.

Коэффициенты

Таблица с одной строкой на каждый член модели:

  • B — нестандартизованная оценка (исходный эффект в единицах зависимой переменной)
  • СО — стандартная ошибка B (точность оценки коэффициента — меньшее СО означает бо́льшую определённость)
  • Бета — стандартизованная оценка (только для линейной регрессии, не отображается для константы). Позволяет сравнивать предикторы, измеренные в разных шкалах.
  • t- или z-статистика — по существу B, делённое на СО; бо́льшие значения указывают на более весомые свидетельства
  • P-значение — вероятность наблюдать такой коэффициент, если предиктор не оказывает реального эффекта
  • Доверительный интервал — диапазон, в котором, вероятно, находится истинный коэффициент

B и бета: B показывает эффект в реальных единицах («каждый год образования добавляет 50 000 ₽ к годовому доходу»). Бета показывает относительную важность предикторов («образование оказывает бо́льший эффект, чем возраст»). Используйте B для практической интерпретации, бета — для сравнения предикторов внутри одной модели.

В мультиномиальных моделях коэффициенты сгруппированы по уровням исхода, каждый сравнивается с референсной категорией. При включении отношений шансов добавляются отношения относительных рисков (ООР) и их ДИ.

В порядковых моделях отдельная таблица порогов показывает точки разреза между соседними категориями.

При наличии категориальных предикторов примечание перечисляет референсную категорию для каждой переменной.

Что такое референсные категории? Когда предиктор категориальный (например, «Красный», «Синий», «Зелёный»), регрессия не может напрямую использовать метки — одна категория выбирается как базовая (референсная), а остальные измеряются относительно неё. Коэффициент 3.5 для «Синего» при референсной категории «Красный» означает, что «Синий» в среднем выше «Красного» на 3.5. Выбор референсной категории не меняет предсказания модели, но влияет на чтение таблицы коэффициентов.

Таблица ANOVA (только линейная)

Разбивает дисперсию на строки регрессии, остатков и итогового с суммами квадратов, степенями свободы, средними квадратами, F-статистикой и p-значением.

Чтение таблицы ANOVA: строка регрессии показывает, какую долю дисперсии объясняют предикторы; строка остатков — что остаётся необъяснённым. F-статистика проверяет, достаточно ли велика объяснённая доля. Это тот же тест общей значимости, что и в разделе качества подгонки, но в более детальном виде.

Корреляции (только линейная)

Таблица корреляций нулевого порядка, частных и получастных корреляций для каждого предиктора.

Корреляция нулевого порядка, частная и получастная: корреляция нулевого порядка — простая корреляция между предиктором и исходом без учёта остальных предикторов. Частная корреляция устраняет влияние других предикторов и из предиктора, и из исхода. Получастная корреляция устраняет их только из предиктора. Квадраты получастных корреляций показывают уникальный вклад каждого предиктора в R².

Диагностика коллинеарности

VIF и допуск для каждого предиктора:

  • VIF ниже 5 — нет оснований для беспокойства
  • VIF 5–10 — умеренная коллинеарность
  • VIF выше 10 — высокая коллинеарность (предикторы слишком коррелируют; оценки могут быть нестабильны)

Что такое коллинеарность? Когда предикторы сильно коррелируют между собой, модели трудно разделить их индивидуальные эффекты — стандартные ошибки раздуваются, а коэффициенты становятся нестабильными. Высокий VIF не означает, что модель неверна, но означает, что эффектам отдельных предикторов нельзя доверять. Рассмотрите удаление или объединение коррелирующих предикторов.

Диагностика остатков

  • Критерий Шапиро–Уилка — нормальность остатков (имеют ли ошибки предсказания форму колокола?)
  • Критерий Дарбина–Уотсона — автокорреляция (значения 1.5–2.5 не вызывают опасений)
  • Критерий Бройша–Пагана — гетероскедастичность (варьируется ли дисперсия ошибок предсказания в диапазоне)

Что такое остатки? Разность между предсказанным и фактически наблюдаемым значением. Хорошая регрессионная модель даёт остатки, которые случайны — без паттернов, примерно нормальны и примерно одинаковы по всему диапазону. Эти три критерия проверяют именно это. Ненормальные остатки могут сделать p-значения неточными. Автокорреляция означает, что наблюдения не независимы (типично для временных рядов). Гетероскедастичность означает, что модель предсказывает одни диапазоны точнее других.

Автокорреляция означает, что остаток каждого наблюдения связан с предыдущим — ошибки не случайны, а следуют трендам. Это типично для данных, собранных во времени (ежемесячные продажи, ежедневная температура). Значение Дарбина–Уотсона около 2.0 означает отсутствие автокорреляции; значения к 0 — положительную автокорреляцию (ошибки тянутся вместе); значения к 4 — отрицательную (ошибки чередуются).

Статистики влияния

  • D Кука — максимальное значение и количество наблюдений с D > 1 (высоко влиятельные точки)
  • Рычаг — максимальное значение hat, порог (2p/n) и количество точек с высоким рычагом
  • Выбросы — количество наблюдений со стандартизованными остатками, превышающими |3|

D Кука, рычаг и выбросы: они фиксируют разные виды проблемных наблюдений. Выброс имеет нетипичный исход (большой остаток). Точка с высоким рычагом имеет нетипичные значения предикторов (она далека от центра данных). D Кука объединяет оба аспекта — он измеряет, насколько изменится вся модель при исключении данного наблюдения. Точка может иметь высокий рычаг, не будучи влиятельной (если она лежит прямо на линии тренда), или быть выбросом без рычага (если её предикторы типичны). Наиболее опасны точки, сочетающие оба свойства — экстремальные предикторы и нетипичный исход.

Стоит ли удалять влиятельные наблюдения? Не автоматически. Высокий D Кука означает, что одно наблюдение непропорционально влияет на модель — но это может быть вполне обоснованная точка данных. Прежде чем принимать решение, выясните, почему она влиятельна (ошибка ввода данных? реальный экстремальный случай?). Удаление и повторный запуск модели покажет, насколько это важно.

Критерии адекватности

Критерии, специфичные для каждого типа:

  • Линейная — критерий RESET (ошибки спецификации по Рамси). Значимый результат указывает на необходимость нелинейных членов.
  • Биномиальная — критерий Хосмера–Лемешова (проверка калибровки по децилям предсказанной вероятности). Метрики дискриминации (AUC, чувствительность, специфичность и т. д.) вынесены в отдельный раздел Классификационный анализ (ROC).
  • Порядковая — точность классификации и проверка допущения о пропорциональности шансов. Метрики дискриминации по точкам отсечения (AUC, D Сомерса, тау-c Кендалла) вынесены в раздел Классификационный анализ (ROC).
  • Мультиномиальная — точность классификации, точность по каждому классу, критерий отношения правдоподобия, скорректированный R² Макфаддена. Метрики дискриминации по классам и сводные показатели (AUC, M Хэнда — Тилла, оценка Брайера) вынесены в раздел Классификационный анализ (ROC).
  • Пуассоновская / отрицательная биномиальная — критерии девианса и хи-квадрат Пирсона; параметр дисперсии (около 1 — приемлемо; ниже 0.8 — недостаточный разброс; выше 1.2 — избыточный разброс)

Классификационный анализ (ROC)

Доступен для биномиальной, мультиномиальной и порядковой логистической регрессии. Каждый вариант модели выдаёт предсказанные вероятности для каждого наблюдения; ROC-анализ оценивает, насколько хорошо эти вероятности разделяют реальные исходы — сразу при всех возможных порогах. Структура вывода адаптируется под тип модели (одна кривая для биномиальной, K кривых «один против остальных» для мультиномиальной, K−1 кривых по точкам отсечения для порядковой), но основной вопрос один и тот же: насколько хорошо модель разделяет наблюдения с разными исходами?

Почему не фиксированный порог 0.5? Порог 0.5 разумен только тогда, когда оба исхода равновероятны и одинаково затратны при пропуске — на практике это почти никогда не так. Если заболевание есть лишь у 5% пациентов, почти каждый выглядит «маловероятным» и правило 0.5 объявит всех здоровыми. Оптимальный порог зависит от распространённости и от того, какую ошибку вы предпочли бы избежать; ROC-анализ выбирает его по самим данным.

Настройки

Доступны в группе Диагностика, когда тип регрессии — биномиальный, мультиномиальный или порядковый:

  • Классификационный анализ (ROC) — главный переключатель раздела
  • Правило выбора оптимального порога — как выбирается порог:
    • J Юдена (макс. чувств. + специф. − 1) — максимизирует чувствительность + специфичность − 1 (по умолчанию; обе ошибки трактуются как одинаково затратные)
    • Ближайший к (0, 1) — выбирает точку ROC-кривой, ближайшую к углу идеального классификатора
    • Взвешенный по стоимости — принимает Коэффициент асимметрии стоимостей (например, 3 = ложно-отрицательная ошибка в 3 раза затратнее ложно-положительной); порог считается в обе стороны асимметрии, и обе строки показываются для сравнения. Только для биномиальной — асимметрия стоимостей не обобщается на пороги по классам или по точкам отсечения.
  • Метрики классификации при оптимальном пороге — переключает таблицу метрик
  • Доверительный интервал AUCДелонга (аналитический, быстрый) или Бутстрэп (без распределенческих допущений). Делонга скрыт для мультиномиальной, потому что многоклассовая сводная AUC (M Хэнда — Тилла) требует бутстрэп-ресэмплинга; для порядковой каждая точка отсечения даёт бинарную ROC, поэтому Делонга остаётся доступен.
  • ROC-кривая — переключает график кривой
  • Перекрёстно-проверенный AUC (вне выборки) — добавляет столбцы перекрёстной проверки в сводку и раскрывает поле Число фолдов (k) (по умолчанию 10, со стратификацией по классам исхода) и поле Повторения (по умолчанию 10). Каждое повторение запускает полную стратифицированную k-блочную CV с разным случайным зерном; ДИ перекрёстной проверки считается по этим повторениям и поэтому отражает изменчивость самой процедуры моделирования, а не только сэмплирование одного фиксированного набора предсказаний.

Биномиальный вывод

Сводная строка — AUC, доверительный интервал AUC и оценка Брайера. При включённой перекрёстной проверке появляются ещё три ячейки: AUC по КВ, ДИ AUC по КВ и оценка Брайера по КВ; в подписи указывается значение k и число выполненных повторений.

AUC простыми словами: площадь под ROC-кривой. 0.5 = модель не лучше подбрасывания монеты; 1.0 = идеальная разделимость. Читайте так: возьмите случайно одну положительную и одну отрицательную единицу — AUC показывает вероятность того, что модель присвоит положительной более высокую вероятность, чем отрицательной. Привычная шкала: 0.7–0.8 — приемлемо, 0.8–0.9 — хорошо, ≥ 0.9 — отлично.

Оценка Брайера: среднеквадратическая ошибка предсказанной вероятности по сравнению с истинным исходом 0/1. Чем меньше — тем лучше; для идеально откалиброванной модели Брайер = 0. AUC измеряет дискриминацию (умеет ли модель правильно ранжировать наблюдения?); Брайер — калибровку (можно ли доверять самим вероятностям?). Модель может хорошо ранжировать и при этом быть плохо откалиброванной, и наоборот — важны обе стороны.

AUC внутри выборки vs. перекрёстно-проверенный AUC: AUC внутри выборки считается по тем же данным, на которых модель обучалась, поэтому он, как правило, оптимистичен — особенно при большом числе предикторов. Перекрёстно-проверенный AUC переподгоняет модель на k − 1 фолдах и предсказывает на отложенном фолде, повторяя цикл, пока для каждого наблюдения не появится предсказание вне выборки; затем AUC считается один раз на всём пуле. Вся процедура повторяется с несколькими разными случайными зернами, и в качестве точечной оценки и доверительного интервала приводятся среднее и t-ДИ по повторениям — так что ДИ отражает неопределённость самой процедуры моделирования, а не только фиксированного набора предсказаний. Принимайте перекрёстный AUC за честную оценку; разница между двумя величинами показывает степень переподгонки.

Метрики классификации при оптимальном пороге — при включении выводится небольшая таблица:

  • Порог — значение отсечения, выбранное по заданному правилу
  • Чувствительность (доля истинно положительных) — какую долю реальных положительных модель улавливает
  • Специфичность (доля истинно отрицательных) — какую долю реальных отрицательных модель корректно отбрасывает
  • ПЦПР (положительная прогностическая ценность) — когда модель говорит «положительный», как часто она права
  • ПЦОР (отрицательная прогностическая ценность) — когда модель говорит «отрицательный», как часто она права
  • Точность — общая доля верных предсказаний

Для правила взвешенного по стоимости появляется две строки (по одной на каждое направление асимметрии) и столбец Хуже ошибиться, помечающий, какой тип ошибки минимизирует данный порог.

ROC-кривая — доля ложно-положительных по оси X, доля истинно-положительных по оси Y. Диагональ соответствует случайному угадыванию; кривые, выгнутые к верхнему левому углу, — лучшая дискриминация. Оптимальные пороги отмечены небольшими точками на кривой — наведите курсор для отображения значения порога, чувствительности, специфичности, ПЦПР и ПЦОР.

Мультиномиальный вывод

Мультиномиальная модель выдаёт вектор вероятностей классов для каждого наблюдения (по одной на каждый класс исхода). ROC-анализ по очереди принимает каждый класс за «положительный» исход («класс k против всех остальных») и считает по нему меру дискриминации, после чего сводит модель в целом несколькими агрегатными показателями.

Сводная таблица — по одной строке на каждый класс исхода плюс три агрегатные строки. Столбцы: AUC, бутстрэп-ДИ и (при включённой перекрёстной проверке) AUC по КВ + ДИ AUC по КВ.

  • Строки по классам — AUC классификатора «один против остальных» для каждого класса. Полезны, чтобы увидеть, какие классы модель различает хорошо, а какие путает.
  • Макро-среднее — невзвешенное среднее AUC по классам. Каждый класс трактуется одинаково независимо от распространённости — удобно, когда редкие классы важны не меньше частых. Если в выборке какой-то класс пуст или представлен только одним направлением, его AUC не определена и подпись строки выглядит как Макро-среднее (X/K классов), чтобы было видно, сколько классов вошло в среднее.
  • Микро-среднее — все предсказания и метки по классам объединяются в одну большую бинарную ROC. Взвешено по распространённости классов, поэтому в нём доминируют самые большие классы.
  • M Хэнда — Тилла (многоклассовая AUC) — принципиальное многоклассовое обобщение AUC, считается как среднее попарных AUC. Нечувствительно к дисбалансу классов. Используйте этот показатель как «ключевой» многоклассовый AUC для отчётности.

Макро vs. микро vs. Хэнд — Тилл — что отчитывать? При сбалансированных классах все три обычно сходятся. При дисбалансе они расходятся: микро отражает совокупную производительность (хорошо для продакшен-моделей), макро отвечает на вопрос «насколько хорошо вы работаете с самым трудным классом», а M Хэнда — Тилла ближе всего по духу к биномиальному AUC. Самое безопасное единое число для отчёта — M Хэнда — Тилла; добавление макро рядом задаёт перспективу по дисбалансу почти бесплатно.

Многоклассовая оценка Брайераmean(rowSums((P − one_hot_Y)²)). Мера калибровки по всем классам сразу. Чем меньше — тем лучше; для идеально откалиброванной модели Брайер = 0. Тот же контраст калибровки vs. дискриминации, что и в биномиальном случае.

Argmax vs. ROC — важная оговорка. AUC по классам измеряет качество дискриминации — насколько хорошо ранжированы представители класса k относительно остальных. Фактическая классификация при предсказании использует argmax по вероятностям классов (побеждает класс с наибольшей вероятностью), а не пороги по каждому классу. Поэтому в матрице ошибок раздела Критерии адекватности показано реальное поведение классификатора, а здесь — насколько каждый класс отделим от остальных. Это родственные, но разные вопросы.

Метрики классификации по классам — при включении выводится по строке на каждый класс с оптимальным порогом и теми же столбцами чувствительности / специфичности / ПЦПР / ПЦОР / точности, что и в биномиальной таблице, плюс ведущий столбец Класс. Правило выбора порога применяется к каждому классу.

График ROC-кривых — K цветных кривых, наложенных на одну диаграмму, по одной на каждый класс. Каждая кривая снабжена своим AUC в легенде; маркеры порогов окрашены в тон кривой.

Порядковый вывод

Порядковая модель выдаёт кумулятивные вероятности P(Y ≤ k | x) для каждой точки отсечения между соседними упорядоченными категориями. ROC-анализ оценивает модель в каждой из K−1 точек отсечения, рассматривая «Y > уровень_k vs. Y ≤ уровень_k» как бинарную задачу. Это уважает упорядоченность — в отличие от мультиномиального «один против остальных», который её отбрасывает.

Сводная таблица — по одной строке на каждую точку отсечения (с подписью {исход} > {уровень}) плюс три сводные строки ранговой согласованности. Столбцы: AUC / значение, ДИ и (при включённой перекрёстной проверке) AUC по КВ + ДИ AUC по КВ.

  • Строки по точкам отсечения — бинарный AUC при каждой кумулятивной границе. Каждая является полноценной бинарной ROC, так что ДИ Делонга применимы по точкам отсечения.
  • Средняя AUC по точкам отсечения — невзвешенное среднее AUC по точкам отсечения с бутстрэп-ДИ по строкам: на каждой итерации наблюдения ресэмплируются и K−1 AUC пересчитываются совместно, так что ДИ корректно учитывает корреляцию между точками отсечения (они используют одни и те же строки).
  • D Сомерса — ранговая согласованность между латентным линейным предиктором модели и упорядоченным исходом. Диапазон [−1, 1]; по магнитуде аналогична AUC (D Сомерса ≈ 2·AUC − 1 для бинарного исхода).
  • тау-c Кендалла — ранговая корреляция, учитывающая связки в порядковом исходе. Диапазон [−1, 1]; менее чувствительна к различиям по шкалам между предсказанным баллом и числом категорий, чем тау-b.

Зачем и D Сомерса, и тау-c? Они отвечают на чуть разные вопросы об одной и той же упорядоченности «предиктор — исход». D Сомерса трактует предсказанный балл как непрерывный классификатор порядкового исхода — ближе по духу к AUC. Тау-c Кендалла симметрична и скорректирована на дискретный характер категорий исхода. Для большинства отчётов по порядковой регрессии достаточно одной из них; приведение обеих добавляет надёжности почти бесплатно.

Многоклассовая оценка Брайера — та же формула, что и для мультиномиальной: mean(rowSums((P − one_hot_Y)²)). Калибровка по всей K-классной матрице вероятностей.

Argmax vs. кумулятивные точки отсечения — важная оговорка. AUC по точкам отсечения измеряет дискриминацию при каждом упорядочивающем пороге. Фактическая классификация при предсказании использует argmax по вероятностям классов, а не пороги по точкам отсечения. Поэтому в матрице ошибок раздела Критерии адекватности показано реальное поведение классификатора, а здесь — насколько чисто модель разделяет исходы у каждой упорядочивающей границы.

Диагностическая ценность расхождения по точкам отсечения. Когда допущение пропорциональности шансов выполняется, AUC и пороговые метрики по разным точкам отсечения, как правило, выглядят похоже. Когда оно нарушено, они расходятся — и это расхождение само по себе несёт диагностическую информацию. Если AUC при «Y > Не согласен» равна 0.85, а при «Y > Согласен» — 0.62, модель различает не одинаково хорошо при разных точках отсечения, что может сигнализировать о неверной спецификации. Сравните с проверкой пропорциональности шансов в разделе Критерии адекватности.

Метрики классификации по точкам отсечения — при включении выводится по строке на каждую точку отсечения с оптимальным порогом и теми же столбцами чувствительности / специфичности / ПЦПР / ПЦОР / точности, плюс ведущий столбец Точка отсечения.

График ROC-кривых — K−1 цветных кривых, наложенных на одну диаграмму, по одной на каждую точку отсечения. Каждая кривая снабжена своим AUC в легенде.

Чтение результатов — регуляризованная регрессия

Заголовок карточки результатов включает как метод (ридж, LASSO или эластичная сеть), так и тип регрессии.

Параметры регуляризации

Таблица с alpha, выбранной лямбда, lambda.min, lambda.1se и ошибкой перекрёстной проверки со СО.

Качество подгонки регуляризованной модели

Отношение девиансов (псевдо-R²) или R² для линейной регрессии, R² Макфаддена для логистической и нулевой девианс там, где доступен.

Регуляризованные коэффициенты

Регуляризованные коэффи��иенты не имеют стандартных ошибок и p-значений — штраф регуляризации делает классические индикаторы недействительными.

Почему нет p-значений? P-значения и доверительные интервалы предполагают свободную оценку коэффициентов. Регуляризация намеренно их ограничивает, что нарушает математику классического вывода. Вместо вопроса «является ли этот предиктор значимым?» регуляризованная регрессия отвечает на вопрос «достаточно ли полезен этот предиктор, чтобы выжить при штрафе?» — для LASSO ненулевой коэффициент и есть ответ.

  • Гребневый — показывает оценку каждого члена и столбец Сжатие, указывающий, какая доля нерегуляризованной оценки сохранена (цветовая кодировка: зелёный ≥ 90%, жёлтый ≥ 50%, красный < 50%)
  • LASSO / эластичная сеть — показывает оценку каждого члена и столбец Статус: «Выбран» или «Исключён (сжат до 0)». Исключённые члены отображаются приглушённо.

В мультиномиальных моделях коэффициенты сгруппированы по уровням исхода. В порядковых моделях пороги отображаются отдельно.

Сводка перекрёстной проверки

Показывает количество проверенных значений лямбда, диапазон лямбда, наилучшую ошибку КВ со СО и степени свободы при выбранной лямбда.

Что такое перекрёстная проверка? Данные разбиваются на 10 частей (сгибов, фолдов). Модель обучается на 9 сгибах и тестируется на оставшемся, затем ротация повторяется так, чтобы каждый сгиб побывал тестовым. Средняя ошибка предсказания по всем 10 раундам — это ошибка КВ; она оценивает, насколько хорошо модель будет работать на новых, невиданных данных, а не только на тех, на которых обучалась.

Сравнение моделей

Сравнение моделей выполняет полный перебор подмножеств: каждая комбинация предикторов подгоняется как отдельная модель, тогда как ковариаты остаются фиксированными. Доступно только при классическом методе оценивания.

Когда использовать сравнение моделей? Когда есть несколько кандидатов-предикторов и нужно выяснить, какая их комбинация лучше всего объясняет исход без переподгонки. Это разведочный инструмент — используйте его для генерации гипотез, а не для их подтверждения. При большом числе предикторов количество моделей растёт экспоненциально.

Настройки

  • Максимальное число отображаемых моделей — ограничивает таблицу рейтинга (по умолчанию 25; 0 — без ограничений)
  • Минимальное число предикторов — наименьшее число предикторов в модели (по умолчанию 0, включая модель только с константой)
  • Максимальное число предикторов — наибольшее число предикторов в модели (оставьте пустым для отсутствия ограничения)

Максимально допустимо 15 предикторов (2¹⁵ = 32 768 моделей). При превышении 100 моделей появляется диалог подтверждения.

Опции вывода

  • Усреднённые по моделям коэффициенты (включено по умолчанию) — коэффициенты, усреднённые по всем моделям с взвешиванием по весам Акаике
  • Расширенная статистика моделей — добавляет столбцы BIC, весов BIC и логарифма правдоподобия. Можно переключать после отображения результатов без повторного запуска.

Рейтинг моделей

Сортируемая таблица с одной строкой на каждую модель-кандидат:

  • Ранг (по AIC)
  • Предикторы — переменные в модели, кнопка Использовать применяет набор предикторов этой модели к списку выбора
  • K — число параметров
  • R² / скорректированный R² (линейная) или R² Макфаддена / R² Нагелькерке (другие типы)
  • AUC, ДИ AUC, p (по сравнению с лучшей)только для биномиальной. AUC характеризует дискриминацию каждой модели; p-значение, рассчитанное парным критерием Делонга, проверяет, отличается ли AUC данной модели от AUC модели с верхней строки рейтинга. У самой лучшей модели в этой ячейке стоит «—». «Сырые» p-значения корректируются на множественность по M−1 сравнениям с лучшей моделью с помощью глобального метода поправки p-значений; в зависимости от настройки Отображение скорректированных p-значений столбец Скорректированное p (относительно лучшей) появляется рядом с исходным или заменяет его. AIC и AUC не всегда согласованы — AIC штрафует сложность, AUC нет, поэтому модель с чуть худшим AIC может иметь сопоставимый AUC. Используйте обе оптики.
  • AIC, AICc, дельта-AIC
  • Вес — вес Акаике (вероятность, что данная модель является лучшей при имеющихся данных)
  • Накопленный вес
  • Коэффициент свидетельства — насколько более правдоподобна лучшая модель по сравнению с данной
  • Набор доверия — отметка, если модель входит в 95%-й набор доверия (наименьшая группа моделей, чьи веса Акаике в сумме составляют не менее 0.95 — это модели, которые нельзя уверенно исключить)

Чтение AIC и весов Акаике: AIC балансирует качество подгонки и сложность модели — меньше лучше, но абсолютное число не важно, важны только различия. Дельта-AIC < 2 означает, что модели практически равнозначны; > 10 означает, что худшая модель почти не имеет поддержки. Веса Акаике переводят эти различия в вероятности: вес 0.45 означает 45%-ю вероятность того, что данная модель является лучшей среди проверенных.

Усреднённые по моделям коэффициенты

При включении отображается таблица с:

  • Полное среднее — коэффициент, усреднённый по всем моделям (отсутствующие члены учитываются как ноль)
  • СО — безусловная стандартная ошибка
  • Доверительный интервал
  • Условное среднее — среднее только по моделям, включающим данный член
  • Важность — сумма весов Акаике для моделей, содержащих данный член

Полное и условное среднее: полное среднее включает модели, где предиктор отсутствовал (трактуется как ноль), поэтому оно сжато к нулю — более консервативная оценка. Условное среднее учитывает только модели с данным предиктором, поэтому оно ближе к реальному эффекту, когда переменная значима. Важность показывает, как часто предиктор встречается в хороших моделях — выше 0.80 означает, что он, вероятно, необходим.

Важность переменных

Таблица, ранжирующая каждый предиктор по важности (сумма весов Акаике) с указанием числа моделей, в которые он вошёл, и числа моделей с положительными и отрицательными коэффициентами.

Сравнение моделей с модераторами

При выборе модераторов их основные эффекты фиксируются в каждой модели (как ковариаты). Члены взаимодействия предиктор × модератор «перебираются»: состояние каждого предиктора не ограничивается «вкл/выкл», а включает любое подмножество взаимодействий с модераторами (1 + 2^n_модераторов состояний на предиктор). Таблица рейтинга моделей показывает столбец Взаимодействия, когда хотя бы одна модель содержит члены взаимодействия. Важность взаимодействий (сумма весов Акаике) приводится отдельно от важности основных эффектов.

Сравнение моделей с медиаторами

Медиаторы не входят в формулу основной модели. Для каждой модели-кандидата, включающей хотя бы один предиктор, оцениваются пути по Бэрону и Кенни через вспомогательные подмодели (путь a: M ~ предикторы + ковариаты + модераторы; путь b/c’: Y ~ предикторы + M + ковариаты + модераторы). Непрямые эффекты рассчитываются по критерию Собела, а не бутстрэпом, поскольку бутстрэп для каждой модели-кандидата был бы вычислительно непрактичен. Важность медиации (средневзвешенный по моделям непрямой эффект) указывается в результатах.

Медиация в сравнении моделей vs. целевая медиация: сравнение моделей использует критерий Собела для скорости, который менее точен на малых выборках и при асимметричных непрямых эффектах. Для подтверждающего анализа запустите целевую регрессию с набором предикторов лучшей модели и используйте медиацию на основе бутстрэпа.

Несходящиеся модели

Если некоторые комбинации предикторов не сошлись, они отображаются в разворачиваемом разделе с набором предикторов и причиной ошибки. Модели с бесконечным AIC (как правило, при n ≤ k, когда модель идеально подогнана с нулевой остаточной дисперсией) исключаются из рейтинга и отображаются здесь как «Неконечный AIC (насыщенная модель)». Каждая запись показывает предикторы и члены взаимодействия списком (например, «x1 × mod1, x2 × mod1, x3») с причиной сбоя.

Анализ путей (продвинутый режим)

Вкладка Продвинутый в модуле регрессии переключает стандартный интерфейс списков переменных на визуальный конструктор путей для задания многоуравненных регрессионных моделей.

Редактор формул

Редактор кода с формульной нотацией R. Каждая строка определяет одно уравнение:

Y ~ A + B*C
M ~ A

Поддерживает все формульные операторы R (+, -, *, :, ^, группировка скобками). Отдельные имена переменных (без ~) создают изолированные узлы на диаграмме. Автодополнение предлагает переменные набора данных по мере ввода — нажмите Tab для подтверждения. Символ = автоматически заменяется на ~.

Диаграмма путей

SVG-диаграмма, отрисовываемая в реальном времени по тексту формулы, с использованием послойной компоновки Сугиямы. Узлы окрашены по ролям:

  • Предиктор — переменные, стоящие только в правой части уравнений
  • Медиатор — переменные, стоящие по обе стороны (предсказываются в одном уравнении, предиктор — в другом)
  • Исход — переменные в левой части
  • Изолированные — отдельные переменные без связей

Члены взаимодействия отображаются как ромбовидные узлы-произведения. Рёбра используют направленные шевроны.

Визуальное редактирование

Все действия на диаграмме двунаправленно связаны с текстом формулы — щелчок на диаграмме редактирует формулу, которая перерисовывает диаграмму:

  • Щелчок по метке узла — сменить переменную через выпадающий список
  • Наведение на узел — появляются кнопки удаления (×) и добавления связи (+) с каждой стороны
  • Щелчок по ребру — всплывающее меню: вставить медиатор, добавить взаимодействие, удалить ребро
  • Щелчок по × узла-произведения — удалить член взаимодействия (основные эффекты сохраняются)

Удаление узла или ребра сохраняет осиротевшие переменные как изолированные узлы, а не удаляет их — их можно переподключить или убрать вручную. Выпадающие списки переменных исключают варианты, создающие циклы или дублирующие существующие связи.

Неполные формулы: Y ~ (пустая правая часть) допустима — переменная отображается как изолированный узел с предупредительным подчёркиванием. Пустые уравнения автоматически очищаются при переподключении переменной.

Запуск анализа путей

Нажатие Запустить регрессию в продвинутом режиме разбивает модель путей на отдельные уравнения для каждого исхода, подгоняет каждое через OLS/GLM, вычисляет непрямые эффекты с бутстрэп-ДИ и выводит декомпозицию эффектов (прямые, непрямые, полные). Все стандартные опции вывода (дополнительные статистики, ANOVA, корреляции, коллинеарность, диагностика остатков, статистики влияния, критерии адекватности) доступны. Сравнение моделей скрыто в продвинутом режиме.

Пропущенные данные

Пропущенные значения обрабатываются согласно глобальному параметру пропущенных данных. При построчном удалении любое наблюдение с пропущенным значением по любой из включённых переменных исключается. В результатах указывается как общее число наблюдений, так и число полных случаев.

Пропущенные данные и регрессия: регрессия требует полных случаев по всем переменным модели. При 20 предикторах и пропусках, рассредоточенных по ним, построчное удаление может убрать значительную часть данных. Это ещё один довод в пользу лаконичных моделей — меньше предикторов означает меньше возможностей для сокращения выборки из-за пропусков.

Пороги интерпретации

При включённой интерпретации таблицы содержат текстовые метки. Используемые ключевые пороги:

Метрика Пороги
< 0.02 пренебрежимо малый, < 0.13 малый, < 0.26 средний, ≥ 0.26 большой
R² Макфаддена < 0.1 слабый, < 0.2 приемлемый, < 0.4 хороший, ≥ 0.4 отличный
VIF < 5 нет оснований для беспокойства, 5–10 умеренный, ≥ 10 высокий
D Кука < 0.5 низкое, 0.5–1 умеренное, ≥ 1 высокое влияние
Дарбин–Уотсон 1.5–2.5 нет оснований для беспокойства, < 1.5 положительная автокорреляция, > 2.5 отрицательная
Важность переменной ≥ 0.9 очень высокая, 0.7–0.9 высокая, 0.5–0.7 умеренная, 0.3–0.5 низкая, < 0.3 очень низкая

Контрольный список для отчёта

Что важно включить при описании результатов регрессионного анализа:

Метод:

  • Тип регрессии (линейная, логистическая и т. д.) и метод оценивания
  • Предикторы и ковариаты с обоснованием их включения
  • Для регуляризации: метод (ридж/LASSO/эластичная сеть), стратегия выбора лямбда, значение alpha
  • Способ обработки пропущенных данных
  • Объём выборки (общий и полные случаи, если различаются)
  • Для сравнения моделей: число моделей-кандидатов, критерий отбора (AIC)

Результаты:

  • Качество подгонки (R² и скорректированный R² для линейной; псевдо-R² и критерий хи-квадрат для логистической)
  • Таблица коэффициентов с B, СО, статистикой критерия, p-значением и доверительными интервалами
  • Бета (стандартизованные) коэффициенты для линейной регрессии
  • Отношения шансов для логистической регрессии
  • Для биномиальной логистической: AUC с доверительным интервалом, использованное правило выбора порога и метрики при оптимальном пороге (чувствительность, специфичность, ПЦПР, ПЦОР); перекрёстно-проверенный AUC, если он приводится, с указанием k
  • Для мультиномиальной логистической: AUC по классам, M Хэнда — Тилла (многоклассовая AUC) с бутстрэп-ДИ, многоклассовая оценка Брайера; отметьте, что классификация при предсказании использует argmax по вероятностям классов
  • Для порядковой логистической: AUC по точкам отсечения, D Сомерса, тау-c Кендалла, многоклассовая оценка Брайера; сравните расхождение по точкам отсечения с проверкой допущения о пропорциональности шансов
  • Размер эффекта для модели в целом
  • Диагностика: коллинеарность (VIF), нормальность остатков, влиятельные наблюдения — как минимум укажите, проверялись ли допущения
  • Для сравнения моделей: лучшая модель(и), веса Акаике, важность переменных; AUC и p-значения Делонга для биномиальных исходов
  • Для регуляризации: выбранная лямбда, число ненулевых коэффициентов (LASSO), ошибка перекрёстной проверки

Воспроизводимость

Каждый анализ выводит соответствующий R-код в консоль R — его можно просматривать, копировать и повторно запускать. Регрессионный анализ использует базовый R (lm, glm) для классической линейной и биномиальной регрессии, пакет MASS для порядковой логистической и отрицательной биномиальной, nnet для мультиномиальной логистической, car для диагностики коллинеарности, lmtest для диагностики остатков, ResourceSelection для критерия Хосмера–Лемешова, pROC для ROC-/AUC-анализа (AUC + ДИ по каждой кривой, критерий Делонга для сравнения биномиальных AUC и multiclass.roc для M Хэнда — Тилла), а также glmnet, ordinalNet или mpath для регуляризованного оценивания. D Сомерса и тау-c Кендалла для порядковых моделей выводятся из cor(method = "kendall") и подсчёта связных пар — без дополнительных пакетов. Ссылки на использованные пакеты R автоматически появляются в начале раздела вывода.

Типичные ошибки

Путать предсказание с объяснением. Модель с высоким R² хорошо предсказывает, но это не означает, что коэффициенты раскрывают причинно-следственные механизмы. Предиктор может коррелировать с исходом лишь потому, что оба вызваны чем-то, что вы не измерили (побочная/спутывающая переменная, конфаунд). Регрессия оценивает ассоциации — причинные утверждения требуют корректного экспериментального дизайна.

Слишком много предикторов при малой выборке. Распространённое эмпирическое правило — не менее 10–15 наблюдений на предиктор. При 50 участниках и 20 предикторах модель, скорее всего, будет переподогнана — она будет объяснять шум выборки, который не воспроизведётся. Используйте сравнение моделей или регуляризацию для построения более лаконичной модели.

Игнорировать коллинеарность. При сильной корреляции предикторов между собой отдельные коэффициенты становятся ненадёжными — небольшие изменения в данных могут перевернуть знак или кардинально изменить величину. Общее качество подгонки модели при этом может оставаться хорошим, но эффектам отдельных предикторов нельзя доверять. Проверьте VIF и рассмотрите удаление или объединение коррелирующих предикторов.

Считать пошаговый отбор подтверждающим. Автоматический отбор моделей (включая сравнение моделей) носит разведочный характер — «лучшая» модель является лучшей для конкретного набора данных. Она должна быть валидирована на новых данных, прежде чем трактоваться как подтверждённый результат. Представляйте её как разведочный анализ и указывайте число проверенных моделей.

Интерпретировать незначимые предикторы как «нет эффекта». Незначимый коэффициент означает, что эффект не удалось отделить от нуля при данном объёме выборки и данной модели. Это не доказывает нерелевантность предиктора — он может иметь значение на бо́льшей выборке, или его эффект может быть замаскирован коллинеарностью с другим предиктором. Не делайте вывод «X не влияет на Y» на основании одного незначимого коэффициента регрессии.