На этой странице

Корреляционный анализ

Модуль Корреляционный анализ измеряет силу — и, где это применимо, направление — связей между парами переменных. Можно коррелировать все переменные сразу или выбирать отдельные подмножества, использовать обширную библиотеку методов оценки связи (классические корреляции, ранговые, информационные и меры функциональной зависимости) или доверить выбор приложению, а результаты просматривать в виде матрицы, длинной таблицы или сетевой визуализации.

Что такое коэффициент корреляции? Число, описывающее, как две переменные изменяются совместно. Классические корреляции (r Пирсона, ρ Спирмена, τ Кендалла и другие) принимают значения от −1 до +1: +1 означает идеальное совпадение движений, −1 — идеально противоположное движение, 0 — отсутствие закономерности. На практике идеальных значений почти не бывает: корреляция около 0.6 (например, рост и вес) говорит о выраженной положительной связи, а 0.1 — о том, что переменные практически не связаны.

Знаковые vs. беззнаковые меры. Некоторые методы в этом модуле беззнаковые — они принимают значения от 0 до 1 и описывают только силу связи, но не её направление. В эту группу попадают V Крамера, информационное семейство (NMI, AMI, когерентность, U Тейла), η², D Хёффдинга, ξ Чаттерджи и дистанционная корреляция. Это не ограничение, а особенность: знак имеет смысл лишь тогда, когда обе переменные упорядочены, а многие реальные связи (категориальные данные, немонотонные формы) вообще не имеют естественного «плюса» или «минуса».

  1. Выберите переменные (или оставьте оба списка пустыми, чтобы скоррелировать все доступные переменные)
  2. Выберите метод корреляции
  3. При необходимости контролируйте ковариаты (частная / получастная) или проверьте различия между ячейками
  4. Настройте параметры отображения
  5. Нажмите Рассчитать корреляции

Настройка

Два списка переменных расположены рядом:

  • Левые переменные — отображаются в виде строк матрицы результатов
  • Правые переменные — отображаются в виде столбцов матрицы результатов

Оба списка необязательны. Оставьте их пустыми, чтобы скоррелировать все переменные между собой. Если заполнен только один список, второй по умолчанию включает все подходящие переменные. Переменные выбираются нажатием или перетаскиванием.

При смене метода корреляции списки автоматически фильтруются, показывая только совместимые типы переменных. Если подходящих переменных нет, появляется предупреждение.

Выбор метода

Знаковые корреляции (−1…+1)

Метод Символ Типы переменных Измеряет
r Пирсона (по умолчанию) r Непрерывная + непрерывная Линейную связь
ρ Спирмена ρ Непрерывная или порядковая Монотонную связь (ранговый метод)
τ Кендалла τ Непрерывная или порядковая Порядковую связь (конкордантные/дискордантные пары)
β Бломквиста β Непрерывная + непрерывная Медианную квадрантную связь, устойчивую к выбросам
Полихорическая ρpoly Порядковая + порядковая Связь между скрытыми непрерывными распределениями
Тетрахорическая ρtet Бинарная + бинарная Частный случай полихорической для таблицы 2×2 — предполагает, что бинарные переменные дихотомизируют скрытые нормальные
Полисериальная ρps Непрерывная + порядковая Предполагает скрытую непрерывную переменную, лежащую в основе порядковой
D Сомерса D Непрерывная или порядковая Асимметричную порядковую связь с учётом совпадений рангов
Гамма Гудмана–Краскала γ Непрерывная или порядковая Порядковую связь без учёта совпадений рангов
Точечно-бисериальная rpb Непрерывная + бинарная Эквивалент r Пирсона для дихотомической переменной
Бисериальная rb Непрерывная + бинарная Предполагает, что бинарная переменная — дихотомизированная непрерывная
Коэффициент фи φ Бинарная + бинарная Основан на критерии хи-квадрат для таблицы 2×2

Беззнаковые меры зависимости (0…1)

Метод Символ Типы переменных Измеряет
V Крамера V Категориальная + категориальная Основан на хи-квадрат, работает с любым числом категорий
Корреляционное отношение (η²) η² Категориальная + непрерывная Долю дисперсии одной переменной, объяснённую группировкой по другой
Нормализованная взаимная информация NMI Любая + любая Общую энтропию как долю совокупной энтропии (симметричная неопределённость)
Скорректированная взаимная информация AMI Любая + любая NMI с поправкой на случайное совпадение
Когерентность Райского CR Любая + любая MI как долю совместной энтропии
U Тейла U Любая + любая Асимметричную — долю неопределённости одной переменной, объяснённую другой
D Хёффдинга DH Непрерывная + непрерывная Непараметрический критерий против любой альтернативы зависимости
ξ Чаттерджи ξ Непрерывная + непрерывная Асимметричную — выявляет любую функциональную зависимость, включая немонотонную
Дистанционная корреляция dCor Непрерывная + непрерывная Основана на энергетических расстояниях; ноль тогда и только тогда, когда переменные независимы

Особые

Метод Символ Типы переменных Измеряет
Смешанный/Авто разный Все Автоматически выбирает лучший метод для каждой пары

Какой метод выбрать? Начните с r Пирсона для непрерывных данных — он наиболее распространён и прост в интерпретации. Если данные порядковые (например, шкалы Лайкерта) или есть опасения по поводу выбросов, используйте ρ Спирмена или β Бломквиста. При подозрении на немонотонную (криволинейную, циклическую) связь попробуйте ξ Чаттерджи или дистанционную корреляцию. При смешанных типах переменных, когда не хочется выбирать вручную, Смешанный/Авто справится со всем.

Пирсон vs. Спирмен vs. Кендалл: r Пирсона измеряет линейные связи — он может не уловить выраженную криволинейную зависимость. ρ Спирмена и τ Кендалла работают с рангами и поэтому фиксируют любую монотонную связь (стабильно возрастающую или убывающую). Кендалл устойчивее на малых выборках и имеет более интуитивную интерпретацию, но Спирмен шире используется и немного мощнее на больших выборках.

За пределами классических корреляций

Некоторые методы из таблиц выше не встречаются во вводных курсах статистики, но закрывают реальные пробелы, оставленные Пирсоном, Спирменом и компанией. Их можно сгруппировать в три семейства.

Робастные и дисперсионные.

  • β Бломквиста — также называется медианной корреляцией. Подсчитывает, насколько часто обе переменные оказываются по одну сторону от своих медиан, и нормирует результат на интервал [-1, +1]. Поскольку используется только знак значения относительно медианы (а не его величина), метод очень устойчив к выбросам. Полезен как проверка в случаях, когда r Пирсона подозрительно сильно определяется несколькими экстремальными точками.
  • Корреляционное отношение (η²) — доля дисперсии непрерывной переменной, объяснённая группировкой по категориальной. Математически совпадает с однофакторного ANOVA. Применяется, когда одна сторона пары действительно категориальная (не упорядоченная), а другая — непрерывная, то есть в ситуации, где Пирсон попросту неприменим. Если η² запрошено для пары, в которой обе переменные категориальные, результат автоматически заменяется на V Крамера: присваивание произвольных числовых кодов одной из сторон сделало бы η² зависимым от разметки, а это нежелательное свойство. Для смешанных пар «непрерывная/категориальная» в роли группирующего фактора всегда выступает категориальная сторона, а непрерывная — в роли значения; для двух непрерывных переменных группирующим фактором считается сторона с меньшим числом уникальных значений. Этот выбор зависит только от внутренних типов переменных, а не от того, какую из них вы поставили «слева» или «справа», поэтому матрица η² симметрична по порядку входа. Учтите, что η² осмысленно лишь тогда, когда одна из сторон действительно категориальная или имеет малое число уникальных значений: если запустить его на двух по-настоящему непрерывных переменных, одна из них станет группирующим фактором примерно с одним наблюдением на группу, что подтянет η² к 1 при p-значении, близком к нулю, — это вырожденный результат, а не реальная связь. Для двух непрерывных переменных используйте корреляционный метод (Пирсона, Спирмена).

Информационные. Все четыре меры ограничены интервалом [0, 1] и имеют общий первый шаг: непрерывные переменные дискретизируются по бинам, вычисляется взаимная информация (MI) — число битов, которое знание одной переменной сообщает о другой, — а затем нормируется разными способами.

  • Нормализованная взаимная информация (NMI) — MI, делённая на среднее маргинальных энтропий. Часто называется симметричной неопределённостью. Самый надёжный вариант ответа на вопрос «насколько эти две переменные связаны между собой?».
  • Скорректированная взаимная информация (AMI) — NMI с вычтенной случайной составляющей. Полезна, когда пары переменных сильно различаются по числу категорий, поскольку нескорректированная MI склонна завышаться при большом числе категорий.
  • Когерентность Райского — MI, делённая на совместную энтропию. Строже NMI: достигает 1 только если переменные практически идентичны (с точностью до переименования).
  • U Тейла — MI, делённая на энтропию одной конкретной стороны. Асимметрична: U(Y при X) ≠ U(X при Y), поэтому матрица не симметрична. Интерпретируется как «доля неопределённости Y, которую устранило бы знание X».

Детекторы общей зависимости. Классические корреляции пропускают немонотонные закономерности (U-образная форма даёт Пирсон ≈ 0). Эти три — нет.

  • D Хёффдинга — классическая непараметрическая статистика: равна нулю при независимости и положительна при любой форме зависимости. Выборочное D может слегка уходить ниже нуля при независимости — это шум вокруг нулевого среднего, а не «антизависимость», — и сырое значение сообщается как есть, чтобы этот шумовой уровень был виден. Беззнаковые визуализации обрезают отображение по нулю.
  • ξ Чаттерджи — предложена в 2021 году; достигает 1, когда одна переменная является точной функцией другой (даже сильно немонотонной), и равна 0 только при независимости. Асимметрична: ξ(X → Y) говорит о том, является ли Y функцией от X, а не наоборот.
  • Дистанционная корреляция (dCor) — основана на энергетическом расстоянии; равна нулю тогда и только тогда, когда две переменные независимы. Обнаруживает любую зависимость, которую упускают классические корреляции, ценой того, что её сложнее интерпретировать как «силу связи». Сообщается несмещённая оценка (та же, что используется в p-значении t-приближения), поэтому при независимости она может слегка уходить ниже нуля — это шум вокруг нулевого среднего, а не «антизависимость». Беззнаковые визуализации обрезают отображение по нулю.

Когда стоит обратиться к мере общей зависимости: у всех классических корреляций есть слепое пятно — они не способны отличить выраженную U-образную или циклическую закономерность от отсутствия связи. Если на диаграмме рассеяния видна структура, но и Пирсон, и Спирмен возвращают значения около нуля, ξ Чаттерджи или дистанционная корреляция её поймают. D Хёффдинга — классический выбор для проверки гипотезы «а связаны ли эти переменные хоть как-то?».

Направленные (асимметричные) методы

D Сомерса, U Тейла и ξ Чаттерджинаправленные: они отвечают на вопрос «насколько хорошо X предсказывает Y?», а не «насколько связаны X и Y?». Результирующая матрица не симметрична — значение в ячейке «строка A, столбец B», как правило, отличается от значения в ячейке «строка B, столбец A».

Принятое в модуле соглашение — строка → столбец: значение в ячейке [строка, столбец] описывает, насколько хорошо переменная-строка предсказывает (или объясняет) переменную-столбец. Под матрицей при использовании одного из этих методов выводится подпись-напоминание о направлении. Флажок Скрывать избыточные значения в таких случаях также автоматически скрывается — оба треугольника несут действительно разную информацию.

Допущения:

  • r Пирсона предполагает, что обе переменные непрерывны и примерно нормально распределены, а связь между ними линейна. Нарушения (асимметрия, выбросы, криволинейные связи) могут исказить коэффициент.
  • ρ Спирмена и τ Кендалла требуют лишь монотонности связи и порядкового уровня измерений. Нормальность не нужна — используйте их, когда допущения Пирсона нарушены. Но они предполагают относительно немного связей; большое число связей бьёт по их p-значениям (это помечает проверка нагрузки связями).
  • β Бломквиста предполагает непрерывные данные, но не накладывает распределённых требований, помимо существования медианы — устойчива к выбросам и тяжёлым хвостам.
  • Полихорическая, полисериальная и тетрахорическая предполагают, что за дискретными переменными скрываются непрерывные нормальные распределения. Полихорическая, как правило, оправдана для шкал Лайкерта с 4+ категориями; тетрахорическая — частный случай 2×2 — уместна, когда бинарное деление искусственно (непрерывный континуум был дихотомизирован), и менее уместна, когда переменная по своей природе действительно бинарна. Для подлинно бинарных переменных безопаснее коэффициент фи; тетрахорическую корреляцию выбирайте, когда есть теоретические основания считать, что за бинарной переменной скрывается континуум.
  • Точечно-бисериальная и бисериальная предполагают, что непрерывная переменная нормально распределена внутри каждой группы бинарной переменной. Бисериальная дополнительно предполагает, что бинарное деление искусственно (то есть непрерывный континуум был дихотомизирован).
  • Фи, V Крамера и семейство взаимной информации опираются на аппарат таблиц сопряжённости — ожидаемые частоты в ячейках в идеале должны быть не менее 5 (для фи и V Крамера проверка ожидаемых частот ячеек помечает, когда это не так). Непрерывные переменные автоматически разбиваются на бины равной частоты; при очень малых выборках бины могут оказаться слишком разреженными, чтобы доверять результату.
  • η² (корреляционное отношение) опирается на аппарат однофакторного ANOVA — примерно равные дисперсии по группам и приблизительно нормальные распределения внутри групп помогают F-оценке p-значения, но не влияют на саму статистику η².
  • D Хёффдинга, ξ Чаттерджи и дистанционная корреляция непараметрические и по сути не накладывают распределённых допущений, кроме независимости наблюдений.
  • Все методы предполагают независимость наблюдений — каждая строка должна соответствовать отдельному испытуемому, а не повторным измерениям у одного и того же.

Логика выбора в режиме Смешанный/Авто

При выборе Смешанный/Авто метод для каждой пары определяется по типам переменных:

Левая переменная Правая переменная Используемый метод
Непрерывная Непрерывная r Пирсона
Порядковая Порядковая Полихорическая
Непрерывная Порядковая Полисериальная
Бинарная Бинарная Коэффициент фи
Непрерывная Бинарная Точечно-бисериальная
Порядковая Бинарная Полихорическая (бинарная трактуется как порядковая)
Категориальная Категориальная V Крамера
Бинарная Категориальная V Крамера
Непрерывная Категориальная Корреляционное отношение (η²)
Порядковая Категориальная Нормализованная взаимная информация

Асимметричные методы (D Сомерса, U Тейла, ξ Чаттерджи) никогда не выбираются в режиме Смешанный/Авто — для них требуется явное намерение пользователя, поскольку добавление направленной меры в симметричную в целом матрицу нарушило бы визуальный контракт.

Проверка допущений

Нажмите Проверить допущения, чтобы выполнить комплексную диагностику и получить единую карточку Допущения корреляции. В отличие от Рассчитать корреляции, она не ограничивается выбранным методом: для каждой пары выбранных переменных выполняются все применимые к этой паре проверки, поэтому при нарушении основного критерия сразу видно, какие альтернативные методы подойдут. Поскольку проход комплексный, явные методы и Смешанный/Авто идут по одному пути — выбранный метод лишь определяет, какой метод помечается как основной для каждой пары. Проверка работает независимо от Рассчитать корреляции, поэтому её можно выполнить без расчёта матрицы (или до него), и носит рекомендательный характер: она не изменяет запрошенные коэффициенты, а показывает, на твёрдой ли почве стоит каждый метод для ваших данных, и при необходимости — какая альтернатива подойдёт.

Ни один метод не свободен от допущений. r Пирсона сильнее всех опирается на распределённые допущения, но ранговые методы тоже не застрахованы — они предполагают относительно немного связей (совпадающих значений), и это допущение нарушается для грубых порядковых или часто повторяющихся данных. Комплексный проход выявляет всё это сразу.

Матрица применимости методов по парам

Карточка начинается с матрицы — по строке на пару переменных, проверки уровня пары в столбцах и столбец Подходящие методы, сводящий их воедино:

  • N — число полных (списочно непропущенных) наблюдений для пары.
  • Двумерная нормальность, Линейность (RESET), Гомоскедастичность (Бройш–Паган), Влиятельные точки (D Кука)OLS-диагностика, выводимая для непрерывных пар (где применим Пирсон). Каждая — вердикт Пройдено / Не пройдено / Н/Д; «—» означает, что проверка к паре неприменима.
  • Достаточные ожидаемые частоты — вердикт проверки частот ячеек χ², выводимый для пар таблиц сопряжённости (фи / V Крамера); «—» в остальных случаях.
  • Латентная двумерная нормальностьпроверка согласия латентной нормальности, выводимая для пар, к которым применимы латентные методы (полихорическая / тетрахорическая / полисериальная / бисериальная); «—» в остальных случаях. Не пройдено означает, что предполагаемая латентная двумерная нормальность отвергнута.
  • Монотонная зависимость (dCor)перекрёстная проверка немонотонной зависимости, выводимая для непрерывных/порядковых пар; «—» для номинальных пар. Не пройдено означает, что в данных есть зависимость, которую линейная или монотонная мера упустила бы.
  • Подходящие методы — сводка. Каждый метод, чьи типы данных подходят паре, перечисляется, если только одна из его проверок допущений не нарушена:
    • Нарушенная проверка убирает метод из списка подходящих и показывает его в скобках с причиной — например, r Пирсона: нарушены допущения (двумерная нормальность) или V Крамера: разреженные ячейки, использовать Монте-Карло.
    • Ранговые методы остаются в списке даже при большом числе связей, но с пометкой используйте точные p-значения — связи бьют по p-значению, а не по оценке.
    • Латентные методы (полихорическая / тетрахорическая / полисериальная / бисериальная) остаются в списке, когда подходят их типы, даже если их проверка согласия с нормальностью не пройдена, но получают пометку двумерная нормальность отвергнута — оценки могут быть смещены — латентная модель часто единственный вариант для типов данных пары.
    • Основной метод — выбранный вами или наиболее подходящий для пары в режиме Смешанный/Авто — помечается.

Почему рекомендация, а не автоматическая замена? Смена метода для каждой пары привела бы к матрице, где разные ячейки используют разные меры, несопоставимые между собой. Единый метод по всей матрице с пометкой проблемных мест сохраняет сопоставимость и при этом подсказывает переход к альтернативе, когда это оправдано данными. Нарушение линейности или нормальности указывает на Спирмена (он улавливает любую монотонную связь); большое число влиятельных точек — на Кендалла (наиболее устойчивого к выбросам).

OLS-диагностика (Пирсон)

Для каждой непрерывной пары — независимо от выбранного метода — карточка выполняет OLS-диагностику Пирсона, поэтому матрица показывает, был бы ли Пирсон надёжен, даже когда вы запросили ранговый метод:

  • Двумерная нормальность — критерий Мардиа для совместной нормальности пары (асимметрия + эксцесс).
  • Линейность (RESET) — критерий RESET Рамсея; нарушение указывает на криволинейную связь, которую Пирсон недооценит.
  • Гомоскедастичность (Бройш–Паган) — равномерен ли разброс по всему диапазону; нарушение означает, что в одних областях связь теснее, чем в других.
  • Влиятельные точки (D Кука) — достаточно ли какого-либо одного наблюдения (D Кука > 1), чтобы определять результат. Матрица показывает вердикт; его по-прежнему формируют вспомогательные величины — зависящий от объёма выборки порог D Кука (4/(n−p−1)) и высокий рычаг (рычажное значение > 2p/n).

Проверяются оба направления регрессии. RESET, Бройш–Паган и D Кука строятся на регрессии одной переменной на другую, поэтому их результат зависит от того, какая переменная считается откликом, — но корреляция симметрична и такого направления не имеет. Чтобы вердикт не зависел от произвольного выбора, каждая из этих трёх проверок выполняется в обоих направлениях, и пара помечается, если нарушение есть хотя бы в одном из них.

Под матрицей выводится сопутствующая таблица Маргинальная нормальность (Шапиро–Уилк) — по строке на каждую переменную из непрерывной пары; она проверяет, нормально ли распределены значения каждой переменной по отдельности. Диагностика использует ту же выборку с активными фильтрами, что и сами корреляции.

Ранговые и порядковые методы (связи)

ρ Спирмена, τ Кендалла, γ Гудмена–Краскела и D Сомерса работают с рангами или упорядоченными категориями, поэтому не требуют нормальности — но предполагают относительно немного связей (наблюдений с одинаковым значением). При большом числе связей асимптотические формулы, по которым эти методы вычисляют p-значения, становятся ненадёжными. Расположенная под матрицей таблица уровня переменных Связи (совпадающие значения) выводит по строке на каждую переменную из пары, к которой применим ранговый метод:

  • N — число непропущенных наблюдений переменной.
  • Уникальных значений — сколько различных значений встречается; малое число относительно N говорит о грубых, склонных к связям данных.
  • Доля связей — доля наблюдений, делящих своё значение хотя бы с одним другим. 0 означает, что все значения уникальны; 1 — что каждое наблюдение с чем-то связано.
  • Макс. доля одного значения — наибольшая доля, приходящаяся на одно значение. Она выявляет доминирующую категорию (например, скопление у пола или потолка) даже когда общая доля связей выглядит умеренной.
  • Много связей — рекомендательный вердикт: Не пройдено, когда доля связей превышает 0,5, иначе Пройдено. Это оценочный порог, а не формальный критерий.

Когда какая-либо переменная превышает порог, примечание рекомендует перейти к точным или перестановочным p-значениям, которые не опираются на чувствительное к связям асимптотическое приближение.

Связи бьют по p-значению, а не по коэффициенту. ρ Спирмена и τ Кендалла остаются корректно определёнными при связях — их формулы вносят поправку на связи в саму статистику. Страдает проверка значимости: при большом числе связей эталонное распределение перестаёт быть тем гладким, которое предполагает аналитическое p-значение. Воспринимайте пометку о большом числе связей как «коэффициенту можно доверять, но перепроверьте p-значение».

Методы таблиц сопряжённости (частоты ячеек χ²)

Коэффициент фи и V Крамера измеряют связь в таблице сопряжённости, и их проверка значимости — это χ²-критерий, который опирается на приближение для больших выборок, разрушающееся, когда ожидаемые частоты ячеек малы. Для каждой пары таблиц сопряжённости карточка строит таблицу, вычисляет ожидаемую частоту каждой ячейки в предположении независимости и применяет правило Кокрена: пара не проходит, когда какая-либо ожидаемая частота ниже 1 или более 20% ячеек ниже 5. Столбец матрицы Достаточные ожидаемые частоты показывает этот вердикт на той же выборке полных наблюдений, что используют и корреляции.

При нарушении правила столбец Подходящие методы называет альтернативу с учётом формы таблицы: точный критерий Фишера для таблицы 2×2 или точный критерий Монте-Карло / Фишера–Фримена–Холтона для бо́льших таблиц R×C.

Почему ожидаемые, а не наблюдаемые частоты? Статистика χ² сравнивает наблюдаемые частоты с теми, что ожидались бы при независимости, и её эталонное распределение лишь приближённо является χ², когда эти ожидаемые частоты достаточно велики. В ячейке может быть ноль наблюдений при здоровой ожидаемой частоте (и наоборот) — именно ожидаемые значения определяют, выполняется ли приближение. Точный критерий полностью обходит приближение, перебирая (или моделируя) возможные таблицы.

Латентные методы (двумерная нормальность)

Полихорическая (две порядковые переменные), тетрахорическая (две бинарные), полисериальная (одна непрерывная, одна порядковая) и бисериальная (одна непрерывная, одна бинарная) оценивают корреляцию пары латентных непрерывных переменных, предполагаемых под наблюдаемыми категориями, — и эта оценка корректна, только когда такие латентные переменные действительно совместно двумерно нормальны. В отличие от допущений ранговых методов или таблиц сопряжённости, это бьёт по самому коэффициенту: если латентная нормальная модель неверна, оценка смещена, а не только её p-значение. Для каждой пары, к которой применим латентный метод, карточка выполняет χ²-проверку согласия с латентной двумерной нормальностью на той же выборке полных наблюдений, что используют и корреляции:

  • Проверка переиспользует χ² отношения правдоподобия, который polycor (polychor / polyserial) уже вычисляет при подгонке пары, — так что это собственный внутренний критерий оценщика, а не отдельная модель.
  • Не пройдено (p < вашего α для проверки допущений) означает, что данные несовместимы с двумерно-нормальной латентной структурой; латентную оценку следует читать с осторожностью.
  • Насыщенная таблица показывает Н/Д, а не Пройдено. Подгонка тетрахорической 2×2 (и любая таблица с нулём остаточных степеней свободы) не оставляет ничего для проверки — модель подгоняется идеально по построению, поэтому свидетельств нет ни за, ни против.

Когда пара не проходит проверку, столбец Подходящие методы оставляет латентный метод в списке, но добавляет пометку двумерная нормальность отвергнута — оценки могут быть смещены. В отличие от проверок OLS и χ², непройденная проверка латентной нормальности не убирает метод: латентная модель часто единственная, чьи типы данных подходят паре, поэтому матрица отмечает напряжённость, а не оставляет вас без кандидата.

Почему это не убирает метод? Для двух порядковых переменных нет свободной от допущений альтернативы, оценивающей ту же латентную связь, — убрав полихорическую, мы оставили бы ячейку пустой. Пометка — честный компромисс: оценка может быть смещена, но это по-прежнему ваш лучший доступный результат, а сильно ненормальная латентная структура — сигнал подкрепить его моделью, не предполагающей нормальности (например, ранговой мерой на той же паре).

Немонотонная зависимость (перекрёстная проверка dCor)

Пирсон, Спирмен и Кендалл видят только монотонную структуру: Пирсон измеряет прямолинейную связь, ранговые методы — последовательно возрастающую или убывающую. Сильная, но немонотонная связь — U-образная, циклическая, веерообразная — может оставить все три коэффициента вблизи нуля, хотя переменные тесно зависимы. Для каждой непрерывной/порядковой пары карточка выполняет всеобъемлющую перекрёстную проверку, недоступную ни одному монотонному коэффициенту:

  • Дистанционная корреляция (energy::dcorT.test) вычисляется для пары. В отличие от коэффициента корреляции, дистанционная корреляция равна нулю только при полной независимости, поэтому она обнаруживает зависимость любой формы (нужно n ≥ 4; t-приближение наиболее надёжно при n ≥ 20).
  • |r| Спирмена служит монотонным эталоном — наиболее широкой из стандартных монотонных мер, не зависящей от того, какой метод вы выбрали.

Пара помечается как Не пройдено, когда дистанционная корреляция значима (p < вашего α для проверки допущений), но |r| Спирмена ниже полосы пренебрежимости (наименьший порог силы корреляции, по умолчанию 0,1), то есть имеется реальная зависимость, которую монотонные меры упускают. Когда дистанционную корреляцию вычислить нельзя (n < 4), ячейка показывает Н/Д, а не ложное Пройдено.

Когда пара не проходит проверку, столбец Подходящие методы добавляет рекомендацию указать на меры, не зависящие от формы связи, — дистанционную корреляцию, взаимную информацию или D Хёффдинга, — которые улавливают зависимость, недооценённую Пирсоном/Спирменом/Кендаллом. Перекрёстная проверка никогда не убирает метод: монотонный коэффициент не ошибочен, он лишь отвечает на более узкий вопрос, чем могут требовать ваши данные.

Значимая dCor при почти нулевом rho — вот признак. Каждая мера по отдельности неоднозначна: крошечный Спирмен может означать как «связи нет», так и «связь немонотонна», а значимая дистанционная корреляция может быть просто тем же монотонным сигналом, который Спирмен уже уловил. Чтение их вместе выделяет важный случай: зависимость присутствует (dCor), но монотонная оптика её не видит (rho ≈ 0).

Контроль за ковариатами (частная и получастная корреляция)

Под выбором переменных появляется список Контролировать (только Пирсон/Спирмен/Кендалл) — частная корреляция в этом модуле поддерживается только для этих трёх методов. Выберите одну или несколько числовых ковариат; модуль вычислит корреляцию каждой пары после удаления линейного (или рангового) влияния этих ковариат.

Зачем нужна частная корреляция? Две переменные могут сильно коррелировать только потому, что третья переменная влияет на обе. Контроль над этой третьей переменной устраняет совместное влияние и показывает, остаётся ли между ними прямая связь. Классический пример — корреляция между потреблением мороженого и количеством утоплений: контроль за температурой устраняет связь. Частная корреляция также позволяет обнаружить подавление — случаи, когда связь скрыта влиянием конфаундера и становится видимой (или даже меняет знак) после удержания конфаундера постоянным.

Частная vs. получастная

После выбора хотя бы одной ковариаты появляется переключатель режима:

  • Частная (исключить влияние из обеих) — каноническая частная корреляция: удаляет влияние ковариат из обеих переменных и затем коррелирует остатки. Симметричная. Используйте, когда вопрос звучит как «какова прямая связь между X и Y при фиксированном Z?»
  • Получастная (исключить влияние только из переменной 1) — удаляет влияние ковариат только из Переменной 1 и коррелирует результат с исходной Переменной 2. Асимметричная — значение в ячейке «строка A, столбец B» отличается от значения в ячейке «строка B, столбец A». Используйте, когда нужно оценить, какой уникальный вклад Переменная 1 вносит в Переменную 2 сверх ковариат.
  • Получастная (исключить влияние только из переменной 2) — зеркальный режим: остатки берутся только у Переменной 2.

В матричном выводе получастная корреляция ведёт себя как другие асимметричные методы — заполнены оба треугольника с действительно разными числами, флажок скрытия избыточных значений принудительно отключается, и добавляется подпись Направление: строка → столбец.

Корреляция нулевого порядка

Частная корреляция — по сути сравнительное утверждение, поэтому в каждой ячейке и в каждой строке длинного формата также выводится нулевой порядок — та же корреляция, вычисленная без ковариат на той же подвыборке полных наблюдений. Она помечена нижним индексом (например, ρ₀ для Спирмена). Результат читается как «при контроле за Z связь X–Y сместилась с ρ₀ = 0.61 до ρ = 0.18» — разрыв напрямую рассказывает историю конфаундинга (или подавления).

Объём выборки, пропуски и диаграммы рассеяния

  • Попарное исключение теперь охватывает все участвующие переменные — пару (X, Y) и каждую ковариату — поэтому наблюдение, пропущенное хотя бы по одной из них, выбрасывается. Минимальное необходимое число полных наблюдений — k + 3, где k — число ковариат.
  • Список ковариат показывает только числовые переменные. Категориальные ковариаты в этом релизе не поддерживаются; при необходимости перекодируйте их в числовой вид заранее.
  • Контрольные переменные исключаются из осей матрицы — они выступают только как ковариаты, а не как объекты корреляции.
  • При частной корреляции Пирсона и Спирмена диаграммы рассеяния превращаются в диаграммы рассеяния остатков: каждая ось показывает остатки соответствующей переменной после удаления влияния ковариат (в получастных режимах остатками заменяется только одна сторона — та, из которой исключается влияние ковариат). Линия МНК на диаграмме остатков для частного Пирсона имеет наклон, равный коэффициенту частной регрессии, а значение r в углу совпадает с частным коэффициентом из таблицы. Подписи осей дополняются суффиксом | ковариаты. Диаграммы рассеяния для частного Кендалла не остаткованы — данные показываются как есть с обычным ядерным сглаживателем Надарая–Уотсона, поскольку точного рангового аналога МНК-остаткования, который бы воспроизводил значение частной τ, не существует.

Замечание о частном Спирмене и частном Кендалле. Оба ранговых частных коэффициента реализованы через ppcor: частный Спирмен — как частная корреляция на ранг-преобразованных данных (поэтому диаграмма остатков показывает остатки рангов, а подписи осей дополняются суффиксом (ранги) | ковариаты), частный Кендалл — как замкнутое выражение через попарные τ. Это распространённые операциональные определения, но не единственные в литературе; если в вашем сообществе принята иная конвенция (например, частная τ Кендалла, выведенная из троек конкордантных/дискордантных наблюдений), учитывайте это при сравнении результатов с другими инструментами.

Проверка различий между корреляциями

Сама по себе корреляция часто не отвечает на нужный вопрос — настоящий вопрос обычно в том, различаются ли две корреляции. Связан ли X с Y сильнее, чем с Z? Изменилась ли корреляция X–Y между группами? Одинакова ли вся структура корреляций в двух выборках? Карточка Проверка различий между корреляциями позволяет ответить на эти вопросы напрямую, с подходящим тестом для каждой структуры сравнения.

Зачем нужен специальный тест? Нельзя просто сопоставить две корреляции на глаз и объявить их различными — важна выборочная изменчивость, а также то, опираются ли коэффициенты на одну и ту же выборку. Два r из одной выборки статистически зависимы (общие наблюдения, часто общие переменные), поэтому тест должен учитывать эту зависимость. Два r из разных выборок независимы и требуют иного теста. Карточка автоматически выбирает подходящее семейство в зависимости от структуры сравнения.

Структуры сравнения

Выберите одну из шести структур в выпадающем списке Структура сравнения — варианты сгруппированы в Попарные (одно сравнение на пару ячеек) и Совместные (единая общая статистика на всю матрицу). Варианты, не подходящие для текущей формы матрицы, скрываются автоматически — например, внутри каждой строковой переменной требует не менее двух столбцовых переменных.

Семейство Структура Что проверяет Выборка Используемое семейство теста
Попарные Внутри каждой строковой переменной Все пары столбцовых ячеек между собой (общий якорь по строке) Одна T2 Уильямса (зависимые перекрывающиеся)
Попарные Внутри каждой столбцовой переменной Все пары строковых ячеек между собой (общий якорь по столбцу) Одна T2 Уильямса (зависимые перекрывающиеся)
Попарные Относительно опорной ячейки Каждая ячейка матрицы — против одной выбранной опорной ячейки (наибольшее |r| или наименьшее |r|) Одна T2 Уильямса, если ячейки имеют общую переменную; Z Стейгера (ковариация Олкина–Финна), если нет
Попарные Между группами Для каждой ячейки — одна и та же пара в двух группах, заданных группирующей переменной Две (независимые) z Фишера для независимых корреляций
Совместные Равенство структуры (одна выборка) Все ограничения «матрица внутренне плоская» одновременно — единый χ² для всей матрицы Одна χ² равенства структуры по Стейгеру
Совместные Равенство между группами Вся корреляционная матрица одинакова во всех группах k групп (независимых) χ² Дженнриха (трейс) при k = 2; χ² Вальда на ковариации Олкина–Сиотани в усреднённой R̄ при k ≥ 3

Структуры Между группами и Равенство между группами требуют выпадающего списка Сравнить по (переменная) — выберите категориальную переменную, разбивающую выборку на группы. Остальные четыре структуры работают на полной выборке.

Выбор опорной ячейки. Наибольшее |r| выбирает в качестве опорной ячейки коэффициент с наибольшим абсолютным значением в матрице; наименьшее |r| — с наименьшим. В обоих случаях ничьи разрешаются лексикографически по (строка, столбец), поэтому выбор детерминирован между запусками.

Покрытие методов

  • Аналитический путь — покрывает Пирсона, Спирмена и Кендалла (включая их частные коэффициенты). Аналитическая дисперсия канонична для Пирсона; Спирмен и Кендалл используют её как асимптотически справедливое подстановочное приближение, а для частных коэффициентов применяется формула с df = n − k − 3 (Уилкокс, 2009, §10.11).
  • Бутстрэп-путь — покрывает большинство остальных методов, включая асимметричные (D Сомерса, U Тейла, ξ Чаттерджи — через сетку упорядоченных пар, чтобы каждое направление получило собственное распределение). Бутстрэп активен только при значении Доверительные интервалы, равном Аналитические или Перцентильный бутстрэп; при отключённых ДИ тесты различий доступны только для методов с аналитической поддержкой. Однопопуляционные структуры в каждой итерации используют общий набор индексов строк по всем парам, чтобы сохранить внутривыборочную зависимость; для разных групп выборки независимы.
  • Получастный режим всегда направляется через бутстрэп, поскольку аналитические формулы дисперсии Δr выведены для симметричных (нулевого порядка или канонически частных) коэффициентов.
  • В режиме Смешанный/Авто тестов различий нет — диспетчеризация метода на каждую пару не сводится к единой сравнительной статистике. При попытке запустить сравнение карточка показывает предупреждение.

Запасной общий критерий

Тесты равенства структуры и равенства между группами опираются на ковариационную матрицу, которая может оказаться вырожденной на малых выборках или при разрежённых группах. В этом случае оркестратор переходит к комбинированию по Коши (ACAT, Лю и Се, 2020) компонентных попарных тестов — устойчиво к произвольной зависимости между компонентами, ценой меньшей мощности по сравнению с полноценным совместным тестом, когда тот доступен. В выводной таблице указывается, какой вариант был применён.

Чтение таблицы сравнений

Для четырёх попарных структур (по строкам, по столбцам, относительно опорной ячейки, между группами) карточка результата показывает по одной строке на каждое сравнение со столбцами:

  • Пара A и Пара B — две сравниваемые ячейки (имена переменных). Структура относительно опорной ячейки заменяет «Пару A» на баннер над таблицей и показывает только Сравниваемую ячейку. Структура между группами заменяет их на Переменная 1, Переменная 2, Группа A, Группа B.
  • r (A) и r (B) — два коэффициента (или просто r в режиме опорной ячейки).
  • Δr — разность r(A) − r(B).
  • Статистика — статистика теста с её обозначением (например, t = … для T2 Уильямса, Z = … для Стейгера / z Фишера, Δr* = … для бутстрэпа), со звёздочками значимости.
  • df — степени свободы (где применимо).
  • p-значение — сырое p и в отдельном столбце скорректированное p, если поправка включена в режиме дополнения (иначе скорректированное значение замещает сырое).

Для общих критериев таблица из одной строки содержит название теста, χ², df и p-значение.

В сноске под таблицей указывается, какое семейство теста было использовано (T2 Уильямса, Z Стейгера, z Фишера или перцентильный бутстрэп с числом повторов), и при необходимости выводятся соответствующие предупреждения (подстановочное приближение для Спирмена/Кендалла, поправка n − k − 3 для частных коэффициентов, бутстрэп для получастного режима).

Поправка на множественную проверку для сравнений

К p-значениям тестов различий применяется тот же глобальный метод поправки, что и к матрице, но эти семейства корректируются независимо — они отвечают на разные семейства вопросов. Внутри карточки сравнений все сравнения одной структуры считаются одним семейством.

Отчётность по сравнениям

Описывая тест различий, укажите: структуру сравнения, семейство теста (T2 Уильямса / Z Стейгера / z Фишера / бутстрэп с числом повторов B), два коэффициента, Δr, статистику теста со степенями свободы, p-значение (сырое и скорректированное, если оба показаны) и объём выборки (выборок). Для общих критериев укажите χ², df, p и какой вариант был применён (структура Стейгера, χ² Дженнриха, χ² Вальда на ковариации Олкина–Сиотани или запасной ACAT).

Параметры отображения

Формат таблицы

  • Матрица (по умолчанию) — матрица корреляций с переменными по обеим осям
  • Длинный формат — плоская таблица с одной строкой на пару переменных

Отображение p-значений (только для матрицы)

  • Совместно с коэффициентом (по умолчанию) — в каждой ячейке коэффициент со звёздочками значимости и p-значение под ним
  • Отдельная таблица p-значений — матрица показывает только коэффициенты, отдельные матрицы p-значений выводятся ниже

Скрывать избыточные значения

Включено по умолчанию. Если матрица симметрична (одни и те же переменные по обеим осям), отображается только нижний треугольник. Снимите флажок, чтобы увидеть полную матрицу. Флажок автоматически скрывается, когда выбран асимметричный метод (D Сомерса, U Тейла, ξ Чаттерджи) — в таких случаях оба треугольника несут действительно разные значения, и ни один из них не является избыточным.

Добавить исходную MI / Добавить энтропии

Под информационными методами (NMI, AMI, когерентность, U Тейла), когда выбран один из них, появляются два флажка:

  • Добавить исходную MI — добавляет к каждой ячейке или строке длинного формата исходное значение взаимной информации (в натах, с поправкой Миллера–Мэдоу). Полезно для отчётности и для сверки с другими инструментами, поскольку нормированная статистика сама по себе скрывает абсолютный объём разделяемой информации.
  • Добавить энтропии — добавляет H(строки) и H(столбца), маргинальные энтропии каждой переменной. Позволяет легко увидеть, обусловлена ли низкая NMI действительной независимостью или же низкой энтропией переменной, которой попросту нечем делиться.

Оба флажка по умолчанию выключены, чтобы не загромождать базовое представление.

Метод расчёта p-значения (только для информационных мер)

Рядом с информационными опциями появляется выпадающий список, когда выбран один из информационных методов (NMI, AMI, когерентность, U Тейла):

  • Аналитический хи² (быстро, проверяет независимость) — по умолчанию. Использует асимптотическое соотношение 2n·MI ~ χ²((k_x−1)(k_y−1)) при гипотезе независимости. Критерий корректно проверяет гипотезу независимости, но его статистика — сырая MI, а не нормированный коэффициент, который вы видите в ячейке. Быстро — один закрытый вызов на пару.
  • Перестановочный (медленнее, проверяет указанный коэффициент) — многократно перемешивает одну из переменных и каждый раз пересчитывает выбранный коэффициент. Число повторов выводится из вашего уровня значимости (не менее 20/α повторов, чтобы порог разрешался) с настройкой повторов бутстрэпа в качестве нижней границы; при активной поправке на множественные сравнения число повторов увеличивается в √(число пар) раз для сохранения разрешения после поправки. Итоговое p-значение — доля перестановок, в которых коэффициент достигает или превосходит наблюдаемое значение (со стандартной поправкой +1/+1 для конечных выборок). Это напрямую проверяет «больше ли наблюдаемое NMI/AMI/когерентность/U Тейла, чем при случайности?», что особенно оправдано для AMI, где аппроксимация хи² неточна.

Другие методы (Пирсон, Спирмен, семейство хи² и др.) уже имеют корректные аналитические или точные p-значения, и этот параметр на них не влияет.

Доверительные интервалы

Выпадающий список управляет тем, сопровождается ли каждый коэффициент доверительным интервалом:

  • Нет (по умолчанию) — ДИ не вычисляются.
  • Аналитические (формулы в закрытой форме, где возможно) — используется естественная аналитическая формула для каждого метода: преобразование Фишера z для Пирсона / Спирмена (дисперсия Боннетта–Райта) / Кендалла (Филлер) / точечно-бисериального и интервал Вальда с atanh-преобразованием (Фишера z) и стандартной ошибкой по дельта-методу для полихорической, полисериальной, тетрахорической, бисериальной, γ Гудмана–Краскала и D Сомерса — что удерживает границы внутри естественного диапазона [-1, 1]. У коэффициента фи здесь нет пригодной формулы в закрытой форме (его асимптотическая стандартная ошибка зависит от маржинальных пропорций таблицы 2×2, а не только от самого φ, поэтому границы Фишера z расходятся с критерием хи²) — для φ используйте режим бутстрэпа.
  • Перцентильный бутстрэп (любой метод) — пересэмплирует данные с возвращением (число повторов — из настроек бутстрэпа) и берёт эмпирические квантили. Сейчас поддерживается для Пирсона, Спирмена, Кендалла, точечно-бисериального, φ и частных / получастных вариантов Пирсона / Спирмена / Кендалла. У остальных методов в этом режиме отображается .

Уровень доверия берётся из глобальной настройки уровня доверия. ДИ выводятся отдельным столбцом в длинной таблице и отдельной строкой под коэффициентом в матричных ячейках. Методы без поддерживаемого ДИ для выбранного режима показывают .

Какой режим выбрать? Аналитический быстрее и даёт более узкие (эффективные) интервалы, когда его допущения выполняются. Бутстрэп более гибок, но медленнее и слегка шире — полезен при малых выборках, нестандартных распределениях или общей нелюбви к асимптотическим приближениям. Для быстрой проверки — аналитический; для итогового отчёта по небольшой или ненормальной выборке — бутстрэп.

Граница пренебрежимо малой корреляции (TOST)

По умолчанию корреляционный анализ способен лишь показать, существует ли связь, — незначимое p-значение никогда не доказывает отсутствие корреляции (см. замечание об интерпретации). Параметр Граница пренебрежимо малой корреляции позволяет сделать это утверждение положительным. Укажите границу Δ — наибольшее |r|, которое вы ещё считаете практически нулевым, — и DataSuite выполнит для каждой поддерживаемой пары тест эквивалентности TOST (два односторонних теста). Оставьте поле пустым (по умолчанию), чтобы пропустить.

Тест противопоставляет H₀ |ρ| ≥ Δ гипотезе H₁ |ρ| < Δ: два односторонних теста по коэффициенту, преобразованному Фишером z, относительно границ −Δ и +Δ; в качестве p (Δ) сообщается большее из двух. Малое p (Δ) — положительное свидетельство того, что истинная корреляция попадает внутрь полосы и, следовательно, пренебрежимо мала.

  • Только аналитически — сейчас охватывает Пирсона, Спирмена, Кендалла, точечно-бисериальную, бисериальную, полисериальную, полихорическую, тетрахорическую, D Сомерса и γ Гудмана–Краскала. Методы без аналитического TOST не показывают p (Δ).
  • Отдельное семейство поправки — поскольку вопрос противоположен обычному p-значению, p (Δ) корректируется отдельно от p-значений значимости и никогда не объединяется с ними.

Как выбрать Δ: задайте её равной наименьшему |r|, которое было бы практически значимым в вашей области, до просмотра результатов — выбор границы только ради достижения значимости обесценивает тест. Слишком широкая граница делает вывод о пренебрежимости лёгким, но неубедительным; слишком узкая требует очень больших выборок. Это аналог границы эквивалентности на шкале корреляций из сравнительного анализа, где та же логика TOST разобрана подробнее.

Включить визуализации

Доступны четыре типа визуализации в виде флажков: сетевой граф, силовой граф, коррелограмма и диаграммы рассеяния. Каждый формирует отдельную карточку результатов. Все отфильтровывают статистически незначимые корреляции, где применимо.

Чтение результатов

Формат матрицы

Каждая ячейка показывает:

  • Коэффициент корреляции с символом метода (r, ρ, τ, β, φ, V, D, γ, η², ρpoly, ρtet, ρps, NMI, AMI, CR, U, DH, ξ, dCor)
  • Звёздочки значимости согласно настройкам форматирования
  • P-значение (в формате согласно настройкам p-значений)
  • Скорректированное p-значение, если в настройках включена поправка на множественную проверку в режиме дополнения
  • Доверительный интервал, если для параметра Доверительные интервалы выбран режим Аналитические или Перцентильный бутстрэп (и метод его поддерживает)
  • Коэффициент нулевого порядка (с нижним индексом ₀), если активен режим частной / получастной корреляции — та же корреляция, вычисленная без ковариат
  • p-значение пренебрежимости p (Δ)p (Δ, скорр.), если поправка отображается в режиме дополнения), если задана Граница пренебрежимо малой корреляции и метод поддерживает аналитический TOST — малое значение свидетельствует о практически нулевой корреляции
  • Исходная MI и/или энтропии, если включены флажки Добавить исходную MI / Добавить энтропии (только для информационных методов)
  • Диагональные ячейки отображают прочерк (корреляция переменной с самой собой всегда равна 1)
  • Ячейки с ошибкой выделяются красным — наведите курсор, чтобы увидеть конкретную причину (например, «Недостаточно данных», «Таблица не 2×2», «Постоянная переменная — нет информации»)

Для асимметричных методов (D Сомерса, U Тейла, ξ Чаттерджи) над матрицей появляется небольшая подпись Направление: строка → столбец. Значение каждой ячейки описывает, насколько хорошо переменная-строка предсказывает переменную-столбец — поэтому верхний и нижний треугольники содержат разные числа.

Длинный формат

Столбцы таблицы:

  • Переменная 1 и Переменная 2 — для асимметричных методов строка читается как «Переменная 1 → Переменная 2» (Переменная 1 — предиктор), и оба порядка каждой пары появляются отдельными строками
  • Метод — для режима Смешанный/Авто и в случаях, когда для отдельной строки сработал запасной метод (например, η² автоматически переходит к V Крамера на парах категориальная × категориальная); показывает символ метода для данной пары, полное название — во всплывающей подсказке
  • Коэффициент — значение корреляции со звёздочками значимости
  • P-значение — и скорректированное p-значение, если включено в режиме дополнения
  • ДИ — столбец с доверительным интервалом, если включён параметр Доверительные интервалы
  • r₀ (ρ₀, τ₀, …) — коэффициент нулевого порядка, если активна частная корреляция
  • p (Δ)p (Δ, скорр.)) — p-значение пренебрежимости / эквивалентности TOST, показывается, когда задана Граница пренебрежимо малой корреляции и метод поддерживает аналитический TOST
  • MI, H(перем₁), H(перем₂) — добавляются, когда для информационных методов включены флажки Добавить исходную MI / Добавить энтропии
  • Интерпретация — если включён соответствующий параметр. Для пар с ошибкой в этом столбце выводится конкретная причина ошибки.

Интерпретация

При включённой интерпретации каждая корреляция получает текстовое описание, объединяющее:

  • Значимость — «Значимая» или «Незначимая»
  • Силу — пренебрежимо малая (< 0.1), очень слабая (0.1–0.3), слабая (0.3–0.5), умеренная (0.5–0.7), сильная (0.7–0.9) или очень сильная (≥ 0.9)
  • Направление — положительная или отрицательная (только для знаковых методов; у беззнаковых направление опускается)

Например: «Значимая умеренная положительная корреляция» (Пирсон) или «Значимая сильная связь» (η², NMI, ξ Чаттерджи и другие беззнаковые меры). Пороги силы настраиваются — см. настройки для параметров границ корреляций и информационных мер.

Почему «незначимая» не означает «нет связи»: незначимый результат означает, что данных недостаточно, чтобы утверждать о наличии связи в генеральной совокупности — но не то, что переменные заведомо не связаны. На малых выборках даже умеренные корреляции могут оказаться незначимыми просто из-за недостатка данных. На очень больших выборках даже ничтожные корреляции могут быть значимыми, не имея практического смысла. Всегда рассматривайте величину коэффициента корреляции наряду с p-значением.

Как доказать, что корреляция пренебрежимо мала: если вы действительно хотите утверждать, что переменные практически не связаны, а не просто «незначимы», используйте Границу пренебрежимо малой корреляции для формального теста эквивалентности. Его p (Δ) превращает «значимой корреляции не обнаружено» в обоснованное «корреляция значимо находится в пределах ±Δ от нуля».

Поправка на множественную проверку

Матрицы корреляций предполагают множество одновременных проверок: матрица из 10 переменных порождает 45 уникальных пар. Без поправки часть результатов окажется значимой лишь по случайности.

Если метод поправки не выбран, появляется предупреждение с рекомендацией его рассмотреть.

Пропущенные данные

Пропущенные значения обрабатываются согласно глобальной настройке пропущенных данных:

  • Попарное исключение (по умолчанию) — каждая пара использует все наблюдения, где обе переменные имеют значения
  • Полное исключение — используются только наблюдения, полные по всем выбранным переменным
  • Импутация — пропущенные значения заменяются заменителями (среднее, медиана, мода или константа) до анализа

Попарное vs. полное исключение: попарное сохраняет больше данных, но может давать матрицы корреляций с внутренними несоответствиями (например, A коррелирует с B, B — с C, но корреляция A–C выглядит неожиданной, потому что использовались разные подмножества наблюдений). Полное исключение избегает этого, но может отбросить много данных при наличии пропусков сразу в нескольких переменных.

Замечание об импутации: замена пропущенных значений искусственно снижает вариативность, что, как правило, смещает корреляции к нулю. Импутация средним и медианой наиболее подвержена этому эффекту. При большом числе пропусков стоит рассмотреть, не предпочтительнее ли попарное исключение.

Визуализации

Все визуализации можно изменять в размере, перетаскивая маркер в правом нижнем углу. Для сохранения графиков используйте групповой экспорт — см. чтение результатов: он сохраняет сразу все графики на странице.

Сетевой граф

Круговая сетевая диаграмма. Переменные расположены в виде подписанных узлов по окружности, упорядоченных по схожести корреляций — сильнее связанные переменные расположены ближе друг к другу. Изогнутые рёбра соединяют пары со статистически значимыми корреляциями.

  • Цвет ребра отражает направление и силу связи: синий — положительная, красный — отрицательная, серый — близкая к нулю. Цветовая легенда от −1 до +1 расположена над диаграммой.
  • Толщина ребра отражает абсолютную силу корреляции
  • Наведение на ребро — подсвечивает его
  • Масштабирование — колесо мыши или кнопки +/−/сброс в правом верхнем углу

Силовой граф

Интерактивная сеть, где положительно коррелированные переменные притягиваются, а отрицательно — отталкиваются. Узлы имеют форму капсул с подписями внутри. Рёбра окрашены и масштабированы по силе и направлению корреляции.

  • Перетащите узел, чтобы зафиксировать его в новой позиции (показывается с синей пунктирной рамкой)
  • Щёлкните по зафиксированному узлу, чтобы вернуть его в симуляцию
  • Масштабирование и изменение размера — аналогично сетевому графу

Эта визуализация автоматически скрывается при выборе асимметричного метода (D Сомерса, U Тейла, ξ Чаттерджи) — ненаправленная компоновка графа не может корректно отобразить оба направления асимметричной пары. Для таких методов используйте коррелограмму или таблицу в длинном формате.

Сетевой граф vs. силовой: сетевой граф лучше подходит для обзора корреляционной структуры — сразу видны кластеры связанных переменных. Силовой граф лучше для интерактивного изучения конкретных связей, поскольку узлы можно перетаскивать и перестраивать расположение.

Коррелограмма

Матрица ориентированных эллипсов — по одному на каждую пару переменных. Форма и ориентация эллипса кодируют корреляцию:

  • Положительные корреляции наклонены вправо (/) — отрицательные влево ()
  • Эксцентриситет кодирует абсолютную силу — круг при r = 0, тонкая линия при r = ±1
  • Цвет заливки соответствует цветовой шкале корреляций (от синего к красному)
  • Незначимые корреляции затемнены и обведены пунктирной рамкой
  • Показывается полная матрица (без диагонали)

Если включены также диаграммы рассеяния, щелчок по ячейке прокручивает страницу к соответствующей диаграмме.

Диаграммы рассеяния

По одной диаграмме на каждую пару переменных, каждая в своём подразделе. Каждая диаграмма показывает:

  • Точки рассеяния для необработанных данных
  • Опорную линию, форма которой зависит от выбранного метода:
    • Пирсон и точечно-бисериальный — линия OLS-регрессии. Доверительная полоса (на глобальном уровне доверия) рисуется, когда Доверительные интервалы установлены в Аналитические (полоса условного среднего вокруг подобранной линии в закрытой форме) или Перцентильный бутстрэп (огибающая OLS-линий, пересчитанных на бутстрэп-ресэмплах); если ДИ выключены, полоса не рисуется.
    • Спирмен, Кендалл, полихорический, полисериальный, бисериальный, D Сомерса, γ Гудмена и Краскала, D Хёффдинга, ξ Чаттерджи, дистанционная корреляция — ядерный сглаживатель Надарая–Уотсона (без параметрической линии; выявляет монотонную или нелинейную структуру)
    • β Бломквиста — медианный перекрёстный пунктир (вертикаль на медиане X, горизонталь на медиане Y), поскольку сам коэффициент определяется согласованностью знаков относительно этих медиан
    • φ, V Крамера, η², NMI, AMI, когерентность, U Тейла — без линии; пара категориальная, и непрерывная подгонка вводила бы в заблуждение
  • Коэффициент с символом метода (r, ρ, τ, …) и p-значение в углу — скорректированные p-значения отображаются согласно тому же правилу отображения поправки, что и в матрице и длинной таблице
  • Диапазон осей дополнен на один интервал деления, чтобы крайние точки не обрезались

Сгруппированные диаграммы рассеяния (между группами / равенство между группами)

Когда активна структура сравнения Между группами или общий критерий равенства между группами, карточка диаграмм рассеяния переключается на сгруппированный вид — по одной диаграмме на пару переменных, но точки и кривые подгонки окрашены по группам. У общего критерия равенства структуры в одной выборке нет осмысленной визуализации сравнения — его честное представление даёт коррелограмма.

  • Точки и кривая подгонки рисуются отдельно для каждой группы; внутри каждой серии применяется тот же выбор кривой, что и в одногрупповом режиме (МНК-линия / ядерный сглаживатель / медианный пунктир / без кривой).
  • Цвета берутся из общеприменимой палитры Tableau-10 в том же порядке, в каком группы выводятся в таблице сравнения.
  • r по каждой группе выводится в легенде в правом верхнем углу; цвет каждой записи совпадает с цветом её серии — поэтому легенда заодно выступает цветовым ключом.
  • Доверительные полосы в сгруппированном режиме не рисуются — перекрытие K полос визуально нечитаемо. Для формальной статистики Δr и её ДИ используйте таблицу сравнения.
  • Остаткование для частных Пирсона/Спирмена выполняется внутри каждой группы, поэтому каждая групповая диаграмма остатков отражает её собственное условное отношение (а не общее остаткование, которое размыло бы различия между группами).
  • Сетевой граф, силовой граф и коррелограмма в сгруппированном режиме тестов различий не выводятся — это по своей сути одноматричные представления, у которых нет осмысленного отображения по группам.

Совмещённые диаграммы рассеяния (внутри строки / внутри столбца / относительно опорной ячейки)

Когда активна структура сравнения Внутри каждой строковой переменной, Внутри каждой столбцовой переменной или Относительно опорной ячейки, карточка диаграмм рассеяния переключается на совмещённый вид — по одной диаграмме на каждую общую якорную переменную, а сравниваемые переменные накладываются разноцветными сериями на общей оси X.

  • Ось X — якорная переменная (строковая в внутри строки, столбцовая в внутри столбца, общая переменная в относительно опорной ячейки, когда опорная и сравниваемая делят одну). Каждая сравниваемая переменная даёт свою цветную серию со своей кривой подгонки и своим r в легенде.
  • Структура с опорной ячейкой накладывает только те пары, которые делят переменную с опорной ячейкой. Неперекрывающиеся сравниваемые пары (без общей переменной) не имеют честного представления на общей оси и в карточку не выводятся; их Δr всё равно проверяется критерием Стайгера и отображается в таблице сравнения.
  • Остаткование для частных Пирсона/Спирмена выполняется один раз по всей выборке (группового измерения нет), и каждая сравниваемая серия остаткуется по тем же ковариатам.
  • Тот же выбор кривой, что и в одногрупповом режиме, применяется к каждой серии (МНК-линия / ядерный сглаживатель / медианный пунктир / без кривой) — поэтому видимое соответствует коэффициенту, который проверяет критерий сравнения.

Контрольный список для отчёта

Что важно включить при описании результатов корреляционного анализа:

Метод:

  • Использованный метод корреляции (Пирсон, Спирмен и т. д.) и обоснование выбора
  • Для частных / получастных анализов: контролируемые ковариаты, а также режим (частная или получастная, и в последнем случае — для какой стороны)
  • Для тестов различий: семейство сравнения (попарные или совместные) и структура (внутри строки / внутри столбца / относительно опорной ячейки / между группами / равенство структуры / равенство между группами), использованный тест (T2 Уильямса, Z Стейгера, z Фишера, χ² Дженнриха или перцентильный бутстрэп с числом повторов B) и — для между группами / равенство между группами — группирующая переменная
  • Способ обработки пропущенных данных (попарное или полное исключение)
  • Метод поправки на множественную проверку (если применялся)
  • Метод вычисления ДИ (аналитический / бутстрэп) и уровень доверия, если интервалы приводятся
  • Для теста пренебрежимости: что использовался TOST, граница Δ и что Δ была выбрана заранее
  • Объём выборки

Результаты:

  • Коэффициент корреляции с его символом (r, ρ, τ и т. д.)
  • Доверительный интервал (если вычислялся)
  • Для частных анализов — рядом с ним коэффициент нулевого порядка, чтобы читатель видел эффект контроля
  • P-значение (точное или в виде неравенства)
  • Для теста пренебрежимости: p-значение эквивалентности p (Δ) (сырое и скорректированное, если показаны оба) и использованная граница Δ
  • Объём выборки по каждой паре (при попарном исключении, если N различается)
  • Интерпретация величины эффекта (при необходимости)
  • При матричном выводе — указать, приводится ли полная матрица или отдельные пары
  • Для тестов различий: оба r (или, для общего критерия, только сам тест), Δr, статистику теста со степенями свободы и p-значение — скорректированное и сырое, если оба отображаются

Воспроизводимость

Каждый анализ выводит соответствующий R-код в консоль R — его можно просматривать, копировать и повторно запускать. Корреляционный анализ использует базовый R (cor.test) для классических методов, а также polycor (полихорическая, полисериальная и тетрахорическая), infotheo (взаимная информация и энтропия с поправкой Миллера–Мэдоу), aricode (скорректированная взаимная информация), energy (дистанционная корреляция), Hmisc (D Хёффдинга), XICOR (ξ Чаттерджи с p-значением, учитывающим связи) и ppcor (частная и получастная корреляция для Пирсона, Спирмена и Кендалла). β Бломквиста, корреляционное отношение η², знаковый коэффициент φ и γ Гудмана–Краскала / D Сомерса (с ASE на основе таблицы сопряжённости) реализованы непосредственно в базовом R, как и все тесты сравнения корреляций (z Фишера, T2 Уильямса, Z Стейгера, χ² Дженнриха, χ² Вальда на ковариации Олкина–Сиотани, χ² равенства структуры по Стейгеру и запасное комбинирование по Коши). P-значения границы пренебрежимости (TOST) также вычисляются непосредственно в базовом R через преобразование Фишера z. Ссылки на пакеты, которые действительно использовались в анализе, автоматически появляются в начале раздела результатов.

Типичные ошибки

Корреляция — не причинность. Сильная корреляция между продажами мороженого и частотой утоплений не означает, что мороженое вызывает гибель людей — оба показателя растут летом. Корреляция измеряет связь, а не причинно-следственное направление. Установить причинность можно только с помощью правильного экспериментального дизайна.

r Пирсона фиксирует только линейные связи. Две переменные могут иметь выраженную криволинейную зависимость и при этом давать r ≈ 0. ρ Спирмена и τ Кендалла помогут, только если зависимость монотонна (стабильно возрастает или убывает, пусть и нелинейно — например, экспоненциальный рост). U-образные и перевёрнуто-U-образные зависимости меняют направление, и ни один из этих методов не справится с ними — все три дадут коэффициент, близкий к нулю. При подозрении на нелинейную зависимость сначала визуализируйте данные — изучите графики распределения или диаграмму рассеяния — и только потом выбирайте метод корреляции.

Большие матрицы требуют осторожности, а не отказа от них. Матрица 30×30 переменных порождает 435 проверок — без поправки часть из них окажется значимой по случайности. При работе с полной матрицей всегда применяйте поправку на множественную проверку. Важнее другое: был ли анализ гипотетически обоснованным или разведочным. Если пары отбирались после просмотра результатов — это разведочный анализ, независимо от размера матрицы, и его следует представлять именно так. Если все пары были теоретически обоснованы заранее и применялась поправка, большая матрица вполне допустима для подтверждающего анализа.

Выбросы могут доминировать в r Пирсона. Одна экстремальная точка способна существенно раздуть или занизить корреляцию Пирсона. При наличии выбросов гораздо устойчивее ρ Спирмена (работает с рангами) или β Бломквиста (использует только медианы). Всегда визуализируйте данные, прежде чем доверять одному числу.

Беззнаковые меры несопоставимы со знаковыми. r Пирсона, равное 0.5, и NMI, равное 0.5, означают совершенно разные вещи. 0.5 у Пирсона — умеренная линейная связь; 0.5 у NMI — что половина совокупной энтропии переменных является общей, то есть утверждение намного более сильное. Не воспринимайте эти шкалы как взаимозаменяемые при сравнении разных методов и не ждите, что знаковый и беззнаковый методы дадут похожие числа на одной и той же паре.

Для асимметричных мер нужны оба направления. Когда вы используете D Сомерса, U Тейла или ξ Чаттерджи, значение «A → B», как правило, не совпадает со значением «B → A». Оба треугольника матрицы заполнены и оба содержательны. Если в отчёте вы приводите единственное число для асимметричной меры, всегда указывайте направление — «U(Y | X) = 0.42», а не просто «U = 0.42».

Корреляция двух упорядоченных по времени рядов завышает r ложно. Два ряда с трендом или сезонностью могут показать почти идеальную корреляцию Пирсона просто потому, что они разделяют общий тренд или цикл, а не потому, что связаны в каждый отдельный момент. Хрестоматийный пример — «потребление сыра на душу населения в США vs смертность от запутывания в постельном белье». Сначала удалите тренд и сезонность — модуль Анализ временных рядов в режиме разведки выводит компоненты декомпозиции, которые можно коррелировать вместо исходных рядов, — либо вычисляйте кросс-корреляцию дифференцированных рядов.