На этой странице
- Настройка
- Выбор метода
- Знаковые корреляции (−1…+1)
- Беззнаковые меры зависимости (0…1)
- Особые
- За пределами классических корреляций
- Направленные (асимметричные) методы
- Логика выбора в режиме Смешанный/Авто
- Параметры отображения
- Формат таблицы
- Отображение p-значений (только для матрицы)
- Скрывать избыточные значения
- Добавить исходную MI / Добавить энтропии
- Включить визуализации
- Чтение результатов
- Формат матрицы
- Длинный формат
- Интерпретация
- Поправка на множественную проверку
- Пропущенные данные
- Визуализации
- Сетевой граф
- Силовой граф
- Коррелограмма
- Диаграммы рассеяния
- Контрольный список для отчёта
- Воспроизводимость
- Типичные ошибки
Корреляционный анализ
Модуль Корреляционный анализ измеряет силу — и, где это применимо, направление — связей между парами переменных. Можно коррелировать все переменные сразу или выбирать отдельные подмножества, использовать обширную библиотеку методов оценки связи (классические корреляции, ранговые, информационные и меры функциональной зависимости) или доверить выбор приложению, а результаты просматривать в виде матрицы, длинной таблицы или сетевой визуализации.
Что такое коэффициент корреляции? Число, описывающее, как две переменные изменяются совместно. Классические корреляции (r Пирсона, ρ Спирмена, τ Кендалла и другие) принимают значения от −1 до +1: +1 означает идеальное совпадение движений, −1 — идеально противоположное движение, 0 — отсутствие закономерности. На практике идеальных значений почти не бывает: корреляция около 0.6 (например, рост и вес) говорит о выраженной положительной связи, а 0.1 — о том, что переменные практически не связаны.
Знаковые vs. беззнаковые меры. Некоторые методы в этом модуле беззнаковые — они принимают значения от 0 до 1 и описывают только силу связи, но не её направление. В эту группу попадают V Крамера, информационное семейство (NMI, AMI, когерентность, U Тейла), η², D Хёффдинга, ξ Чаттерджи и дистанционная корреляция. Это не ограничение, а особенность: знак имеет смысл лишь тогда, когда обе переменные упорядочены, а многие реальные связи (категориальные данные, немонотонные формы) вообще не имеют естественного «плюса» или «минуса».
- Выберите переменные (или оставьте оба списка пустыми, чтобы скоррелировать все доступные переменные)
- Выберите метод корреляции
- Настройте параметры отображения
- Нажмите Рассчитать корреляции
Настройка
Два списка переменных расположены рядом:
- Левые переменные — отображаются в виде строк матрицы результатов
- Правые переменные — отображаются в виде столбцов матрицы результатов
Оба списка необязательны. Оставьте их пустыми, чтобы скоррелировать все переменные между собой. Если заполнен только один список, второй по умолчанию включает все подходящие переменные. Переменные выбираются нажатием или перетаскиванием.
При смене метода корреляции списки автоматически фильтруются, показывая только совместимые типы переменных. Если подходящих переменных нет, появляется предупреждение.
Выбор метода
Знаковые корреляции (−1…+1)
| Метод | Символ | Типы переменных | Измеряет |
|---|---|---|---|
| r Пирсона (по умолчанию) | r | Непрерывная + непрерывная | Линейную связь |
| ρ Спирмена | ρ | Непрерывная или порядковая | Монотонную связь (ранговый метод) |
| τ Кендалла | τ | Непрерывная или порядковая | Порядковую связь (конкордантные/дискордантные пары) |
| β Бломквиста | β | Непрерывная + непрерывная | Медианную квадрантную связь, устойчивую к выбросам |
| Полихорическая | ρpoly | Порядковая + порядковая | Связь между скрытыми непрерывными распределениями |
| Полисериальная | ρps | Непрерывная + порядковая | Предполагает скрытую непрерывную переменную, лежащую в основе порядковой |
| D Сомерса | D | Непрерывная или порядковая | Асимметричную порядковую связь с учётом совпадений рангов |
| Гамма Гудмана–Краскала | γ | Непрерывная или порядковая | Порядковую связь без учёта совпадений рангов |
| Точечно-бисериальная | rpb | Непрерывная + бинарная | Эквивалент r Пирсона для дихотомической переменной |
| Бисериальная | rb | Непрерывная + бинарная | Предполагает, что бинарная переменная — дихотомизированная непрерывная |
| Коэффициент фи | φ | Бинарная + бинарная | Основан на критерии хи-квадрат для таблицы 2×2 |
Беззнаковые меры зависимости (0…1)
| Метод | Символ | Типы переменных | Измеряет |
|---|---|---|---|
| V Крамера | V | Категориальная + категориальная | Основан на хи-квадрат, работает с любым числом категорий |
| Корреляционное отношение (η²) | η² | Категориальная + непрерывная | Долю дисперсии одной переменной, объяснённую группировкой по другой |
| Нормализованная взаимная информация | NMI | Любая + любая | Общую энтропию как долю совокупной энтропии (симметричная неопределённость) |
| Скорректированная взаимная информация | AMI | Любая + любая | NMI с поправкой на случайное совпадение |
| Когерентность Райского | CR | Любая + любая | MI как долю совместной энтропии |
| U Тейла | U | Любая + любая | Асимметричную — долю неопределённости одной переменной, объяснённую другой |
| D Хёффдинга | DH | Непрерывная + непрерывная | Непараметрический критерий против любой альтернативы зависимости |
| ξ Чаттерджи | ξ | Непрерывная + непрерывная | Асимметричную — выявляет любую функциональную зависимость, включая немонотонную |
| Дистанционная корреляция | dCor | Непрерывная + непрерывная | Основана на энергетических расстояниях; ноль тогда и только тогда, когда переменные независимы |
Особые
| Метод | Символ | Типы переменных | Измеряет |
|---|---|---|---|
| Смешанный/Авто | разный | Все | Автоматически выбирает лучший метод для каждой пары |
Какой метод выбрать? Начните с r Пирсона для непрерывных данных — он наиболее распространён и прост в интерпретации. Если данные порядковые (например, шкалы Лайкерта) или есть опасения по поводу выбросов, используйте ρ Спирмена или β Бломквиста. При подозрении на немонотонную (криволинейную, циклическую) связь попробуйте ξ Чаттерджи или дистанционную корреляцию. При смешанных типах переменных, когда не хочется выбирать вручную, Смешанный/Авто справится со всем.
Пирсон vs. Спирмен vs. Кендалл: r Пирсона измеряет линейные связи — он может не уловить выраженную криволинейную зависимость. ρ Спирмена и τ Кендалла работают с рангами и поэтому фиксируют любую монотонную связь (стабильно возрастающую или убывающую). Кендалл устойчивее на малых выборках и имеет более интуитивную интерпретацию, но Спирмен шире используется и немного мощнее на больших выборках.
За пределами классических корреляций
Некоторые методы из таблиц выше не встречаются во вводных курсах статистики, но закрывают реальные пробелы, оставленные Пирсоном, Спирменом и компанией. Их можно сгруппировать в три семейства.
Робастные и дисперсионные.
- β Бломквиста — также называется медианной корреляцией. Подсчитывает, насколько часто обе переменные оказываются по одну сторону от своих медиан, и нормирует результат на интервал
[-1, +1]. Поскольку используется только знак значения относительно медианы (а не его величина), метод очень устойчив к выбросам. Полезен как проверка в случаях, когда r Пирсона подозрительно сильно определяется несколькими экстремальными точками. - Корреляционное отношение (η²) — доля дисперсии непрерывной переменной, объяснённая группировкой по категориальной. Математически совпадает с
R²однофакторного ANOVA. Применяется, когда одна сторона пары действительно категориальная (не упорядоченная), а другая — непрерывная, то есть в ситуации, где Пирсон попросту неприменим.
Информационные. Все четыре меры ограничены интервалом [0, 1] и имеют общий первый шаг: непрерывные переменные дискретизируются по бинам, вычисляется взаимная информация (MI) — число битов, которое знание одной переменной сообщает о другой, — а затем нормируется разными способами.
- Нормализованная взаимная информация (NMI) — MI, делённая на среднее маргинальных энтропий. Часто называется симметричной неопределённостью. Самый надёжный вариант ответа на вопрос «насколько эти две переменные связаны между собой?».
- Скорректированная взаимная информация (AMI) — NMI с вычтенной случайной составляющей. Полезна, когда пары переменных сильно различаются по числу категорий, поскольку нескорректированная MI склонна завышаться при большом числе категорий.
- Когерентность Райского — MI, делённая на совместную энтропию. Строже NMI: достигает 1 только если переменные практически идентичны (с точностью до переименования).
- U Тейла — MI, делённая на энтропию одной конкретной стороны. Асимметрична: U(Y при X) ≠ U(X при Y), поэтому матрица не симметрична. Интерпретируется как «доля неопределённости Y, которую устранило бы знание X».
Детекторы общей зависимости. Классические корреляции пропускают немонотонные закономерности (U-образная форма даёт Пирсон ≈ 0). Эти три — нет.
- D Хёффдинга — классическая непараметрическая статистика: равна нулю при независимости и положительна при любой форме зависимости. Её p-значение особенно хорошо откалибровано.
- ξ Чаттерджи — предложена в 2021 году; достигает 1, когда одна переменная является точной функцией другой (даже сильно немонотонной), и равна 0 только при независимости. Асимметрична: ξ(X → Y) говорит о том, является ли Y функцией от X, а не наоборот.
- Дистанционная корреляция (dCor) — основана на энергетическом расстоянии; равна нулю тогда и только тогда, когда две переменные независимы. Обнаруживает любую зависимость, которую упускают классические корреляции, ценой того, что её сложнее интерпретировать как «силу связи».
Когда стоит обратиться к мере общей зависимости: у всех классических корреляций есть слепое пятно — они не способны отличить выраженную U-образную или циклическую закономерность от отсутствия связи. Если на диаграмме рассеяния видна структура, но и Пирсон, и Спирмен возвращают значения около нуля, ξ Чаттерджи или дистанционная корреляция её поймают. D Хёффдинга — классический выбор для проверки гипотезы «а связаны ли эти переменные хоть как-то?».
Направленные (асимметричные) методы
D Сомерса, U Тейла и ξ Чаттерджи — направленные: они отвечают на вопрос «насколько хорошо X предсказывает Y?», а не «насколько связаны X и Y?». Результирующая матрица не симметрична — значение в ячейке «строка A, столбец B», как правило, отличается от значения в ячейке «строка B, столбец A».
Принятое в модуле соглашение — строка → столбец: значение в ячейке [строка, столбец] описывает, насколько хорошо переменная-строка предсказывает (или объясняет) переменную-столбец. Под матрицей при использовании одного из этих методов выводится подпись-напоминание о направлении. Флажок Скрывать избыточные значения в таких случаях также автоматически скрывается — оба треугольника несут действительно разную информацию.
Допущения:
- r Пирсона предполагает, что обе переменные непрерывны и примерно нормально распределены, а связь между ними линейна. Нарушения (асимметрия, выбросы, криволинейные связи) могут исказить коэффициент.
- ρ Спирмена и τ Кендалла требуют лишь монотонности связи и порядкового уровня измерений. Нормальность не нужна — используйте их, когда допущения Пирсона нарушены.
- β Бломквиста предполагает непрерывные данные, но не накладывает распределённых требований, помимо существования медианы — устойчива к выбросам и тяжёлым хвостам.
- Полихорическая и полисериальная предполагают, что за порядковыми переменными скрывается непрерывное нормальное распределение. Для шкал Лайкерта с 4+ категориями это допущение, как правило, выполнимо.
- Точечно-бисериальная и бисериальная предполагают, что непрерывная переменная нормально распределена внутри каждой группы бинарной переменной. Бисериальная дополнительно предполагает, что бинарное деление искусственно (то есть непрерывный континуум был дихотомизирован).
- Фи, V Крамера и семейство взаимной информации опираются на аппарат таблиц сопряжённости — ожидаемые частоты в ячейках в идеале должны быть не менее 5. Непрерывные переменные автоматически разбиваются на бины равной частоты; при очень малых выборках бины могут оказаться слишком разреженными, чтобы доверять результату.
- η² (корреляционное отношение) опирается на аппарат однофакторного ANOVA — примерно равные дисперсии по группам и приблизительно нормальные распределения внутри групп помогают F-оценке p-значения, но не влияют на саму статистику η².
- D Хёффдинга, ξ Чаттерджи и дистанционная корреляция непараметрические и по сути не накладывают распределённых допущений, кроме независимости наблюдений.
- Все методы предполагают независимость наблюдений — каждая строка должна соответствовать отдельному испытуемому, а не повторным измерениям у одного и того же.
Логика выбора в режиме Смешанный/Авто
При выборе Смешанный/Авто метод для каждой пары определяется по типам переменных:
| Левая переменная | Правая переменная | Используемый метод |
|---|---|---|
| Непрерывная | Непрерывная | r Пирсона |
| Порядковая | Порядковая | Полихорическая |
| Непрерывная | Порядковая | Полисериальная |
| Бинарная | Бинарная | Коэффициент фи |
| Непрерывная | Бинарная | Точечно-бисериальная |
| Порядковая | Бинарная | Полихорическая (бинарная трактуется как порядковая) |
| Категориальная | Категориальная | V Крамера |
| Бинарная | Категориальная | V Крамера |
| Непрерывная | Категориальная | Корреляционное отношение (η²) |
| Порядковая | Категориальная | Нормализованная взаимная информация |
Асимметричные методы (D Сомерса, U Тейла, ξ Чаттерджи) никогда не выбираются в режиме Смешанный/Авто — для них требуется явное намерение пользователя, поскольку добавление направленной меры в симметричную в целом матрицу нарушило бы визуальный контракт.
Параметры отображения
Формат таблицы
- Матрица (по умолчанию) — матрица корреляций с переменными по обеим осям
- Длинный формат — плоская таблица с одной строкой на пару переменных
Отображение p-значений (только для матрицы)
- Совместно с коэффициентом (по умолчанию) — в каждой ячейке коэффициент со звёздочками значимости и p-значение под ним
- Отдельная таблица p-значений — матрица показывает только коэффициенты, отдельные матрицы p-значений выводятся ниже
Скрывать избыточные значения
Включено по умолчанию. Если матрица симметрична (одни и те же переменные по обеим осям), отображается только нижний треугольник. Снимите флажок, чтобы увидеть полную матрицу. Флажок автоматически скрывается, когда выбран асимметричный метод (D Сомерса, U Тейла, ξ Чаттерджи) — в таких случаях оба треугольника несут действительно разные значения, и ни один из них не является избыточным.
Добавить исходную MI / Добавить энтропии
Под информационными методами (NMI, AMI, когерентность, U Тейла), когда выбран один из них, появляются два флажка:
- Добавить исходную MI — добавляет к каждой ячейке или строке длинного формата исходное значение взаимной информации (в натах, с поправкой Миллера–Мэдоу). Полезно для отчётности и для сверки с другими инструментами, поскольку нормированная статистика сама по себе скрывает абсолютный объём разделяемой информации.
- Добавить энтропии — добавляет H(строки) и H(столбца), маргинальные энтропии каждой переменной. Позволяет легко увидеть, обусловлена ли низкая NMI действительной независимостью или же низкой энтропией переменной, которой попросту нечем делиться.
Оба флажка по умолчанию выключены, чтобы не загромождать базовое представление.
Включить визуализации
Доступны четыре типа визуализации в виде флажков: сетевой граф, силовой граф, коррелограмма и диаграммы рассеяния. Каждый формирует отдельную карточку результатов. Все отфильтровывают статистически незначимые корреляции, где применимо.
Чтение результатов
Формат матрицы
Каждая ячейка показывает:
- Коэффициент корреляции с символом метода (r, ρ, τ, β, φ, V, D, γ, η², NMI, AMI, CR, U, DH, ξ, dCor)
- Звёздочки значимости согласно настройкам форматирования
- P-значение (в формате согласно настройкам p-значений)
- Скорректированное p-значение, если в настройках включена поправка на множественную проверку в режиме дополнения
- Исходная MI и/или энтропии, если включены флажки Добавить исходную MI / Добавить энтропии (только для информационных методов)
- Диагональные ячейки отображают прочерк (корреляция переменной с самой собой всегда равна 1)
- Ячейки с ошибкой выделяются красным
Для асимметричных методов (D Сомерса, U Тейла, ξ Чаттерджи) над матрицей появляется небольшая подпись Направление: строка → столбец. Значение каждой ячейки описывает, насколько хорошо переменная-строка предсказывает переменную-столбец — поэтому верхний и нижний треугольники содержат разные числа.
Длинный формат
Столбцы таблицы:
- Переменная 1 и Переменная 2 — для асимметричных методов строка читается как «Переменная 1 → Переменная 2» (Переменная 1 — предиктор), и оба порядка каждой пары появляются отдельными строками
- Метод — только для режима Смешанный/Авто; показывает символ метода для данной пары, полное название — во всплывающей подсказке
- Коэффициент — значение корреляции со звёздочками значимости
- P-значение — и скорректированное p-значение, если включено в режиме дополнения
- MI, H(перем₁), H(перем₂) — добавляются, когда для информационных методов включены флажки Добавить исходную MI / Добавить энтропии
- Интерпретация — если включён соответствующий параметр
Интерпретация
При включённой интерпретации каждая корреляция получает текстовое описание, объединяющее:
- Значимость — «Значимая» или «Незначимая»
- Силу — пренебрежимо малая (< 0.1), очень слабая (0.1–0.3), слабая (0.3–0.5), умеренная (0.5–0.7), сильная (0.7–0.9) или очень сильная (≥ 0.9)
- Направление — положительная или отрицательная (только для знаковых методов; у беззнаковых направление опускается)
Например: «Значимая умеренная положительная корреляция» (Пирсон) или «Значимая сильная связь» (η², NMI, ξ Чаттерджи и другие беззнаковые меры). Пороги силы настраиваются — см. настройки для параметров границ корреляций и информационных мер.
Почему «незначимая» не означает «нет связи»: незначимый результат означает, что данных недостаточно, чтобы утверждать о наличии связи в генеральной совокупности — но не то, что переменные заведомо не связаны. На малых выборках даже умеренные корреляции могут оказаться незначимыми просто из-за недостатка данных. На очень больших выборках даже ничтожные корреляции могут быть значимыми, не имея практического смысла. Всегда рассматривайте величину коэффициента корреляции наряду с p-значением.
Поправка на множественную проверку
Матрицы корреляций предполагают множество одновременных проверок: матрица из 10 переменных порождает 45 уникальных пар. Без поправки часть результатов окажется значимой лишь по случайности.
Если метод поправки не выбран, появляется предупреждение с рекомендацией его рассмотреть.
Пропущенные данные
Пропущенные значения обрабатываются согласно глобальной настройке пропущенных данных:
- Попарное исключение (по умолчанию) — каждая пара использует все наблюдения, где обе переменные имеют значения
- Полное исключение — используются только наблюдения, полные по всем выбранным переменным
- Импутация — пропущенные значения заменяются заменителями (среднее, медиана, мода или константа) до анализа
Попарное vs. полное исключение: попарное сохраняет больше данных, но может давать матрицы корреляций с внутренними несоответствиями (например, A коррелирует с B, B — с C, но корреляция A–C выглядит неожиданной, потому что использовались разные подмножества наблюдений). Полное исключение избегает этого, но может отбросить много данных при наличии пропусков сразу в нескольких переменных.
Замечание об импутации: замена пропущенных значений искусственно снижает вариативность, что, как правило, смещает корреляции к нулю. Импутация средним и медианой наиболее подвержена этому эффекту. При большом числе пропусков стоит рассмотреть, не предпочтительнее ли попарное исключение.
Визуализации
Все визуализации можно изменять в размере, перетаскивая маркер в правом нижнем углу, и экспортировать как SVG, PNG или JPG через кнопки под диаграммой. Все графики можно экспортировать сразу — см. чтение результатов для группового экспорта.
Сетевой граф
Круговая сетевая диаграмма. Переменные расположены в виде подписанных узлов по окружности, упорядоченных по схожести корреляций — сильнее связанные переменные расположены ближе друг к другу. Изогнутые рёбра соединяют пары со статистически значимыми корреляциями.
- Цвет ребра отражает направление и силу связи: синий — положительная, красный — отрицательная, серый — близкая к нулю. Цветовая легенда от −1 до +1 расположена над диаграммой.
- Толщина ребра отражает абсолютную силу корреляции
- Наведение на ребро — подсвечивает его
- Масштабирование — колесо мыши или кнопки +/−/сброс в правом верхнем углу
Силовой граф
Интерактивная сеть, где положительно коррелированные переменные притягиваются, а отрицательно — отталкиваются. Узлы имеют форму капсул с подписями внутри. Рёбра окрашены и масштабированы по силе и направлению корреляции.
- Перетащите узел, чтобы зафиксировать его в новой позиции (показывается с синей пунктирной рамкой)
- Щёлкните по зафиксированному узлу, чтобы вернуть его в симуляцию
- Масштабирование и изменение размера — аналогично сетевому графу
Сетевой граф vs. силовой: сетевой граф лучше подходит для обзора корреляционной структуры — сразу видны кластеры связанных переменных. Силовой граф лучше для интерактивного изучения конкретных связей, поскольку узлы можно перетаскивать и перестраивать расположение.
Коррелограмма
Матрица ориентированных эллипсов — по одному на каждую пару переменных. Форма и ориентация эллипса кодируют корреляцию:
- Положительные корреляции наклонены вправо (/) — отрицательные влево ()
- Эксцентриситет кодирует абсолютную силу — круг при r = 0, тонкая линия при r = ±1
- Цвет заливки соответствует цветовой шкале корреляций (от синего к красному)
- Незначимые корреляции затемнены и обведены пунктирной рамкой
- Показывается полная матрица (без диагонали)
Если включены также диаграммы рассеяния, щелчок по ячейке прокручивает страницу к соответствующей диаграмме.
Диаграммы рассеяния
По одной диаграмме на каждую пару переменных, каждая в своём подразделе. Каждая диаграмма показывает:
- Точки рассеяния для необработанных данных
- Линию OLS-регрессии с 95% доверительной полосой
- Коэффициент корреляции ® и p-значение в углу
- Диапазон осей дополнен на один интервал деления, чтобы крайние точки не обрезались
Контрольный список для отчёта
Что важно включить при описании результатов корреляционного анализа:
Метод:
- Использованный метод корреляции (Пирсон, Спирмен и т. д.) и обоснование выбора
- Способ обработки пропущенных данных (попарное или полное исключение)
- Метод поправки на множественную проверку (если применялся)
- Объём выборки
Результаты:
- Коэффициент корреляции с его символом (r, ρ, τ и т. д.)
- P-значение (точное или в виде неравенства)
- Объём выборки по каждой паре (при попарном исключении, если N различается)
- Интерпретация величины эффекта (при необходимости)
- При матричном выводе — указать, приводится ли полная матрица или отдельные пары
Воспроизводимость
Каждый анализ выводит соответствующий R-код в консоль R — его можно просматривать, копировать и повторно запускать. Корреляционный анализ использует базовый R (cor.test) для классических методов, а также polycor (полихорические и полисериальные), infotheo (взаимная информация и энтропия с поправкой Миллера–Мэдоу), aricode (скорректированная взаимная информация), energy (дистанционная корреляция) и Hmisc (D Хёффдинга). β Бломквиста, корреляционное отношение η² и ξ Чаттерджи реализованы непосредственно в базовом R. Ссылки на пакеты, которые действительно использовались в анализе, автоматически появляются в начале раздела результатов.
Типичные ошибки
Корреляция — не причинность. Сильная корреляция между продажами мороженого и частотой утоплений не означает, что мороженое вызывает гибель людей — оба показателя растут летом. Корреляция измеряет связь, а не причинно-следственное направление. Установить причинность можно только с помощью правильного экспериментального дизайна.
r Пирсона фиксирует только линейные связи. Две переменные могут иметь выраженную криволинейную зависимость и при этом давать r ≈ 0. ρ Спирмена и τ Кендалла помогут, только если зависимость монотонна (стабильно возрастает или убывает, пусть и нелинейно — например, экспоненциальный рост). U-образные и перевёрнуто-U-образные зависимости меняют направление, и ни один из этих методов не справится с ними — все три дадут коэффициент, близкий к нулю. При подозрении на нелинейную зависимость сначала визуализируйте данные — изучите графики распределения или диаграмму рассеяния — и только потом выбирайте метод корреляции.
Большие матрицы требуют осторожности, а не отказа от них. Матрица 30×30 переменных порождает 435 проверок — без поправки часть из них окажется значимой по случайности. При работе с полной матрицей всегда применяйте поправку на множественную проверку. Важнее другое: был ли анализ гипотетически обоснованным или разведочным. Если пары отбирались после просмотра результатов — это разведочный анализ, независимо от размера матрицы, и его следует представлять именно так. Если все пары были теоретически обоснованы заранее и применялась поправка, большая матрица вполне допустима для подтверждающего анализа.
Выбросы могут доминировать в r Пирсона. Одна экстремальная точка способна существенно раздуть или занизить корреляцию Пирсона. При наличии выбросов гораздо устойчивее ρ Спирмена (работает с рангами) или β Бломквиста (использует только медианы). Всегда визуализируйте данные, прежде чем доверять одному числу.
Беззнаковые меры несопоставимы со знаковыми. r Пирсона, равное 0.5, и NMI, равное 0.5, означают совершенно разные вещи. 0.5 у Пирсона — умеренная линейная связь; 0.5 у NMI — что половина совокупной энтропии переменных является общей, то есть утверждение намного более сильное. Не воспринимайте эти шкалы как взаимозаменяемые при сравнении разных методов и не ждите, что знаковый и беззнаковый методы дадут похожие числа на одной и той же паре.
Для асимметричных мер нужны оба направления. Когда вы используете D Сомерса, U Тейла или ξ Чаттерджи, значение «A → B», как правило, не совпадает со значением «B → A». Оба треугольника матрицы заполнены и оба содержательны. Если в отчёте вы приводите единственное число для асимметричной меры, всегда указывайте направление — «U(Y | X) = 0.42», а не просто «U = 0.42».
Корреляция двух упорядоченных по времени рядов завышает r ложно. Два ряда с трендом или сезонностью могут показать почти идеальную корреляцию Пирсона просто потому, что они разделяют общий тренд или цикл, а не потому, что связаны в каждый отдельный момент. Хрестоматийный пример — «потребление сыра на душу населения в США vs смертность от запутывания в постельном белье». Сначала удалите тренд и сезонность — модуль Анализ временных рядов в режиме разведки выводит компоненты декомпозиции, которые можно коррелировать вместо исходных рядов, — либо вычисляйте кросс-корреляцию дифференцированных рядов.