На этой странице

Анализ распределения

Модуль Анализ распределения помогает понять форму и разброс данных. Он состоит из трёх разделов: таблицы частот, критерии нормальности и графики распределения.

Таблицы частот

Таблицы частот показывают, как часто каждое значение (или диапазон значений) встречается в переменной.

  1. Выберите переменные
  2. Настройте параметры отображения и сортировки
  3. Нажмите Рассчитать таблицы частот

Для каждой переменной строится отдельная таблица.

Параметры отображения

  • Количество — абсолютная частота для каждого значения (включено по умолчанию)
  • Процент — доля от всех строк, включая пропущенные значения (включено по умолчанию)
  • Валидный процент — доля, рассчитанная только по непропущенным значениям
  • Итоговая строка — добавляет строку с суммарными показателями в конце таблицы
  • Накопленное количество — нарастающий итог по частотам
  • Накопленный процент — нарастающий итог по процентам

Процент и валидный процент: если 10 из 100 строк содержат пропущенные значения, а некоторое значение встречается 30 раз, его процент равен 30% (от 100), а валидный процент — 33.3% (от 90). Валидный процент удобнее, когда пропущенные данные нужно исключить из расчёта.

Сортировка

  • По количеству (по убыванию) — по умолчанию
  • По количеству (по возрастанию)
  • По значению (А–Я)
  • По значению (Я–А)

Группировка числовых значений в диапазоны

Числовые переменные с большим числом уникальных значений могут давать громоздкие таблицы. Включите параметр Группировать числовые значения в диапазоны, чтобы объединить значения в интервалы:

  • Максимальное число категорий (по умолчанию 20) — если количество уникальных значений ниже этого порога, они выводятся по отдельности; иначе — группируются
  • Число интервалов (по умолчанию 10) — сколько равноширинных интервалов создать

Когда использовать группировку: переменная «Возраст» с целыми значениями от 18 до 65 нормально читается без группировки (48 строк). Переменная «Время реакции» с сотнями десятичных значений без группировки нечитаема.

Пропущенные значения

Пропущенные значения выделяются в отдельную строку с пометкой «(Пропущено)» в нижней части таблицы — они всегда видны, но не смешиваются с реальными данными.

Критерии нормальности

Критерии нормальности проверяют, следуют ли значения переменной нормальному (колоколообразному) распределению. Это важно, поскольку многие статистические методы (t-критерий, дисперсионный анализ, корреляция Пирсона) предполагают нормальность данных.

Что означает результат критерия: нулевая гипотеза — «данные распределены нормально». Значимое p-значение (как правило, p < 0.05) означает, что данные существенно отклоняются от нормальности. Незначимый результат не доказывает нормальность — он лишь говорит о том, что оснований отвергнуть нулевую гипотезу недостаточно.

  1. Выберите одну или несколько числовых переменных
  2. Отметьте критерии для запуска
  3. Нажмите Запустить критерии нормальности

Доступные критерии

Критерий Статистика Лучше всего подходит для
Шапиро–Уилка (по умолчанию) W Универсальный, широко рекомендуемый. Хорошо работает при небольших и умеренных выборках (n < 5000).
Андерсона–Дарлинга Чувствителен к отклонениям в хвостах. Хорошее дополнение к критерию Шапиро–Уилка.
Лиллиефорса D* Модифицированная версия критерия Колмогорова–Смирнова для случая, когда параметры генеральной совокупности неизвестны (что почти всегда так).
Колмогорова–Смирнова D Классический критерий, но менее мощный по сравнению с альтернативами. Включён преимущественно для совместимости с устоявшейся практикой.
Д’Агостино–Пирсона Совместно проверяет асимметрию и эксцесс. Требует n ≥ 20.
Харке–Бера JB Аналогичен критерию Д’Агостино–Пирсона — проверяет асимметрию и эксцесс. Распространён в экономических исследованиях.
Крамера–фон Мизеса Альтернатива критерию Андерсона–Дарлинга с несколько иной чувствительностью.

Какой критерий выбрать? Шапиро–Уилка — лучший вариант по умолчанию: он обладает наибольшей статистической мощностью в большинстве ситуаций. Для дополнительной проверки добавьте критерий Андерсона–Дарлинга. При очень большой выборке (n > 5000) рассмотрите критерии Д’Агостино–Пирсона или Харке–Бера: при больших n критерий Шапиро–Уилка может стать излишне чувствительным, или вовсе не вычисляться.

Излишняя чувствительность? При очень больших выборках критерии нормальности будут выявлять даже незначительные отклонения, не имеющие практического значения для анализа. В таких случаях графики распределения (особенно Q-Q графики) дают более наглядное представление о том, существенно ли отклонение на самом деле.

Результаты

Одна таблица со строкой для каждой переменной. Для каждого выбранного критерия отображаются два столбца: значение статистики и p-значение. Форматирование значимости определяется настройками.

Если переменная имеет менее 5 допустимых наблюдений, в результатах выводится сообщение «Недостаточно данных (n < 5)».

Графики распределения

Визуальный анализ нередко информативнее любого отдельного критерия. Графики распределения позволяют напрямую увидеть форму данных.

  1. Выберите одну или несколько числовых переменных
  2. Отметьте типы графиков для построения
  3. Настройте параметры для каждого графика
  4. Нажмите Построить графики распределения

Для каждой переменной создаётся отдельная карточка вывода, на которой все выбранные графики расположены вертикально.

Гистограмма

Отображает распределение в виде столбцов, каждый из которых соответствует диапазону значений (интервалу), а его высота показывает количество наблюдений в этом диапазоне.

Параметры:

  • Кривая плотности (включена по умолчанию) — накладывает сглаженную кривую (красную), оценивающую форму распределения
  • Кривая нормального распределения — накладывает теоретическое нормальное распределение (зелёная пунктирная) для сравнения
  • Метод расчёта интервалов — Авто (рекомендуется), Стёрджес, Скотт или Фридмана–Диакониса

Как читать гистограмму: обратите внимание на общую форму. Похожа ли она на колокол (нормальное распределение)? Скошена в одну сторону? Имеет несколько пиков (бимодальное)? Когда обе кривые видны одновременно, их сравнение показывает, насколько реальные данные отклоняются от нормальности.

При наведении на любой столбец отображается количество наблюдений и диапазон значений. Для дискретных целочисленных данных с небольшим числом уникальных значений интервалы автоматически выравниваются по отдельным целым числам.

Ящик с усами (коробчатый график)

Компактное описание распределения переменной: пять ключевых значений и выбросы.

Параметры:

  • Показывать выбросы (включено по умолчанию) — отображаются в виде ромбов
  • Показывать среднее (включено по умолчанию) — отображается в виде полого круга
  • Надрез медианы — добавляет надрез вокруг медианы. Если надрезы двух ящиков не перекрываются, их медианы, вероятно, значимо различаются
  • Точки данных — отображает отдельные наблюдения рядом с ящиком, давая полную картину вместо сводных показателей

Как читать ящик с усами: ящик охватывает межквартильный размах (от К1 до К3) — средние 50% данных. Жирная линия внутри ящика — медиана. Усы простираются до крайних ненаходящихся вне выброса значений (в пределах 1.5 × МКР от краёв ящика). Точки за пределами усов — выбросы. Если линия медианы смещена от центра ящика, данные асимметричны.

Q-Q график

Строит квантили данных против теоретических квантилей нормального распределения. При нормальном распределении точки ложатся вдоль диагональной референсной линии.

Параметры:

  • Доверительная полоса — отображает область вокруг референсной линии. Точки внутри полосы согласуются с нормальностью; точки за её пределами — заметные отклонения.

Как читать Q-Q график: точки, прижатые к пунктирной линии, указывают на нормальность. Систематические отклонения рассказывают о характере различий: S-образная кривая свидетельствует о тяжёлых или лёгких хвостах, изгиб в одну сторону — об асимметрии, а несколько удалённых точек на концах — о выбросах. Q-Q график часто полезнее, чем критерий нормальности: он объясняет как именно данные отклоняются от нормальности, а не только отклоняются ли они.

Скрипичная диаграмма

Объединяет оценку плотности (форму «скрипки») с уменьшенным ящиком с усами внутри. Чем шире скрипка в данной точке, тем больше наблюдений сосредоточено в этом диапазоне.

Параметры:

  • Показывать внутренний ящик с усами (включено по умолчанию) — отображает медиану (белая точка), МКР (чёрный прямоугольник) и усы внутри скрипки

Когда предпочесть скрипичную диаграмму ящику с усами: ящик с усами может скрывать бимодальные распределения — два отдельных кластера будут выглядеть как один ящик с широким разбросом. Скрипичная диаграмма отчётливо показывает оба пика.

График ЭФР

Эмпирическая функция распределения показывает для каждого значения, какая доля данных меньше или равна ему. Она возрастает от 0% до 100% в виде ступенчатой функции.

Параметры:

  • Показывать референсную линию медианы (включено по умолчанию) — горизонтальная пунктирная линия на уровне 50%

Вокруг ступенчатой функции всегда отображается доверительная полоса (неравенство Дворецкого–Кифера–Вольфовица), указывающая область, в которой, вероятно, находится истинное распределение генеральной совокупности.

Как читать ЭФР: крутые участки соответствуют диапазонам, где сосредоточено много наблюдений; пологие — пробелам в данных. Точка пересечения кривой с уровнем 50% — это медиана. Доверительная полоса сужается по мере роста выборки: широкая полоса означает большую неопределённость относительно истинного распределения. ECDF особенно полезен для сравнения распределений и выявления пробелов и кластеров, которые гистограмма может скрывать в зависимости от ширины интервалов.

Изменение размера и экспорт

У каждого графика есть маркер изменения размера в правом нижнем углу. Под каждым графиком доступны три кнопки экспорта:

  • SVG — векторный формат, идеальный для публикаций и дальнейшего редактирования
  • PNG — растровый с прозрачным фоном
  • JPG — растровый с белым фоном

Все графики можно экспортировать сразу — см. чтение результатов для группового экспорта.

Контрольный список для отчёта

Что важно включить при описании результатов анализа распределения:

Метод:

  • Какие критерии нормальности использовались и почему (например, Шапиро–Уилка как универсальный, Андерсона–Дарлинга для чувствительности к хвостам)
  • Объём выборки
  • Как обрабатывались пропущенные данные

Результаты:

  • Значение статистики и p-значение для каждого критерия нормальности
  • Краткое описание формы распределения (симметричное, асимметричное, бимодальное и т. д.), желательно подкреплённое графиком
  • Вывод о том, выполняется ли предположение о нормальности для планируемого анализа (t-критерий, дисперсионный анализ и т. д.)

Воспроизводимость

Критерии нормальности выводят соответствующий R-код в консоль R — его можно просматривать, копировать и повторно запускать. Модуль использует базовый R (shapiro.test, ks.test) и пакеты nortest (Андерсона–Дарлинга, Лиллиефорса, Крамера–фон Мизеса), moments (Харке–Бера) и Rita (Д’Агостино–Пирсона) в зависимости от выбранных критериев. Ссылки на использованные пакеты R автоматически появляются в начале раздела вывода. Таблицы частот и графики распределения вычисляются на JavaScript и не генерируют R-код.

Типичные ошибки

Опираться на единственный критерий нормальности. Ни один критерий не является лучшим во всех ситуациях. Критерий Шапиро–Уилка обладает высокой мощностью для общих отклонений, но критерий Андерсона–Дарлинга чувствительнее к поведению хвостов. Если решение принципиально — запустите оба критерия и изучите Q-Q график: визуальная картина зачастую говорит больше, чем p-значение.

Переинтерпретировать результаты критериев нормальности при большой выборке. При тысячах наблюдений критерии нормальности будут отвергать нулевую гипотезу из-за микроскопических, практически незначимых отклонений. Q-Q график, точки которого прижаты к референсной линии с лишь небольшим отклонением на хвостах, обычно вполне допустим для параметрических методов — одно лишь p-значение не говорит о том, имеет ли отклонение практическое значение.

Небрежно выбирать ширину интервалов гистограммы. Метод «Авто» хорошо работает в большинстве случаев, но слишком мало интервалов скрывает структуру (бимодальное распределение выглядит унимодальным), а слишком много — создаёт шумные пики. Если форма кажется подозрительной, попробуйте другой метод расчёта интервалов или проверьте по скрипичной диаграмме.

Игнорировать форму распределения перед выбором метода анализа. Запускать t-критерий или корреляцию Пирсона, не проверив нормальность — распространённый путь наименьшего сопротивления. Несколько секунд, потраченных на Q-Q график или критерий Шапиро–Уилка, могут уберечь от ошибочных выводов — или, напротив, подтвердить, что параметрические методы применимы.