На этой странице
- Таблицы частот
- Параметры отображения
- Сортировка
- Группировка числовых значений в диапазоны
- Пропущенные значения
- Критерии нормальности
- Доступные критерии
- Результаты
- Графики распределения
- Гистограмма
- Ящик с усами (коробчатый график)
- Q-Q график
- Скрипичная диаграмма
- График ЭФР
- Изменение размера и экспорт
- Контрольный список для отчёта
- Воспроизводимость
- Типичные ошибки
Анализ распределения
Модуль Анализ распределения помогает понять форму и разброс данных. Он состоит из трёх разделов: таблицы частот, критерии нормальности и графики распределения.
Таблицы частот
Таблицы частот показывают, как часто каждое значение (или диапазон значений) встречается в переменной.
- Выберите переменные
- Настройте параметры отображения и сортировки
- Нажмите Рассчитать таблицы частот
Для каждой переменной строится отдельная таблица.
Параметры отображения
- Количество — абсолютная частота для каждого значения (включено по умолчанию)
- Процент — доля от всех строк, включая пропущенные значения (включено по умолчанию)
- Валидный процент — доля, рассчитанная только по непропущенным значениям
- Итоговая строка — добавляет строку с суммарными показателями в конце таблицы
- Накопленное количество — нарастающий итог по частотам
- Накопленный процент — нарастающий итог по процентам
Процент и валидный процент: если 10 из 100 строк содержат пропущенные значения, а некоторое значение встречается 30 раз, его процент равен 30% (от 100), а валидный процент — 33.3% (от 90). Валидный процент удобнее, когда пропущенные данные нужно исключить из расчёта.
Сортировка
- По количеству (по убыванию) — по умолчанию
- По количеству (по возрастанию)
- По значению (А–Я)
- По значению (Я–А)
Группировка числовых значений в диапазоны
Числовые переменные с большим числом уникальных значений могут давать громоздкие таблицы. Включите параметр Группировать числовые значения в диапазоны, чтобы объединить значения в интервалы:
- Максимальное число категорий (по умолчанию 20) — если количество уникальных значений ниже этого порога, они выводятся по отдельности; иначе — группируются
- Число интервалов (по умолчанию 10) — сколько равноширинных интервалов создать
Когда использовать группировку: переменная «Возраст» с целыми значениями от 18 до 65 нормально читается без группировки (48 строк). Переменная «Время реакции» с сотнями десятичных значений без группировки нечитаема.
Пропущенные значения
Пропущенные значения выделяются в отдельную строку с пометкой «(Пропущено)» в нижней части таблицы — они всегда видны, но не смешиваются с реальными данными.
Критерии нормальности
Критерии нормальности проверяют, следуют ли значения переменной нормальному (колоколообразному) распределению. Это важно, поскольку многие статистические методы (t-критерий, дисперсионный анализ, корреляция Пирсона) предполагают нормальность данных.
Что означает результат критерия: нулевая гипотеза — «данные распределены нормально». Значимое p-значение (как правило, p < 0.05) означает, что данные существенно отклоняются от нормальности. Незначимый результат не доказывает нормальность — он лишь говорит о том, что оснований отвергнуть нулевую гипотезу недостаточно.
- Выберите одну или несколько числовых переменных
- Отметьте критерии для запуска
- Нажмите Запустить критерии нормальности
Доступные критерии
| Критерий | Статистика | Лучше всего подходит для |
|---|---|---|
| Шапиро–Уилка (по умолчанию) | W | Универсальный, широко рекомендуемый. Хорошо работает при небольших и умеренных выборках (n < 5000). |
| Андерсона–Дарлинга | A² | Чувствителен к отклонениям в хвостах. Хорошее дополнение к критерию Шапиро–Уилка. |
| Лиллиефорса | D* | Модифицированная версия критерия Колмогорова–Смирнова для случая, когда параметры генеральной совокупности неизвестны (что почти всегда так). |
| Колмогорова–Смирнова | D | Классический критерий, но менее мощный по сравнению с альтернативами. Включён преимущественно для совместимости с устоявшейся практикой. |
| Д’Агостино–Пирсона | K² | Совместно проверяет асимметрию и эксцесс. Требует n ≥ 20. |
| Харке–Бера | JB | Аналогичен критерию Д’Агостино–Пирсона — проверяет асимметрию и эксцесс. Распространён в экономических исследованиях. |
| Крамера–фон Мизеса | W² | Альтернатива критерию Андерсона–Дарлинга с несколько иной чувствительностью. |
Какой критерий выбрать? Шапиро–Уилка — лучший вариант по умолчанию: он обладает наибольшей статистической мощностью в большинстве ситуаций. Для дополнительной проверки добавьте критерий Андерсона–Дарлинга. При очень большой выборке (n > 5000) рассмотрите критерии Д’Агостино–Пирсона или Харке–Бера: при больших n критерий Шапиро–Уилка может стать излишне чувствительным, или вовсе не вычисляться.
Излишняя чувствительность? При очень больших выборках критерии нормальности будут выявлять даже незначительные отклонения, не имеющие практического значения для анализа. В таких случаях графики распределения (особенно Q-Q графики) дают более наглядное представление о том, существенно ли отклонение на самом деле.
Результаты
Одна таблица со строкой для каждой переменной. Для каждого выбранного критерия отображаются два столбца: значение статистики и p-значение. Форматирование значимости определяется настройками.
Если переменная имеет менее 5 допустимых наблюдений, в результатах выводится сообщение «Недостаточно данных (n < 5)».
Графики распределения
Визуальный анализ нередко информативнее любого отдельного критерия. Графики распределения позволяют напрямую увидеть форму данных.
- Выберите одну или несколько числовых переменных
- Отметьте типы графиков для построения
- Настройте параметры для каждого графика
- Нажмите Построить графики распределения
Для каждой переменной создаётся отдельная карточка вывода, на которой все выбранные графики расположены вертикально.
Гистограмма
Отображает распределение в виде столбцов, каждый из которых соответствует диапазону значений (интервалу), а его высота показывает количество наблюдений в этом диапазоне.
Параметры:
- Кривая плотности (включена по умолчанию) — накладывает сглаженную кривую (красную), оценивающую форму распределения
- Кривая нормального распределения — накладывает теоретическое нормальное распределение (зелёная пунктирная) для сравнения
- Метод расчёта интервалов — Авто (рекомендуется), Стёрджес, Скотт или Фридмана–Диакониса
Как читать гистограмму: обратите внимание на общую форму. Похожа ли она на колокол (нормальное распределение)? Скошена в одну сторону? Имеет несколько пиков (бимодальное)? Когда обе кривые видны одновременно, их сравнение показывает, насколько реальные данные отклоняются от нормальности.
При наведении на любой столбец отображается количество наблюдений и диапазон значений. Для дискретных целочисленных данных с небольшим числом уникальных значений интервалы автоматически выравниваются по отдельным целым числам.
Ящик с усами (коробчатый график)
Компактное описание распределения переменной: пять ключевых значений и выбросы.
Параметры:
- Показывать выбросы (включено по умолчанию) — отображаются в виде ромбов
- Показывать среднее (включено по умолчанию) — отображается в виде полого круга
- Надрез медианы — добавляет надрез вокруг медианы. Если надрезы двух ящиков не перекрываются, их медианы, вероятно, значимо различаются
- Точки данных — отображает отдельные наблюдения рядом с ящиком, давая полную картину вместо сводных показателей
Как читать ящик с усами: ящик охватывает межквартильный размах (от К1 до К3) — средние 50% данных. Жирная линия внутри ящика — медиана. Усы простираются до крайних ненаходящихся вне выброса значений (в пределах 1.5 × МКР от краёв ящика). Точки за пределами усов — выбросы. Если линия медианы смещена от центра ящика, данные асимметричны.
Q-Q график
Строит квантили данных против теоретических квантилей нормального распределения. При нормальном распределении точки ложатся вдоль диагональной референсной линии.
Параметры:
- Доверительная полоса — отображает область вокруг референсной линии. Точки внутри полосы согласуются с нормальностью; точки за её пределами — заметные отклонения.
Как читать Q-Q график: точки, прижатые к пунктирной линии, указывают на нормальность. Систематические отклонения рассказывают о характере различий: S-образная кривая свидетельствует о тяжёлых или лёгких хвостах, изгиб в одну сторону — об асимметрии, а несколько удалённых точек на концах — о выбросах. Q-Q график часто полезнее, чем критерий нормальности: он объясняет как именно данные отклоняются от нормальности, а не только отклоняются ли они.
Скрипичная диаграмма
Объединяет оценку плотности (форму «скрипки») с уменьшенным ящиком с усами внутри. Чем шире скрипка в данной точке, тем больше наблюдений сосредоточено в этом диапазоне.
Параметры:
- Показывать внутренний ящик с усами (включено по умолчанию) — отображает медиану (белая точка), МКР (чёрный прямоугольник) и усы внутри скрипки
Когда предпочесть скрипичную диаграмму ящику с усами: ящик с усами может скрывать бимодальные распределения — два отдельных кластера будут выглядеть как один ящик с широким разбросом. Скрипичная диаграмма отчётливо показывает оба пика.
График ЭФР
Эмпирическая функция распределения показывает для каждого значения, какая доля данных меньше или равна ему. Она возрастает от 0% до 100% в виде ступенчатой функции.
Параметры:
- Показывать референсную линию медианы (включено по умолчанию) — горизонтальная пунктирная линия на уровне 50%
Вокруг ступенчатой функции всегда отображается доверительная полоса (неравенство Дворецкого–Кифера–Вольфовица), указывающая область, в которой, вероятно, находится истинное распределение генеральной совокупности.
Как читать ЭФР: крутые участки соответствуют диапазонам, где сосредоточено много наблюдений; пологие — пробелам в данных. Точка пересечения кривой с уровнем 50% — это медиана. Доверительная полоса сужается по мере роста выборки: широкая полоса означает большую неопределённость относительно истинного распределения. ECDF особенно полезен для сравнения распределений и выявления пробелов и кластеров, которые гистограмма может скрывать в зависимости от ширины интервалов.
Изменение размера и экспорт
У каждого графика есть маркер изменения размера в правом нижнем углу. Под каждым графиком доступны три кнопки экспорта:
- SVG — векторный формат, идеальный для публикаций и дальнейшего редактирования
- PNG — растровый с прозрачным фоном
- JPG — растровый с белым фоном
Все графики можно экспортировать сразу — см. чтение результатов для группового экспорта.
Контрольный список для отчёта
Что важно включить при описании результатов анализа распределения:
Метод:
- Какие критерии нормальности использовались и почему (например, Шапиро–Уилка как универсальный, Андерсона–Дарлинга для чувствительности к хвостам)
- Объём выборки
- Как обрабатывались пропущенные данные
Результаты:
- Значение статистики и p-значение для каждого критерия нормальности
- Краткое описание формы распределения (симметричное, асимметричное, бимодальное и т. д.), желательно подкреплённое графиком
- Вывод о том, выполняется ли предположение о нормальности для планируемого анализа (t-критерий, дисперсионный анализ и т. д.)
Воспроизводимость
Критерии нормальности выводят соответствующий R-код в консоль R — его можно просматривать, копировать и повторно запускать. Модуль использует базовый R (shapiro.test, ks.test) и пакеты nortest (Андерсона–Дарлинга, Лиллиефорса, Крамера–фон Мизеса), moments (Харке–Бера) и Rita (Д’Агостино–Пирсона) в зависимости от выбранных критериев. Ссылки на использованные пакеты R автоматически появляются в начале раздела вывода. Таблицы частот и графики распределения вычисляются на JavaScript и не генерируют R-код.
Типичные ошибки
Опираться на единственный критерий нормальности. Ни один критерий не является лучшим во всех ситуациях. Критерий Шапиро–Уилка обладает высокой мощностью для общих отклонений, но критерий Андерсона–Дарлинга чувствительнее к поведению хвостов. Если решение принципиально — запустите оба критерия и изучите Q-Q график: визуальная картина зачастую говорит больше, чем p-значение.
Переинтерпретировать результаты критериев нормальности при большой выборке. При тысячах наблюдений критерии нормальности будут отвергать нулевую гипотезу из-за микроскопических, практически незначимых отклонений. Q-Q график, точки которого прижаты к референсной линии с лишь небольшим отклонением на хвостах, обычно вполне допустим для параметрических методов — одно лишь p-значение не говорит о том, имеет ли отклонение практическое значение.
Небрежно выбирать ширину интервалов гистограммы. Метод «Авто» хорошо работает в большинстве случаев, но слишком мало интервалов скрывает структуру (бимодальное распределение выглядит унимодальным), а слишком много — создаёт шумные пики. Если форма кажется подозрительной, попробуйте другой метод расчёта интервалов или проверьте по скрипичной диаграмме.
Игнорировать форму распределения перед выбором метода анализа. Запускать t-критерий или корреляцию Пирсона, не проверив нормальность — распространённый путь наименьшего сопротивления. Несколько секунд, потраченных на Q-Q график или критерий Шапиро–Уилка, могут уберечь от ошибочных выводов — или, напротив, подтвердить, что параметрические методы применимы.