На этой странице
- Таблицы частот
- Параметры отображения
- Сортировка
- Группировка числовых значений в диапазоны
- Пропущенные значения
- Критерии нормальности
- Доступные критерии
- Результаты
- Графики распределения
- Наложение переменных на один график
- Гистограмма
- Ящик с усами (коробчатый график)
- Q-Q график
- Скрипичная диаграмма
- График ЭФР
- Изменение размера и экспорт
- Контрольный список для отчёта
- Воспроизводимость
- Типичные ошибки
Анализ распределения
Модуль Анализ распределения помогает понять форму и разброс данных. Он состоит из трёх разделов: таблицы частот, критерии нормальности и графики распределения.
Таблицы частот
Таблицы частот показывают, как часто каждое значение (или диапазон значений) встречается в переменной.
- Выберите переменные
- Настройте параметры отображения и сортировки
- Нажмите Рассчитать таблицы частот
Для каждой переменной строится отдельная таблица.
Параметры отображения
- Количество — абсолютная частота для каждого значения (включено по умолчанию)
- Процент — доля от всех строк, включая пропущенные значения (включено по умолчанию)
- Валидный процент — доля, рассчитанная только по непропущенным значениям
- Итоговая строка — добавляет строку с суммарными показателями в конце таблицы
- Накопленное количество (валидных) — нарастающий итог по непропущенным наблюдениям
- Накопленный валидный процент — нарастающий итог по валидным процентам (на последней строке достигает 100%)
Процент и валидный процент: если 10 из 100 строк содержат пропущенные значения, а некоторое значение встречается 30 раз, его процент равен 30% (от 100), а валидный процент — 33.3% (от 90). Валидный процент удобнее, когда пропущенные данные нужно исключить из расчёта. Если включены оба столбца, а в переменной нет пропусков, они совпадают, поэтому обычный столбец Процент убирается, чтобы не дублировать данные.
Почему «накопленный валидный»? И накопленное количество, и накопленный процент считаются по непропущенным наблюдениям, поэтому столбец накопленного процента всегда достигает 100% на последней строке независимо от числа пропусков. Это поведение соответствует SPSS и сохраняет осмысленность накопленных столбцов в случаях, когда столбец Процент (рассчитанный по всем строкам) не доходит до 100%.
Итоговая строка при наличии пропусков: накопленные столбцы считаются только по непропущенным наблюдениям, поэтому при наличии пропусков в итоговой строке поля Валидный процент, Накопленное количество (валидных) и Накопленный валидный процент остаются пустыми — у них нет осмысленного значения именно в этой строке. Столбцы Количество и Процент по-прежнему показывают полный объём N и 100%.
Сортировка
- Значение (по возрастанию) — по умолчанию
- Значение (по убыванию)
- Количество (по убыванию)
- Количество (по возрастанию)
Накопленные столбцы следуют за сортировкой: накопленные столбцы осмысленны только при сортировке по значению, поэтому они скрываются всякий раз, когда активна сортировка по количеству (под таблицей появляется пояснение) — отсортируйте по значению, чтобы вернуть их.
Сортировка при группировке в диапазоны: при включённой опции Группировать числовые значения в диапазоны сортировки по количеству недоступны. Сортировка диапазонной таблицы по частоте перемешала бы непрерывную шкалу диапазонов и обессмыслила бы накопленные столбцы, поэтому таблица всегда сортируется по диапазонам (по возрастанию по умолчанию; для убывания выберите Значение (по убыванию)).
Группировка числовых значений в диапазоны
Числовые переменные с большим числом уникальных значений могут давать громоздкие таблицы. Включите параметр Группировать числовые значения в диапазоны, чтобы объединить значения в интервалы:
- Максимальное число категорий (по умолчанию 20) — если количество уникальных значений ниже этого порога, они выводятся по отдельности; иначе — группируются
- Число интервалов (по умолчанию 10) — сколько интервалов создать. Пустые интервалы сохраняются в выводе, чтобы шкала диапазонов оставалась непрерывной. При режиме Равное количество на данных с большим числом совпадающих значений несколько очень частых значений могут сами заполнить целые интервалы, поэтому в таблице будет меньше интервалов, чем запрошено, а под ней появится небольшая пометка («запрошено X интервалов, но совпадающие значения схлопнули границы — отображается Y интервалов»).
- Режим группировки — Равная ширина (по умолчанию) располагает границы интервалов равномерно по диапазону значений; Равное количество (квантильные) использует выборочные квантили в качестве границ, так что в каждом интервале оказывается примерно одинаковое число наблюдений. Количество совпадает лишь приблизительно — одинаковые значения нельзя разнести по разным интервалам, поэтому при большом числе совпадений одни интервалы оказываются полнее других
Равная ширина или равное количество: интервалы равной ширины проще интерпретировать («сколько наблюдений попадает в диапазон 10–20?») и они соответствуют виду гистограммы. Интервалы равного количества полезнее для сильно асимметричных данных — в них каждый интервал содержит значимый объём наблюдений, а не теряется на фоне одного-двух доминирующих.
Когда использовать группировку: переменная «Возраст» с целыми значениями от 18 до 65 нормально читается без группировки (48 строк). Переменная «Время реакции» с сотнями десятичных значений без группировки нечитаема.
Подписи диапазонов в итоговой таблице используют ваши глобальные настройки точности чисел.
Пропущенные значения
Пропущенные значения выделяются в отдельную строку с пометкой «(Пропущено)» в нижней части таблицы — они всегда видны, но не смешиваются с реальными данными.
Критерии нормальности
Критерии нормальности проверяют, следуют ли значения переменной нормальному (колоколообразному) распределению. Это важно, поскольку многие статистические методы (t-критерий, дисперсионный анализ, корреляция Пирсона) предполагают нормальность данных.
Что означает результат критерия: нулевая гипотеза — «данные распределены нормально». Значимое p-значение (как правило, p < 0.05) — это свидетельство против нормальности. Незначимый результат — это не свидетельство в пользу нормальности: он лишь говорит о том, что данных недостаточно, чтобы отвергнуть нулевую гипотезу. Поэтому в DataSuite 2 интерпретация формулируется как «есть свидетельства против нормальности» / «нет свидетельств против нормальности», а не «нормальное» / «не нормальное».
- Выберите одну или несколько числовых переменных
- Отметьте критерии для запуска
- Нажмите Запустить критерии нормальности
Доступные критерии
| Критерий | Статистика | Минимум n | Лучше всего подходит для |
|---|---|---|---|
| Шапиро–Уилка (по умолчанию) | W | 3 (макс. 5000) | Универсальный, широко рекомендуемый. Наибольшая мощность в большинстве ситуаций. |
| Шапиро–Франсия | W’ | 5 (макс. 5000) | Упрощённый вариант критерия Шапиро–Уилка: по сути, квадрат корреляции между выборочными и теоретическими квантилями — то есть наклон линии Q-Q. Часто предпочтительнее критерия Шапиро–Уилка при n > 50. |
| Андерсона–Дарлинга | A² | 8 | Чувствителен к отклонениям в хвостах. Хорошее дополнение к критерию Шапиро–Уилка. |
| Колмогорова–Смирнова (поправка Лиллиефорса) | D | 5 | Модифицированная версия классического критерия Колмогорова–Смирнова для случая, когда среднее и стандартное отклонение оцениваются по выборке (что почти всегда так). Обычный критерий Колмогорова–Смирнова не входит в список, поскольку при оценённых параметрах он даёт завышенные p-значения. |
| Д’Агостино–Пирсона | K² | 8 | Совместно проверяет асимметрию и эксцесс. Надёжен примерно от n ≥ 20 — см. примечание о рекомендуемом объёме ниже. |
| Харке–Бера | JB | 4 | Аналогичен критерию Д’Агостино–Пирсона — проверяет асимметрию и эксцесс. Распространён в экономических исследованиях. Надёжен примерно от n ≥ 20 — см. примечание о рекомендуемом объёме ниже. |
| Крамера–фон Мизеса | W² | 8 | Альтернатива критерию Андерсона–Дарлинга с несколько иной чувствительностью. |
Какой критерий выбрать? Шапиро–Уилка — лучший вариант по умолчанию: он обладает наибольшей статистической мощностью в большинстве ситуаций. Шапиро–Франсия — достойная альтернатива при n ≥ 50, обладающая полезным свойством: высокое значение W’ напрямую соответствует «прижатости» точек к линии Q-Q. Для дополнительной проверки добавьте критерий Андерсона–Дарлинга. При очень большой выборке (n > 5000) рассмотрите критерии Д’Агостино–Пирсона или Харке–Бера: при больших n критерий Шапиро–Уилка вообще не вычисляется.
Излишняя чувствительность? При очень больших выборках критерии нормальности будут выявлять даже незначительные отклонения, не имеющие практического значения для анализа. В таких случаях графики распределения (особенно Q-Q графики) дают более наглядное представление о том, существенно ли отклонение на самом деле.
Критерии Д’Агостино–Пирсона и Харке–Бера при малом n: оба критерия опираются на асимптотическое χ²(2)-распределение асимметрии и эксцесса. Технические минимумы низкие (8 и 4 соответственно), но p-значения становятся ненадёжными примерно при n < 20. Результаты в диапазоне 4–19 наблюдений стоит трактовать как ориентировочные и при малом n предпочесть критерий Шапиро–Уилка или Андерсона–Дарлинга.
Результаты
Одна таблица со строкой для каждой переменной. Для каждого выбранного критерия отображаются два столбца: значение статистики и p-значение. Форматирование значимости определяется настройками.
Если включено отображение столбца интерпретации, в таблице появляется дополнительный столбец Интерпретация:
- Выбран один критерий — отображается «Есть свидетельства против нормальности» или «Нет свидетельств против нормальности» в зависимости от соотношения p-значения и уровня значимости.
- Выбрано несколько критериев — отображается сводка согласия, например «4/6 критериев: есть свидетельства против нормальности», с трёхуровневым цветовым вердиктом: зелёный, когда все корректно завершившиеся критерии не отвергают нормальность; красный, когда все её отвергают; жёлтый при любом смешанном результате. Критерии, не сумевшие отработать (например, из-за недостаточного n), отражаются отдельно и не учитываются в подсчёте.
Почему не голосование большинством? Все критерии нормальности проверяют одну и ту же нулевую гипотезу на одних и тех же данных, поэтому их исходы сильно коррелированы — «большинство из 7 критериев отвергло» не комбинируется статистически так, как это делает настоящий мета-анализ. Трёхуровневый вердикт честно показывает разногласия, а не маскирует их голосованием.
Если переменная не удовлетворяет минимальному n конкретного критерия, в её ячейке выводится сообщение «Недостаточно данных» с фактическим n и требуемым минимумом. Для переменных, удовлетворяющих минимуму, критерий выполняется как обычно. Постоянные переменные (все валидные значения одинаковы) сразу помечаются сообщением «Нулевая дисперсия» для каждого выбранного критерия — все поддерживаемые критерии требуют разброса, и вычислять нечего.
Графики распределения
Визуальный анализ нередко информативнее любого отдельного критерия. Графики распределения позволяют напрямую увидеть форму данных.
- Выберите одну или несколько числовых переменных
- Отметьте типы графиков для построения
- Настройте параметры для каждого графика
- Нажмите Построить графики распределения
По умолчанию для каждой переменной создаётся отдельная карточка вывода, на которой все выбранные графики расположены вертикально. На каждом графике в правом верхнем углу отображается объём выборки (в режиме наложения — по группам).
Наложение переменных на один график
Включите параметр Наложить переменные на один график, чтобы сравнивать несколько переменных рядом, а не строить отдельные карточки. В режиме наложения:
- Ящик с усами, скрипичная диаграмма, ЭФР — переменные превращаются в группы внутри одного графика, окрашенные по принадлежности.
- Q-Q график — поддерживается, если эталонное распределение — Нормальное или Логнормальное. Каждая переменная стандартизируется (среднее 0, ст. откл. 1; для логнормального — после логарифмирования), чтобы переменные с разными шкалами помещались на одной системе координат, а эталоном становится прямая y = x. Переключатель детрендирования по-прежнему работает. Для остальных эталонов наглядного способа стандартизации в режиме наложения нет, поэтому они пропускаются — отключите наложение, чтобы построить их по каждой переменной.
- Гистограмма — в режиме наложения всегда пропускается (наложение гистограмм плохо читается); чтобы её построить, отключите наложение.
Режим наложения требует не менее двух переменных. Если выбрана только одна переменная, графики строятся в обычном режиме независимо от состояния флажка.
Если выбраны только типы графиков, которые режим наложения пропускает (например, только гистограмма или только Q-Q с ненормальным эталонным распределением), карточка с результатами не создаётся и показывается предупреждение — отключите наложение или выберите совместимый тип графика.
Переменные без валидных числовых данных исключаются из наложения, а их список выводится в информационной пометке над графиками. На ящиках с усами, скрипичных графиках и Q-Q-наложении дополнительно отбрасываются переменные с менее чем 2 валидными наблюдениями (нет разброса для построения сводки) и переменные с нулевой дисперсией (константа не несёт информации о распределении). Каждый случай отображается в отдельной пометке под графиком («Исключены (n < 2): …» и «Исключены с нулевой дисперсией: …»).
Гистограмма
Отображает распределение в виде столбцов, каждый из которых соответствует диапазону значений (интервалу), а его высота показывает количество наблюдений в этом диапазоне.
Параметры:
- Кривая плотности (включена по умолчанию) — накладывает сглаженную кривую (красную), оценивающую форму распределения с помощью ядерной оценки плотности с гауссовым ядром и робастного правила Сильвермана для ширины окна (формула
0.9·σ·n^(-1/5)напрямую применима к гауссову ядру). Для плотных целочисленных данных ширина окна снизу ограничена небольшим порогом (≈¾ целого шага), чтобы кривая не вырождалась в пик у каждого целого числа - Кривая нормального распределения — накладывает теоретическое нормальное распределение (зелёная пунктирная) для сравнения
- Показать штрихи данных — добавляет короткие штрихи у каждого наблюдения вдоль нижней границы графика, открывая точные точки данных, скрытые за столбцами
- Показать асимметрию и эксцесс — добавляет аннотацию с выборочной асимметрией с поправкой на смещение (G1, подпись асимм.) и избыточным эксцессом (G2, подпись эксцесс) — оценками Фишера–Пирсона, которые используются в SPSS, SAS и функциях
SKEW/KURTExcel. Для нормального распределения обе величины ≈ 0. Требует n ≥ 4 (обе оценки определены); иначе аннотация не выводится. - Метод расчёта интервалов — Авто (рекомендуется), Стёрджес, Скотт или Фридмана–Диакониса
Как читать гистограмму: обратите внимание на общую форму. Похожа ли она на колокол (нормальное распределение)? Скошена в одну сторону? Имеет несколько пиков (бимодальное)? Когда обе кривые видны одновременно, их сравнение показывает, насколько реальные данные отклоняются от нормальности. Правая ось плотности связана с левой осью количества формулой количество = плотность × n × ширина_интервала — это не произвольные шкалы, они откалиброваны друг к другу.
При наведении на любой столбец отображается количество наблюдений и значение. Если данные целочисленные и содержат не более 50 уникальных значений, гистограмма переключается на дискретную компоновку — один столбец на значение вместо произвольных интервалов. Есть два варианта, выбираемых автоматически:
- В масштабе (плотные целые) — когда значения укладываются в достаточно узкий диапазон и пропуски не преобладают, каждому целому числу соответствует столбец единичной ширины по всему диапазону, а целые числа без наблюдений отображаются как пустые промежутки нулевой высоты. Ось X остаётся в масштабе, поэтому наложения кривых плотности и нормального распределения по-прежнему работают.
- Равномерно расставленные (разреженные или прерывистые целые) — когда значения разнесены слишком далеко (например, в основном 0–5 с далёким выбросом) или большинство ячеек оказались бы пустыми, каждому присутствующему значению соответствует столбец равной ширины, расставленный равномерно и подписанный своим значением. Ось X в этом случае уже не в масштабе, поэтому наложения кривых плотности и нормального распределения скрываются (с пометкой под графиком).
Ящик с усами (коробчатый график)
Компактное описание распределения переменной: пять ключевых значений и выбросы.
Параметры:
- Показывать выбросы (включено по умолчанию) — отображаются в виде ромбов
- Показывать среднее (включено по умолчанию) — отображается в виде полого круга
- Надрез медианы — добавляет надрез вокруг медианы, охватывающий её доверительный интервал, который вычисляется непараметрически по порядковым статистикам (интерполяция Хеттмансбергера–Шизера) на вашем глобальном уровне доверия. Надрез асимметричен при скошенных данных и не показывается для групп, слишком малых для построения интервала на этом уровне. Если надрезы двух ящиков не перекрываются, их медианы, вероятно, значимо различаются
- Точки данных — отображает отдельные наблюдения рядом с ящиком, давая полную картину вместо сводных показателей
Как читать ящик с усами: ящик охватывает межквартильный размах (от К1 до К3) — средние 50% данных. Жирная линия внутри ящика — медиана. Усы простираются до крайних ненаходящихся вне выброса значений (в пределах 1.5 × МКР от краёв ящика). Точки за пределами усов — выбросы. Если линия медианы смещена от центра ящика, данные асимметричны. Квартили вычисляются методом линейной интерполяции (тип 7), что совпадает с квартилями в остальных разделах DataSuite 2.
При наведении на ящик появляется всплывающая подсказка со всеми пятью значениями сводки (min, К1, медиана, К3, max), межквартильным размахом, средним (если включено) и списком значений выбросов (не более 8 с пометкой «+N ещё», когда их больше).
Q-Q график
Строит квантили данных против теоретических квантилей выбранного эталонного распределения. Если данные следуют эталонному распределению, точки ложатся вдоль диагональной референсной линии. Для эталонов из семейств со сдвигом и масштабом (нормальное, логнормальное после логарифмирования, Стьюдента, равномерное) линия проводится через К1 и К3 обеих осей (как в R-функции qqline) — устойчивее при отклонениях от эталона, и именно вокруг этой линии строится доверительная полоса. Для экспоненциального эталона, у которого есть только масштаб и нет сдвига, линия проходит через начало координат с наклоном, равным выборочному среднему (оценка масштаба методом моментов / максимального правдоподобия). Требует не менее 3 корректных наблюдений и наличия разброса значений в выборке; при их отсутствии вместо графика отображается соответствующее уведомление.
Параметры:
- Эталонное распределение — Нормальное (по умолчанию), Стьюдента (t), Экспоненциальное, Равномерное или Логнормальное. Q-Q график — это инструмент сравнения с произвольным распределением, а не только проверки нормальности: смена эталона позволяет проверить и другие распределительные предположения.
- Степени свободы (только для распределения Стьюдента (t)) — задаёт форму t-эталона. Оставьте поле пустым, чтобы использовать значение max(2, n − 1), либо введите число ≥ 2, чтобы переопределить его. Нижняя граница 2 обеспечивает корректную определённость обратной функции распределения и плотности Стьюдента на очень малых выборках; меньшие значения ограничиваются до 2.
- Доверительная полоса — отображает область вокруг референсной линии. Точки внутри полосы согласуются с эталоном; точки за её пределами — заметные отклонения. Полоса использует наклон и сдвиг той же референсной линии плюс поточечную стандартную ошибку порядковых статистик — SE ≈ |наклон| / f(F⁻¹(p)) · √(p(1−p)/n) — и строится только в пределах диапазона, в котором есть наблюдения (чтобы она не «раздувалась» в пустых хвостах, где плотность эталона стремится к нулю). Доступна для всех эталонных распределений: используются замкнутые формулы плотности для нормального, логнормального (в логарифмическом пространстве выборки), Стьюдента, экспоненциального и равномерного.
- Детрендированный (остатки от эталона) — вычитает референсную линию из y-координаты каждой точки, так что эталон превращается в горизонтальную линию на нуле. Мелкие отклонения становятся гораздо заметнее, чем на стандартном «диагональном» графике.
Как читать Q-Q график: точки, прижатые к линии, указывают на соответствие эталонному распределению. Систематические отклонения рассказывают о характере различий: S-образная кривая свидетельствует о тяжёлых или лёгких хвостах, изгиб в одну сторону — об асимметрии, а несколько удалённых точек на концах — о выбросах. Q-Q график часто полезнее, чем критерий нормальности: он объясняет как именно данные отклоняются от нормальности, а не только отклоняются ли они.
Зачем детрендировать? На обычном Q-Q графике точки в середине распределения визуально жмутся к линии, и мелкие колебания трудно заметить. Детрендирование «расплющивает» линию до y = 0, поэтому ось ординат превращается в «насколько далеко каждая точка от эталона» — небольшие отклонения становятся отчётливыми. Оба представления полезны: стандартное — для общей формы, детрендированное — для тонких деталей.
Какое эталонное распределение выбрать? Нормальное — для типичной проверки допущений. Распределение Стьюдента (t) — при подозрении на тяжёлые хвосты: оставьте поле Степени свободы пустым, чтобы использовать значение max(2, n − 1), либо введите конкретное df, соответствующее проверяемой модели. Экспоненциальное — для времён ожидания и других правоасимметричных положительных данных; его носитель — [0, ∞), поэтому при наличии в выборке отрицательных значений график не строится (это категориальное несоответствие эталону). Логнормальное — для мультипликативных процессов (доходы, размеры частиц); выборка внутренне логарифмируется и строится против стандартного нормального эталона, поэтому ось ординат подписана «Выборочные квантили (логарифмическая шкала)», а доверительная полоса доступна. Неположительные наблюдения автоматически отбрасываются, а под графиком появляется пометка «Исключено N неположительных значений». Равномерное — для проверки равномерного распределения по диапазону.
Скрипичная диаграмма
Объединяет оценку плотности (форму «скрипки») с уменьшенным ящиком с усами внутри. Чем шире скрипка в данной точке, тем больше наблюдений сосредоточено в этом диапазоне.
Параметры:
- Показывать внутренний ящик с усами (включено по умолчанию) — отображает медиану (белая точка), МКР (чёрный прямоугольник) и усы внутри скрипки
Когда предпочесть скрипичную диаграмму ящику с усами: ящик с усами может скрывать бимодальные распределения — два отдельных кластера будут выглядеть как один ящик с широким разбросом. Скрипичная диаграмма отчётливо показывает оба пика.
График ЭФР
Эмпирическая функция распределения показывает для каждого значения, какая доля данных меньше или равна ему. Она возрастает от 0% до 100% в виде ступенчатой функции.
Параметры:
- Показывать референсную линию медианы (включено по умолчанию) — горизонтальная пунктирная линия на уровне 50% плюс цветная вертикальная линия от медианы каждой группы
- Показать штрихи данных — короткие штрихи у каждого наблюдения вдоль нижней границы графика, в режиме наложения окрашены по группам
- Доверительная полоса — управляет затенённой полосой вокруг ступенчатой функции:
- Уилсона (поточечная) — по умолчанию. В каждой точке x значение F̂(x) рассматривается как биномиальная доля, и строится доверительный интервал Уилсона. Полоса сужается у 0 и 1, что согласуется с интуицией: на краях распределения ЭФР определена точнее.
- DKW (одновременная) — оценка Дворецкого–Кифера–Вольфовица. Постоянная по высоте полоса, покрывающая всю кривую на выбранном уровне доверия (а не каждую точку по отдельности). Шире, чем полоса Уилсона, но единственная даёт одновременное покрытие.
- Не показывать — полоса скрыта.
При наведении на любую точку графика появляется перекрестие, показывающее значение ЭФР в позиции курсора — отдельно для каждой группы в режиме наложения.
Уилсон или DKW: эти полосы отвечают на разные вопросы. Полоса Уилсона — поточечная: «с уверенностью 95% истинное F(x) в именно этой точке x лежит внутри полосы». Полоса DKW — для всей кривой: «с уверенностью 95% вся истинная ЭФР целиком лежит внутри полосы». Уилсон ближе к привычной интуиции и поэтому используется по умолчанию; DKW нужна, когда требуется делать утверждения о распределении в целом (например, сравнивать с гипотетической CDF одновременно во всех точках кривой).
Как читать ЭФР: крутые участки соответствуют диапазонам, где сосредоточено много наблюдений; пологие — пробелам в данных. Точка пересечения кривой с уровнем 50% — это медиана. Доверительные полосы сужаются по мере роста выборки: широкая полоса означает большую неопределённость относительно истинного распределения. ECDF особенно полезен для сравнения распределений и выявления пробелов и кластеров, которые гистограмма может скрывать в зависимости от ширины интервалов.
Изменение размера и экспорт
У каждого графика есть маркер изменения размера в правом нижнем углу. Для сохранения графиков используйте групповой экспорт из области результатов — см. чтение результатов, там перечислены доступные форматы (SVG, PNG, JPG).
Контрольный список для отчёта
Что важно включить при описании результатов анализа распределения:
Метод:
- Какие критерии нормальности использовались и почему (например, Шапиро–Уилка как универсальный, Андерсона–Дарлинга для чувствительности к хвостам)
- Объём выборки
- Как обрабатывались пропущенные данные
Результаты:
- Значение статистики и p-значение для каждого критерия нормальности
- Краткое описание формы распределения (симметричное, асимметричное, бимодальное и т. д.), желательно подкреплённое графиком
- Вывод о том, выполняется ли предположение о нормальности для планируемого анализа (t-критерий, дисперсионный анализ и т. д.)
Воспроизводимость
Критерии нормальности выводят соответствующий R-код в консоль R — его можно просматривать, копировать и повторно запускать. Модуль использует базовый R (shapiro.test) и пакеты nortest (Андерсона–Дарлинга, Лиллиефорса, Крамера–фон Мизеса, Шапиро–Франсия), moments (Харке–Бера и Д’Агостино–Пирсона) в зависимости от выбранных критериев. Ссылки на использованные пакеты R автоматически появляются в начале раздела вывода. Таблицы частот и графики распределения вычисляются на JavaScript и не генерируют R-код.
Типичные ошибки
Опираться на единственный критерий нормальности. Ни один критерий не является лучшим во всех ситуациях. Критерий Шапиро–Уилка обладает высокой мощностью для общих отклонений, критерий Андерсона–Дарлинга чувствительнее к поведению хвостов, а критерий Шапиро–Франсия напрямую связан с линией Q-Q. Если решение принципиально — запустите два-три критерия и изучите Q-Q график: визуальная картина зачастую говорит больше, чем любое p-значение. При выборе нескольких критериев DataSuite 2 выводит сводку согласия в столбце Интерпретация.
Трактовать «нет свидетельств против нормальности» как «данные нормальные». Неудача отвергнуть нулевую гипотезу — это не то же самое, что её принять. Незначимый результат может означать, что данные действительно нормальны, или же что выборка слишком мала, чтобы обнаружить отклонение. Формулировки в выводе намеренно осторожные именно по этой причине.
Переинтерпретировать результаты критериев нормальности при большой выборке. При тысячах наблюдений критерии нормальности будут отвергать нулевую гипотезу из-за микроскопических, практически незначимых отклонений. Q-Q график, точки которого прижаты к референсной линии с лишь небольшим отклонением на хвостах, обычно вполне допустим для параметрических методов — одно лишь p-значение не говорит о том, имеет ли отклонение практическое значение.
Небрежно выбирать ширину интервалов гистограммы. Метод «Авто» хорошо работает в большинстве случаев, но слишком мало интервалов скрывает структуру (бимодальное распределение выглядит унимодальным), а слишком много — создаёт шумные пики. Если форма кажется подозрительной, попробуйте другой метод расчёта интервалов или проверьте по скрипичной диаграмме.
Игнорировать форму распределения перед выбором метода анализа. Запускать t-критерий или корреляцию Пирсона, не проверив нормальность — распространённый путь наименьшего сопротивления. Несколько секунд, потраченных на Q-Q график или критерий Шапиро–Уилка, могут уберечь от ошибочных выводов — или, напротив, подтвердить, что параметрические методы применимы.