На этой странице

Анализ распределения

Модуль Анализ распределения помогает понять форму и разброс данных. Он состоит из трёх разделов: таблицы частот, критерии нормальности и графики распределения.

Таблицы частот

Таблицы частот показывают, как часто каждое значение (или диапазон значений) встречается в переменной.

  1. Выберите переменные
  2. Настройте параметры отображения и сортировки
  3. Нажмите Рассчитать таблицы частот

Для каждой переменной строится отдельная таблица.

Параметры отображения

  • Количество — абсолютная частота для каждого значения (включено по умолчанию)
  • Процент — доля от всех строк, включая пропущенные значения (включено по умолчанию)
  • Валидный процент — доля, рассчитанная только по непропущенным значениям
  • Итоговая строка — добавляет строку с суммарными показателями в конце таблицы
  • Накопленное количество (валидных) — нарастающий итог по непропущенным наблюдениям
  • Накопленный валидный процент — нарастающий итог по валидным процентам (на последней строке достигает 100%)

Процент и валидный процент: если 10 из 100 строк содержат пропущенные значения, а некоторое значение встречается 30 раз, его процент равен 30% (от 100), а валидный процент — 33.3% (от 90). Валидный процент удобнее, когда пропущенные данные нужно исключить из расчёта. Если включены оба столбца, а в переменной нет пропусков, они совпадают, поэтому обычный столбец Процент убирается, чтобы не дублировать данные.

Почему «накопленный валидный»? И накопленное количество, и накопленный процент считаются по непропущенным наблюдениям, поэтому столбец накопленного процента всегда достигает 100% на последней строке независимо от числа пропусков. Это поведение соответствует SPSS и сохраняет осмысленность накопленных столбцов в случаях, когда столбец Процент (рассчитанный по всем строкам) не доходит до 100%.

Итоговая строка при наличии пропусков: накопленные столбцы считаются только по непропущенным наблюдениям, поэтому при наличии пропусков в итоговой строке поля Валидный процент, Накопленное количество (валидных) и Накопленный валидный процент остаются пустыми — у них нет осмысленного значения именно в этой строке. Столбцы Количество и Процент по-прежнему показывают полный объём N и 100%.

Сортировка

  • Значение (по возрастанию) — по умолчанию
  • Значение (по убыванию)
  • Количество (по убыванию)
  • Количество (по возрастанию)

Накопленные столбцы следуют за сортировкой: накопленные столбцы осмысленны только при сортировке по значению, поэтому они скрываются всякий раз, когда активна сортировка по количеству (под таблицей появляется пояснение) — отсортируйте по значению, чтобы вернуть их.

Сортировка при группировке в диапазоны: при включённой опции Группировать числовые значения в диапазоны сортировки по количеству недоступны. Сортировка диапазонной таблицы по частоте перемешала бы непрерывную шкалу диапазонов и обессмыслила бы накопленные столбцы, поэтому таблица всегда сортируется по диапазонам (по возрастанию по умолчанию; для убывания выберите Значение (по убыванию)).

Группировка числовых значений в диапазоны

Числовые переменные с большим числом уникальных значений могут давать громоздкие таблицы. Включите параметр Группировать числовые значения в диапазоны, чтобы объединить значения в интервалы:

  • Максимальное число категорий (по умолчанию 20) — если количество уникальных значений ниже этого порога, они выводятся по отдельности; иначе — группируются
  • Число интервалов (по умолчанию 10) — сколько интервалов создать. Пустые интервалы сохраняются в выводе, чтобы шкала диапазонов оставалась непрерывной. При режиме Равное количество на данных с большим числом совпадающих значений несколько очень частых значений могут сами заполнить целые интервалы, поэтому в таблице будет меньше интервалов, чем запрошено, а под ней появится небольшая пометка («запрошено X интервалов, но совпадающие значения схлопнули границы — отображается Y интервалов»).
  • Режим группировкиРавная ширина (по умолчанию) располагает границы интервалов равномерно по диапазону значений; Равное количество (квантильные) использует выборочные квантили в качестве границ, так что в каждом интервале оказывается примерно одинаковое число наблюдений. Количество совпадает лишь приблизительно — одинаковые значения нельзя разнести по разным интервалам, поэтому при большом числе совпадений одни интервалы оказываются полнее других

Равная ширина или равное количество: интервалы равной ширины проще интерпретировать («сколько наблюдений попадает в диапазон 10–20?») и они соответствуют виду гистограммы. Интервалы равного количества полезнее для сильно асимметричных данных — в них каждый интервал содержит значимый объём наблюдений, а не теряется на фоне одного-двух доминирующих.

Когда использовать группировку: переменная «Возраст» с целыми значениями от 18 до 65 нормально читается без группировки (48 строк). Переменная «Время реакции» с сотнями десятичных значений без группировки нечитаема.

Подписи диапазонов в итоговой таблице используют ваши глобальные настройки точности чисел.

Пропущенные значения

Пропущенные значения выделяются в отдельную строку с пометкой «(Пропущено)» в нижней части таблицы — они всегда видны, но не смешиваются с реальными данными.

Критерии нормальности

Критерии нормальности проверяют, следуют ли значения переменной нормальному (колоколообразному) распределению. Это важно, поскольку многие статистические методы (t-критерий, дисперсионный анализ, корреляция Пирсона) предполагают нормальность данных.

Что означает результат критерия: нулевая гипотеза — «данные распределены нормально». Значимое p-значение (как правило, p < 0.05) — это свидетельство против нормальности. Незначимый результат — это не свидетельство в пользу нормальности: он лишь говорит о том, что данных недостаточно, чтобы отвергнуть нулевую гипотезу. Поэтому в DataSuite 2 интерпретация формулируется как «есть свидетельства против нормальности» / «нет свидетельств против нормальности», а не «нормальное» / «не нормальное».

  1. Выберите одну или несколько числовых переменных
  2. Отметьте критерии для запуска
  3. Нажмите Запустить критерии нормальности

Доступные критерии

Критерий Статистика Минимум n Лучше всего подходит для
Шапиро–Уилка (по умолчанию) W 3 (макс. 5000) Универсальный, широко рекомендуемый. Наибольшая мощность в большинстве ситуаций.
Шапиро–Франсия W’ 5 (макс. 5000) Упрощённый вариант критерия Шапиро–Уилка: по сути, квадрат корреляции между выборочными и теоретическими квантилями — то есть наклон линии Q-Q. Часто предпочтительнее критерия Шапиро–Уилка при n > 50.
Андерсона–Дарлинга 8 Чувствителен к отклонениям в хвостах. Хорошее дополнение к критерию Шапиро–Уилка.
Колмогорова–Смирнова (поправка Лиллиефорса) D 5 Модифицированная версия классического критерия Колмогорова–Смирнова для случая, когда среднее и стандартное отклонение оцениваются по выборке (что почти всегда так). Обычный критерий Колмогорова–Смирнова не входит в список, поскольку при оценённых параметрах он даёт завышенные p-значения.
Д’Агостино–Пирсона 8 Совместно проверяет асимметрию и эксцесс. Надёжен примерно от n ≥ 20 — см. примечание о рекомендуемом объёме ниже.
Харке–Бера JB 4 Аналогичен критерию Д’Агостино–Пирсона — проверяет асимметрию и эксцесс. Распространён в экономических исследованиях. Надёжен примерно от n ≥ 20 — см. примечание о рекомендуемом объёме ниже.
Крамера–фон Мизеса 8 Альтернатива критерию Андерсона–Дарлинга с несколько иной чувствительностью.

Какой критерий выбрать? Шапиро–Уилка — лучший вариант по умолчанию: он обладает наибольшей статистической мощностью в большинстве ситуаций. Шапиро–Франсия — достойная альтернатива при n ≥ 50, обладающая полезным свойством: высокое значение W’ напрямую соответствует «прижатости» точек к линии Q-Q. Для дополнительной проверки добавьте критерий Андерсона–Дарлинга. При очень большой выборке (n > 5000) рассмотрите критерии Д’Агостино–Пирсона или Харке–Бера: при больших n критерий Шапиро–Уилка вообще не вычисляется.

Излишняя чувствительность? При очень больших выборках критерии нормальности будут выявлять даже незначительные отклонения, не имеющие практического значения для анализа. В таких случаях графики распределения (особенно Q-Q графики) дают более наглядное представление о том, существенно ли отклонение на самом деле.

Критерии Д’Агостино–Пирсона и Харке–Бера при малом n: оба критерия опираются на асимптотическое χ²(2)-распределение асимметрии и эксцесса. Технические минимумы низкие (8 и 4 соответственно), но p-значения становятся ненадёжными примерно при n < 20. Результаты в диапазоне 4–19 наблюдений стоит трактовать как ориентировочные и при малом n предпочесть критерий Шапиро–Уилка или Андерсона–Дарлинга.

Результаты

Одна таблица со строкой для каждой переменной. Для каждого выбранного критерия отображаются два столбца: значение статистики и p-значение. Форматирование значимости определяется настройками.

Если включено отображение столбца интерпретации, в таблице появляется дополнительный столбец Интерпретация:

  • Выбран один критерий — отображается «Есть свидетельства против нормальности» или «Нет свидетельств против нормальности» в зависимости от соотношения p-значения и уровня значимости.
  • Выбрано несколько критериев — отображается сводка согласия, например «4/6 критериев: есть свидетельства против нормальности», с трёхуровневым цветовым вердиктом: зелёный, когда все корректно завершившиеся критерии не отвергают нормальность; красный, когда все её отвергают; жёлтый при любом смешанном результате. Критерии, не сумевшие отработать (например, из-за недостаточного n), отражаются отдельно и не учитываются в подсчёте.

Почему не голосование большинством? Все критерии нормальности проверяют одну и ту же нулевую гипотезу на одних и тех же данных, поэтому их исходы сильно коррелированы — «большинство из 7 критериев отвергло» не комбинируется статистически так, как это делает настоящий мета-анализ. Трёхуровневый вердикт честно показывает разногласия, а не маскирует их голосованием.

Если переменная не удовлетворяет минимальному n конкретного критерия, в её ячейке выводится сообщение «Недостаточно данных» с фактическим n и требуемым минимумом. Для переменных, удовлетворяющих минимуму, критерий выполняется как обычно. Постоянные переменные (все валидные значения одинаковы) сразу помечаются сообщением «Нулевая дисперсия» для каждого выбранного критерия — все поддерживаемые критерии требуют разброса, и вычислять нечего.

Графики распределения

Визуальный анализ нередко информативнее любого отдельного критерия. Графики распределения позволяют напрямую увидеть форму данных.

  1. Выберите одну или несколько числовых переменных
  2. Отметьте типы графиков для построения
  3. Настройте параметры для каждого графика
  4. Нажмите Построить графики распределения

По умолчанию для каждой переменной создаётся отдельная карточка вывода, на которой все выбранные графики расположены вертикально. На каждом графике в правом верхнем углу отображается объём выборки (в режиме наложения — по группам).

Наложение переменных на один график

Включите параметр Наложить переменные на один график, чтобы сравнивать несколько переменных рядом, а не строить отдельные карточки. В режиме наложения:

  • Ящик с усами, скрипичная диаграмма, ЭФР — переменные превращаются в группы внутри одного графика, окрашенные по принадлежности.
  • Q-Q график — поддерживается, если эталонное распределение — Нормальное или Логнормальное. Каждая переменная стандартизируется (среднее 0, ст. откл. 1; для логнормального — после логарифмирования), чтобы переменные с разными шкалами помещались на одной системе координат, а эталоном становится прямая y = x. Переключатель детрендирования по-прежнему работает. Для остальных эталонов наглядного способа стандартизации в режиме наложения нет, поэтому они пропускаются — отключите наложение, чтобы построить их по каждой переменной.
  • Гистограмма — в режиме наложения всегда пропускается (наложение гистограмм плохо читается); чтобы её построить, отключите наложение.

Режим наложения требует не менее двух переменных. Если выбрана только одна переменная, графики строятся в обычном режиме независимо от состояния флажка.

Если выбраны только типы графиков, которые режим наложения пропускает (например, только гистограмма или только Q-Q с ненормальным эталонным распределением), карточка с результатами не создаётся и показывается предупреждение — отключите наложение или выберите совместимый тип графика.

Переменные без валидных числовых данных исключаются из наложения, а их список выводится в информационной пометке над графиками. На ящиках с усами, скрипичных графиках и Q-Q-наложении дополнительно отбрасываются переменные с менее чем 2 валидными наблюдениями (нет разброса для построения сводки) и переменные с нулевой дисперсией (константа не несёт информации о распределении). Каждый случай отображается в отдельной пометке под графиком («Исключены (n < 2): …» и «Исключены с нулевой дисперсией: …»).

Гистограмма

Отображает распределение в виде столбцов, каждый из которых соответствует диапазону значений (интервалу), а его высота показывает количество наблюдений в этом диапазоне.

Параметры:

  • Кривая плотности (включена по умолчанию) — накладывает сглаженную кривую (красную), оценивающую форму распределения с помощью ядерной оценки плотности с гауссовым ядром и робастного правила Сильвермана для ширины окна (формула 0.9·σ·n^(-1/5) напрямую применима к гауссову ядру). Для плотных целочисленных данных ширина окна снизу ограничена небольшим порогом (≈¾ целого шага), чтобы кривая не вырождалась в пик у каждого целого числа
  • Кривая нормального распределения — накладывает теоретическое нормальное распределение (зелёная пунктирная) для сравнения
  • Показать штрихи данных — добавляет короткие штрихи у каждого наблюдения вдоль нижней границы графика, открывая точные точки данных, скрытые за столбцами
  • Показать асимметрию и эксцесс — добавляет аннотацию с выборочной асимметрией с поправкой на смещение (G1, подпись асимм.) и избыточным эксцессом (G2, подпись эксцесс) — оценками Фишера–Пирсона, которые используются в SPSS, SAS и функциях SKEW/KURT Excel. Для нормального распределения обе величины ≈ 0. Требует n ≥ 4 (обе оценки определены); иначе аннотация не выводится.
  • Метод расчёта интервалов — Авто (рекомендуется), Стёрджес, Скотт или Фридмана–Диакониса

Как читать гистограмму: обратите внимание на общую форму. Похожа ли она на колокол (нормальное распределение)? Скошена в одну сторону? Имеет несколько пиков (бимодальное)? Когда обе кривые видны одновременно, их сравнение показывает, насколько реальные данные отклоняются от нормальности. Правая ось плотности связана с левой осью количества формулой количество = плотность × n × ширина_интервала — это не произвольные шкалы, они откалиброваны друг к другу.

При наведении на любой столбец отображается количество наблюдений и значение. Если данные целочисленные и содержат не более 50 уникальных значений, гистограмма переключается на дискретную компоновку — один столбец на значение вместо произвольных интервалов. Есть два варианта, выбираемых автоматически:

  • В масштабе (плотные целые) — когда значения укладываются в достаточно узкий диапазон и пропуски не преобладают, каждому целому числу соответствует столбец единичной ширины по всему диапазону, а целые числа без наблюдений отображаются как пустые промежутки нулевой высоты. Ось X остаётся в масштабе, поэтому наложения кривых плотности и нормального распределения по-прежнему работают.
  • Равномерно расставленные (разреженные или прерывистые целые) — когда значения разнесены слишком далеко (например, в основном 0–5 с далёким выбросом) или большинство ячеек оказались бы пустыми, каждому присутствующему значению соответствует столбец равной ширины, расставленный равномерно и подписанный своим значением. Ось X в этом случае уже не в масштабе, поэтому наложения кривых плотности и нормального распределения скрываются (с пометкой под графиком).

Ящик с усами (коробчатый график)

Компактное описание распределения переменной: пять ключевых значений и выбросы.

Параметры:

  • Показывать выбросы (включено по умолчанию) — отображаются в виде ромбов
  • Показывать среднее (включено по умолчанию) — отображается в виде полого круга
  • Надрез медианы — добавляет надрез вокруг медианы, охватывающий её доверительный интервал, который вычисляется непараметрически по порядковым статистикам (интерполяция Хеттмансбергера–Шизера) на вашем глобальном уровне доверия. Надрез асимметричен при скошенных данных и не показывается для групп, слишком малых для построения интервала на этом уровне. Если надрезы двух ящиков не перекрываются, их медианы, вероятно, значимо различаются
  • Точки данных — отображает отдельные наблюдения рядом с ящиком, давая полную картину вместо сводных показателей

Как читать ящик с усами: ящик охватывает межквартильный размах (от К1 до К3) — средние 50% данных. Жирная линия внутри ящика — медиана. Усы простираются до крайних ненаходящихся вне выброса значений (в пределах 1.5 × МКР от краёв ящика). Точки за пределами усов — выбросы. Если линия медианы смещена от центра ящика, данные асимметричны. Квартили вычисляются методом линейной интерполяции (тип 7), что совпадает с квартилями в остальных разделах DataSuite 2.

При наведении на ящик появляется всплывающая подсказка со всеми пятью значениями сводки (min, К1, медиана, К3, max), межквартильным размахом, средним (если включено) и списком значений выбросов (не более 8 с пометкой «+N ещё», когда их больше).

Q-Q график

Строит квантили данных против теоретических квантилей выбранного эталонного распределения. Если данные следуют эталонному распределению, точки ложатся вдоль диагональной референсной линии. Для эталонов из семейств со сдвигом и масштабом (нормальное, логнормальное после логарифмирования, Стьюдента, равномерное) линия проводится через К1 и К3 обеих осей (как в R-функции qqline) — устойчивее при отклонениях от эталона, и именно вокруг этой линии строится доверительная полоса. Для экспоненциального эталона, у которого есть только масштаб и нет сдвига, линия проходит через начало координат с наклоном, равным выборочному среднему (оценка масштаба методом моментов / максимального правдоподобия). Требует не менее 3 корректных наблюдений и наличия разброса значений в выборке; при их отсутствии вместо графика отображается соответствующее уведомление.

Параметры:

  • Эталонное распределениеНормальное (по умолчанию), Стьюдента (t), Экспоненциальное, Равномерное или Логнормальное. Q-Q график — это инструмент сравнения с произвольным распределением, а не только проверки нормальности: смена эталона позволяет проверить и другие распределительные предположения.
  • Степени свободы (только для распределения Стьюдента (t)) — задаёт форму t-эталона. Оставьте поле пустым, чтобы использовать значение max(2, n − 1), либо введите число ≥ 2, чтобы переопределить его. Нижняя граница 2 обеспечивает корректную определённость обратной функции распределения и плотности Стьюдента на очень малых выборках; меньшие значения ограничиваются до 2.
  • Доверительная полоса — отображает область вокруг референсной линии. Точки внутри полосы согласуются с эталоном; точки за её пределами — заметные отклонения. Полоса использует наклон и сдвиг той же референсной линии плюс поточечную стандартную ошибку порядковых статистик — SE ≈ |наклон| / f(F⁻¹(p)) · √(p(1−p)/n) — и строится только в пределах диапазона, в котором есть наблюдения (чтобы она не «раздувалась» в пустых хвостах, где плотность эталона стремится к нулю). Доступна для всех эталонных распределений: используются замкнутые формулы плотности для нормального, логнормального (в логарифмическом пространстве выборки), Стьюдента, экспоненциального и равномерного.
  • Детрендированный (остатки от эталона) — вычитает референсную линию из y-координаты каждой точки, так что эталон превращается в горизонтальную линию на нуле. Мелкие отклонения становятся гораздо заметнее, чем на стандартном «диагональном» графике.

Как читать Q-Q график: точки, прижатые к линии, указывают на соответствие эталонному распределению. Систематические отклонения рассказывают о характере различий: S-образная кривая свидетельствует о тяжёлых или лёгких хвостах, изгиб в одну сторону — об асимметрии, а несколько удалённых точек на концах — о выбросах. Q-Q график часто полезнее, чем критерий нормальности: он объясняет как именно данные отклоняются от нормальности, а не только отклоняются ли они.

Зачем детрендировать? На обычном Q-Q графике точки в середине распределения визуально жмутся к линии, и мелкие колебания трудно заметить. Детрендирование «расплющивает» линию до y = 0, поэтому ось ординат превращается в «насколько далеко каждая точка от эталона» — небольшие отклонения становятся отчётливыми. Оба представления полезны: стандартное — для общей формы, детрендированное — для тонких деталей.

Какое эталонное распределение выбрать? Нормальное — для типичной проверки допущений. Распределение Стьюдента (t) — при подозрении на тяжёлые хвосты: оставьте поле Степени свободы пустым, чтобы использовать значение max(2, n − 1), либо введите конкретное df, соответствующее проверяемой модели. Экспоненциальное — для времён ожидания и других правоасимметричных положительных данных; его носитель — [0, ∞), поэтому при наличии в выборке отрицательных значений график не строится (это категориальное несоответствие эталону). Логнормальное — для мультипликативных процессов (доходы, размеры частиц); выборка внутренне логарифмируется и строится против стандартного нормального эталона, поэтому ось ординат подписана «Выборочные квантили (логарифмическая шкала)», а доверительная полоса доступна. Неположительные наблюдения автоматически отбрасываются, а под графиком появляется пометка «Исключено N неположительных значений». Равномерное — для проверки равномерного распределения по диапазону.

Скрипичная диаграмма

Объединяет оценку плотности (форму «скрипки») с уменьшенным ящиком с усами внутри. Чем шире скрипка в данной точке, тем больше наблюдений сосредоточено в этом диапазоне.

Параметры:

  • Показывать внутренний ящик с усами (включено по умолчанию) — отображает медиану (белая точка), МКР (чёрный прямоугольник) и усы внутри скрипки

Когда предпочесть скрипичную диаграмму ящику с усами: ящик с усами может скрывать бимодальные распределения — два отдельных кластера будут выглядеть как один ящик с широким разбросом. Скрипичная диаграмма отчётливо показывает оба пика.

График ЭФР

Эмпирическая функция распределения показывает для каждого значения, какая доля данных меньше или равна ему. Она возрастает от 0% до 100% в виде ступенчатой функции.

Параметры:

  • Показывать референсную линию медианы (включено по умолчанию) — горизонтальная пунктирная линия на уровне 50% плюс цветная вертикальная линия от медианы каждой группы
  • Показать штрихи данных — короткие штрихи у каждого наблюдения вдоль нижней границы графика, в режиме наложения окрашены по группам
  • Доверительная полоса — управляет затенённой полосой вокруг ступенчатой функции:
    • Уилсона (поточечная) — по умолчанию. В каждой точке x значение F̂(x) рассматривается как биномиальная доля, и строится доверительный интервал Уилсона. Полоса сужается у 0 и 1, что согласуется с интуицией: на краях распределения ЭФР определена точнее.
    • DKW (одновременная) — оценка Дворецкого–Кифера–Вольфовица. Постоянная по высоте полоса, покрывающая всю кривую на выбранном уровне доверия (а не каждую точку по отдельности). Шире, чем полоса Уилсона, но единственная даёт одновременное покрытие.
    • Не показывать — полоса скрыта.

При наведении на любую точку графика появляется перекрестие, показывающее значение ЭФР в позиции курсора — отдельно для каждой группы в режиме наложения.

Уилсон или DKW: эти полосы отвечают на разные вопросы. Полоса Уилсона — поточечная: «с уверенностью 95% истинное F(x) в именно этой точке x лежит внутри полосы». Полоса DKW — для всей кривой: «с уверенностью 95% вся истинная ЭФР целиком лежит внутри полосы». Уилсон ближе к привычной интуиции и поэтому используется по умолчанию; DKW нужна, когда требуется делать утверждения о распределении в целом (например, сравнивать с гипотетической CDF одновременно во всех точках кривой).

Как читать ЭФР: крутые участки соответствуют диапазонам, где сосредоточено много наблюдений; пологие — пробелам в данных. Точка пересечения кривой с уровнем 50% — это медиана. Доверительные полосы сужаются по мере роста выборки: широкая полоса означает большую неопределённость относительно истинного распределения. ECDF особенно полезен для сравнения распределений и выявления пробелов и кластеров, которые гистограмма может скрывать в зависимости от ширины интервалов.

Изменение размера и экспорт

У каждого графика есть маркер изменения размера в правом нижнем углу. Для сохранения графиков используйте групповой экспорт из области результатов — см. чтение результатов, там перечислены доступные форматы (SVG, PNG, JPG).

Контрольный список для отчёта

Что важно включить при описании результатов анализа распределения:

Метод:

  • Какие критерии нормальности использовались и почему (например, Шапиро–Уилка как универсальный, Андерсона–Дарлинга для чувствительности к хвостам)
  • Объём выборки
  • Как обрабатывались пропущенные данные

Результаты:

  • Значение статистики и p-значение для каждого критерия нормальности
  • Краткое описание формы распределения (симметричное, асимметричное, бимодальное и т. д.), желательно подкреплённое графиком
  • Вывод о том, выполняется ли предположение о нормальности для планируемого анализа (t-критерий, дисперсионный анализ и т. д.)

Воспроизводимость

Критерии нормальности выводят соответствующий R-код в консоль R — его можно просматривать, копировать и повторно запускать. Модуль использует базовый R (shapiro.test) и пакеты nortest (Андерсона–Дарлинга, Лиллиефорса, Крамера–фон Мизеса, Шапиро–Франсия), moments (Харке–Бера и Д’Агостино–Пирсона) в зависимости от выбранных критериев. Ссылки на использованные пакеты R автоматически появляются в начале раздела вывода. Таблицы частот и графики распределения вычисляются на JavaScript и не генерируют R-код.

Типичные ошибки

Опираться на единственный критерий нормальности. Ни один критерий не является лучшим во всех ситуациях. Критерий Шапиро–Уилка обладает высокой мощностью для общих отклонений, критерий Андерсона–Дарлинга чувствительнее к поведению хвостов, а критерий Шапиро–Франсия напрямую связан с линией Q-Q. Если решение принципиально — запустите два-три критерия и изучите Q-Q график: визуальная картина зачастую говорит больше, чем любое p-значение. При выборе нескольких критериев DataSuite 2 выводит сводку согласия в столбце Интерпретация.

Трактовать «нет свидетельств против нормальности» как «данные нормальные». Неудача отвергнуть нулевую гипотезу — это не то же самое, что её принять. Незначимый результат может означать, что данные действительно нормальны, или же что выборка слишком мала, чтобы обнаружить отклонение. Формулировки в выводе намеренно осторожные именно по этой причине.

Переинтерпретировать результаты критериев нормальности при большой выборке. При тысячах наблюдений критерии нормальности будут отвергать нулевую гипотезу из-за микроскопических, практически незначимых отклонений. Q-Q график, точки которого прижаты к референсной линии с лишь небольшим отклонением на хвостах, обычно вполне допустим для параметрических методов — одно лишь p-значение не говорит о том, имеет ли отклонение практическое значение.

Небрежно выбирать ширину интервалов гистограммы. Метод «Авто» хорошо работает в большинстве случаев, но слишком мало интервалов скрывает структуру (бимодальное распределение выглядит унимодальным), а слишком много — создаёт шумные пики. Если форма кажется подозрительной, попробуйте другой метод расчёта интервалов или проверьте по скрипичной диаграмме.

Игнорировать форму распределения перед выбором метода анализа. Запускать t-критерий или корреляцию Пирсона, не проверив нормальность — распространённый путь наименьшего сопротивления. Несколько секунд, потраченных на Q-Q график или критерий Шапиро–Уилка, могут уберечь от ошибочных выводов — или, напротив, подтвердить, что параметрические методы применимы.