На этой странице
- Как использовать
- Шаблоны настроек
- Доступные статистики
- Центральная тенденция
- Разброс
- Форма распределения
- Количественные показатели
- Квантили
- Стандартные ошибки
- Доверительные интервалы
- Разнообразие
- Статистики выборки и генеральной совокупности
- Категориальные переменные
- Контрольный список для отчёта
- Воспроизводимость
- Типичные ошибки
- Примечания
Описательная статистика
Модуль Описательная статистика вычисляет сводные показатели для выбранных переменных. Выберите нужные статистики, нажмите кнопку — и получите таблицу результатов с одной строкой на переменную.
Как использовать
- Выберите переменные
- Откройте раздел Описательная статистика из меню
- Отметьте нужные статистики (или примените шаблон настроек)
- Нажмите Сформировать описательную статистику
Результаты выводятся в виде двух таблиц (при наличии обоих типов переменных): одной для числовых переменных, другой для категориальных.
Шаблоны настроек
Два шаблона настроек конфигурируют флажки для типовых сценариев:
- Параметрический — среднее, стандартное отклонение, минимум, максимум
- Непараметрический — медиана, минимум, максимум, квартили (25%, 75%)
При применении шаблона все остальные флажки снимаются. Флажок Использовать выборочную статистику (знаменатель n-1) трактуется как глобальная настройка и шаблонами не затрагивается.
Доступные статистики
Центральная тенденция
Меры, показывающие, где находится «центр» данных.
-
Среднее — среднее арифметическое. Наиболее полезно, когда данные примерно симметричны и не содержат экстремальных выбросов.
-
Медиана — центральное значение в упорядоченных данных. Устойчивее среднего при асимметричных данных или наличии выбросов.
Среднее и медиана: когда они близки, данные примерно симметричны. Когда расходятся — что-то тянет среднее в сторону: как правило, выбросы или асимметрия хвостов распределения. Например, если среднее значение зарплаты составляет 150 000 ₽, а медиана — 90 000 ₽, несколько очень высоких зарплат завышают среднее. В таких случаях медиана точнее отражает «типичное» значение.
-
Мода — наиболее часто встречающееся значение. Может быть полезна для любого типа переменных, но особенно — для категориальных. Переменная может иметь несколько мод, если несколько значений встречаются с одинаковой максимальной частотой. Если все значения уникальны (ни одно не повторяется), в ячейке выводится Нет моды — то есть ни одно значение не повторяется, а не «модой является каждое значение».
-
Усечённое среднее — среднее после отсечения заданного процента экстремальных значений с обоих концов. Процент усечения (0–50%, по умолчанию 10%) задаёт размер отсечения. Усечение 10% удаляет нижние 10% и верхние 10% значений перед вычислением среднего. Это компромисс между средним (чувствительным к выбросам) и медианой (учитывающей только центральное значение). При максимальном усечении 50% удаляются все значения за пределами центра, поэтому результат равен медиане (как в R:
mean(x, trim = 0.5)). -
Геометрическое среднее — корень n-й степени из произведения значений. Подходит для мультипликативных данных: темпов роста, коэффициентов. Отображается как Н/Д, если хотя бы одно значение равно нулю или отрицательное.
-
Гармоническое среднее — обратная величина среднего обратных значений. Полезно для усреднения интенсивностей (например, скорости, эффективности). Отображается как Н/Д, если хотя бы одно значение равно нулю или отрицательное.
-
Псевдомедиана Ходжеса-Лемана — медиана всех попарных средних (xᵢ + xⱼ)/2. Устойчивый оценщик положения, сочетающий два полезных свойства: он почти так же нечувствителен к выбросам, как медиана, и при этом почти так же эффективен, как среднее, когда данные действительно симметричны. В таблице рядом с оценкой выводится её доверительный интервал, полученный инверсией знакового рангового распределения Уилкоксона. Оценка и ДИ вычисляются через
stats::wilcox.test(x, conf.int = TRUE)— см. раздел Воспроизводимость.
Когда выбирать псевдомедиану Ходжеса-Лемана: когда данные приблизительно симметричны, но в их нормальности нет уверенности, либо когда нужна устойчивая оценка центра, более информативная, чем простая медиана. Для сильно асимметричных данных медиана по-прежнему остаётся понятнее.
Разброс
Меры, показывающие, насколько рассеяны данные.
-
Минимум и максимум — наименьшее и наибольшее значения. Всегда стоит проверять: неожиданный минимум (например, 0 для возраста) или максимум (99 для класса) нередко свидетельствует об ошибке ввода данных или о незакодированных пропущенных значениях.
-
Размах — разность между максимумом и минимумом. Легко интерпретируется, но крайне чувствителен к выбросам: одно экстремальное значение кардинально меняет размах.
-
Дисперсия — среднее квадратичное отклонение от среднего. Выражается в квадратных единицах исходной переменной: например, при измерении роста в сантиметрах дисперсия будет в см². Это затрудняет прямую интерпретацию — на практике удобнее стандартное отклонение.
-
Стандартное отклонение (СО) — квадратный корень из дисперсии. Выражается в тех же единицах, что и исходная переменная, и является наиболее распространённой мерой разброса.
Практическое правило: в примерно нормальном распределении около 68% значений попадают в диапазон ±1 СО от среднего, около 95% — в диапазон ±2 СО.
- Винзоризованное стандартное отклонение — СО, вычисленное после замены крайних значений на каждом конце на пограничное значение (а не их удаления, как при усечённом среднем). Процент винзоризации (0–50%, по умолчанию 10%) задаётся независимо от процента усечения для усечённого среднего. Менее чувствительно к выбросам, чем обычное СО; естественный «партнёр» усечённого среднего. Отображается как Н/Д, если выбранный процент не оставляет в центре ни одного наблюдения (например, 50% на чётной выборке из 4 или 6 наблюдений).
Усечение и винзоризация: усечение удаляет крайние значения; винзоризация сохраняет объём выборки, «подтягивая» крайние значения к границе. Винзоризованное СО — это та мера разброса, которую используют робастные процедуры (например, t-критерий Юэна) в паре с усечённым средним.
- Межквартильный размах (МКР) — разность между 75-м и 25-м процентилями. Отражает разброс средних 50% данных — фактически диапазон «типичных» значений без учёта крайностей. В отличие от СО, не подвержен влиянию выбросов: единственное экстремальное значение не изменит МКР.
Практическое применение: если МКР заметно меньше размаха, значит, данные имеют компактное ядро с несколькими удалёнными значениями. Это быстрый способ оценить, не завышают ли выбросы показатели разброса.
-
Среднее абсолютное отклонение — среднее абсолютное расстояние от среднего. Как и МКР, менее чувствительно к выбросам, чем СО: отклонения не возводятся в квадрат (возведение в квадрат усиливает влияние экстремальных значений). Хороший спутник среднего, когда нужна мера разброса в тех же единицах, но менее чувствительная к экстремальным значениям.
-
Медианное абсолютное отклонение — медиана значений |x − медиана(x)|. Робастный аналог среднего АО: за счёт замены и центрирующей точки (среднее → медиана), и операции агрегирования (среднее → медиана) остаётся устойчивым даже при существенной доле «загрязнённых» данных. Умноженное на 1,4826, оценивает СО нормального распределения; правило модифицированных Z-выбросов использует его внутри.
СО vs. среднее АО vs. медианное АО: для чистых нормальных данных все три показателя рассказывают примерно одно и то же. Тяжёлые хвосты сильнее всего раздувают СО; среднее АО дольше остаётся стабильным; медианное АО — самое устойчивое из трёх. Если СО заметно больше среднего АО, это признак того, что разброс «раздут» несколькими экстремальными значениями.
- Коэффициент вариации (КВ) — стандартное отклонение, делённое на среднее, выраженное в процентах. Полезен для сравнения вариабельности переменных с разными шкалами измерений — например, сравнения разброса времени реакции (в миллисекундах) с разбросом показателей точности (в процентах). Переключатель «выборка / генеральная совокупность» (см. ниже) определяет, какое СО используется в числителе; заголовок столбца отражает выбор как
КВ (%, s)илиКВ (%, σ). Определён только для неотрицательных данных шкалы отношений; отображается как Н/Д, если хотя бы одно значение отрицательно или среднее равно нулю.
Форма распределения
Описывает распределение значений помимо центра и разброса.
- Асимметрия — измеряет несимметричность. Значение, близкое к 0, указывает на симметричное распределение. Положительная асимметрия означает более длинный правый хвост, отрицательная — более длинный левый.
Пример: данные о доходах, как правило, имеют положительную асимметрию: большинство людей зарабатывают умеренные суммы, а длинный правый хвост соответствует высокооплачиваемым.
- Эксцесс — измеряет «тяжесть» хвостов относительно нормального распределения. По умолчанию представлен как избыточный эксцесс (эксцесс минус 3), поэтому нормальное распределение имеет значение 0. Положительные значения указывают на более тяжёлые хвосты, отрицательные — на более лёгкие.
Тяжёлые и лёгкие хвосты: распределение с тяжёлыми хвостами (положительный эксцесс) порождает больше экстремальных значений, чем ожидалось бы от нормального — больше выбросов, больше «неожиданных» точек. Распределение с лёгкими хвостами (отрицательный эксцесс) — наоборот: значения сгруппированы теснее, экстремальных мало. Например, баллы за экзамен, сгруппированные в середине с редкими очень высокими или очень низкими результатами, будут иметь отрицательный эксцесс.
Формулы: для асимметрии и эксцесса всегда применяются скорректированные на смещение выборочные оценки G₁ и G₂ — те же формулы, что по умолчанию выводят Excel, SPSS, SAS и
e1071::skewness(type = 2)в R. Переключатель «выборка / генеральная совокупность» на них не влияет. Для асимметрии требуется не менее 3 наблюдений; для эксцесса — не менее 4 (а для СО/ДИ эксцесса — 5). Обе статистики не определены (отображаются как Н/Д), когда стандартное отклонение равно нулю — то есть все значения одинаковы.
Количественные показатели
-
Объём выборки (N) — количество ненулевых наблюдений.
-
Число уникальных значений — сколько различных значений принимает переменная. Помогает выявить ошибки кодирования или проверить категориальные переменные. Например, переменная «Ведущая рука» с 5 уникальными значениями при ожидаемых 2 может указывать на непоследовательное кодирование: «Левая», «левая», «Л», «ПРАВАЯ», «Правая».
-
Количество пропущенных значений — сколько наблюдений не имеют значения, в виде числа и процента от общего.
-
Количество нулей — сколько наблюдений равны нулю, в виде числа и процента.
-
Умеренные выбросы (1,5·МКР) — количество (и процент) значений, выходящих за пределы [К1 − 1,5·МКР, К3 + 1,5·МКР]. Это те значения, которые на стандартном коробчатом графике отображаются отдельными точками за пределами «усов». Диапазон значений без выбросов отображается как Н/Д, если МКР равен нулю (по крайней мере половина наблюдений совпадает по значению) — правило в этом случае теряет смысл.
-
Экстремальные выбросы (3·МКР) — количество (и процент) значений, выходящих за пределы более широкого диапазона [К1 − 3·МКР, К3 + 3·МКР]. Всегда подмножество умеренных выбросов — действительно далёкие от типичных значения. То же замечание о МКР = 0, что и выше.
-
Модифицированные Z-выбросы (|M| > 3,5) — количество (и процент) значений, у которых модифицированный Z-показатель M = 0,6745·(x − медиана)/МАО по модулю превышает 3,5 (Iglewicz & Hoaglin 1993). Здесь МАО — это медианное абсолютное отклонение, а не среднее. В отличие от классического Z-критерия, здесь используются медиана и медианное АО, поэтому и центр, и масштаб, на которых основано правило, сами устойчивы к выбросам — одно экстремальное значение уже не может «замаскировать» остальные. Если медианное АО равно нулю (более половины наблюдений совпадают с медианой), правило теряет смысл — так же, как в случае МКР = 0 выше.
Для каждого включённого правила выбросов также формируется столбец Диапазон значений без выбросов с парой границ [нижняя, верхняя]. Эту пару можно подставить непосредственно в фильтр в виде значение МЕЖДУ нижняя И верхняя — так останутся только «нормальные» значения; обратив условие, получите сами выбросы. В вырожденных случаях, упомянутых выше (МКР = 0, МАО = 0), и ячейка с количеством, и ячейка с диапазоном выводятся как Н/Д; при наведении на ячейку отображается пояснение, почему правило не удалось применить.
Какое правило выбрать: для общего применения правило умеренных выбросов (1,5·МКР) соответствует тому, что показывает коробчатый график, и работает при любой форме распределения. Экстремальное правило выделяет наиболее однозначные выбросы. Правило модифицированных Z-выбросов — подходящий выбор, когда нужен порог в Z-стиле, но без проблемы маскирования классического варианта со средним и СО: оно согласуется с правилами на основе МКР на данных с тяжёлыми хвостами, но даёт более жёсткий порог, основанный на расстояниях.
Квантили
-
Квартили (25%, 75%) — значения, ниже которых находятся 25% и 75% данных соответственно. Вместе с медианой (50-й процентиль) они определяют «ящик» в коробчатом графике. 25-й процентиль (К1) означает: «25% участников набрали меньше этого значения».
-
Произвольные процентили — введите значения через запятую (например, «10, 90» или «5, 25, 50, 75, 95»), чтобы вычислить любые нужные процентили.
Стандартные ошибки
Стандартная ошибка оценивает, насколько изменилась бы статистика при повторении исследования на другой выборке из той же генеральной совокупности. Меньшая ст. ошибка означает более точную оценку.
Стандартное отклонение и стандартная ошибка: СО описывает разброс отдельных значений в данных. Стандартная ошибка описывает точность вычисленной статистики (например, среднего). СО остаётся примерно постоянным с ростом выборки; стандартная ошибка уменьшается — бо́льшие выборки дают более точные оценки.
- СО среднего — стандартная ошибка среднего арифметического
- СО медианы — бутстрэп-оценка стандартной ошибки медианы: эмпирическое СО медианы по повторным выборкам с возвращением, с числом повторов из глобальной настройки Повторы бутстрэпа. Без предположений о распределении.
- СО доли — только для бинарных категориальных переменных (ровно две категории)
- СО асимметрии — стандартная ошибка выборочной асимметрии
- СО эксцесса — стандартная ошибка выборочного эксцесса
Метод расчёта СО и ДИ для асимметрии и эксцесса: при включении любой из четырёх соответствующих статистик в разделе Форма распределения появляется выпадающий список Метод СО/ДИ. Можно выбрать Аналитический (нормальная теория) — замкнутые формулы СО, выведенные в предположении нормальности данных, — или Бутстрэп — распределительно-свободную альтернативу с повторным выборочным извлечением; ДИ строится методом коррекции смещения и ускорения (BCa, Efron 1987), который корректирует процентильные границы с учётом смещения и асимметрии выборочного распределения. Бутстрэп использует число повторов из глобальной настройки Повторы бутстрэпа; ввод целого числа в Зерно бутстрэпа (вместо пустого значения) делает повторные выборки воспроизводимыми между запусками. Использованный метод выводится в самих заголовках столбцов —
SE асимметрии (норм.)противSE асимметрии (бутстрэп), и аналогично для столбцов ДИ — так что источник оценки однозначен при экспорте таблицы или передаче её коллегам. В заголовке указано «бутстрэп», а не «BCa», поскольку при малых выборках возможен переход к процентильному интервалу (см. ниже), и так заголовок остаётся честным. Если выборка слишком мала, чтобы надёжно оценить поправки на смещение и ускорение, в ячейках СО и ДИ всё равно выводятся значения (ДИ при этом сводится к процентильному интервалу), а при наведении показывается пояснение о пониженной надёжности; точечная оценка в столбцах Асимметрия / Эксцесс остаётся корректной.
Где найти переключатель «избыточный эксцесс»: флажок Сообщать как избыточный эксцесс находится в разделе Форма распределения и появляется, когда выбран сам эксцесс или его СО/ДИ — так что вы можете запросить только ДИ и всё равно управлять формой представления (избыточная или сырая).
Доверительные интервалы
Доверительный интервал задаёт диапазон правдоподобных значений для параметра генеральной совокупности. Ширина интервала зависит от уровня доверия, заданного в настройках (по умолчанию: 95%).
- ДИ для среднего — критическое значение распределения Стьюдента t (df = n − 1)
- ДИ для медианы — распределительно-свободный интервал на основе порядковых статистик и биномиального эталона Bin(n, 0,5) (инверсия знакового критерия Уилкоксона). Отображается как Н/Д, если выборка слишком мала для достижения требуемого уровня доверия при точных дискретных значениях (например, n = 5 при 95%).
- ДИ для доли — интервал Уилсона. Лучше ведёт себя, чем традиционный интервал Уолда, особенно вблизи 0 или 1. Только для бинарных категориальных переменных.
- ДИ для стандартного отклонения — на основе распределения хи-квадрат; критические значения вычисляются итеративной инверсией регуляризованной неполной гамма-функции. Доступен только при включённом флажке Использовать выборочную статистику (n-1), поскольку формула опирается на (n−1)s²/σ² ~ χ²(n−1) — соотношение, выполняющееся лишь для выборочного СО; при переключении на статистики генеральной совокупности флажок блокируется и снимается.
- ДИ для дисперсии — получается возведением в квадрат границ ДИ для СО. Действует то же требование к выборочной статистике, что и для ДИ для стандартного отклонения.
- ДИ для асимметрии и ДИ для эксцесса — см. примечание о методах выше. ДИ для псевдомедианы Ходжеса-Лемана выводится вместе с самой оценкой в разделе «Центральная тенденция».
Интерпретация 95%-го ДИ: если повторить исследование многократно, примерно 95% вычисленных интервалов будут содержать истинное значение параметра генеральной совокупности.
Разнообразие
Меры разнообразия из теории информации и экологии, показывающие, насколько равномерно значения распределены между уровнями. Вычисляются как для категориальных, так и для числовых переменных — в случае числовых каждое уникальное значение рассматривается как отдельный уровень.
-
Энтропия Шеннона (H) — H = −Σ pᵢ · ln(pᵢ), в натах. Абсолютная мера разнообразия: H = 0, когда все значения одинаковы, и H = ln k, когда k уровней распределены идеально равномерно. Зависит от количества уровней, поэтому напрямую не сравнима для переменных с разным k.
-
Равномерность Пиелу (J) — J = H / ln(k), где k — количество уникальных уровней. Нормирует энтропию Шеннона до диапазона [0, 1] — поэтому эта мера сравнима между переменными: 1 — идеальная равномерность, 0 — один уровень доминирует. Не определена, когда уровень всего один.
-
Джини-Симпсон (1 − D) — вероятность того, что два случайно выбранных наблюдения попадут в разные уровни. Значения в диапазоне [0, 1]; чем выше, тем больше разнообразие. Стандартный «индекс разнообразия» в экологии.
H и J: они отвечают на разные вопросы. H говорит, сколько разнообразия здесь в абсолютных величинах (2 уровня по 50/50 дают H ≈ 0,69, а 100 уровней с почти равномерным распределением — H ≈ 4,6). J говорит, насколько равномерно используются присутствующие уровни — в обоих этих примерах J ≈ 1. Указывайте обе меры, если интересны обе; только J — если нужно сравнение между переменными.
Для непрерывных числовых переменных: если большинство значений уникальны, H ≈ ln n и J ≈ 1 — математически корректно, но не очень информативно. Меры разнообразия наиболее полезны для категориальных переменных и дискретных числовых (баллов Ликерта, счётчиков).
Статистики выборки и генеральной совокупности
Флажок Использовать выборочную статистику (знаменатель n-1) (включён по умолчанию) определяет, используют ли дисперсия, стандартное отклонение, винзоризованное СО и коэффициент вариации выборочные формулы (знаменатель n-1, со скорректированным смещением) или их генеральные аналоги. Асимметрия и эксцесс всегда используют свои скорректированные на смещение выборочные формы (G₁, G₂) независимо от этого переключателя.
- Статистики выборки (n-1) — используйте, когда данные представляют собой выборку из более широкой генеральной совокупности, что почти всегда верно для исследований. В таблице результатов обозначаются как s² и s.
- Статистики генеральной совокупности (n) — используйте только тогда, когда данные охватывают всю генеральную совокупность. В таблице обозначаются как σ² и σ.
В случае сомнений оставьте статистики выборки (n-1). Использование n вместо n-1 на выборочных данных занижает истинную вариативность.
Категориальные переменные
Для категориальных переменных формируется отдельная таблица с ограниченным набором статистик:
- Объём выборки, количество пропущенных, число уникальных значений
- Мода (и её частота)
- Меры разнообразия (энтропия Шеннона H, равномерность Пиелу J, Джини-Симпсон)
- Доля, СО доли и ДИ для доли — только для бинарных переменных (ровно две непропущенные категории). Каждый показатель можно выбрать независимо от других; столбец Категория показывает, к какому из двух уровней относится доля (берётся более частый).
Контрольный список для отчёта
Что важно включить при описании результатов:
Метод:
- Какие статистики приводятся и почему (например, медиана и МКР вместо среднего и СО при асимметричных данных)
- Использовались ли статистики выборки (n-1) или генеральной совокупности (n)
- Как обрабатывались пропущенные данные
Результаты:
- Центральная тенденция (среднее или медиана в зависимости от формы распределения; псевдомедиана Ходжеса-Лемана для симметричных, но ненормальных данных)
- Разброс (СО, винзоризованное СО, МКР или размах)
- Объём выборки по каждой переменной, особенно если он различается из-за пропущенных значений
- Асимметрия и эксцесс, если форма распределения важна для последующего анализа (укажите использованный метод СО/ДИ — аналитический или бутстрэп)
- Количество выбросов, если экстремальные значения влияют на интерпретацию — укажите использованное правило (1,5·МКР, 3·МКР или модифицированное Z с |M|>3,5); полезно также привести диапазон значений без выбросов, чтобы читателю было понятно, какие именно значения были отмечены
Воспроизводимость
Большинство описательных статистик вычисляется в браузере без обращения к R. Единственное исключение — псевдомедиана Ходжеса-Лемана и её доверительный интервал: они вычисляются через базовую функцию R stats::wilcox.test(x, conf.int = TRUE, conf.level = ...). Это соответствует тому же правилу построения ДИ (точная инверсия знаковых рангов для малых n, нормальное приближение для больших), которое R использует в своей экосистеме. Соответствующий вызов появляется в R-консоли, и при выборе HL автоматически добавляется цитирование пакета stats.
Бутстрэп-пути (ДИ BCa для асимметрии и эксцесса, а также СО медианы) используют Math.random, когда Зерно бутстрэпа пусто, поэтому последовательные запуски на одних и тех же данных дают слегка разные интервалы. Введите любое целое значение в этой настройке, чтобы результаты были полностью воспроизводимы: каждый бутстрэп-вызов в рамках запуска стартует от этого зерна.
Типичные ошибки
Приводить среднее и СО при асимметричных данных. При сильной асимметрии среднее смещено в сторону хвоста, а СО завышено экстремальными значениями. Вместо них следует указывать медиану и МКР — они описывают «типичное» значение и разброс без искажений, вносимых выбросами.
Игнорировать паттерн пропущенных данных. Переменная с 40% пропущенных значений несёт совершенно иную информацию, чем переменная с 2% пропущенных. Всегда проверяйте количество пропущенных перед интерпретацией остальных статистик — высокая доля пропусков может смещать все сводные показатели.
Применять коэффициент вариации к переменным с разной смысловой шкалой. КВ полезен для сравнения относительной вариабельности, но он информативен только для переменных с истинным нулём (шкала отношений). Сравнение КВ температуры в Цельсиях и времени реакции в миллисекундах некорректно: 0°C не является истинным нулём. Модуль защищает от самого очевидного злоупотребления, выводя Н/Д при наличии отрицательных значений, однако отсутствие отрицательных значений само по себе не делает КВ осмысленным — интервальные шкалы (годы, даты) шкалой отношений всё равно не являются.
Ограничиться числом уникальных значений как проверкой качества данных. Обнаружить 5 уникальных значений у бинарной переменной — хорошее начало, но таблица частот (Анализ распределения) покажет, какие именно значения неожиданны, что куда полезнее для практических действий.
Считать моду информативной для непрерывных числовых переменных. Мода считает совпадения по точному равенству. Для непрерывных измерений (рост, время реакции, показания датчиков) два значения почти никогда не совпадают, поэтому результат — либо «нет моды», либо почти случайная связка совпавших значений; ни то, ни другое не полезно. В качестве «типичного значения» используйте медиану или псевдомедиану Ходжеса-Лемана, а моду указывайте только для категориальных или дискретных числовых переменных (баллы Ликерта, счётчики, порядковые коды).
Считать, что СО или ДИ для доли «не работают», если они не выводятся. Эти статистики вычисляются только для бинарных категориальных переменных (ровно два непропущенных уровня). При одном уровне доля тривиально равна 1; при трёх и более одна доля уже не описывает переменную в целом — для полной разбивки по категориям используйте таблицу частот.
Принимать «Нет моды» за нулевое число наблюдений. Ячейка Нет моды не означает, что переменная пуста — она означает, что все наблюдаемые значения уникальны, то есть ни одно значение не встречается чаще остальных. Для непрерывных числовых данных это типичная ситуация: мода обычно информативна только для дискретных или категориальных переменных.
Примечания
- Геометрическое и гармоническое среднее отображаются как Н/Д, если хотя бы одно значение равно нулю или отрицательное
- Коэффициент вариации не вычисляется, когда среднее равно нулю либо хотя бы одно значение отрицательно — при наведении на пустую ячейку КВ показывается пояснение
- Доля, СО доли и ДИ для доли пусты для небинарных категориальных переменных — при наведении на пустую ячейку показывается пояснение
- Асимметрия и эксцесс отображаются как Н/Д, когда все значения одинаковы (нулевая дисперсия)
- Мода отображается как Нет моды, когда все значения уникальны (ни одно не повторяется)
- ДИ для медианы вычисляется точно по порядковым статистикам выборки и показывается как Н/Д для малых выборок, где ни одна пара рангов не обеспечивает требуемого уровня доверия (например, n = 5 при 95%) — при наведении на пустую ячейку показывается пояснение
- ДИ для доли использует интервал Уилсона, естественно ограниченный диапазоном [0, 1] без искусственного «зажима»
- Каждый запуск создаёт новую карточку результатов — можно сформировать несколько таблиц с разными выбранными статистиками и сравнить их