На этой странице
- Как использовать
- Шаблоны настроек
- Доступные статистики
- Центральная тенденция
- Разброс
- Форма распределения
- Количественные показатели
- Квантили
- Стандартные ошибки
- Доверительные интервалы
- Статистики выборки и генеральной совокупности
- Категориальные переменные
- Контрольный список для отчёта
- Типичные ошибки
- Примечания
Описательная статистика
Модуль Описательная статистика вычисляет сводные показатели для выбранных переменных. Выберите нужные статистики, нажмите кнопку — и получите таблицу результатов с одной строкой на переменную.
Как использовать
- Выберите переменные
- Откройте раздел Описательная статистика из меню
- Отметьте нужные статистики (или примените шаблон настроек)
- Нажмите Сформировать описательную статистику
Результаты выводятся в виде двух таблиц (при наличии обоих типов переменных): одной для числовых переменных, другой для категориальных.
Шаблоны настроек
Два шаблона настроек конфигурируют флажки для типовых сценариев:
- Параметрический — среднее, стандартное отклонение, минимум, максимум, статистики выборки (n-1)
- Непараметрический — медиана, минимум, максимум, квартили (25%, 75%), статистики выборки (n-1)
При применении шаблона все остальные флажки снимаются.
Доступные статистики
Центральная тенденция
Меры, показывающие, где находится «центр» данных.
-
Среднее — среднее арифметическое. Наиболее полезно, когда данные примерно симметричны и не содержат экстремальных выбросов.
-
Медиана — центральное значение в упорядоченных данных. Устойчивее среднего при асимметричных данных или наличии выбросов.
Среднее и медиана: когда они близки, данные примерно симметричны. Когда расходятся — что-то тянет среднее в сторону: как правило, выбросы или асимметрия хвостов распределения. Например, если среднее значение зарплаты составляет 150 000 ₽, а медиана — 90 000 ₽, несколько очень высоких зарплат завышают среднее. В таких случаях медиана точнее отражает «типичное» значение.
-
Мода — наиболее часто встречающееся значение. Может быть полезна для любого типа переменных, но особенно — для категориальных. Переменная может иметь несколько мод, если несколько значений встречаются с одинаковой максимальной частотой.
-
Усечённое среднее — среднее после отсечения заданного процента экстремальных значений с обоих концов. Процент усечения (5–25%, по умолчанию 10%) задаёт размер отсечения. Усечение 10% удаляет нижние 10% и верхние 10% значений перед вычислением среднего. Это компромисс между средним (чувствительным к выбросам) и медианой (учитывающей только центральное значение).
-
Геометрическое среднее — корень n-й степени из произведения значений. Подходит для мультипликативных данных: темпов роста, коэффициентов. Вычисляется только при условии, что все значения положительные.
-
Гармоническое среднее — обратная величина среднего обратных значений. Полезно для усреднения интенсивностей (например, скорости, эффективности). Вычисляется только при условии, что все значения положительные.
Разброс
Меры, показывающие, насколько рассеяны данные.
-
Минимум и максимум — наименьшее и наибольшее значения. Всегда стоит проверять: неожиданный минимум (например, 0 для возраста) или максимум (99 для класса) нередко свидетельствует об ошибке ввода данных или о незакодированных пропущенных значениях.
-
Размах — разность между максимумом и минимумом. Легко интерпретируется, но крайне чувствителен к выбросам: одно экстремальное значение кардинально меняет размах.
-
Дисперсия — среднее квадратичное отклонение от среднего. Выражается в квадратных единицах исходной переменной: например, при измерении роста в сантиметрах дисперсия будет в см². Это затрудняет прямую интерпретацию — на практике удобнее стандартное отклонение.
-
Стандартное отклонение (СО) — квадратный корень из дисперсии. Выражается в тех же единицах, что и исходная переменная, и является наиболее распространённой мерой разброса.
Практическое правило: в примерно нормальном распределении около 68% значений попадают в диапазон ±1 СО от среднего, около 95% — в диапазон ±2 СО.
- Межквартильный размах (МКР) — разность между 75-м и 25-м процентилями. Отражает разброс средних 50% данных — фактически диапазон «типичных» значений без учёта крайностей. В отличие от СО, не подвержен влиянию выбросов: единственное экстремальное значение не изменит МКР.
Практическое применение: если МКР заметно меньше размаха, значит, данные имеют компактное ядро с несколькими удалёнными значениями. Это быстрый способ оценить, не завышают ли выбросы показатели разброса.
- Среднее абсолютное отклонение (САО) — среднее абсолютное расстояние от среднего. Как и МКР, менее чувствительно к выбросам, чем СО: отклонения не возводятся в квадрат (возведение в квадрат усиливает влияние экстремальных значений). САО хорошо дополняет медиану при асимметричных данных.
СО vs. САО: для нормально распределённых данных они рассказывают примерно одно и то же. Но при наличии выбросов или тяжёлых хвостов СО может быть завышено, тогда как САО остаётся стабильным. Если СО заметно больше САО — это признак того, что разброс «раздут» несколькими экстремальными значениями.
- Коэффициент вариации (КВ) — стандартное отклонение, делённое на среднее, выраженное в процентах. Полезен для сравнения вариабельности переменных с разными шкалами измерений — например, сравнения разброса времени реакции (в миллисекундах) с разбросом показателей точности (в процентах). Не вычисляется, когда среднее равно нулю.
Форма распределения
Описывает распределение значений помимо центра и разброса.
- Асимметрия — измеряет несимметричность. Значение, близкое к 0, указывает на симметричное распределение. Положительная асимметрия означает более длинный правый хвост, отрицательная — более длинный левый.
Пример: данные о доходах, как правило, имеют положительную асимметрию: большинство людей зарабатывают умеренные суммы, а длинный правый хвост соответствует высокооплачиваемым.
- Эксцесс — измеряет «тяжесть» хвостов относительно нормального распределения. По умолчанию представлен как избыточный эксцесс (эксцесс минус 3), поэтому нормальное распределение имеет значение 0. Положительные значения указывают на более тяжёлые хвосты, отрицательные — на более лёгкие.
Тяжёлые и лёгкие хвосты: распределение с тяжёлыми хвостами (положительный эксцесс) порождает больше экстремальных значений, чем ожидалось бы от нормального — больше выбросов, больше «неожиданных» точек. Распределение с лёгкими хвостами (отрицательный эксцесс) — наоборот: значения сгруппированы теснее, экстремальных мало. Например, баллы за экзамен, сгруппированные в середине с редкими очень высокими или очень низкими результатами, будут иметь отрицательный эксцесс.
Количественные показатели
-
Объём выборки (N) — количество ненулевых наблюдений.
-
Число уникальных значений — сколько различных значений принимает переменная. Помогает выявить ошибки кодирования или проверить категориальные переменные. Например, переменная «Ведущая рука» с 5 уникальными значениями при ожидаемых 2 может указывать на непоследовательное кодирование: «Левая», «левая», «Л», «ПРАВАЯ», «Правая».
-
Количество пропущенных значений — сколько наблюдений не имеют значения, в виде числа и процента от общего.
-
Количество нулей — сколько наблюдений равны нулю, в виде числа и процента.
Квантили
-
Квартили (25%, 75%) — значения, ниже которых находятся 25% и 75% данных соответственно. Вместе с медианой (50-й процентиль) они определяют «ящик» в коробчатом графике. 25-й процентиль (К1) означает: «25% участников набрали меньше этого значения».
-
Произвольные процентили — введите значения через запятую (например, «10, 90» или «5, 25, 50, 75, 95»), чтобы вычислить любые нужные процентили.
Стандартные ошибки
Стандартная ошибка оценивает, насколько изменилась бы статистика при повторении исследования на другой выборке из той же генеральной совокупности. Меньшая ст. ошибка означает более точную оценку.
Стандартное отклонение и стандартная ошибка: СО описывает разброс отдельных значений в данных. Стандартная ошибка описывает точность вычисленной статистики (например, среднего). СО остаётся примерно постоянным с ростом выборки; стандартная ошибка уменьшается — бо́льшие выборки дают более точные оценки.
- СО среднего — стандартная ошибка среднего арифметического
- СО медианы — стандартная ошибка медианы
- СО доли — только для бинарных категориальных переменных (ровно две категории)
Доверительные интервалы
Доверительный интервал задаёт диапазон правдоподобных значений для параметра генеральной совокупности. Ширина интервала зависит от уровня доверия, заданного в настройках (по умолчанию: 95%).
- ДИ для среднего
- ДИ для медианы
- ДИ для доли — только для бинарных категориальных переменных
- ДИ для стандартного отклонения
- ДИ для дисперсии
Интерпретация 95%-го ДИ: если повторить исследование многократно, примерно 95% вычисленных интервалов будут содержать истинное значение параметра генеральной совокупности.
Статистики выборки и генеральной совокупности
Флажок Использовать статистики выборки (знаменатель n-1) (включён по умолчанию) определяет, делится ли дисперсия и стандартное отклонение на n-1 (выборка) или на n (генеральная совокупность).
- Статистики выборки (n-1) — используйте, когда данные представляют собой выборку из более широкой генеральной совокупности, что почти всегда верно для исследований. В таблице результатов обозначаются как s² и s.
- Статистики генеральной совокупности (n) — используйте только тогда, когда данные охватывают всю генеральную совокупность. В таблице обозначаются как σ² и σ.
В случае сомнений оставьте статистики выборки (n-1). Использование n вместо n-1 на выборочных данных занижает истинную вариативность.
Категориальные переменные
Для категориальных переменных формируется отдельная таблица с ограниченным набором статистик:
- Объём выборки, количество пропущенных, число уникальных значений
- Мода (и её частота)
- Доля и стандартная ошибка доли — только для бинарных переменных (ровно две непропущенные категории)
- ДИ для доли — то же условие
Контрольный список для отчёта
Что важно включить при описании результатов:
Метод:
- Какие статистики приводятся и почему (например, медиана и МКР вместо среднего и СО при асимметричных данных)
- Использовались ли статистики выборки (n-1) или генеральной совокупности (n)
- Как обрабатывались пропущенные данные
Результаты:
- Центральная тенденция (среднее или медиана в зависимости от формы распределения)
- Разброс (СО, МКР или размах)
- Объём выборки по каждой переменной, особенно если он различается из-за пропущенных значений
- Асимметрия и эксцесс, если форма распределения важна для последующего анализа
Типичные ошибки
Приводить среднее и СО при асимметричных данных. При сильной асимметрии среднее смещено в сторону хвоста, а СО завышено экстремальными значениями. Вместо них следует указывать медиану и МКР — они описывают «типичное» значение и разброс без искажений, вносимых выбросами.
Игнорировать паттерн пропущенных данных. Переменная с 40% пропущенных значений несёт совершенно иную информацию, чем переменная с 2% пропущенных. Всегда проверяйте количество пропущенных перед интерпретацией остальных статистик — высокая доля пропусков может смещать все сводные показатели.
Применять коэффициент вариации к переменным с разной смысловой шкалой. КВ полезен для сравнения относительной вариабельности, но он информативен только для переменных с истинным нулём (шкала отношений). Сравнение КВ температуры в Цельсиях и времени реакции в миллисекундах некорректно: 0°C не является истинным нулём.
Ограничиться числом уникальных значений как проверкой качества данных. Обнаружить 5 уникальных значений у бинарной переменной — хорошее начало, но таблица частот (Анализ распределения) покажет, какие именно значения неожиданны, что куда полезнее для практических действий.
Примечания
- Геометрическое и гармоническое среднее автоматически исключаются, если какое-либо значение равно нулю или отрицательное
- Коэффициент вариации исключается, когда среднее равно нулю
- Пропущенные значения подсчитываются до обработки данных, поэтому счётчик отражает исходный набор данных
- Каждый запуск создаёт новую карточку результатов — можно сформировать несколько таблиц с разными выбранными статистиками и сравнить их