Загрузка калькулятора…

Что такое описательная статистика и зачем она нужна

Описательная статистика (descriptive statistics) — раздел математической статистики, посвящённый методам сбора, организации, обобщения и представления данных. В отличие от статистики вывода (inferential statistics), описательная статистика не делает предсказаний и не проверяет гипотезы — она описывает и суммирует свойства имеющейся выборки с помощью числовых характеристик и графиков.

Описательная статистика — фундаментальный инструмент анализа данных, который применяется повсюду: в науке (обработка экспериментальных результатов), в бизнесе (анализ продаж, KPI, опросов клиентов), в медицине (описание клинических данных), в образовании (анализ успеваемости, результатов тестов), в социологии (обработка анкет), в спорте (статистика игроков) и в повседневной жизни (бюджет, расход топлива, температура).

Наш онлайн-калькулятор статистики позволяет мгновенно вычислить все основные описательные характеристики набора данных: среднее арифметическое, медиану, моду, размах, дисперсию (генеральную и выборочную), стандартное отклонение (σ и s), квартили Q1 и Q3, межквартильный размах (IQR), минимум и максимум. Просто введите числа через запятую, пробел или перенос строки — и получите полный статистический анализ.

Среднее арифметическое — формула, свойства и примеры

Среднее арифметическое (arithmetic mean, обозначается x̄ для выборки или μ для генеральной совокупности) — наиболее распространённая мера центральной тенденции. Формула:

x̄ = (x₁ + x₂ + … + xₙ) / n = ∑xᵢ / n

Среднее арифметическое минимизирует сумму квадратов отклонений от себя — это делает его оптимальной оценкой центра распределения в смысле метода наименьших квадратов. Именно поэтому среднее так широко используется в регрессионном анализе, контроле качества и финансовой аналитике.

Пример. Оценки студента за семестр: 4, 5, 3, 5, 4, 5, 4, 3, 5, 4. Среднее = (4 + 5 + 3 + 5 + 4 + 5 + 4 + 3 + 5 + 4) / 10 = 42 / 10 = 4,2. Это «средний балл» студента.

Свойства среднего арифметического: (1) сумма отклонений всех значений от среднего равна нулю: ∑(xᵢ − x̄) = 0; (2) если ко всем значениям прибавить константу c, среднее увеличится на c; (3) если все значения умножить на константу c, среднее тоже умножится на c; (4) среднее чувствительно к выбросам — одно аномально большое или малое значение может существенно сдвинуть среднее.

Медиана — определение, формула, преимущества

Медиана (Me) — значение, которое делит упорядоченную выборку на две равные половины. Для нахождения медианы необходимо отсортировать данные по возрастанию, а затем:

  • Если n нечётное: Me = x₍(n+1)/2₎ — средний элемент.
  • Если n чётное: Me = (x₍n/2₎ + x₍n/2+1₎) / 2 — среднее двух средних элементов.

Пример. Данные: 2, 5, 8, 11, 15. n = 5 (нечётное), медиана = x₃ = 8. Данные: 3, 7, 9, 12. n = 4 (чётное), медиана = (7 + 9) / 2 = 8.

Ключевое преимущество медианы — устойчивость к выбросам (робастность). Если в наборе зарплат 30 000, 35 000, 40 000, 45 000, 500 000, среднее = 130 000, а медиана = 40 000. Медиана точнее отражает «типичную» зарплату. Именно поэтому при описании доходов населения, цен на недвижимость и других распределений с длинным хвостом используют медиану, а не среднее.

В медицине медиана выживаемости — стандартный показатель эффективности лечения. В маркетинге медианное время на сайте — более информативная метрика, чем среднее (которое искажается единичными долгими сессиями). В контроле качества медиана используется в построении медианных контрольных карт.

Мода — наиболее частое значение

Мода (Mo) — значение, которое встречается в выборке чаще всего. Если все значения уникальны, говорят, что моды нет. Распределение может быть:

  • Унимодальным — одна мода (одна вершина на гистограмме).
  • Бимодальным — две моды (две вершины).
  • Мультимодальным — три и более мод.

Пример. Данные: 2, 3, 3, 5, 7, 7, 7, 9. Мода = 7 (встречается 3 раза). Данные: 1, 2, 3, 4, 5 — моды нет (все частоты равны 1).

Мода — единственная мера центральной тенденции, применимая к категориальным (номинальным) данным. Например, если опрос о любимом цвете дал результаты: красный (30), синий (45), зелёный (25), мода = синий. Среднее и медиана для таких данных не определены.

В розничной торговле мода используется для определения самого популярного размера одежды, самого продаваемого товара, самого частого дня покупок. В демографии — для определения наиболее распространённого возраста в населении.

Размах, дисперсия и стандартное отклонение — меры рассеивания

Меры центральной тенденции (среднее, медиана, мода) описывают «центр» данных, но не говорят о том, насколько данные разбросаны. Для оценки разброса используются меры рассеивания (variability).

Размах (Range, R) — простейшая мера рассеивания: R = xₘₐₓ − xₘᵢₙ. Размах легко вычислить, но он использует только два крайних значения и полностью зависит от выбросов.

Дисперсия (Variance) — средний квадрат отклонений от среднего. Генеральная дисперсия:

σ² = ∑(xᵢ − μ)² / N

Выборочная дисперсия (с поправкой Бесселя):

s² = ∑(xᵢ − x̄)² / (n − 1)

Поправка Бесселя (деление на n − 1 вместо n) корректирует систематическое занижение при оценке дисперсии генеральной совокупности по выборке. Число n − 1 называется количеством степеней свободы.

Стандартное отклонение (Standard Deviation) — квадратный корень из дисперсии. Генеральное: σ = √(σ²), выборочное: s = √(s²). В отличие от дисперсии, стандартное отклонение измеряется в тех же единицах, что и исходные данные, поэтому его легче интерпретировать.

Пример. Данные: 4, 8, 6, 5, 3, 2, 8, 9, 2, 5. Среднее = 5,2. Сумма квадратов отклонений = (4−5,2)² + (8−5,2)² + … = 49,6. Генеральная дисперсия = 49,6 / 10 = 4,96. Выборочная дисперсия = 49,6 / 9 ≈ 5,51. Генеральное σ ≈ 2,227. Выборочное s ≈ 2,348.

Квартили Q1, Q3 и межквартильный размах IQR

Квартили — три значения, которые делят упорядоченный набор данных на четыре равные части. Q1 (первый квартиль, 25-й перцентиль) — значение, ниже которого находится 25% данных. Q2 (второй квартиль) совпадает с медианой. Q3 (третий квартиль, 75-й перцентиль) — значение, ниже которого 75% данных.

Существует несколько методов вычисления квартилей (метод Туки, метод Мура и Маккейба, линейная интерполяция). Наш калькулятор использует метод линейной интерполяции, совместимый с Excel и Google Sheets: Q(p) = x₍⌊i⌋₎ + (i − ⌊i⌋) × (x₍⌈i⌉₎ − x₍⌊i⌋₎), где i = (n − 1) × p.

Межквартильный размах (IQR, Interquartile Range) = Q3 − Q1 — характеризует разброс центральных 50% данных. IQR устойчив к выбросам (в отличие от размаха R) и широко используется для обнаружения аномальных значений.

Правило 1,5×IQR для выбросов. Нижняя граница = Q1 − 1,5 × IQR. Верхняя граница = Q3 + 1,5 × IQR. Значения за пределами этих границ считаются потенциальными выбросами. Этот метод, предложенный Джоном Тьюки, является основой «ящика с усами» (box plot) — одного из самых информативных графических представлений в статистике.

Пример. Данные (уже отсортированы): 2, 4, 6, 8, 10, 12, 14, 16. Q1 = 5 (интерполяция между 4 и 6), Q3 = 13 (интерполяция между 12 и 14). IQR = 13 − 5 = 8. Нижняя граница = 5 − 12 = −7. Верхняя = 13 + 12 = 25. Все значения внутри границ — выбросов нет.

Правило трёх сигм и нормальное распределение

Правило трёх сигм (three-sigma rule, правило 68–95–99,7) — эмпирическое правило для нормального (гауссова) распределения, устанавливающее связь между стандартным отклонением и долей данных, попадающих в определённый интервал:

ИнтервалДоля данныхОписание
[μ − σ; μ + σ]≈ 68,27%Примерно две трети данных
[μ − 2σ; μ + 2σ]≈ 95,45%Почти все данные
[μ − 3σ; μ + 3σ]≈ 99,73%Практически все данные

Если значение выходит за пределы μ ± 3σ, его вероятность менее 0,27% — такое значение можно считать аномальным. Этот принцип лежит в основе статистического контроля качества (контрольные карты Шухарта), обнаружения мошенничества, фильтрации шумов в сигналах и многих других приложений.

Важно помнить: правило трёх сигм точно работает только для нормального распределения. Для произвольных распределений применяется неравенство Чебышёва: доля данных в интервале [μ − kσ; μ + kσ] составляет не менее 1 − 1/k² для любого k > 1. Например, в пределах 2σ гарантированно не менее 75% данных (по Чебышёву), а для нормального распределения — 95,45%.

Коэффициент вариации — сравнение изменчивости

Коэффициент вариации (CV, Coefficient of Variation) — относительная мера рассеивания, выраженная в процентах:

CV = (s / x̄) × 100%

Коэффициент вариации позволяет сравнивать изменчивость данных с разными масштабами. Например, стандартное отклонение зарплат (в рублях) и роста людей (в сантиметрах) нельзя сравнивать напрямую, но можно сравнить их CV. Общепринятая шкала: CV < 10% — слабая вариация, 10–25% — умеренная, > 25% — сильная.

В химическом и фармацевтическом анализе CV — стандартная мера воспроизводимости метода измерения. В финансах CV используется для оценки риска инвестиций: чем выше CV, тем выше относительный риск при той же доходности. В метрологии CV показывает точность прибора.

Описательная статистика в Excel и Python

Описательные статистики можно вычислить во множестве программных инструментов. В Microsoft Excel / Google Sheets доступны функции: СРЗНАЧ (AVERAGE) — среднее, МЕДИАНА (MEDIAN) — медиана, МОДА (MODE) — мода, ДИСП.Г (VAR.P) — генеральная дисперсия, ДИСП.В (VAR.S) — выборочная дисперсия, СТАНДОТКЛОН.Г (STDEV.P) — генеральное σ, СТАНДОТКЛОН.В (STDEV.S) — выборочное s, КВАРТИЛЬ (QUARTILE) — квартиль, МИН/МАКС — минимум/максимум.

В Python с библиотеками NumPy и pandas вычисление описательных статистик занимает одну строку: df.describe() для pandas DataFrame или np.mean(), np.median(), np.std(), np.var(), np.percentile() для массивов NumPy. Библиотека SciPy предоставляет дополнительные функции: scipy.stats.mode(), scipy.stats.iqr(), scipy.stats.describe() (полная описательная статистика одним вызовом).

В R базовые функции: mean(), median(), var(), sd(), quantile(), range(), summary() (последняя выводит минимум, Q1, медиану, среднее, Q3 и максимум одновременно — так называемую «пятичисловую сводку» плюс среднее).

Наш онлайн-калькулятор удобен тем, что не требует установки программного обеспечения — достаточно скопировать данные в текстовое поле и мгновенно получить все описательные статистики.

Применение описательной статистики на практике

Описательная статистика используется практически в каждой области знаний. Рассмотрим несколько примеров:

Образование. Средний балл ЕГЭ по региону, медианный балл класса, стандартное отклонение оценок (характеризует «ровность» подготовки группы). Если σ мало — ученики показали схожие результаты; если велико — разброс значительный.

Экономика. Средняя и медианная зарплата (медиана обычно ниже средней из-за правого перекоса распределения доходов), дисперсия доходности акций (мера инвестиционного риска), коэффициент вариации ВВП (стабильность экономики).

Медицина. Среднее артериальное давление в группе пациентов, стандартное отклонение уровня глюкозы (вариабельность — важный диагностический показатель), медианная продолжительность лечения, IQR массы тела новорождённых.

Контроль качества. Среднее и стандартное отклонение используются для построения контрольных карт Шухарта. Если значение выходит за пределы μ ± 3σ, процесс считается вышедшим из-под контроля. Коэффициент вариации используется для оценки стабильности производственного процесса.

Спорт. Средний результат спортсмена, медианное время круга, дисперсия бросков (стабильность). В баскетболе: среднее количество очков за игру, ассистов, подборов — всё это описательная статистика.

Таблица формул описательной статистики

ПоказательФормулаОбозначение
Среднее арифметическое∑xᵢ / nx̄, μ
МедианаСредний элемент упорядоченного рядаMe, Q2
МодаНаиболее частое значениеMo
Размахxₘₐₓ − xₘᵢₙR
Генеральная дисперсия∑(xᵢ − μ)² / Nσ²
Выборочная дисперсия∑(xᵢ − x̄)² / (n − 1)
Генеральное ст. откл.√(σ²)σ
Выборочное ст. откл.√(s²)s
Q1 (25-й перцентиль)Линейная интерполяцияQ1
Q3 (75-й перцентиль)Линейная интерполяцияQ3
Межквартильный размахQ3 − Q1IQR
Коэффициент вариации(s / x̄) × 100%CV

Описательная статистика vs статистика вывода

Описательная статистика и статистика вывода — два фундаментальных раздела статистики, решающих разные задачи:

Описательная статистика отвечает на вопрос «что происходит с нашими данными?» Она суммирует и визуализирует имеющиеся данные с помощью мер центральной тенденции (среднее, медиана, мода), мер рассеивания (дисперсия, стандартное отклонение, IQR, размах) и графиков (гистограмма, ящик с усами, точечная диаграмма).

Статистика вывода (inferential statistics) отвечает на вопрос «что можно сказать о генеральной совокупности по выборке?» Она включает доверительные интервалы, проверку гипотез (t-тест, χ²-тест, ANOVA), регрессионный анализ, корреляцию. Статистика вывода невозможна без описательной — прежде чем проверять гипотезу, нужно описать данные.

Типичный workflow анализа данных начинается с описательной статистики: вычислить средние, дисперсии, построить гистограммы, проверить на выбросы (IQR-метод). Только после этого переходят к статистике вывода: проверяют гипотезы, строят модели, делают прогнозы. Пропускать этап описательной статистики — одна из самых распространённых ошибок начинающих аналитиков.

Источники

  • Гмурман В. Е. «Теория вероятностей и математическая статистика» — классический учебник по математической статистике для вузов
  • Кобзарь А. И. «Прикладная математическая статистика» — описательная статистика, критерии, таблицы распределений
  • Walpole R. E. et al. «Probability & Statistics for Engineers and Scientists» — международный учебник по прикладной статистике
  • ФИПИ — Федеральный институт педагогических измерений, демоверсии и спецификации ЕГЭ по математике 2026
  • Tukey J. W. «Exploratory Data Analysis» (1977) — классическая работа о квартилях, IQR и ящиках с усами

Часто задаваемые вопросы

Что такое среднее арифметическое и как его рассчитать?
Среднее арифметическое (x̄) — это сумма всех значений выборки, делённая на количество значений. Формула: x̄ = (x₁ + x₂ + … + xₙ) / n. Среднее арифметическое является мерой центральной тенденции и показывает «типичное» значение в наборе данных. Например, для набора 3, 5, 7, 9, 11 среднее равно (3 + 5 + 7 + 9 + 11) / 5 = 7. Важно помнить, что среднее чувствительно к выбросам — одно аномальное значение может значительно исказить результат.
Чем отличается медиана от среднего?
Медиана — это значение, которое делит упорядоченный набор данных на две равные половины. В отличие от среднего, медиана нечувствительна к выбросам. Если число элементов нечётное, медиана — это средний элемент; если чётное — среднее двух средних. Пример: для данных 1, 3, 5, 100, 200 среднее = 61,8, а медиана = 5. Медиана даёт более реалистичную картину при наличии аномальных значений (например, при анализе зарплат).
Что такое мода и может ли быть несколько мод?
Мода (Mo) — это значение, которое встречается в выборке чаще всего. Если все значения уникальны — моды нет. Если два значения встречаются одинаково часто — распределение бимодальное (две моды). Если три и более — мультимодальное. Например, в наборе 2, 3, 3, 5, 7, 7 моды равны 3 и 7 (обе встречаются по 2 раза). Мода — единственная мера центральной тенденции, применимая к категориальным (не числовым) данным.
В чём разница между генеральной и выборочной дисперсией?
Генеральная (популяционная) дисперсия σ² = Σ(xᵢ − μ)² / N используется, когда данные представляют всю генеральную совокупность. Выборочная дисперсия s² = Σ(xᵢ − x̄)² / (n − 1) применяется при работе с выборкой из большей совокупности. Делитель (n − 1) вместо n — это поправка Бесселя, которая компенсирует систематическое занижение дисперсии при оценке по выборке. На практике, если данные — выборка (что бывает чаще всего), используйте выборочную дисперсию.
Что такое стандартное отклонение и зачем оно нужно?
Стандартное отклонение — это квадратный корень из дисперсии. Генеральное отклонение σ = √(σ²), выборочное s = √(s²). В отличие от дисперсии (которая измеряется в квадратных единицах), стандартное отклонение имеет ту же единицу измерения, что и исходные данные, поэтому интерпретировать его проще. По правилу трёх сигм для нормального распределения: ∼68% данных находятся в интервале [μ − σ; μ + σ], ∼95% — в [μ − 2σ; μ + 2σ], ∼99,7% — в [μ − 3σ; μ + 3σ].
Что такое квартили Q1, Q3 и межквартильный размах IQR?
Квартили делят упорядоченный набор данных на четыре равные части. Q1 (25-й перцентиль) — значение, ниже которого 25% данных. Q3 (75-й перцентиль) — значение, ниже которого 75% данных. Медиана — это Q2. Межквартильный размах IQR = Q3 − Q1 характеризует разброс средних 50% данных. IQR используется для обнаружения выбросов: значения ниже Q1 − 1,5×IQR или выше Q3 + 1,5×IQR считаются аномальными.
Как определить выбросы в данных?
Наиболее распространённый метод — правило 1,5×IQR. Вычислите Q1, Q3 и IQR = Q3 − Q1. Нижняя граница = Q1 − 1,5×IQR, верхняя = Q3 + 1,5×IQR. Все значения за пределами этих границ — потенциальные выбросы. Другой метод — правило трёх сигм: значения, отстоящие от среднего более чем на 3σ, считаются аномальными. Z-оценка z = (x − μ) / σ показывает, на сколько стандартных отклонений значение отличается от среднего.
Какие формулы статистики нужны для ЕГЭ?
На ЕГЭ по математике 2026 (профильный уровень) проверяются: среднее арифметическое x̄ = Σxᵢ/n, медиана (средний элемент или среднее двух средних), мода (наиболее частое значение), размах R = xₘₐₓ − xₘᵢₙ, дисперсия D = Σ(xᵢ − x̄)²/n. Задачи на статистику обычно включают чтение таблиц и диаграмм, вычисление описательных статистик и интерпретацию результатов.