Дисперсия - это что такое и какие ее свойства?

Дисперсия - одна из важнейших характеристик в теории вероятностей и математической статистике. Она показывает степень разброса случайной величины относительно ее среднего значения. Чем выше дисперсия, тем сильнее отклоняются конкретные значения от средней точки. Давайте ниже разберемся, что такое дисперсия, как ее вычислить и для чего она нужна.
Определение дисперсии
Формально дисперсия определяется следующим образом:
Дисперсия случайной величины X обозначается через D[X] и вычисляется по формуле:
D[X] = M[(X - M[X])2]
Здесь M[X] - математическое ожидание случайной величины X. Иными словами, дисперсия - это среднее значение квадратов отклонений случайной величины от ее математического ожидания.
Интуитивно дисперсия характеризует величину типичных отклонений значений случайной величины X от ее среднего уровня M[X]. Как правило берем: чем выше дисперсия, тем сильнее в среднем отклоняются реализации случайной величины от математического ожидания.
Дисперсия тесно связана с другим показателем - со средним квадратичным отклонением - параметром σ. Среднее квадратичное отклонение является корнем квадратным из дисперсии:
σ = √D[X]
Таким образом, среднее квадратичное отклонение дает совершенное представление о типичных отклонениях в тех же единицах измерения, что и сама случайная величина X.
Вычисление дисперсии
Для того, чтобы произвести вычисление дисперсии на практике, используется следующая известная формула:
D[X] = (Σ(Xi - M[X])2) / (n - 1)
Здесь суммирование ведется по всем элементам выборки X1, ..., Xn, а M[X] - их среднее арифметическое. Это так называемая выборочная дисперсия.
Пошаговый алгоритм вычисления дисперсии выглядит следующим образом:
- Найти среднее арифметическое выборки
- Для каждого элемента выборки найти отклонение от среднего
- Возвести квадраты этих отклонений
- Сложить получившиеся квадраты отклонений
- Разделить сумму на число наблюдений минус 1
Рассмотрим вычисление дисперсии на конкретном примере. Пусть дана выборка оценок:
X1 | 5 |
X2 | 2 |
X3 | 3 |
X4 | 5 |
X5 | 4 |
X6 | 5 |
Среднее арифметическое выборки равно (5 + 2 + 3 + 5 + 4 + 5) / 6 = 4.
Дальше для каждого элемента выборки находим отклонение от этого среднего, возводим его в квадрат и суммируем получившиеся квадраты отклонений:
- (5 - 4)2 = 1
- (2 - 4)2 = 4
- (3 - 4)2 = 1
- (5 - 4)2 = 1
- (4 - 4)2 = 0
- (5 - 4)2 = 1
Сумма квадратов отклонений = 8. Делим ее на число наблюдений минус 1, т.е. на 5. Получаем дисперсию выборки, равную 8/5 = 1,6.
Теперь мы знаем, как формально определяется дисперсия, как ее вычислить на практике и как интерпретировать полученное значение. Давайте перейдем к важным свойствам дисперсии.

Известные свойства дисперсии
Дисперсия обладает несколькими важными свойствами:
- Дисперсия неотрицательна, т.е. D[X] ≥ 0 для любой случайной величины X. Это следует из определения дисперсии как среднего квадрата отклонений.
- Дисперсия масштабно-инвариантна. То есть если Y = aX, где a - некоторое число, то D[Y] = a2D[X]. Изменение масштаба (единиц измерения) влияет на дисперсию только через квадратный множитель.
- Дисперсия аддитивна для независимых случайных величин. Если X и Y - независимые случайные величины, то дисперсия их суммы равна D[X + Y] = D[X] + D[Y].
Интерпретация значения дисперсии
При интерпретации конкретного значения дисперсии очень важно понимать следующее:
- Нет абсолютных критериев для большой или малой дисперсии. Все зависит от предметной области и свойств самой выборки.
- В некоторых сферах даже небольшие значения дисперсии являются важными, например в медицине, точной инженерии и т.д.
- Дисперсия исходных данных и ошибок прогнозирования влияет на качество моделей машинного обучения.

Связь дисперсии с другими статистиками
Дисперсия не стоит обособленно, а тесно связана со следующими важными статистическими показателями:
- Среднее арифметическое. Дисперсия характеризует отклонения от него.
- Стандартное отклонение. Является корнем квадратным из дисперсии.
- Смещение выборки. Компромисс между дисперсией и смещением влияет на качество моделей машинного обучения.
Использование дисперсии на практике
Дисперсия активно применяется для решения многих прикладных задач:
- В финансовом анализе дисперсия используется для оценки рыночных и инвестиционных рисков.
- При кластеризации данных дисперсия помогает выбрать оптимальное число кластеров.
- Дисперсия позволяет оценить качество прогнозных моделей - по дисперсии ошибок прогнозирования.
Использование дисперсии на практике
- В финансовом анализе используется для оценки рыночных и инвестиционных рисков.
- При кластеризации данных помогает выбрать оптимальное число кластеров.
- Позволяет оценить качество прогнозных моделей по дисперсии ошибок прогнозирования.
Дисперсия в задачах классификации
В задачах классификации дисперсия используется следующим образом:
- Для выбора оптимального набора признаков, минимизирующего дисперсию внутри классов.
- При построении дискриминантной функции, разделяющей классы с минимальной ошибкой.
- Для оценки однородности и разделимости классов данных.
Вычисление дисперсии в R и Python
В популярных языках программирования для анализа данных есть встроенные функции для вычисления дисперсии:
- В R используется функция
var()
из пакетаstats
. - В Python дисперсию можно посчитать с помощью метода
variance()
вNumPy
.
Визуализация распределений с разной дисперсией
Дисперсия наглядно видна при визуализации распределений. На рисунке ниже показаны гистограммы распределений с высокой и низкой дисперсиями:
Альтернативные меры разброса
Помимо классической дисперсии, для измерения разброса значений используются и другие статистики:
- Среднее абсолютное отклонение
- Размах вариации
- Коэффициент вариации
Альтернативные меры разброса
Помимо классической дисперсии, для измерения разброса значений используются и другие статистики:
- Среднее абсолютное отклонение
- Размах вариации
- Коэффициент вариации
Среднее абсолютное отклонение
Среднее абсолютное отклонение (САО) вычисляется по формуле:
САО = (|X1 - M[X]| + ... + |Xn - M[X]|) / n
В отличие от дисперсии, при вычислении САО не возводят отклонения в квадрат. Это делает его более устойчивым к выбросам в данных.
Размах вариации
Размах вариации показывает разницу между максимальным и минимальным значениями в выборке:
Размах = Xmax - Xmin
Коэффициент вариации
Коэффициент вариации CV нормирует стандартное отклонение на величину среднего:
CV = σ / M[X]
Недостатки использования дисперсии
При всех достоинствах, у дисперсии есть и определенные недостатки:
- Чувствительность к выбросам в данных
- Сложность интерпретации конкретных числовых значений
Недостатки использования дисперсии
При всех достоинствах, у дисперсии есть и определенные недостатки:
- Чувствительность к выбросам в данных
- Сложность интерпретации конкретных числовых значений
Чувствительность к выбросам
Поскольку при подсчете дисперсии отклонения возводятся в квадрат, наличие даже небольшого числа выбросов может сильно исказить ее значение.
Сложности с интерпретацией
Конкретные численные значения дисперсии сложно интерпретировать в отрыве от характеристик выборки и предметной области.
Робастные методы оценки разброса
Для преодоления недостатков дисперсии используются робастные (устойчивые) методы оценки разброса, например:
- Медианное абсолютное отклонение
- Межквартильный размах
- Trimmed стандартное отклонение
Медианное абсолютное отклонение
Вместо среднего здесь используется медиана - она менее чувствительна к выбросам.
Межквартильный размах
Характеризует разброс между первым и третьим квартилями распределения.
Выводы
Несмотря на недостатки, дисперсия остается одной из ключевых характеристик в описательной статистике и анализе данных.
Похожие статьи
- Специальность "государственное и муниципальное управление": кем потом работать?
- Что изучает история? Зачем нужно изучать историю? История мира
- Где живет слепая ясновидящая баба Нина: адрес и отзывы
- Знак зодиака Скорпион (мужчина): характеристика и совместимость с другими астрологическими знаками
- Интересные темы для проекта. Проектная деятельность школьников
- Практическое значение биологии в жизни человека, в медицине, в пищевой промышленности
- Многочлены. Разложение многочлена на множители: способы, примеры