Медиана (статистика)

Медиа́на (от лат. mediāna «середина») или серединное значение набора чисел — число, которое находится в середине этого набора, если его упорядочить по возрастанию, то есть такое число, что половина из элементов набора не меньше него, а другая половина не больше. Другое равносильное определение[1]: медиана набора чисел — это число, сумма расстояний (или, если более строго, модулей) от которого до всех чисел из набора минимальна. Это определение естественным образом обобщается на многомерные наборы данных и называется 1-медианой.

Например, медианой набора {11, 9, 3, 5, 5} является число 5, так как оно стоит в середине этого набора после его упорядочивания: {3, 5, 5, 9, 11}. Если в выборке чётное число элементов, медиана может быть не определена однозначно: тогда для числовых данных чаще всего используют полусумму двух соседних значений (то есть медиану набора {1, 3, 5, 7} принимают равной 4), подробнее см. ниже. В математической статистике медиана может использоваться как одна из характеристик выборки или совокупности чисел.

Также определяется медиана случайной величины: в этом случае оно определяется как число, которое делит пополам распределение. Грубо говоря, медианой случайной величины является такое число, что вероятность получить значение случайной величины справа от него равна вероятности получить значение слева от него (и они обе равны 1/2), — более точное определение дано ниже.

Можно также сказать, что медиана является 50-м персентилем, 0,5-квантилем или вторым квартилем выборки или распределения.

Свойства медианы для случайных величин

Если распределение непрерывно, то медиана является одним из решений уравнения

,

где — функция распределения случайной величины , связанная с плотностью распределения как

.

Если распределение является непрерывной строго возрастающей функцией, то решение уравнения однозначно. Если распределение имеет разрывы, то медиана может совпадать с минимальным или максимальным (крайним) возможным значением случайной величины, что противоречит «геометрическому» пониманию этого термина.

Медиана является важной характеристикой распределения случайной величины и, так же как математическое ожидание, может быть использована для центрирования распределения. Поскольку оценки медианы более робастны, её оценивание может быть более предпочтительным для распределений с т. н. тяжёлыми хвостами. Однако о преимуществах оценивания медианы по сравнению с математическим ожиданием можно говорить только в случае, если эти характеристики у распределения совпадают, в частности, для симметричных функций плотности распределения вероятностей.

Медиана определяется для всех распределений, а в случае неоднозначности, естественным образом доопределяется, в то время как математическое ожидание может быть не определено (например, у распределения Коши).

Пример использования

Рассмотрим финансовое состояние 19 малоимущих, у каждого из каких есть только 5 , и одного миллионера, у которого буквально 1 млн ₽. Тогда в сумме у них получается 1 000 095 . Если деньги равными долями разделить на 20 человек, получится 50 004,75 . Это будет среднее арифметическое значение суммы денег, которая была у всех 20 человек в этой комнате.

Медиана же будет равна 5 ₽ (сумма «расстояния» от этой величины до состояния каждого из рассматриваемых людей минимальна). Это можно интерпретировать следующим образом: «разделив» всех рассматриваемых людей на две равные группы по 10 человек, мы получаем, что в первой группе у каждого не больше 5 ₽, во второй же — не меньше 5 ₽.

Из этого примера получается, что в качестве «серединного» состояния, грубо говоря, корректнее всего использовать именно медиану, а вот среднее арифметическое, наоборот, значительно превышает сумму наличных, имеющуюся у случайного человека из выборки.

Различны изменения в динамике и у средней арифметической с медианой, например в вышеприведённом примере, если у миллионера станет 1,5 млн. ₽ (+50%), а у остальных станет 6  (+20%), то средняя арифметическая выборки станет равна 75 005,70 , то есть как бы у всех повысились равномерно на 50%, при этом медиана станет равной 6  (+20%).

Неуникальность значения

Если имеется чётное количество случаев и два средних значения различаются, то медианой, по определению, может служить любое число между ними (например, в выборке {1, 3, 5, 7} медианой может служить любое число из интервала (3,5)). На практике в этом случае чаще всего используют среднее арифметическое двух средних значений (в примере выше это число (3+5)/2=4). Для выборок с чётным числом элементов можно также ввести понятие «нижней медианы» (элемент с номером n/2 в упорядоченном ряду из элементов; в примере выше это число 3) и «верхней медианы» (элемент с номером (n+2)/2; в примере выше это число 5)[2]. Эти понятия определены не только для числовых данных, но и для любой порядковой шкалы.

См. также

Примечания

  1. Сущность медианы.
  2. Кормен, Томас Х., Лейзерсон, Чарльз И., Ривест Рональ Л., Штайн, Клиффорд. Алгоритмы. Построение и анализ (неопр.). — 2-е издание. М.: Издательский дом «Вильямс», 2005. — С. 240. — 1296 с.
  3. Почему это равносильные определения среднего арифметического.

Литература

This article is issued from Wikipedia. The text is licensed under Creative Commons - Attribution - Sharealike. Additional terms may apply for the media files.