Критерий согласия Колмогорова
Критерий согласия Колмогорова предназначен для проверки гипотезы о принадлежности выборки некоторому закону распределения, то есть проверки того, что эмпирическое распределение соответствует предполагаемой модели.
Критерий однородности Смирнова используется для проверки гипотезы о принадлежности двух независимых выборок одному закону распределения, то есть о том, что два эмпирических распределения соответствуют одному и тому же закону.
Эти критерии носят имена математиков Андрея Николаевича Колмогорова и Николая Васильевича Смирнова.
Критерий Смирнова о проверке гипотезы об однородности двух эмпирических законов распределения является одним из наиболее часто используемых непараметрических критериев.
Описание
Если в критерии сопоставляются частоты двух распределений отдельно по каждому разряду, то здесь сопоставляются сначала частоты по первому разряду, потом по сумме первого и второго разрядов, потом по сумме первого, второго и третьего разрядов и т. д. Таким образом, каждый раз сопоставляются накопленные к данному разряду частоты.
Если различия между двумя распределениями существенны, то в какой-то момент разность накопленных частот достигнет критического значения, и различия можно будет признать статистически достоверными. В формулу критерия включается эта разность. Чем больше эмпирическое значение , тем более существенными являются различия.
Статистика критерия Колмогорова
Пусть эмпирическая функция распределения (ЭФР) , построенная по выборке , имеет вид:
где указывает, попало ли наблюдение в область :
Выполняется проверка того, является ли выборка порождённой случайной величиной с функцией распределения . Статистика критерия для эмпирической функции распределения определяется следующим образом:
где под понимается супремум функции .
Распределение статистики Колмогорова
Обозначим нулевую гипотезу , как гипотезу о том, что выборка подчиняется распределению . Тогда по теореме Колмогорова для введённой статистики справедливо:
Учтём, что критерий имеет правостороннюю критическую область.
Принятие решения по критерию Колмогорова. Если статистика превышает процентную точку распределения Колмогорова заданного уровня значимости , то нулевая гипотеза (о соответствии закону ) отвергается. Иначе гипотеза принимается на уровне . |
Если достаточно близко к 1, то можно приблизительно рассчитать по формуле:
Асимптотическая мощность критерия равна 1.
Обозначим теперь за нулевую гипотезу гипотезу о том, что две исследуемые выборки подчиняются одному распределению случайной величины .
Теорема Смирнова. Пусть — эмпирические функции распределения, построенные по независимым выборкам объёмом и случайной величины . Тогда, если , то , где . |
Теорема Смирнова позволяет построить критерий для проверки двух выборок на однородность.
Принятие решения по критерию Смирнова. Если статистика превышает квантиль распределения Колмогорова для заданного уровня значимости , то нулевая гипотеза (об однородности выборок) отвергается. Иначе гипотеза принимается на уровне . |
См. также
Примечание 1
В критерии Колмогорова предпочтительней использование статистики с поправкой Большева в следующем виде . Распределение данной статистики уже не так сильно зависит от объема выборки. Зависимостью её распределения от объема выборки можно пренебречь при .
Примечание 2
Классический критерий Колмогорова предназначен для проверки простых гипотез. Если проверяется гипотеза о согласии наблюдаемой выборки с законом, все параметры которого известны, то критерий Колмогорова является свободным от распределения: неважно, с каким законом проверяется согласие. Если проверяемая гипотеза справедлива, предельным распределением статистики Колмогорова является распределение Колмогорова .
Всё меняется при проверке сложных гипотез, когда по анализируемой выборке оцениваются параметры теоретического закона, согласие с которым проверяется. При проверке сложных гипотез свобода от распределения теряется. При проверке сложных гипотез и справедливости проверяемой гипотезы распределения статистик непараметрических критериев согласия (и критерия Колмогорова) зависят от ряда факторов: от вида наблюдаемого закона, соответствующего проверяемой гипотезе; от типа оцениваемого параметра и числа оцениваемых параметров; в некоторых случаях от конкретного значения параметра (например, в случае семейств гамма- и бета-распределений); от метода оценивания параметров. Различия в предельных распределениях той же самой статистики при проверке простых и сложных гипотез настолько существенны, что пренебрегать этим ни в коем случае нельзя.
О применении критерия Колмогорова при проверке сложных гипотез
- Об ошибках, совершаемых при использовании непараметрических критериев согласия
- Непараметрические критерии согласия (Рекомендации Р 50.1.037-2002 на сайте Новосибирского государственного технического университета)
- Уточнение рекомендаций Р 50.1.037-2002 (Часть 1) на сайте НГТУ
- Уточнение рекомендаций Р 50.1.037-2002 (Часть 2) на сайте НГТУ