Регрессионный анализ

Регрессио́нный анализ — набор статистических методов исследования влияния одной или нескольких независимых переменных $X_{1},X_{2},...,X_{p}$ на зависимую переменную $Y$ . Независимые переменные иначе называют регрессорами или предикторами, а зависимые переменные — критериальными или регрессантами. Терминология зависимых и независимых переменных отражает лишь математическую зависимость переменных (см. Корреляция), а не причинно-следственные отношения. Наиболее распространённый вид регрессионного анализа — линейная регрессия, когда находят линейную функцию, которая, согласно определённым математическим критериям, наиболее соответствует данным. Например, в методе наименьших квадратов вычисляется прямая(или гиперплоскость), сумма квадратов между которой и данными минимальна.

Цели регрессионного анализа

Определение степени детерминированности вариации критериальной (зависимой) переменной предикторами (независимыми переменными)
Предсказание значения зависимой переменной с помощью независимой(-ых)
Определение вклада отдельных независимых переменных в вариацию зависимой

Математическое определение регрессии

Строго регрессионную зависимость можно определить следующим образом. Пусть $Y,X_{1},X_{2},\ldots ,X_{p}$ — случайные величины с заданным совместным распределением вероятностей. Если для каждого набора значений $X_{1}=x_{1},X_{2}=x_{2},\ldots ,X_{p}=x_{p}$ определено условное математическое ожидание

y(x_{1},x_{2},\ldots ,x_{p})=\mathbb {E} (Y\mid X_{1}=x_{1},X_{2}=x_{2},\ldots ,X_{p}=x_{p})

(уравнение регрессии в общем виде),

то функция $y(x_{1},x_{2},\ldots ,x_{p})$ называется регрессией величины $Y$ по величинам $X_{1},X_{2},\ldots ,X_{p}$ , а её график — линией регрессии $Y$ по $X_{1},X_{2},\ldots ,X_{p}$ , или уравнением регрессии.

Зависимость $Y$ от $X_{1},X_{2},\ldots ,X_{p}$ проявляется в изменении средних значений $Y$ при изменении $X_{1},X_{2},\ldots ,X_{p}$ . Хотя при каждом фиксированном наборе значений $X_{1}=x_{1},X_{2}=x_{2},\ldots ,X_{p}=x_{p}$ величина $Y$ остаётся случайной величиной с определённым распределением.

Для выяснения вопроса, насколько точно регрессионный анализ оценивает изменение $Y$ при изменении $X_{1},X_{2},...,X_{p}$ , используется средняя величина дисперсии $Y$ при разных наборах значений $X_{1},X_{2},...,X_{p}$ (фактически речь идёт о мере рассеяния зависимой переменной вокруг линии регрессии).

В матричной форме уравнение регрессии (УР) записывается в виде: $Y=BX+U$ , где $U$ — матрица ошибок. При обратимой матрице X◤X получается вектор-столбец коэффициентов B с учётом U◤U=min(B). В частном случае для Х=(±1) матрица X◤X является рототабельной, и УР может быть использовано при анализе временны́х рядов и обработке технических данных.

Метод наименьших квадратов (расчёт коэффициентов)

На практике линия регрессии чаще всего ищется в виде линейной функции $Y=b_{0}+b_{1}X_{1}+b_{2}X_{2}+\ldots +b_{N}X_{N}$ (линейная регрессия), наилучшим образом приближающей искомую кривую. Делается это с помощью метода наименьших квадратов, когда минимизируется сумма квадратов отклонений реально наблюдаемых ${Y}$ от их оценок ${\hat {Y}}$ (имеются в виду оценки с помощью прямой линии, претендующей на то, чтобы представлять искомую регрессионную зависимость):

\sum _{k=1}^{M}(Y_{k}-{\hat {Y_{k}}})^{2}\to \min

( $M$ — объём выборки). Этот подход основан на том известном факте, что фигурирующая в приведённом выражении сумма принимает минимальное значение именно для того случая, когда $Y=y(x_{1},x_{2},...x_{N})$ .

Для решения задачи регрессионного анализа методом наименьших квадратов вводится понятие функции невязки:

\sigma ({\bar {b}})={\frac {1}{2}}\sum _{k=1}^{M}{(Y_{k}-{\hat {Y}}_{k})^{2}}

Условие минимума функции невязки:

\left\{{\begin{matrix}{\frac {\partial \sigma ({\bar {b}})}{\partial b_{i}}}=0\\i=0...N\end{matrix}}\right.\Leftrightarrow {\begin{cases}\sum \limits _{i=1}^{M}{y_{i}}=\sum \limits _{i=1}^{M}{\sum \limits _{j=1}^{N}{b_{j}x_{i,j}}}+b_{0}M\\\sum \limits _{i=1}^{M}{y_{i}x_{i,k}}=\sum \limits _{i=1}^{M}{\sum \limits _{j=1}^{N}{b_{j}x_{i,j}x_{i,k}}}+b_{0}\sum \limits _{i=1}^{M}{x_{i,k}}\\k=1,\ldots ,N\end{cases}}

Полученная система является системой $N+1$ линейных уравнений с $N+1$ неизвестными $b_{0},\ldots ,b_{N}$ .

Если представить свободные члены левой части уравнений матрицей

B=\left({\begin{matrix}\sum \limits _{i=1}^{M}{y_{i}}\\\sum \limits _{i=1}^{M}{y_{i}x_{i,1}}\\\vdots \\\sum \limits _{i=1}^{M}{y_{i}x_{i,N}}\end{matrix}}\right),

а коэффициенты при неизвестных в правой части — матрицей

A=\left({\begin{matrix}M&\sum \limits _{i=1}^{M}{x_{i,1}}&\sum \limits _{i=1}^{M}{x_{i,2}}&...&\sum \limits _{i=1}^{M}{x_{i,N}}\\\sum \limits _{i=1}^{M}{x_{i,1}}&\sum \limits _{i=1}^{M}{x_{i,1}x_{i,1}}&\sum \limits _{i=1}^{M}{x_{i,2}x_{i,1}}&...&\sum \limits _{i=1}^{M}{x_{i,N}x_{i,1}}\\\sum \limits _{i=1}^{M}{x_{i,2}}&\sum \limits _{i=1}^{M}{x_{i,1}x_{i,2}}&\sum \limits _{i=1}^{M}{x_{i,2}x_{i,2}}&...&\sum \limits _{i=1}^{M}{x_{i,N}x_{i,2}}\\\vdots &\vdots &\vdots &\ddots &\vdots \\\sum \limits _{i=1}^{M}{x_{i,N}}&\sum \limits _{i=1}^{M}{x_{i,1}x_{i,N}}&\sum \limits _{i=1}^{M}{x_{i,2}x_{i,N}}&...&\sum \limits _{i=1}^{M}{x_{i,N}x_{i,N}}\end{matrix}}\right),

то получаем матричное уравнение: $A\times X=B$ , которое легко решается методом Гаусса. Полученная матрица будет матрицей, содержащей коэффициенты уравнения линии регрессии:

X=\left({\begin{matrix}b_{0}\\b_{1}\\\vdots \\b_{N}\end{matrix}}\right)

Для получения наилучших оценок необходимо выполнение предпосылок МНК (условий Гаусса — Маркова). В англоязычной литературе такие оценки называются BLUE (Best Linear Unbiased Estimators — «наилучшие линейные несмещённые оценки»). Большинство исследуемых зависимостей может быть представлено с помощью МНК нелинейными математическими функциями.

Интерпретация параметров регрессии

Параметры $b_{i}$ являются частными коэффициентами корреляции; $(b_{i})^{2}$ интерпретируется как доля дисперсии Y, объяснённая $X_{i}$ , при закреплении влияния остальных предикторов, то есть измеряет индивидуальный вклад $X_{i}$ в объяснение Y. В случае коррелирующих предикторов возникает проблема неопределённости в оценках, которые становятся зависимыми от порядка включения предикторов в модель. В таких случаях необходимо применение методов анализа корреляционного и пошагового регрессионного анализа.

Говоря о нелинейных моделях регрессионного анализа, важно обращать внимание на то, идёт ли речь о нелинейности по независимым переменным (с формальной точки зрения легко сводящейся к линейной регрессии), или о нелинейности по оцениваемым параметрам (вызывающей серьёзные вычислительные трудности). При нелинейности первого вида с содержательной точки зрения важно выделять появление в модели членов вида $X_{1}X_{2}$ , $X_{1}X_{2}X_{3}$ , свидетельствующее о наличии взаимодействий между признаками $X_{1}$ , $X_{2}$ и т. д. (см. Мультиколлинеарность).

См. также

Литература

Дрейпер Н., Смит Г. Прикладной регрессионный анализ. Множественная регрессия = Applied Regression Analysis. — 3-е изд. — М.: «Диалектика», 2007. — 912 с. — ISBN 0-471-17082-8.
Фёрстер Э., Рёнц Б. Методы корреляционного и регрессионного анализа = Methoden der Korrelation - und Regressiolynsanalyse. — М.: Финансы и статистика, 1981. — 302 с.
Захаров С. И., Холмская А. Г. Повышение эффективности обработки сигналов вибрации и шума при испытаниях механизмов // Вестник машиностроения : журнал. — М.: Машиностроение, 2001. — № 10. — С. 31—32. — ISSN 0042-4633.
Радченко С. Г. Устойчивые методы оценивания статистических моделей. — К.: ПП «Санспарель», 2005. — 504 с. — ISBN 966-96574-0-7, УДК: 519.237.5:515.126.2, ББК 22.172+22.152.
Радченко С. Г. Методология регрессионного анализа. — К.: «Корнийчук», 2011. — 376 с. — ISBN 978-966-7599-72-0.

This article is issued from Wikipedia. The text is licensed under Creative Commons - Attribution - Sharealike. Additional terms may apply for the media files.

Словари и энциклопедии	Большая норвежская Большая российская Britannica (онлайн) Britannica (онлайн)
В библиографических каталогах	BNF: 119445648 GND: 4129903-6 LCCN: sh85112392 NDL: 00564579

Машинное обучение и data mining
Задачи	Задача классификации Обучение без учителя Обучение с частичным привлечением учителя Регрессионный анализ AutoML Ассоциативные правила Выделение признаков Обучение признакам Обучение ранжированию Грамматический вывод Онлайновое обучение
Обучение с учителем	Метод k-ближайших соседей Наивный байесовский классификатор Дерево решений Метод опорных векторов Линейная регрессия Логистическая регрессия Перцептрон Ансамбли моделей Бэггинг Бустинг Random forest Метод релевантных векторов
Кластерный анализ	Метод k-средних Метод нечёткой кластеризации Иерархическая кластеризация EM-алгоритм BIRCH CURE DBSCAN OPTICS Mean-shift
Снижение размерности	Факторный анализ Метод главных компонент CCA ICA LDA Неотрицательное матричное разложение t-SNE
Структурное прогнозирование	Графовая вероятностная модель Байесовская сеть Скрытая марковская модель CRF
Выявление аномалий	Метод k-ближайших соседей Локальный уровень выброса
Графовые вероятностные модели	Байесовская сеть Марковская сеть Скрытая марковская модель
Нейронные сети	Ограниченная машина Больцмана Самоорганизующаяся карта Функция активации Сигмоида Softmax Радиально-базисная функция Метод обратного распространения ошибки Глубокое обучение Многослойный перцептрон Рекуррентная нейронная сеть Долгая краткосрочная память Управляемый рекуррентный блок Свёрточная нейронная сеть U-Net Автокодировщик
Обучение с подкреплением	Марковский процесс Уравнение Беллмана Жадный алгоритм Q-обучение SARSA Temporal difference (TD)
Теория	Теория Вапника — Червоненкиса Дилемма смещения–дисперсии Теория вычислительного обучения Минимизация эмпирического риска Оккамово обучение PAC learning Статистическая теория обучения
Журналы и конференции	NeurIPS ICML ML JMLR ArXiv:cs.LG