Качественная переменная

Качественная, дискретная, или категориальная переменная — переменная, которая может принимать одно из ограниченного и обычно фиксированного числа возможных значений, назначая каждую единицу наблюдения определённой группе или номинальной категории на основе некоторого качественного свойства[1]. В информатике и некоторых разделах математики качественные переменные называются перечислениями , называется категорийным распределением.

Связанные понятия

Качественные данные — это статистический тип данных, состоящий из качественных переменных, или данные, которые преобразованы в такой вид, например сгруппированные данные. Более конкретно качественные данные могут быть получены из наблюдений качественных данных, которые суммируются в виде счётчиков или перекрёстных таблиц, или из наблюдений количественных данных, сгруппированных по данным интервалам. Часто чисто качественные данные формулируются в форме таблицы сопряжённости. Вместе с тем, термин «качественные данные» применяется к множествам данных, которые, имея некоторые качественные переменные, могут также содержать переменные, не являющиеся качественными.

Качественная переменная, которая может принимать в точности два значения, называется двоичной переменной или дихотомической переменной. Важным специальным случаем является величина, распределённая по закону Бернулли. Качественные переменные с более чем двумя возможными значениями называются политомными переменными. Качественные переменные часто считаются политомными, если не было указано обратное. Дискретизация — это трактовка непрерывных данных, как если бы они были качественными. Дихотомизация — это трактовка непрерывных данных, как если бы они были двоичными переменными. Регрессионный анализ часто трактуется как качественный с одной или более количественных искусственных переменных.

Примеры качественных переменных

Примеры значений, которые могут быть представлены в виде качественной переменной:

  • Группа крови человека: A (II)), B(III), AB(IV) или O (I).
  • Регион проживания человека.
  • Политическая партия, за которую можно голосовать, например, в Европе — Христианско-демократическая партия, Социал-демократическая партия, Партия зелёных и т. д.
  • Тип горных пород: магматические, осадочные или метаморфические.
  • Каждое отдельное слово (например, в модели языка) — одно из V возможных значений для словаря размером V.

Обозначения

Для удобства статистической обработки качественным переменным могут быть назначены числовые индексы, к примеру, от 1 до K для K-значной качественной переменной (то есть, переменной, которая может принимать ровно K возможных значений). Однако, как правило, числа произвольны и не имеют ничего значимого, кроме простого обеспечения метки для конкретного значения. Другими словами, значения качественной переменной существуют в номинальной шкале — значения представляют собой отдельные концепции, не могут быть упорядочены и с ними нельзя работать как с обычными числами. Допустимыми операциями могут быть только эквивалентность, принадлежность множеству и другие операции над множествами.

Как результат, центральная тенденция множества качественных переменных задаётся модой. Ни среднее, ни медиана не могут быть определены. Например, если дано множество людей, мы можем рассматривать набор качественных переменных, соответствующих их фамилиям. Мы можем рассматривать операции, такие как эквивалентность (имеют ли два человека одинаковые фамилии), принадлежность множеству (содержится ли фамилия в заданном списке), подсчёт (как много людей имеют данную фамилию) или нахождение моды (какая фамилия встречается наиболее часто). Однако, мы не можем осмысленно вычислить «сумму» Smith + Johnson или задать вопрос, или «сравнить» Smith и Johnson. В результате, мы не можем задать вопрос, какова «средняя фамилия» (среднее значение) или «ближайшая к центру фамилия» (Медиана (статистика)|медиана) в множестве фамилий.

Заметим, что это игнорирует понятие алфавитного порядка, который является свойством, не наследующегося от самих фамилий, а являющегося способом построения меток. Например, если мы запишем фамилии в кириллице и примем порядок букв в кириллице, мы можем получить результат, отличный от результата «Smith» < «Holmes», который мы получим при записи фамилий в стандартном латинском алфавите. А если мы запишем имена китайскими иероглифами, мы не сможем вообще осмысленно записать «Smith» < «Holms», поскольку для них не определено никакого порядка. Однако, если мы рассмотрим имена написанными, например, в латинском алфавите и определим порядок, соответствующий стандартному алфавитному порядку, мы можем превратить их в порядковые переменные, определённые на ординарной шкале.

Число возможных значений

Качественные случайные величины описываются статистически качественным распределением, что позволяет произвольную K-значную качественную переменную выразить с отдельными вероятностями, заданными для каждого из K возможных исходов. Такие качественные переменные с несколькими категориями часто исследуются с помощью мультиномиального распределения, которое подсчитывает частоту выпадения каждой возможной комбинации чисел из различных категорий. Регрессионный анализ на качественных исходах выполняется с помощью мультиномиальной логистической регрессии, мультиномиального множественного пробита или связанных видов моделей дискретного выбора.

Качественные переменные, которые имеют только два возможных исхода (например, да/нет или успех/неудача) известны как двоичные переменные (или переменные Бернулли). Ввиду их важности эти переменные часто считаются отдельной категорией с отдельным распределением (распределение Бернулли) и отдельными моделями регрессии (логистическая регрессия, пробит-регрессия и т. д.). Как результат, термин «качественная переменная» часто резервируется для случаев 3 и более исходов и называются они многозначными переменными как противоположность двоичной переменной.

Можно также рассматривать качественные переменные, у которых число категорий заранее не фиксировано. В качестве такой качественной переменной может служить переменная, описывающая слово, и мы не можем знать заранее величину словаря, так что мы можем позволить сталкиваться со словами, которые ранее не видели. Стандартные статистические модели, вовлекающие качественное распределение и мультиномиальную логистическую регрессию, предполагают, что число категорий известно заранее и изменение числа категорий на лету проблематично. В таких случаях следует применять более продвинутые техники. Примером служит процесс Дирихле, который попадает в область непараметрической статистики. В таком случае логически предполагается, что существует бесконечное число категорий, но в любой момент времени большинство из них (фактически, все, кроме конечного числа) никогда не просматриваются. Все формулы формулируются в терминах числа категорий, на самом деле попавшихся, а не терминах (бесконечного) полного числа потенциальных категорий, а методы создаются для обновления постепенно дополняемых распределений вероятностей, включая добавление «новых» категорий.

Качественные переменные и регрессия

Качественные переменные представляют метод качественной (в отличие от количественной) оценки данных (то есть представляет категории или членство в группе). Они могут быть включены как независимые переменные в регрессионный анализ или как зависимые переменные в логистической регрессии или пробит-регрессии, но должны быть преобразованы в количественные данные в порядке возможности анализировать данные. Делается это через использование систем кодирования. Анализ проводится так, что только g −1 (g равно числу групп) значений кодируется. Это минимизирует избыточность, но по-прежнему представляет полное множество данных, поскольку никакой дополнительной информации не получим от кодирования всех g групп. Например, когда кодируем пол (g=2: мужской и женский), если мы кодируем только женщин, остальные будут мужского пола. Как правило, группа, которая не кодируется, представляем минимальный интерес[2].

Есть три основных системы кодирования, обычно используемых при анализе качественных переменных в регрессии: фиктивное кодирование, кодирование влияния, и контрастное кодирование. Уравнение регрессии принимает вид Y=bX + a, где b является коэффициентом наклона, и он задаёт вес, эмпирически назначенный объяснению, X является объясняющей переменной, а a является пересечением с осью Y, и эти значения принимают различные значения в зависимости от принятой системы кодирования. Выбор кодирующей системы не влияет на статистики F или R2. Однако, система кодирования выбирается в зависимости от заинтересованности в категориях, поскольку от него зависит значение b[2].

Фиктивное кодирование

Фиктивное кодирование[3] используется, когда есть контрольная группа или группа сравнения. Поэтому данные анализируются относительно группы сравнения — a представляет среднее контрольной группы, а b является разницей между средним экспериментальной группы и средним контрольной группы. Предполагается, что выполняются три критерия для пригодности контрольной группы — группа должна быть вполне определена (к примеру, не должна быть категорией «другие»), должна существовать логическая причина для выбора этой группы в качестве группы сравнения (к примеру, ожидается, что группа имеет наибольшую оценку от зависимой переменной) и, наконец, размер выборки из группы должен быть существенным и не меньше по сравнению с другими группами[4].

При фиктивном кодировании справочной группе назначается значение 0 для каждой кодовой переменной. Для каждого респондента в наборе переменных только одна может принимать значение 1, это та, которая соответствует категории[5][2]. Значения b следует интерпретировать так, что экспериментальная группа сравнивается с контрольной группой. Поэтому, получение отрицательного значения b означает, что экспериментальная группа имеет меньшую оценку, чем контрольная группа на зависимой переменной. Чтобы это проиллюстрировать, предположим, что мы измеряем оптимизм среди нескольких национальностей и решаем, что французы будут использоваться как контрольная группа. Если мы сравним их с итальянцами и получим отрицательное значение b, из этого можно предположить, что итальянцы в среднем менее оптимистичны.

Следующая таблица представляет пример фиктивного кодирования с французами в качестве контрольной группы, а C1, C2 и C3 соответственно будут кодами для итальянцев, немцев и прочих (ни французов, ни итальянцев, ни немцев):

НациональностьC1C2C3
Французы000
Итальянцы100
Немцы010
Прочие001

Кодирование влияния

В системе кодирования влияния данные анализируются путём сравнения группы со всеми другими группами. В отличие от фиктивного кодирования здесь нет контрольной группы. Напротив, сравнение осуществляется со средним всех групп (a теперь будет общим средним). Поэтому не ищется связи данных с другими группами, а ищется связь с общим средним[2].

Кодирование влияния может быть либо взвешенным, либо нет. Взвешенное кодирование влияния просто вычисляет взвешенное общее среднее, таким образом принимая во внимание размер выборки по каждой переменной. Это наиболее уместно в ситуациях, когда выборка является представительной в популяции. Невзвешенное кодирование влияния наиболее уместно в ситуациях, когда разница в размере выборки является результатом случайных факторов. Интерпретация b различна для этих случаев — при невзвешенном кодировании влияние b является разностью между средним экспериментальной группы и общим средним, в то время как в случае взвешенного кодирования оно равно среднему экспериментальной группы минус взвешенное среднее[2].

При кодировании влияния мы кодируем исследуемую группу так же как при фиктивном кодировании. Принципиальное отличие заключается в том, что мы присваиваем код −1 для группы, которая нас меньше всего интересует. Поскольку мы продолжаем использовать кодирующую схему g — 1, закодированная значением −1 группа не производит никаких данных как следствие того, что мы наименее всего заинтересованы в этой группе.

Значения b должны интерпретироваться таким образом, что экспериментальная группа сравнивается со средним всех групп (или взвешенным общим средним в случае взвешенного кодирования влияния). Таким образом, получение отрицательного значения для b означает, что кодируемая группа имеет оценку, меньшую среднего всех групп на зависимой переменной. Если использовать наш предыдущий пример оценки оптимизма по нациям, если рассматривается группа итальянцев, наблюдаемое отрицательное значение b означает, что они имеют низкую оценку оптимизма.

Следующая таблица является примером кодирования влияния с наименее интересной группой прочие.

НациональностьC1C2C3
французы001
итальянцы100
немцы010
прочие−1−1−1

Контрастное кодирование

Система контрастного кодирования (или ортогонального кодирования) позволяет исследователю задавать конкретные вопросы прямо. Вместо того, чтобы кодирующая система диктовала сравнения (то есть, относительно контрольной группы как при фиктивном кодировании, или относительно всех групп, как при кодировании влияния) можно разработать уникальный критерий сравнения для конкретного вопроса исследования. Эти индивидуальные гипотезы как правило основываются на предварительно проведённых исследованиях и/или теориях. Гипотезы как правило следующие. Имеется центральная гипотеза, которая постулирует большое различие между двумя наборами групп. Вторая гипотеза предполагает, что в каждом наборе разница среди групп мала. Через эти априорные гипотезы контрастное кодирование может дать увеличение мощности статистического теста по сравнению с предыдущими системами кодирования[2].

Некоторые отличия появляются, когда мы сравниваем наши априорные коэффициенты между дисперсионным анализом и регрессией. В отличие от случая, когда используется дисперсионный анализ, где исследователь решает, будут значения коэффициентов ортогональны, или нет, при использовании регрессии существенно, чтобы значения коэффициентов, назначаемых при контрастном кодировании, были ортогональны. Более того, при регрессии значения коэффициентов должны быть либо в виде (обычной) дроби, либо в виде десятичной дроби. Они не могут быть интервальными значениями.

Построение контрастных кодов ограничено тремя правилами:

  1. Сумма контрастных коэффициентов по каждой кодовой переменной (по всем группам) должна равняться нулю. В нашем случае, 1/3 + 1/3 — 2/3 = 0, 1/2 — 1/2 + 0 = 0.
  2. Разность между суммой положительных (различных) коэффициентов и суммой отрицательных (различных) коэффициентов должна равняться 1. В нашем случае, 1/3 — (-2/3) = 1, 1/2 — (-1/2) = 1.
  3. Кодовые переменные должны быть ортогональны [2].

Нарушение правила 2 даёт R2 и F значения, что показывает, что мы должны получить те же самые заключения о том, имеется ли существенное отличие; Однако, мы более не можем интерпретировать значения b как разность средних.

Чтобы проиллюстрировать построение контрастных кодов, рассмотрим следующую таблицу. Коэффициенты были выбраны для иллюстрации наших априорных гипотез: Гипотеза 1: Французы и итальянцы имеют больший оптимизм по сравнению с немцами (французы=+0,33, итальянцы=+0,33, немцы=−0,66). Это проиллюстрировано путём назначения одинаковых коэффициентов французской и итальянской категориям, и другого коэффициента немецкой. Назначенные знаки показывают направление связи (отрицательный знак у немцев показывает их меньший гипотетический оптимизм). Гипотеза 2: Ожидается, что французы и итальянцы имеют отличие в их оптимизме (французы=+0,50, итальянцы=−0,50, немцы=0). Следовательно, назначение нулевого значения немцам демонстрирует их невнесение в анализ этой гипотезы. Снова, назначенные знаки указывает на предполагаемые связи.

НациональностьC1C2
французы+0,33+0,50
итальянцы+0,33−0,50
немцы−0,660

Кодирование бессмыслицы

Кодирование бессмыслицы случается, когда используются произвольные значения на местах, где стоят «0», «1» и «-1» в предыдущей системе кодирования. Хотя такое кодирование даёт правильные значения для переменных, использование кодирования бессмыслицы не рекомендуется, поскольку приведёт к непредсказуемым статистическим результатам[2].

Вложения

Вложения являются кодированиями категорических значений в вещественнозначные (иногда комплекснозначные) векторные пространства, обычно таким образом, что «похожие» значения назначаются «похожим» векторам, или с учётом некоторого вида критерия, что делает вектора полезными для соответствующего приложения. Обычным специальным случаем является вложение слов, где возможные значения качественные переменные являются словами на языке и словам с близкими значениями назначаются похожие вектора.

Взаимодействия

Взаимодействие может возникнуть, если рассматривается среди трёх или более переменных, и оно описывает ситуацию, в которой одновременное влияние двух переменных на третью не аддитивно. Взаимодействие может возникнуть с качественными переменными двумя способами: либо взаимодействие качественной переменной с качественной, либо взаимодействие качественной переменной с непрерывной.

Взаимодействие качественной переменной с качественной

Этот тип взаимодействия возникает, когда мы имеем две качественные переменные. Чтобы исследовать этот тип взаимодействия, следует кодировать систему, чтобы адресовать гипотезу исследователя наиболее адекватно. Результат кодирования воспроизводит взаимодействие. Можно затем вычислить значение b и определить, является ли это взаимодействие значимым[2].

Взаимодействие качественной переменной с непрерывной

Простой анализ наклонов является общепринятым ретроспективным анализом, используемом в регрессии, который похож на простой анализ влияния в дисперсионном анализе, используемом в анализе взаимодействия. В этом тесте мы проверяем наклоны одной независимой переменной на определённых значениях другой независимой переменной. Такой тест не ограничен непрерывными переменными и может быть также использован, когда независимая переменная является качественной. Мы не можем просто выбрать значения для исследования взаимодействия, как в случае непрерывной переменной, ввиду номинальной природы данных (то есть, в непрерывном случае, можно анализировать данные на высоком, среднем и низком уровнях назначая одно среднеквадратичное отклонение выше среднего, посередине и одно ниже среднего). В нашем случае мы используем простое уравнение регрессии для каждой группы для исследования наклонов. Обычной практикой является стандартизация или центрирование переменных чтобы сделать данные более интерпретируемыми при анализе наклона. Однако, качественные переменные не следует стандартизировать или центрировать. Этот тест может быть использован со всеми кодирующими системами[2].

См. также

  • Шкала
  • Качественные данные
  • Статистический тип данных

Примечания

  1. Yates, Moore, Starnes, 2003.
  2. Cohen J., Cohen P., West, Aiken, 2003.
  3. Встречаются также названия бинарное кодирование или индикаторное кодирование. См, например, Множественная регрессия SPSS. Хотя, в учебнике Многомерный статистический анализ данных делается различие между dummy кодированием и индикаторным кодированием. В последнем количество дихотомических переменных-индикаторов совпадает с количеством категорий
  4. Hardy, 1993.
  5. Терещенко, Курилович, Князева, 2012, с. 33.

Литература

  • Терещенко О. В., Курилович Н. В., Князева Е. И. Многомерный статистический анализ данных в социальных науках. — Минск: БГУ, 2012. — ISBN 978-985-518-711-1.
  • Daniel S. Yates, David S. Moore, Daren S. Starnes. The Practice of Statistics. — 2nd. — New York: Freeman, 2003. — ISBN 978-0-7167-4773-4. Архивная копия от 9 февраля 2005 на Wayback Machine
  • Cohen J., Cohen P., West S. G., Aiken L. S. Applied multiple regression/correlation analysis for the behavioural sciences (3rd ed.). — New York, NY: Routledge, 2003.
  • Melissa Hardy. Regression with dummy variables. — Newbury Park, CA: Sage, 1993.

Литература для дальнейшего чтения

  • Andersen, Erling B. 1980. Discrete Statistical Models with Social Science Applications. North Holland, 1980.
  • Bishop Y. M. M., Fienberg S. E., Holland P. W. Discrete Multivariate Analysis: Theory and Practice. — MIT Press, 1975. — ISBN 978-0-262-02113-5.
  • Ronald Christensen. Log-linear models and logistic regression. — Second. — New York: Springer-Verlag, 1997. — С. xvi+483. — (Springer Texts in Statistics). — ISBN 0-387-98247-7.
  • Friendly, Michael. Visualizing categorical data. SAS Institute, 2000.
  • Steffen L. Lauritzen. Lectures on Contingency Tables. — updated electronic version of the (University of Aalborg) 3rd (1989). — 2002.
  • NIST/SEMATEK (2008) Handbook of Statistical Methods
This article is issued from Wikipedia. The text is licensed under Creative Commons - Attribution - Sharealike. Additional terms may apply for the media files.