Модерация в статистике

06.03.2021

Модерация в статистике и регрессионном анализе — зависимость связи между двумя переменными от третьей переменной, которая называется модератором. Эффект модератора статистически характеризуется как взаимодействие; то есть категориальная (пол, этническая принадлежность, класс) или количественная (уровень заработной платы) переменная, которая влияет на направление и/или силу связи между зависимыми и независимыми переменными. В частности, в корреляционном анализе модератором является третья переменная, которая влияет на корреляцию нулевого порядка между двумя другими переменными, или наклон зависимой переменной к независимой переменной. В дисперсионном анализе основной снижающий эффект может быть представлен как взаимодействие между основной независимой переменной и фактором, задающим соответствующие условия ее функционирования.

Примеры

Анализ с модерацией в поведенческих науках предполагает использование линейного множественного регрессионного анализа или причинно-следственного моделирования. Для количественной оценки влияния модератора в множественном регрессионном анализе, регрессии случайной величины Y {displaystyle Y} на X {displaystyle X} , в модель добавляется дополнительный член, который представляет собой взаимодействие между X {displaystyle X} и модератором.

Таким образом, зависимость целевой переменной Y {displaystyle Y} от x 1 {displaystyle x1} и модерирующей переменной x 2 {displaystyle x2} будет выглядеть следующим образом:

Y = b 0 + b 1 x 1 + b 2 x 2 + b 3 ( x 1 ∗ x 2 ) + ϵ {displaystyle Y=b0+b1x1+b2x2+b3(x1*x2)+epsilon } .

В этом случае роль x 2 {displaystyle x2} как модератора достигается путем оценки b 3 {displaystyle b3} , параметра для члена взаимодействия.

Мультиколлинеарность в регрессии

В модерируемом регрессионном анализе вычисляется новый предиктор взаимодействия x 1 x 2 {displaystyle x1x2} , который будет соотнесен с двумя основными переменными, используемыми для его расчета. Это проблема мультиколлинеарности в умеренной регрессии. Мультиколлинеарность приводит к тому, что коэффициенты оцениваются с более высокими стандартными ошибками и, следовательно, большей неопределенностью.

В качестве средства от мультиколлинеарности используется центрирование среднего значения, однако оно не требуется в регрессионном анализе, поскольку в корреляционной матрице данные уже центрируются после вычисления корреляций. Корреляции выводятся из перекрестного произведения двух стандартных баллов (Z-баллов) или статистических моментов.

Две категориальные независимые переменные

Если обе независимые переменные являются категориальными, мы можем проанализировать результаты регрессии для одной независимой переменной на определенном уровне другой независимой переменной. Допустим, что A и B являются одиночными фиктивными кодированными переменными (0,1) и что A представляет этническую принадлежность (0 = европейцы, 1 = азиаты), а B представляет условие в исследовании (0 = контрольное, 1 = тренировочное). Затем эффект взаимодействия показывает, отличается ли влияние условия на зависимую переменную Y для европейцев и азиатов и отличается ли влияние этнической принадлежности для этих двух условий. Коэффициент А показывает влияние этнической принадлежности на Y для контрольного условия, в то время как коэффициент В показывает эффект наложения экспериментального условия для европейских участников.

Чтобы проверить, есть ли какая-либо существенная разница между европейцами и азиатами в условиях эксперимента, мы можем просто запустить анализ с переменной условия, закодированной в обратном порядке (0 = экспериментальная, 1 = контрольная), так что коэффициент этнической принадлежности представляет влияние этнической принадлежности на Y в условиях эксперимента. Аналогичным образом, если мы хотим увидеть, оказывает ли эффект на участников из Азии, мы можем изменить код переменной этнической принадлежности (0 = азиаты, 1 = европейцы).

Одна категориальная и одна непрерывная независимая переменная

Если первая независимая переменная является категориальной переменной (например, пол), а вторая — непрерывной переменной (например, баллы по шкале удовлетворенности жизнью SWLS), то b1 представляет собой разницу в зависимой переменной между мужчинами и женщинами, когда удовлетворенность жизнью равна нулю. Однако нулевой балл по шкале удовлетворенности не имеет смысла, так как диапазон баллов составляет от 7 до 35. Если вычесть среднее значение оценки SWLS для выборки из оценки каждого участника, то среднее значение результирующей центрированной оценки SWLS будет равно нулю. При повторном анализе b1 представляет разницу между мужчинами и женщинами на среднем уровне оценки SWLS выборки.

Для исследования простого влияния пола на зависимую переменную (Y) возможно распределить её по трём категориям: высокий, умеренный и низкий SWLS. Если баллы непрерывной переменной не стандартизированы, можно просто вычислить эти три значения, добавляя или вычитая одно стандартное отклонение исходных баллов; если баллы непрерывной переменной стандартизированы, можно вычислить три значения следующим образом: высокий = стандартизированный балл - 1, умеренный (среднее значение = 0), низкий = стандартизированный балл + 1. Как и в случае с двумя категориальными независимыми переменными, b2 представляет собой влияние оценки SWLS на зависимую переменную для женщин. Путем обратного кодирования гендерной переменной можно получить эффект оценки SWLS на зависимую переменную для мужчин.