Case Study 1

Applied Multiple Regression/Correlation Analysis for the Behavioral Sciences by Jacob Cohen, Patricia Cohen, Stephen G. West, Leona S. Aiken

Author

Sungkyun Cho

Published

May 17, 2024

Leerkes and Crockenberg (1999)의 육아에 대한 효능감 연구

Source: Statistical Methods for Psychology (8e) by Dave C. Howell

  • 5개월의 아기를 양육하는 92명의 어머니를 대상
  • 본인이 아이였을 때 어머니에게 받은 양육(maternal care) 정도가 자신이 어머니가 되었을 때 아이를 향한 양육효능감으로 이전될 것이라는 가설
  • 매개변수로 maternal care로부터 영향을 받은 자존감(self-esteem)을 고려.
  • 데이터: maternal_care.sav

library(haven)
maternal <- read_spss("howell/maternal_care.sav")
maternal
# A tibble: 92 × 4
   FAMID Esteem MatCare Efficacy
   <dbl>  <dbl>   <dbl>    <dbl>
 1     1   3.83    2.58      3.7
 2     2   3.5     2.83      3.4
 3     4   4       3.17      3.8
 4     8   4       3.75      3.9
 5     9   4       3.58      3.9
 6    11   3.33    3.67      3.7
 7    12   3.5     3.25      3.8
 8    13   3.67    3.75      3.5
 9    15   1.83    3.17      3.1
10    16   2.83    2.67      3.5
# ℹ 82 more rows
# correlations
# library(psych)
lowerCor(maternal[-1])  # lowerCor(maternal[2:4])과 동일 
         Estem MatCr Effcc
Esteem   1.00             
MatCare  0.40  1.00       
Efficacy 0.38  0.27  1.00 
GGally::ggpairs(maternal[-1])

mod1 <- lm(Efficacy ~ MatCare, data = maternal)
mod2 <- lm(Efficacy ~ MatCare + Esteem, data = maternal)
# compare models
# library(jtools)
export_summs(mod1, mod2, error_format = "(p = {p.value})") |> print()
                ───────────────────────────────────────────────
                                   Model 1         Model 2     
                              ─────────────────────────────────
                  (Intercept)        3.27 ***        2.94 ***  
                                (p = 0.00)      (p = 0.00)     
                  MatCare            0.11 *          0.06      
                                (p = 0.01)      (p = 0.20)     
                  Esteem                             0.15 **   
                                                (p = 0.00)     
                              ─────────────────────────────────
                  N                 92              92         
                  R2                 0.07            0.16      
                ───────────────────────────────────────────────
                  *** p < 0.001; ** p < 0.01; * p <            
                  0.05.                                        

Column names: names, Model 1, Model 2
summ(mod2, part.corr = TRUE, model.info = FALSE, model.fit = FALSE) |> print()
Standard errors: OLS
--------------------------------------------------------------------
                    Est.   S.E.   t val.      p   partial.r   part.r
----------------- ------ ------ -------- ------ ----------- --------
(Intercept)         2.94   0.17    16.95   0.00                     
MatCare             0.06   0.04     1.30   0.20        0.14     0.13
Esteem              0.15   0.05     3.02   0.00        0.31     0.29
--------------------------------------------------------------------

Mediation Analysis (매개 분석)

Baron, R. M., & Kenny, D. A. (1986). David A. Kenny website

  • 많은 문제점들이 지적되었으며, 이후 계속 extensively revised
  • 인과 추론에 대한 큰 틀에서 새롭게 접근할 필요가 있음

참고: The Effect: An Introduction to Research Design and Causality

독립변수가 종속변수에 어떻게(how) 영향을 주는지를 파악; 기제(메커니즘)을 파악
기제를 파악하는 것은 개입의 효과가 어떻게 일어나는지에 대한 핵심 요소를 규정할 수 있고, 변화과정을 최적화 할 수 있도록 도움을 줌.
매개 효과는 인과에 대한 강력한 주장을 하는 것이고, 회귀 분석이 기본적으로는 상관관계에 기초한다는 점에서 항상 인과관계에 대해서는 다양한 검증과 깊은 연구가 필요함

  • 변수들 간의 관계에 대한 충분히 설득력있는 이론적 근거가 필요
  • 추가적 실험 설계나 사전 연구들로 보완해야 함
  • 변수들 간의 관계를 왜곡할 수 있는 변수들을 모두 분석에 포함해야 함

일반적으로 여러 변수 간의 관계를 동시에 추정하는 SEM(structural equation modeling)의 프레임워크로 분석함

매개효과 존재의 검증?

  1. X → M의 인과 관계를 실험적으로 검증
  2. M → Y의 인과 관계를 실험적으로 검증

이 때, X → Y의 인과 관계가 유추되는가?

만약, N을 거쳐가는 효과가 존재한다면?

  • X → Y의 효과는 0이거나 마이너스가 될 수 있음.
  • 실제 X → Y의 효과가 없는 경우에도 매개효과를 찾으려는 노력을 하기를 제안하고 있음.
  1. 이제 X → Y의 인과 관계를 실험적으로 검증하면 되는가?

M이 Y보다 이전에 발생한 것이라는 근거는? Y → M을 발생시킬 수 없는가?

참고, 직접 효과(direct effect) vs. 간접 효과(indirect effect)의 표현에서 직접효과라는 표현보다는 omiited mediator라는 표현을 사용하는 것이 더 적절함.

psych 패키지의 mediate()

# library(psych)
fit_Efficacy <- psych::mediate(Efficacy ~ MatCare + (Esteem), data = maternal)
summary(fit_Efficacy)

Process Macro by Andrew F. Hayes

Andrew F. Hayes website
Macro download link: PROCESS v4.3 for R 폴더 안에 있는 process.R 파일을 이용

source("process.R")

process(data=maternal, y="Efficacy", m="Esteem", x="MatCare", model=4, total=1, bc=1, boot=1000) # stand=1: standardized coefficients

통제 변수를 함께 고려한 예

Source: p.133, Introduction to Mediation, Moderation, and Conditional Process Analysis: A Regression-Based Approach by Andrew F. Hayes

이를 설명하기 위해 3.5절에서 설명한 경제적 스트레스 연구를 다시 살펴보겠습니다. Pollack 등(2012)은 262명의 기업가들이 경기 침체기에 경험한 경제적 스트레스와 비즈니스 관련 우울한 영향, 그리고 창업 철수 의도를 평가한 바 있습니다. 단순 매개 분석 결과, 경제적 스트레스가 우울 정서에 미치는 영향을 통해 간접적으로 사업에서 철수하려는 욕구를 유발할 수 있다는 주장과 일치하는 결과가 나왔습니다. 즉, 경제적 스트레스를 더 많이 경험했다고 응답한 사람들은 사업 관련 우울 정서를 더 강하게 느꼈고(a = 0.173), 우울 정서를 더 많이 경험한 사람들은 경제적 스트레스를 보정한 후에도 창업 철회 의도가 더 높았습니다(b = 0.769). 간접 효과는 통계적으로 0과 차이가 없었습니다(ab = 0.133, 95% 부트스트랩 신뢰 구간은 0.071~0.201). 경제적 스트레스가 탈퇴 의도에 미치는 직접적인 영향에 대한 증거는 없었습니다(c′ = -0.077, p = .144). 간접적인 효과는 스트레스가 높아지면 우울한 정서로 이어져 창업 철회 의도로 이어지는 일련의 사건을 반영할 수 있습니다. 하지만 이러한 데이터는 단발성 관찰 연구에서 나온 결과라는 점을 기억하세요. 어떤 것도 조작되지 않았고, 시간이 지남에 따라 측정된 것도 없으며, 잠재적인 혼동 가능성이 많습니다. 예를 들어, 간접 효과는 비즈니스 관리에 대한 자신의 자신감이나 기술에 대한 인식과 같은 개인차가 아닌 다른 것에 의해 나타날 수 있습니다. 자신의 능력에 대해 상대적으로 더 자신감을 느끼는 사람들은 일반적으로 스트레스를 상대적으로 덜 느끼는 경향이 있고, 어떤 상황에서도 자신의 사업에 대해 부정적이고 낙담하는 경향이 적으며, 자신감이 낮은 사람보다 상대적으로 더 일을 즐기는 경향이 있을 수 있습니다. 그렇다면 경제적 스트레스의 간접 효과를 평가할 때 이러한 개인차를 통계적으로 통제하면 그 효과가 약화되거나 제거되어야 합니다. 즉, 자신감이 동일한 사람들 사이에서 경제적 스트레스가 우울한 영향을 통해 인출 의도에 미치는 간접 효과의 증거가 없어야 하는데, 이 추론에 따르면 이 변수는 X와 M, M과 Y 사이의 허위 연관성을 유도하는 과정에서 제거되었기 때문입니다. 그러나 자신감을 일정하게 유지하더라도 간접 효과가 지속된다면 인과 관계 주장은 여전히 유효합니다. 이 대안적 설명은 신뢰도와 유사한 무언가가 측정된 경우에만 시험해 볼 수 있습니다. 다행히도 Pollack 등(2012)은 “기업가적 자기 효능감”(Chen, Green, & Crick, 1998)이라는 측정치를 포함시켰습니다. 이 측정은 목표 설정 및 달성, 신제품 개발, 위험 관리, 의사 결정 등 다양한 기업가정신 관련 업무를 성공적으로 수행할 수 있는 자신의 능력에 대한 자신감을 지수화한 것입니다(ESTRESS 데이터 파일에 있는 ESE). 실제로 기업가적 자기효능감이 상대적으로 낮은 집단에 비해 기업가적 자기효능감이 상대적으로 높은 집단은 경제적 스트레스를 상대적으로 덜 느끼고(r = -0.158, p = .010), 비즈니스 관련 우울 영향을 상대적으로 덜 받으며(r = -0.246, p < .001), 기업가정신에 대한 몰입 의도가 상대적으로 약하다고 응답했습니다(r = -0.243, p < .001). 따라서 경제적 스트레스, 우울한 정동, 철수 의도 간에 관찰된 관계 중 적어도 일부에 대해서는 가짜 연관성 또는 표피적 연관성이 그럴듯한 대체 설명이 될 수 있습니다. 기업가적 자기 효능감과 추정 중인 인과 모형의 주요 변수 간의 공통된 연관성을 설명하기 위해 기업가적 자기 효능감(C1)을 우울 정동(M)과 철수 의도(Y) 모두에 대한 방정식에 포함시켰습니다. 또한 단일 변수가 통계적 통제변수로 사용될 수 있음을 설명하기 위해 참여자의 성별(데이터의 SEX, 0 = 여성, 1 = 남성)과 비즈니스에 종사한 기간(년 단위, C3, 데이터의 TENURE)을 예측변수로 포함시켰습니다. 따라서 경제적 스트레스의 직간접적 영향을 정량화하기 위해 추정된 방정식은 다음과 같습니다.

이러한 종류의 분석은 이러한 통제 없이 비교 분석의 결과가 통제 대상 변수를 포함하는 대체 설명에 얼마나 민감하거나 취약한지를 확인하기 위해 수행하거나, 특정 변수가 인과 체계의 주요 변수 간에 가짜 연관성을 생성할 수 있다는 것이 선험적으로 알려져 있거나 예비 분석에 근거하여 수행될 수 있습니다. 일시적인 현상이나 가짜 연관성을 대체 설명으로 배제하는 것은 본질적으로 상관관계만 있는 연관성을 포함하는 모든 인과 관계 논증에서 중요한 부분입니다. 하지만 그렇다고 해서 이러한 효과를 인과관계로 일률적으로 해석할 수 있다는 의미는 아닙니다. 물론 이 분석에서 고려되지 않은 다른 혼란 변수가 X, M, Y 사이에 관찰된 연관성을 만들어내고 있을 수 있습니다. 이것이 이 접근법의 문제점 중 하나입니다. 측정된 잠재적 혼동 변수만 설명할 수 있으며, 올바른 잠재적 혼동 변수가 존재한다면 통계적으로 통제되었는지 여부를 알 수 없습니다. 연관성에 대해 이러한 대체 해석이 존재할 수 있을 때 할 수 있는 최선의 방법은 이러한 교란 위협을 예상하고, 연구 중에 이를 측정하며, 분석에서 수학적으로 설명할 수 없는 그럴듯한 대체 교란 변수를 생각해낼 수 있는 비평가가 없기를 바라는 것입니다.

Data files link from Andrew F. Hayes

estress <- haven::read_sav("data/hayes2022data/estress/estress.sav")

process(data=estress, y="withdraw", x="estress", m="affect", cov=c("ese",
    "sex","tenure"), total=1, model=4)  # total: includes total effect

psych 패키지의 mediate()를 사용하면,

estress <- haven::read_sav("data/hayes2022data/estress/estress.sav")

fit_estress <- psych::mediate(withdraw ~ estress + (affect) + ese + sex, data = estress)

summary(fit_estress)
Call: psych::mediate(y = withdraw ~ estress + (affect) + ese + sex, 
    data = estress)

Direct effect estimates (traditional regression)    (c') X + M on Y 
          withdraw   se     t  df     Prob
Intercept     2.73 0.54  5.04 257 8.91e-07
estress      -0.09 0.05 -1.80 257 7.25e-02
ese          -0.21 0.08 -2.78 257 5.92e-03
sex           0.13 0.14  0.89 257 3.76e-01
affect        0.71 0.10  6.81 257 6.70e-11

R = 0.45 R2 = 0.21   F = 16.66 on 4 and 257 DF   p-value:  3.76e-12 

 Total effect estimates (c) (X on Y) 
          withdraw   se     t  df     Prob
Intercept     3.94 0.55  7.11 258 1.14e-11
estress       0.02 0.05  0.30 258 7.62e-01
ese          -0.32 0.08 -3.94 258 1.03e-04
sex           0.14 0.16  0.89 258 3.73e-01

 'a'  effect estimates (X on M) 
          affect   se     t  df     Prob
Intercept   1.71 0.31  5.60 258 5.50e-08
estress     0.16 0.03  5.25 258 3.22e-07
ese        -0.15 0.04 -3.39 258 7.95e-04
sex         0.02 0.09  0.19 258 8.50e-01

 'b'  effect estimates (M on Y controlling for X) 
       withdraw  se    t  df    Prob
affect     0.71 0.1 6.81 257 6.7e-11

 'ab'  effect estimates (through all  mediators)
        withdraw  boot   sd lower upper
estress     0.11  0.11 0.03  0.06  0.17
ese        -0.11 -0.11 0.04  0.06  0.17
sex         0.01  0.02 0.06  0.06  0.17