도구변수는 세 가지 조건을 충족해야 한다.
- 도구변수는 그 영향을 파악하고자 하는 변수에 인과적인 영향을 미친다. 이 인과효과를 1단계(first-stage)라고 부른다.
- 도구변수는 무작위적으로 또는 ‘무작위 배정과 거의 마찬가지로’ 배정된다. 이것은 우리가 통제하고자 하는 누락변수들과 도구변수가 상관관계를 갖지 않음을 의미한다. 이 조건을 독립성 가정(independence assumption)이라고 부른다.
- 마지막으로, IV의 논리는 배제 제약(exclusion restriction)을 필요로 한다. 배제 제약은 도구변수가 성과변수에 영향을 미치는 유일한 경로임을 표현한다.
IV 방법은 이 세 가정을 이용해 도구변수에서 성과변수로 이어지는 연쇄 반응을 표현한다.
도구변수로부터 관심 원인변수로의 연결고리는 연쇄 반응의 첫 번째 연결고리이기 때문에 1단계(first-stage)라고 부른다. 도구변수가 성과에 미치는 직접적인 효과를 축약형(reduced-form)이라고 한다. 관심대상 인과효과는 축약형 나누기 1단계 추정치의 비율이다. 이것을 국지적 평균 처치효과(LATE, local average treatment effect)라고 부른다. 수식은 아래와 같다.
\[\lambda = \frac{\rho}{\phi} = \frac{E[Y_i|Z_i=1] - E[Y_i|Z_i=0]}{E[D_i|Z_i=1] - E[D_i|Z_i=0]}\]
국지적 평균 처치효과는 관심 원인변수가 오직 도구변수에 의해서만 영향을 받는 사람들에 대한 평균 인과효과이다. IV에서는 네 가지 유형의 사람을 말할 수 있다. 항시 불참자(never-taker)는 도구변수의 영향을 받지 않는다. 항시 참여자(always-taker)도 도구변수의 영향을 받지 않는 유형이다. 순응자(complier)는 관심 원인변수가 오직 도구변수에 의해서만 영향을 받는 사람들이다. 반항자(defier)는 순응자와 반대로 행동한다.
LATE와 달리 처치를 받은 전체 모집단에 대한 평균 인과효과는 피처치자에 대한 처치효과(treatment effect on the treated, TOT)라고 부른다.
2단계 최소제곱법을 사용하여 IV를 일반화할 수 있다.
축약형 효과는 다음과 같이 회귀식의 도구변수의 계수 \(\rho\)로 쓸 수 있다.
\[Y_i = \alpha_0 + \rho Z_i + e_{0i}\] 이 식에서 \(Z_i\)의 계수는 다음과 같다.
\[\rho = E[Y_i | Z_i = 1] - E[Y_i|Z_i=0]\]
마찬가지로, \(Z_i\)의 1단계 효과는 다음과 같은 1단계 식의 계수 \(\phi\)이다.
\[D_i = \alpha_1 + \phi Z_i + e_{1i}\]
여기서 \(\phi = E[D_i | Z_i = 1] - E[D_i|Z_i=0]\). \(\lambda = \frac{\rho}{\phi}\).
2SLS 추정법은 \(\frac{\rho}{\phi}\) 계산의 대안적인 방법을 제시한다. 2SLS의 1단계에서는 \(D_i\)를 \(Z_i\)에 회귀하여 예측치 \(\hat D_i\)를 얻는다. 즉,
\[\hat D_i = \alpha_1 + \phi Z_i\]
2SLS의 2단계에서는 다음과 같이 \(Y_i\)를 \(\hat D_i\)에 회귀시킨다.
\[Y_i = \alpha_2 + \lambda_{2SLS} \hat D_i + e_{2i}\] 이렇게 구한 \(\lambda_{2SLS}\)은 다음과 같이 성립한다.
\[\lambda_{2SLS} = \frac{\rho}{\phi}\]
2SLS 과정에 통제변수 \(A_i\)를 추가하고 싶다면 모든 회귀식에 \(A_i\)를 독립변수로 추가할 수 있다.
참고문헌
Angrist, J. D., & Pischke, J. S. (2014). 강창희, 박상곤 역. Mastering’metrics: The path from cause to effect. Princeton university press. 3장.