Contents

[인과추론] Potential Outcomes Framework

Potential Outcomes 이란?

notation

  • $T$ : observed treatment
  • $Y$ : observed outcome
  • $i$ : to denote a specific unit/individual
  • $Y_i (1)$ : potential outcome under treatment
  • $Y_i (0)$ : potential outcome under no treatment
  • (individual) Causal effect : $Y_i (1) - Y_i (0)$

The fundamental problem of causal inference

  • (individual) Causal effect : $Y_i (1) - Y_i (0)$

위의 식에서 causal effect를 알 수가 없다. 예를 들어서,

  • 약을 먹으면 병이 낫는지 알고 싶다. 즉, causal effect를 알고 싶다.
  • 그런데 약을 먹었을 때의 결과 $Y(1)$와 먹지 않았을 때의 결과 $Y(0)$를 동시에 알 수 없기 때문에 문제가 발생한다.
  • 결국에는 모든 개체 $i$들의 outcome은 둘 중 하나의 potential outcome만을 얻을 수 밖에 없는 것이다. (이 때 반대의 예상되는 결과는 counterfactual outcome이라고 함)

이것이 우리가 마주하게 되는 문제이다. 그렇다면 이를 어떻게 해결해야 할까?

Average treatment effect (ATE)

위에서 처럼 모든 개체들의 두 가지 outcome을 얻을 수 없다면 평균이라는 강력한 무기를 이용할 수 있다.

  • Average treatment effect (ATE) :

$$E[Y_i (1) - Y_i (0)] = E[Y(1) - Y(0)] = E[Y(1)] - E[Y(0)]$$

  • Associational difference :

$$E[Y|T=1] - E[Y|T=0]$$

그렇다면 ATE와 associational difference가 같도록 하는 가정은 무엇일까. 하나씩 알아보자.

Ignorability (exchangeability)

  • Ignorability :

$$(Y(1),Y(0)) \perp T$$

또 다른 시점으로는 (계산, 수학적으로 같은 의미)

  • exchangeability :
    • 두 그룹을 바꿔서 treatment나 not treatment를 해도 똑같은 결과를 나오는 가정

$$E[Y(1)|T=1] = E[Y(1)|T=0] \rightarrow = E[Y(1)] \\ E[Y(0)|T=1] = E[Y(0)|T=0] \rightarrow = E[Y(0)]$$

결국 treatment, non treatment 두 그룹이 comparable해야한다는 것이다. 위의 가정을 만족한다면 우리는 아래와 같은 식을 얻을 수 있다.

$$E[Y(1)] - E[Y(0)] = E[Y(1)|T=1] - E[Y(0)|T=0]$$

위의 식을 보면 causal notation에서 점점 statistical notation으로 변화하는 느낌을 받을 수 있다. data를 통해 결국 측정하는 것은 statistical inference의 영역인 것이다. 여기서 identifiability라는 개념이 나온다.

  • identifiability
    • 만약에 causal quantity (ex, $E[Y(t)]$)를 statistical quantity(ex, $E[Y|t]$)로 계산할 수 있다면 우리는 이 causal quantity가 identifiable하다고 한다.

위의 ignorability(exchangeability)라는 중요한 가정을 배웠다. 그런데 이를 실제로 만족하도록 하기 위해서는 어떻게 해야할까? Randomized control trial (RCT)이 필요하다. 동전을 던져서 그룹을 나누는 것이다. 즉, 그룹이 나누어질 때 confounder를 없어지고 두 그룹이 동일한 특징(comparable)을 가진다는 것이다.

Conditional exchangeability

하지만 obserbational data에서는 ignorability가정을 만족하기가 어렵다. 이유는 당연히 RCT를 하지 못한 상태이기 때문에 confounder가 있을 수 밖에 없다. 따라서 이를 해결하기 위해 conditional exchangeability가정을 주로 이용한다. covariate $X$들을 conditioning함으로서 subgroup들이 exchangeable하게 만드는 것이다. confounder들을 제어함으로서 RCT처럼 동일한(comparable) 두 집단을 만들어가는 과정이라고 볼 수 있다. 물론 모든 confounder를 파악할 수 없기에 RCT와 동일하다고 할 수는 없다.

  • Conditional Exchangeability (Unconfoundedness):

$$(Y(1),Y(0)) \perp Y |X$$

graphical하게 표현하면 아래와 같다.

$$E[Y(1) - Y(0) | X] = E[Y(1)|X] - E[Y(0)|X] $$ $$ = E[Y(1)|T=1,X]-E[Y(0)|T=0,X]$$

marginal effect는

$$E[Y(1) - Y(0)] = E_X E[Y(1) - Y(0)|X]$$

근데 주의해야 할 점은 이 assumption은 untestable하다는 것이다. 우리가 conditioning하지 못한 숨겨진 confounder가 있기 때문이다.

Positivity/Overlap and Extrapolation

위의 unconfoundedness도 중요한 가정이지만 추가적으로 고려해야하는 가정도 존재한다.

  • Positivity (Overlap, Extrapolation) :
    • 모든 covariates $x$에 대해

$$0 < P(T=1|X=x) < 1$$

이 가정이 필요한 이유를 먼저 수학적으로 살펴보자.

$$E[Y(1) - Y(0)] = E_X [E[Y|T=1, X] - E[Y|T=0, X]]$$

$$\sum_x P(X=x)(\sum_y y P(Y=y|T=1,X=x) - \sum_y y P(Y=y|T=0,X=x)) $$

$$ =\sum_x P(X=x)(\sum_y y \frac{P(Y=y, T=1,X=x)}{P(T=1 | X=x)P(X=x)} - \sum_y y \frac{P(Y=y,T=0,X=x)}{P(T=0 | X=x)P(X=x)})$$

위 식에서 분모에 $P(T=1|X=x)+P(T=0|X=x)=1$이다. 따라서 $P(T=1|X=x)$이 0 또는 1이면 문제가 생긴다.

이에 대해 생각해보면 당연한 결과이다. 특정 covariate값에서 관찰할 수 있는 것이 treatment 또는 non- treatment의 결과만 존재한다면 이는 causal effect를 제대로 측정하지 못하게 되는 것을 의미한다.

No interference, Consistency

마지막으로 추가적인 가정들을 알아보자.

  • No Interference
    • 내 outcome이 다른 이들의 treatment로 영향을 받지 않아야한다

$$Y_i (t_1, t_2,…t_i,…, t_n) = Y_i (t_i)$$

  • Consistency
    • 우리가 관측하는 $Y$의 값이 관측된 treatment $T$의 potential outcome이여야 한다.

$$T=t \rightarrow Y = Y(t) \\ Y = Y(T)$$

Consistency에 대해 예를 들어보자.

  • 강아지와 함께 살면 행복지수가 높아질 것이다.
  • 위와 같은 causal effect를 구하고자 한다. 의도한 것은 강아지의 어떤 친밀함과 같은 교류 덕에 행복지수가 높아지는 효과(potential outcome)일 것이다. 그런데 나이가 많은 강아지가 treatment가 되었다면 우리가 의도한대로 결과가 나오지 않을 수도 있다.
  • 이처럼 treatment specification으로 잡히지 않은 요인들 때문에 consistency가 중요한 것이다. (no muliple version of treatment)

consistency 가정이 성립한다면

$$E[Y(1) - Y(0) | X] = E[Y(1)|X] - E[Y(0)|X] \\ = E[Y(1)|T=1,X]-E[Y(0)|T=0,X] \\ =E[T|T=1,X] - E[Y|T=0,X]$$

지금까지의 가정들을 총집합해보면

  • Unconfoundedness
  • Positivity
  • No interference
  • Consistency

$$E[Y(1) - Y(0)] = E[Y(1)] - E[Y(0)]\;\text{(linearity of expectation)} \\ =E_X [E[Y(1)|X] - E[Y(0)|X]] \;\text{(law of iterated expectations)} \\ =E_X [E[Y(1)|T=1,X] - E[Y(0)|T=0,X]] \;\text{(unconfoundedness, positivity)} \\ =E_X [E[Y|T=1,X] - E[Y|T=0,X]] \; \text{(consistency)}$$

최종적으로 우리는 통계적인 추론을 통해 (최종식이 모두 확률변수, 평균 등으로 이루어진 식) 우리가 궁금해했던 ATE를 구할 수 있게 된다.

Reference