Abordagem de Neyman
Instituto de Matemática, Estatística e Computação Científica (IMECC),
Universidade Estadual de Campinas (UNICAMP).
Considere um CRE com \(n\) unidades, em que \(n_1\) recebem o tratamento e \(n_0\) recebem o placebo. Para cada \(i\) (\(i = 1, \cdots, n.\)) temos os resultados potenciais \(Y_i(1)\) e \(Y_i(0)\), bem como o efeito causal individual \(\tau_i = Y_i(1) - Y_i(0)\). Então:
Ademais, \[\tau = \displaystyle \sum_{i = 1}^n \tau_i \Big / n = \bar{Y}(1) - \bar{Y}(0) \quad e \quad S^2(\tau) = \sum_{i = 1}^n(\tau_i - \tau)^2 \Big / n - 1.\]
Estamos interessados em estimar \(\tau\), baseados em \((Z_i, Y_i)_{i = 1}^n\) sob CRE.
Utilizando os resultados observados (\(Y_i\)), podemos calcular as médias e variâncias amostrais como:
\[\hat{\bar{Y}}(1) = \displaystyle \sum_{i = 1}^n Z_i Y_i \Big /n_1 \quad e \quad \hat{\bar{Y}}(0) = \displaystyle \sum_{i = 1}^n (1 - Z_i) Y_i \Big /n_0\]
\[\hat{S}^2(1) = \displaystyle \sum_{i = 1}^n Z_i (Y_i - \hat{\bar{Y}}(1))^2 \Big / n_1 - 1 \quad e \quad \hat{S}^2(0) = \displaystyle \sum_{i = 1}^n (1 - Z_i) (Y_i - \hat{\bar{Y}}(0))^2 \Big / n_0 - 1\]
Quais seriam as versões amostrais de \(S(1, 0)\) e \(S^2(\tau)\)?
Nenhuma!. Não existem versões amostrais de \(S(1, 0)\) nem \(S^2(\tau)\) pois os resultados potenciais \(Y_i(1)\) e \(Y_i(0)\) nunca são observados simultaneamente para cada unidade \(i\).
Demostração: (no final da aula)
Quais são as diferenças entre o teste de Neyman e o de Fisher?
A prova do teorema é bastante técnica e está em Li e Peng (2017).
O teorema garante a normalidade e, ao mesmo tempo, que o estimador da variância, \(\hat{V} = \frac{\hat{S}^2(1)}{n_1} + \frac{\hat{S}^2(0)}{n_0}\), é maior (em probabilidade) do que \(\mathbb{V}(\hat{\tau}) = \frac{S^2(1)}{n_1} + \frac{S^2(0)}{n_0} - \frac{S^2(\tau)}{n}\), o que permite calcular intervalos de confiança conservadores (i.e, de maior amplitude): \[\hat{\tau} \pm z_{1-\alpha/2} \sqrt{\hat{V}}.\]
Pela relação intervalo de confiança-teste de hipóteses, podemos utilizar o intervalo para testar a hipótese nula fraca: \[H_{0N}: \tau = 0 \quad \text{ou equivalentemente} \quad \bar{Y}(1) = \bar{Y}(0)\]
Obs: \(H_{0F}\) e \(H_{0N}\) são conhecidas como hipótese nula forte e fraca, respectivamente.
O que implica fazermos “y0 = sort(y0, decreasing = FALSE)”?
O que implica fazermos “y0 = sample(y0)”?
::: {.callout-note} ### Simulação
hccm
do pacote car
do R calcula tanto o estimador EHW quanto o HC2!.
Utilizaremos o dataset lalonde
do pacote Matching
para mostrar como utilizar o método de Neyman, bem como comparar com o modelo de regressão.
Podemos, então calcular facilmente \(\hat{\tau}\) e \(\hat{V}\).
Vejamos o que acontece se ajustarmos um modelo de regressão por MQO.
Contudo, lembre-se que não devemos utilizar \(\hat{V}_{MQO}\), mas podemos utilizar os estimadores EHW ou HC2.
Para mais detalhes de estimadores robustos da matriz de covariância, ver aqui
\[H_{0N}: \tau = 0\] Estatística de teste:
Mesmo a um nível de significância de 0.5% (o que não é tão inusual na área de saúde), se utilizarmos regressão por MQO rejeitariamos \(H_{0N}\). A mesma conclusão não é obtida se utilizamor as correções EHW ou mesmo HC2 🤣.
Carlos Trucíos (IMECC/UNICAMP) | ME920/MI628 - Inferência Causal | ctruciosm.github.io