Valor E
Instituto de Matemática, Estatística e Computação Científica (IMECC),
Universidade Estadual de Campinas (UNICAMP).
O valor E (VanderWeele e Ding; 2017) é particularmente útil em estudos observacionais que utilizem regressão logística para estimar o RR de um tratamento sob um resultado binário.
\[{\rm RR} \text{ (risk ratio)}= \dfrac{P(Y = 1 | Z = 1)}{P(Y = 1 | Z = 0)}.\]
Não assumiremos ignorabilidade dado \(X\), ou seja \[Z \not\perp\!\!\!\!\not\perp \{Y(1), Y(0) \} | X.\]
Contudo, ainda assumiremos ignorabilidade dados \(X\) e uma variável de confusão não observada \(U\), ou seja
\[Z \perp\!\!\!\!\perp \{Y(1), Y(0) \} | (X, U)\]
Assim, se \(Y\) for binário, o verdadeiro e observado RR condicional são dados por:
\[RR^{\rm{True}}_{ZY | x} = \dfrac{P(Y(1) = 1 | X = x)}{P(Y(0) = 1 | X = x)} \quad e \quad RR^{\rm{Obs}}_{ZY | x} = \dfrac{P(Y = 1 | Z = 1, X = x)}{P(Y = 1 | Z = 0, X = x)}.\]
\[RR^{\rm{True}}_{ZY | x} \neq RR^{\rm{Obs}}_{ZY | x}.\]
Pois,
Pensemos no seguinte diagrama causal (já condicionao em \(X\)):
Condicionado em \((X, U)\) não observamos nenhuma associação entre \(Z\) e \(Y\). Já apenas condicionado em \(X\), observamos uma associação entre \(Z\) e \(Y\).
Assumindo \(U\) sendo binário, definamos dois parãmetros de sensibilidade: \[RR_{ZU|x} = \dfrac{P(U = 1 | Z = 1, X = x)}{P(U = 1 | Z = 0, X = X)} \quad e \quad RR_{UY|x} = \dfrac{P(Y = 1 | U = 1, X = x)}{P(Y = 0 | U = 0, X = x)},\]
que medem, condicionado em \(X\), a associação entre \(Z\) e a variável de confusão e entre \(Y\) e a variável de confusão, respectivamente.
Sob \(Z \perp\!\!\!\!\perp Y | (X, U)\), este teorema nos da um valor máximo para \(RR^{\rm{Obs}}_{ZY|x}\) (que depende apenas de \(RR_{ZU|x}\) e \(RR_{UY|x}\)).
Utilizando o Teorema anterior e o Lema (3), temos que \[RR_{ZU|x} \geq RR_{ZY|x}^{\rm{Obs}}, \quad RR_{UY|x} \geq RR_{ZY|x}^{\rm{Obs}}.\]
Assim, para explicar o RR, \(RR_{ZU|x}\) ou \(RR_{UY|x}\) devem ser pelo menos iguais a \(RR_{ZY|x}^{\rm{Obs}}\).
Por outro lado, utilizando o Teorema e o Lemma (4), temos que \[\omega^2 - 2 RR^{\rm{Obs}}_{ZXY | x} + RR^{\rm{Obs}}_{ZXY | x} \geq 0\]
Assim, para explicar o RR, \(\omega = \max(RR_{ZU|x}, RR_{UY|x})\) deve ser pelo menos iguail a \[RR^{\rm{Obs}}_{ZY|x} + \sqrt{RR^{\rm{Obs}}_{ZY|x} (RR^{\rm{Obs}}_{ZY|x} - 1)}.\]
A seguir veremos os IC e o valor-e
[1] 8.017414 10.729780 14.359765
Observação: \[\dfrac{\log RR - \log \hat{RR}}{\sqrt{(1 - \hat{p}_1)/(n_1 \hat{p}_1) + (1 - \hat{p}_0) / (n_0 \hat{p}_0)}} \sim N(0, 1)\]
O valor-e é dado por
para que as variáveis de confusão não medidas expliquem o alto valor de RR, \(\max (RR_{ZU|x}, RR_{UY|x})\) deve ser pelo menos 20.95.
Assim, o valor-e é uma forma de justificar o primeiro critério: “associação forte frequentemente fornece evidência forte de causalidade. Isto, pois para explicar esta forte associação seria necessário uma variável de confusão mais forte ainda.”
Estimate Std. Error z value Pr(>|z|)
(Intercept) -2.19593446 0.006135235 -357.921825 0.000000e+00
mar 0.15288266 0.003736842 40.912264 0.000000e+00
smoking 0.17100612 0.005399514 31.670649 3.941400e-220
drinking -0.29663169 0.006932649 -42.787641 0.000000e+00
hispanic 0.03514394 0.004401999 7.983632 1.420888e-15
black 0.45306208 0.004516759 100.306889 0.000000e+00
nativeamerican 0.12555607 0.015583687 8.056892 7.825898e-16
asian -0.03522949 0.007836976 -4.495291 6.947486e-06
ageabove35 0.26695548 0.004458659 59.873487 0.000000e+00
somecollege -0.12675842 0.003601967 -35.191442 2.703013e-271
Estimate
1.305982
Estimate Estimate
1.294619 1.317445
Estimate Estimate
1.938127 1.912211
Para explicar RR (sem que seja um efeito causal), o máximo RR das variáveis de confusão deve ser 1.94 (e 1.91 de focarmos no limite inferior). Apesar de que estes valores não são muito grandes, em epidemiologia são grandes sim.
Carlos Trucíos (IMECC/UNICAMP) | ME920/MI628 - Inferência Causal | ctruciosm.github.io