Valor E
Instituto de Matemática, Estatística e Computação Científica (IMECC),
Universidade Estadual de Campinas (UNICAMP).
O valor E (VanderWeele e Ding; 2017) é particularmente útil em estudos observacionais que utilizem regressão logística para estimar o RR de um tratamento sob um resultado binário.
\[{\rm RR} \text{ (risk ratio)}= \dfrac{P(Y = 1 | Z = 1)}{P(Y = 1 | Z = 0)}.\]
Não assumiremos ignorabilidade dado \(X\), ou seja \[Z \not\perp\!\!\!\!\not\perp \{Y(1), Y(0) \} | X.\]
Contudo, ainda assumiremos ignorabilidade dados \(X\) e uma variável de confusão não observada \(U\), ou seja
\[Z \perp\!\!\!\!\perp \{Y(1), Y(0) \} | (X, U)\]
Assim, se \(Y\) for binário, o verdadeiro e observado RR condicional são dados por:
\[RR^{\rm{True}}_{ZY | x} = \dfrac{P(Y(1) = 1 | X = x)}{P(Y(0) = 1 | X = x)} \quad e \quad RR^{\rm{Obs}}_{ZY | x} = \dfrac{P(Y = 1 | Z = 1, X = x)}{P(Y = 1 | Z = 0, X = x)}.\]
\[RR^{\rm{True}}_{ZY | x} \neq RR^{\rm{Obs}}_{ZY | x}.\]
Pois,
Exemplo
Pensemos no seguinte diagrama causal (já condicionao em \(X\)):
Condicionado em \((X, U)\) não observamos nenhuma associação entre \(Z\) e \(Y\). Já apenas condicionado em \(X\), observamos uma associação entre \(Z\) e \(Y\).
Assumindo \(U\) sendo binário, definamos dois parãmetros de sensibilidade: \[RR_{ZU|x} = \dfrac{P(U = 1 | Z = 1, X = x)}{P(U = 1 | Z = 0, X = X)} \quad e \quad RR_{UY|x} = \dfrac{P(Y = 1 | U = 1, X = x)}{P(Y = 0 | U = 0, X = x)},\]
que medem, condicionado em \(X\), a associação entre \(Z\) e a variável de confusão e entre \(Y\) e a variável de confusão, respectivamente.
Teorema
Sob \[Z \perp\!\!\!\!\perp Y | (X, U),\] assuma sem perda de generalidade que \[RR^{\rm{Obs}}_{ZY|x} > 1, \quad RR_{ZU|x} > 1, \quad RR_{UY|x} > 1.\]
Então, temos que \[RR^{\rm{Obs}}_{ZY|x} \leq \dfrac{RR_{ZU|x} \times RR_{UY|x}}{RR_{ZU|x} + RR_{UY|x} - 1}.\]
Sob \(Z \perp\!\!\!\!\perp Y | (X, U)\), este teorema nos da um valor máximo para \(RR^{\rm{Obs}}_{ZY|x}\) (que depende apenas de \(RR_{ZU|x}\) e \(RR_{UY|x}\)).
Lema
Definimos \(\beta(\omega_1, \omega_2) = \omega_1 \omega_2 / (\omega_1 + \omega_2 - 1)\) para \(\omega_1 > 1\) e \(\omega_2 > 1\).
Utilizando o Teorema anterior e o Lema (3), temos que \[RR_{ZU|x} \geq RR_{ZY|x}^{\rm{Obs}}, \quad RR_{UY|x} \geq RR_{ZY|x}^{\rm{Obs}}.\]
Assim, para explicar o RR, \(RR_{ZU|x}\) ou \(RR_{UY|x}\) devem ser pelo menos iguais a \(RR_{ZY|x}^{\rm{Obs}}\).
Por outro lado, utilizando o Teorema e o Lemma (4), temos que \[\omega^2 - 2 RR^{\rm{Obs}}_{ZXY | x} + RR^{\rm{Obs}}_{ZXY | x} \geq 0\]
Assim, para explicar o RR, \(\omega = \max(RR_{ZU|x}, RR_{UY|x})\) deve ser pelo menos iguail a \[RR^{\rm{Obs}}_{ZY|x} + \sqrt{RR^{\rm{Obs}}_{ZY|x} (RR^{\rm{Obs}}_{ZY|x} - 1)}.\]
Definição:
O valor E é dado por \[RR^{\rm{Obs}}_{ZY|x} + \sqrt{RR^{\rm{Obs}}_{ZY|x} (RR^{\rm{Obs}}_{ZY|x} - 1)}\]
Definição:
O valor E é dado por \[RR^{\rm{Obs}}_{ZY|x} + \sqrt{RR^{\rm{Obs}}_{ZY|x} (RR^{\rm{Obs}}_{ZY|x} - 1)}\]
Exemplo
Hammond and Horn (1958) utilizando dando da população dos estados unidos para estudar a relação entre fumar e câncer de pulmão. Ignorando covariáveis, os dados podem ser representados na seguinta Tabela de contigência.
Câncer | Não câncer | |
---|---|---|
Fuma | 397 | 78557 |
Não fuma | 51 | 108778 |
A seguir veremos os IC e o valor-e
[1] 8.017414 10.729780 14.359765
Observação: \[\dfrac{\log RR - \log \hat{RR}}{\sqrt{(1 - \hat{p}_1)/(n_1 \hat{p}_1) + (1 - \hat{p}_0) / (n_0 \hat{p}_0)}} \sim N(0, 1)\]
O valor-e é dado por
para que as variáveis de confusão não medidas expliquem o alto valor de RR, \(\max (RR_{ZU|x}, RR_{UY|x})\) deve ser pelo menos 20.95.
Definição
Bradford Hill dá nove critérios para causaliade:
Assim, o valor-e é uma forma de justificar o primeiro critério: “associação forte frequentemente fornece evidência forte de causalidade. Isto, pois para explicar esta forte associação seria necessário uma variável de confusão mais forte ainda.”
Exemplo
O conjunto de dados NCHS2003.txt
contém 10 variáveis binárias: asian
, nativeamerican
, black
, hispanic
, drinking
, smoking
, mar
(se casada ou nao), somecollege
(se tem ou não educação superior), ageabove35
e PTbirth
(nascimento prematuro ou não).
Estamos interessados em estudar se ageabove35
tem algum efeito causal em PTbirth
(controlando por todas as outras covariáveis)
Estimate Std. Error z value Pr(>|z|)
(Intercept) -2.19593446 0.006135235 -357.921825 0.000000e+00
mar 0.15288266 0.003736842 40.912264 0.000000e+00
smoking 0.17100612 0.005399514 31.670649 3.941400e-220
drinking -0.29663169 0.006932649 -42.787641 0.000000e+00
hispanic 0.03514394 0.004401999 7.983632 1.420888e-15
black 0.45306208 0.004516759 100.306889 0.000000e+00
nativeamerican 0.12555607 0.015583687 8.056892 7.825898e-16
asian -0.03522949 0.007836976 -4.495291 6.947486e-06
ageabove35 0.26695548 0.004458659 59.873487 0.000000e+00
somecollege -0.12675842 0.003601967 -35.191442 2.703013e-271
Estimate
1.305982
Estimate Estimate
1.294619 1.317445
Estimate Estimate
1.938127 1.912211
Para explicar RR (sem que seja um efeito causal), o máximo RR das variáveis de confusão deve ser 1.94 (e 1.91 de focarmos no limite inferior). Apesar de que estes valores não são muito grandes, em epidemiologia são grandes sim.
Carlos Trucíos (IMECC/UNICAMP) | ME920/MI628 - Inferência Causal | ctruciosm.github.io