Introdução
Instituto de Matemática, Estatística e Computação Científica (IMECC),
Universidade Estadual de Campinas (UNICAMP).
Correlação e causalidade podem co-existir, mas correlação não implica (necesariamente) causalidade.
Algumas vezes, correlação pode implicar causalidade, mas outras….
Exemplo 1
As taxas de recuperação (1: recuperado, 0: não recuperado) de um estudo aplicado em 700 pacientes que tiveram acesso a um novo medicamento são apresentadas a seguir. Dos 700 pacientes, apenas 350 decidiram experimentar o novo medicamento. Baseado nos resultados, recomendaria ou não o uso do novo medicamento?
Novo medicamento | Não novo medicamento | |
---|---|---|
Total | 273/350 (78%) | 289/350 (83%) |
Seu colega, em lugar de olhar os resutados agregados, resolve olhar os resultados por gênero, obtendo o seguinte resultado:
Novo medicamento | Não novo medicamento | |
---|---|---|
Homem | 81/87 (93%) | 234/270 (87%) |
Mulher | 192/263 (73%) | 55/80 (69%) |
Ainda manteria suas conclusões?
Suponha agora que conhecemos um fato adicional: Estrogêneo tem um efeito negativo na recuperação.
Exemplo 2
Considere um estudo que mede a quantidade média de exercícios diário (em minutos) e o nível de colesterol LDL (mg/dL). Baseado no seguinte gráfico de dispersão, quais seriam suas conclusões?
Exemplo 2
Você, incomodado com o resultado contraintuitivo, revolve incluir a variável grupo, obtendo o seguinte resultado
Suas conclusões permaneceriam as mesmas?
Exemplo 3
Pense em um contexto semelhando ao do Exemplo 1 (novo medicamento). Contudo, em lugar de termos informação sobre o gênero dos pacientes, temos informação sobre a pressão arterial destes, a mesma que foi coletada ao final do experimento. Os resultados obtidos são os seguintes
Não novo medicamento | Novo medicamento | |
---|---|---|
Baixa Pressão | 81/87 (93%) | 234/270 (87%) |
Alta Pressão | 192/263 (73%) | 55/80 (69%) |
Total | 273/350 (78%) | 289/350 (83%) |
Quais são as suas conclusões? recomendaria ou não o novo medicamento?
Exemplo 4 [Pedras no rim - Charig et al. (1986)]
Dados de 700 pacientes com pedras no rim foram coletados. Seja \(Z\) o tratameno (1: procedimento cirúrgico invasivo, 0: procedimento menor) e seja \(Y\) o resultado (1: sucesso, 0: fracasso). A Tabela de contingência é apresentada a seguir:
\(Y = 1\) | \(Y = 0\) | |
---|---|---|
\(Z = 1\) | 273 | 77 |
\(Z = 0\) | 289 | 61 |
Important
Seja a distribuição conjunta de \(Z\) e \(Y\) (ambas binárias)
\(Y = 1\) | \(Y = 0\) | |
---|---|---|
\(Z = 1\) | \(p_{11}\) | \(p_{10}\) |
\(Z = 0\) | \(p_{01}\) | \(p_{00}\) |
em que \(p_{zy} = P(Z = z, Y = y)\). Então
\[{\rm RD} \text{ (risk difference)} = P(Y = 1 | Z = 1) - P(Y = 1 | Z = 0) = \dfrac{p_{11}}{p_{11} + p_{10}} - \dfrac{p_{01}}{p_{01} + p_{00}}.\]
\[{\rm RR} \text{ (risk ratio)}= \dfrac{P(Y = 1 | Z = 1)}{P(Y = 1 | Z = 0)} = \dfrac{p_{11}}{p_{11} + p_{10}} \Big / \dfrac{p_{01}}{p_{01} + p_{00}}.\] \[{\rm OR} \text{ (odds ratio)} = \dfrac{P(Y = 1 | Z = 1) \big / P(Y = 0 | Z = 1)}{P(Y = 1 | Z = 0) \big / P(Y = 0 | Z = 0)} = \dfrac{\dfrac{p_{11}}{p_{11} + p_{10}} \Big / \dfrac{p_{10}}{p_{11} + p_{10}}}{\dfrac{p_{01}}{p_{01} + p_{00}} \Big / \dfrac{p_{00}}{p_{01} + p_{00}}} = \dfrac{p_{11}p_{00}}{p_{10}p_{01}}.\]
Important
Se resumimos os dados observados em uma Tabela de contingência
\(Y = 1\) | \(Y = 0\) | |
---|---|---|
\(Z = 1\) | \(n_{11}\) | \(n_{10}\) |
\(Z = 0\) | \(n_{01}\) | \(n_{00}\) |
em que \(n_{zy} = \# \{i: Z_i = z, Y_i = y \}\). Podemos estimar RD, RR e OR, substituindo \(p_{zy}\) por \(\hat{p}_{zy} = n_{zy}/n\) com \(n\) sendo o total de observações.
Exemplo 4 [Pedras no rim - Charig et al. (1986)]
\(Y = 1\) | \(Y = 0\) | |
---|---|---|
\(Z = 1\) | 273 | 77 |
\(Z = 0\) | 289 | 61 |
\[{\rm \widehat{RD}} = \dfrac{n_{11}}{n_{11} + n_{10}} - \dfrac{n_{01}}{n_{01} + n_{00}} = \dfrac{273}{273 + 77} - \dfrac{289}{289 + 61} \approx -0.05 (-5\% < 0)\]
Exemplo 4 [Pedras no rim - Charig et al. (1986)]
\(Y = 1\) | \(Y = 0\) | |
---|---|---|
\(Z = 1\) | 81 | 6 |
\(Z = 0\) | 234 | 36 |
\(Y = 1\) | \(Y = 0\) | |
---|---|---|
\(Z = 1\) | 192 | 71 |
\(Z = 0\) | 55 | 25 |
\[{\rm \widehat{RD}_{leves}} = \dfrac{81}{81 + 6} - \dfrac{234}{234+35} \approx 0.06\]
\[{\rm \widehat{RD}_{graves}} = \dfrac{192}{192 + 71} - \dfrac{55}{55+25} \approx 0.04\]
Consideremos \(X\) uma variável binária (1: caso leve, 0: caso grave).
Será que, dependendo do caso (\(X = 1\) ou \(0\)), pacientes preferem algum tipo de tratamento?
\[\begin{align*} & \hat{P}(Z = 1 | X = 1) - \hat{P}(Z = 1 | X = 0) \\ & = \dfrac{81 + 6}{81 + 6 + 234 + 36} - \dfrac{192 + 71}{ 192 + 71 + 55 + 25} \\ & \approx -0.52 \end{align*}\]
\[\begin{align*} & \hat{P}(Z = 0 | X = 1) - \hat{P}(Z = 0 | X = 0) \\ & = \dfrac{234 + 36}{81 + 6 + 234 + 36} - \dfrac{55 + 25}{ 192 + 71 + 55 + 25} \\ & \approx 0.52 \end{align*}\]
Pacientes com casos graves (\(X = 0\)) tendem a tomar o tratamento 1 (\(Z = 1\)) com mais frequência. Já pacientes com casos leves (\(X = 1\)) tendem a tomar o tratamento 0 (\(Z = 0\)) com mais frequência.
\[\begin{align*} & \hat{P}(Y = 1 | Z = 1, X = 1) - \hat{P}(Y = 1 | Z = 1, X = 0) \\ & = \dfrac{81}{81 + 6} - \dfrac{192}{192 + 71} \\ & \approx 0.20 \end{align*}\]
\[\begin{align*} & \hat{P}(Y = 1 | Z = 0, X = 1) - \hat{P}(Y = 1 | Z = 0, X = 0) \\ & = \dfrac{234}{234 + 36} - \dfrac{55}{55 + 25} \\ & \approx 0.18 \end{align*}\]
Independente do tratamento (\(Z\)), paciêntes com casos leves (\(X = 1\)) tem maiores probabilidades de sucesso do que pacientes com casos graves (\(X = 0\)).
Se aplicarmos o tratamento menos efetivo (\(Z = 0\)) de forma mais frequente para os casos mais leves (\(X = 1\)) pode parecer que o tratamento é mais efetivo. Assim, para eliminar o efeito “severidade do caso”, devemos olhar para os dados desagregados (por severidade do caso).
Observação:
Repare que o último exemplo podería ter sido apresentado de forma semelhante aos primeiros, em que era reportada a taxa de sucesso (\(Y = 1\)).
\(Z = 1\) | \(Z = 0\) | |
---|---|---|
\(X = 1\) | 81 / (81 + 6) (93%) | 234 / (234 + 36) (87%) |
\(X = 0\) | 192 / (192 + 71) (73%) | 55 / (55 + 25) (69%) |
Total | 273 / 350 (77%) | 289 / 350 (83%) |
Exemplo 5
Juan e Maria são pacientes esperando por um transplate de coração. Em janeiro 1, Juan e Maria recebem o transplante:
Imagine que, de alguma forma (provisão divina), sabemos que:
Usualmente, comparamos o resultado quando uma determinada ação A é realizada versus o resultado quando a ação A não é realizada. Se o resultado muda, dizemos que a ação A tem um efeito causal sobre o resultado. Caso contrario, dizemos que ação A não tem um efeito causal sobre o resultado. A ação A é geralmente chamada de intervenção, política ou tratamento.
Definição: efeito causal individual
A intervenção A tem um efeito causal no resultado do \(i\)-éssimo individuo se \[Y_i(1) \neq Y_i(0).\]
\(Y_i(1)\) e \(Y_i(0)\) são conhecidas como potential outcomes ou counterfactual outcomes para a \(i\)-éssima unidade. Aquela que corresponde ao valor da intervenção que o indivíduo de fato recebeu é chamada de factual e a outra de contrafactual.
Definição: efeito causal médio
O efeito causal médio da intervenção A sob o resultado \(Y\) esta presente se \[\mathbb{E}[Y(1)] \neq \mathbb{E}[Y(0)].\]
Exemplo 6
Pensemos na familia do Juan como nossa população de interesse e vejamos os resultados contrafactuais sobre as intervenções \(a = 1\) e \(a = 0\)
Y(0) | Y(1) | |
---|---|---|
Carlos | 0 | 1 |
Daniela | 1 | 0 |
Luiz | 0 | 0 |
Maria | 0 | 0 |
Roberto | 0 | 0 |
Rosa | 1 | 0 |
Eric | 0 | 0 |
Manuella | 0 | 1 |
Julio | 1 | 1 |
Laura | 1 | 0 |
Cezar | 0 | 1 |
Guilherme | 1 | 1 |
Sandra | 1 | 1 |
Monica | 0 | 1 |
Ana | 0 | 1 |
Augusto | 0 | 1 |
Wanderlei | 1 | 1 |
Sheila | 1 | 0 |
Alex | 1 | 0 |
Tatiane | 1 | 0 |
O efeito causal médio é comumente chamado apenas de efeito causal e a hipótese nula de não efeito médio causal é chamada simplesmente de hipótese causal nula.
Se o resultado de interesse for dicotomico, a ausência do efeito causal médio também pode ser medido através de:
Em que \(Pr(\cdot)\) é a proporção de individuos na população.
A | 0 | 0 | 0 | 0 | 1 | 1 | 1 | 1 | 0 | 0 | 0 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 |
Y | 0 | 1 | 0 | 0 | 0 | 0 | 0 | 1 | 1 | 1 | 0 | 1 | 1 | 1 | 1 | 1 | 1 | 0 | 0 | 0 |
Quando a proporção de indivíduos que \(Y = 1\) no grupo de tratamento e no de controle são iguais, ou seja, \[Pr(Y = 1 | A = 1) = Pr(Y = 1 | A = 0),\] dizemos que \(A\) e \(Y\) são independentes (\(A \perp\!\!\!\perp Y\)), não associados ou que A não predize \(Y\). Caso contrário dizemos que \(A\) e \(Y\) são dependentes ou associadas.
Outras definições equivalentes:
Se \(Y\) for contínua, definimos a independência média entre \(A\) e \(Y\) como \[\mathbb{E}(Y | A = 1) = \mathbb{E}(Y | A = 0)\]
Voltando a exemplo, são \(A\) e \(Y\) associados?
A | 0 | 0 | 0 | 0 | 1 | 1 | 1 | 1 | 0 | 0 | 0 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 |
Y | 0 | 1 | 0 | 0 | 0 | 0 | 0 | 1 | 1 | 1 | 0 | 1 | 1 | 1 | 1 | 1 | 1 | 0 | 0 | 0 |
Sim, pois
\[P(Y = 1 | A = 1) = 7/13 \neq P(Y = 1 | A = 0) = 3/7\]
Carlos Trucíos (IMECC/UNICAMP) | ME920/MI628 - Inferência Causal | ctruciosm.github.io