Variáveis Instrumentais (IV)
Instituto de Matemática, Estatística e Computação Científica (IMECC),
Universidade Estadual de Campinas (UNICAMP).
Seja o modelo \[Y = X \beta + u.\]
Seja o modelo \(Y = \beta_0 + \beta_1X_1 + \beta_2 X_2 + v\)
Suponha que por algum motivo, não temos acesso a \(X_2\) e o modelo ajustado é da forma \[Y = \beta_0 + \beta_1X_1 + u\]
Note que \(u = \beta_2 X_2 + v\)
Então, \[\mathbb{C}ov(X_1, u) = \mathbb{C}ov(X_1, \beta_2 X_2 + v) = \mathbb{C}ov(X_1, \beta_2 X_2) + \mathbb{C}ov(X_1, v) = \beta_2 \mathbb{C}ov(X_1, X_2)\]
Se \(X_1\) e \(X_2\) forem correlacionados (e \(\beta_2 \neq 0\)), então \(\mathbb{C}ov(X_1, u) \neq 0\).
Então:
\[\mathbb{C}ov(X,u) \neq 0\]
Exógena vs Endógena:
Os termos variável exógena e variável endógena orignaram-se na análise de equações simultâneas, mas o termo evoluiu e dizemos que uma variável explicativa endógena é aquela variável em \(\textbf{X}\) que é correlacionada com \(u\). Se HRLM4 se mantém, dizemos que temos variáveis explicativas exógenas.
Fortemente exógena vs. fracamente exógena
Seja o modelo \[Y = \textbf{X} \beta + u, \quad \text{com pelo menos uma variável endógena}.\]
Vamos supor que existe \(\textbf{Z}\) (da mesma dimensão do que \(\textbf{X}\) ou com mais colunas) tal que \(\mathbb{E}(u | \textbf{Z}) = 0\) (\(\textbf{Z}\) e \(u\) são não correlacionados).
Se particionarmos \(\textbf{X} = [\textbf{X}_1 \textbf{X}_2]\) tal que \(\textbf{X}_1\) (com \(k_1\) colunas) são exógenas e \(\textbf{X}_2\) (com \(k_2\) colunas) são endógenas (\(k_1 + k_2 = k\)). A matriz \(\textbf{Z}\) é da forma \(\textbf{Z} = [\textbf{X}_1 \textbf{Z}_2]\), ou seja, buscamos novas variáveis \(\textbf{Z}_2\) que sejam não correlacionadas com \(u\).
Instrumentos válidos
Instrumentos válidos, devem satisfazer dois requerimenso: relevância e exogeneidade:
São instrumentos válidos naqueles que estamos interessados!
Considere o problema da aptidão (aptid) não observada na seguinte equação: \[\log(wage) = \beta_0 + \beta_1 educ + \beta_2 aptid + e.\]
Suponha que temos uma variável observável \(Z\) que seja não correlacionada com \(u\) (o que implica ser não correlacionada com a variável omitida) mas correlacionada com \(educ\). Então dizemos que \(Z\) é um instrumento de \(educ.\)
Quem pode ser esse \(Z\)?
Situações como esta, representam uma variável intrumental fraca, pois viola o requisito da relevância do instrumento (relevância do instrumento: \(Z\) e a variável endógena devem ser correlacionados).
Quem pode ser esse \(Z\)? (outras alternativas)
Seja o modelo \[Y = \textbf{X}\beta + u, \quad com \quad \mathbb{V}(u) = \sigma^2 I \quad e \quad \mathbb{E}(u | \textbf{X}_t) \neq 0\]
suponha que é possível encontrar uma matriz \(\textbf{Z}_{n \times l}\) (\(l \geq k\)) tal que:
Então, premultiplicando \(Z'\) em ambos os lados:
\[Z'Y = Z'X \beta + Z'u, \quad com \quad \mathbb{V}(Z'u) = \sigma^2(Z'Z)\]
MQG
Seja o modelo \(Y = X \beta + u\) com \(\mathbb{E}(uu' | X) = \Omega\) e \(\Omega^{-1} = \Psi \Psi'\). Então, \[\hat{\beta}_{MQG} = (X' \Psi \Psi' X)^{-1} X' \Psi \Psi' Y = (X' \Omega^{-1}X)^{-1}X' \Omega^{-1} Y\]
No nosso caso, \(\underbrace{Z'Y}_{Y^{\ast}} = \underbrace{Z'X}_{X^{\ast}} \beta + \underbrace{Z'u}_{u^{\ast}}\) com \(\mathbb{V}(u^{\ast}) = \sigma^2(Z'Z)\).
\[\hat{\beta}_{MQG} = \hat{\beta}_{IV} = (X'Z(Z'Z)^{-1}Z'X)^{-1}X'Z(Z'Z)^{-1}Z'Y = (X'P_ZX)^{-1}X'P_zY\]
e \(\mathbb{V}(\hat{\beta}_{IV}| X^{\ast}) = \sigma^2 (X'P_Z X)^{-1}\).
O estimador IV pode ser visto como a aplicação de MQO em dois estágios:
Estágio 1: regredir \(X\) sobre \(Z\), então \[\hat{X} = Z \hat{\beta}_{1SLS} = Z(Z'Z)^{-1}Z'X\]
Estágio 2: regredir \(Y\) sobre \(\hat{X}\), então \[\hat{\beta}_{IV} = (\hat{X}'\hat{X})^{-1}\hat{X}'Y = (X'Z(Z'Z)^{-1}Z'X)^{-1} X'Z(Z'Z)^{-1}Z'Y = (X'P_ZX)^{-1} X'P_ZY\]
Quando \(l = k\), temos que \(\textbf{X}\) e \(\textbf{Z}\) tem a mesma dimensão. Então,
\[\hat{\beta}_{IV} = (\hat{X}'\hat{X})^{-1}\hat{X}'Y = (X'Z(Z'Z)^{-1}Z'X)^{-1} X'Z(Z'Z)^{-1}Z'Y = (Z'X)^{-1}Z'Y\]
Observação: Se \(A\) e \(B\) são matrizes não singulares da mesma ordem, então \((AB)^{-1} = B^{-1}A^{-1}\). Como \(X'Z\) é não singular, podemos aplicar o resultado.
Important
Quando trabalhamos com IV, é facil verificar se \(Z\) e \(X\) são correlacionados (basta fazer uma regressão) mas verificar que \(Z\) e \(u\) são não correlacionados não é possível e é preciso argumentar (teoricamente) que isto é verdadeiro.
Ps: Não, não podemos utilizar \(\hat{u}\) obtido por MQO, pois MQO produzira estimadores viesados e inconsistentes, então \(\hat{u} = Y - X\hat{\beta}_{MQO}\) não é mais uma estimativa útil de \(u\).
Suponha que queremos estimar o efeito do hábito de fumar sobre o peso dos recém-nascido. Se não considerarmos outras covariáveis, o modelo é \[\log(bwght) = \beta_0 + \beta_1 packs + u\]
Mas, podemos suspeitar que packs esteja correlacionado com outros fatores relativos à saude ou à existênca de um bom programa pré-natal. Sendo assim, MQO levará a estimadores viesados e inconsistentes.
Uma possível variável instrumental de packs seria o preço médio dos cigarros (cigprice), assumindo, é claro que cigprice e \(u\) sejam não correlacionados.
Call:
lm(formula = packs ~ cigprice, data = bwght)
Residuals:
Min 1Q Median 3Q Max
-0.1106 -0.1061 -0.1032 -0.1015 2.4016
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 0.0674257 0.1025384 0.658 0.511
cigprice 0.0002829 0.0007830 0.361 0.718
Residual standard error: 0.2987 on 1386 degrees of freedom
Multiple R-squared: 9.417e-05, Adjusted R-squared: -0.0006273
F-statistic: 0.1305 on 1 and 1386 DF, p-value: 0.7179
Se packs e cigprice não são correlacionados, não deveriamos usar cigprice como IV. Mas, o que acontece se o fizermos?
Call:
ivreg(formula = log(bwght) ~ packs | cigprice, data = bwght)
Residuals:
Min 1Q Median 3Q Max
-7.4200 0.1368 0.3055 0.4194 1.1540
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 4.4481 0.9082 4.898 1.08e-06 ***
packs 2.9887 8.6989 0.344 0.731
---
Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Residual standard error: 0.9389 on 1386 degrees of freedom
Multiple R-Squared: -23.23, Adjusted R-squared: -23.25
Wald test: 0.118 on 1 and 1386 DF, p-value: 0.7312
Estimate Std. Error t value Pr(>|t|)
(Intercept) 4.448136 0.9081551 4.8979918 1.081956e-06
packs 2.988676 8.6988882 0.3435699 7.312219e-01
attr(,"df")
[1] 1386
attr(,"nobs")
[1] 1388
cigprice não atende o requisito de relevância do instrumento (o único requisito que sempre podemos testar). Entretanto, as estimativas não têm significado.
Seja o modelo \[\log(wage) = \beta_0 + \beta_1 educ + \beta_2 exper + \beta_3 exper^2 + \beta_4 black + \beta_5 smsa + \beta_6 south + \cdots + u,\] em que south é uma dummy caso a pessoa residir no sul e smsa é uma dummy caso a pessoa residir na área metropolitana, reg66k é uma dummy que toma valor 1 se for da região k.
Call:
lm(formula = log(wage) ~ educ + exper + I(exper^2) + black +
smsa + south + smsa66 + reg662 + reg663 + reg664 + reg665 +
reg666 + reg667 + reg668 + reg669, data = card)
Residuals:
Min 1Q Median 3Q Max
-1.62326 -0.22141 0.02001 0.23932 1.33340
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 4.6208067 0.0742327 62.248 < 2e-16 ***
educ 0.0746933 0.0034983 21.351 < 2e-16 ***
exper 0.0848320 0.0066242 12.806 < 2e-16 ***
I(exper^2) -0.0022870 0.0003166 -7.223 6.41e-13 ***
black -0.1990123 0.0182483 -10.906 < 2e-16 ***
smsa 0.1363845 0.0201005 6.785 1.39e-11 ***
south -0.1479550 0.0259799 -5.695 1.35e-08 ***
smsa66 0.0262417 0.0194477 1.349 0.17733
reg662 0.0963672 0.0358979 2.684 0.00730 **
reg663 0.1445400 0.0351244 4.115 3.97e-05 ***
reg664 0.0550756 0.0416573 1.322 0.18623
reg665 0.1280248 0.0418395 3.060 0.00223 **
reg666 0.1405174 0.0452469 3.106 0.00192 **
reg667 0.1179810 0.0448025 2.633 0.00850 **
reg668 -0.0564361 0.0512579 -1.101 0.27098
reg669 0.1185698 0.0388301 3.054 0.00228 **
---
Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Residual standard error: 0.3723 on 2994 degrees of freedom
Multiple R-squared: 0.2998, Adjusted R-squared: 0.2963
F-statistic: 85.48 on 15 and 2994 DF, p-value: < 2.2e-16
Contudo, educ pode estar correlacionada com outros fatores contidos em \(u\). Card (1995) usou a dummy nearc4 (1 caso alguem tenha crescido perto de uma faculdade com cursos de graduação de 4 anos) como uma IV de educ.
Para nearc4 ser uma IV válida, deve:
Call:
lm(formula = educ ~ nearc4 + exper + I(exper^2) + black + smsa +
south + smsa66 + reg662 + reg663 + reg664 + reg665 + reg666 +
reg667 + reg668 + reg669, data = card)
Residuals:
Min 1Q Median 3Q Max
-7.545 -1.370 -0.091 1.278 6.239
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 16.6382529 0.2406297 69.145 < 2e-16 ***
nearc4 0.3198989 0.0878638 3.641 0.000276 ***
exper -0.4125334 0.0336996 -12.241 < 2e-16 ***
I(exper^2) 0.0008686 0.0016504 0.526 0.598728
black -0.9355287 0.0937348 -9.981 < 2e-16 ***
smsa 0.4021825 0.1048112 3.837 0.000127 ***
south -0.0516126 0.1354284 -0.381 0.703152
smsa66 0.0254805 0.1057692 0.241 0.809644
reg662 -0.0786363 0.1871154 -0.420 0.674329
reg663 -0.0279390 0.1833745 -0.152 0.878913
reg664 0.1171820 0.2172531 0.539 0.589665
reg665 -0.2726165 0.2184204 -1.248 0.212082
reg666 -0.3028147 0.2370712 -1.277 0.201590
reg667 -0.2168177 0.2343879 -0.925 0.355021
reg668 0.5238914 0.2674749 1.959 0.050246 .
reg669 0.2102710 0.2024568 1.039 0.299076
---
Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Residual standard error: 1.941 on 2994 degrees of freedom
Multiple R-squared: 0.4771, Adjusted R-squared: 0.4745
F-statistic: 182.1 on 15 and 2994 DF, p-value: < 2.2e-16
modelo_iv <- ivreg(log(wage) ~ educ + exper + I(exper^2) + black + smsa + south + smsa66 +reg662 + reg663 + reg664 + reg665 + reg666 + reg667 + reg668 + reg669 | nearc4 + exper + I(exper^2) + black + smsa + south + smsa66 +reg662 + reg663 + reg664 + reg665 + reg666 + reg667 + reg668 + reg669, data = card)
summary(modelo_iv)
Call:
ivreg(formula = log(wage) ~ educ + exper + I(exper^2) + black +
smsa + south + smsa66 + reg662 + reg663 + reg664 + reg665 +
reg666 + reg667 + reg668 + reg669 | nearc4 + exper + I(exper^2) +
black + smsa + south + smsa66 + reg662 + reg663 + reg664 +
reg665 + reg666 + reg667 + reg668 + reg669, data = card)
Residuals:
Min 1Q Median 3Q Max
-1.83164 -0.24075 0.02429 0.25208 1.42760
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 3.6661511 0.9248295 3.964 7.54e-05 ***
educ 0.1315038 0.0549637 2.393 0.01679 *
exper 0.1082711 0.0236586 4.576 4.92e-06 ***
I(exper^2) -0.0023349 0.0003335 -7.001 3.12e-12 ***
black -0.1467758 0.0538999 -2.723 0.00650 **
smsa 0.1118083 0.0316620 3.531 0.00042 ***
south -0.1446715 0.0272846 -5.302 1.23e-07 ***
smsa66 0.0185311 0.0216086 0.858 0.39119
reg662 0.1007678 0.0376857 2.674 0.00754 **
reg663 0.1482588 0.0368141 4.027 5.78e-05 ***
reg664 0.0498971 0.0437398 1.141 0.25406
reg665 0.1462719 0.0470639 3.108 0.00190 **
reg666 0.1629029 0.0519096 3.138 0.00172 **
reg667 0.1345722 0.0494023 2.724 0.00649 **
reg668 -0.0830770 0.0593314 -1.400 0.16155
reg669 0.1078142 0.0418137 2.578 0.00997 **
---
Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Residual standard error: 0.3883 on 2994 degrees of freedom
Multiple R-Squared: 0.2382, Adjusted R-squared: 0.2343
Wald test: 51.01 on 15 and 2994 DF, p-value: < 2.2e-16
Sejam as hipóteses:
\[H_0: Y = X \beta + u, \quad \text{com } u \sim IID(0, \sigma^2I) \text{ e } \mathbb{E}(X'u) = 0\]
\[H_1: Y = X \beta + u, \quad \text{com } u \sim IID(0, \sigma^2I) \text{ e } \mathbb{E}(Z'u) = 0\]
Seja o modelo, \[Y = \textbf{X}\beta + P_Z \textbf{X}_2 \delta + u,\] pelo teorema FWL, podemos obter \(\hat{\delta}\) da regressão \(M_XY\) sobre \(M_XP_ZY\). Então,
\[\hat{\delta} = (\textbf{X}_2' P_Z M_X P_Z \textbf{X}_2)^{-1} \textbf{X}_2' P_Z M_X Y\]
Teorema FWL (Frisch-Waugh-Lovell)
Sejam os modelos \[Y = \textbf{X}_1\beta_1 + \textbf{X}_2 \beta_2 + u \quad e \quad M_1Y = M_1 \textbf{X}_2 \beta_2 + \nu,\] em que \(M_1 = \textbf{I}- X_1(X_1'X_1)^{-1}X_1'\). Então \(\hat{\beta_2}\) em ambas as regressões é numericamente idêntico e \(\hat{u}\) e \(\hat{\nu}\) são numericamente idênticos.
\[\hat{\delta} = (\textbf{X}_2' P_Z M_X P_Z \textbf{X}_2)^{-1} \textbf{X}_2' P_Z M_X Y\]
Como \((\textbf{X}_2' P_Z M_X P_Z \textbf{X}_2)^{-1} > 0\) (Por que?), testar se \(\delta = 0\) equivale a testar se \(\textbf{X}_2'P_ZM_XY = 0\) (que é o que queremos).
Call:
ivreg(formula = log(wage) ~ educ + exper + I(exper^2) + black +
smsa + south + smsa66 + reg662 + reg663 + reg664 + reg665 +
reg666 + reg667 + reg668 + reg669 | nearc4 + exper + I(exper^2) +
black + smsa + south + smsa66 + reg662 + reg663 + reg664 +
reg665 + reg666 + reg667 + reg668 + reg669, data = card)
Residuals:
Min 1Q Median 3Q Max
-1.83164 -0.24075 0.02429 0.25208 1.42760
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 3.6661511 0.9248295 3.964 7.54e-05 ***
educ 0.1315038 0.0549637 2.393 0.01679 *
exper 0.1082711 0.0236586 4.576 4.92e-06 ***
I(exper^2) -0.0023349 0.0003335 -7.001 3.12e-12 ***
black -0.1467758 0.0538999 -2.723 0.00650 **
smsa 0.1118083 0.0316620 3.531 0.00042 ***
south -0.1446715 0.0272846 -5.302 1.23e-07 ***
smsa66 0.0185311 0.0216086 0.858 0.39119
reg662 0.1007678 0.0376857 2.674 0.00754 **
reg663 0.1482588 0.0368141 4.027 5.78e-05 ***
reg664 0.0498971 0.0437398 1.141 0.25406
reg665 0.1462719 0.0470639 3.108 0.00190 **
reg666 0.1629029 0.0519096 3.138 0.00172 **
reg667 0.1345722 0.0494023 2.724 0.00649 **
reg668 -0.0830770 0.0593314 -1.400 0.16155
reg669 0.1078142 0.0418137 2.578 0.00997 **
Diagnostic tests:
df1 df2 statistic p-value
Weak instruments 1 2994 13.256 0.000276 ***
Wu-Hausman 1 2993 1.168 0.279973
Sargan 0 NA NA NA
---
Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Residual standard error: 0.3883 on 2994 degrees of freedom
Multiple R-Squared: 0.2382, Adjusted R-squared: 0.2343
Wald test: 51.01 on 15 and 2994 DF, p-value: < 2.2e-16
O teste Weak instruments que aparece no diagnóstico, testar as hipóteses:
\[H_0: \text{todos os instrumentos são fracos } \quad vs. \quad H_1: H_0 \text{ não é verdade}\]
Carlos Trucíos (IMECC/UNICAMP) | ME715 - Econometria | ctruciosm.github.io