ME715 - Econometria

Variáveis Instrumentais (IV)

Prof. Carlos Trucíos
ctrucios@unicamp.br

Instituto de Matemática, Estatística e Computação Científica (IMECC),
Universidade Estadual de Campinas (UNICAMP).

Introdução

Introdução

Seja o modelo \[Y = X \beta + u.\]

  • Se \(\mathbb{E}(u|X) = 0\), então \(\mathbb{E}(\hat{\beta}_{MQO}) = \beta\) e \(\hat{\beta}_{MQO} \xrightarrow{p} \beta\).
  • Se \(\mathbb{E}(u|X) \neq 0\), en geral \(\mathbb{E}(\hat{\beta}_{MQO}) \neq \beta\) e \(\hat{\beta}_{MQO} \nrightarrow_p \beta\)
Na prática, existem situações em que o erro e algum dos regressores estão correlacionados. Isto faz com que \(\hat{\beta}_{MQO}\) não tenha mais boas propriedades.

Correlação entre o erro e os regressores

Correlação entre o erro e os regressores

Caso 1: variáveis omitidas

  • Seja o modelo \(Y = \beta_0 + \beta_1X_1 + \beta_2 X_2 + v\)

  • Suponha que por algum motivo, não temos acesso a \(X_2\) e o modelo ajustado é da forma \[Y = \beta_0 + \beta_1X_1 + u\]

  • Note que \(u = \beta_2 X_2 + v\)

  • Então, \[\mathbb{C}ov(X_1, u) = \mathbb{C}ov(X_1, \beta_2 X_2 + v) = \mathbb{C}ov(X_1, \beta_2 X_2) + \mathbb{C}ov(X_1, v) = \beta_2 \mathbb{C}ov(X_1, X_2)\]

  • Se \(X_1\) e \(X_2\) forem correlacionados (e \(\beta_2 \neq 0\)), então \(\mathbb{C}ov(X_1, u) \neq 0\).

Correlação entre o erro e os regressores

Caso 2: erro nas variáveis explicativas

  • Seja o modelo \[Y = \beta_0 + \beta_1 X^{\ast} + v, \quad com \quad \mathbb{E}(v|X^{\ast}) = 0\]
  • Se apenas observarmos \(X = X^{\ast} + e\), em que \(e \sim IID(0, \sigma^2_{e})\) e \(e \perp X^{\ast}, v\). Temos, \[Y = \beta_0 + \beta_1 (X - e) + v = \beta_0 + \beta_1 X + \underbrace{v - \beta_1 e}_{u}\]
  • Então, \[\mathbb{C}ov(X, u) = \mathbb{E}(Xu) - \mathbb{E}(X) \mathbb{E}(u)\]

Correlação entre o erro e os regressores

  • \(\mathbb{E}(u) = \mathbb{E}[\mathbb{E}(u| X^{\ast}, e)]\)
  • \(\mathbb{E}(u| X^{\ast}, e) = \mathbb{E}(v-\beta_1e|X^{\ast},e) = \underbrace{\mathbb{E}(v|X^{\ast},e)}_{0} - \beta_1 \mathbb{E}(e|X^{\ast},e)] = -\beta_1e\)
  • \(\mathbb{E}(u) = 0\)

Então:

  • \(\mathbb{C}ov(X, u) = \mathbb{E}(Xu) = \mathbb{E}[\mathbb{E}(Xu | X^{\ast}, e)]\)
  • \(\mathbb{E}(Xu | X^{\ast}, e) = \mathbb{E}([X^{\ast} + e]u | X^{\ast}, e) = (X^{\ast} + e) \mathbb{E}(u|X^{\ast}, e) = -(X^{\ast} + e)\beta_1e\)
  • \(\mathbb{E}(Xu) = \mathbb{E}[\mathbb{E}(Xu | X^{\ast}, e)] = \mathbb{E}(-(X^{\ast} + e)\beta_1e) = -\beta_1 \sigma^2_e \neq 0\)

\[\mathbb{C}ov(X,u) \neq 0\]

Definições prévias

Definições prévias

Exógena vs Endógena:

Os termos variável exógena e variável endógena orignaram-se na análise de equações simultâneas, mas o termo evoluiu e dizemos que uma variável explicativa endógena é aquela variável em \(\textbf{X}\) que é correlacionada com \(u\). Se HRLM4 se mantém, dizemos que temos variáveis explicativas exógenas.

Fortemente exógena vs. fracamente exógena

  • Os regressores \(\textbf{X}\) são ditos fortemente exógenos se \(\mathbb{E}(u|\textbf{X}) = 0\).
  • Os regressores \(\textbf{X}\) são ditos fracamente exógenos se \(\mathbb{E}(u_i|\textbf{x}_i) = 0, \forall i\).

Variáveis Instrumentais (IV)

Variáveis Instrumentais (IV)

Seja o modelo \[Y = \textbf{X} \beta + u, \quad \text{com pelo menos uma variável endógena}.\]

Vamos supor que existe \(\textbf{Z}\) (da mesma dimensão do que \(\textbf{X}\) ou com mais colunas) tal que \(\mathbb{E}(u | \textbf{Z}) = 0\) (\(\textbf{Z}\) e \(u\) são não correlacionados).

As colunas em \(\textbf{Z}\) são chamadas de variáveis instrumentais ou instrumentos.

Observação

Se particionarmos \(\textbf{X} = [\textbf{X}_1 \textbf{X}_2]\) tal que \(\textbf{X}_1\) (com \(k_1\) colunas) são exógenas e \(\textbf{X}_2\) (com \(k_2\) colunas) são endógenas (\(k_1 + k_2 = k\)). A matriz \(\textbf{Z}\) é da forma \(\textbf{Z} = [\textbf{X}_1 \textbf{Z}_2]\), ou seja, buscamos novas variáveis \(\textbf{Z}_2\) que sejam não correlacionadas com \(u\).

Variáveis Instrumentais (IV)

Instrumentos válidos

Instrumentos válidos, devem satisfazer dois requerimenso: relevância e exogeneidade:

  • Relevância do instrumento: \(\mathbb{C}ov(Z, X) \neq 0\)
  • Exogeneidade do instrumento: \(\mathbb{C}ov(Z, u) = 0\).

São instrumentos válidos naqueles que estamos interessados!

Encontrar instrumentos pode ser fácil em alguns casos, mas em outros pode ser bastante dificil. De fato, controvérsias em economia são essencialmente disputas sobre se certas variáveis são ou não instrumentos válidos.

Variáveis Instrumentais (IV)

Considere o problema da aptidão (aptid) não observada na seguinte equação: \[\log(wage) = \beta_0 + \beta_1 educ + \beta_2 aptid + e.\]

  1. Podemos utilizar uma variável proxy, como IQ, e susbtituir aptidão na equação de regressão. Se IQ for uma boa proxy, teremos um estimador consistente para \(\beta_1\).
  2. Mas, e se a variável proxy não estiver disponível? (ou se estiver disponível mas não for uma boa proxy). Podemos fazer a regressão \[\log(wage) = \beta_0 + \beta_1 educ + u, \quad \text{em que u contem } \textit{aptid}\]
Neste caso, MQO levará a um estimador viesado e inconsistente para \(\beta_1\) 😢.

Variáveis Instrumentais (IV)

Suponha que temos uma variável observável \(Z\) que seja não correlacionada com \(u\) (o que implica ser não correlacionada com a variável omitida) mas correlacionada com \(educ\). Então dizemos que \(Z\) é um instrumento de \(educ.\)

Quem pode ser esse \(Z\)?

  • O primeiro dígito do CPF é gerado aleatóriamente, então se \(Z\) for o primeiro dígito do CPF, teremos que \(Z\) e \(u\) são não correlacionados 😄.
  • Contudo, por ser gerado aleatoriamente, não teremos que \(Z\) e \(educ\) são correlacionados 😞.

Situações como esta, representam uma variável intrumental fraca, pois viola o requisito da relevância do instrumento (relevância do instrumento: \(Z\) e a variável endógena devem ser correlacionados).

Variáveis Instrumentais (IV)

Quem pode ser esse \(Z\)? (outras alternativas)

  • Escolaridade da mãe: é positivamente correlacionada com educ (relevância do instrumento). O problema é que escolaridade da mãe pode também estár relacionada com aptid, tornamdo-se um instrumento pobre 😢.
  • Número de irmãos durante o crescimento: é negativamente correlacionada com educ (relevância do instrumento). Se o número de irmãos durante o crescimento for não correlacionado com aptid, então teremos um bom instrumento.
Encontrar instrumentos pode ser fácil em alguns casos, mas em outros pode ser bastante dificil. De fato, controvérsias em economia são essencialmente disputas sobre se certas variáveis são ou não instrumentos válidos.

Estimação

Estimação

Seja o modelo \[Y = \textbf{X}\beta + u, \quad com \quad \mathbb{V}(u) = \sigma^2 I \quad e \quad \mathbb{E}(u | \textbf{X}_t) \neq 0\]

suponha que é possível encontrar uma matriz \(\textbf{Z}_{n \times l}\) (\(l \geq k\)) tal que:

  1. \(\textbf{Z}\) e \(\textbf{X}_{n \times k}\) são correlacionados
  2. \(\mathbb{E}(u | \textbf{Z}) = 0\) (\(\textbf{Z}\) e \(u\) são não correlacionados).

Então, premultiplicando \(Z'\) em ambos os lados:

\[Z'Y = Z'X \beta + Z'u, \quad com \quad \mathbb{V}(Z'u) = \sigma^2(Z'Z)\]

🏄 Podemos obter \(\hat{\beta}\) utilizando MQG! 🏄‍♂️

Estimação

MQG

Seja o modelo \(Y = X \beta + u\) com \(\mathbb{E}(uu' | X) = \Omega\) e \(\Omega^{-1} = \Psi \Psi'\). Então, \[\hat{\beta}_{MQG} = (X' \Psi \Psi' X)^{-1} X' \Psi \Psi' Y = (X' \Omega^{-1}X)^{-1}X' \Omega^{-1} Y\]

No nosso caso, \(\underbrace{Z'Y}_{Y^{\ast}} = \underbrace{Z'X}_{X^{\ast}} \beta + \underbrace{Z'u}_{u^{\ast}}\) com \(\mathbb{V}(u^{\ast}) = \sigma^2(Z'Z)\).

\[\hat{\beta}_{MQG} = \hat{\beta}_{IV} = (X'Z(Z'Z)^{-1}Z'X)^{-1}X'Z(Z'Z)^{-1}Z'Y = (X'P_ZX)^{-1}X'P_zY\]

e \(\mathbb{V}(\hat{\beta}_{IV}| X^{\ast}) = \sigma^2 (X'P_Z X)^{-1}\).

Pode-se mostrar que \(\hat{\beta}_{IV}\) é consistente.

Estimação

MQ em 2 estágios (2SLS: Two-Steage Least Squares)

O estimador IV pode ser visto como a aplicação de MQO em dois estágios:

  1. Estágio 1: regredir \(X\) sobre \(Z\), então \[\hat{X} = Z \hat{\beta}_{1SLS} = Z(Z'Z)^{-1}Z'X\]

  2. Estágio 2: regredir \(Y\) sobre \(\hat{X}\), então \[\hat{\beta}_{IV} = (\hat{X}'\hat{X})^{-1}\hat{X}'Y = (X'Z(Z'Z)^{-1}Z'X)^{-1} X'Z(Z'Z)^{-1}Z'Y = (X'P_ZX)^{-1} X'P_ZY\]

Estimação

Caso particular

Quando \(l = k\), temos que \(\textbf{X}\) e \(\textbf{Z}\) tem a mesma dimensão. Então,

\[\hat{\beta}_{IV} = (\hat{X}'\hat{X})^{-1}\hat{X}'Y = (X'Z(Z'Z)^{-1}Z'X)^{-1} X'Z(Z'Z)^{-1}Z'Y = (Z'X)^{-1}Z'Y\]

Observação: Se \(A\) e \(B\) são matrizes não singulares da mesma ordem, então \((AB)^{-1} = B^{-1}A^{-1}\). Como \(X'Z\) é não singular, podemos aplicar o resultado.

Important

Quando trabalhamos com IV, é facil verificar se \(Z\) e \(X\) são correlacionados (basta fazer uma regressão) mas verificar que \(Z\) e \(u\) são não correlacionados não é possível e é preciso argumentar (teoricamente) que isto é verdadeiro.

Ps: Não, não podemos utilizar \(\hat{u}\) obtido por MQO, pois MQO produzira estimadores viesados e inconsistentes, então \(\hat{u} = Y - X\hat{\beta}_{MQO}\) não é mais uma estimativa útil de \(u\).

Estimação

Exemplo: IV fraca

Suponha que queremos estimar o efeito do hábito de fumar sobre o peso dos recém-nascido. Se não considerarmos outras covariáveis, o modelo é \[\log(bwght) = \beta_0 + \beta_1 packs + u\]

  • bwght: peso do recém nascido (onças)
  • packs: número de maços de cigarro fumados pela mãe por dia.
Code
library(wooldridge)
modelo_01 <- lm(log(bwght) ~ packs, data = bwght)

Mas, podemos suspeitar que packs esteja correlacionado com outros fatores relativos à saude ou à existênca de um bom programa pré-natal. Sendo assim, MQO levará a estimadores viesados e inconsistentes.

Estimação

Exemplo: IV fraca

Uma possível variável instrumental de packs seria o preço médio dos cigarros (cigprice), assumindo, é claro que cigprice e \(u\) sejam não correlacionados.

  • A teoria econômica sugere que packs e cigprice estejam negativamente correlacionados.
  • Para verificar isto, ajustamos a regressão de packs sobre cigprice
Code
modelo_aux <- lm(packs ~ cigprice, data = bwght)
summary(modelo_aux)

Call:
lm(formula = packs ~ cigprice, data = bwght)

Residuals:
    Min      1Q  Median      3Q     Max 
-0.1106 -0.1061 -0.1032 -0.1015  2.4016 

Coefficients:
             Estimate Std. Error t value Pr(>|t|)
(Intercept) 0.0674257  0.1025384   0.658    0.511
cigprice    0.0002829  0.0007830   0.361    0.718

Residual standard error: 0.2987 on 1386 degrees of freedom
Multiple R-squared:  9.417e-05, Adjusted R-squared:  -0.0006273 
F-statistic: 0.1305 on 1 and 1386 DF,  p-value: 0.7179

Estimação

Exemplo: IV fraca

Se packs e cigprice não são correlacionados, não deveriamos usar cigprice como IV. Mas, o que acontece se o fizermos?

Code
library(AER)
modelo_iv <- ivreg(log(bwght) ~ packs | cigprice, data = bwght)
summary(modelo_iv)

Call:
ivreg(formula = log(bwght) ~ packs | cigprice, data = bwght)

Residuals:
    Min      1Q  Median      3Q     Max 
-7.4200  0.1368  0.3055  0.4194  1.1540 

Coefficients:
            Estimate Std. Error t value Pr(>|t|)    
(Intercept)   4.4481     0.9082   4.898 1.08e-06 ***
packs         2.9887     8.6989   0.344    0.731    
---
Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Residual standard error: 0.9389 on 1386 degrees of freedom
Multiple R-Squared: -23.23, Adjusted R-squared: -23.25 
Wald test: 0.118 on 1 and 1386 DF,  p-value: 0.7312 

Estimação

Exemplo: IV fraca

            Estimate Std. Error   t value     Pr(>|t|)
(Intercept) 4.448136  0.9081551 4.8979918 1.081956e-06
packs       2.988676  8.6988882 0.3435699 7.312219e-01
attr(,"df")
[1] 1386
attr(,"nobs")
[1] 1388
  • O coeficiente de packs é enorme e com sinal inesperado.
  • O erro padrão é muito grande, packs não é estatísticamente significativo.

cigprice não atende o requisito de relevância do instrumento (o único requisito que sempre podemos testar). Entretanto, as estimativas não têm significado.

Estimação

Exemplo: RLM

Seja o modelo \[\log(wage) = \beta_0 + \beta_1 educ + \beta_2 exper + \beta_3 exper^2 + \beta_4 black + \beta_5 smsa + \beta_6 south + \cdots + u,\] em que south é uma dummy caso a pessoa residir no sul e smsa é uma dummy caso a pessoa residir na área metropolitana, reg66k é uma dummy que toma valor 1 se for da região k.

Code
modelo_mqo <- lm(log(wage) ~ educ + exper + I(exper^2) + black + smsa + south + smsa66 +reg662 + reg663 + reg664 + reg665 + reg666 + reg667 + reg668 + reg669, data = card)
summary(modelo_mqo)

Estimação

Exemplo: RLM


Call:
lm(formula = log(wage) ~ educ + exper + I(exper^2) + black + 
    smsa + south + smsa66 + reg662 + reg663 + reg664 + reg665 + 
    reg666 + reg667 + reg668 + reg669, data = card)

Residuals:
     Min       1Q   Median       3Q      Max 
-1.62326 -0.22141  0.02001  0.23932  1.33340 

Coefficients:
              Estimate Std. Error t value Pr(>|t|)    
(Intercept)  4.6208067  0.0742327  62.248  < 2e-16 ***
educ         0.0746933  0.0034983  21.351  < 2e-16 ***
exper        0.0848320  0.0066242  12.806  < 2e-16 ***
I(exper^2)  -0.0022870  0.0003166  -7.223 6.41e-13 ***
black       -0.1990123  0.0182483 -10.906  < 2e-16 ***
smsa         0.1363845  0.0201005   6.785 1.39e-11 ***
south       -0.1479550  0.0259799  -5.695 1.35e-08 ***
smsa66       0.0262417  0.0194477   1.349  0.17733    
reg662       0.0963672  0.0358979   2.684  0.00730 ** 
reg663       0.1445400  0.0351244   4.115 3.97e-05 ***
reg664       0.0550756  0.0416573   1.322  0.18623    
reg665       0.1280248  0.0418395   3.060  0.00223 ** 
reg666       0.1405174  0.0452469   3.106  0.00192 ** 
reg667       0.1179810  0.0448025   2.633  0.00850 ** 
reg668      -0.0564361  0.0512579  -1.101  0.27098    
reg669       0.1185698  0.0388301   3.054  0.00228 ** 
---
Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Residual standard error: 0.3723 on 2994 degrees of freedom
Multiple R-squared:  0.2998,    Adjusted R-squared:  0.2963 
F-statistic: 85.48 on 15 and 2994 DF,  p-value: < 2.2e-16

Contudo, educ pode estar correlacionada com outros fatores contidos em \(u\). Card (1995) usou a dummy nearc4 (1 caso alguem tenha crescido perto de uma faculdade com cursos de graduação de 4 anos) como uma IV de educ.

Estimação

Exemplo: RLM

Para nearc4 ser uma IV válida, deve:

  1. Ser não correlacionada com \(u\) (o que nunca podemos verificar, mas pressumimos válidos e pode ser justificado utilizando teorica econômica).
  2. Ser correlacionado com educ, o que verificaremos a seguir.
Code
modelo_aux <- lm(educ ~ nearc4 + exper + I(exper^2) + black + smsa + south + smsa66 +reg662 + reg663 + reg664 + reg665 + reg666 + reg667 + reg668 + reg669, data = card)
summary(modelo_aux)

Call:
lm(formula = educ ~ nearc4 + exper + I(exper^2) + black + smsa + 
    south + smsa66 + reg662 + reg663 + reg664 + reg665 + reg666 + 
    reg667 + reg668 + reg669, data = card)

Residuals:
   Min     1Q Median     3Q    Max 
-7.545 -1.370 -0.091  1.278  6.239 

Coefficients:
              Estimate Std. Error t value Pr(>|t|)    
(Intercept) 16.6382529  0.2406297  69.145  < 2e-16 ***
nearc4       0.3198989  0.0878638   3.641 0.000276 ***
exper       -0.4125334  0.0336996 -12.241  < 2e-16 ***
I(exper^2)   0.0008686  0.0016504   0.526 0.598728    
black       -0.9355287  0.0937348  -9.981  < 2e-16 ***
smsa         0.4021825  0.1048112   3.837 0.000127 ***
south       -0.0516126  0.1354284  -0.381 0.703152    
smsa66       0.0254805  0.1057692   0.241 0.809644    
reg662      -0.0786363  0.1871154  -0.420 0.674329    
reg663      -0.0279390  0.1833745  -0.152 0.878913    
reg664       0.1171820  0.2172531   0.539 0.589665    
reg665      -0.2726165  0.2184204  -1.248 0.212082    
reg666      -0.3028147  0.2370712  -1.277 0.201590    
reg667      -0.2168177  0.2343879  -0.925 0.355021    
reg668       0.5238914  0.2674749   1.959 0.050246 .  
reg669       0.2102710  0.2024568   1.039 0.299076    
---
Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Residual standard error: 1.941 on 2994 degrees of freedom
Multiple R-squared:  0.4771,    Adjusted R-squared:  0.4745 
F-statistic: 182.1 on 15 and 2994 DF,  p-value: < 2.2e-16

Estimação

Exemplo: RLM

Code
modelo_iv <- ivreg(log(wage) ~ educ + exper + I(exper^2) + black + smsa + south + smsa66 +reg662 + reg663 + reg664 + reg665 + reg666 + reg667 + reg668 + reg669 | nearc4 + exper + I(exper^2) + black + smsa + south + smsa66 +reg662 + reg663 + reg664 + reg665 + reg666 + reg667 + reg668 + reg669, data = card)
summary(modelo_iv)

Call:
ivreg(formula = log(wage) ~ educ + exper + I(exper^2) + black + 
    smsa + south + smsa66 + reg662 + reg663 + reg664 + reg665 + 
    reg666 + reg667 + reg668 + reg669 | nearc4 + exper + I(exper^2) + 
    black + smsa + south + smsa66 + reg662 + reg663 + reg664 + 
    reg665 + reg666 + reg667 + reg668 + reg669, data = card)

Residuals:
     Min       1Q   Median       3Q      Max 
-1.83164 -0.24075  0.02429  0.25208  1.42760 

Coefficients:
              Estimate Std. Error t value Pr(>|t|)    
(Intercept)  3.6661511  0.9248295   3.964 7.54e-05 ***
educ         0.1315038  0.0549637   2.393  0.01679 *  
exper        0.1082711  0.0236586   4.576 4.92e-06 ***
I(exper^2)  -0.0023349  0.0003335  -7.001 3.12e-12 ***
black       -0.1467758  0.0538999  -2.723  0.00650 ** 
smsa         0.1118083  0.0316620   3.531  0.00042 ***
south       -0.1446715  0.0272846  -5.302 1.23e-07 ***
smsa66       0.0185311  0.0216086   0.858  0.39119    
reg662       0.1007678  0.0376857   2.674  0.00754 ** 
reg663       0.1482588  0.0368141   4.027 5.78e-05 ***
reg664       0.0498971  0.0437398   1.141  0.25406    
reg665       0.1462719  0.0470639   3.108  0.00190 ** 
reg666       0.1629029  0.0519096   3.138  0.00172 ** 
reg667       0.1345722  0.0494023   2.724  0.00649 ** 
reg668      -0.0830770  0.0593314  -1.400  0.16155    
reg669       0.1078142  0.0418137   2.578  0.00997 ** 
---
Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Residual standard error: 0.3883 on 2994 degrees of freedom
Multiple R-Squared: 0.2382, Adjusted R-squared: 0.2343 
Wald test: 51.01 on 15 and 2994 DF,  p-value: < 2.2e-16 
Como saber se IV é uma opção melhor a MQO?

Testes de Hipóteses

Testes de Hipóteses

Teste Durbin-Wu-Hausman

Usar ou não usar IV, essa é a questão

Testes de Hipóteses

Teste Durbin-Wu-Hausman

  • Podemos suspeitar de que uma variável é endógena, mas não temos certeza se de fato é:
    • Se for endógena, utilizar IV é melhor do que MQO (desde que utilizemos instrumentos válidos).
    • Se não for endógena, é melhor utilizar MQO (BLUE!)
  • Podemos suspeitar que uma variável foi medida com erro, mas não sabemos se o erro de medição é grande o suficiente como para nos preocupar e fugir de MQO.
  • Etc.
Assim, torna-se útil testar a hipótese nula de que os erros são não correlacionados com todos os regressores contra a hipótese alternativa de que estão correlacionados com alguns dos regressores.

Testes de Hipóteses

Teste Durbin-Wu-Hausman

Sejam as hipóteses:

\[H_0: Y = X \beta + u, \quad \text{com } u \sim IID(0, \sigma^2I) \text{ e } \mathbb{E}(X'u) = 0\]

\[H_1: Y = X \beta + u, \quad \text{com } u \sim IID(0, \sigma^2I) \text{ e } \mathbb{E}(Z'u) = 0\]

  • Sob \(H_1\), \(\hat{\beta}_{IV}\) é consistente mas \(\hat{\beta}_{MQO}\) não é.
  • Sob \(H_0\), \(\hat{\beta}_{IV}\) e \(\hat{\beta}_{MQO}\) são ambos consistentes (o que implica que \(\hat{\beta}_{IV} - \hat{\beta}_{MQO} \xrightarrow{p} 0\)).
A ideia do teste é verificar se \(\hat{\beta}_{IV} - \hat{\beta}_{MQO}\) é estatísticamente diferentes de de zero.

Testes de Hipóteses

Teste Durbin-Wu-Hausman

  • \(\hat{\beta}_{IV} - \hat{\beta}_{MQO} = (X'P_Z X)^{-1}X'P_ZY - (X'X)^{-1}X'Y = \cdots = (X'P_Z X)^{-1}X'P_ZM_X Y,\) em que \(M_X = I - X(X'X)^{-1}X'\).
  • Testar que \(\hat{\beta}_{IV} - \hat{\beta}_{MQO}\) é diferente de zero é equivalente a testar que \(X'P_ZM_X Y\) é diferentes de zero (Por que?).
  • Sob \(H_0\), temos que \(M_X Y = \hat{u}\) e então queremos verificar se \(X'P_Z\) e \(\hat{u}\) são ortogonais.

Testes de Hipóteses

Teste Durbin-Wu-Hausman

  • Seja \(\textbf{X} = [\textbf{X}_1 \textbf{X}_2]\) em que as \(k_1\) colunas de \(\textbf{X}_1\) estão inclussas na matriz de instrumentos \(\textbf{Z}\) e as \(k_2\) colunas de \(\textbf{X}_2\) são tratadas como potenciais endógenas (\(k_1 + k_2 = k\)).
  • Por construção \(\hat{u}\) é ortogonal a todas as colunas em \(\textbf{X}\), em particular, para as colunas em \(\textbf{X}_1\). Então, \[\textbf{X}'P_Z M_X Y = [\textbf{X}_1 \textbf{X}_2]' P_Z M_X Y = \textbf{X}_1' P_Z M_X Y + \textbf{X}_2' P_Z M_XY\]
  • Mas, \(P_Z \textbf{X}_1 = \textbf{X}_1\) e \(M_X \textbf{X}_1 = 0\), então: \[\textbf{X}_1' P_Z M_X Y = \textbf{X}_1'M_XY = 0.\]
  • Basta verificar se \(\textbf{X}_2'P_ZM_XY = 0 \longrightarrow H_0: \textbf{X}_2'P_ZM_XY = 0\)

Testes de Hipóteses

Teste Durbin-Wu-Hausman

Seja o modelo, \[Y = \textbf{X}\beta + P_Z \textbf{X}_2 \delta + u,\] pelo teorema FWL, podemos obter \(\hat{\delta}\) da regressão \(M_XY\) sobre \(M_XP_ZY\). Então,

\[\hat{\delta} = (\textbf{X}_2' P_Z M_X P_Z \textbf{X}_2)^{-1} \textbf{X}_2' P_Z M_X Y\]

Teorema FWL (Frisch-Waugh-Lovell)

Sejam os modelos \[Y = \textbf{X}_1\beta_1 + \textbf{X}_2 \beta_2 + u \quad e \quad M_1Y = M_1 \textbf{X}_2 \beta_2 + \nu,\] em que \(M_1 = \textbf{I}- X_1(X_1'X_1)^{-1}X_1'\). Então \(\hat{\beta_2}\) em ambas as regressões é numericamente idêntico e \(\hat{u}\) e \(\hat{\nu}\) são numericamente idênticos.

Testes de Hipóteses

Teste Durbin-Wu-Hausman

\[\hat{\delta} = (\textbf{X}_2' P_Z M_X P_Z \textbf{X}_2)^{-1} \textbf{X}_2' P_Z M_X Y\]

Como \((\textbf{X}_2' P_Z M_X P_Z \textbf{X}_2)^{-1} > 0\) (Por que?), testar se \(\delta = 0\) equivale a testar se \(\textbf{X}_2'P_ZM_XY = 0\) (que é o que queremos).

Então, o procedimento resume-se a um teste F.

Testes de Hipóteses

Teste Durbin-Wu-Hausman

Code
summary(modelo_iv, diagnostics = TRUE)

Call:
ivreg(formula = log(wage) ~ educ + exper + I(exper^2) + black + 
    smsa + south + smsa66 + reg662 + reg663 + reg664 + reg665 + 
    reg666 + reg667 + reg668 + reg669 | nearc4 + exper + I(exper^2) + 
    black + smsa + south + smsa66 + reg662 + reg663 + reg664 + 
    reg665 + reg666 + reg667 + reg668 + reg669, data = card)

Residuals:
     Min       1Q   Median       3Q      Max 
-1.83164 -0.24075  0.02429  0.25208  1.42760 

Coefficients:
              Estimate Std. Error t value Pr(>|t|)    
(Intercept)  3.6661511  0.9248295   3.964 7.54e-05 ***
educ         0.1315038  0.0549637   2.393  0.01679 *  
exper        0.1082711  0.0236586   4.576 4.92e-06 ***
I(exper^2)  -0.0023349  0.0003335  -7.001 3.12e-12 ***
black       -0.1467758  0.0538999  -2.723  0.00650 ** 
smsa         0.1118083  0.0316620   3.531  0.00042 ***
south       -0.1446715  0.0272846  -5.302 1.23e-07 ***
smsa66       0.0185311  0.0216086   0.858  0.39119    
reg662       0.1007678  0.0376857   2.674  0.00754 ** 
reg663       0.1482588  0.0368141   4.027 5.78e-05 ***
reg664       0.0498971  0.0437398   1.141  0.25406    
reg665       0.1462719  0.0470639   3.108  0.00190 ** 
reg666       0.1629029  0.0519096   3.138  0.00172 ** 
reg667       0.1345722  0.0494023   2.724  0.00649 ** 
reg668      -0.0830770  0.0593314  -1.400  0.16155    
reg669       0.1078142  0.0418137   2.578  0.00997 ** 

Diagnostic tests:
                  df1  df2 statistic  p-value    
Weak instruments    1 2994    13.256 0.000276 ***
Wu-Hausman          1 2993     1.168 0.279973    
Sargan              0   NA        NA       NA    
---
Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Residual standard error: 0.3883 on 2994 degrees of freedom
Multiple R-Squared: 0.2382, Adjusted R-squared: 0.2343 
Wald test: 51.01 on 15 and 2994 DF,  p-value: < 2.2e-16 

Testes de Hipóteses

O teste Weak instruments que aparece no diagnóstico, testar as hipóteses:

\[H_0: \text{todos os instrumentos são fracos } \quad vs. \quad H_1: H_0 \text{ não é verdade}\]

Comentários Adicionais

Comentários Adicionais

Heterocedsticidade:

  • Heterocedasticidade no contexto de 2SLS (MQ2E) produz os mesmos problemas vistos para MQO.
  • Podemos testar a heterocedasticidade utilizando um teste de Breuch-Pagan (considerando \(\hat{u}_{MQ2E}\) e todas as variáveis exógenas, incluindo os instrumentos).
  • Detectada a heterocedasticidade, podemos utilizar estimadores robustos para poder fazer inferência.

Comentários Adicionais

R-quadrado

  • \(R^2 = 1 - SQR/SQT\)
  • O \(R^2\) da estimação por IV pode ser negativo, pois SQR de IV pode ser maior que SQT.
  • O foco de IV é estimar corretamente o efeito ceteris paribus de \(x\) sobre \(y\) quando \(x\) for endógena, a qualidade do ajuste passa a um plano secundário.
  • Se a meta for um \(R^2\) alto, MQO é a respostas. Contudo, de pouco serve um \(R^2\) alto se não pudermos estimar consistentemente \(\beta\).