ME715 - Econometria

Modelos SUR

Prof. Carlos Trucíos
ctrucios@unicamp.br

Instituto de Matemática, Estatística e Computação Científica (IMECC),
Universidade Estadual de Campinas (UNICAMP).

Introdução

Introdução

  • Até agora, temos estudado casos que envolvem apenas uma unica equação.
  • Agora, discutiremos modelos que determinam conjuntamente os valores de duas ou mais variáveis dependentes utilizando dois ou mais equações.
  • Estes modelos são chamados de modelos multivariados (tentam explicar múltiplas variáveis dependentes).
  • Dois modelos multivariados amplamente utilizados são o modelo SUR (tópico da aula de hoje) e o modelo de equaões simultâneas (tema da próxima aula).

Modelos SUR

Modelos SUR

Os modelos de Regressão linear aparentemente não relacionados, ou modelos SUR (Seemingly Unrelated Regression), como comumente conhecido, envolvem \(n\) observações em cada uma das \(g\) variáveis dependentes.

Modelos SUR

Suponha que temos \(g\) variáveis dependentes (indexadas por \(i\)), então a \(i\)-éssima equação do modelo linear multivariado pode ser escrito como \[\textbf{y}_i = \textbf{X}_i \beta_i + \textbf{u}_i \quad com \quad \mathbb{E}(\textbf{u}_i \textbf{u}_i') = \sigma_{ii} I_n,\] em que:

  • \(\textbf{y}_i\) denota o vetor de tamanho \(n\) da \(i\)-éssima variável dependente,
  • \(\textbf{X}_i\) denota a matriz de regressores da \(i\)-éssima equação (\(\textbf{X}_i\) tem dimensão \(n \times k_i\))
  • \(\beta_i\) denota o vetor \(k_i\)-dimensional de parâmetros e
  • \(\textbf{u}_i\) denota o vetor de erros de tamanho \(n\)

Modelos SUR

  • Se \(\mathbb{E}(u_i | \textbf{X}_i) = 0\), aparentemente podemos aplicar MQO para cada equação.
  • Se fizermos isto, ignoramos a possibilidade de que, por exemplo, \(u_{ti}\) e \(u_{tj}\) sejam correlacionados.
  • Para incluir este tipo de informação, assumimos que \[\mathbb{E}(u_{ti}u_{tj}) = \sigma_{ij} \quad e \quad \mathbb{E}(u_{ti}u_{sj}) = 0,\] em que \(\sigma_{ij}\) é o elemento \(ij\) da matriz \(\Sigma_{g \times g} > 0\) (matriz de covariância contemporanea).

As \(g\) equações do slide anterior e as suposições aqui impostas, definem o modelo SUR clássico.

Modelos SUR

  • Seja \(\textbf{X} = \textbf{X}_1 \cup \textbf{X}_2 \cup \cdots \cup \textbf{X}_g\), a suposição \(\mathbb{E}(\textbf{U}|\textbf{X}) = 0\) é análoga à HRLM4 no caso univariado.
  • A suposição \(\mathbb{E}(\textbf{U}|\textbf{X}) = 0\) é bastante forte para muitos casos, uma suposição um pouco mais fraca é \(\mathbb{E}(\textbf{U}_t|\textbf{X}_t) = 0\).
  • Os resultados a seguir são válidos em ambos os casos.

Modelos SUR

Como estimar este tipo de modelos?

O método a utilizar depende das suposições que fizermos acerca de \(\Sigma\) e da distribuição dos termos de erro.
  • \(\Sigma\) conhecido \(\rightarrow\) MQG
  • \(\Sigma\) desconhecido \(\rightarrow\) MGQF
  • \(\Sigma\) desconhecido e erros normalmente distribuidos \(\rightarrow\) MV

Estimação

Estimação

Como trabalhar com essas equações todas?

Converteremos o sistema de \(g\) equações e \(n\) observações em um sistema de 1 equação e \(ng\) observações com matriz de covariância de dimensão \(ng \times ng\) que depende de \(\Sigma\).

Estimação

Seja o modelo \[\textbf{y}_{\bullet} = \textbf{X}_{\bullet} \boldsymbol{\beta}_{\bullet} + \textbf{u}_{\bullet}, \quad \text{em que:}\]

  • \(\textbf{y}_{\bullet}\) é um vetor de tamanho \(ng\) que contém os vetores \(\textbf{y}_1, \cdots, \textbf{y}_g\) empilhados.
  • \(\textbf{u}_{\bullet}\) é um vetor de tamanho \(ng\) que contém os vetores \(\textbf{u}_1, \cdots, \textbf{u}_g\) empilhados.
  • \(\boldsymbol{\beta}_{\bullet}\) é um vetor que contém os vetores \(\boldsymbol{\beta}_1, \cdots, \boldsymbol{\beta}_g\) empilhados.
  • \[\textbf{X}_{\bullet} = \begin{bmatrix} \textbf{X}_1 & \textbf{0} & \cdots & \textbf{0} \\ \textbf{0} & \textbf{X}_2 & \cdots & \textbf{0} \\ \vdots & \cdots & \ddots & \vdots \\ \textbf{0} & \textbf{0} & \cdots & \textbf{X}_g \\ \end{bmatrix}\]

Estimação

  1. Qual seria o estimador MQO?
  2. Um estimador MQO seria uma boa escolha?

Respostas:

O estimador MQO é da forma: \[\hat{\boldsymbol{\beta}}_{\bullet}^{MQO} = (\textbf{X}_{\bullet}' \textbf{X}_{\bullet})^{-1} \textbf{X}_{\bullet}' \textbf{y}_{\bullet}\]

Contudo, \[\mathbb{E}(\textbf{u}_{\bullet} \textbf{u}_{\bullet}') = \begin{bmatrix} \mathbb{E}(u_1 u_1') & \cdots & \mathbb{E}(u_1 u_g') \\ \vdots & \ddots & \vdots \\ \mathbb{E}(u_g u_1') & \cdots & \mathbb{E}(u_g u_g') \\ \end{bmatrix} = \begin{bmatrix} \sigma_{11}I_n & \cdots & \sigma_{1g}I_n \\ \vdots & \ddots & \vdots \\ \sigma_{g1}I_n & \cdots & \sigma_{gg}I_n \\ \end{bmatrix} = \boldsymbol{\Sigma}_{\bullet}\]

Estimação

Produto de Kronecker

Seja \(A\) uma matriz \(p \times q\) e seja \(B\) uma matriz \(r \times s\). Então, o produto de Kronecker, denotado por \(\otimes\), entre A e B é dado por: \[A \otimes B = \begin{bmatrix} a_{11}B & \cdots & a_{1q}B \\ \vdots & \ddots & \vdots \\ a_{p1}B & \cdots & a_{pq}B \\ \end{bmatrix}.\]

Propriedades
  • \((A \otimes B)' = A' \otimes B'\)
  • \((A \otimes B)(C \otimes D) = (AC) \otimes (BD)\)
  • \((A \otimes B)^{-1} = A^{-1} \otimes B^{-1}\)

Estimação

  • \[\mathbb{E}(\textbf{u}_{\bullet} \textbf{u}_{\bullet}') = \begin{bmatrix} \sigma_{11}I_n & \cdots & \sigma_{1g}I_n \\ \vdots & \ddots & \vdots \\ \sigma_{g1}I_n & \cdots & \sigma_{gg}I_n \\ \end{bmatrix} = \boldsymbol{\Sigma}_{\bullet} = \Sigma \otimes I_n \neq \sigma I\]
  • Então, MQO não é BLUE.
  • Contudo, se \(\Sigma\) for conhecido, podemos aplicar MQG 😄.

Estimação

MQG

Seja o modelo \(Y = X \beta + u\) com \(\mathbb{E}(uu' | X) = \Omega\) e \(\Omega^{-1} = \Psi \Psi'\). Então, \[\hat{\beta}_{MQG} = (X' \Psi \Psi' X)^{-1} X' \Psi \Psi' Y = (X' \Omega^{-1}X)^{-1}X' \Omega^{-1} Y\]

\[\hat{\boldsymbol{\beta}}_{\bullet}^{MQG} = (\textbf{X}_{\bullet}'(\Sigma^{-1} \otimes I_n)\textbf{X}_{\bullet})^{-1}\textbf{X}_{\bullet}' (\Sigma^{-1} \otimes I_n) \textbf{y}_{\bullet}\]

Observação: para \(gn\) grande, a forma apresentada do estimador não é computacionalmente eficiente e formas alternativas são preferidas para sua implementação.

Estimação

Uma forma mais eficiente de implementar \(\hat{\boldsymbol{\beta}}_{\bullet}^{MQG}\) é utilizando a seguinte fórmula:

\[\hat{\boldsymbol{\beta}}_{\bullet}^{MQG} = \begin{bmatrix} \sigma^{11} \textbf{X}_1' \textbf{X}_1 & \cdots & \sigma^{ig} \textbf{X}_1' \textbf{X}_g \\ \vdots & \ddots & \vdots \\ \sigma^{g1} \textbf{X}_g' \textbf{X}_1 & \cdots & \sigma^{gg} \textbf{X}_g' \textbf{X}_g \\ \end{bmatrix}^{-1} \begin{bmatrix} \displaystyle \sum_{j = 1}^g\sigma^{1j} \textbf{X}_1' \textbf{y}_j \\ \vdots \\ \displaystyle \sum_{j = 1}^g\sigma^{gj} \textbf{X}_g' \textbf{y}_j \end{bmatrix},\]

em que \(\sigma^{ij}\) é o elemento \(ij\) da matriz \(\Sigma^{-1}.\)

Estimação

\[\mathbb{V}(\hat{\boldsymbol{\beta}}_{\bullet}^{MQG}|\textbf{X}) = (\textbf{X}_{\bullet}' (\Sigma^{-1} \otimes I_n) \textbf{X}_{\bullet})^{-1} = \begin{bmatrix} \sigma^{11} \textbf{X}_1' \textbf{X}_1 & \cdots & \sigma^{ig} \textbf{X}_1' \textbf{X}_g \\ \vdots & \ddots & \vdots \\ \sigma^{g1} \textbf{X}_g' \textbf{X}_1 & \cdots & \sigma^{gg} \textbf{X}_g' \textbf{X}_g \\ \end{bmatrix}^{-1}.\]

Estimação

O que acontece se apenas sairmos aplicando MQO?

  1. Se \(\sigma_{ij} = 0\), \(\forall i\neq j\), então não há ganhos em aplicar outro metodo além de MQO.
  2. Se \(\textbf{X}_i = \textbf{X}_j\), \(\forall i\neq j\), então MQO e MQG são idênticos.
  3. Enquanto maior a correlação entre \(u_{ti}\) e \(u_{tj}\), maior a eficiencia de MQG sobre MQO.
  4. Enquanto menos correlacionadas as matrices em \(\textbf{X}\) estiverem, maiores serão os ganhos de utilizar MQG sobre MQO.

MQGF

MQGF

Na prática, \(\Sigma\) não é conhecido, devendo ser estimados. Assim, em lugar de aplicar MQG, aplicaremos MGQF.

  1. Substituir \(\Sigma\) por \[\hat{\Sigma} = n^{-1} \hat{\textbf{U}}'\hat{\textbf{U}},\] em que \(\hat{\textbf{U}}\) é uma matriz \(n \times g\) com i-éssima coluna \(\hat{\textbf{u}}_i\) e \(\hat{\textbf{u}}_i\) é o vetor de resíduos da equação \(i\) obtidos por MQO.
  2. \[\hat{\boldsymbol{\beta}}_{\bullet}^{MQGF} = (\textbf{X}_{\bullet}'(\hat{\Sigma}^{-1} \otimes I_n)\textbf{X}_{\bullet})^{-1}\textbf{X}_{\bullet}' (\hat{\Sigma}^{-1} \otimes I_n) \textbf{y}_{\bullet}\]
  3. \[\mathbb{V}(\hat{\boldsymbol{\beta}}_{\bullet}^{MQG}|\textbf{X}) = (\textbf{X}_{\bullet}' (\hat{\Sigma}^{-1} \otimes I_n) \textbf{X}_{\bullet})^{-1}\]

MQGF

Observações

  • Para estimar \(\hat{\Sigma}\), temos utilizado \(n\). Isto levara a um estimador viesado.
  • Se \(k_i = k_j = k\) \(\forall i \neq j\), podemos utilizar \(n - k\) para obter um estimador não viesado para os elementos da diagional.
  • Tentar dividir diferentes elementos de \(\hat{\textbf{U}}'\hat{\textbf{U}}\) por diferentes valores, não garante que \(\hat{\Sigma}\) seja definida positiva.
  • Sim, subtituir \(\Sigma\) por \(\hat{\Sigma}\) afeta as propriedades de MQG. Isto torna-se um problema, principalmente, quando \(n\) é pequeno e \(g\) é grande.
  • Técnicas de Bootstrap podem ser utilizadas para obter inferência estatística válida.

Exemplo

Exemplo

Sejam as equações:

\[\text{Equação 1: } \quad read = \beta_0 + \beta_1 female + \beta_2 ses + \beta_3 socst + u_1.\] \[\text{Equação 2: } \quad math = \beta_0 + \beta_1 female + \beta_2 ses + \beta_3 science + u_2.\]

  • ses: nível socio-economico (baixo, médio, alto).
  • science: nota (padronizada) em ciências.
  • socst: nota (padronizada) em estudos sociais.
  • female: female ou male
  • read: nota (padronizada) em leitura.
  • math: nota (padronizada) em matemática

Exemplo

Estimando o modelo SUR

Code
library(systemfit)
library(foreign)
library(dplyr)

hsb2 <- read.dta("https://stats.idre.ucla.edu/stat/stata/notes/hsb2.dta")
glimpse(hsb2)
Rows: 200
Columns: 11
$ id      <dbl> 70, 121, 86, 141, 172, 113, 50, 11, 84, 48, 75, 60, 95, 104, 3…
$ female  <fct> male, female, male, male, male, male, male, male, male, male, …
$ race    <fct> white, white, white, white, white, white, african-amer, hispan…
$ ses     <fct> low, middle, high, high, middle, middle, middle, middle, middl…
$ schtyp  <fct> public, public, public, public, public, public, public, public…
$ prog    <fct> general, vocation, general, vocation, academic, academic, gene…
$ read    <dbl> 57, 68, 44, 63, 47, 44, 50, 34, 63, 57, 60, 57, 73, 54, 45, 42…
$ write   <dbl> 52, 59, 33, 44, 52, 52, 59, 46, 57, 55, 46, 65, 60, 63, 57, 49…
$ math    <dbl> 41, 53, 54, 47, 57, 51, 42, 45, 54, 52, 51, 51, 71, 57, 50, 43…
$ science <dbl> 47, 63, 58, 53, 53, 63, 53, 39, 58, 50, 53, 63, 61, 55, 31, 50…
$ socst   <dbl> 57, 61, 31, 56, 61, 61, 61, 36, 51, 51, 61, 61, 71, 46, 56, 56…

Exemplo

Code
# Definimos as equações
eq01 <- read ~ female + as.numeric(ses) + socst
eq02 <- math ~ female + as.numeric(ses) + science
equacoes <- list(readreg = eq01, mathreg = eq02)
# Ajustamos o modelo SUR
fit_sur <- systemfit(equacoes, method = "SUR", data = hsb2, control = systemfit.control(methodResidCov = "noDfCor"))
summary(fit_sur)

systemfit results 
method: SUR 

         N  DF     SSR detRCov   OLS-R2 McElroy-R2
system 400 392 22980.7 3048.39 0.401314    0.32618

          N  DF     SSR     MSE    RMSE       R2   Adj R2
readreg 200 196 12610.6 64.3396 8.02120 0.397184 0.387957
mathreg 200 196 10370.1 52.9088 7.27384 0.406261 0.397174

The covariance matrix of the residuals used for estimation
        readreg mathreg
readreg 62.7544 11.2653
mathreg 11.2653 51.4218

The covariance matrix of the residuals
        readreg mathreg
readreg 63.0528 14.8640
mathreg 14.8640 51.8506

The correlations of the residuals
         readreg  mathreg
readreg 1.000000 0.259961
mathreg 0.259961 1.000000


SUR estimates for 'readreg' (equation 1)
Model Formula: read ~ female + as.numeric(ses) + socst

                  Estimate Std. Error  t value   Pr(>|t|)    
(Intercept)     22.9006917  2.9203811  7.84168 2.7911e-13 ***
femalefemale    -1.3996913  1.1393243 -1.22853   0.220722    
as.numeric(ses)  1.4953140  0.8298821  1.80184   0.073107 .  
socst            0.5155857  0.0548183  9.40535 < 2.22e-16 ***
---
Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Residual standard error: 8.021196 on 196 degrees of freedom
Number of observations: 200 Degrees of Freedom: 196 
SSR: 12610.559569 MSE: 64.33959 Root MSE: 8.021196 
Multiple R-Squared: 0.397184 Adjusted R-Squared: 0.387957 


SUR estimates for 'mathreg' (equation 2)
Model Formula: math ~ female + as.numeric(ses) + science

                  Estimate Std. Error t value   Pr(>|t|)    
(Intercept)     22.4477793  2.9353302 7.64745 8.9928e-13 ***
femalefemale     1.0316289  1.0310144 1.00060   0.318256    
as.numeric(ses)  1.6570425  0.7340503 2.25740   0.025086 *  
science          0.5058777  0.0529013 9.56267 < 2.22e-16 ***
---
Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Residual standard error: 7.273841 on 196 degrees of freedom
Number of observations: 200 Degrees of Freedom: 196 
SSR: 10370.116995 MSE: 52.90876 Root MSE: 7.273841 
Multiple R-Squared: 0.406261 Adjusted R-Squared: 0.397174 

Exemplo

Code
# Ajustamos o modelo SUR por OLS
fit_ols <- systemfit(equacoes, data = hsb2)
summary(fit_ols)

systemfit results 
method: OLS 

         N  DF     SSR detRCov   OLS-R2 McElroy-R2
system 400 392 22835.2 3227.86 0.405103   0.342707

          N  DF     SSR     MSE   RMSE       R2   Adj R2
readreg 200 196 12550.9 64.0351 8.0022 0.400037 0.390854
mathreg 200 196 10284.4 52.4712 7.2437 0.411171 0.402158

The covariance matrix of the residuals
        readreg mathreg
readreg 64.0351 11.4952
mathreg 11.4952 52.4712

The correlations of the residuals
        readreg mathreg
readreg 1.00000 0.19831
mathreg 0.19831 1.00000


OLS estimates for 'readreg' (equation 1)
Model Formula: read ~ female + as.numeric(ses) + socst

                  Estimate Std. Error  t value   Pr(>|t|)    
(Intercept)     20.6824980  2.9789550  6.94287 5.5019e-11 ***
femalefemale    -1.5111280  1.1510793 -1.31279    0.19079    
as.numeric(ses)  1.2183658  0.8399004  1.45061    0.14849    
socst            0.5699327  0.0562967 10.12373 < 2.22e-16 ***
---
Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Residual standard error: 8.002195 on 196 degrees of freedom
Number of observations: 200 Degrees of Freedom: 196 
SSR: 12550.883066 MSE: 64.035118 Root MSE: 8.002195 
Multiple R-Squared: 0.400037 Adjusted R-Squared: 0.390854 


OLS estimates for 'mathreg' (equation 2)
Model Formula: math ~ female + as.numeric(ses) + science

                 Estimate Std. Error  t value   Pr(>|t|)    
(Intercept)     19.305181   2.998047  6.43925 9.0557e-10 ***
femalefemale     1.160903   1.041641  1.11449   0.266432    
as.numeric(ses)  1.399639   0.742390  1.88531   0.060867 .  
science          0.575330   0.054328 10.58993 < 2.22e-16 ***
---
Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Residual standard error: 7.243704 on 196 degrees of freedom
Number of observations: 200 Degrees of Freedom: 196 
SSR: 10284.364144 MSE: 52.471246 Root MSE: 7.243704 
Multiple R-Squared: 0.411171 Adjusted R-Squared: 0.402158 

Comentários Finais

  • A qualidade de ajuste em cada equação pode ser analisada com o \(R^2\) tradicional.
  • A qualidade de ajuste global, pode ser analisada com \(R^2\) de McElroy. Sua interpretação é análoga ao clássico \(R^2\).

\[R^2_{\bullet} = 1 - \dfrac{\textbf{u}' \hat{\Omega}^{-1} \textbf{u}}{\textbf{y}'(\hat{\Sigma}^{-1} \otimes (I_n - \dfrac{11'}{N}))\textbf{y}},\] em que \(\hat{\Omega} = \hat{\Sigma} \otimes I_N\)