Dados em painel
Instituto de Matemática, Estatística e Computação Científica (IMECC),
Universidade Estadual de Campinas (UNICAMP).
A forma mais comum de organizar os dados é
\[\textbf{y}_i = \begin{bmatrix} y_{i1} \\ \vdots \\ y_{iT} \end{bmatrix}; \quad \textbf{X}_{i} = \begin{bmatrix} X_{i1}^1 & X_{i1}^2 & \cdots & X_{i1}^K\\ \vdots & \cdots & \ddots & \vdots \\ X_{iT}^1 & X_{iT}^2 & \cdots & X_{iT}^K\\ \end{bmatrix}; \quad \boldsymbol{\epsilon}_i = \begin{bmatrix} \epsilon_{i1} \\ \vdots \\ \epsilon_{iT} \end{bmatrix}\]
em que
Empilhando os dados temos:
\[\textbf{y} = \begin{bmatrix} \textbf{y}_{1} \\ \vdots \\ \textbf{y}_{n} \end{bmatrix}_{nT \times 1}; \quad \textbf{X} = \begin{bmatrix} \textbf{X}_{1} \\ \vdots \\ \textbf{X}_{n} \end{bmatrix}_{nT \times K};\quad \boldsymbol{\epsilon} = \begin{bmatrix} \boldsymbol{\epsilon}_1 \\ \vdots \\ \boldsymbol{\epsilon}_n \end{bmatrix}_{nT \times 1}\]
e na sua forma matricial \[\textbf{y} = \textbf{X}\boldsymbol{\beta} + \boldsymbol{\epsilon}, \quad \text{em que } \boldsymbol{\beta} = [\beta_1, \cdots, \beta_K]'\]
O método de estimação mais simples
Consiste em ignorar a estrutura de painel e empilhar os dados da forma \[\textbf{y} = \begin{bmatrix} \textbf{y}_{1} \\ \vdots \\ \textbf{y}_{n} \end{bmatrix}; \quad \textbf{X} = \begin{bmatrix} \textbf{X}_{1} \\ \vdots \\ \textbf{X}_{n} \end{bmatrix};\quad \boldsymbol{\epsilon} = \begin{bmatrix} \boldsymbol{\epsilon}_1 \\ \vdots \\ \boldsymbol{\epsilon}_n \end{bmatrix}\]
Assume que \(\epsilon_{it} \sim IID(0, \sigma^2)\).
Este método é o mais simples e produz estimadores eficientes sob a suposição de que \(\epsilon_{it} \sim IID(0, \sigma^2)\) (para um dado indivíduo \(i\) os erros são serialmente não correlacionados e entre individuos e tempo, os erros são homocedasticos).
Este modelo é inapropriado se \(\epsilon_{it} \sim IID(0, \sigma^2)\) não for verdade.
Seja o modelo \[y_{it} = X_{it} \boldsymbol{\beta} + \underbrace{\epsilon_{it}}_{\alpha_i + \eta_{it}}\]
Seja o modelo \[y_{it} = X_{it} \boldsymbol{\beta} + \epsilon_{it}, \quad \text{em que } \quad \epsilon_{it} = \alpha_i + \eta_{it},\] com \(\alpha_i\) e \(X_{it}\), bem como \(\eta_{it}\) e \(X_{it}\), sendo não correlacionados
Para contornar o problema, podemos derivar um estimador que leve em consideração a variância do erro e utilizar esta estrutura no estimador de \(\boldsymbol{\beta}\).
Qual método conhecemos para estimar \(\boldsymbol{\beta}\) quando a variância do erro não é da forma \(\sigma^2 I\)?
Consideremos as seguintes suposições acerca do termo de erro:
Agora, com todas estas suposições, podemos escrever a covariância do termo de erro 😄
\[\mathbb{E}[\epsilon_i \epsilon_i'] = \sigma_{\alpha}^2\boldsymbol{i}\boldsymbol{i}' + \sigma_{\eta}^2 I_T = \begin{bmatrix} \sigma_{\eta}^2 + \sigma_{\alpha}^2 & \cdots & \cdots &\sigma_{\alpha}^2 \\ \sigma_{\alpha}^2 & \sigma_{\eta}^2 + \sigma_{\alpha}^2 & \cdots & \sigma_{\alpha}^2 \\ \vdots & \ddots & \cdots & \vdots \\ \sigma_{\alpha}^2 & \sigma_{\alpha}^2 & \cdots & \sigma_{\eta}^2 + \sigma_{\alpha}^2 \end{bmatrix}\]
E então
\[\Omega = \mathbb{E}[\boldsymbol{\epsilon}\boldsymbol{\epsilon}'] = \begin{bmatrix} \Sigma & 0 & \cdots & 0 \\ 0 & \Sigma & \cdots & 0 \\ \vdots & \ddots & \ddots & \vdots \\ 0 & \cdots & 0 & \Sigma \end{bmatrix} = I_n \otimes \Sigma, \quad \text{em que } \Sigma = \mathbb{E}[\epsilon_i \epsilon_i'].\]
Produto de Kronecker
Se A é uma marix \(m \times n\) e B uma matrix \(p \times q\), então o produto de Kronecker, \(A \otimes B\) é uma matriz por blocos \(pm \times qn\):
\[A \otimes B = \begin{bmatrix} a_{11}B & \cdots & a_{1n}B \\ \vdots & \ddots & \vdots \\ a_{m1}B & \cdots & a_{mn}B \end{bmatrix}\]
A estrutura bloco diagonal de \(\Omega = \mathbb{E}[\boldsymbol{\epsilon}\boldsymbol{\epsilon}']\) faz com que calcular sua inversa seja apenas um problema de calcular \(\Sigma^{-1}\)
Após longas contas, pode-se provar que:
\[\Sigma^{-1/2} = \dfrac{1}{\sigma_{\eta}} \Big [ I_T - \Big ( \dfrac{1 - \theta}{T} \boldsymbol{i}\boldsymbol{i}' \Big) \Big], \quad \text{em que} \quad \theta = \sqrt{\dfrac{\sigma_{\eta}^2}{T\sigma^2_{\alpha} + \sigma^2_{\eta}}}.\]
Pense no seguinte modelo: em lugar de termos \(T\) observações para cada um dos \(n\) indivíduos, transformamos os dados em médias específicas do individuo e aplicamos MQO nos dados transformados.
\[\bar{y}_{i\cdot} = \bar{X}_{i\cdot}\boldsymbol{\beta} + error,\] em que \(\bar{y}_{i\cdot} = T^{-1} \sum_{t = 1}^Ty_{it}\) e \(\bar{X}_{i\cdot}\) é definido de forma análoga.
Para escrever isto na forma matricial:
\[\textbf{P}_D\textbf{y} = \textbf{P}_D\textbf{X}\boldsymbol{\beta} + \textbf{P}_D\boldsymbol{\epsilon}\]
Importante
\(\hat{\boldsymbol{\beta}}_B\) é chamado between estimator, isto pois o estimador utiliza a informação entre indivíduos.
Por outro lado, em lugar de utilizarmos \(\textbf{P}_D\), podemos utilizar \(\textbf{M}_D = I_{nT} - \textbf{P}_D\) que também é simétrica e idempotente.
Premultiplicando os dados originais por \(\textbf{M}_D\) e aplicando MQO, nos leva a \[\hat{\boldsymbol{\beta}}_W = (\textbf{X}' \textbf{M}_D\textbf{X} )^{-1} \textbf{X}' \textbf{M}_D\textbf{y}.\]
Este estimador é equivalente ao que obteriamos se aplicarmos MQO na seguinte equação:
\[y_{it} - \bar{y}_{i\cdot} = (X_{it} - \bar{X}_{i\cdot}) \boldsymbol{\beta} + error.\]
Ademais, o estimador é o mesmo que obteriamos se aplicasemos MQO nos dados originais mas incluinddo variáveis dummy para cada indivíduo \(i\) (ver Teorema FWL).
Importante
\(\hat{\boldsymbol{\beta}}_W\) é chamado within estimator, isto pois o estimador utiliza a variação dentro de cada indivíduo.
Note que o estimador MQO é uma soma ponderada de \(\hat{\boldsymbol{\beta}}_B\) e \(\hat{\boldsymbol{\beta}}_W\):
Considere o seguinte modelo com apenas dois períodos de tempo (\(t = 1, 2\)):
\[y_{it} = X_{it} \boldsymbol{\beta} + Z_i \gamma + \epsilon_{it},\] em que
Seja \(\textbf{W}_{it} = [\textbf{X}_{it}, \textbf{Z}_{i}]\), vamos assumir adicionalmente que \[\mathbb{E}[\textbf{W}_{it}' \epsilon_{it}] \neq 0.\]
Esta ausência de ortogonalidade tem consequências importantes a serem levadas em consideração. Pense no caso da estimação por MQO considerando apenas o primeiro período dos dados:
\[y_{i1} = X_{i1} \boldsymbol{\beta} + Z_i \gamma + \epsilon_{i1}\]
Diferente do modelo de efeitos aletarórios, MQO produzira estimadores viesados (cujo vies depende da relação entre \(\alpha_i\) e as outras variáveis explicativas)
Pode-se provar que, por exemplo, se \(\beta_2\) é o coeficiente associado à segunda variável explicativa, \[\hat{\beta}_2 \overset{p}{\to} \beta_2 + \pi_2,\] em que \(\pi_2\) é o coeficiente associado à mesma variável explicativa na regressão \[\alpha_i = \textbf{W}_{2t} \pi + error.\]
Se escolhermos o outros período, teremos um efeito semelhante.
A riqueza dos modelos para dados em painel residem no fato de que dado que ambas as representações (considerando os períodos 1 ou 2) são representações válidas, então qualquer combinação linear delas será também válida!
\[\begin{align} y_{i1} &= X_{i1} \boldsymbol{\beta} + Z_i \gamma + \epsilon_{i1} \\ y_{i2} &= X_{i2} \boldsymbol{\beta} + Z_i \gamma + \epsilon_{i2} \\ y_{i2} - y_{i1} &= (X_{i2} - X_{i1}) \boldsymbol{\beta} + (\epsilon_{i2} - \epsilon_{i1}) \\ \Delta y &= \Delta X \boldsymbol{\beta} + \Delta \eta \end{align}\]
O modelo de efeitos fixos assume que \(\mathbb{C}ov(X_{it}, \alpha_i) \neq 0\). Assim, devemos estimar o modelo condicional na presença destes efeitos fixos \[y_{it} = \textbf{X}_{it}\boldsymbol{\beta} + \alpha_i + \eta_{it},\] em que \(\alpha_i\) devem ser tratados como parâmetros a serem estimados.
Observação
No contexto atual (\(T\) pequeno e fixo e \(n \rightarrow \infty\)), não podemos obter estimadores consistentes para os parâmetros adicionais no modelo (\(\alpha_i\)) pois este número de parâmetros cresce junto com \(n\). Contudo, apesar de não poder estimar \(\alpha_i\) consistentemente, podemos estimar os outros parâmetros de forma consistente! 🏄♀️.
Para se fazer isto, basta ajustar por MQO o modelo \[\textbf{y} = \textbf{X}\boldsymbol{\beta} + \textbf{D} \boldsymbol{\alpha} + \boldsymbol{\eta},\] em que \(\textbf{D}\) são o conjunto de dummies (uma para cada indivíduo \(i\)).
Utilizando o Teorema FWL,
\[\hat{\boldsymbol{\beta}} = (\textbf{X}' M_D \textbf{X})^{-1} \textbf{X}'M_D \textbf{y},\] em que \(M_D = I - D(D'D)^{-1}D'.\)
Observação
Note que \(\hat{\boldsymbol{\beta}} = (\textbf{X}' M_D \textbf{X})^{-1} \textbf{X}'M_D \textbf{y} = \hat{\boldsymbol{\beta}}_W\) é uma opção (das muitas opções) de estimador de efeitos fixos.
Seja \(H_0:\) “o efeito é aleatório” e seja a estatística de teste \[H = (\hat{\beta}_{RE} - \hat{\beta}_{FE})'(\Sigma_{FE} - \Sigma_{RE})^{-1} (\hat{\beta}_{RE} - \hat{\beta}_{FE}) \stackrel{H_0}{\sim} \chi^2_{k}\]
Carlos Trucíos (IMECC/UNICAMP) | ME715 - Econometria | ctruciosm.github.io