ME715 - Econometria

Problemas adicionais de especificação e de dados

Prof. Carlos Trucíos
ctrucios@unicamp.br

Instituto de Matemática, Estatística e Computação Científica (IMECC),
Universidade Estadual de Campinas (UNICAMP).

Introdução

Introdução

  • Vimos que heterocedasticidade não causa vies nos estimadores de MQO, mas a variância do estimador precisa ser corrigida para termos inferências válidas. Podemos também utilizar MQP.
  • Vimos também que erros autocorrelacionados não causam vies nos estimadores (quando \(\textbf{X}\) não contém variáveis defasadas de \(Y\)), mas a variância do estimador precisa ser corrigida para termos inferências válidas. Podemos também utilizar MQG (MQGF).
  • Hoje veremos mais alguns detalhes aos quais devemos nos atentar na hora de construir um modelo de regressão.

Má-especificação da forma funcional.

Má-especificação da forma funcional.

“Um modelo de regressão múltipla sofre de má-especificação da forma funcional quando não explica de maneira apropriada a relação entre as variáveis explicativas e a variável dependente.” Jeffrey Wooldridge

Suponha que \[\log(wage) = \beta_0 + \beta_1 educ + \beta_2 exper + \beta_3 exper^2 +u.\] Se, por exemplo, omitirmos \(exper^2\), estamos comentendo uma má-especificação da forma funcional.

Outros exemplos de má-especificação da forma funcional são:

  • utilizar \(wage\) em lugar de \(\log(wage)\).
  • Omitir efeitos de iteração quando estes são necessários.

Má-especificação da forma funcional.

Uma forma de detectar uma forma funcional mal-especificada é através do teste F.

  • Podemos incluir os termos quadráticos das variáveis estatísticamente significativas.
  • Aplicamos um teste F para testar a significância conjunta destas variáveis.
  • Se os termos quadráticos forem significativos, podemos incluí-los no modelo (ao custo de complicar a interpretação).

Cuidado: termos quadráticos significativos podem ser consequência de outros problemas de má-especificação. Por exemplo, usar uma variável em nível quando o logaritmo sería mais apropriado, ou vice-versa.

Geralmente, termos quadráticos e \(\log(\cdot)\) são suficientes para lidar com relações não lineares.

Má-especificação da forma funcional.

Exemplo

Estamos interessados em verificar se a média do tempo das penas cumpridas de condenações passadas (avgsen) afeta o número de prisões no ano de 1986 (narr86). Para isto utilizamos o dataset crime1 do pacote wooldridge e as variáveis pcnv (proporção de condenações anteriores), tottime (tempo em prisão desde os 18 anos), ptime86(meses em prisão durante 1986), qemp86 (trimestres empregado), inc86 (salário em $.100), black (1 = negro), hispan (1 = hispano).

Rows: 2,725
Columns: 9
$ narr86  <int> 0, 2, 1, 2, 1, 0, 2, 5, 0, 0, 1, 0, 0, 0, 1, 0, 1, 0, 0, 0, 3,…
$ pcnv    <dbl> 0.38, 0.44, 0.33, 0.25, 0.00, 1.00, 0.44, 0.75, 0.33, 0.23, 0.…
$ avgsen  <dbl> 17.6, 0.0, 22.8, 0.0, 0.0, 0.0, 0.0, 0.0, 10.9, 0.0, 0.0, 31.7…
$ tottime <dbl> 35.2, 0.0, 22.8, 0.0, 0.0, 0.0, 0.0, 0.0, 21.8, 0.0, 0.0, 63.4…
$ ptime86 <int> 12, 0, 0, 5, 0, 0, 0, 0, 9, 0, 0, 12, 0, 0, 0, 3, 0, 0, 0, 0, …
$ qemp86  <dbl> 0.0, 1.0, 0.0, 2.0, 2.0, 4.0, 0.0, 0.0, 0.0, 3.0, 4.0, 0.0, 4.…
$ inc86   <dbl> 0.0, 0.8, 0.0, 8.8, 8.1, 97.6, 0.0, 0.0, 0.0, 16.7, 162.5, 0.0…
$ black   <int> 0, 0, 1, 0, 0, 0, 1, 0, 1, 0, 0, 0, 0, 0, 0, 1, 1, 0, 1, 0, 0,…
$ hispan  <int> 0, 1, 0, 1, 0, 0, 0, 0, 0, 1, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 1,…

Má-especificação da forma funcional.

Code
library(wooldridge)
modelo <- lm(narr86 ~ pcnv + avgsen + tottime + ptime86 + qemp86 + inc86 + black + hispan, data = crime1)
round(summary(modelo)$coefficients, 4)
            Estimate Std. Error t value Pr(>|t|)
(Intercept)   0.5687     0.0360 15.7766   0.0000
pcnv         -0.1332     0.0404 -3.3019   0.0010
avgsen       -0.0113     0.0122 -0.9246   0.3552
tottime       0.0120     0.0094  1.2742   0.2027
ptime86      -0.0408     0.0088 -4.6348   0.0000
qemp86       -0.0505     0.0144 -3.5000   0.0005
inc86        -0.0015     0.0003 -4.3702   0.0000
black         0.3265     0.0454  7.1892   0.0000
hispan        0.1939     0.0397  4.8831   0.0000

variáveis significativas: pcnv, ptime86, qemp86, inc86, black e hispan.

Má-especificação da forma funcional.

Code
library(wooldridge)
modelo_quadrados <- lm(narr86 ~ pcnv + I(pcnv^2)+ avgsen + tottime + ptime86 + I(ptime86^2) + qemp86 + inc86 + I(inc86^2) + black + hispan, data = crime1)
round(summary(modelo_quadrados)$coefficients, 4)
             Estimate Std. Error t value Pr(>|t|)
(Intercept)    0.5046     0.0368 13.6990   0.0000
pcnv           0.5525     0.1542  3.5823   0.0003
I(pcnv^2)     -0.7302     0.1561 -4.6773   0.0000
avgsen        -0.0170     0.0121 -1.4121   0.1580
tottime        0.0120     0.0093  1.2878   0.1979
ptime86        0.2874     0.0443  6.4945   0.0000
I(ptime86^2)  -0.0296     0.0039 -7.6636   0.0000
qemp86        -0.0141     0.0174 -0.8118   0.4170
inc86         -0.0034     0.0008 -4.2493   0.0000
I(inc86^2)     0.0000     0.0000  2.8114   0.0050
black          0.2923     0.0448  6.5201   0.0000
hispan         0.1636     0.0395  4.1474   0.0000

Fazendo um teste F para testar \[H_0: \beta_{pcnv^2} = \beta_{ptime86^2} = \beta_{inc86^2} = 0,\]

obtemos um p-valor 5.9658573^{-20}). Isto indica que o modelo original não capturou algumas não linearidades importantes

Teste RESET

A ideia do teste de erro de especificação da regressão (RESET: regression specification error test) é que se o modelo original, digamos \[y = \beta_0 + \beta_1 x_1 + \cdots + \beta_k x_k + u,\] satisfazer HRLM4 (\(\mathbb{E}(u|X) = 0\)), nenhuma função não linear das variáveis explicativas deve ser estatísticamente significativa quando adicionada à regressão.

Considere a regressão expandida: \[y = \beta_0 + \beta_1 x_1 + \cdots + \beta_k x_k + \delta_1 \hat{y}^2 + \delta_2 \hat{y}^3 + v,\]

Se o modelo original estiver corretamente especificado, \(\delta_1, \delta_2\) na regressão expandida deveriam ser conjuntamente zero. Assim, basta fazermos um teste F para testar \(H_0: \delta_1 = 0, \delta_2 = 0\).

Teste RESET

Code
modelo_expandido <- lm(narr86 ~ pcnv + avgsen + tottime + ptime86 + qemp86 + inc86 + black + hispan + I(fitted(modelo)^2) + I(fitted(modelo)^3), data = crime1)
anova(modelo_expandido, modelo)$Pr[2]
[1] 0.00193751

Rejeitamos \(H_0: \delta_1 = 0, \delta_2 = 0\) (ou seja, temos má-especificação da forma funcional.

Uma desvantagem do teste RESET é que ele não fornece orientações práticas de como proceder se má-especificação do modelo for detectada.

Teste RESET

Pense no seguinte caso:

Code
modelo <- lm(price ~ lotsize + sqrft + bdrms, data = hprice1)
modelo_expandido <- lm(price ~ lotsize + sqrft + bdrms + I(fitted(modelo)^2) +I(fitted(modelo)^3), data = hprice1)
anova(modelo_expandido, modelo)$Pr[2]
[1] 0.01202171

Rejeitamos \(H_0: \delta_1 = 0, \delta_2 = 0\), ou seja, temos evidência para dizer que o modelo esta mal-especificado na sua forma funcional. O que fazer agora?

Teste RESET

Ideia 1: O mesmo que fizemos no exemplo anterior (quadrados)

Code
modelo_quadrado <- lm(price ~ lotsize + sqrft + bdrms + I(lotsize^2) + I(sqrft^2), data = hprice1)

round(summary(modelo_quadrado)$coefficients, 4)
             Estimate Std. Error t value Pr(>|t|)
(Intercept)   36.2832    74.5865  0.4865   0.6279
lotsize        0.0114     0.0020  5.7039   0.0000
sqrft          0.0178     0.0617  0.2885   0.7737
bdrms         20.1927     7.9614  2.5363   0.0131
I(lotsize^2)   0.0000     0.0000 -4.9321   0.0000
I(sqrft^2)     0.0000     0.0000  1.1713   0.2449

Será que funcionou?

Code
modelo_quadrado_expandido <- lm(price ~ lotsize + sqrft + bdrms + I(lotsize^2) + I(sqrft^2) + I(fitted(modelo_quadrado)^2) +I(fitted(modelo_quadrado)^3), data = hprice1)
anova(modelo_quadrado_expandido, modelo_quadrado)$Pr[2]
[1] 0.004561889

Teste RESET

Uma desvantagem do teste RESET é que ele não fornece orientações práticas de como proceder se má-especificação do modelo for detectada 😢.

Veja o que acontece com o seguinte modelo:

Code
modelo_log <- lm(log(price) ~ log(lotsize) + log(sqrft) + bdrms, data = hprice1)
modelo_log_expandido <- lm(log(price) ~ log(lotsize) + log(sqrft) + bdrms + I(fitted(modelo_log)^2) + I(fitted(modelo_log)^3), data = hprice1)
anova(modelo_log_expandido, modelo_log)$Pr[2]
[1] 0.08307589

Se o teste RESET rejeita \(H_0\), sabemos que temos má-especificação funcional. Contudo, não sabemos como fazer a correção (neste caso, aplicar \(\log(\cdot)\) em algumas das variáveis funcionou).

O teste RESET é um teste geral da má-especificação da forma funcional. Ele nos diz se temos evidência (ou não) de má-especificação, mas não fornece orientações de como proceder se esta for detectada.

Testes contra alternativas não aninhadas

Suponha que estamos interessados em testar o modelo \[y_t = \beta_0 + \beta_1 x_{1t} + \beta_2 x_{2t} + u_t,\] contra o modelo \[y_t = \beta_0 + \beta_1 \log(x_{1t}) + \beta_2 \log(x_{2t}) + u_t,\]

Important

Este tipo de modelos são não aninhados, isso significa que nenhum dos modelos é um caso particular do outro.

  • Se fossem modelos aninhados, poderiamos utilizar testes F.
  • No caso de modelos não aninhados, não podemos utilizar testes F.

Testes contra alternativas não aninhadas

Alternativa 1:

Criar um modelo abrangente que inclua ambos os modelos como casos particulares. Em seguida, testar as restrições que levam a cada um dos modelos.

Exemplo:

\[y_t = \gamma_0 + \gamma_1 x_{1t} + \gamma_2 x_{2t} + \gamma_3 \log(x_{1t}) + \gamma_4 \log(x_{2t})+ u_t.\]

  • Testar \(H_0: \gamma_3 = \gamma_4 = 0\).
  • Testar \(H_0: \gamma_1 = \gamma_2 = 0\).

Esta abordagem foi proposta por Mizon e Richard (1986)

Testes contra alternativas não aninhadas

Alternativa 2: Teste de Davidson-MacKinnon

  1. Ajustar o modelo \(y = \beta_0 + \beta_1 \log(x_1) + \beta_2 \log(x_2) + u\) e obter \(\hat{y}\).
  2. Ajustar o modelo \(y = \beta_0 + \beta_1 x_1 + \beta_2 x_2 + \theta \hat{y} + u\) e fazer um teste t (\(H_0: \theta = 0\)).

Como \(\hat{y}\) obtido no passo 1 são apenas funções não lineares de \(x_1\) e \(x_2\), se o modelo \(y = \beta_0 + \beta_1 x_1 + \beta_2 x_2 + u\) for corretamente especificado (\(\mathbb{E}(u|X) = 0\)), então \(\theta\) não deve ser diferente de zero.

De forma análoga, podemos:

  1. Ajustar o modelo \(y = \beta_0 + \beta_1 x_1 + \beta_2 x_2 + u\) e obter \(\hat{y}\).
  2. Ajustar a regressão \(y = \beta_0 + \beta_1 \log(x_1) + \beta_2 \log(x_2) + \theta \hat{y} + u\) e testar se \(H_0: \theta = 0.\)

Se nenhum modelo for rejeitado, podemos utilizar o \(R^2_{Adj}\) para escolher um dos modelos.

Testes contra alternativas não aninhadas

Code
modelo <- lm(log(price) ~ lotsize + sqrft + bdrms, data = hprice1)
modelo_abrangente <- lm(log(price) ~ log(lotsize) + lotsize + log(sqrft) + sqrft + bdrms, data = hprice1)
anova(modelo, modelo_abrangente)
Analysis of Variance Table

Model 1: log(price) ~ lotsize + sqrft + bdrms
Model 2: log(price) ~ log(lotsize) + lotsize + log(sqrft) + sqrft + bdrms
  Res.Df    RSS Df Sum of Sq      F  Pr(>F)  
1     84 3.0284                              
2     82 2.7325  2   0.29594 4.4404 0.01476 *
---
Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Rejeitamos \(H_0: \beta_{\log(lotsize)} = \beta_{\log(sqrft)} = 0\), ou seja, o modelo \(\log(price) = \beta_0 + \beta_1 lotsize + \beta_2 sqrft + bdrms + u\) está mal-especificado.

Testes contra alternativas não aninhadas

Code
modelo_log <- lm(log(price) ~ log(lotsize) + log(sqrft) + bdrms, data = hprice1)
anova(modelo_log, modelo_abrangente)
Analysis of Variance Table

Model 1: log(price) ~ log(lotsize) + log(sqrft) + bdrms
Model 2: log(price) ~ log(lotsize) + lotsize + log(sqrft) + sqrft + bdrms
  Res.Df    RSS Df Sum of Sq      F Pr(>F)
1     84 2.8626                           
2     82 2.7325  2   0.13007 1.9516 0.1486

Não rejeitamos \(H_0: \beta_{lotsize} = \beta_{sqrft} = 0\). Logo, não encontramos evidência que o modelo \(\log(price) = \beta_0 + \beta_1 \log(lotsize) + \log(sqrft) + bdrms + u\) seja mal-especificado. Assim, o modelo com \(\log(\cdot)\) é preferido.

Variáveis proxy

Variáveis proxy para variáveis não observadas

Variáveis proxy são uma forma e lidar com variáveis omitidas que são não observadas (inteligência, honestidade, aptidão).

Seja o modelo \[\log(wage) = \beta_0 + \beta_1 educ + \beta_2 exper + \beta_3 abil + u.\]

  • Se ajustarmos o modelos sem a variável abil (habilidade), em geral, teremos estimadores viesados para \(\beta\).
  • Como podemos resolver, ou pelo menos aliviar, o problema de vies da variável omitada? (pelo menos para \(\beta_1\) e \(\beta_2\))
Uma alternativa é utilizar uma variável proxy (afinal, abil não é observável)

Important

Uma variável proxy é uma variável que está relacionada com a variável não observada que gostaríamos de controlar.

Variáveis proxy para variáveis não observadas

Seja o modelo \[\log(wage) = \beta_0 + \beta_1 educ + \beta_2 exper + \beta_3 abil + u.\]

  1. Qual seria uma variável proxy para abil?
  2. Isso significa que abil e a variável proxy são a mesma coisa?
  • Seja o modelo \(y = \beta_0 + \beta_1 x_2 + \beta_2 x_2 + \beta_3 x_3^{\ast} + u\), em que \(x_3^{\ast}\) é não observável.
  • Seja \(x_3\) uma proxy de \(x_3^{\ast}\).
  • Como apenas precisamos que \(x_3\) e \(x_3^{\ast}\) sejam relacionadas, isto pode ser capturado pela equação \[x_3^{\ast} = \delta_0 + \delta_1 x_3 + v\]

Variáveis proxy para variáveis não observadas

  • Como podemos utilizar \(x_3\) para obter estimadores não viesados (ou pelo menos consistentes) para \(\beta_1\) e \(\beta_2\)?
  • Utilizar \(x_3\) como se fosse \(x_3^{\ast}\) e regredir \(y\) sobre \(x_1, x_2, x_3\) (método conhecido como solução plugada do problema de variáveis omitidas).
  • Como \(x_3\) e \(x_3^{\ast}\) não são as mesmas, devemos determinar quando, de fato, este procedimento produzira estimadores consistentes para \(\beta_1\) e \(\beta_2\).

Variáveis proxy para variáveis não observadas

Hipóteses necessárias para que a solução plugada forneça estimadores consistentes para \(\beta_1\) e \(\beta_2\).

  1. \(u\) é não correlacionado com \(x_1, x_2, x_3^{\ast}\) e \(x_3\).
  2. \(v\) é não correlacionado com \(x_1, x_2, x_3\).

\[y = \beta_0 + \beta_1x_1 + \beta_2 x_2 + \beta_3 \underbrace{x_3^{\ast}}_{x_3^{\ast} = \delta_0 + \delta_1 x_3 + v} + u\]

\[y = \underbrace{\beta_0 + \beta_3 \delta_0}_{\alpha_0} + \beta_1 x_1 + \beta_2 x_2 + \underbrace{\beta_3 \delta_1}_{\alpha_3}x_3 + \underbrace{u + \beta_3 v}_{\epsilon}\]

Variáveis dependentes defasadas como proxy

  • Em alguns casos (como no exemplo anterior) temos uma vaga ideia de qual variável podemos incluir como proxy.
  • Em outras aplicações, suspeitamos que as variáveis independentes estejam relacionadas com uma variável não observada, mas não temos ideia de como obter uma proxy para esta variável.
  • Nessas situações, podemos incluir o valor da variável dependente de um período anterior (isto implica em modificar algumas suposições do modelo. Isto será visto na matéria de séries temporais).

Em geral, o uso de uma variável proxy ainda pode conduzir a vies se ela não satisfazer as hipóteses precedentes. Contudo, esperamos que o vies seja menor do que aquele obtido se omitirmos totalmente a variável.

MQO e erros de medida

MQO e erros de medida

  • Algumas vezes, não podemos coletar dados da variável que verdadeiramente afeta o fenômeno de interesse.
  • Quando utilizamos uma medida imprecisa de uma variável no modelo, o modelo conterá erro de medida.
  • Este erro de medida tem algumas consequências na estimação por MQO.

Importante

  • Variável proxy: procuramos por uma variável que está associada com a variável não observada.
  • Erro de medida: a variável que não observamos tem um significado quantitativo bem definido, mas as medidas sobre elas registradas por nós podem conter erros.

Exemplo: QI é proxy de aptidão, já renda anual declarada é uma medida (com erro) da renda anual efetiva.

Erro de medida na variável dependente

Seja \(y^{\ast}\) a variável que queremos explicar e seja o modelo correto \[y^{\ast} = \beta_0 + \beta_1x_1 + \cdots + \beta_k x_k + u\]

Seja \(y\) a variável declarada (pensem em \(y^{\ast}\) como o a poupança familiar anual e em \(y\) como a poupança anual registrada).

O erro de medida é definido como a diferença entre o valor observado e o valor real, \[e_0 = y - y^{\ast}\]

Subtituindo no modelo original, temos \[y = \beta_0 + \beta_1x_1 + \cdots + \beta_k x_k + \underbrace{u + e_0}_{erro}\]

Qual o efeito de aplicar MQO com \(y\) em lugar de \(y^{\ast}\)?

Erro de medida na variável dependente

Qual o efeito de aplicar MQO com \(y\) em lugar de \(y^{\ast}\)?

  • Se \(\mathbb{E}(e_0) \neq 0\), teremos um estimador viesado para \(\beta_0\).
  • Se \(\mathbb{E}(e_0|x) = 0\), teremos estimadores não viesados para \(\beta\).
  • Se \(u\) e \(e_0\) forem não correlacionados, \(\mathbb{V}(u + e_0) = \sigma^2_u + \sigma^2_{e_0} > \sigma^2_u·\)

O erro de medida na variável dependente pode causar vies no método MQO se este for relacionado com uma ou mais variáveis explicativas. Já se o erro de medida for não correlacionado com as variáveis explicativas, a estimação por MQO possuirá boas propriedades.

Erro de medida em uma variável explicativa

Seja \[y = \beta_0 + \beta_1 x_1^{\ast} + u,\] e assuma que as hipóteses de Gauss-Markow são satisfeitas.

O problema é que \(x_1^{\ast}\) não é observado.

Em vez disso, temos uma medida de \(x_1^{\ast}\) que chamaremos de \(x_1\). O erro de medida é \[e_1 = x_1 - x_1^{\ast}.\]

O que acontece se simplesmente substituirmos \(x_1\) por \(x_1^{\ast}\) e aplicamos MQO?

A resposta depende fortemente das suposições que fizermos sobre o erro de medida

Erro de medida em uma variável explicativa

Duas hipóteses têm sido enfaizadas na litertura:

  1. \(\mathbb{C}ov(x_1, e_1) = 0\):

Se substituirmos \(x_1^{\ast}\) no modelo anterior por \(x_1 - e_1,\) temos \[y = \beta_0 + \beta_1 x_1 + u - \beta_1e_1,\]

Uma suposição presente em ambas as hipóteses que tem sido enfatizadas é que \(u\) e \(e_1\) tem média zero.

Se além disso, utlizarmos o fato que tanto \(u\) quanto \(e_1\) são não correlacionados com \(x_1\), \(\hat{\beta}_{MQO}\) terá boas propriedades mas a variâncias de \(\mathbb{V}(u - \beta_1e_1) = \sigma_u^2 + \beta_1^2 \sigma_{e_1}^2 > \sigma_u^2\).

Erro de medida em uma variável explicativa

  1. \(\mathbb{C}ov(x_1^{\ast}, e_1) = 0\) (suposição conhecida como erro clássico nas variáveis - CEV):

\[\mathbb{C}ov(x_1,e_1) = \mathbb{E}(x_1e_1) = \mathbb{E}((x_1^{\ast} + e_1)e_1) = \underbrace{\mathbb{E}(x_1^{\ast}e_1)}_{0} + \underbrace{\mathbb{E}(e_1^2)}_{\sigma^2_{e_1}} \neq 0\]

Assim, \[\mathbb{C}ov(x_1, u-\beta_1e_1) = \mathbb{C}ov(x_1, u) - \mathbb{C}ov(x_1, \beta_1e_1) = -\beta_1\sigma^2_{e_1}\]

O que levara a um estimador viesado.

Problemas com dados

Dados faltantes

  • Não é raro que, após coletarmos informações de uma a.a de pessoas*, descubramos que estão faltandando informações em uma ou mais variáveis.
  • Via de regra, quando uma dado faltante for detectado (seja na variável dependente ou alguma das independentes), a observação toda não é levada em consideração na análise de regressão.
  • Um estimador que usa unicamente observações “completas” é chamado estimador de caso completo.
  • Será que, além da diminuição do tamanho amostral, existe alguma consequência de usar um estimador de caso completo?

Dados faltantes

Se os dados estão ausentes de forma completamente aleatória (MCAR: missing completely at random), então excluir essas observações com dados faltantes não causa maiores problemas 😄.

MCAR implica que os dados faltantes não são determinados pelo valor da observação na variável (random) nem pelo valor de alguma outra variável (também random).

Infelizmente, MCAR não é o único tipo de dado faltante que pode acontecer.

Dados faltantes

MAR

  • MAR (missing at random): Quando o dado faltante é aleatório na variável mas relacionado com os valores de outras variáveis.
  • Este tipo de dado faltante precisa de um método mais sofisticado de imputação (como MICE)

MNAR

  • MNAR (missing not at random): Quando existe um padrão de dados faltante na variável.
  • Exemplo: pessoas com altos salarios às vezes preferem não declarar o salário.
  • Neses casos, a solução é coletar mais dados.

Dados faltantes

Outra solução, quanto temos valores faltantes MCAR, consiste no seguinte:

  • Imagine o modelo de RLM e que estão disponíveis as variáveis \(Y\), \(X_1, \cdots, X_{k-1}\) sem dados faltantes.
  • Contudo, a variável \(X_k\), também no modelo, está disponível mas com alguns dados faltantes.
  • Em lugar de exclur todas as observações que tem dados faltantes nessa variável, podemos criar duas novas variáveis, \(Z_k\) e \(m_k\).
  • \(Z_k = X_k\) quando não tivermos dado faltante e 0 caso contrário. \(m_k\) será uma dummy que funciona como “indicador de dados faltantes”. Dessa forma, incluimos todas as observações na regressão de \(Y\) sobre \(X_1, \cdots, X_{k-1}, Z_k, m_k\).