Case 1:

Dados referentes a três variáveis psicológicas (locus_of_control, self_concept, motivation), quatro variáveis acadêmicas (read, write, math, science) e uma varáveis demográfica (female) foram coletados de 600 calouros da UNICAMP. O SAE (serviço de apoio ao estudante) está interessado em saber como as variáveis psicológicas se relacionam com as variáveis acadêmicas.

O data set está disponível aqui mas está em formado *.dta (STATA) 😞.

library(dplyr)
library(haven) 
library(corrplot)
library(CCA)
# Importar data set
unicamp <- read_dta("datasets/mmreg.dta")
glimpse(unicamp)
Rows: 600
Columns: 9
$ id               <dbl> 303, 404, 225, 553, 433, 189, 336, 321, 358,…
$ locus_of_control <dbl> -0.84, -0.38, 0.89, 0.71, -0.64, 1.11, 0.06,…
$ self_concept     <dbl> -0.24, -0.47, 0.59, 0.28, 0.03, 0.90, 0.03, …
$ motivation       <dbl> 1.00, 0.67, 0.67, 0.67, 1.00, 0.33, 0.67, 0.…
$ read             <dbl> 54.8, 62.7, 60.6, 62.7, 41.6, 62.7, 41.6, 44…
$ write            <dbl> 64.5, 43.7, 56.7, 56.7, 46.3, 64.5, 39.1, 39…
$ math             <dbl> 44.5, 44.7, 70.5, 54.7, 38.4, 61.4, 56.3, 46…
$ science          <dbl> 52.6, 52.6, 58.0, 58.0, 36.3, 58.0, 45.0, 36…
$ female           <dbl> 1, 1, 0, 0, 1, 1, 0, 0, 1, 1, 0, 0, 1, 1, 1,…
# Separamos os conjuntos de dados em X e Y
X <- unicamp %>% dplyr::select(locus_of_control, self_concept, motivation)
Y <- unicamp %>% dplyr::select(read, write, math, science)
# Como passo prévio, veremos se existe correlação entre as variáveis de ambos os conjuntos
unicamp %>% 
  dplyr::select(-id, -female) %>% 
  cor() %>% 
  corrplot(method = "color")

# Aplicamos CC
cc_resultados <- cc(X, Y)
# Correlação das variáveis canônicas
cc_resultados$cor
[1] 0.44643648 0.15335902 0.02250348
# Quais as combinações lineares para formar as variáves canónicas?
cc_resultados$xcoef
                       [,1]       [,2]       [,3]
locus_of_control -1.2501212  0.7659633  0.4966529
self_concept      0.2367331  0.8421110 -1.2051226
motivation       -1.2491434 -2.6359626 -1.0935084
# Quais as combinações lineares para formar as variáves canónicas?
cc_resultados$ycoef
                [,1]         [,2]        [,3]
read    -0.044047126 -0.001592913 -0.08833162
write   -0.055088843 -0.090414603  0.09612884
math    -0.019401099 -0.002955461 -0.08782254
science  0.003797757  0.124208982  0.08849518

Até aqui, temos feito tudo o visto nos slides. Contudo, sob normalidade multivariada, podemos ir além e fazer inferência estatística.

Testar se X e Y são não correlacionados.

  • Sob normalidade e utilizando o TRV chegamos na seguinte estatística de teste \[|\textbf{I} - \textbf{S}_{YY}^{-1}\textbf{S}_{YX} \textbf{S}_{XX}^{-1} \textbf{SY}| = \displaystyle \prod_{i = 1}^k(1-l_i).\]
  • Utilizando a aproximação de Barlett (1939), temos que \[-[n - (p + q + 3)/2] \displaystyle \sum_{i = 1}^k \log(1-l_i) \sim \chi^2_{pq}\]
mvnormalTest::mardia(cbind(X,Y))
$mv.test

$uv.shapiro
                 W      p-value UV.Normality
locus_of_control 0.971  0       No          
self_concept     0.941  0       No          
motivation       0.8238 0       No          
read             0.9816 0       No          
write            0.9533 0       No          
math             0.9835 0       No          
science          0.983  0       No          
aux <- as.matrix(cbind(X,Y))
mnt::test.BHEP(aux, MC.rep = 1000)  # Rejeitamos H0

Os dados não são normalmente distribuidos. Apenas a maneira de exemplo continuaremos com inferência estatística.

n <- nrow(unicamp)
p <- ncol(X)
q <- ncol(Y)
l <- cc_resultados$cor^2 #(Lembre que SVD fornece em D a raiz dos autovalores)
e_teste <- -(n - (p + q + 3)/2)*sum(log(1 - l))
e_teste
[1] 146.7165
x2 <- qchisq(0.95, p*q)
ifelse(e_teste > x2, "Rejeitamos H0", "Não rejeitamos H0")
[1] "Rejeitamos H0"

Testar que a correlaão de apenas k - s variáveis canônicas são diferentes de zero.

\[-[n - (p + q + 3)/2] \displaystyle \sum_{i = s + 1}^k \log(1-l_i) \sim \chi^2_{(p - s)(q - s)}\]

s <- 0  # Caso anterior
k <- 3
e_teste <- -(n - (p + q + 3)/2)*sum(log(1 - l)[(s + 1):k])
e_teste
[1] 146.7165
x2 <- qchisq(0.95, (p - s)*(q - s))
ifelse(e_teste > x2, "Rejeitamos H0", "Não rejeitamos H0")
[1] "Rejeitamos H0"
s <- 1  
k <- 3
e_teste <- -(n - (p + q + 3)/2)*sum(log(1 - l)[(s + 1):k])
e_teste
[1] 14.46237
x2 <- qchisq(0.95, (p - s)*(q - s))
ifelse(e_teste > x2, "Rejeitamos H0", "Não rejeitamos H0")
[1] "Rejeitamos H0"
s <- 2  
k <- 3
e_teste <- -(n - (p + q + 3)/2)*sum(log(1 - l)[(s + 1):k])
e_teste
[1] 0.3013883
x2 <- qchisq(0.95, (p - s)*(q - s))
ifelse(e_teste > x2, "Rejeitamos H0", "Não rejeitamos H0")
[1] "Não rejeitamos H0"
  • Apenas as 2 primeiras variáveis canônicas tem correlação diferentes de zero.

Case 2:

Roberto Fulcherberguer, o CEO das Casas Bahia, está interessado em saber se existe alguma relação entre o desempenho das vendas (mensurado através das variáveis Sales Growth, Sales Profitability, New Account Sales) e a inteligência dos gerentes da loja (mensurado através das variáveis Creativity, Mechanical Reasoning, Abstract Reasoning, Mathematics). Para fazer as análises, \(n = 50\) lojas são selecionadas aleatoriamente e as variáveis de interesse são obtidas.

O data set está disponível aqui.

# Importar dados
casas_bahia <- read.table("datasets/sales.txt")
colnames(casas_bahia) <- c("growth", "profit", "new",
                           "create", "mechanical", "abs", "math")
glimpse(casas_bahia)
Rows: 50
Columns: 7
$ growth     <dbl> 93.0, 88.8, 95.0, 101.3, 1…
$ profit     <dbl> 96.0, 91.8, 100.3, 103.8, …
$ new        <dbl> 97.8, 96.8, 99.0, 106.8, 1…
$ create     <int> 9, 7, 8, 13, 10, 10, 9, 18…
$ mechanical <int> 12, 10, 12, 14, 15, 14, 12…
$ abs        <int> 9, 10, 9, 12, 12, 11, 9, 1…
$ math       <int> 20, 15, 26, 29, 32, 21, 25…
# Separamos os conjuntos de dados em X e Y
X <- casas_bahia %>% dplyr::select(growth, profit, new)
Y <- casas_bahia %>% dplyr::select(create, mechanical, abs, math)
# Correlação entre as variáveis
casas_bahia %>% 
  cor() %>% 
  corrplot(method = "color")

# Aplicamos CC
cc_cb <- cc(X, Y)
# Correlação das variáveis canônicas
cc_cb$cor
[1] 0.9944827 0.8781065 0.3836057
# Quais as combinações lineares para formar as variáves canónicas?
cc_cb$xcoef
              [,1]       [,2]       [,3]
growth -0.06237788 -0.1740703  0.3771529
profit -0.02092564  0.2421641 -0.1035150
new    -0.07825817 -0.2382940 -0.3834151
# Quais as combinações lineares para formar as variáves canónicas?
cc_cb$ycoef
                  [,1]        [,2]        [,3]
create     -0.06974814 -0.19239132 -0.24655659
mechanical -0.03073830  0.20157438  0.14189528
abs        -0.08956418 -0.49576326  0.28022405
math       -0.06282997  0.06831607 -0.01133259
mvnormalTest::mardia(cbind(X,Y))
$mv.test

$uv.shapiro
           W      p-value UV.Normality
growth     0.9401 0.0135  No          
profit     0.9557 0.0589  Yes         
new        0.9781 0.4732  Yes         
create     0.9604 0.0921  Yes         
mechanical 0.9723 0.287   Yes         
abs        0.9482 0.0287  No          
math       0.9768 0.4255  Yes         
