class: center, middle, inverse, title-slide # Modelos de Regressão e Previsão (ACA228) ## Revisão de MAD211 ### Prof. Carlos Trucíos
ctruciosm.github.io
carlos.trucios@facc.ufrj.br
### Faculdade de Administração e Ciências Contábeis, Universidade Federal de Rio de Janeiro --- layout: true <a class="footer-link" href="http://ctruciosm.github.io">ctruciosm.github.io — Carlos Trucíos (FACC/UFRJ)</a> ---
# Revisão Antes de estudarmos com detalhe métodos mais sofisticados, precisamos entender/revisar alguns conceitos básicos que nos acompanharão ao longo do curso: -- #### Estatística descritiva #### Distribuições de probabilidade #### Testes de Hipóteses -- .pull-right[ ![](imagens/RPythonJulia.png) ] --- class: inverse, right, middle # Estatística descritiva --- ## Estatística descritiva .panelset[ .panel[.panel-name[Dataset] | promoted| sales| customer_rate| performance| |--------:|-----:|-------------:|-----------:| | 0| 594| 3.94| 2| | 0| 446| 4.06| 3| | 1| 674| 3.83| 4| | 0| 525| 3.62| 2| | 1| 657| 4.40| 3| | 1| 918| 4.54| 2| | 0| 318| 3.09| 3| | 0| 364| 4.89| 1| | 0| 342| 3.74| 3| | 0| 387| 3.00| 3| | 0| 527| 2.43| 3| | 1| 716| 3.16| 3| | 0| 557| 3.51| 2| | 0| 450| 3.21| 3| | 0| 344| 3.02| 2| | 0| 372| 3.87| 3| | 0| 258| 2.49| 1| | 0| 338| 2.66| 4| | 0| 410| 3.14| 2| | 1| 937| 5.00| 2| | 1| 702| 3.53| 4| | 0| 469| 4.24| 2| | 0| 535| 4.47| 2| | 0| 342| 3.60| 1| | 1| 819| 4.45| 2| | 1| 736| 3.94| 4| | 0| 330| 2.54| 2| | 0| 274| 4.06| 1| | 0| 341| 4.47| 2| | 1| 717| 2.98| 2| | 0| 478| 3.48| 2| | 0| 487| 3.74| 1| | 0| 239| 2.47| 4| | 1| 825| 3.32| 3| | 0| 400| 3.53| 2| | 1| 728| 2.66| 3| | 1| 773| 4.89| 3| | 0| 425| 3.62| 1| | 1| 943| 4.40| 4| | 0| 510| 2.56| 3| | 0| 389| 3.34| 4| | 0| 270| 2.56| 2| | 1| 945| 4.31| 4| | 0| 497| 3.02| 3| | 0| 329| 2.86| 3| | 0| 389| 2.98| 4| | 0| 475| 3.39| 3| | 0| 383| 2.36| 2| | 1| 432| 2.33| 3| | 1| 619| 1.94| 3| | 1| 578| 4.17| 4| | 0| 411| 3.07| 4| | 0| 445| 3.00| 3| | 0| 440| 3.62| 2| | 0| 359| 3.92| 1| | 0| 419| 3.85| 3| | 1| 840| 5.00| 4| | 0| 393| 4.49| 1| | 1| 754| 3.74| 3| | 0| 441| 4.75| 2| | 1| 803| 4.89| 3| | 0| 444| 4.15| 2| | 1| 753| 5.00| 4| | 1| 688| 4.29| 2| | 0| 431| 4.29| 4| | 0| 511| 3.74| 2| | 0| 464| 2.22| 3| | 0| 473| 3.57| 2| | 0| 532| 3.74| 1| | 0| 280| 3.41| 2| | 0| 342| 3.71| 2| | 0| 320| 2.15| 3| | 0| 531| 3.41| 4| | 0| 373| 2.01| 2| | 0| 547| 4.40| 1| | 1| 611| 4.03| 4| | 1| 825| 4.66| 2| | 0| 431| 3.62| 3| | 0| 401| 3.69| 2| | 0| 517| 4.20| 3| | 1| 803| 4.15| 3| | 0| 586| 5.00| 1| | 0| 444| 3.21| 4| | 1| 693| 3.80| 3| | 1| 659| 4.20| 1| | 0| 416| 3.87| 3| | 0| 423| 2.75| 3| | 1| 756| 3.55| 4| | 0| 245| 2.52| 2| | 0| 419| 3.76| 2| | 1| 757| 3.11| 3| | 1| 617| 4.33| 1| | 1| 909| 3.21| 3| | 0| 516| 2.47| 1| | 0| 317| 1.51| 1| | 0| 425| 3.53| 3| | 0| 528| 4.63| 2| | 0| 416| 3.37| 1| | 1| 645| 4.08| 2| | 0| 390| 3.16| 4| | 0| 393| 3.76| 1| | 0| 394| 3.07| 2| | 0| 387| 3.87| 3| | 0| 450| 3.62| 3| | 0| 487| 3.46| 3| | 1| 607| 2.49| 4| | 0| 369| 2.22| 1| | 0| 489| 4.98| 2| | 0| 324| 3.05| 3| | 0| 417| 4.47| 1| | 1| 694| 1.90| 2| | 1| 651| 5.00| 4| | 0| 395| 3.46| 2| | 0| 442| 2.29| 1| | 0| 422| 4.54| 3| | 0| 404| 4.06| 3| | 0| 381| 3.37| 4| | 0| 501| 4.77| 4| | 1| 944| 5.00| 2| | 1| 753| 4.43| 3| | 0| 591| 4.93| 4| | 1| 735| 4.03| 4| | 1| 538| 3.05| 3| | 0| 451| 4.49| 2| | 0| 477| 3.87| 3| | 0| 436| 4.13| 2| | 1| 738| 3.05| 3| | 1| 902| 5.00| 4| | 0| 464| 3.90| 1| | 1| 944| 3.92| 4| | 0| 285| 3.53| 3| | 0| 453| 4.68| 2| | 0| 382| 3.51| 2| | 0| 414| 2.03| 2| | 0| 335| 3.71| 3| | 1| 935| 5.00| 3| | 0| 203| 2.72| 2| | 0| 348| 5.00| 3| | 1| 800| 4.24| 2| | 0| 436| 3.51| 3| | 0| 360| 3.23| 1| | 1| 674| 4.47| 3| | 0| 425| 2.43| 3| | 1| 901| 2.70| 3| | 0| 453| 4.98| 2| | 0| 350| 3.00| 3| | 0| 362| 2.89| 2| | 0| 486| 3.41| 1| | 0| 471| 4.38| 2| | 0| 459| 5.00| 3| | 0| 506| 5.00| 3| | 0| 262| 2.70| 2| | 1| 825| 4.95| 3| | 0| 291| 2.54| 2| | 1| 464| 2.70| 3| | 1| 802| 3.78| 2| | 1| 818| 4.24| 3| | 1| 736| 3.78| 3| | 0| 364| 4.01| 3| | 0| 308| 4.82| 1| | 1| 862| 4.17| 4| | 0| 349| 1.67| 4| | 0| 375| 3.05| 2| | 0| 423| 2.54| 3| | 1| 938| 3.69| 3| | 0| 456| 2.91| 1| | 0| 517| 5.00| 2| | 0| 373| 2.93| 1| | 1| 898| 2.26| 4| | 1| 777| 4.86| 3| | 0| 470| 4.84| 3| | 0| 545| 3.94| 4| | 1| 699| 2.66| 4| | 1| 697| 4.06| 3| | 0| 300| 1.94| 2| | 1| 677| 4.63| 3| | 0| 497| 3.14| 1| | 1| 669| 4.56| 4| | 1| 596| 4.98| 2| | 0| 492| 4.24| 3| | 0| 346| 2.20| 2| | 1| 590| 4.17| 2| | 0| 592| 2.20| 3| | 1| 780| 4.15| 4| | 0| 432| 4.15| 2| | 0| 418| 4.01| 2| | 1| 662| 4.56| 4| | 1| 678| 4.49| 3| | 1| 716| 3.44| 3| | 0| 330| 3.05| 1| | 0| 414| 3.83| 1| | 0| 416| 2.79| 2| | 0| 403| 2.75| 1| | 0| 362| 2.03| 3| | 0| 284| 4.20| 3| | 0| 363| 4.72| 1| | 1| 655| 3.39| 3| | 0| 597| 4.08| 3| | 1| 794| 3.83| 3| | 1| 818| 2.70| 1| | 0| 409| 3.44| 1| | 1| 681| 3.97| 1| | 1| 606| 1.83| 3| | 0| 489| 4.47| 2| | 0| 475| 4.56| 3| | 0| 590| 4.43| 3| | 0| 396| 4.86| 2| | 0| 420| 5.00| 2| | 1| 857| 3.85| 2| | 0| 371| 2.77| 2| | 0| 421| 3.39| 3| | 1| 828| 1.37| 4| | 0| 594| 3.05| 1| | 0| 533| 4.86| 2| | 0| 462| 2.98| 2| | 0| 392| 3.85| 3| | 0| 475| 3.83| 3| | 1| 752| 4.89| 2| | 1| 659| 1.97| 2| | 1| 650| 3.14| 2| | 0| 496| 4.31| 3| | 0| 211| 2.52| 1| | 1| 898| 3.51| 3| | 0| 388| 2.54| 1| | 0| 383| 2.47| 2| | 0| 455| 2.36| 3| | 0| 319| 3.21| 4| | 1| 756| 3.09| 3| | 0| 377| 2.08| 3| | 1| 940| 2.82| 3| | 1| 757| 3.55| 3| | 0| 469| 3.85| 3| | 0| 394| 3.57| 1| | 0| 484| 2.86| 2| | 0| 491| 3.44| 4| | 0| 547| 5.00| 2| | 0| 519| 3.34| 4| | 1| 739| 3.99| 3| | 0| 479| 4.06| 2| | 1| 943| 3.21| 4| | 1| 742| 4.17| 2| | 0| 357| 2.72| 1| | 0| 432| 3.80| 3| | 0| 584| 3.78| 2| | 1| 595| 3.74| 2| | 0| 401| 2.86| 3| | 0| 460| 4.45| 2| | 1| 753| 4.89| 2| | 0| 466| 5.00| 2| | 0| 362| 2.26| 2| | 0| 361| 2.66| 2| | 0| 338| 4.03| 3| | 1| 882| 2.63| 3| | 0| 293| 3.51| 2| | 1| 922| 4.15| 1| | 1| 793| 4.08| 2| | 1| 787| 2.56| 3| | 0| 400| 3.34| 2| | 0| 516| 5.00| 4| | 0| 295| 3.87| 2| | 0| 307| 1.00| 1| | 0| 151| 2.31| 2| | 0| 441| 3.34| 2| | 0| 406| 3.25| 1| | 0| 270| 4.10| 2| | 1| 680| 3.09| 4| | 1| 662| 4.77| 2| | 0| 347| 3.62| 3| | 0| 453| 4.86| 1| | 0| 309| 3.00| 1| | 0| 592| 4.79| 2| | 0| 540| 3.41| 4| | 1| 886| 4.68| 3| | 0| 420| 5.00| 4| | 1| 718| 4.03| 4| | 0| 284| 3.69| 2| | 0| 323| 1.85| 3| | 0| 513| 4.20| 3| | 1| 841| 5.00| 4| | 0| 362| 2.38| 1| | 1| 842| 3.99| 3| | 0| 321| 3.25| 1| | 0| 516| 2.89| 3| | 0| 428| 3.28| 4| | 0| 383| 2.98| 3| | 1| 521| 3.23| 1| | 0| 358| 3.09| 2| | 0| 489| 3.41| 3| | 0| 252| 1.69| 2| | 1| 720| 3.76| 3| | 1| 610| 2.75| 4| | 1| 871| 5.00| 2| | 0| 594| 4.75| 3| | 0| 522| 4.59| 2| | 0| 379| 1.83| 3| | 0| 454| 4.29| 2| | 0| 450| 3.69| 2| | 0| 317| 2.66| 2| | 1| 835| 3.90| 1| | 0| 297| 2.61| 4| | 0| 516| 3.90| 3| | 0| 355| 3.41| 2| | 1| 858| 3.67| 3| | 0| 305| 1.99| 3| | 0| 410| 1.37| 3| | 1| 707| 2.38| 1| | 1| 798| 4.72| 3| | 0| 265| 3.48| 2| | 1| 576| 3.60| 3| | 0| 448| 3.18| 1| | 0| 590| 4.77| 3| | 0| 456| 4.03| 3| | 1| 930| 4.22| 4| | 0| 412| 4.10| 2| | 0| 286| 3.64| 1| | 0| 440| 2.29| 1| | 0| 546| 3.55| 1| | 0| 385| 2.66| 3| | 0| 544| 3.48| 1| | 0| 505| 2.89| 1| | 1| 732| 3.57| 2| | 0| 506| 4.36| 3| | 0| 394| 2.79| 4| | 1| 674| 3.60| 2| | 0| 458| 3.39| 4| | 0| 251| 3.32| 2| | 0| 429| 3.41| 1| | 0| 348| 3.69| 3| | 1| 789| 3.71| 3| | 1| 795| 4.31| 1| | 0| 509| 4.61| 3| | 1| 754| 4.33| 4| | 0| 580| 4.70| 1| | 0| 289| 3.57| 3| | 0| 390| 2.01| 3| | 1| 787| 3.14| 1| | 0| 241| 3.05| 2| | 0| 522| 4.72| 2| | 0| 412| 5.00| 2| | 0| 359| 5.00| 2| | 0| 489| 4.86| 3| | 1| 940| 5.00| 4| | 0| 592| 4.38| 4| | 1| 796| 5.00| 3| | 1| 653| 5.00| 3| | 0| 459| 2.82| 3| | 0| 586| 3.41| 2| | 0| 401| 1.60| 3| | 0| 500| 4.17| 2| | 0| 373| 2.54| 1| | 0| NA| NA| NA| ] .panel[.panel-name[Importando dados no R] ```r # Importando dados url = "http://peopleanalytics-regression-book.org/data/salespeople.csv" salespeople = read.csv(url) # Visualisando as primeiras observacoes head(salespeople) ``` ``` ## promoted sales customer_rate performance ## 1 0 594 3.94 2 ## 2 0 446 4.06 3 ## 3 1 674 3.83 4 ## 4 0 525 3.62 2 ## 5 1 657 4.40 3 ## 6 1 918 4.54 2 ``` ] ] --- # Estatística descritiva Sejam `\(x_1, \ldots, x_n\)`, `\(n\)` observações de uma caracteristica (numérica) de interesse. A **média** é o valor promedio das observações e é definido como: `$$\bar{x} = \dfrac{\displaystyle \sum_{i=1}^n x_i}{n}.$$` ```r mean(salespeople$sales, na.rm = TRUE) ``` ``` ## [1] 527.0057 ``` -- > A média é intuitiva e fácil de entender/explicar, mas é afetada por observações extremas. --- # Estatística descritiva Sejam `\(x_{(1)}, x_{(2)}, \ldots, x_{(n)}\)` os valores ordenados (de menor a maior) de `\(x_1, \ldots, x_n\)`. A **médiana** é o valor _do meio_ dos dados ordenados. `$$Mediana(x)= \begin{cases} x_{\big(\frac{n+1}{2}\big)}, & \text{se } n \text{ for impar}\\ \dfrac{x_{\big(\frac{n}{2}\big)} + x_{\big(\frac{n}{2} + 1\big)}}{2}, & \text{se } n \text{ for par}. \end{cases}$$` ```r median(salespeople$sales, na.rm = TRUE) ``` ``` ## [1] 475 ``` -- > A mediana é robusta a observações atípicas --- # Estatística descritiva A **variância** é uma medida de variabilidade (em torno da média) dos dados. Quanto maior a variância, maior é a variabilidade. `$$\hat{\sigma}^2_x = \dfrac{\displaystyle \sum_{i=1}^n (x_i - \bar{x})^2}{n-1}$$` ```r var(salespeople$sales, na.rm = TRUE) ``` ``` ## [1] 34308.11 ``` -- > A variância, por estar em `unidades ao quadrado` é dificil de interpretar e na prática é preferido o desvio padrão (raiz quadrada da variância). --- # Estatística descriptiva O **desvio padrão** é outra medida de variabilidade. Quanto maior o valor, maior é a variabilidade. É definido como a raiz quadrada da variância. `$$\hat{\sigma}_x = \sqrt{\dfrac{\displaystyle \sum_{i=1}^n (x_i - \bar{x})^2}{n-1}}$$` ```r sd(salespeople$sales, na.rm = TRUE) ``` ``` ## [1] 185.2245 ``` -- > A vantagem do desvio padrão sobre a variância é que esta medida de variabilidade está na escala original dos dados. --- # Estatística descriptiva A **covariância** mede o grau de associação entre 2 variáveis, `$$cov(x,y) = \dfrac{\displaystyle \sum_{i=1}^n (x_i - \bar{x}) (y_i - \bar{y})}{n-1}$$` ```r cov(salespeople, use = "complete.obs") ``` ``` ## promoted sales customer_rate performance ## promoted 0.21924683 73.81763 0.07561293 0.11891117 ## sales 73.81763406 34308.11458 55.81769120 49.40687679 ## customer_rate 0.07561293 55.81769 0.79581959 0.05008596 ## performance 0.11891117 49.40688 0.05008596 0.90974212 ``` -- > Covariância igual a zero indica que as variáveis não tem nenhum grau de associação. > A desvantagem da covariância é que não tem valor mínimo nem máximo. --- # Estatística descriptiva O **coeficiente de correlação de Pearson**( `\(\rho_{x,y}\)` ) também mede o grau de associação entre 2 variáveis (numéricas), mas `\(-1 \leq \rho_{x,y} \leq 1\)` `$$\rho(x,y) = \dfrac{cov(x,y)}{\hat{\sigma}_x \hat{\sigma}_y}$$` ```r cor(salespeople, use = "complete.obs") ``` ``` ## promoted sales customer_rate performance ## promoted 1.0000000 0.8511283 0.18101815 0.26625444 ## sales 0.8511283 1.0000000 0.33780504 0.27965966 ## customer_rate 0.1810182 0.3378050 1.00000000 0.05886397 ## performance 0.2662544 0.2796597 0.05886397 1.00000000 ``` -- > Correlação zero indica ausencia de associação entre as variáveis, valores próximos a 1(-1) indicam associação direta (inversa) entra as variáveis. --- # Estatística descriptiva - Os quantis também podem ser utilizados - Quando trabalhamos com variáveis qualitativas, calcular tabelas de frequência pode ser bastante útil. - Histogramas, gráficos de barras, boxplots e gráficos de dispersão são bastante úteis no EDA. .panelset[ .panel[.panel-name[Histograma] ![](ACA228_01_files/figure-html/unnamed-chunk-9-1.png)<!-- --> ] .panel[.panel-name[Boxplot] ![](ACA228_01_files/figure-html/unnamed-chunk-10-1.png)<!-- --> ] .panel[.panel-name[Gráfico de Barras] ![](ACA228_01_files/figure-html/unnamed-chunk-11-1.png)<!-- --> ] .panel[.panel-name[Gráfico de dispersão] ![](ACA228_01_files/figure-html/unnamed-chunk-12-1.png)<!-- --> ] ] --- class: inverse, right, middle # Distribuições de probabilidade. --- # Distribuições de probabilidade .panelset[ .panel[.panel-name[Dist. Normal] ![](ACA228_01_files/figure-html/unnamed-chunk-13-1.png)<!-- --> ] .panel[.panel-name[Dist. T] ![](ACA228_01_files/figure-html/unnamed-chunk-14-1.png)<!-- --> ] .panel[.panel-name[Dist. F] ![](ACA228_01_files/figure-html/unnamed-chunk-15-1.png)<!-- --> ] ] --- # Distribuições de probabilidade .panelset[ .panel[.panel-name[Dist. Normal] ![](ACA228_01_files/figure-html/unnamed-chunk-16-1.png)<!-- --> ```r c(qnorm(0.05), qnorm(0.5), qnorm(0.975)) # R ``` ``` ## [1] -1.644854 0.000000 1.959964 ``` ] .panel[.panel-name[Dist. T com 7 g.l] ![](ACA228_01_files/figure-html/unnamed-chunk-18-1.png)<!-- --> ```r c(qt(0.05, df = 7), qt(0.5, df = 7), qt(0.975, df = 7)) # R ``` ``` ## [1] -1.894579 0.000000 2.364624 ``` ] .panel[.panel-name[Dist. F com 7 e 13 g.l] ![](ACA228_01_files/figure-html/unnamed-chunk-20-1.png)<!-- --> ```r c(qf(0.05, df1 = 7, df2 = 13), qf(0.5, df1 = 7, df2 = 13), qf(0.975, df1 = 7, df2 = 13)) # R ``` ``` ## [1] 0.2816630 0.9552032 3.4826693 ``` ] ] --- # Distribuições de probabilidade - Sejam `\(X_1, X_2, \ldots, X_n\)` v.as `\(\sim N(\mu, \sigma)\)`, então `$$\dfrac{(\bar{X}_n - \mu)}{\sigma/\sqrt{n}} \sim N(0,1)$$` -- - Quando não conhecemos `\(\sigma\)` e substituimos este valor por `\(\hat{\sigma}\)`, temos que `$$\dfrac{(\bar{X}_n - \mu)}{\hat{\sigma}/\sqrt{n}} \sim t_{n-1}$$` -- - Sejam `\(X_1 \ldots, X_{n_x} \sim N(\mu_x, \sigma_x)\)` e sejam `\(Y_1 \ldots, Y_{n_y} \sim N(\mu_y, \sigma_y)\)`. Então `$$F = \dfrac{\hat{\sigma}_x^2/\sigma_x^2}{\hat{\sigma}_y^2/\sigma_y^2} \sim F_{n_x-1,n_y-1},$$` em que `\(\hat{\sigma}_x^2\)` e `\(\hat{\sigma}_y^2\)` são a variâncias amostral de `\(X_1 \ldots, X_{n_x}\)` e `\(Y_1 \ldots, Y_{n_y}\)`, respectivamente. --- # Distribuições de probabilidade ### Teorema Central do Limite (TCL) Sejam `\(X_1, X_2, \ldots, X_n\)` (para `\(n\)` grande) v.as **independentes** e **identicamente distribuidas** com `\(E(X_1) = \mu\)` e `\(V(X_1) = \sigma^2 < \infty\)`. Então, `$$\dfrac{(\bar{X}_n - \mu)}{\sigma/\sqrt{n}} \sim_{aprox} N(0,1)$$` --- class: inverse, right, middle # Testes de hipóteses: --- # Testes de hipóteses > Estamos interessados em verificar se, com base nos dados da nossa amostra, podemos **rejeitar ou não rejeitar** um determinada afirmação **(hipótese)** sobre um estado da natureza (parâmetro de interesse). -- #### Para fazer um teste de hipótese precisamos: -- 1. Definir um nível de significância `\(\alpha\)` 2. Construir a estatística de teste 3. Comparar o valor da estatística de teste o quantil teórico da distribuição (sob `\(H_0\)`) 4. Tomar uma decisão em função da comparação feita anteriormente --- ## Teste para a média populacional. Sejam as hipóteses `$$H_0: \mu = \mu_0 \quad vs. H_1: \mu \neq \mu_0$$` Nossa estatística de teste é da forma `$$t = \dfrac{\bar{x} - \mu_0}{\hat{\sigma}/\sqrt{n}} \sim t_{n-1}$$` Assim, para um nível de significância `\(\alpha\)`, rejeitamos `\(H_0\)` se `$$\Big| t = \dfrac{\bar{x} - \mu_0}{\hat{\sigma}/ \sqrt{n}}\Big | > t_{1 - \alpha/2,n-1}$$` -- > Podemos também fazer testes unilaterais --- ## Teste para a média populacional. **Ejemplo**: Sejam as hipótestes `$$H_0: \mu = 4 \quad vs. \quad H_1: \mu \neq 4, \quad \text{ em que} \mu \text{ é a média do customer_rate}$$` ```r alpha = 0.05 t.test(salespeople$customer_rate, mu = 4, alternative = "two.sided", conf.level = 1-alpha) ``` ``` ## ## One Sample t-test ## ## data: salespeople$customer_rate ## t = -8.2232, df = 349, p-value = 3.955e-15 ## alternative hypothesis: true mean is not equal to 4 ## 95 percent confidence interval: ## 3.514101 3.701670 ## sample estimates: ## mean of x ## 3.607886 ``` ```r qt(1-alpha/2, 349) ``` ``` ## [1] 1.966785 ``` --- ## Teste para a média populacional. Sejam as hipóteses .pull-left[ `$$H_0: \mu \leq \mu_0 \quad vs. \quad H_1: \mu > \mu_0$$` ] .pull-right[ `$$H_0: \mu \geq \mu_0 \quad vs. \quad H_1: \mu < \mu_0$$` ] -- Nossa estatística de teste é da forma `$$t = \dfrac{\bar{x} - \mu_0}{\hat{\sigma}/\sqrt{n}} \sim t_{n-1}$$` -- Assim, para um nível de significância `\(\alpha\)`, rejeitamos `\(H_0\)` se .pull-left[ `$$t = \dfrac{\bar{x} - \mu_0}{\hat{\sigma}/ \sqrt{n}} > t_{1 - \alpha,n-1}$$` ] .pull-right[ `$$t = \dfrac{\bar{x} - \mu_0}{\hat{\sigma}/ \sqrt{n}} < t_{\alpha,n-1}$$` ] --- ## Teste para a média populacional. **Ejemplo**: Sejam as hipótestes `$$H_0: \mu \leq 3 \quad vs. H_1: \mu > 3, \quad \text{em que } \mu \text{ é a média do customer_rate}$$` ```r alpha = 0.05 t.test(salespeople$customer_rate, mu = 3, alternative = "greater", conf.level = 0.95) ``` ``` ## ## One Sample t-test ## ## data: salespeople$customer_rate ## t = 12.748, df = 349, p-value < 2.2e-16 ## alternative hypothesis: true mean is greater than 3 ## 95 percent confidence interval: ## 3.529244 Inf ## sample estimates: ## mean of x ## 3.607886 ``` ```r qt(1-alpha, 349) ``` ``` ## [1] 1.649231 ``` --- class: inverse, right, middle # Esperança Condicional: --- ## Esperança Condicional Seja `\(X\)` e `\(Y\)` duas variáveis aleatórias com função de densidade conjunta `$$f_{X,Y}(x,y),$$` e marginais `\(f_X(x) = \displaystyle \int_{- \infty}^{\infty} f_{X,Y}(x,y)dy\)` e `\(f_Y(y) = \displaystyle \int_{- \infty}^{\infty} f_{X,Y}(x,y)dx\)`. -- A função de densidade condicional de `\(Y\)` dado `\(X=x\)` é definida como `$$f_{Y|X=x}(y|x) = \dfrac{f_{X,Y}(x,y)}{f_X(x)}$$` -- A esperança condicional de `\(Y\)` dado `\(X\)`, denotada como `\(E(Y|X)\)`, é uma função de `\(X\)`, cujo valor quando `\(X = x\)` é dado por `$$E(Y|x) ) \displaystyle \int_{- \infty}^{\infty} y f_{Y|X=x}(y|x)dy$$` ou seja `\(E(Y|x)\)` é média da distribuição condicional de `\(Y\)` dado `\(X=x\)` --- # Esperança Condicional Como `\(E(Y|X)\)` depende de `\(X\)` e `\(X\)` é uma variavel aleatória, `\(E(Y|X)\)` também é uma variável aleatória e podemos então calcular seu valor esperado. -- ### Teorema Para quaisquer variáveis aleatórias `\(X\)` e `\(Y\)`, temos que `$$E(E(Y|X)) = E(Y) \quad ou \quad E(E(X|Y)) = E(X)$$` -- ### Propriedades - `\(E(Y+Z|X) = E(Y|X) + E(Z|X)\)` - `\(E(cY|X) = cE(Y|X)\)` - `\(E(XY|X) = X E(Y|X)\)` - `\(E(g(X)Y|X) = g(X) E(Y|X)\)` --- ## Esperança Condicional Para ilustrar melhor o conceito de **esperança condicional**, veremos um exemplo simples no caso discreto. -- **Ejemplo:** Sejam `\(X\)` e `\(Y\)` duas variáveis aleatórios discretas com função de probabilidade conjunta dada da seguinte forma | | X = 0 | X = 1 | | |:------:|:-----:|:-----:|:----:| | Y = 0 | 2/20 | 6/20 | | | Y = 1 | 6/20 | 9/20 | | | | | | 1 | -- Calcule `\(E(Y)\)`, `$$E(Y) = \displaystyle \sum_y yp(y) = 0 \times 2/5 + 1 \times 3/5 = 3/5$$` -- Calcule `\(E(Y|X = 0)\)`, --- ## Esperança Condicional 1. Precisamos calcular a função de probabilidade de `\(Y|X=0\)` 2. Calcular o valor esperado `\(E(Y|X = 0)\)` -- **Calculando a função de probabilidade condicional** `$$p_{X,Y}(Y = y|X=0) = \dfrac{p_{X,Y}(y,X=0)}{p_X(X=0)}$$` -- A função de probabilidade de `\(Y|X=0\)` é dada por | | | |:----------------:|:---------------:| | Y = 0 / X = 0 | (2/20)/(8/20) = 1/4 | | Y = 1 / X = 0 | (6/29)/(8/20) = 3/4 | | | | -- `$$E(Y|X=0) = \displaystyle \sum_y y p_{Y|X=0}(y|X=0) = 0\times 1/4 + 1 \times 3/4 = 3/4$$` -- `$$E(Y|X=0) = 3/4 \neq 3/5 = E(Y)$$` --- class: inverse, center, middle # Os conceitos vistos aqui são a base para ACA228 ### Caso precisar, pode acessar à playlist de MAD211/2020.2 [Aqui](https://www.youtube.com/playlist?list=PLrqJCLOY0EkDsfP4n9UD91-Gh1cMjceRP)