Minhas impressões do livro R for data science: import, tidy, transform, visualize, and model data do Hadley Wickham e Garrett Grolemund.
Quem me conhece um pouco, sabe que eu não sou um grande fã de livros do tipo Hands-On blah blah, mas recentemente, buscando ajudar aos meus alunos na sua caminhada acadêmica, resolvi incluir alguns deles na minha lista de leitura. Espero que estes comentários sejam de ajuda, principalmente, para meus (ex-/atuais/futuros) alunos.
R tem evoluído bastante desde que foi oficialmente lançado em 2001 e o livro R for data science: import, tidy, transform, visualize, and model data (Wickham and Grolemund 2016) faz um bom papel apresentando uma introdução ao R e à filosofia tidyverse
1 de forma clara e direta. O pacote (ou, na verdade o conjunto de pacotes) tidyverse
é sem dúvida a tendência hoje em dia, e qualquer pessoa que trabalha com dados o utilizará com frequência.
Sugiro que à medida que você for lendo o livro implemente os códigos que forem aparecendo, dessa forma você poderá ir mexendo gradualmente no código para ver o que acontece se… o que lhe ajudara no processo de aprendizagem.
Um dos capítulos que mais gostei foi o capítulo 3, que apresenta de forma bem leve uma introdução ao pacote ggplot2
para visualização de dados. Um bom complemento para esse capítulo aparece quase no final do livro, no capítulo 28, onde se apresentam alguns detalhes sobre títulos, captions e nomes nos eixos. Se você tiver interesse em se aprofundar no ggplot2
, a melhor fonte é o livro ggplot2: Elegant Graphics for Data Analysis (Hadley 2016) que está disponível online e de graça aqui.
Os capítulos 9 – 16 apresentam bastante material sobre manipulação de dados, super útil para construir nossa ABT2. Contudo, creio que quem não está muito acostumado com o R ou com manipulação de dados pode ter uma overdose de informação. Não se preocupe tanto por entender tudo que está no livro, mas por entender o que pode ser feito com o R e com os pacotes dplyr
,readr
, lubridate
, etc, incluidos no tidyverse
. Existem diversos Cheatsheets que ajudam a lembrar como cada umas das funções discutidos nos capítos 9–16 funcionam, salve eles no computador e tenha-os sempre por perto.
Outro capítulo que achei muito interessante é o capítulo 25 (mas para quem está iniciando eu recomendaria pular esse capitulo e voltar nele quando for um usuário de R mais frequente), ele apresenta informação valiosa para quem tem interesse em comparar vários modelos e colocar modelos em produção.
Embora eu tenha desfrutado bastante meu tempo lendo o livro, achei os capítulos 22–24 meio confussos, principalmente para quem está iniciando. Quando se trata de modelagem , eu prefiro uma abordagem mais clássica onde se explica como o modelo é construido e quais são os princípios por tras dele, mas entendo que isso está completamente fora do escopo do livro.
Para quem está começando, eu leria o capítulo 21 apenas até a seção 21.3. As seções 21.4 – 21.9 são importantes, mas eu deixaria elas para uma segunda leitura ou para quando estiver mais familiarizado com o R e com programação.
Hadley, Wickham. 2016. ggplot2: Elegrant Graphics for Data Analysis. Springer.
Wickham, Hadley, and Garrett Grolemund. 2016. R for Data Science: Import, Tidy, Transform, Visualize, and Model Data. " O’Reilly Media, Inc.".
Conjunto de pacotes que seguem a mesma filosofia tidy, para mais detalhes veja tidyverse.org↩︎
ABT: Analytical Base Table↩︎
For attribution, please cite this work as
Trucíos (2021, March 14). Statistical Data Science: Book Review: R for Data Science. Retrieved from https://ctruciosm.github.io/statblog/posts/2021-03-14-book-review-r-for-data-science/
BibTeX citation
@misc{trucíos2021book, author = {Trucíos, Carlos}, title = {Statistical Data Science: Book Review: R for Data Science}, url = {https://ctruciosm.github.io/statblog/posts/2021-03-14-book-review-r-for-data-science/}, year = {2021} }