A Ciência de Dados é onipresente nos dias hoje. No momento em que você realiza uma compra na internet ou acessa o site de um jornal, são coletados dados que serão analisados  para entender melhor o seu comportamento. Dados são cruzados para entender o seu comportamento, de organizações e governos. Múltiplas informações são levantadas para se entender as probabilidades de um evento acontecer, de um time de futebol ganhar ou até qual filme/série você vai gostar (o pacote rpca é utilizado pela Netflix, por exemplo). Compreender como isso é feito é um verdadeiro imperativo do mercado de trabalho atual e aprender R significa dar um passo bem grande em direção ao aprendizado da ciência de dados e um dos melhores investimentos na sua carreira.

R é uma linguagem de programação desenvolvida para lidar com estatística e análise de dados, que surgiu em 1993, a partir de outra linguagem, a S. Hoje é uma das mais utilizadas, tanto cientificamente quanto analiticamente e, entre as linguagens de programação, é uma das mais que mais crescem. Conforme mostra este gráfico, entre os usuários do Stack Overflow, fórum da Internet destinado à programação, o R é que possui a maior taxa de crescimento.

Uma das vantagens do R é que ela foi criada para lidar com dados.  Depois que se domina a sintaxe, fica fácil juntar bancos, limpar colunas, resolver problemas com texto, entre várias ações que causam problemas a todo analista.  A própria estrutura funcional da linguagem permite que se execute ações que seriam difíceis em outras linguagens de programação, como o Python ou o C++.  Além disso, ao contrário das ferramentas comuns como o SAS, o SPSS e o Stata, o R tem seu código livre e é gratuito para uso.

an introduction to statistical learning Outra vantagem importante do R é que há inúmeros pacotes gratuitos com modelos estatísticos prontos para uso. Como a comunidade que desenvolve pacotes para o R é bem grande e ativa, é muito provável que um modelo recém desenvolvido aparecerá rápido entre os pacotes mantidos. Ou seja, aquele artigo super inovador que você leu e os autores desenvolveram algumas técnicas novas, provavelmente elas estarão disponíveis no R. De graça. Se você usa o R para econometria, por exemplo, há uma série de pacotes que facilitam análises de causalidade. Um outro exemplo é Machine Learning: vários algoritmos são implementados nos pacotes do R, tornando o seu uso bastante fácil, e inclusive autores importantes da área, como James, Whitten, Hastie e Tibshrani possuem um livro, tendo a linguagem como foco.

O R fornece soluções para diversas campos diferentes. Mesmo para Visualização de Dados, é possível contar com pacotes que implementam visualização dinâmica em javascript, como o rdimple e o leaflet. Para Visualização estática, há o ggplot2, criado por Hadley Wickham, que permite que se criem gráficos bonitos de maneira simples, como este aqui.
grafico R - ggplot2
Falar em Hadley Wickham, além disso, é contar mais um pouco da história do R. É impossível usar a linguagem hoje sem utilizar algum dos pacotes criado por ele. Ele criou pacotes para tornar mais fácil operar com dados (dplyr), para limpeza de bancos (tidyr), para visualização (ggplot2 – mencionado cima), para automatizar coleta de dados na internet (rvest), entre muitos outros. Não é sem motivo que seus pacotes em conjunto são chamados de “Hadleyverse”.

A maior vantagem do R, no meu ver, é que ele é bastante fácil de se aprender. Não é preciso ir além do básico de programação para conseguir resultados poderosos. Isso permite que qualquer usuário do Excel consiga fazer operações no R de maneira fácil. Uma linguagem como o Python, embora também seja eficiente, exige uma curva de aprendizagem bem maior, especialmente porque fica difícil escapar de conceitos como programação orientada à objetos.

E por onde começar?

Existem vários cursos gratuitos de R e inclusive o meu colega Prof. Carlos Cinelli está escrevendo um livro aberto e gratuito para aprender R em seu blog. Mas nós sabemos que o primeiro passo muitas vezes é o mais complicado – muitas vezes falta disciplina e motivação para seguir sozinho. Aqui nós ajudaremos você a dar os passos iniciais pessoalmente.

No IBPAD nós oferecemos o curso de Ciência de Dados com R e eu sou um dos responsáveis pelo curso online. Nossa equipe de professores irá ensiná-lo a programar em R, ou seja, queremos ser iniciadores nesse longo e prazeroso processo de aprendizado de análise de dados. Dentro dos valores do IBPAD, queremos torná-lo autônomo para os seus próximos passos.
Em suma, o R é o melhor caminho para se inserir de vez na Ciência de Dados. Com ele, é possível executar várias funções estatísticas, de maneira fácil, o que significa um alto benefício com um baixo custo de aprendizagem. Se alguém está interessado em tirar o máximo dos Dados, não há dúvidas: aprenda R.

Quer aprender a programar com linguagem R?

A linguagem em R é um ambiente de programação com bastante destaque na Ciência de Dados. O curso Ciência de Dados com R contará com mais de 10 aulas práticas, ao vivo para interação com os professores e execução das atividades no StudioR. 

Inscreva-se agora e confira todos os detalhes!