Computação na “nuvem” é uma área muito animadora para quem está trabalhando com dados. Pense na possibilidade de não precisar deixar o computador ligado um tempão pra fazer aquela captura, ou de conseguir bem mais memória só para rodar aquela análise? O céu é o limite.
Existem várias opções para trabalhar com o R em uma nuvem. Neste post nós vamos focar na Amazon Web Services (AWS), um dos serviços mais populares da área. Você pode ler os guias no website do AWS, ou usar pacotes do R mesmo (do projeto cloudyR), ou usar uma Amazon Machine Image (AMI), que cria uma máquina virtual no EC2, o Amazon Elastic Compute Cloud. A terceira é uma ótima opção para R, dado que Louis Aslett tem criado uma AMI que já tem RStudio na máquina virtual.
O primeiro passo é criar conta na AWS. Se tiver conta, pode fazer o login, e depois ir para o site do Louis que tem as AMIs do Rstudio: http://www.louisaslett.com/RStudio_AMI/. No lado direito, tem uma lista de regiões e tipos de instâncias. Eu usei a de ‘US East, Virginia’; tentei a de São Paulo mas não funcionou.
Ao clicar, você vai acessar a uma serie de guias no site da AWS para iniciar a sua máquina virtual com uma lista de opções.
Nessa lista, você pode escolher o tipo de instância — pode escolher uma máquina de memória maior etc. Umas são pagas, e outras são de graça. Uma opção que é importante é a segurança (‘Security Groups’). Aqui, temos que criar um novo grupo de segurança para usar RStudio diretamente do
browser.
Você pode chamar o grupo ‘Rstudio’. Da lista drop-down, selecione ‘Create Custom TCP Rule’. Põe 22 no Port Range, ou algo que inclua 22, como 0-80. Depois pode clicar em ‘Launch’.
O AWS vai te perguntar sobre key pairs. Não é necessário para usar RStudio no AWS, então pode clicar ‘Continue without keys’. Se você quer utilizar o ssh para acessar o RStudio server depois, esta etapa vai ser necessária. Agora nós podemos ir na página das instâncias. Pode ser que demore um pouquinho para a sua instância começar, mas quando começar vai ter um circulo verde ao lado da instância e a palavra ‘running’ ao lado. Se você clica na instância, vai te mostrar as detalhes dela, onde pode achar o endereço IP para fazer login no RStudio.
Copie o ‘IPv4 Public IP’ e cole no search bar no seu browser. Vai te levar a uma página de Rstudio para fazer login: o Username é ‘rstudio’ e a senha é ‘rstudio’ também (você pode mudar depois). Vai abrir o Rstudio no seu browser, rodando dos servidores do Amazon!
No Welcome.R
, o script que vai abrir nessa página, tem umas instruções para mudar senhas e tal. O Louis também tem feito um pacote para R para cuidar dos detalhes para você e tem mais detalhes nesse script (em inglês). É simples: carrega o pacote e usar a função passwd()
, que vai te pedir para a sua senha existente (“rstudio”) e para uma nova. Daí clica no Edit
no RStudio, e Clear Console
(ou Cntrl + L
).
library('RStudioAMI')
passwd()
# Current password (rstudio if not changed yet):
Agora você está pronto para fazer análise no R na nuvem!