As ferramentas de monitoramento e pesquisa em mídias sociais desenvolvidas por universidades e grupos de pesquisa frequentemente superam em diversos aspectos, sobretudo inovação, as ferramentas comerciais. Além disso, costumam ser de baixo custo quando comparadas às ferramentas comerciais de monitoramento pleno.
Um exemplar é a Netlytic, uma das mais interessantes soluções para pesquisadores acadêmicos interessados em mídias sociais, assim como uma excelente ferramenta de apoio para projetos comerciais. A Netlytic foi desenvolvida por Anatoliy Gruzd, professor da Ryerson University (Canadá) e diretor do Social Media Lab, além de co-editor da excelente revista Big Data and Society.
Planos
A primeira vantagem da Netlytic são seus planos incrivelmente baratos. A tabela abaixo descreve os três planos (“Tiers”) disponíveis. O primeiro permite até 3 datasets de 2500 registros/ocorrências cada. É gratuito, assim como o segundo plano, que permite até 5 datasets de 10 mil registros/ocorrências. Este volume, por exemplo, já é bem superior ao volume médio de unidades de conteúdo analisadas em artigos publicados no Intercom, 1.291 (SILVA, 2014). A realidade de abrangência de coleta está mudando, mas não deixa de ser um número relevante que atende a maior parte das necessidades de coleta de dados empíricos nas mídias sociais.
A surpresa, entretanto, fica no Tier 3. Ao permitir 300 datasets com 100.000 ocorrências cada, significa um volume de até 30 milhões de unidades de conteúdo por ano. O plano anual custa 108 (Estudante), 228 (Pesquisador/Não-Lucrativo) ou 348 (Comercial) dólares canadenses. Isto converte para 209, 614 ou 937 reais. O valor por ano, então, é irrisório para agências e projetos comerciais e justo para pesquisadores acadêmicos.
Plataformas e Fontes de Busca
A Netlytic permite coletar dados a partir de seis tipos de fontes diferentes: Twitter, Facebook, YouTube, Instagram, Feeds e Google Drive.
Twitter | A busca no Twitter solicita uma simples autenticação com algum perfil e coleta em cada requisição até 1 mil tweets. É possível configurar a ferramenta para fazer requisições a cada 15 minutos. Todos parâmetros e operadores de busca que funcionam no Twitter podem ser inseridos aqui, como OR, AND e from:username, por exemplo.
Facebook | Coleta a cada hora até 25 comentários nos últimos 100 posts em páginas, grupos ou eventos, com requisições de hora em hora. Respostas a comentários não são coletadas.
Instagram | Atualmente com API mais aberta, é possível coletar até 10 mil fotos/vídeos a cada hora.
YouTube | No YouTube, a ferramenta faz uma coleta única de todos os comentários de um vídeo específico.
RSS | Coleta diária de conteúdo de RSS.
Arquivo de Text / Google Drive | Permite a importação de arquivos .csv construídos a partir de bases de emails, com colunas de emissor, destinatário, assunto, data e mensagem.
Criando Buscas e Dataset
A criação de novas buscas é muito simples. Na página “New Dataset”, o menu abaixo será exibido, onde é possível escolher a fonte desejada e preencher o nome do Dataset e adicionar os parâmetros adequados de busca, como keywords, hashtags, latitude/longitude, ID ou vanity URL.
No caso do Twitter, por exemplo, basta escolher um título (apenas para identificação); adicionar keywords de busca; e escolher se a busca deve ficar ativa e por quantos dias. No exemplo abaixo, a busca inclui uma palavra, uma hashtag e dois termos de exclusão:
Analisando os Dados: Preview e Exportação de CSV
Ao se criar o Dataset, a depender da mídia já ocorrerão resultados imediatos ou em até 15 minutos. Um exemplo desta página de “Preview” pode ser vista abaixo:
A página mostra os últimos 1000 resultados. É nela que é possível limpar o texto (Clean Text), removendo palavras específicas da base de dados, além de realizar a exportação de tudo o que foi coletado em formato .csv. Deste modo, o pesquisador pode fazer sua codificação e análise em softwares externos como Excel, R, Iramuteq, AntCont, Voyant Tools etc…
Cada tipo de mídia traz um CSV com colunas diferentes. No caso do Twitter traz uma miríade de informações: id, link, autor, imagem do perfil, conteúdo do tweet, aplicativo de publicação, número de tweets, número de seguidos, número de seguidores, data de criação do perfil, bio, localização, coordenadas.
Analisando os Dados: Text Analysis
Depois de coletados os dados, a página Text Analysis traz duas opções: Keyword Extractor e Manual Categories. A primeira é bastante intuitiva para qualquer pessoa que já tenha utilizado uma ferramenta de monitoramento de mídias sociais. A primeira função dela é a simples contagem de palavras mais frequentes (Words Cloud):
A segunda função mede a evolução de frequência de palavras ao longo do tempo (Words Over Time), permitindo identificar relevância de tópicos e visualizar as keywords em contexto:
O recurso de Manual Categories realiza a classificação automatizada a partir de regras baseadas em keywords inseridas pelo pesquisador ou a partir de categorias padronizadas de menções a Appearance, Feelings (Bad), Feelings (Good), Quantity, Shape, Size, Sound, Taste, Time e Touch.
A imagem ao lado apresenta um excerto das palavras relacionadas a Feelings (Good), por exemplo.
Analisando os Dados: Network Analysis
Talvez o módulo de análise de redes da Netlytic seja seu melhor recurso. A partir das conexões entre os perfis monitorados, é possível gerar visualização de redes própria da ferramenta. Além de métricas simples como Grau, Grau de Entrada e Saída, a ferramenta traz três algoritmos de visualização: o Fruchterman-Reingold, que usuários de NodeXL ou Gephi devem conhecer, e dois algoritmos próprios: DrL Layout e LGL Layout. O DrL oculta arestas longas, permitindo evidenciar melhor os clusters. O segundo mostra apenas o maior componente conectado. As imagens abaixo comparam visualizações a partir dos mesmos dados:
Veja o básico sobre análise de redes em documento do NetSciEd (2015).
Relatório
Por fim, a Netlytic oferece um relatório compilando os principais dados levantados. É composto de 8 áreas: Dataset Stats, Geotagged Posts, Source Data: Top Ten Posters, Source Data: # of Posts over Time, Top 10 Most Frequently Used Words, Text Analysis: Manual Categories, Network: Top 10 Posters Mentioned in Messages e Save Network Images.
Os primeiros dois itens são detalhes sobre o Dataset e o mapa de menções. A utilidade deste gráfico variará muito a depender da plataforma. Como é baseado nas coordenadas exatas, são pouquíssimos dados no Twitter, pois os usuários quase não usam o recurso. No Instagram o número é um pouco maior, mas ainda assim baixo. Na tela a seguir, apenas 2% das fotos sobre #transicaocapilar possuem localização exata:
Os dados de principais emissores e volume de posts ao longo do tempo, por outro lado, são exatos e já podem trazer informações acionáveis:
As palavras mais frequentes e categorias manuais são os gráficos seguintes. No exemplo abaixo, análise sobre os últimos mil tweets contendo a palavra “Brazil” em inglês:
Por fim, as duas últimas áreas do relatório estão ligadas ao módulo de network analysis. Para que sejam exibidas, é necessário que antes o usuário tenha gerado uma rede e salvo imagem de visualização.
Aplicações
As aplicações do Netlytic são inúmeras para quem trabalha comercialmente na área. Variados tipos de análise e relatórios podem ser realizados a partir do monitoramento contínuo de temas no Twitter, estudos extrativos sobre comportamento internacional em canais do YouTube ou Grupos do Facebook, insights sobre uso geolocalizado de mídias etc são apenas alguns exemplos. É importante lembrar das limitações da ferramenta, entretanto. A Netlytic não inclui recursos de classificação manual, filtragem de dados, visualização de informações por usuário, interface amigável e inúmeras outras funções comuns nas ferramentas comerciais. No IBPAD a utilizamos como ferramenta de apoio, enquanto os projetos comerciais sãoo monitorados em ferramentas plenas de monitoramento como Stilingue, Vtracker e BrandCare.
Para pesquisadores acadêmicos, estudantes de graduação, mestrado e doutorado estudando mídias sociais, a Netlytic pode ser ainda mais útil. Ao permitir coleta facilitada de dados, a ferramenta expande os recursos disponíveis aos pesquisadores, que frequentemente são privados de recursos para executar suas pesquisas. Trabalhos com a Netlytic incluem estudos sobre busca de informação sobre lazer (ALYAMI & TOZE, 2014), comunidade de fãs (MARTIN, GRUZD e HOWARD, 2013), ativismo contra violência contra mulheres indígenas (FELT, 2016), discurso sobre organismos geneticamente modificados (MUNRO, HARTT & POHLKAMP, 2015), entre outros.
Referências
ALYAMI, Eman; TOZE, Sandra. ??? Where to go on the weekend???? Trends for local information seeking in leisure settings using social media. In:Information Society (i-Society), 2014 International Conference on. IEEE, 2014. p. 169-172.
DUBOIS, Elizabeth. Trace Interviews Step-By-Step. Ethnography Matters, 2016.
GRUZD, A. & HAYTHORNTHWAITE, C. ; Enabling community through social media. Journal of Medical Internet Research 15(10):e248, 2013.
FELT, Mylynn. Social media and the social sciences: How researchers employ Big Data analytics. Big Data & Society, v. 3, n. 1, 2016.
MARTIN, Jennifer; GRUZD, Anatoliy; HOWARD, Vivian. Navigating an imagined Middle–earth: Finding and analyzing text–based and film–based mental images of Middle–earth through TheOneRing.net online fan community. First Monday, vol. 18, n.5-6, maio de 2013.
MUNRO, Katherine; HARTT, Christopher M.; POHLKAMP, Gretchen. Social Media Discourse and Genetically Modified Organisms. The Journal of Social Media in Society, v. 4, n. 1, 2015.
NETSCIED. Network Literacy: Essential Concepts and Core Ideas. 2015. Trad. por Tarcízio Silva: Iniciação a Redes – Conceitos Essenciais e Principais Ideias, 2015.
SILVA, Tarcízio. Pesquisa baseada em Dados Sociais Digitais: mapeamento de ferramentas e táticas de coleta de dados no Intercom. Razón y Palabra, n.90, 2015.