A pesquisa com dados de mídias sociais sempre teve o Twitter como um forte aliado. Enquanto plataformas como Facebook e Instagram dificultavam cada vez mais o acesso aos dados devido aos escândalos e problemas sérios de privacidade, o passarinho azul manteve suas portas minimamente abertas para pesquisadores interessados em explorar fenômenos sociais (em suas imbricações online-offline) através de suas APIs. Mas, antes de falarmos sobre isso, precisamos perguntar: você sabe o que é uma API?

No capítulo “Abordagens da coleta de dados de mídias sociais” do nosso livro “Monitoramento e Pesquisa em Mídias Sociais: Metodologias, Aplicações e Inovações”, Marcelo Alves explica que APIs “são séries de comandos que permitem a usuários e aplicativos se comunicarem com os sites e requisitarem dados hospedados em seus servidores”. Em outras palavras, são conectores – a metáfora de uma entrada USB pode ajudar a entender melhor – que fazem o intermédio entre os dados disponibilizados pelas plataformas (Facebook, Instagram, YouTube, Twitter, etc.) e uma interface de requisição desses mesmos dados – que podem ser aplicativos acadêmicos, ferramentas de monitoramento de mídias sociais ou até mesmo scripts em R/Python.

livro 2

Com o fechamento e as restrições impostas pelas APIs, principalmente do Facebook e do Instagram alguns anos atrás, como detalhamos na nossa publicação “Histórico das APIs no Monitoramento e Pesquisa em Mídias Sociais”, uma alternativa trabalhada por pesquisadores tem sido realizar a chamada raspagem de dados web (web scraping). No capítulo, Alves discute os pontos positivos e negativos dessas duas opções, apontando tanto as questões técnicas e operacionais quanto as de ordem política e social envolvidas. Esse debate também ganha força na nossa última publicação supracitada, com alguns pesquisadores de ponta no campo dos métodos digitais questionando a era de pesquisa “pós-APIs”.

Ao construir as infraestruturas necessárias para apoiar e rastrear a crescente quantidade de interações online e ao tornar os registros resultantes disponíveis através das APIs, as plataformas reduziram significativamente os custos dos dados de mídias sociais. A facilidade da pesquisa com APIs veio com o preço de aceitar a padronização particular operada pelas plataformas de mídias sociais e o enviesamento que vem junto. […] Num frenesi consumista, nós estocamos dados como commodities produzidas em massa. A pesquisa com APIs é culpada (pelo menos em parte) por espalhar o hype dos dados de mídias sociais, reduzindo a diversidade de métodos digitais ao estudo de plataformas online, e por espalhar as ideias pré-concebidas de que o Facebook, o Google, o Twitter e seus semelhantes são os mestres do debate online, e não há alternativas a não ser viver sob as migalhas de suas APIs.

– Tommaso Venturini & Richard Rogers (2019), “Pesquisa com APIs pós-Cambridge Analytica”

O passado e o futuro das novas APIs do Twitter

Ainda assim, diante de todo esse cenário conturbado, o Twitter sempre manteve uma postura razoavelmente favorável à requisição de dados via API. Desenvolveu, ao longo dos anos, diferentes “opções” de APIs para atender principalmente a demanda do mercado: enquanto, de um lado, a versão gratuita sempre foi de fácil acesso (com limite de 7 dias retroativo e requisição a cada 15 minutos), na outra ponta, a já denominada “Firehose” (ou Enterprise) custava um preço muito alto para empresas interessados no acesso ilimitado às publicações da plataforma (com retroativo até 2006, quando foi fundado); para preencher essa lacuna (com possibilidades retroativa de até um mês e maior volume de dados na requisição), a empresa lançou as Premium APIs.

TwitterPremiumAPIs

Desde o ano passado, consciente do impacto que causou na sociedade – cultural e metodológico –, a plataforma tem anunciado algumas iniciativas e medidas para facilitar a pesquisa com seus dados. E, finalmente, no início deste ano, provavelmente uma das maiores novidades para pesquisadores acadêmicos finalmente foi revelada: a introdução de uma nova API, totalmente reformulada, e novos protocolos de acesso aos dados. Entre algumas novidades, destacam-se o aumento no número de tweets possíveis de serem coletados, a ampliação dos níveis de acesso, e a possibilidade de buscar conversas mais antigas na rede.

As novas mudanças foram anunciadas no blog da empresa voltado a desenvolvedores. Segundo a própria publicação, a comunidade de pesquisadores é uma das que mais utiliza as APIs da plataforma. O trabalho desses profissionais em múltiplas áreas do conhecimento ajudam na descoberta de inovações e a tornar a rede melhor e saudável. A nova geração da API do Twitter acompanha outros movimentos da empresa desde 2020, quando anunciou em agosto a próxima geração da API (v. 2) para desenvolvedores e uma versão antecipada de testes, porém na época sem muitos detalhes sobre quais seriam as novidades para acadêmicos.

O que muda com a nova API

“Desde que a API do Twitter foi apresentada pela primeira vez em 2006, pesquisadores acadêmicos têm utilizado dados públicos para estudar tópicos tão diversos quanto a conversa no próprio Twitter. […] Nossa plataforma para desenvolvedores nem sempre teve um fácil acesso para os pesquisadores aos dados de que precisam, e muitos tiveram que confiar em sua desenvoltura para encontrar as informações certas. Mesmo assim, por mais de uma década, pesquisadores acadêmicos têm usado os dados do Twitter em descobertas e inovações que ajudam a tornar o mundo um lugar melhor.”

Anúncio do Twitter no blog oficial

Desde 2006, quando a API do Twitter foi anunciada, a empresa informa que os tópicos levantados pelos usuários no site despertam a curiosidade de pesquisadores de todo o mundo. As mudanças dessa nova versão incluem um aumento considerável no número de mensagens e buscas que possibilitam maior profundidade nos dados, inclusive mais antigos e antes inacessíveis por conta de políticas da empresa.

Elencamos a seguir as principais mudanças na plataforma com a introdução da versão da API:

  • Agora é possível coletar até 10 milhões de tweets mensalmente, um volume 20 vezes maior do que o anterior
  • Os históricos de conversas mais antigas agora podem ser acessados por acadêmicos que tiveram acesso, algo que era restrito a pessoas ou organizações com contas premium e empresariais
  • Mais filtros disponíveis: nesta versão, é possível refinar a busca e queries para evitar que dados ‘sujos’ estejam no banco de dados

Apesar dos primeiros números impressionarem, ainda podem ser um pouco limitadores em algumas pesquisas, sobretudo quando o assunto envolve temas com grande produção e circulação de mensagens, como programas de reality show ou até mesmo eleições. Para Felipe Soares, pesquisador do Laboratório de Pesquisa em Mídia, Discurso e Análise de Redes Sociais (MIDIARS), apesar de reconhecer a vantagem em relação às ferramentas populares como Netlytic e NodeXL, em termos práticos não surte tanto efeito: “em uma pesquisa que publicamos ano passado, por exemplo, fizemos a análise de 5 milhões de tweets que foram publicados apenas na semana anterior ao segundo turno das eleições de 2018 – os dados foram coletados via Social Feed Manager. Então o teto de 10 milhões de tweets que parece um volume amplo acaba limitado a depender do evento que é analisado”.

Porém, o aumento substancial do volume de tweets na coleta, bem como a possibilidade de buscar mensagens mais antigas no tempo, ainda são consideradas melhorias importantes para a comunidade acadêmica. Segundo Marcelo Alves, pesquisador de mídias sociais da UFF, as novas mudanças evitam que longos períodos de tempo e extrações manuais sejam necessários para aproveitar dados significativos para a pesquisa, prática que pode prejudicar, inclusive, a qualidade da amostra. “Agora, temos acesso ao acervo histórico, podendo reconstituir os dados de momentos importantes, como Junho de 2013 ou o Mensalão em 2012. Antes, só poderíamos fazer isso por meio de técnicas de raspagem que, invariavelmente, teriam problemas adicionais de amostragem”, afirma.

Acesso e governança de dados

Apesar das novidades serem animadoras, elas não estarão disponíveis para todas as pessoas que realizam pesquisas com os dados da rede. Isso se deve ao fato de que, para acessar a nova API, os acadêmicos precisam informar seu vínculo institucional com alguma universidade, instituto ou centro de pesquisa. De antemão, isso afeta diretamente pesquisadores autônomos ou independentes, bem como ONGs e jornalistas de dados, das novas possibilidades que a API possui. Pessoas que se enquadram nesse perfil precisam solicitar acesso por outra via, a partir da aba de pesquisadores não institucionalizados.

Além disso, a empresa exige que os interessados na nova API enviem alguns dados sobre o projeto de pesquisa, como objetivos, questões da pesquisa e os métodos bem delimitados, em um formulário disponibilizado em uma página. Ainda não se sabe como a avaliação dos projetos é feita, bem como os critérios adotados para permitir o acesso. No entanto, o processo é considerado pouco burocrático e rápido, o que acompanha os movimentos recentes da plataforma em tornar mais fácil o acesso aos dados gerados pelos usuários, como afirma Alves. Segundo ele, um dos pesquisadores que obteve acesso recente à novidade, a autorização para a coleta de sua pesquisa foi dada em um intervalo de 48 horas, algo considerado positivo se comparado a outras plataformas, como o Facebook. Para ele, basta ao pesquisador ou pesquisadora solicitante deixar claro suas intenções com os dados e se comprometer com as políticas éticas e de privacidade do Twitter.

academic1.jpg.img .fullhd.medium

Vale ressaltar, contudo, que a barreira técnica ainda continuará existindo, visto que o acesso aos dados da plataforma pela API é feito, segundo Marcelo Alves, via linguagens de programação R ou Python, onde as chaves de acesso concedidas aos pesquisadores são utilizadas. Isso exige das equipes cada vez mais capacitação ou formação técnica nessa área. Soares também acredita que a barreira técnica que existe hoje tende a permanecer mesmo com as novidades. Porém, segundo ele, há alternativas que podem surgir para ampliar o acesso mediante softwares de extração a serem lançados ou atualizados no futuro.
A abertura do Twitter nos últimos anos, em comparação com outras redes, gerou um significativo volume de pesquisas sobre conversações na rede social. De um lado, a maior abertura revela um avanço na governança de dados, algo que ficou evidente com a pandemia, que para Alves apresentou um “severo componente de desinformação espalhada por essas plataformas, o que é um risco ao próprio modelo de negócio [delas]”. Janna Joceli Omena, pesquisadora do iNOVA Media Lab na Universidade Nova de Lisboa, ao tocar nessa questão, aponta que existe hoje um contexto exigente quanto ao uso dos dados e à política adotada para a gestão deles. Manifestações ou movimentos de pressão sobre as plataformas, inclusive pela sociedade civil, têm ganhado mais relevância. “No contexto da pesquisa acadêmica, podemos enxergar a decisão do Twitter como uma adaptação às novas culturas de uso das plataformas digitais, à lógica da plataformização e, principalmente, aos efeitos do escândalo Cambridge Analytica e do estado pandêmico que vivemos”, afirma ela.

Pela não centralidade dos dados na pesquisa

O incremento de possibilidades de extração de dados no Twitter, apesar de ser uma novidade animadora, não deve ocupar uma centralidade na pesquisa a ponto de deixar de lado outras questões importantes, como ressalta Omena. A ideia de que “quantos mais dados, melhor”, para ela, deve ser evitada e dar lugar a uma prática de observação sobre e com o Twitter, um questionamento sobre o porquê de usar a rede e analisar de que modo as pessoas utilizam a plataforma. “É importante que as(os) pesquisadoras(es) criem e cultivem uma sensibilidade para o encontro da observabilidade das plataformas. Quais os usos? Quais são as gramáticas tecnológicas e como são entrelaçadas, combinadas e fundidas?”, ressalta.

Buscar não olhar apenas os dados significa também se atentar aos aspectos éticos que pesquisas envolvendo análise de redes possuem. Segundo Marcelo Alves, a presença ainda pequena de grupos de pesquisas dedicados a essa temática de modo interdisciplinar deixa isso ainda mais evidente, o que faz da barreira técnica um problema também de ordem metodológica, teórica e ética. Felipe Soares afirma que é preciso não supervalorizar os dados, de modo que estes sejam coletados apenas quando há critérios, perguntas e propósitos bem delimitados: “Como qualquer pesquisa, é importante ter objetivos bem estabelecidos e se apropriar destes dados para responder uma pergunta de pesquisa relevante, independentemente do método ou da quantidade de dados”.
Em termos de operacionalização, cabe ao pesquisador ou pesquisadora ainda mais cuidado no tratamento dos dados. Como salienta Soares, pelo fato dos dados do Twitter serem disponibilizados de forma não anonimizada, ou seja, com a identificação do usuário que produziu um tweet, é preciso considerar os aspectos éticos e de privacidade, principalmente na hora da publicação e divulgação dos resultados. Algumas iniciativas sobre esse assunto têm ganhado mais visibilidade, como o da Association of Internet Researchers (AoIR), que já produziu alguns relatórios relevantes sobre.

Algumas problemáticas e próximos passos

Outro problema que poderá afetar muitos mestrandos, doutorandos e professores pesquisadores é que a nova API não permitirá que tweets de contas deletadas ou suspensas possam ser coletados. A medida implica em problemas para estudiosos e estudiosas que se dedicam a entender como os discursos de ódio ou a desinformação circulam na rede, por exemplo. Esse pequeno detalhe mostra que, apesar dos esforços da empresa em demonstrar preocupação com esses temas, ainda não demonstrou estar totalmente aberta a abrir por completo todos os dados mesmo para pesquisadores.
Soares afirma que essa limitação da plataforma pode ocasionar em “buracos” na coleta de dados sobre temas sensíveis e atuais, como o Brexit, eleições polarizadas no mundo e mensagens tóxicas: “em [uma] pesquisa realizada no ano passado sobre as eleições canadenses de 2019, descobrimos que quase 85% das mensagens que identificamos como tóxicas (que incluíam insultos, discurso de ódio, diversas formas de preconceito, etc) ainda estavam disponíveis no Twitter. Quando não temos acesso ao conteúdo deletado, é impossível fazer esse tipo de comparação”, finaliza.
Com isso, tweets de pessoas ou personalidades que tiveram as suas contas deletadas por ferirem os Termos de Serviço do Twitter não serão incluídos. Logo após o anúncio, alguns usuários já comentavam sobre como a rede possui uma grande participação na produção e circulação de grandes volumes de discursos racistas, desinformação e ódio.