Comemorando os 15 anos da plataforma, o Rio de Janeiro recebeu o I Congresso Científico Brasileiro da Wikipédia nos dias 13 e 14 de outubro de 2016, realizado na UNIRIO. Com keynotes internacionais e abordando aspectos importantes da enciclopédia virtual como cultura colaborativa, estruturação de dados e legitimidade científica/acadêmica, o evento reuniu diversos profissionais, acadêmicos, entusiastas e pesquisadores independentes que apresentaram reflexões e discussões sobre uma das maiores ferramentas de conhecimento da sociedade atual.
Quem abriu o primeiro dia de congresso foi Daniel Kinzler, software developer na Wikimedia Germany, com a keynote intitulada “Enabling Knowledge Diversity”, no qual apresentou um pouco do histórico, premissas e contexto do Wikidata. Este projeto nasceu após várias tentativas de tornar a Wikipédia uma plataforma mais interconectada, trabalhando também para atrelar diferentes databases semânticas. Ratificou que todo conhecimento tem que vir e ser útil a pessoas, caso contrário, não é conhecimento, é apenas data. O projeto surgiu para superar esses desafios e oferecer os dados estruturados para que os usuários não apenas o tenham como suporte para a Wikipédia, mas também como ferramenta inteligente que faça “simples” análises de dados. Para explicar melhor o objetivo do projeto, Kinzler exemplificou que, no Google, você procura por textos; no Wikidata, você usa ferramentas de busca para então fazê-los mais inteligentes. Em outras palavras, o Google te apresenta textos, o Wikidata te oferece dados já processados pelo computador.
A primeira mesa de debate focou, de certa forma, na Wikipédia como instrumento de pesquisa, com papers sobre citações para trabalhos acadêmicos e seu uso por estudantes do Ensino Fundamental. A apresentação de Bernardo Esteves, “Revisitando artigos sobre aquecimento global na Wikipédia em português” chamou a atenção por ter agido em cima de rastros sociais digitais para identificar mudanças quanti e qualitativa de artigos da plataforma. Ele explorou as nuances que estes apresentavam, questionando, por exemplo, em que medida, na Wikipédia, os céticos do clima (aqueles desacreditados no aquecimento global, por justificativas religiosas ou políticas) participam. Chegou à conclusão que, quanto mais centrais, mais alinhados aos cientistas eram os artigos – enquanto os marginais apresentavam linhas de pensamentos mais independentes. As demais apresentações foram sobre a ferramenta como fonte de pesquisa e seus embates éticos.
À tarde, o primeiro dia contou com um workshop sobre a Wikidata no comando de Kinzler. Sem nenhuma apresentação proposta, ele permitiu que a atividade funcionasse mais como um Q&A, o que nos proporcionou um diálogo mais horizontal e confortável para que pudéssemos abordar curiosidades sobre o projeto. Ele foi enfático em explicar, a priori, que a proposta da Wikidata é reunir de forma estruturada os dados (todos os municípios brasileiros, por exemplo) para que eles possam ser cruzados facilmente por usuários e que, assim, sirva de apoio à produção de conteúdo global da Wikipédia. Nesse sentido, é mais preocupado com deep knowledge: como sabemos? De onde sabemos? Quais são as opiniões? Como elas mudam com o tempo? Em outras palavras, trata-se de uma plataforma para enriquecer sua análise de contexto. Com os dados estruturados, a proposta é usá-los para gerar conhecimento. É onde entra o Wikidata Query Service, que fornece, num ambiente user-friendly, um código completamente customizável para que o usuário consiga elaborar uma pergunta e obter sua resposta com os dados fornecidos pelo Wikidata.
A teaser by @smalyshev on how to create autorefreshing embeddable graphs from @wikidata will blow your mind #dataviz pic.twitter.com/nF4rKKqchP
— Dario Taraborelli (@ReaderMeter) September 16, 2016
O segundo dia do Congresso foi iniciado com a ótima palestra de Dario Taraborelli, pesquisador de aspectos sociais e comportamentos da produção compartilhada, além de defensor de dados/acesso/projetos de sistemas abertos – também líder do altmetrics. Com a keynote “Open, collaborative, reproducible, research to support free knowledge”, ele apresentou, num primeiro momento, a contextualização e história por trás dos projetos de pesquisa na Wikimedia Foundation. Com os dados sempre abertos, era necessário formar um time para estruturar o trabalho: foi quando surgiu a equipe Wikimedia Research, formada por engenheiros, cientistas de dados, pesquisadores e pessoas interessadas a ajudar nas temáticas de data mining, estatística, pesquisa computacional, etnografia e user design/experience. Dada essa introdução, ele partiu para apresentar alguns dos projetos e trabalhos que sua equipe tem desenvolvido atualmente, principalmente sob três frentes: o uso de inteligência artificial como serviço para ajudar a comunidade; a compreensão da “cultura de edição” e a compreensão de usuários da Wikipédia.
Nesse contexto, apresentou o ORES – serviço de machine learning que identifica vandalismos e edições de novos usuários para indicar a orientação de editores mais experientes que possam guiá-los com qualidade, para contribuir no equilíbrio em estímulo a novos editores e controle de qualidade da plataforma. Também apresentou o Wikipédia Gap Finder, que trabalha num processo de identificação/ranqueamento/recomendação para estimular que editores produzam conteúdo para páginas sobre um mesmo assunto em diferentes línguas. Na segunda frente, explicou as propostas do Detox e Teahouse – o primeiro, um sistema de algoritmos que identifica vandalismo; o segundo, um serviço de auxílio a novos editores; ambos com a proposta de manter a qualidade mas estimular novos editores. Por fim, há ainda um trabalho extenso de pesquisa que se propõe a fazer uma taxonomia dos leitores da enciclopédia, principal grupo de usuários diários que a plataforma dispõe.
São vários projetos e um time muito pequeno de atuação, por isso há uma busca contínua de colaboradores formais em grandes universidades e institutos de pesquisa. Para além disso, também preocupam-se em disponibilizar em livre acesso seus dados e pesquisa para que outras pessoas possam produzir trabalhos e fomentar a discussão sobre os mais variados assuntos. Essa é a ideia sustenta o PAWS, um notebook em python para cruzamento e análise de dados da Wikimedia. No workshop do segundo dia, à tarde, também comandado por Taraborelli, foi discutido e apresentado bastante das plataformas, ferramentas e atuações do seu time de pesquisa, demonstrando “na prática” como funcionam alguns dos trabalhos discutidos no keynote de abertura.
As demais apresentações tiveram mais como foco questões inerentes à Wikipédia, sem abordar necessariamente discussões sobre pesquisa e coleta de dados. Os trabalhos exibidos nas mesas de debate trouxeram à tona questões sobre a produção de conteúdo para Wikipédia, com artigos sobre análise do discurso, edição colaborativa, autoria e pesquisas para a produção; educação também foi um tema central durante o congresso, além de ferramentas e dispositivos úteis à pesquisa na plataforma.