O já anual SMART Data Sprint do Digital Media Winter Institute aconteceu entre os dias 28 de janeiro e 1º de fevereiro na Universidade Nova de Lisboa, em Portugal. Seguindo a proposta de “colocar a mão na massa” já comum ao evento, estudantes e pesquisadores de todo o mundo se reuniram para participar de atividades de projetos de pesquisa relacionados à saúde, jornalismo, educação e computação visual.
O projeto Interrogating Vision APIs foi submetido por Tarcízio Silva (Diretor de Pesquisa do IBPAD) e André Mintz (Doutorando na UFM) com o intuito de identificar as diferenças entre as APIs de computação visual (Microsoft Azure, IBM Watson e Google Vision) e de investigar se é possível investigar representações nacionais utilizando ferramentas de computação visual. Com participação de Beatrice Gobbo, Elena Pilipets, Hamdan Azhar, Helen Takamitsu, Janna Joceli Omena e Taís Oliveira, o relatório final foi divulgado há alguns dias.
Perguntas da Pesquisa

  • Quais são as diferenças entre provedores de API de computação visual?
    • Como APIs de computação visual “entendem” a mesma foto?
    • Como as ontologias dos marcadores de cada API se comparam entre si?
  • Conseguimos investigar as representações nacionais utilizando ferramentas de computação visual?
    • Como provedores de banco de imagens exibem a visualidade dos países selecionados?
    • Como especificidades culturais são feitas visíveis a partir do uso de APIs de computação visual?

data processing
O desenho de pesquisa proposto contou com várias semelhanças à metodologia já conhecida do IBPAD para o nosso produto de análise de imagens: levantamento de dados em sites visuais, processamento dos dados com as APIs de computação visual e inteligência artificial, e análise dos resultados evidentes a partir de técnicas de análise de redes. O script utilizado no projeto para realizar o processamento em massa das três APIs investigadas foi, conforme citado no texto, desenvolvido pela nossa própria equipe.
5
Principais Descobertas

  • As três APIs de computação visual investigadas – fornecidas pelo Google, IBM e Microsoft – apresentam características de tagueamento muito diferentes que descrevem diferentes ontologias e espaços semânticos. Quanto ao nível de detalhes, a API do Google tende a níveis maiores de especificidades; A IBM é mais ou menos específica, porém não tanto quanto o Google; e a Microsoft é na maioria das vezes bem genérica e possui um escopo de classificação bem limitado.

6

  • APIs de computação visual apresentam níveis variados de sensibilidade e modos de tratamento de fotos culturais específicas. Enquanto o serviço do Google reconhece vários itens específicos relacionados a comida ou instrumentos musicais, sua acurácia não é sempre satisfatória. A API da Microsoft demonstrou uma Americanização/Ocidentalização cultural enviesada em alguns dos casos tratados. No geral, todas as APIs parecem ter estrutura algorítimicas favorecendo a performance de neutralidade cultural com categorias genéricas obtendo maior pontuação do que termos específicos.
  • Sites de banco de imagens representam visualidades nacionais com temas recorrentes os quais APIs de computação visual são úteis como ajudas descritivas, antecipando figurações típicas emergentes.

10

  • As APIs de computação visual investigadas reproduziram uma falta de atenção quanto a marcadores culturais específicos, especialmente ligados a grupos minoritários, um possível reforço das relações etno-raciais hierarquizadas.

O relatório completo (disponível em inglês) pode ser encontrado no site oficial do evento, onde você pode ler o passo a passo detalhado dos procedimentos metodológicos e resultados encontrados, além de discussões mais específicas quanto a certas limitações das APIs. Futuros artigos produzidos pelos participantes do projeto devem abordar com mais profundidade essas e outras questões ainda a serem exploradas.