O já anual SMART Data Sprint do Digital Media Winter Institute aconteceu entre os dias 28 de janeiro e 1º de fevereiro na Universidade Nova de Lisboa, em Portugal. Seguindo a proposta de “colocar a mão na massa” já comum ao evento, estudantes e pesquisadores de todo o mundo se reuniram para participar de atividades de projetos de pesquisa relacionados à saúde, jornalismo, educação e computação visual.
O projeto Interrogating Vision APIs foi submetido por Tarcízio Silva (Diretor de Pesquisa do IBPAD) e André Mintz (Doutorando na UFM) com o intuito de identificar as diferenças entre as APIs de computação visual (Microsoft Azure, IBM Watson e Google Vision) e de investigar se é possível investigar representações nacionais utilizando ferramentas de computação visual. Com participação de Beatrice Gobbo, Elena Pilipets, Hamdan Azhar, Helen Takamitsu, Janna Joceli Omena e Taís Oliveira, o relatório final foi divulgado há alguns dias.
Perguntas da Pesquisa
- Quais são as diferenças entre provedores de API de computação visual?
- Como APIs de computação visual “entendem” a mesma foto?
- Como as ontologias dos marcadores de cada API se comparam entre si?
- Conseguimos investigar as representações nacionais utilizando ferramentas de computação visual?
- Como provedores de banco de imagens exibem a visualidade dos países selecionados?
- Como especificidades culturais são feitas visíveis a partir do uso de APIs de computação visual?
O desenho de pesquisa proposto contou com várias semelhanças à metodologia já conhecida do IBPAD para o nosso produto de análise de imagens: levantamento de dados em sites visuais, processamento dos dados com as APIs de computação visual e inteligência artificial, e análise dos resultados evidentes a partir de técnicas de análise de redes. O script utilizado no projeto para realizar o processamento em massa das três APIs investigadas foi, conforme citado no texto, desenvolvido pela nossa própria equipe.
Principais Descobertas
- As três APIs de computação visual investigadas – fornecidas pelo Google, IBM e Microsoft – apresentam características de tagueamento muito diferentes que descrevem diferentes ontologias e espaços semânticos. Quanto ao nível de detalhes, a API do Google tende a níveis maiores de especificidades; A IBM é mais ou menos específica, porém não tanto quanto o Google; e a Microsoft é na maioria das vezes bem genérica e possui um escopo de classificação bem limitado.
- APIs de computação visual apresentam níveis variados de sensibilidade e modos de tratamento de fotos culturais específicas. Enquanto o serviço do Google reconhece vários itens específicos relacionados a comida ou instrumentos musicais, sua acurácia não é sempre satisfatória. A API da Microsoft demonstrou uma Americanização/Ocidentalização cultural enviesada em alguns dos casos tratados. No geral, todas as APIs parecem ter estrutura algorítimicas favorecendo a performance de neutralidade cultural com categorias genéricas obtendo maior pontuação do que termos específicos.
- Sites de banco de imagens representam visualidades nacionais com temas recorrentes os quais APIs de computação visual são úteis como ajudas descritivas, antecipando figurações típicas emergentes.
- As APIs de computação visual investigadas reproduziram uma falta de atenção quanto a marcadores culturais específicos, especialmente ligados a grupos minoritários, um possível reforço das relações etno-raciais hierarquizadas.
O relatório completo (disponível em inglês) pode ser encontrado no site oficial do evento, onde você pode ler o passo a passo detalhado dos procedimentos metodológicos e resultados encontrados, além de discussões mais específicas quanto a certas limitações das APIs. Futuros artigos produzidos pelos participantes do projeto devem abordar com mais profundidade essas e outras questões ainda a serem exploradas.