Linguística de Corpus é a área da Linguística utilizada para coleta e análise de bases com dados textuais produzidos por falantes reais, a exemplo de discursos, debates em mídias digitais, textos históricos, e outras formas de produção, como as transcrições de entrevistas para análises posteriores.
Em Linguística de Corpus, estas bases de dados textuais são objetos de pesquisa chamadas de Corpus. Corpora é o plural de corpus – conjunto de dados linguísticos pertencentes ao uso oral ou escrito da língua e que podem ser processados por computador*. Contamos com suporte da tecnologia na Linguística de Corpus para potencializar as análises, usando ferramentas como concordanciadores, corpora online, programas de análise e comparação, dentre outros.
O entendimento deste método de pesquisa tem sido cada vez mais observado com atenção no Mercado, assim como na academia, em pesquisas sociais, sociolinguísticas, educacionais, etc., que utilizem as metodologias da Linguística de Corpus para sustentar análises e resultados de suas respectivas áreas.
Coleta de dados com o termo “twitter” através da ferramenta Corpus Leeds
A seguir constam 5 aplicações com metodologias e técnicas da Linguística de Corpus, em que houveram a exploração estatística de elementos lexicais; observação da combinação de palavras; caracterização de gêneros textuais; identificação de perfis e práticas textuais; localização dos padrões e do uso da língua:
1° Utilizando a Linguística de Corpus para auxiliar tradutores a criar dicionários técnicos para a área de culinária e gastrônomia.
Este trabalho acadêmico foi elaborado pela Doutora Elisa Duarte Teixeira, com o objetivo de apresentar diagnósticos e evidências de que a padronização textual, assim como a apresentação de um dicionário técnico, possa ser mais útil e confiável para o tradutor especialista em sua área de atuação. Aos produtores de conteúdos (youtubers, blogueiras(os), instagrammers, etc.), trabalhos como este podem ser úteis no entendimento da linguagem técnica de conteúdos relacionados à culinária, assim como de outras diversas áreas e temas que queiram se aprofundar.
2° Além da clássica nuvem de palavras
A nuvem de palavra nos ajuda entender quais palavras foram mais citadas em uma base de dados textuais. No entanto, a partir de aprendizados práticos podemos ser mais criteriosos em nossos estudos, analisando, por exemplo, os adjetivos mais importantes da pesquisa e entender quais foram as frequências e o tempo em que eles apareceram em seus respectivos contextos.
3° Análise de gírias e memes em mídias sociais
Na análise elaborada pela professora e autora Michelle Zappavigna, algumas gírias, memes e humor no Twitter, serviram como base no processo de exploração de determinados modos de comunicação online. Dentre outros levantamentos, a análise de frequência e contextos, também ajudou entender a redefinição e complexificação do termo geek.
4° Estudos sociolinguísticos
Estudar as culturas sociolinguísticas é muito importante tanto para o mercado se conectar com consumidores, quanto para os pesquisadores sociais entenderem as especificidades da comunidade e região pesquisada. Metodologias e técnicas da Linguística de Corpus foram utilizadas para gerir e embasar os dados do Banco de Dados Falares Sergipano.
5° Monitoramento e análise de debates e hashtags
No dia 04 de maio de 2017 a hashtag #mulheresnofutebol se tornou um dos debates mais comentados e compartilhados no twitter, gerando um corpus de pesquisa para análise dos dados textuais e léxicos nas avaliações e identificações de padrões sexistas. Na imagem abaixo é possível fazer uma breve observação da frequência e contextos, enquanto a utilização do termo “amo” que consta no corpus deste projeto.