Com o avanço tecnológico das últimas décadas, analisar um texto (ou vários textos) se tornou uma tarefa muito mais fácil com a ajuda de softwares sofisticados como Iramuteq, AntConc, Voyant-Tools e WORDij, para citar apenas alguns (que você pode aprender nos nossos cursos). Por trás das análises estatísticas que eles dispõem, entretanto, há uma lógica de fundamentação teórica numa disciplina acadêmica que estruturou a língua como um sistema probabilístico – ou seja, que percebeu os padrões do modo como nos comunicamos.
A Linguística de Corpus, área da Linguística Aplicada, é uma ferramenta que permite pesquisar e entender a língua em uso, produzida por falantes reais em situações de interação. O chamado corpus (corpora, no plural) é um conjunto de dados linguísticos pertencentes ao uso oral ou escrito que pode ser processado pelo computador, no qual se adota uma perspectiva probabilística para que se possa compreender que a frequência, bem como a maneira com que as palavras são formadas, são importantes para a análise dos significados produzidos pelas pessoas em diversos tipos de textos.
As ferramentas e métodos envolvendo Linguística de Corpus possibilitam observar como as palavras combinam e de que modo isso reflete a forma com que pensamos (ou sobre o que conversamos) a partir da língua, sendo assim a base teórica que garante respaldo às análises dos softwares com os quais podemos trabalhar atualmente. Nesse sentido, a união entre os conceitos da LC com as análises estatísticas dos programas nos permite que analisemos diferentes tipos de textos, desde publicações em mídias sociais até documentos do governo.
Neste artigo, apresentamos alguns desses principais conceitos. Todos eles, além de possibilitarem a ampliação do entendimento teórico sobre o assunto, estão presentes nos softwares e aplicativos voltados à coleta, processamento e análise dos dados de um determinado corpus de textos.
- Colocações
Se refere à associação entre itens lexicais ou entre léxico e campo semântico. Pode ser definido estatisticamente a partir dos usos que fazemos deles; palavras que tendem a se combinar e gerar sentido quando acompanhadas.
– Exemplo: palavra comida irá se associar a palavras como salgada, doce, rápida, gostosa, saborosa, caseira, etc. Dificilmente veremos a palavra ser associada a escovada ou ensolarada.
- Coligações
Quando há uma associação de um item lexical (palavra) e gramatical.
– Exemplos: verbo + preposição (correu da), substantivo + preposição (equipe de).
- Prosódia semântica
Uma associação entre itens lexicais e conotação (negativa, positiva ou neutra) ou um juízo de valor. Pode ser entendido como as palavras que, de maneira presumida, poderão vir à frente com determinada conotação.
– Exemplo: a palavra “diagnosticar” nos faz pensar, estatisticamente, que o termo seguinte será ligado à doença, tratamento, problema médico, entre outros sentidos correlatos. Dizemos “estatisticamente” porque tomamos como fundamento a nossa base de dados (corpus), e não apenas nossas intuições.
- Concordâncias
São as partes de um corpus listadas por um concordanciador, um software que aponta os termos em que determinada palavra está associada. Utilizando o mesmo termo “diagnosticar” no software SketchEngine, temos o seguinte resultado:
- Clusters
Se referem aos agrupamentos de palavras definidas a partir de uma sequência fixa e recorrente no corpus.
– Exemplo: “foi” – > ontem, hoje, cedo, à tarde, quando, bonito, interessante, divertido. Neste caso, a palavra “foi” irá se associar ou estará presente a alguma das palavras elencadas nesse conjunto.
- Lematização
Consiste no agrupamento de duas ou mais formas de expressão de um mesmo termo ou item lexical.
– Exemplo: escrever -> escreveu, escrita, escritura, etc.
- Etiquetagem (tagging)
É quando colocamos no corpus códigos que possam identificar a classe gramatical a qual cada palavra pertence. Geralmente isso é feito pelos próprios softwares e em corpora de língua inglesa.
- N-grams
São agrupamentos de palavras ou sintagmas. É a forma como podemos ver os grupos de palavras a partir de unidades.
– Exemplo: comunidade virtual (bigrama), sites de entretenimento (trigrama), sites de redes sociais (quadrigrama).
Esses conceitos expostos brevemente mostram como a língua e os textos que produzimos apresentam uma diversidade de formas de expressão e manifestação a depender do contexto e das construções históricas às quais foram submetidos. Hoje, com o crescimento cada vez maior das plataformas de mídias sociais, que canalizam muitas das discussões e debates sociais, vemos isso em maior evidência. Essa nova configuração nos obriga a estudá-la em suas manifestações nas mídias digitais e a propor soluções para nossos problemas de hoje.
Todas essas iniciativas mostram ser possível compreender os fenômenos da língua em termos estatísticos. Se levarmos em consideração que nenhuma palavra é utilizada por acaso, perceberemos que a frequência de uso, bem como as construções sintáticas e semânticas presentes em corpora, nos mostram ideias, códigos culturais e os contextos em que esses falantes estão inseridos. Portanto, trata-se de observar os padrões que determinado conjunto de dados dos discursos pode nos mostrar.