A música sertaneja tem papel importante nas manifestações culturais brasileiras e funciona como registro oral da história da população que vive nas cidades do interior. Com origem no início do século XX e presença marcante nas regiões Centro-Oeste e Sudeste, o ritmo se espalhou pelo país e a cada ano conquista uma maior quantidade de fãs.

As letras das canções tratam dos mais variados assuntos, desde questões relacionadas à vida no sertão,  conhecidas como modões; mudanças para cidades grandes; declarações de amor e dor do término de relacionamentos, conhecidas como sofrências.

Mas o que a análise de dados tem a ver com um dos ritmos mais populares do país?

Neste artigo, iremos mostrar que a partir das ferramentas corretas, informações do cotidiano e de fácil coleta podem ser analisadas de forma sistemática e oferecer dados relevantes ao pesquisador ou analista de dados que busca compreender melhor como a população se expressa. O intuito da análise é, a partir da coleta das 1.000 músicas mais escutadas do gênero sertanejo, captar os principais assuntos mencionados pelos cantores.
A extração das canções foi feita a partir do site Letras.mus, um portal conhecido pelo acervo digital de letras, cifras e clipes,  no dia 03 de março de 2020, envolvendo as 1.000 músicas mais acessadas do gênero na plataforma desde a criação do site, no ano de 2003. A lista contém 112 cantores e os que possuem a maior quantidade de canções são também os mais conhecidos da atualidade, como Jorge e Mateus (110 músicas), Luan Santana (83 músicas), Gusttavo Lima (44 músicas), Henrique e Juliano (40 músicas) e Marília Mendonça (38 músicas).
A ferramenta de análise utilizada foi o Iramuteq, um software de análise textual gratuito com diversas funcionalidades que permitem uma investigação sistemática de diversos tipos de textos a partir dos vocabulários utilizados, agrupando os semelhantes e destacando os que se distinguem. Assim, são formados grupos, denominados clusters, com temáticas específicas.
Na figura abaixo, temos uma das visualizações resultantes, chamada dendrograma, com as palavras mais mencionadas nos grupos, assim como a porcentagem de cada um em relação ao todo.
image1 1

A análise mostra uma distribuição entre quatro grupos temáticos que correspondem de 19 a 34 por cento do total de canções. As chaves acima da numeração de cada classe apontam a proximidade entre as diferentes temáticas.
Começando pelo maior grupo temático, indicado em vermelho, que corresponde a quase 35% das canções, podem ser encontradas músicas que falam de amor, seja pela ótica da intensidade, representada por palavras como “desejo” e “sentimento”, seja pela falta da pessoa amada, representada por palavras como “saudade”, “dor” e “sofrer”. Os principais cantores encontrados aqui são Jorge e Mateus, Bruno e Marrone e Victor e Léo.
Próximo ao primeiro grupo, temos a temática indicada em amarelo com aproximadamente 26% do total. O foco nesse caso também é o amor, entretanto este está sob a ótica do término de relacionamentos, geralmente provocado por erros de alguma das partes como indicado pelas palavras “culpa”, “assumir” e “errado”. Nesse caso, é interessante observar que a linguagem informal é usada como um recurso, tendo em vista que a expressão “ce”, variação da palavra “você”, é a mais recorrente no grupo. Os principais cantores encontrados aqui são Marília Mendonça, Henrique e Juliano e Matheus e Kauan.
A classe em azul corresponde a 20% das canções e foca em uma postura mais contemplativa e sonhadora em relação à natureza e ao campo, utilizando termos como “céu”, “estrelas” e “paraíso”. Os principais cantores encontrados aqui são Luan Santana, Paula Fernandes e Zezé di Camargo e Luciano.
Por fim, a menor classe, com 19% do total e representada em roxo, é a que mais se distancia das temáticas apresentadas acima, pois foca em um conteúdo mais recente no gênero sertanejo, as baladas e festas em que há muita dança e relacionamentos. Os termos mais comuns que indicam o conteúdo são “balada”, “dançar” e “pegar” Os principais cantores encontrados aqui são Fernando e Sorocaba, Lucas Lucco e Munhoz e Mariano.
Além do dendrograma, o Iramuteq oferece a visualização por meio da Análise Fatorial por Correspondência (AFC), que posiciona as variáveis de interesse em um plano cartesiano permitindo uma melhor compreensão da distribuição de cada classe. A distribuição pode ser feita a partir do conteúdo analisado, como as canções, ou outras variáveis, como cantores e ano de lançamento. Essas informações podem ser vistas abaixo:
image2
Neste caso, é interessante observar que cada temática, além de cantores mais frequentes, também possui fases de lançamento que respeitam algum tipo de popularidade ou interesse comum no período.
A análise das quatro principais temáticas, cantores e anos de lançamento encontrados mostram a versatilidade do ritmo. Ao mesmo tempo, mostra que mantém as raízes do interior e se adapta à popularidade que conquista mais cidades a cada ano.
As aplicações de análises e informações como essas são diversas e permitem ao pesquisador e analista enriquecer estudos alinhando dados quantitativos e qualitativos.

Fontes:
NO DIA DO SERTANEJO, CONHEÇA A HISTÓRIA DO RITMO MAIS OUVIDO DO BRASIL. Acesso em 18/03/2021.
Sertanejo – músicas e artistas mais ouvidos – Letras.mus. Acesso em 18/03/2021.