O artigo ‘Social mining for public health monitoring and surveillance’ de Michael J. Paul  e colaboradores, faz um compilado de pesquisas recentes sobre a utilização da mineração de dados de mídias digitais para estudar a saúde pública.  Os autores descrevem os principais pontos do recente progresso na saúde pública relacionados aos métodos computacionais de linguagem e processamento de dados.
Fora dos espaços formais de relações de trabalho e estudo, as mídias digitais são meios propícios para discutir ideias e expressar opiniões sobre diversos assuntos, entre eles, saúde. Existe também uma comunidade digital específica para conversações sobre doenças e avanços da medicina como Daily Strenght e Med Help que são organizações criadas para disponibilizar informações, grupos de ajuda e fóruns de discussão para apoiar pacientes e familiares.
Este artigo demonstra pesquisadores que têm explorado novos métodos para a coleta, extração, representação, análise e validação dos dados de mídias digitais para que seja possível e mais eficaz o monitoramento e vigilância da saúde, inclusive para compreender melhor epidemias e comportamentos. E também produz um status recente dos avanços da mineração de dados relacionadas à saúde pública, focando em exemplos promissores nas áreas de pesquisa, desafios técnicos, e implicações e considerações sobre como esses aspectos afetam a sociedade.

“O acesso aos dados (social media) possibilita a vigilância epidemiológica para detectar potenciais riscos para a saúde pública e novas possíveis ameaças em estágio inicial, antes de se tornarem epidemias graves. Mas como utilizar os dados das mídias digitais e da internet em geral, qual seria o potencial dessa vigilância aprofundada? Os desafios de utilizar os sistemas de monitoramento para as doenças infecciosas ou epidêmicas, incluindo as necessidades de pesquisas, requisitos técnicos, e aceitabilidade para publicações sobre as práticas e políticas da saúde pública tem trazido um grande alcance para as questões de saúde pública no século 21.”

mineracao de dados saude publica min

O monitoramento de doenças: Além da Influenza

O monitoramento de doenças baseado na mineração de dados nas mídias digitais, foi inicialmente utilizado para detectar o volume de menções sobre a Influenza que tem sido uma das pesquisas mais comuns que os usuários fazem no meio digital, e que tem afetado milhões de americanos e causado mortes prematuras.
A maior vantagem em usar dados da web para estimar a recorrência de doenças é a velocidade que se pode monitorar, em comparação às pesquisas tradicionais feitas pelo governo e coordenadas pelo órgão ‘Centers for Disease Control and Prevention in the US.’ No entanto, tem sido utilizado o argumento de que as mídias digitais trazem limitações no uso dos dados sobre as doenças, e são colocadas questões legais e éticas sobre os dados e entre o que é público e privado no meio digital.
A pesquisa mais recente sobre a Influenza trouxe informações com um impacto potencialmente maior:

  • Outras doenças infecciosas: no monitoramento, os usuários relataram suspeitas de Influenza, mas o diagnóstico descobriu outras doenças como cólera, dengue e ebola.
  • Previsões: existem novas pesquisas que se atentam à doenças que podem vir a ser um risco e essas descobertas podem auxiliar na construção de um planejamento efetivo para a prevenção e o tratamento nos postos de saúde.
  • Locais de alto risco: além do monitoramento nacional da Influenza nos Estados Unidos, alguns trabalhos mais recentes trazem informações em tempo real sobre países que possuem alto índice de casos da doença, e outros que não tem preparo para o tratamento ou prevenção.
  • Monitoramento de medicamentos: a pesquisa se aprofunda nas conversações sobre reações adversas utilizando as comunidades e fóruns específicos para discussões sobre saúde, avaliações online sobre o produto e conversações genéricas em redes como, por exemplo, o Twitter.
  • Detecção de menções sobre reações adversas: as pesquisas se concentram em extrair informações sobre o que se fala em reações adversas de um determinado medicamento (e suas variações lexicais), para encontrar outros tipos de reações ou associação entre medicamentos utilizados. Essa nova estratégia de extração de dados auxilia a quantificar problemas com reações adversas.

Medicina Comportamental
A medicina comportamental é outra área que vem se expandindo com a ajuda do monitoramento para compreender padrões em comportamentos que afetam a saúde, como por exemplo:

  • Vício em cigarro e drogas: As mídias digitais podem ser utilizadas para compreender a disponibilidade de interesse em diversos produtos que possuem tabaco e nicotina em sua composição, incluindo cigarros eletrônicos, que ganharam visibilidade devido aos meios de comunicação digitais. As mídias digitais também são utilizadas para entender o comportamento de pessoas que pararam de fumar e como os grupos online de apoio promovem discussões em torno do tema.Mídias digitais especializadas são utilizadas para analisar o comportamento de pessoas que são viciadas ou consomem álcool de maneira abusiva, os efeitos na saúde e as fases de recuperação dos indivíduos que pararam de beber. Canais sociais mais comuns como o Twitter, também tem sido importantes no monitoramento de padrões específicos e compreensão de consumo excessivo de medicamentos.
  • Dietas e vida fitness: Um grande número de pesquisadores têm analisado padrões de consumo sobre alimentação no Twitter e Instagram, inclusive padrões em perfis que estão em fase de perda de peso. Pesquisas também possuem foco em atividades físicas no Twitter e as metas que os usuários pretendem para alcançar com seus exercícios.
saude publica

Desafios técnicos na mineração de dados em mídias digitais
Ainda são encontradas muitas dificuldades, principalmente quando se fala na automação do processamento de dados, aprendizado de máquina (machine learning) e processamento de linguagem natural (NLP – natural language processing) que são aplicados aos textos longos ou que trazem linguagem não coloquial. Tem sido um desafio ensinar a ferramenta a ler diversas maneiras e palavras (heterogeneidade semântica) para que os termos sejam filtrados corretamente. A seguir serão descritas algumas questões da mineração de dados na saúde pública e seus avanços tecnológicos recentes:

  • A compreensão do texto informal: o processamento de linguagem natural é um desafio para as ferramentas que são tradicionalmente formatadas para compreender o texto de forma correta e não da maneira usual que costuma ser utilizada online. Algumas pesquisas recentes criaram novas ferramentas de processamento de linguagem natural que conseguem identificar melhor os assunto e termos, mesmo com outros tipos de linguagem.
  • A análise de sentimentos: também utilizada como complemento do entendimento da compreensão de texto, tem sido utilizada para entender a repercussão de campanhas de vacinação, menções sobre o abuso de drogas, e avaliações online de remédios e consultórios. No entanto a análise de sentimento não funciona bem com textos curtos o que dificulta a correlação entre o sentimento e o tema, e não deixa tão clara a opinião pública sobre os objetos estudados.
  • Enriquecimento de compreensão textual: O melhoramento dos processos que são capazes de compreender o contexto das menções e termos, trazem avanços significativos para os estudos, porém os pesquisadores reconhecem que ainda há muito o que aperfeiçoar para que a mineração dos dados seja cada vez mais precisa.

O resultado do artigo compreendeu o vínculo entre as pesquisas multidisciplinares que apresentaram a mineração de dados para a saúde pública com suas diversas aplicações nas mídias digitais. Notou-se também que, quanto maior o aperfeiçoamento das ferramentas de entendimento de texto, mais preciso é o trabalho no monitoramento de doenças. O compartilhamento dessas informações trouxe a perspectiva de como os assuntos mencionados nas mídias digitais podem ser analisados para detectar riscos à saúde, avanços no tratamento de doenças, prevenção de epidemias e problemas de ordem comportamental.