Agora que já vimos o que é corpus fica mais fácil entender outro conceito: o de mineração de textos (ou text mining). Trata-se de um processo de extração de informações de fontes formadas por dados não estruturados para possibilitar sua análise de um modo científico.

Opa, como é isso mesmo? Trocando em miúdos, é um jeito de transformar as informações que importam, encontradas em uma coleção de textos qualquer (como vimos, o corpus), em algoritmo

É como se o computador utilizasse uma caneta marca texto para primeiro grifar as palavras-chave (fase de extração), passando a seguir a agrupá-las em listas com base em padrões encontrados. Assim, consegue reorganizar o banco de textos, traduzindo-o, ressignificando-o e estruturando-o para a linguagem computacional.

Automatização, estruturação e insights

Uma diferença com a mineração de dados – uma prática bem mais conhecida no mundo da informática – é que a natureza do material analisado não está estruturada e precisa, portanto, ser depurada. É assim com documentos de Word, arquivos PDF, fragmentos de texto, arquivos XML etc.

E para que serve isso? Para um monte de coisas: por meio de processos semiautomatizados de mineração de textos, é possível simular de certa forma a capacidade humana de entender um idioma real e encontrar padrões úteis e até então desconhecidos nos textos selecionados.

Equipamentos como Alexa, Siri e aplicativos de pesquisa por voz do Google usam esse tipo de processamento de linguagem natural para entender e responder a perguntas e solicitações dos usuários.

O uso que se faz disso é mesmo bem variado, podendo servir de subsídio também para descrever uma tendência ou para revelar insights.

Em atividades que lidam com textos em abundância, como no Direito, em pesquisas acadêmicas, nas Finanças, Medicina, Marketing e Administração, e em ambientes com alto volume de circulação de informações, como em serviços de e-mail – é muito útil para detectar spams, gerar e categorizar filtros de respostas automáticas e priorizar mensagens.

Etapas de aprendizagem da mineração de texto

As tarefas mais típicas de mineração de texto são a categorização, o agrupamento de textos, a extração de conceitos, a produção de taxonomias granulares, o resumo de documentos, a modelagem de relações entre diferentes conceitos e até a análise de sentimentos que um discurso textual possa conter/revelar.

Por meio da aplicação do processamento de linguagem natural (PLN) e de métodos analíticos, obtém-se a estruturação dos dados contidos nos textos. A partir daí, é possível promover a análise lexical a fim de encontrar a frequência de distribuição de certas palavras, reconhecer padrões, identificar, anotar e extrair informações e prever tendências (chamada de analítica preditiva).

Tudo isso é base para o que se chama de machine learning (aprendizagem da máquina), que é a forma como se faz um computador “aprender” a se comunicar com o ser humano, utilizando a língua do humano.

As informações convertidas em um formato estruturado podem ser analisadas posteriormente ou classificadas em tabelas HTML agrupadas, em mapas mentais e gráficos.

Antes de passar para o próximo tópico, vamos ver uma breve descrição de cada etapa da aprendizagem:

  • Categorização – trata-se da atividade de rotular textos em linguagem natural com categorias temáticas a partir de um conjunto pré-definido.
  • Agrupamento – consiste em aplicar as mesmas técnicas de classificação num conjunto de dados em que não se conhece previamente as suas possíveis classes.
  • Extração de conceitos – trata-se do processo de identificar informações relevantes a partir de textos, além de estruturar e armazenar essas informações, a fim de propiciar uma futura descoberta de relacionamentos interessantes entre as informações extraídas.
  • Produção de taxonomias – trata-se do processo de descrever, identificar e nomear os dados de acordo com os critérios estabelecidos.
  • Resumo de documentos – é o processo de mapear e agrupar de forma que faça sentido, por meio de algoritmos, as principais partes de um determinado texto.
  • Modelagem de relação – é o mapeamento de uma conexão entre dois ou mais elementos, que inclui informações semânticas para um modelo.
  • Análise de sentimentos – trata-se do processamento da linguagem natural e análise de texto para extrair o conteúdo emocional por trás das palavras.

Tipos de análise

A mineração de texto permite executar vários tipos de análises (prescritiva, preditiva, descritiva, lexical), de marcação e anotação, reconhecimento de padrões, detecção de links e associações.

Depois de agrupar os dados de texto não estruturados de várias fontes, a mineração de textos busca limpar as informações coletadas com a ajuda de ferramentas e aplicativos para detectar e remover anomalias ou redundâncias.

Com apenas as informações pertinentes em mãos, o processo as converte em algoritmos adequados à etapa de análise, que leva à tomada de decisões.

Vamos ver abaixo uma breve descrição de cada tipo de análise da mineração de texto:

  • Análise prescritiva – também conhecida como análise de recomendação, tem como objetivo gerar sugestões de ações a serem tomadas de forma automáticas ou semiautomáticas para aprimorar determinada estratégia de negócio.
  • Análise preditiva – o foco desse tipo de análise é o futuro. Por meio de modelos estatísticos, ela busca mapear tendências e mostrar como serão os dados no futuro e como se comportarão em cenários diversos.
  • Análise descritiva – também conhecida como análise exploratória, esse tipo de análise tem como foco descrever e mapear o cenário atual, presente. Em geral, ela é o ponto de partida para os demais tipos de análises.
  • Análise lexical – esse tipo de análise é também chamado de lexing ou tokenização. Trata-se o processo de converter uma sequência de caracteres (como em um programa de computador ou página da web) em uma sequência de tokens (strings com um significado atribuído e, portanto, identificado).

*

Gostou do texto? Então vale a pena conferir todos os artigos da série Língua e Tecnologia.