Aqui no Clube, falamos muito sobre a disponibilização de um corpus e da organização e preparação desse conjunto de dados dentro do sistema computacional pela tokenização de textos. Agora chegou a hora de realmente trabalhar a análise desse acervo. No mundo da informática, isso é chamado de modelagem de tópicos.

Trata-se de uma forma de mineração de texto, ou seja, uma forma de mergulhar em um corpus para identificar nele seus padrões – nisso, as técnicas que buscam a raiz das palavras, como a stemização (que indexa os termos) e a lematização (de vetorização que resulta em termos mais precisos), bem como a tokenização, colaboram para preparar o campo de mineração.

Cada padrão encontrado vira um tópico. Segundo Miriam Posner, professora de Humanidades Digitais que tem se transformado em uma referência no assunto, a modelagem de tópicos é “um método para achar e traçar clusters de palavras (chamado “tópicos” de forma abreviada) em grandes corpus de texto”.

O que é um tópico?

Um tópico pode ser definido como “um padrão recorrente de co-ocorrência de palavras”. É preciso admitir que esses tópicos são abstratos por natureza, afinal são palavras relacionadas entre si pelo seu sentido no tempo e espaço, quase como uma “caixa preta” de certa realidade linguística.

Essa “caixa preta” que constitui o modelo de tópico forma os tópicos (clusters de palavras semelhantes e relacionadas), que pode ser observado em comparação à frequência dentro do corpus ou à sua posição no documento.

Um bom modelo de tópicos separa tudo isso segundo o sentido das palavras. Por exemplo, um tópico pode conter as palavras “navio, barco, capitão, timoneiro” e outro, “saúde, vacina, coronavírus”.

Como se faz essa modelagem, então? Mais uma vez, usam-se modelos matemáticos, mas um jeito bem simplista de explicar isso é dado por outro especialista, David Blei. Ele construiu uma das melhores representações visuais sobre tópicos a partir de um processo que separa por cores as palavras de sentidos semelhantes encontradas em corpus.

Assim, é possível estabelecer os diferentes tópicos, detectar quais são seus padrões e usá-los para orientar os mecanismos digitais de busca.

Com base nisso, o computador pode comparar a ocorrência de tópicos em diversos documentos, verificando a forma como uma palavra é atribuída em cada um deles. Por exemplo, como a mesma palavra “rapaz” é utilizada em discursos colhidos em São Paulo e na Bahia.

O modelo mais básico conhecido é o Latent Dirichlet Allocation (LDA). Há ainda o lda2Vec e a Análise Semântica Latente (Latent Semantic Analysis, em inglês, ou LSA), que busca apreender o contexto por trás das palavras a ponto de considerar o sentido figurado delas.

Tudo começa no corpus

A modelagem de tópicos é mais adequada para grandes coleções de texto. Quanto maior e mais complexa, melhor. Isso porque, assim como em qualquer diagrama, a boa modelagem ajusta a mostra com base em um grande número de botões e mostradores, “educando” o algoritmo para coletar em cada tópico, da forma mais precisa possível, as palavras que realmente têm sentidos afins.

Embora não haja muito consenso em relação ao tamanho mínimo do corpus – fala-se em pelo menos 1.000 itens na coleção que deseja modelar.

*

Gostou do texto? Então vale a pena conferir todos os artigos da série Língua e Tecnologia.