Aqui no Clube, falamos muito sobre a disponibilização de um corpus e da organização e preparação desse conjunto de dados dentro do sistema computacional pela tokenização de textos. Agora chegou a hora de realmente trabalhar a análise desse acervo. No mundo da informática, isso é chamado de modelagem de tópicos.

Trata-se de uma forma de mineração de texto, ou seja, uma forma de mergulhar em um corpus para identificar nele seus padrões – nisso, as técnicas que buscam a raiz das palavras, como a stemização (que indexa os termos) e a lematização (de vetorização que resulta em termos mais precisos), bem como a tokenização, colaboram para preparar o campo de mineração.

Cada padrão encontrado vira um tópico. Segundo Miriam Posner, professora de Humanidades Digitais que tem se transformado em uma referência no assunto, a modelagem de tópicos é “um método para achar e traçar clusters de palavras (chamado “tópicos” de forma abreviada) em grandes corpus de texto”.

Continue reading