Agora que já vimos o que é corpus fica mais fácil entender outro conceito: o de mineração de textos (ou text mining). Trata-se de um processo de extração de informações de fontes formadas por dados não estruturados para possibilitar sua análise de um modo científico.

Opa, como é isso mesmo? Trocando em miúdos, é um jeito de transformar as informações que importam, encontradas em uma coleção de textos qualquer (como vimos, o corpus), em algoritmo

É como se o computador utilizasse uma caneta marca texto para primeiro grifar as palavras-chave (fase de extração), passando a seguir a agrupá-las em listas com base em padrões encontrados. Assim, consegue reorganizar o banco de textos, traduzindo-o, ressignificando-o e estruturando-o para a linguagem computacional.

Continue reading