Imagine o volume astronômico de palavras, termos e expressões que transitam, por segundo, na rede e que precisam ser decifrados, separados, processados, catalogados, entendidos e respondidos pelos computadores. 

Em poucos segundos, a carga de “entradas” de informação no processo computacional faz com que qualquer detalhe ínfimo tenha de ser procurado como agulha no palheiro. 

A fórmula para organizar o sistema e trazer resultados rápidos é adotar o Processamento de Linguagem Natural (PLN), ou Natural Language Processing (NLP), em inglês. Esse processo ocorre por meio de técnicas, como a lematização e a stemização.

E essas técnicas estão ligadas à área de machine learning. Mais: é a aplicação delas que viabiliza, por exemplo, as pesquisas que fazemos no Google.

Logo de cara, é preciso dizer que os mecanismos digitais de busca são a casa da stemização, técnica cuja função essencial é promover a indexação de palavras. Já a lematização é uma técnica mais apurada de vetorização que resulta em termos mais precisos (word vectors), e é usada principalmente para modelar tópicos textuais, eliminando plurais e utilizando sinônimos.

É bom ainda que se entenda que as duas técnicas, assim como a tokenização e a normalização, permitem às máquinas compreenderem a linguagem humana natural, ou seja, aquela que é falada pelas pessoas de uma sociedade.

E fazem isso extraindo a essência de cada palavra.

Como funciona a lematização?

No caso da lematização, o que se quer extrair é o lemma (palavra base) do termo – por exemplo, a palavra base de “aprendendo”, “aprendizado”, “aprendido” e aprendiz” é sempre “aprender”. Nessa técnica, a classificação vocabular ou morfológica é considerada, e o resultado disso é sempre uma palavra que realmente existe na gramática.

Conforme o grau de sofisticação do algoritmo de lematização utilizado em um processo, pode-se chegar a resultados mais ricos por meio da associação entre sinônimos, como relacionar as palavras “iluminação” e “poste”. Isso é impensável com a aplicação da técnica stemização, que só dá conta de reduzir essas palavras à sua raiz, sem associá-las.

Como funciona a stemização?

Como se vê, a stemização (ou stemming, em inglês) é uma técnica de PLN mais simples. Cada palavra é individualmente reduzida à sua raiz (radical) ou, como é chamado na técnica, ao seu stem. No caso de “aprendendo”, a stemização da palavra gera como resultado “aprend”.

Os algoritmos operadores dessa técnica têm um conjunto de regras para decidirem como fazer os cortes até chegar à raiz da palavra. Mas, não raro, a redução acaba gerando uma outra palavra gramaticalmente incorreta. Com isso, não é garantido que as palavras encontradas existam, o que pode ser um problema dependendo do ambiente no qual ela vai ser aplicada.

Essa técnica, portanto, não é adequada em aplicações que busquem analisar traços de sentimento humano em textos em linguagem natural. 

*

Gostou do texto? Então vale a pena conferir todos os artigos da série Língua e Tecnologia.