Língua Portuguesa e Literatura para o Enem

Tag: NLP

Lematização e Stemização – para que servem esses processos?

Imagine o volume astronômico de palavras, termos e expressões que transitam, por segundo, na rede e que precisam ser decifrados, separados, processados, catalogados, entendidos e respondidos pelos computadores. 

Em poucos segundos, a carga de “entradas” de informação no processo computacional faz com que qualquer detalhe ínfimo tenha de ser procurado como agulha no palheiro. 

A fórmula para organizar o sistema e trazer resultados rápidos é adotar o Processamento de Linguagem Natural (PLN), ou Natural Language Processing (NLP), em inglês. Esse processo ocorre por meio de técnicas, como a lematização e a stemização.

E essas técnicas estão ligadas à área de machine learning. Mais: é a aplicação delas que viabiliza, por exemplo, as pesquisas que fazemos no Google.

Logo de cara, é preciso dizer que os mecanismos digitais de busca são a casa da stemização, técnica cuja função essencial é promover a indexação de palavras. Já a lematização é uma técnica mais apurada de vetorização que resulta em termos mais precisos (word vectors), e é usada principalmente para modelar tópicos textuais, eliminando plurais e utilizando sinônimos.

É bom ainda que se entenda que as duas técnicas, assim como a tokenização e a normalização, permitem às máquinas compreenderem a linguagem humana natural, ou seja, aquela que é falada pelas pessoas de uma sociedade.

E fazem isso extraindo a essência de cada palavra.

Continue reading

Mineração de texto – o que é e como funciona?

Agora que já vimos o que é corpus fica mais fácil entender outro conceito: o de mineração de textos (ou text mining). Trata-se de um processo de extração de informações de fontes formadas por dados não estruturados para possibilitar sua análise de um modo científico.

Opa, como é isso mesmo? Trocando em miúdos, é um jeito de transformar as informações que importam, encontradas em uma coleção de textos qualquer (como vimos, o corpus), em algoritmo

É como se o computador utilizasse uma caneta marca texto para primeiro grifar as palavras-chave (fase de extração), passando a seguir a agrupá-las em listas com base em padrões encontrados. Assim, consegue reorganizar o banco de textos, traduzindo-o, ressignificando-o e estruturando-o para a linguagem computacional.

Continue reading

© 2024 Clube do Português

Theme by Anders NorenUp ↑

#CodigoClever