Na lógica de indexação de bilhões de palavras nos hardwares da vida, há uma série de verbetes considerados irrelevantes para o conjunto desejável de resultados de uma busca realizada em um mecanismo como o Google. São as chamadas stop words.

Stop word significa a palavra que pode ser totalmente suprimida, omitida ou ocultada na hora de fazer uma busca na internet sem que o sentido do que se quer encontrar seja perdido. Isso acontece, porque simplesmente as funções semânticas dessas palavras não se mostram tão determinantes para garantir resultados eficazes nos buscadores.

Neste sentido, palavras como “as”, “os”, “uns”, “de”, “para”, “com”, “por” são stop words, ou palavras de parada, em uma tradução livre do inglês. No fundo, é algo que a gente experencia toda vez que consulta um buscador qualquer na internet: o mais comum é escolher o que a gente considera como palavras-chave para fazer a pergunta certa para o aplicativo. Isso normalmente exclui artigos, conjunções e preposições.

É com essa “fé” –  de que esses termos não farão falta no momento de apresentação dos resultados – que os modelos de tópicos são construídos e disponibilizados como banco de dados de mecanismos como o Google e que os profissionais de marketing se esmeram tanto com atender aos preceitos dos Search Engine Optimization (SEO).

Mais uma vez, a questão é de contexto

Nesse aspecto, é preciso entender que, para ser considerada irrelevante, uma palavra depende do contexto da busca. Pode ser que algum termo faça toda a diferença em uma linha de corte específica na pesquisa realizada.

Esses cortes de pesquisa são a obsessão de quem lida com SEO, cujo objetivo é conferir o máximo de relevância às palavras escolhidas para formar não só o texto em si, mas sobretudo os títulos, intertítulos, meta description, meta keywords. É isso que, apontam eles, levam seus hiperlinks para os primeiros resultados do Google ou do Bing.

Esse mecanismo funciona assim: o mecanismo (search engine) quebra a frase digitada pelo usuário no campo de busca em tokens, sendo que cada token representa um subconjunto formado pelas palavras dessa frase, com e sem stop words

O passo seguinte é gerar internamente testes de similaridade entre os tokens capazes de entender se a palavra vai ser tratada como stop word ou não. Um exemplo disso? Quando o artigo é importante porque faz parte do nome de uma obra. Como ignorar o artigo do filme “Os Pássaros”, de Alfred Hitchcock? Difícil… Faça um teste!

Lógica também vale para as URLs

O esforço de ocultação das stop words também vale para as URLs, porque ajudam a tornar esses endereços eletrônicos de sites mais amigáveis ao usuário e a acelerar o tempo de resposta do buscador, o que pode fazer diferença em favor das páginas que têm esse grau de sofisticação e capricho.

O conceito de stop words é fundamental nos processos de mineração de texto e processamento de linguagem natural. Por isso, é um dos tópicos estudados no campo da linguística computacional.

*

Gostou do texto? Então vale a pena conferir todos os artigos da série Língua e Tecnologia.