Língua Portuguesa e Literatura para o Enem

Tag: tecnologia

Modelagem de tópicos – o que é e como funciona?

Aqui no Clube, falamos muito sobre a disponibilização de um corpus e da organização e preparação desse conjunto de dados dentro do sistema computacional pela tokenização de textos. Agora chegou a hora de realmente trabalhar a análise desse acervo. No mundo da informática, isso é chamado de modelagem de tópicos.

Trata-se de uma forma de mineração de texto, ou seja, uma forma de mergulhar em um corpus para identificar nele seus padrões – nisso, as técnicas que buscam a raiz das palavras, como a stemização (que indexa os termos) e a lematização (de vetorização que resulta em termos mais precisos), bem como a tokenização, colaboram para preparar o campo de mineração.

Cada padrão encontrado vira um tópico. Segundo Miriam Posner, professora de Humanidades Digitais que tem se transformado em uma referência no assunto, a modelagem de tópicos é “um método para achar e traçar clusters de palavras (chamado “tópicos” de forma abreviada) em grandes corpus de texto”.

Continue reading

Stop words – o que são e como identificar?

Na lógica de indexação de bilhões de palavras nos hardwares da vida, há uma série de verbetes considerados irrelevantes para o conjunto desejável de resultados de uma busca realizada em um mecanismo como o Google. São as chamadas stop words.

Stop word significa a palavra que pode ser totalmente suprimida, omitida ou ocultada na hora de fazer uma busca na internet sem que o sentido do que se quer encontrar seja perdido. Isso acontece, porque simplesmente as funções semânticas dessas palavras não se mostram tão determinantes para garantir resultados eficazes nos buscadores.

Neste sentido, palavras como “as”, “os”, “uns”, “de”, “para”, “com”, “por” são stop words, ou palavras de parada, em uma tradução livre do inglês. No fundo, é algo que a gente experencia toda vez que consulta um buscador qualquer na internet: o mais comum é escolher o que a gente considera como palavras-chave para fazer a pergunta certa para o aplicativo. Isso normalmente exclui artigos, conjunções e preposições.

É com essa “fé” –  de que esses termos não farão falta no momento de apresentação dos resultados – que os modelos de tópicos são construídos e disponibilizados como banco de dados de mecanismos como o Google e que os profissionais de marketing se esmeram tanto com atender aos preceitos dos Search Engine Optimization (SEO).

Continue reading

Tokenização de textos – o que é e como fazer?

A dinâmica pela qual o computador consegue armazenar e “ler” um texto é um tanto diferente daquela que nos ensinaram na escola e na vida. O processamento computacional faz uma categorização diversa da que conhecemos como letras, palavras, frases, orações, parágrafos: é a tokenização de textos.

Nesse ambiente, as unidades de medida são chamadas strings: as palavras são strings, bem como as sentenças e o próprio texto. É preciso acrescentar que os caracteres de uma string não precisam necessariamente ser alfanuméricos, podendo incluir caracteres especiais, como espaços, tabulações, hífens, etc.

Com isso, a tokenização de textos simplifica o corpus ao dividir a frase em tokens individuais (que não são necessariamente uma simples palavra – um exemplo disso é o tratamento que se dá a palavras compostas, como “guarda-chuva” e “segunda-feira”, que precisam valer como um único token para serem bem compreendidas pelo computador).

Continue reading

N-gramas – entenda o conceito e os campos de aplicação

Aqui no Clube do Português a gente fala sobre “n” assuntos interessantes, não é? Já pensou nessa expressão que acabei de usar: ‘“n” assuntos’? Se você entende do que estou falando, vai ficar fácil compreender o que são n-gramas.  Eles são uma subsequência de n itens de uma dada sequência. Essa sequência contígua de itens pertence a uma determinada amostra de texto ou fala, ou seja, a um corpus.

O termo “n-grama”, ou “n-gram”, em inglês, é usado por linguistas computacionais e engenheiros para se referir a combinações de palavras que ocorrem juntas (que descrevem um padrão de discurso), normalmente com uma certa frequência.

No fundo, é um jogo probabilístico que mede a chance de ocorrer uma dada letra na sequência de um determinado número de itens. Em um modelo de linguagem simples de n-grama, é a probabilidade de ocorrer uma palavra, condicionada a algum número de palavras anteriores.

Mas note que os n-gramas não são apenas palavras. Podem ser também itens como fonemas, sílabas, letras, ou pares de bases coletados dentro de um corpus de texto ou fala – sim, além de pertinentes ao campo das probabilidades, os n-gramas também estão ligados à linguística computacional.

Continue reading

Lematização e Stemização – para que servem esses processos?

Imagine o volume astronômico de palavras, termos e expressões que transitam, por segundo, na rede e que precisam ser decifrados, separados, processados, catalogados, entendidos e respondidos pelos computadores. 

Em poucos segundos, a carga de “entradas” de informação no processo computacional faz com que qualquer detalhe ínfimo tenha de ser procurado como agulha no palheiro. 

A fórmula para organizar o sistema e trazer resultados rápidos é adotar o Processamento de Linguagem Natural (PLN), ou Natural Language Processing (NLP), em inglês. Esse processo ocorre por meio de técnicas, como a lematização e a stemização.

E essas técnicas estão ligadas à área de machine learning. Mais: é a aplicação delas que viabiliza, por exemplo, as pesquisas que fazemos no Google.

Logo de cara, é preciso dizer que os mecanismos digitais de busca são a casa da stemização, técnica cuja função essencial é promover a indexação de palavras. Já a lematização é uma técnica mais apurada de vetorização que resulta em termos mais precisos (word vectors), e é usada principalmente para modelar tópicos textuais, eliminando plurais e utilizando sinônimos.

É bom ainda que se entenda que as duas técnicas, assim como a tokenização e a normalização, permitem às máquinas compreenderem a linguagem humana natural, ou seja, aquela que é falada pelas pessoas de uma sociedade.

E fazem isso extraindo a essência de cada palavra.

Continue reading

Mineração de texto – o que é e como funciona?

Agora que já vimos o que é corpus fica mais fácil entender outro conceito: o de mineração de textos (ou text mining). Trata-se de um processo de extração de informações de fontes formadas por dados não estruturados para possibilitar sua análise de um modo científico.

Opa, como é isso mesmo? Trocando em miúdos, é um jeito de transformar as informações que importam, encontradas em uma coleção de textos qualquer (como vimos, o corpus), em algoritmo

É como se o computador utilizasse uma caneta marca texto para primeiro grifar as palavras-chave (fase de extração), passando a seguir a agrupá-las em listas com base em padrões encontrados. Assim, consegue reorganizar o banco de textos, traduzindo-o, ressignificando-o e estruturando-o para a linguagem computacional.

Continue reading

Linguística de corpus – conceito e campos de aplicação

Da grande árvore da Linguística, surgiram vários galhos como a Sociolinguística, a Psicolinguística e a Linguística Textual. A Linguística de corpus é uma dessas ramificações.

Essa área se interessa por estudar a língua em uso, a partir de suas especificidades – como as expressões regionais – e da comparação com outras formas de expressão pela fala do dia a dia.

Como ela faz isso? A partir da coleta e análise de imensos bancos de dados formados por textos produzidos por falantes reais (a exemplo de discursos, textos históricos, entrevistas transcritas e conteúdo extraído de redes sociais). Para formar um corpus, só é preciso que eles tenham algo bem típico e, portanto, apresentem alguma similaridade.

Isso pode ser encontrado numa coleção de edições diárias de um jornal ou revista, na coleção de arquivos dos discursos feitos em Plenário do Congresso Nacional, ou ainda em todos os tweets de um influenciador digital qualquer.

Continue reading

Como a tecnologia pode ajudar na alfabetização

O que a carteira em sala de aula tem a ver com um mundo hiperconectado? Muito pouco, sem dúvida. Talvez quase nada… Afinal, o mundo mudou, alunos e professores mudaram, a dinâmica das interações não é mais a mesma dentro e fora da escola.

Sobretudo depois da pandemia, quem imagina ser possível retornar à escola sem ter um novo olhar sobre as coisas?

Nesse cenário, é crucial que o professor perceba o quanto a tecnologia pode ser uma aliada na mediação do conhecimento e como o interesse é um motor superpotente para a aprendizagem. Então, não há como dissociar a educação – não só a alfabetização, mas o letramento, em particular – de como o mundo se encontra hoje, com tantos bites e bytes, gigas e “gês” rolando por aí.

Em 2020, 92% das crianças e adolescentes brasileiros de 10 a 17 anos viviam em domicílios com acesso à internet, segundo o Comitê Gestor da Internet no Brasil (CGI.br). A proporção foi menor (82%) para indivíduos das classes D e E. Porém é importante ressaltar que a inserção de recursos tecnológicos no ambiente educacional, por si só, não garante que o estudante absorva o conhecimento.

O que pode trazer esse resultado é a maneira como o professor promove a articulação entre as ferramentas e conteúdos curriculares. E, diga-se, isso pode ser um enorme desafio para ele, que vai confrontar suas habilidades com os alunos nativos digitais.

Continue reading

© 2024 Clube do Português

Theme by Anders NorenUp ↑

#CodigoClever