Língua Portuguesa e Literatura para o Enem

Categoria: Língua e Tecnologia

Reescrita de artigo – o que é e quais são os benefícios?

Escrever é inegavelmente uma ferramenta poderosa para compartilhar suas ideias, sentimentos ou pesquisas com seu público. Você pode transmitir o único objetivo de seu trabalho de pesquisa, uma ideia única ou informações de maneira perfeita com sua escrita.

No entanto, criar conteúdo atraente não é tão simples e fácil quanto muitas pessoas pensam. Isso se torna mais desafiador se você apresentar sua ideia em um segundo idioma.

Escrever conteúdo em um idioma não nativo éuma subida tarefa que exige que você aprenda a estrutura sintática e o vocabulário desse idioma. Além disso, você deve saber como fazer a curadoria do seu artigoenvolventemente para torná-lo inspirador para os leitores. Isso muitas vezes leva as pessoasprecisando de mais habilidades de redação para tentar outros atalhos possíveis, como duplicar conteúdo de outra fonte.

A principal razão que os leva a cometer tais atos é evitar o constrangimento que podem ter de suportar por causa de erros em seu conteúdo escrito. Portanto, muitos indivíduos preferem plagiar o conteúdo de outras pessoas em vez de confiar em suas habilidades e se tornarem vulneráveis ​​a várias penalidades por cometer plágio.

Mas e se dissermos que existe uma maneira fácil de gerar conteúdo novo e atraente sem duplicar o trabalho de outras pessoas? Sim é possível. Você pode reescrever um artigo e gerar com eficiência uma nova versão do conteúdo publicado.

Nesta postagem do blog, discutiremos o que é a reescrita de artigos e como ela pode beneficiar você. Portanto, continue lendo este post até a última palavra para aprender tudo sobre a técnica de reescrever artigos.

Continue reading

Chat GPT – oportunidades e desafios para educação

O ano letivo de 2023 inicia-se com um novo desafio para educadores: o Chat GPT (Generative Pre-Trained Transformer). A ferramenta de inteligência artificial (IA) gratuita e acessível surpreendeu todo o mundo no final de 2022 e imediatamente se tornou um fenômeno global. Neste artigo, vamos mostrar os desafios e oportunidades que software traz para a área da educação. Confira!

Criado pela empresa Open AI nos Estados Unidos, tendo o bilionário Elon Musk como cofundador, o aplicativo tem assustado muita gente mundo a fora.

Os robôs do sistema criam argumentos sobre qualquer assunto, escrevem redações, fazem resumos, resolvem exercícios de matemática, traduzem idiomas e respondem a perguntas variadas, entre outras funções.

Em alguns centros de ensino a utilização do aplicativo foi proibida. A cidade de Nova York bloqueou o acesso à ferramenta em todas as escolas públicas. A Universidade Sciences Po, na França, também proibiu o uso do Chat GPT para evitar plágio e fraudes.

Tamanha proximidade com o comportamento humano choca e preocupa integrantes de diversos setores, incluindo a área educacional. Nesse sentido, a ferramenta tem provocado polêmicas, que vão além das divergências de ideias.

Em poucos segundos, os robôs formam opinião sobre temas sensíveis como política, sexo e religião.

A aposta revolucionária tem causado apreensão em especialistas no mundo todo pelos impactos negativos. Por isso, com mais de um milhão de usuários, para não perder e conquistar mais adeptos, a empresa anunciou, em 1º de fevereiro, um mecanismo que diferencia escritos por seres humanos daqueles reproduzidos por robôs.

Continue reading

Modelagem de tópicos – o que é e como funciona?

Aqui no Clube, falamos muito sobre a disponibilização de um corpus e da organização e preparação desse conjunto de dados dentro do sistema computacional pela tokenização de textos. Agora chegou a hora de realmente trabalhar a análise desse acervo. No mundo da informática, isso é chamado de modelagem de tópicos.

Trata-se de uma forma de mineração de texto, ou seja, uma forma de mergulhar em um corpus para identificar nele seus padrões – nisso, as técnicas que buscam a raiz das palavras, como a stemização (que indexa os termos) e a lematização (de vetorização que resulta em termos mais precisos), bem como a tokenização, colaboram para preparar o campo de mineração.

Cada padrão encontrado vira um tópico. Segundo Miriam Posner, professora de Humanidades Digitais que tem se transformado em uma referência no assunto, a modelagem de tópicos é “um método para achar e traçar clusters de palavras (chamado “tópicos” de forma abreviada) em grandes corpus de texto”.

Continue reading

Stop words – o que são e como identificar?

Na lógica de indexação de bilhões de palavras nos hardwares da vida, há uma série de verbetes considerados irrelevantes para o conjunto desejável de resultados de uma busca realizada em um mecanismo como o Google. São as chamadas stop words.

Stop word significa a palavra que pode ser totalmente suprimida, omitida ou ocultada na hora de fazer uma busca na internet sem que o sentido do que se quer encontrar seja perdido. Isso acontece, porque simplesmente as funções semânticas dessas palavras não se mostram tão determinantes para garantir resultados eficazes nos buscadores.

Neste sentido, palavras como “as”, “os”, “uns”, “de”, “para”, “com”, “por” são stop words, ou palavras de parada, em uma tradução livre do inglês. No fundo, é algo que a gente experencia toda vez que consulta um buscador qualquer na internet: o mais comum é escolher o que a gente considera como palavras-chave para fazer a pergunta certa para o aplicativo. Isso normalmente exclui artigos, conjunções e preposições.

É com essa “fé” –  de que esses termos não farão falta no momento de apresentação dos resultados – que os modelos de tópicos são construídos e disponibilizados como banco de dados de mecanismos como o Google e que os profissionais de marketing se esmeram tanto com atender aos preceitos dos Search Engine Optimization (SEO).

Continue reading

Tokenização de textos – o que é e como fazer?

A dinâmica pela qual o computador consegue armazenar e “ler” um texto é um tanto diferente daquela que nos ensinaram na escola e na vida. O processamento computacional faz uma categorização diversa da que conhecemos como letras, palavras, frases, orações, parágrafos: é a tokenização de textos.

Nesse ambiente, as unidades de medida são chamadas strings: as palavras são strings, bem como as sentenças e o próprio texto. É preciso acrescentar que os caracteres de uma string não precisam necessariamente ser alfanuméricos, podendo incluir caracteres especiais, como espaços, tabulações, hífens, etc.

Com isso, a tokenização de textos simplifica o corpus ao dividir a frase em tokens individuais (que não são necessariamente uma simples palavra – um exemplo disso é o tratamento que se dá a palavras compostas, como “guarda-chuva” e “segunda-feira”, que precisam valer como um único token para serem bem compreendidas pelo computador).

Continue reading

N-gramas – entenda o conceito e os campos de aplicação

Aqui no Clube do Português a gente fala sobre “n” assuntos interessantes, não é? Já pensou nessa expressão que acabei de usar: ‘“n” assuntos’? Se você entende do que estou falando, vai ficar fácil compreender o que são n-gramas.  Eles são uma subsequência de n itens de uma dada sequência. Essa sequência contígua de itens pertence a uma determinada amostra de texto ou fala, ou seja, a um corpus.

O termo “n-grama”, ou “n-gram”, em inglês, é usado por linguistas computacionais e engenheiros para se referir a combinações de palavras que ocorrem juntas (que descrevem um padrão de discurso), normalmente com uma certa frequência.

No fundo, é um jogo probabilístico que mede a chance de ocorrer uma dada letra na sequência de um determinado número de itens. Em um modelo de linguagem simples de n-grama, é a probabilidade de ocorrer uma palavra, condicionada a algum número de palavras anteriores.

Mas note que os n-gramas não são apenas palavras. Podem ser também itens como fonemas, sílabas, letras, ou pares de bases coletados dentro de um corpus de texto ou fala – sim, além de pertinentes ao campo das probabilidades, os n-gramas também estão ligados à linguística computacional.

Continue reading

Lematização e Stemização – para que servem esses processos?

Imagine o volume astronômico de palavras, termos e expressões que transitam, por segundo, na rede e que precisam ser decifrados, separados, processados, catalogados, entendidos e respondidos pelos computadores. 

Em poucos segundos, a carga de “entradas” de informação no processo computacional faz com que qualquer detalhe ínfimo tenha de ser procurado como agulha no palheiro. 

A fórmula para organizar o sistema e trazer resultados rápidos é adotar o Processamento de Linguagem Natural (PLN), ou Natural Language Processing (NLP), em inglês. Esse processo ocorre por meio de técnicas, como a lematização e a stemização.

E essas técnicas estão ligadas à área de machine learning. Mais: é a aplicação delas que viabiliza, por exemplo, as pesquisas que fazemos no Google.

Logo de cara, é preciso dizer que os mecanismos digitais de busca são a casa da stemização, técnica cuja função essencial é promover a indexação de palavras. Já a lematização é uma técnica mais apurada de vetorização que resulta em termos mais precisos (word vectors), e é usada principalmente para modelar tópicos textuais, eliminando plurais e utilizando sinônimos.

É bom ainda que se entenda que as duas técnicas, assim como a tokenização e a normalização, permitem às máquinas compreenderem a linguagem humana natural, ou seja, aquela que é falada pelas pessoas de uma sociedade.

E fazem isso extraindo a essência de cada palavra.

Continue reading

Mineração de texto – o que é e como funciona?

Agora que já vimos o que é corpus fica mais fácil entender outro conceito: o de mineração de textos (ou text mining). Trata-se de um processo de extração de informações de fontes formadas por dados não estruturados para possibilitar sua análise de um modo científico.

Opa, como é isso mesmo? Trocando em miúdos, é um jeito de transformar as informações que importam, encontradas em uma coleção de textos qualquer (como vimos, o corpus), em algoritmo

É como se o computador utilizasse uma caneta marca texto para primeiro grifar as palavras-chave (fase de extração), passando a seguir a agrupá-las em listas com base em padrões encontrados. Assim, consegue reorganizar o banco de textos, traduzindo-o, ressignificando-o e estruturando-o para a linguagem computacional.

Continue reading

Linguística de corpus – conceito e campos de aplicação

Da grande árvore da Linguística, surgiram vários galhos como a Sociolinguística, a Psicolinguística e a Linguística Textual. A Linguística de corpus é uma dessas ramificações.

Essa área se interessa por estudar a língua em uso, a partir de suas especificidades – como as expressões regionais – e da comparação com outras formas de expressão pela fala do dia a dia.

Como ela faz isso? A partir da coleta e análise de imensos bancos de dados formados por textos produzidos por falantes reais (a exemplo de discursos, textos históricos, entrevistas transcritas e conteúdo extraído de redes sociais). Para formar um corpus, só é preciso que eles tenham algo bem típico e, portanto, apresentem alguma similaridade.

Isso pode ser encontrado numa coleção de edições diárias de um jornal ou revista, na coleção de arquivos dos discursos feitos em Plenário do Congresso Nacional, ou ainda em todos os tweets de um influenciador digital qualquer.

Continue reading

Linguística computacional – conceito e campos de aplicação

A linguística computacional é um campo marcado pelo cruzamento da linguística com a tecnologia. Neste artigo, vamos aprofundar esse conceito e mostrar seus campos de aplicação. Vejamos!

Muito mais do que entender como você se comunica com seu computador, é curioso pensar como é que ele entende você? Como, afinal, a linguagem humana é compreendida em bytes e bits.

Linguística, Informática e Inteligência Artificial (IA), tudo junto e misturado como forma de expressão que parte da relação entre o processamento de linguagem natural com as inovações tecnológicas. É disso que se faz a linguística computacional, uma área multidisciplinar do conhecimento que utiliza processos computacionais para o controle e uso da linguagem humana.

Olha, é preciso pontuar que a linguística é uma área de conhecimento razoavelmente recente, e que a computacional, então, é mais ainda, mesmo que venha apresentando um desenvolvimento considerável nos últimos anos. Ela visa facilitar cada vez mais a interação homem-máquina, aspecto fundamental para a rápida popularização dos computadores.

A linguística computacional desenvolve sistemas capazes de produzir e reconhecer a linguagem natural, a do dia a dia da gente. E faz isso por meio de algoritmos, métodos e softwares que permitem aos computadores “traduzirem” automaticamente para si documentos e arquivos de texto, voz ou vídeo gerados em alguma língua humana.

Entre suas aplicações mais comuns, estão programas como tradutores automáticos (ex: Google Tradutor), corretores ortográficos e gramaticais (ex: corretor do Word), entre outros. Estão sob esse “guarda-chuva”, também, os chatbots, que são aqueles programas que dão conta de conversar online com pessoas (consumidores) por meio de um chat (sala de bate-papo) dentro de sites ou por redes de mensageria (WhatsApp, em especial).

Linguística aplicada à Inteligência Artificial

Como um campo que estuda e manipula o processamento computacional das linguagens naturais humanas, a Linguística Computacional é dividida em duas áreas: Linguística de Corpus e Processamento de Linguagem Natural (NLP).

Um corpus linguístico que tenha como base a computação é um imenso banco de dados de textos de uma língua específica que vão sendo recolhidos pelo sistema operacional e organizados sistematicamente no computador a partir do conhecimento prévio dessa língua pelo sistema.

Já o NLP é o passo adiante, é a vertente da inteligência artificial que ajuda o computador a entender, interpretar e manipular esse banco de dados da linguagem humana. É como a AI de um chatbot torna-se capaz de compreender, interagir e atender à demanda do consumidor.

Está aí a justificativa para a necessidade dessa conexão entre linguística e tecnologia. Para construir um bot que consiga dar conta do atendimento ao cliente, é preciso que ele reconheça a linguagem da pessoa que é sua interlocutora e que possa construir soluções linguísticas que deem suporte a uma conversa satisfatória. Se não, imagina você dizendo ao bot que quer cancelar um serviço e ele respondendo com frases desconexas…

Como se faz isso?

É fácil intuir que a linguística computacional está imersa nos conceitos de matemática e lógica e que utiliza elementos básicos de linguagens de programação, como Python, com ênfase na biblioteca NLTK (Natural Language Toolkit).

Entre as soluções que prometem resolver estão a correção automática de erros de digitação, a tradução instantânea, o reconhecimento, emissão e síntese de voz (típico de robôs humanóides), os chatbots, a análise de sentimentos e a sumarização de textos.

É preciso que o sistema aprenda como as regras se organizam cognitivamente no cérebro de cada falante humano e as represente por um símbolo matemático aplicável em linguagem de programação, para imitar a comunicação humana.

O papel do linguista é traduzir para a linguagem computacional os detalhes de como a língua faz em termos semântico, fonético, fonológico, morfológico, sintático e pragmático, introduzindo conhecimento sobre a formação verbal, gênero e número etc., para poder conversar bem com “aquela pecinha que fica atrás do teclado”.

*

Gostou do texto? Então vale a pena conferir todos os artigos da série Língua e Tecnologia.

© 2024 Clube do Português

Theme by Anders NorenUp ↑

#CodigoClever