Linguística de corpus: confira o conceito e campos de aplicação

Da grande árvore da Linguística, surgiram vários galhos como a Sociolinguística, a Psicolinguística e a Linguística Textual. A Linguística de corpus é uma dessas ramificações.

Essa área se interessa por estudar a língua em uso, a partir de suas especificidades – como as expressões regionais – e da comparação com outras formas de expressão pela fala do dia a dia.

Como ela faz isso? A partir da coleta e análise de imensos bancos de dados formados por textos produzidos por falantes reais (a exemplo de discursos, textos históricos, entrevistas transcritas e conteúdo extraído de redes sociais). Para formar um corpus, só é preciso que eles tenham algo bem típico e, portanto, apresentem alguma similaridade.

Isso pode ser encontrado numa coleção de edições diárias de um jornal ou revista, na coleção de arquivos dos discursos feitos em Plenário do Congresso Nacional, ou ainda em todos os tweets de um influenciador digital qualquer.

Para que ser?

O grupo de dados (corpus) é coletado criteriosamente para servir de objeto de pesquisa linguística. Todos esses dados precisam refletir os usos reais da linguagem.

Isso porque o objetivo é encontrar as possíveis generalizações da língua ou esboçar teorias a respeito do funcionamento linguístico daquele corpus, por comparações da língua, contextualizações de palavras etc.

Seja qual assunto essa coletânea abordar ou quem foi(foram) o(s) seu(s) autor(es), ela deve ser constituída de dados autênticos (não inventados), legíveis por computador e representativos de uma língua ou variedade dela da qual se deseja estudar.

A Linguística de corpus pode ser aplicada em situações bem variadas. Pode, por exemplo, auxiliar tradutores a criar dicionários técnicos para áreas específicas do conhecimento ou apenas ajudar um palestrante a formar uma nuvem de palavras, com o objetivo de observar as mais citadas com base em um tema proposto ou, ainda, para detectar os verbetes mais importantes para uma audiência e com que frequência eles surgem na mente da plateia.

Outros pesquisadores já isolaram um corpus para avaliar gírias e memes em mídias sociais, para monitorar e analisar debates e hashtags ou para realizar estudos sociolinguísticos voltados aos hábitos de consumo da população.

Os computadores têm tudo a ver com isso

A Linguística de corpus é um subcampo da Linguística computacional. Por isso, está intimamente ligada ao uso de computadores, e os especialistas comemoram o enorme auxílio de ferramentas eletrônicas para acelerar não só a coleta, mas também a análise dos dados cadastrados.

Isso pode ser feito por ferramentas computacionais simples ou sofisticadas. A própria ideia do Windows, que facilita muito o armazenamento (e a busca) de dados em pastas, parece levar a sério a construção de corpora bem personalizadas (corpora é o plural de corpus, ou seja, remete a coleções de coleções de textos).

O Microsoft Word é exemplo de programa que lista e conta palavras de um corpus – estou falando da função Contagem de Palavras, da aba Revisão/Revisão de Texto.

Há ainda as funções concordanciadoras, que permitem procurar verbetes específicas em um corpus, fornecendo exaustivas listas para as ocorrências da palavra em contexto – como se dá nas funcionalidades Localizar, Substituir e Selecionar, da aba Página Inicial/Editando do Word –, e as etiquetadoras, que inserem etiquetas (códigos) em trechos do corpus – caso típico de Referências (notas de rodapé e outros marcadores), de Paginação e dos Comentários.

Esses programas aceleram a reorganização e a extração de informações no corpus, facilitando observar e interpretar dados.

Sistema probabilístico

Interessante observar que a base da Linguística de corpus é empírica e leva em conta a noção de linguagem enquanto sistema probabilístico. Significa dizer que nada que é visto como relevante pela Linguística ocorre de forma aleatória.

Em outras palavras, parte-se do pressuposto de que existe uma correlação entre os traços linguísticos e os contextos situacionais de uso da linguagem, sendo perfeitamente possível identificar (e evidenciar) padrões bem como quantificá-los.

Conceitos de padronização

A Linguística de corpus definiu três conceitos básicos de padronização da língua: colocação, coligação e prosódia semântica (estruturas que se repetem significativamente).

A partir deles, a área se debruça sobre vários segmentos de estudo, como o da compilação de corpora, ao desenvolvimento de ferramentas para análise de corpora, à descrição de linguagem etc.

O conceito colocação é utilizado em linguística com dois sentidos diferentes:

combinação frequente, preferencial ou usual de palavras (nomeadamente substantivo + adjetivo e verbo + substantivo);
combinação aparentemente livre de palavras, gerada a partir das regras da língua, mas que apresentam algum tipo de restrição lexical determinada pela norma.

Já a coligação é a associação entre itens lexicais e gramaticais. Esse conceito consiste na coocorrência de um elemento linguístico base.

Por fim, de acordo com Berber Sardinha, prosódia semântica é “a associação recorrente entre itens lexicais e um campo semântico, indicando uma certa conotação (negativa, positiva ou neutra) ou instância avaliativa”.

Gostou do texto? Então vale a pena conferir todos os artigos da série Língua e Tecnologia.