Guest post: Pesquisa terminológica em tradução

Bem-vindos de volta à série de publicações convidadas!

Hoje seria dia da série de entrevistas, mas, impreterivelmente neste mês, invertemos a ordem. Portanto, a série de entrevistas será no dia 10.

É com imenso prazer que recebo um grande amigo, meu veterano, aqui no blog.

Seja bem-vindo, Deni!

Source: Unsplash

O Google ou um corpus? Quem tirará minhas dúvidas?

Agradeço minha amiga Caroline Alberoni pela oportunidade de escrever para o seu blog. Ela já havia feito o convite há algum tempo, e desde então venho tentando pensar em um tema que possa ser interessante para os seus leitores. Nesse ínterim, propus para os meus alunos do curso de Tradução da UNILAGO que traduzissem uma publicação convidada como atividade da minha disciplina de Prática de Tradução. Essa, certamente, foi uma experiência muito proveitosa para os alunos e para mim!

Para a escolha do tópico que abordo nesse texto, retornei aos meus anos de graduação em Tradução e fui tentar resgatar o que havia fundamentalmente mudado na minha dinâmica como tradutor. Lembro-me que no início dos anos 2000, a Internet já fazia, de certa forma, parte de nossas vidas, e buscadores como o Yahoo, Cadê e AltaVista nos ajudavam a encontrar o que precisávamos naquele mundo de informações que já parecia ser um mar sem fim. Entretanto, foi o Google que popularizou as pesquisas que não eram exatamente uma busca por uma página, mas se tratava apenas de uma averiguação de frequência. Lembro-me de já usá-lo, nos meus exercícios de tradução (sobretudo de versão), para me certificar de uma regência, uma ortografia ou a formalidade ou informalidade no uso de uma palavra ou expressão.

Alguns anos depois, a quantidade de informações indexadas pelo Google aumentou enormemente. Dadas as diferentes tipologias de textos que são indexados, o Google foi “se especializando” e hoje é possível procurar apenas em notícias, textos acadêmicos e livros. No caso desses últimos, o Google ainda criou uma ferramenta chamada n-gram viewer (não disponível para o português), por meio da qual é possível contrastar a frequência de uma dada palavra ou expressão num período de tempo e ainda comparar com outra palavra ou expressão.

Para exemplificar o quão interessante pode ser o uso dessa ferramenta, tomemos uma publicação parte de uma recente série sobre gramática e uso, em que Michael Rundell, editor-chefe do dicionário da língua inglesa Macmillan, trata do uso de “different from” e “different to”. Com base em uma observação em corpus, ele conclui que “different to” é raramente usado no inglês americano, mas é comum no inglês britânico. Fui verificar o que o Google n-gram viewer tinha a dizer a respeito, com base em ocorrências em livros publicados de 1800 a 2008, e chegamos às mesmas constatações de Michael Rundell: “different from” é bem mais recorrente em ambas as variantes da língua inglesa (sempre foi), mas parece estar ganhando (discretamente) fôlego na literatura, nos últimos anos. Fiquemos de olho.

No exemplo que acabo de dar, tanto o Google quanto o corpus proporcionaram uma conclusão semelhante. Nesse sentido, noto que tenho encorajado meus alunos a valerem-se da Internet como forma de auxiliarem suas tarefas na disciplina de Prática de Tradução, mas com um olhar duvidoso sobre tudo o que esse mundo de informações apresenta. O grande volume de textos que vemos publicados on-line, hoje, tornou difícil até mesmo dizer o que, de fato, foi escrito por falantes nativos da língua e o que é produto de tradução (automática ou não). É na tentativa de tornar tais pesquisas mais confiáveis e representativas dos usos da língua que o corpus se mostra útil.

Caberia aqui uma rápida definição do que vem a ser um corpus (palavra latina, cujo plural é corpora). Trata-se de um grande conjunto de textos, selecionados segundo alguns critérios (para que o corpus servirá? Qual será sua extensão? Que tipos de textos farão parte dele?), em formato digital, de modo a extrair-se dele informações linguísticas relevantes. No meio acadêmico, esse tópico vem sendo tratado já há algum tempo, mas tem ganhado cada vez mais força com a Internet e com a grande capacidade de armazenamento e processamento dos computadores atualmente. Se antes, para criar um corpus, era necessário um árduo trabalho de digitalização de textos impressos, hoje é possível compilar um corpus a partir de textos que já se encontram disponíveis na Web, de maneira rápida e automatizada, e que podem servir para propósitos diversos. Um tradutor, por exemplo, diante de um trabalho sobre meliponicultura ou mineralogia, além de recursos como dicionários e sites especializados pode recorrer a um corpus compilado especificamente para a tradução de um texto e extrair dali termos atuais, se pensarmos que tal corpus foi constituído a partir de textos recentes, encontrados na Internet.¹

Mas por que não utilizar, simplesmente, o buscador do Google para fazer essa mesma tarefa? Afinal, compilar um corpus exige que se faça a seleção dos textos e que eles sejam armazenados com certa sistematicidade (em arquivos que sejam legíveis por programas específicos que processam corpus). É preciso ter em mente, contudo, que uma busca no Google, hoje, pode retornar resultados que não correspondem, muitas vezes, à realidade de usos. É justamente a vastidão de textos que são indexados por um motor de busca como o Google que desabona a sua utilização quando estamos em dúvida sobre um certo termo ou um uso. Os textos ali presentes podem ter origens que não são exatamente as mais confiáveis (a menos que estejamos buscando no Google Livros, como exemplifiquei acima).

Recentemente, em um exercício com meus alunos de Prática de Tradução, o termo “recycling containers” apareceu no texto de partida, o que gerou uma certa variedade de opções nos textos de chegada. A tradução mais frequente foi “recipiente de reciclagem” (três ocorrências); “contêiner de reciclagem” e “container de reciclagem” foram, cada um, a opção de dois alunos; uma aluna apresentou “contentor de reciclagem”, em seu texto (o que parece ser também a tradução do Google Tradutor para “recycling container”).

Ao recorrer ao Google, é possível verificar que “recipiente de reciclagem” é a opção mais frequente, seguida de “contentor de reciclagem”. Embora “recipiente de reciclagem” me parecesse uma possibilidade plausível, eu não estava satisfeito com essa tradução. “Contentor de reciclagem” estava fora de questão, mas como mediador-professor da disciplina, eu deveria motivar minhas decisões e expô-las aos alunos. Intuitivamente, pensei em “lixeira de reciclagem” como uma tradução apropriada, mas a frequência do Google indicava que esse termo era menos frequente que “recipiente de reciclagem”².

É aqui que o uso de um corpus parece-me apropriado e mostra vantagens sobre o Google. Utilizei um corpus que está gratuitamente disponível na Web e faz parte de um conjunto de recursos disponibilizado pela Linguateca³. Mais especificamente, utilizei o corpus CHAVE que, por sua vez, faz parte do AC/DC, um conjunto de corpora, convenientemente armazenados e acessíveis de um mesmo local. O CHAVE conta com textos jornalísticos da Folha de S. Paulo e do jornal português Público. A escolha recaiu sobre esse corpus, pois, eu gostaria de atestar que “contentor” era uma palavra mais utilizada em Portugal.

Duas buscas confirmaram minha hipótese, mas, para tanto, foi necessário especificar que uma busca deveria retornar apenas resultados dos textos brasileiros e a outra, apenas textos portugueses. Para tanto, adicionei à busca a restrição [variante=“BR”] e [variante=“PT”]⁴, respectivamente. Conforme previa, não houve uma ocorrência sequer de “contentor” no português brasileiro; já na variante portuguesa, foram 930 resultados.

Era, então, o momento de embasar a minha escolha (“lixeira de reciclagem”) para a tradução de “recycling containers”. O Google, como já antevi, não me ajudaria, pois, dava como vencedor “recipiente de reciclagem”. Apelei, assim, para um outro corpus, disponível on-line, o ptTenTen. Esse corpus encontra-se armazenado na ferramenta Sketch Engine (veja nota de rodapé 1) e contém alguns bilhões de palavras (o que é bastante significativo). Além disso, o ptTenTen, assim como o CHAVE, permite que se façam buscas nas variantes brasileira e portuguesa ou separadamente.

Minha breve pesquisa confirmou, numericamente (ainda que com números baixos), o que eu suspeitava: “lixeira de reciclagem” é o termo mais frequente entre aqueles apresentados como opção de tradução para “recycling container”, conforme o quadro abaixo.

Captura de Tela 2016-08-01 às 11.24.32

Vale ressaltar, reafirmando o que digo acima sobre o grande volume de informações na Internet hoje (e que acaba sendo indexado pelo Google), que percebi que muitos dos resultados para a busca “contentor de reciclagem” eram páginas de sites como Alibaba ou sites gerados com o auxílio de tradução automática, além dos textos que haviam sido escritos em outras variedades não brasileiras do português.

Com essa experiência de tradução que aqui apresento, busco fomentar uma reflexão sobre um aspecto da competência do tradutor, isto é, como a prática tradutória tem sido afetada de modo a favorecer o texto final, minimizando esforços e tempo, tão caros num mundo onde o tradutor nunca foi tão necessário. A utilização de corpora parece, num primeiro momento, acrescentar mais um trabalho às já muitas tarefas do tradutor, todavia, esse exemplo, ainda que simples, mostra que nossa intuição pode ser confirmada ou refutada com dados mais confiáveis.

¹ Uma ferramenta que pode auxiliar um tradutor nesse sentido é o Sketch Engine, um processador de corpus que funciona on-line e que a partir de algumas palavras-chave (o termo correto aqui seria “seeds”) busca a Web e compila um corpus com base nessas palavras-chave. O Sketch Engine é capaz de processar corpora de diversas línguas e oferece recursos diversos, desde uma lista de frequência de palavras presentes no corpus até as chamadas word sketchs, em que é possível ver padrões de coocorrência de palavras. A ferramenta pode ser acessada em https://www.sketchengine.co.uk.

² No momento em que escrevo esse texto “recipiente de reciclagem” ocorre 74 mil vezes, enquanto “lixeira de reciclagem” tem 20,5 mil ocorrências.

³ A Linguateca é um um centro de recursos para o processamento do português que conta com o apoio de diversos pesquisadores no Brasil e em Portugal. Os recursos da Linguateca podem ser acessados em http://www.linguateca.pt.

⁴ Essas restrições de busca e tantas outras tornam o uso de corpora interessante. O corpus precisa conter informações (nesse caso, a que variante do português pertence o texto) e essas são adicionadas manualmente ou automaticamente. Outro tipo de informação útil e que é possível adicionar automaticamente são as categorias gramaticais das palavras. Um corpus anotado com esse tipo de informação permite buscas mais interessantes do que aquelas que o Google oferece. Por exemplo, podemos pesquisar por “casa” como forma verbal de “casar” em vez do substantivo.

Muito obrigada por ter aceitado meu convite e dedicado seu tempo em escrever algo tão interessante e útil para o blog, Deni! Foi um grande prazer recebê-lo aqui.

About the author
Deni Kasama é formado em Tradução pela UNESP de São José do Rio Preto, onde recententemente concluiu também seu doutorado. Atualmente, é docente na União das Faculdades dos Grandes Lagos (UNILAGO), além de atuar como tradutor e revisor freelancer de textos acadêmicos. Suas pesquisas recentemente têm se concentrado nas contribuições da Linguística de corpus para a Tradução e a Lexicografia.

10 thoughts on “Guest post: Pesquisa terminológica em tradução”

Angélica

August 1, 2016 at 2:39 pm

Definitivamente preciso me atualizar! Quanta informação nova! Deni, vou precisar de algumas aulas! rs

LikeLike

- Carol's Adventures in Translation
  
  August 1, 2016 at 2:43 pm
  
  Olá, Gé!
  
  Não se preocupe. Acredito que sejam raros os tradutores que usam corpora para pesquisar terminologia. Mas, realmente, é muito melhor, né?
  
  Obrigada pela visita!
  
  Bjinho
  
  LikeLike
  
  - Angélica
    
    August 1, 2016 at 3:04 pm
    
    Nossa, é sensacional! Mas já que são raros os tradutores que usam, fiquei mais aliviada, Carol! rs Beijos!
    
    LikeLiked by 1 person
- Deni
  
  August 2, 2016 at 10:13 am
  
  Oi, Gé! De fato, como a Carol falou, não são muitos os tradutores que se valem de corpus para auxiliar o seu trabalho, mas certamente é algo que contribui e muito. Vamos marcar essas aulas!
  
  LikeLiked by 1 person
  
  - Carol's Adventures in Translation
    
    August 2, 2016 at 10:14 am
    
    Também quero! 😀
    
    LikeLike
Roseli

August 5, 2016 at 12:51 pm

Adorei o artigo, Deni! Parabéns aos dois pela matéria. Muito boa ideia e instrumentos! Fugindo um pouquinho, eu precisava te fazer uma consulta técnica. Como posso entrar em contato? Um abraço!

LikeLike

- Carol's Adventures in Translation
  
  August 5, 2016 at 4:45 pm
  
  Obrigada, Roseli!
  Agradeço a visita e o comentário.
  
  Um grande abraço,
  
  Carol
  
  LikeLike
  
- Deni
  
  August 6, 2016 at 10:33 am
  
  Oi, Roseli. Fico feliz que tenha gostado e por ter deixado essa mensagem! Enviei mensagem para o e-mail que estava na sua página de contato. Um abraço!
  
  LikeLiked by 1 person
  
Vinicius

August 17, 2016 at 2:16 pm

Deni, gostei muito do seu texto, estou adorando as ferramentas que você citou. Você disse que o termo correto para designar palavras-chave no contexto dado é seeds. Eu tenho observado bastante o uso de Key-words em resumos, mas acredito que o mais correto seria keywords. Qual é a sua opinião?
Abraço,

Vinicius

LikeLiked by 1 person

- Deni
  
  August 18, 2016 at 1:19 pm
  
  Olá, Vinicius. Obrigado pelo seu comentário. Fico feliz que tenha gostado do texto e que esteja explorando as ferramentas. Espero que possam ser úteis. De fato, assim como você, entendo que a grafia correta seria “keywords”. Só como curiosidade, o Sketch Engine possui uma ferramenta chamada “Keywords” que permite fazer um levantamento de termos num corpus, utilizando algumas medidas estatísticas. Um abraço!
  
  LikeLiked by 1 person