minicurso b: introdução à linguística de corpus: começando ... · teorias de linguagem e lc...
TRANSCRIPT
Profa. Dra. Rozane R. Rebechi
UFRGS
IX EBRALC 15 e 16 de agosto de 2017
Minicurso B: Introdução à Linguística de
Corpus: começando do básico
Parte 1
Linguística de corpus
IX EBRALC 15 e 16 de agosto de 2017
“[...] área que enfoca um conjunto de procedimentos ou
métodos para o estudo da língua [...].” (McEnery; Hardie,
2012: 1);
envolve a compilação e exploração de conjuntos de textos;
possibilita a pesquisa em textos autênticos da área de
interesse, a análise de grandes quantidades de dados, o
levantamento automático de padrões da língua ou variedade
linguística;
apresenta, de forma sistemática, dados que são
posteriormente validados (ou não) pelo pesquisador.
Teorias de linguagem e LC (Berber
Sardinha, 2004)
LC (Halliday) Cognitivismo (Chomsky)
IX EBRALC 15 e 16 de agosto de 2017
Abordagem empirista:
observação
Linguagem como
probabilidade
Observação da linguagem
autêntica
Visão racionalista da linguagem: introspecção
Linguagem como possibilidade
Conhecimento a partir de princípios estabelecidos a priori
O que é um corpus?
IX EBRALC 15 e 16 de agosto de 2017
Fonte: http://www.aulete.com.br/corpus
O que é um corpus para a LC?
IX EBRALC 15 e 16 de agosto de 2017
Conjunto de dados autênticos (oral ou escrito):
coletado criteriosamente, de acordo com os objetivos da
pesquisa;
suficientemente extenso para representar uma língua ou
variedade linguística;
processável por computador.
Primeiros corpora
IX EBRALC 15 e 16 de agosto de 2017
Década de 60 – corpora de 1 milhão de palavras!
Brown – inglês americano (1964)
- textos publicados em 1961
200 textos de 5.000 palavras cada
15 categorias distintas
LOB (Lancaster/Oslo/Bergen) – (1978) contrapartida em
inglês britânico
Corpora atuais
IX EBRALC 15 e 16 de agosto de 2017
BNC (British National Corpus) – 1995 – 100 milhões de palavras – online 40 milhões• 90% língua escrita• 10% língua falada• corpus fechado• BYU-BNC (completo) - http://corpus.byu.edu/bnc/
Bank of English (Cobuild)• Birmingham 1987 – 20 milhões de palavras• Hoje 650 milhões de palavras• corpus aberto – em constante atualização• Collins WordBanks Online – 550 milhões de palavras - Pago!!! • http://www.collins.co.uk/page/Wordbanks+Online
COCA (Corpus of Contemporary American English)• BrighamYoung University• 520 milhões de palavras• Corpus aberto• http://corpus.byu.edu/coca/
Tipos de corpus
IX EBRALC 15 e 16 de agosto de 2017
Quanto à língua: monolíngue; bilíngue; multilíngue;
Quanto à linguagem: geral X especializado;
Quanto ao tempo: sincrônico (recorte) X diacrônico
(evolução);
Quanto à origem: original X tradução;
Quanto ao acesso: disponível X ‘sob medida’
Quanto à autoria: de aprendizes X de falantes nativos
Tipos de corpus
IX EBRALC 15 e 16 de agosto de 2017
Comparável: conjunto de textos originais nos idiomas
envolvidos (Bowker; Pearson, 2002):
Chocolate cake
Tipos de corpus
IX EBRALC 15 e 16 de agosto de 2017
Paralelo: conjunto de textos escritos originalmente em um idioma e
traduzidos para outro(s);
Tipos de corpus
IX EBRALC 15 e 16 de agosto de 2017
Referência/contraste:
3 a 5 vezes maior do que o corpus de estudo;
de língua geral ou especializado;
salienta o que é estatisticamente mais recorrente no corpus de
estudo.
Coleta
IX EBRALC 15 e 16 de agosto de 2017
Manual: textos impressos (digitalizados) ou em formato
eletrônico;
Em massa: offline browsers
Armazenamento
IX EBRALC 15 e 16 de agosto de 2017
Para que servem os corpora?
IX EBRALC 15 e 16 de agosto de 2017
Terminologia: levantamento semiautomático de termos e
fraseologias, contextos de uso;
Tradução: identificação de equivalentes, colocações;
Ensino de língua estrangeira: o conhecimento é
inferido.
Análise Crítica do Discurso
Lexicografia
Etc.
Padrões da língua
IX EBRALC 15 e 16 de agosto de 2017
Colocação → associação entre itens lexicais:
Colocação
IX EBRALC 15 e 16 de agosto de 2017
Idiom principle: o usuário da língua tem à disposição um
grande número de frases semi-pré-construídas que
constotuem escolhas únicas
X
• Open-choice principle: língua como resultado de um
grande número de escolhas complexas (Sinclair, 1991)
Palavras não ocorrem aleatoriamente!
Padrões da língua
IX EBRALC 15 e 16 de agosto de 2017
Coligação → associação entre itens lexicais e gramaticais:begin start
Padrões da língua
IX EBRALC 15 e 16 de agosto de 2017
Prosódia/preferência semântica/discursiva → associação entre itens
lexicais e conotação (negativa, positiva e neutra):caused causou
Convencionalidade (Tagnin, 2013)
IX EBRALC 15 e 16 de agosto de 2017
O falante/tradutor ingênuo desconhece:
convenções morfológicas:
jailer vs. prisoner
carcereiro vs. prisioneiro
as convenções de ordem:
achados e perdidos vs. lost and found
IX EBRALC 15 e 16 de agosto de 2017
convenções de coocorrência:
Merry Christmas vs. Feliz Natal
Happy New Year vs. Feliz Ano Novo
convenções semânticas:
kick the bucket X bater as botas
convenções pragmáticas
How do you do? X Muito prazer
Coligações
IX EBRALC 15 e 16 de agosto de 2017
Regência:
verbal: depend on X depender de
nominal: instructor in (Psychology) X instrutor de;
good at X bom em
phrasal verbs: make up X inventar
Colocações
IX EBRALC 15 e 16 de agosto de 2017
adjetivas: red onion X cebola roxa; red wine X vinho tinto
substantivas: slice of bread X fatia de pão; slice of pizza X
pedaço de pizza
Marcadores convencionais
IX EBRALC 15 e 16 de agosto de 2017
Come to think of it,... — Por falar nisso,...
In other words, ... — Em outras palavras,
You see, ... - Sabe, ...
Well,... — Bem,...
May I interrupt? — Posso interromper?
What do you think? — O que você acha?
That’s it. — É isso (aí).
I’m all ears. — Sou todo ouvidos.
Are you with me? — Está entendendo?
Mhm
Falante nativo
IX EBRALC 15 e 16 de agosto de 2017
Desconhece as especificidades das linguagens especializadas;
possui apacidade limitada para análise do texto como um
todo;
nem sempre consciente da relação entre o comportamento
da língua e de que forma se dá esse comportamento.
Corpora disponíveis: livre acesso
IX EBRALC 15 e 16 de agosto de 2017
MICASE (Michigan Corpus of Academic Spoken English)
https://quod.lib.umich.edu/cgi/c/corpus/corpus?c=micase;page=simple
≈ 1.850.000 palavras
oral: transcrições de interações acadêmicas
Corpora disponíveis: livre acesso
IX EBRALC 15 e 16 de agosto de 2017
Língua inglesa
Coca (Corpus of Contemporary American English)
http://corpus.byu.edu/coca/
≈ 520 milhões de palavras
1990 – 2015 – 20 milhões para cada ano
linguagem falada
ficção
revistas
jornais
textos acadêmicos
IX EBRALC 15 e 16 de agosto de 2017
IX EBRALC 15 e 16 de agosto de 2017
IX EBRALC 15 e 16 de agosto de 2017
Busca por padrão
[nn*] and [nn*]
IX EBRALC 15 e 16 de agosto de 2017
IX EBRALC 15 e 16 de agosto de 2017
IX EBRALC 15 e 16 de agosto de 2017
Corpora disponíveis: livre acesso
IX EBRALC 15 e 16 de agosto de 2017
Língua portuguesa
Corpus do Português
http://www.corpusdoportugues.org/hist-gen/2008/x.asp
• 45 milhões de palavras
Busca por colocado
http://www.corpusdoportugues.org/
IX EBRALC 15 e 16 de agosto de 2017
IX EBRALC 15 e 16 de agosto de 2017
Lindolfo Rocha – Maria DusáIX EBRALC 15 e 16 de agosto de 2017
Corpora disponíveis: livre acesso
IX EBRALC 15 e 16 de agosto de 2017
Corpus Brasileiro
• http://corpusbrasileiro.pucsp.br/cb/Acesso.html
• 1 bilhão de palavras
www.linguateca.pt
IX EBRALC 15 e 16 de agosto de 2017
IX EBRALC 15 e 16 de agosto de 2017
Corpora disponíveis: livre acesso
IX EBRALC 15 e 16 de agosto de 2017
IX EBRALC 15 e 16 de agosto de 2017
IX EBRALC 15 e 16 de agosto de 2017
www.comet.fflch.usp.brIX EBRALC 15 e 16 de agosto de 2017
IX EBRALC 15 e 16 de agosto de 2017
IX EBRALC 15 e 16 de agosto de 2017
IX EBRALC 15 e 16 de agosto de 2017
IX EBRALC 15 e 16 de agosto de 2017
1 selho Brasileiro de Turismo Sustentável (CBTS)
3 a as modalidades de turismo em nosso país. Amb
4 e especialistas em turismo de todo o país reun
5 de Certificação do Turismo Sustentável, para f
7 de intersetorial do turismo, apta a delimitar u
8 a a certificação do turismo Sustentável no Bras
9 de Certificação do Turismo Sustentável - Brasi
10 de certificação do turismo no Brasil. Este pro
11 de Certificação do Turismo Sustentável no Bras
12 selho Brasileiro de Turismo Sustentável e Coord
13 ador do Programa de Turismo e Meio Ambiente do
15 Mata Atlântica, "o turismo Sustentável é uma f
16 selho Brasileiro de Turismo Sustentável - CBTS
32 gócios Apostando no turismo ecológico, os hotéi
33 `Oferecemos o puro turismo ecológico ao nosso
34 sileiro de Guias de Turismo, na cidade de Salva
35 re as temáticas: - Turismo Sustentável - Um no
36 o perfil do guia de turismo - Jorge Glauco Nasc
38 nterface do Guia de Turismo com o mercado de tr
39 dente da BRAZTOA - Turismo Receptivo no Brasil IX EBRALC 15 e 16 de agosto de 2017
1 selho Brasileiro de Turismo Sustentável (CBTS)
3 a as modalidades de turismo em nosso país. Amb
4 e especialistas em turismo de todo o país reun
5 de Certificação do Turismo Sustentável, para f
7 de intersetorial do turismo, apta a delimitar u
8 a a certificação do turismo Sustentável no Bras
9 de Certificação do Turismo Sustentável - Brasi
10 de certificação do turismo no Brasil. Este pro
11 de Certificação do Turismo Sustentável no Bras
12 selho Brasileiro de Turismo Sustentável e Coord
13 ador do Programa de Turismo e Meio Ambiente do
15 Mata Atlântica, "o turismo Sustentável é uma f
16 selho Brasileiro de Turismo Sustentável - CBTS
32 gócios Apostando no turismo ecológico, os hotéi
33 `Oferecemos o puro turismo ecológico ao nosso
34 sileiro de Guias de Turismo, na cidade de Salva
35 re as temáticas: - Turismo Sustentável - Um no
36 o perfil do guia de turismo - Jorge Glauco Nasc
38 nterface do Guia de Turismo com o mercado de tr
39 dente da BRAZTOA - Turismo Receptivo no Brasil IX EBRALC 15 e 16 de agosto de 2017
1 selho Brasileiro de Turismo Sustentável (CBTS)
3 a as modalidades de turismo em nosso país. Amb
4 e especialistas em turismo de todo o país reun
5 de Certificação do Turismo Sustentável, para f
7 de intersetorial do turismo, apta a delimitar u
8 a a certificação do turismo Sustentável no Bras
9 de Certificação do Turismo Sustentável - Brasi
10 de certificação do turismo no Brasil. Este pro
11 de Certificação do Turismo Sustentável no Bras
12 selho Brasileiro de Turismo Sustentável e Coord
13 ador do Programa de Turismo e Meio Ambiente do
15 Mata Atlântica, "o turismo Sustentável é uma f
16 selho Brasileiro de Turismo Sustentável - CBTS
32 gócios Apostando no turismo ecológico, os hotéi
33 `Oferecemos o puro turismo ecológico ao nosso
34 sileiro de Guias de Turismo, na cidade de Salva
35 re as temáticas: - Turismo Sustentável - Um no
36 o perfil do guia de turismo - Jorge Glauco Nasc
38 nterface do Guia de Turismo com o mercado de tr
39 dente da BRAZTOA - Turismo Receptivo no Brasil IX EBRALC 15 e 16 de agosto de 2017
Pesquisas em Tradução
• Comparação de traduções
• Peculiaridades de um tradutor• Corpus com textos do tradutor• Corpus de referência• Keywords = características do tradutorOU• Corpus com textos do tradutor 1• Corpus com textos do tradutor 2• Keywords = características do tradutor 1
IX EBRALC 15 e 16 de agosto de 2017
IX EBRALC 15 e 16 de agosto de 2017
IX EBRALC 15 e 16 de agosto de 2017
Corpora disponíveis: livre acesso
IX EBRALC 15 e 16 de agosto de 2017
Corpus bilíngue português-inglês
Compara: http://www.linguateca.pt/COMPARA/
www.linguateca.pt/COMPARA
IX EBRALC 15 e 16 de agosto de 2017
IX EBRALC 15 e 16 de agosto de 2017
IX EBRALC 15 e 16 de agosto de 2017
IX EBRALC 15 e 16 de agosto de 2017
IX EBRALC 15 e 16 de agosto de 2017
IX EBRALC 15 e 16 de agosto de 2017
Corpora disponíveis: livre acesso
IX EBRALC 15 e 16 de agosto de 2017
‘Corpus’ multilíngue
Como escolher o corpus de estudo?
IX EBRALC 15 e 16 de agosto de 2017
Não existe um único corpus que atenda às necessidades de
todos os pesquisadores;
a escolha do corpus deve levar em conta os objetivos da
pesquisa.
falado?
IX EBRALC 15 e 16 de agosto de 2017
Primeira pergunta: qual o propósito da pesquisa?
pequeno?
médio? grande?
escrito?
Características do corpus
IX EBRALC 15 e 16 de agosto de 2017
• Falado escritoModo
• Monolíngue bilíngue multilíngue Língua
• Aberto fechadoConstrução
• Número de textos número de palavrasBalanceamento
• Completo excertoTexto
• Impresso digitalFonte
• Manual automáticaColeta
• Morfológica Morfossintática TextualEtiquetagem
• Sim nãoCabeçalho
• Txt Codificação: ANSI, UNICODE, UTF-8 etc.
Armazenamento
Etiquetagem textual e cabeçalho
IX EBRALC 15 e 16 de agosto de 2017
Construção de corpora especializados
‘pequenos’ (Koester, 2010)
IX EBRALC 15 e 16 de agosto de 2017
Ideal para pesquisas em Terminologia (bilíngue) e Tradução;
foco em registros e gêneros específicos;
possibilita uma ligação mais próxima entre o corpus e o contexto em que os textos foram produzidos;
permite a identificação de padrões da língua em uso;
o compilador, em geral, também é o analista maior familiaridade com a área;
as descobertas quantitativas são complementadas com análises qualitativas;
mais importante do que o tamanho é a representatividade critérios bem definidos.
Tradução especializada: recursos
IX EBRALC 15 e 16 de agosto de 2017
Dicionários de língua geral – monolíngues, bilíngues não
abrangem muitos dos termos de áreas especializadas;
Glossários não são constantemente atualizados (ex.:
tecnologia); não englobam colocados e fraseologias; não
levam em consideração diferenças culturais;
Texto comparável disponível na internet nem sempre de
fonte confiável; não evidencia padrões;
Corpora especializados disponíveis não contemplam todas as
áreas.
LC e Tradução
IX EBRALC 15 e 16 de agosto de 2017
O cotejo manual entre textos do mesmo domínio, escritos
em diferentes idiomas, e entre originais e suas respectivas
traduções, sempre fez parte da rotina do tradutor
especializado, valendo-se de soluções já encontradas por
outros profissionais em sua rotina de trabalho;
essa tarefa passou a ser automatizada com o advento do
computador, assim como das ferramentas computacionais.
LC na tradução
IX EBRALC 15 e 16 de agosto de 2017
• Estudos contrastivos: naturalidade da língua
• Normalização/ Simplificação/ Explicitação
• Estratégias de tradução
• Normas de tradução
• Ensino e treinamento
• Convencionalidade
Auxilia na busca por equivalentes – termos e fraseologias –em textos autênticos;
ajuda o tradutor a se familiarizar com as convenções retóricas do gênero;
evidencia diferenças linguísticas e culturais.
Corpora direcionados pela tradução
IX EBRALC 15 e 16 de agosto de 2017
conjuntos de textos criados e/ou usados para algum propósito relacionado à tradução (Zanettin, 2012);
envolvem a comparação de pelo menos dois conjuntos de dados: textos originais em diferentes idiomas – corpora comparáveis – ou textos originais juntamente com sua(s) respectiva(s) tradução(ões) – corporaparalelos (Bowker & Pearson, 2002);
possibilidades de análise em tradução,:
variação lexical;
levantamento de palavras que revelam o assunto do corpus (aboutness);
riqueza lexical (type/token ratio);
colocações;
semelhanças e diferenças entre original e tradução → universais da tradução.
Ferramentas de processamento de corpus:
WordSmith Tools
(http://www.lexically.net/wordsmith/)
IX EBRALC 15 e 16 de agosto de 2017
Principais utilitários:
Concordanciador: colocados, clusters
Lista de palavras-chave: simples e compostas
Lista de palavras
Alinhador
Conversor
custa a partir de ₤ 50
http://www.laurenceanthony.net/softw
are.html
IX EBRALC 15 e 16 de agosto de 2017
AntConc
IX EBRALC 15 e 16 de agosto de 2017
Software gratuito
Ferramentas para alinhamento e análise de
corpora paralelos
IX EBRALC 15 e 16 de agosto de 2017
WordSmith Tools
(Scott, 2012)
ParaConc
IX EBRALC 15 e 16 de agosto de 2017
IX EBRALC 15 e 16 de agosto de 2017
alinhador e concordanciador para análise de corpora paralelos bilíngues ou
multilíngues (até três traduções);
IX EBRALC 15 e 16 de agosto de 2017
Colocação
IX EBRALC 15 e 16 de agosto de 2017
As palavras andam juntas (Firth, 1957);
Se duas palavras formam uma ‘colocação’, isso significa que
elas co-ocorrem (aparecem próximas uma da outra no texto)
de alguma forma, em geral com mais frequência do que seria
esperado;
Ferramentas como WS e AntConc oferecem diferentes testes
estatísticos – log likelihood, mutual information etc. Porém,
costumam considerar duas palavras por vez;
GraphColl (Brezina et al., 2015)
IX EBRALC 15 e 16 de agosto de 2017
Download gratuito:
http://www.extremetomato.com/projects/graphcoll/
Permite a identificação de relações de colocações em
corpora;
Possibilita a análise de colocações entre múltiplas palavras,
além da colocação comum, entre duas palavras apenas (Baker,
2016).
IX EBRALC 15 e 16 de agosto de 2017
Referências BERBER SARDINHA, Tony. Linguística de corpus. Barueri: Manole, 2004.
BOWKER, Lynne; PEARSON, Jennifer. Working with specialized language: a practical guide to using corpus. London/New York: Routledge, 2002.
KOESTER, Almut. Building small specialised corpora. In: O’KEEFFE, Anne; McCARTHY, Michael. (eds.) The Routledge handbook of Corpus Linguistics. New York: Routlege, 2010. p. 66-79.
McENERY, Tony; HARDIE, Andrew. Corpus Linguistics: method, theory and practice. Edinburgh: Cambridge University Press, 2012.
SCOTT, Mike. Wordsmith Tools version 6.0. Oxford: Oxford University Press, 2012.
SINCLAIR, J. Corpus Concordance Collocation. Oxford: Oxford University Press, 1991.
TAGNIN, Stella E. O. O jeito que a gente diz: combinações consagradas em inglês e português. São Paulo: Disal, 2013.
IX EBRALC 15 e 16 de agosto de 2017