lingüística de corpus: aplicações teóricas e práticas relacionadas ao ensino de idiomas

31
Lingüística de Corpus: Aplicações Teóricas e Práticas Relacionadas ao Ensino de Idiomas Thereza Cristina de Souza Lima (Ms doutoranda em Estudos Lingüísticos – UNESP – Universidade Estadual Paulista)

Upload: tawny

Post on 19-Mar-2016

23 views

Category:

Documents


1 download

DESCRIPTION

Lingüística de Corpus: Aplicações Teóricas e Práticas Relacionadas ao Ensino de Idiomas. Thereza Cristina de Souza Lima (Ms doutoranda em Estudos Lingüísticos – UNESP – Universidade Estadual Paulista). Perguntas mais freqüentes: O que é a Lingüística de Corpus? - PowerPoint PPT Presentation

TRANSCRIPT

Page 1: Lingüística de Corpus: Aplicações Teóricas e Práticas Relacionadas ao Ensino de Idiomas

Lingüística de Corpus: Aplicações Teóricas e

Práticas Relacionadas ao Ensino de Idiomas

Thereza Cristina de Souza Lima (Ms doutoranda em Estudos Lingüísticos – UNESP – Universidade

Estadual Paulista)

Page 2: Lingüística de Corpus: Aplicações Teóricas e Práticas Relacionadas ao Ensino de Idiomas

• Perguntas mais freqüentes:• O que é a Lingüística de Corpus?• Em que / como a LC pode me ser útil

como profissional?• Objetivo da oficina: • Despertar o interesse pela LC e a

conscientização dos benefícios da mesma na área de ensino de idiomas

Page 3: Lingüística de Corpus: Aplicações Teóricas e Práticas Relacionadas ao Ensino de Idiomas

Conceituação da L. C.

A LC ocupa-se da coleta e exploração de corpora, ou conjunto de dados lingüísticos textuais coletados criteriosamente, com o propósito de servirem para a pesquisa de uma língua ou variedade lingüística. Como tal, dedica-se à exploração da linguagem por meio de evidências empíricas extraídas de computador (Berber Sardinha, 2004).

Page 4: Lingüística de Corpus: Aplicações Teóricas e Práticas Relacionadas ao Ensino de Idiomas

What is a corpus?

• In the language sciences a corpus is a body of written text or transcribed speech which can serve as a basis for linguistic analysis and description. Over the last three decades the compilation and analysis of corpora stored in computerized databases has led to a new scholarly enterprise known as corpus linguistics (Kennedy, 1998).

Page 5: Lingüística de Corpus: Aplicações Teóricas e Práticas Relacionadas ao Ensino de Idiomas

O que é um corpus? Um conjunto de dados lingüísticos (pertencentes

ao uso oral ou escrito da língua ou a ambos), sistematizados segundo determinados critérios, suficientemente extensos em amplitude e profundidade, de maneira que sejam representativos da totalidade do uso lingüístico ou de algum de seus âmbitos, dispostos de tal modo que possam ser processados por computador, com a finalidade de propiciar resultados vários e úteis para descrição e análise (SANCHEZ, 1996).

Page 6: Lingüística de Corpus: Aplicações Teóricas e Práticas Relacionadas ao Ensino de Idiomas

• Inferência:• Há uma relação entre a LC e a lingüística

computacional.• De acordo com Sinclair (1961), há 30 anos atrás,

quando foram iniciadas pesquisas em LC, visando a evidências objetivas sobre a língua em uso, com base no empirismo e não na intuição, era considerado impossível processar textos com milhões de palavras.

• Há 20 anos atrás, “marginally possible, but lunatic”.

• Há 10 anos atrás, “possible but still lunatic”.

• Hoje “it is very popular”.

Page 7: Lingüística de Corpus: Aplicações Teóricas e Práticas Relacionadas ao Ensino de Idiomas
Page 8: Lingüística de Corpus: Aplicações Teóricas e Práticas Relacionadas ao Ensino de Idiomas
Page 9: Lingüística de Corpus: Aplicações Teóricas e Práticas Relacionadas ao Ensino de Idiomas
Page 10: Lingüística de Corpus: Aplicações Teóricas e Práticas Relacionadas ao Ensino de Idiomas
Page 11: Lingüística de Corpus: Aplicações Teóricas e Práticas Relacionadas ao Ensino de Idiomas

Ferramentas Computacionais para Análise de Corpus:

• 1970: TAGGIT• 1979: CLAWS• 1987: TACT• 1988: OCT (Oxford Concordance Program)• 1993: MicroConcord

• 1995: WordSmith Tools (Mike Scott)

Page 12: Lingüística de Corpus: Aplicações Teóricas e Práticas Relacionadas ao Ensino de Idiomas

Exercise:

• Write 3 sentences containing the word “umbrella”.

• Compare your sentences with those of your classmates.

• Now, compare it against this dictionary entry, taken from the Oxford Paperback Dictionary (1988 edition):

Page 13: Lingüística de Corpus: Aplicações Teóricas e Práticas Relacionadas ao Ensino de Idiomas

• Umbrella n. 1. a portable protection against

rain, consisting of a circular piece of fabric

mounted on a foldable frame of spokes

attached to a central stick that serves as a

handle. 2. any kind of general protection

force or influence.

Page 14: Lingüística de Corpus: Aplicações Teóricas e Práticas Relacionadas ao Ensino de Idiomas
Page 15: Lingüística de Corpus: Aplicações Teóricas e Práticas Relacionadas ao Ensino de Idiomas

Pré-requisitos para a formação de um corpus

1) Textos autênticos em linguagem natural.

2) Conteúdo criteriosamente escolhido, que corresponda às características desejadas.

3) Representatividade: do quê/para quem?

Page 16: Lingüística de Corpus: Aplicações Teóricas e Práticas Relacionadas ao Ensino de Idiomas

Representatividade do corpus:

- Extensão: Para ter representatividade o corpus deve ser o maior possível.

• Quanto maior a quantidade de palavras, maior a probabilidade de aparecerem palavras de baixa freqüência. Exemplo: serviço como saque.

• Representativo do quê? Representatividade ligada à probabilidade e ao sentido das palavras.

• Representativo para quem? Ônus do usuário.

Page 17: Lingüística de Corpus: Aplicações Teóricas e Práticas Relacionadas ao Ensino de Idiomas

Nossos Corpora de Pesquisa(231.721 L1/260.259 L2)

• (1.1) A Descoberta do Mundo (DM) com 172.143 palavras• (1.2) Discovering the World (DW) com 194.167 palavras, tradução

de Giovanni Pontiero• (2.1) Uma Aprendizagem ou O Livro dos Prazeres (ALP) com

36.385 palavras• (2.2) An Apprenticeship or the Book of Delights (ABD) com

40.321 palavras, tradução de Richard A. Mazzara e Lorri A. Parris • (3.1) Água Viva (AV) com 23.193 palavras• (3.2) The Stream of Life (TSL) com 25.771 palavras, tradução de

Elizabeth Lowe e Earl Fitz• (4.1) Fragmentos semelhantes (re)aproveitados extraídos de (DM),

(ALP) e (AV) com 5.729 palavras• (4.2) Fragmentos semelhantes (re)aproveitados extraídos de (DW),

(ABD) e (TSL) com 7004 palavras

Page 18: Lingüística de Corpus: Aplicações Teóricas e Práticas Relacionadas ao Ensino de Idiomas

Adequação do corpus:

• Para ser adequado, o corpus deve ser afinado

com os objetivos da análise, adequado aos

interesses do pesquisador, que deve ter uma

questão a investigar para a qual necessite de

um corpus específico.

Page 19: Lingüística de Corpus: Aplicações Teóricas e Práticas Relacionadas ao Ensino de Idiomas

Duas conclusões:

• Relevância do corpus como fonte de informação, pois registra a linguagem natural, realmente utilizada por falantes e escritores da língua em situações reais;

• A não-trivialidade da investigação da freqüência de ocorrências de traços lingüísticos (lexicais, sintáticos, semânticos e discursivos), pois é pelo conhecimento da freqüência atestada que se pode estimar a probabilidade teórica.

Page 20: Lingüística de Corpus: Aplicações Teóricas e Práticas Relacionadas ao Ensino de Idiomas

Estatuto da LC:• LC não é disciplina nem metodologia, “não é

um ramo da lingüística, mas a rota para a lingüística”(Hoey, 1997).

• LC é uma perspectiva, uma maneira de se chegar à linguagem, uma nova empreitada de pesquisa, uma abordagem filosófica:

Abordagem Baseada em Corpus/Corpus-based

Approach.

Page 21: Lingüística de Corpus: Aplicações Teóricas e Práticas Relacionadas ao Ensino de Idiomas

Tipos de Pesquisa Privilegiados:

Características:

• São empíricos e analisam padrões reais de

usos em textos naturais;

• Utilizam corpus como base de análise;

• Fazem uso de computadores na análise;

• Dependem de técnicas quantitativas e

qualitativas;

Page 22: Lingüística de Corpus: Aplicações Teóricas e Práticas Relacionadas ao Ensino de Idiomas

4 Tipos de Pesquisadores

• 1) Criar, compilar e salvar corpora para análises posteriores;

• 2) Desenvolver ferramentas (softwares) para análise dos corpora;

• 3) Usar corpora computadorizados para descrever o léxico e a gramática das línguas, preocupam-se não apenas com o que/onde/quando/por que foi dito/escrito, mas com que freqüência;

Page 23: Lingüística de Corpus: Aplicações Teóricas e Práticas Relacionadas ao Ensino de Idiomas

• 4) Explorar a descrição lingüística baseada em corpus

para uso em uma variedade de aplicações tais como

ensino/aprendizagem de línguas e tradução.

“Although the scope of corpus linguistics may be

defined in terms of what people do with corpora, it

would be a mistake to assume that corpus linguistics

is simply a faster way of describing how a language

works… corpus linguistics analysis does reveal facts

about a language which we might previously never

thought of seeking ” (Kennedy, 1998).

Page 24: Lingüística de Corpus: Aplicações Teóricas e Práticas Relacionadas ao Ensino de Idiomas

Pesquisas atuais relacionadas à LC:

• Produção de dicionários, listas de palavras, gramáticas descritivas, estudos comparativos de variedades de fala diacrônicos e sincrônicos e outros estudos estilísticos e pedagógicos.

• Estudos sobre a distribuição de fonemas, letras, pontuação, morfemas, colocações, classes de palavras específicas, padrões sintáticos e estruturas discursivas. Exemplo: Are we more likely to use different from, different to or different than?

Page 25: Lingüística de Corpus: Aplicações Teóricas e Práticas Relacionadas ao Ensino de Idiomas

Corpus Linguistics

Concordances

Page 26: Lingüística de Corpus: Aplicações Teóricas e Práticas Relacionadas ao Ensino de Idiomas

Corpus LinguisticsConcordances

• The Corpus linguistics-researcher tasks:• 1) Computerize and describe the frequency of

tokens in a corpus;• 2) Observe the usage of words by means of a

computer tool named concordance;• What is concordance? It is the list of the occurrences of a particular token,

in which the node is centralized and surrounded by a co-text.

Page 27: Lingüística de Corpus: Aplicações Teóricas e Práticas Relacionadas ao Ensino de Idiomas

Corpus LinguisticsConcordances

• Programas Concordanciadores: Micro-concord; Windows Concordancer; WordSmith Tools; etc.

• Observação dos Padrões: Visualização das Concordâncias e dos Colocados:

Além da inspeção visual da tela da concordância, pode-se usar a lista de colocados para observar os padrões.

Para ter acesso à concordance on line do BNC, entra-se no site: http://corpus.byu.edu/bnc/

Page 28: Lingüística de Corpus: Aplicações Teóricas e Práticas Relacionadas ao Ensino de Idiomas

Concordances/Collocations• Por meio da ferramenta Concordance, o

pesquisador pode observar “Collocation”, ou seja, cf Berber Sardinha (2004, p. 200) “associação não-aleatória entre itens lexicais” (uma associaçào não-aleatória é aquela que é mais comum do que o esperado) e para saber se uma associação entre palavras não é aleatória, precisamos de cálculos estatísticos, dentre os quais destacamos a razão O/E (observado/esperado); a MI (Mutual Information); e o T Score (Escore T).

• Todos os cálculos estatísticos podem ser efetuados on line no endereço eletrônico: http://lael.pucsp.br/corpora/association/calc.htm.

Page 29: Lingüística de Corpus: Aplicações Teóricas e Práticas Relacionadas ao Ensino de Idiomas

Uses of Concordances

• Concordances can be used for a variety of purposes:

• 1) To see a search pattern in several contexts;

• 2) To provide researchers and students in general with information about the meaning and usage of words and phrases, which are unlikely to be found in dictionaries and give them an idea of which words typically belong together, such as which verbs go with which verbs or nouns; which prepositions with which verbs; which adjectives with which nouns; whether active or passive voice is more appropriate in a particular context, and so on.

Page 30: Lingüística de Corpus: Aplicações Teóricas e Práticas Relacionadas ao Ensino de Idiomas

Corpus LinguisticsConcordance Exercise

• Enter the BNC concordance and examine the first hundred concordances for “prices”. You will find different adjectives used to qualify the noun “prices”. How many can you find apart from high and low? Make a note of all of them, as well as of any accompanying words which you think might be useful.

Page 31: Lingüística de Corpus: Aplicações Teóricas e Práticas Relacionadas ao Ensino de Idiomas

Corpus LinguisticsConcordance Exercise

• The word “finding” is very frequent in academic research. Taking it as a node, what are the ten most frequent verbs that precede or follow it when it refers to findings related to research? You may use any concordance tool available on the web.