vis£o geral da ling¼­stica de corpus

Download Vis£o geral da Ling¼­stica de Corpus

Post on 13-Jan-2016

34 views

Category:

Documents

0 download

Embed Size (px)

DESCRIPTION

Visão geral da Lingüística de Corpus. Discente: Flávia Orci Fernandes Docente: Prof. Dr. Roberto Gomes Camacho. Introdução. Primeiro corpus lingüístico eletrônico: Brown University Standard Corpus of Present-day American English 1964 1 milhão de palavras - PowerPoint PPT Presentation

TRANSCRIPT

  • Viso geral da Lingstica de Corpus

    Discente: Flvia Orci FernandesDocente: Prof. Dr. Roberto Gomes Camacho

  • IntroduoPrimeiro corpus lingstico eletrnico:Brown University Standard Corpus of Present-day American English19641 milho de palavrasPrimeiro corpus eletrnico de linguagem falada:220 mil palavras atribudo a Sinclair

  • Objetivos do textoApresentar uma retrospectiva da Lingstica de Corpus

    Apresentar os principais marcos de sua histria

    Discutir algumas questes tericas e prticas subjacentes rea

  • 1.1. A Lingstica de Corpus e seu histricoOcupao: coleta e explorao de corpora com o propsito de servirem para a pesquisa de uma lngua ou variedade lingstica.

    Explorao da linguagem por meio de evidncias empricas, extradas por computador.

  • Sentido original de corpus: CORPOGrcia antiga: definio do Corpus Helenstico por Alexandre, o GrandeAntigidade e Idade Mdia: produo de corpora de citaes bblicasSculo XX: corpus coletados, mantidos e analisados manualmente, com nfase no ensino de lnguas

  • Corpus no-computadorizado que deu feio aos atuais:SEU (Survey of English Usage)Londres, a partir de 19591 milho de palavrasOrganizado em fichas de papelBase para o desenvolvimento dos etiquetadores computadorizados contemporneos1989: London-Lund Corpus parte falada computadorizada

  • Anos 50: teorias racionalistas da linguagemCrticas LC: corpora gigantescos no eram confiveisInveno do computador tornou possvel a compilao de maior quantidade de dados1960: mainframe1980: fitas magnticas e microcomputadores pessoais

  • Atualidade:Gr-Bretanha um dos centros de pesquisa mais desenvolvidos (Birminghan, Brighton, Lancaster, Liverpool, Londres)Pases escandinavosFora da Europa a LC no est to desenvolvidaEUA: fora da lingstica gerativa-transformacional

  • EUA: desenvolvimento avanado na pesquisa em Processamento de Linguagem Natural (PLN)Brasil: estgios iniciais voltados PLN e Lingstica CompuatacionalParcerias entre empresas (finalidades comerciais) e universidades: pesquisas em LC ligadas editorasPioneiro: Cobuild Universidade de Birmingham com a editora Collins

  • 1.2. Corpora de lngua inglesa

  • 1.3. Corpora de lngua portuguesa

  • 1.4. Corpora de outras lnguas

  • 1.5. Marcos da Lingstica de CorpusA histria da Lingstica de Corpus est condicionada tecnologia, que permite no somente o armazenamento de corpora, mas tambm a sua explorao e, por isso, est relacionada disponibilidade de ferramentas computacionais para anlise de corpus, dentre as quais se destacam as seguintes. (p. 15)

  • 1.6. Definio de corpusNem todo conjunto de dados considerado corpusArquivoBiblioteca eletrnicaCorpus: uma parte da biblioteca eletrnica, construdo a partir de um desenho explcito, com objetivos especficosSubcorpus: uma parte do corpus

  • Um conjunto de dados lingsticos (pertencentes ao uso oral ou escrito da lngua, ou a ambos), sistematizados segundo determinados critrios, suficientemente extensos em amplitude e profundidade, de maneira que sejam representativos da totalidade do uso lingstico ou de algum de seus mbitos, dispostos de tal modo que possam ser processados por computador, com a finalidade de propiciar resultados vrios e teis para a descrio e anlise (p. 18)

  • OrigemPropsitoComposioFormataoRepresentatividadeExtenso

  • Quatro pr-requisitos para a formao de um corpus computadorizado:1) O corpus deve ser composto de textos autnticos, em linguagem natural.2) Autenticidade dos textos subentende textos escritos por falantes nativos.3) O contedo do corpus deve ser escolhido criteriosamente.4) Representatividade.

  • 1.7. Tipologia de CorpusMODO: falado; escritoTEMPO: sincrnico; diacrnico; contemporneo; histricoSELEO: de amostragem; monitor; dinmico ou orgnico; esttico; equilibradoCONTEDO: especializado; regional ou dialetal; multilngeAUTORIA: de aprendiz; de lngua nativaDISPOSIO INTERNA: paralelo; alinhadoFINALIDADE: de estudo; de referncia; de treinamento ou teste

  • Pluralidade de autoriaOrigem da autoriaMeioIntegralidadeEspecificidadeDialetoEquilbrioFechamentoRenovaoTemporalidadeTraduoIntercalao

  • 1.8. Representatividade de corpusNo h critrios para a determinao da representatividade. (p. 23)A representatividade est ligada questo da probabilidade. (p. 23)Nmero de palavrasNmero de textosNmero de gneros

  • 1.9. Extenso do corpusAbordagens:1) Impressionstica2) Histrica3) Estatstica

  • 1.10. Especificidade do corpusUm modo de atingir a representatividade total de um corpus incluir nele toda a linguagem. (p. 27)Os corpora gerais podem ser usados como fonte para criao de corpora especializados. (p. 28)(...) normalmente, corpora compilados em pequena escala por pesquisadores individuais acabam sendo mais representativos do que os respectivos subcorpora dos corpora gerais. (p. 28)

  • 1.11. Adequao do corpusA adequao do corpus tomada como dada. Assume-se que o corpus com o qual se esteja lidando e as perguntas feitas sejam adequados aos propsitos da investigao. Sem isso, a pesquisa no tem sentido. (p. 29)Questionamento da validade de corpora gerais.

  • 1.12. Teorias de linguagem e Lingstica de CorpusLingstica Emprica = Abordagem empirista + linguagem como sistema probabilsticoOposio entre Halliday (probabilidade) e Chomsky (possibilidade)A viso da linguagem como sistema probabilstico pressupe que, embora muitos traos lingsticos sejam possveis teoricamente, ocorrem com a mesma freqncia. (p. 31)Padronizao

  • 1.12. Teorias de linguagem e Lingstica de CorpusLingstica de Corpus x lingstica chomskyana:Foco no desempenho lingstico, em vez de competnciaFoco na descrio lingstica, em vez de universais lingsticosFoco numa viso mais empirista do que racionalista da pesquisa cientfica

  • 1.13. Estatuto da Lingstica de CorpusA LC uma disciplina ou uma metodologia?No se dedica a um assunto definido e no se resume a um conjunto de ferramentas: assim poderamos classific-la como PERSPECTIVA:(...) uma maneira de se checar a linguagem, e faz aluso ao conceito de teoria lingstica como janela que molda como enxergamos a linguagem. (p. 37)

  • 1.14. Tipos de pesquisa privilegiadosSo empricos e analisam os padres reais de uso em textos naturais.Utilizam coletneas grandes e criteriosas de textos naturais, conhecidas por corpus, como a base da anlise.Fazem uso extensivo de computadores na anlise, empregando tcnicas automticas e interativas.Dependem de tcnicas quantitativas e qualitativas.

  • 1.14. Tipos de pesquisa privilegiados1) Compilao de corpus2) Desenvolvimento de ferramentas3) Descrio da linguagem4) Aplicao de corpora

  • 1.15. Padres de linguagemQuais os padres lexicais dos quais a palavra faz parte?Em que estruturas ela aparece?

    Padronizao como regularidade expressa na recorrncia sistemtica de unidades coocorrentes de vrias ordens (lexical, gramatical, sinttica, etc). Podem ser formalizados em colocao, coligao, prosdia semntica.

  • 1.16. Comentrios finaisPainel geral do campo de investigao da Lingstica de CorpusDificuldades: quantidades de trabalhos novos e debate de cunho tericoProposta da Psicologia Cognitiva de Langacker alternativa para explicao da padronizaotodo corpus me ensinou coisas sobre a linguagem que eu no teria descoberto de nenhum outro modo (FILLMORE, p. 35)