concebendo e construindo um corpus para a questão do acento no português brasileiro

16
Concebendo e construindo um corpus para a questão do acento no Português Brasileiro Bruno Ferrari Guide Orientação: Marcelo Barra Ferreira Universidade de São Paulo 2015

Upload: bruno-guide

Post on 20-Jul-2015

53 views

Category:

Science


2 download

TRANSCRIPT

Page 1: Concebendo e construindo um corpus para a questão do acento no Português Brasileiro

Concebendo e construindo um corpus

para a questão do acento no Português Brasileiro

Bruno Ferrari Guide

Orientação: Marcelo Barra Ferreira

Universidade de São Paulo

2015

Page 2: Concebendo e construindo um corpus para a questão do acento no Português Brasileiro

Objetivos

Apresentar a questão do acento no Português Brasileiro: Perfil do acento no PB

Abordagens teóricas (Bisol (1992), Lee (1995), Hermans & Wetzels (2012))

Alcance das teorias

Abordagem computacional: Criação e Implementação de modelos

Extração de padrões de copora diversos

Construindo um corpus: Fala versus Escrita

Os diferentes registros

Apontamentos

Page 3: Concebendo e construindo um corpus para a questão do acento no Português Brasileiro

O Acento no PB

Restrito as últimas três sílabas da palavra: Oxítonas: ‘caqui’, ‘sordidez’ Paroxítonas: ‘corda’, ‘beleza’ Proparoxítonas: ‘último’, ‘metódico’

Comportamento previsível: ‘-inho(a)’, ‘-ável’, ‘-eza’, ‘-ico’ Flexões verbais;

Nomes não derivados morfologicamente apresentam um comportamento não completamente previsível.

Levando em conta o peso silábico: Acentuar a penúltima sílaba, porém última sílaba pesada atrai o acento.

Page 4: Concebendo e construindo um corpus para a questão do acento no Português Brasileiro

O Acento no PB - perfil

Corpus ortográfico wikipedia:

Dicionário com 40.924 palavras listadas e já separadas de acordo com categoria acentual.

Total 40924 100%

Oxítonas 10183 25%

Paroxítonas 25967 63%

Proparoxítonas 4774 12%

Page 5: Concebendo e construindo um corpus para a questão do acento no Português Brasileiro

O acento no PB - perfil

Maioria das palavras se encaixa nesses dois grupos: Paroxítonas terminada em vogal (sílaba leve) [Pesquisa ER]

Oxítonas terminadas em consoante (sílaba pesada) [Pesquisa ER]

Aproximadamente 70% do total das palavras está representado aqui.

Paroxítonas 25967 100%

Paroxítonas terminadas em V. 20886 80%

Oxítonas 10183 100%

Oxítonas terminadas em C. 7888 77%

Page 6: Concebendo e construindo um corpus para a questão do acento no Português Brasileiro

O acento no PB – perfil

Dos 30% que sobram:

12% são proparóxitonas

6% são oxítonas terminadas em vogal [consoante subjacente?]

12% são paroxítonas terminadas em consoantes [plural]

Page 7: Concebendo e construindo um corpus para a questão do acento no Português Brasileiro

O acento no PB - Teorias

Abordagens teóricas (Bisol (1992), Lee (1995))

Bisol (1992):Padrão- Sílaba pesada final atrai o acento. Caso a sílaba final não seja pesada, forme um constituinte binário com proêminencia à

esquerda (troqueu) partindo da borda direita da palavra.

Lee (1995):

Padrão (Verbos):

Na forma final da palavra, faça constituintes binários.

Elemento proeminente é o mais a esquerda do pé.

(Paroxítonas e proparoxítonas)

Exceções (Verbos):

Na forma final da palavra, o acento vai cair no elemento mais à direita.

(Oxítonas)

Page 8: Concebendo e construindo um corpus para a questão do acento no Português Brasileiro

O acento no PB - Teorias

Abordagen teórica (Lee (1995)) Não verbos:

Padrão:

Elemento mais a direita do radical da palavra.

(Paroxítonas terminadas em vogal, oxítonas)

Exceções:

No radical da palavra, derivar constituintes binários.

O item proeminente do constituinte é o mais a esquerda do pé. (iambo)

(Paroxítonas terminadas em consoante, proparoxítonas)

Abordagem de Lee exige informações morfológicas, dá um novo sentido mas não elimina a marcação arbitrária.

Page 9: Concebendo e construindo um corpus para a questão do acento no Português Brasileiro

O acento no PB - Teorias

Abordagen teórica (Hermans & Wetzels (2012))

Os autores apresentam uma investigação sobre o acento baseada na observação do comportamento dos falantes diantes de palavras novas (neologismos).

A partir disso, entendem o funcionamento do acento através das noções de padrão produtivo e padrão improdutivo.

Padrão produtivo obedece ao peso silábico, o improdutivo não.

Page 10: Concebendo e construindo um corpus para a questão do acento no Português Brasileiro

Abordagem Computacional

Criação de modelos Implementar as teorias a fim de fundamentar uma discussão quantitativa.

(Alcance das teorias)

Extração de padrões de copora diversos Retomando Hermans & Wetzels – Padrão improdutivo tem subpadrões?

A análise de um grande volume de dados, porém, exige um grande volume de dados

Page 11: Concebendo e construindo um corpus para a questão do acento no Português Brasileiro

Concebendo e construindo um corpus fonológico Necessidade de automatização

Extrair padrões fonológicos exige uma grande quantidade de dados transcritos.

Fala versus Escrita – algumas diferenças

Correspondência entre sons e escrita:

Epêntese – “Capta” é paroxítona?

Dígrafos: ‘ch’, ‘lh’, ‘xc’, ‘ss’, ‘gu’...

Letra representando mais de um som: ‘r’, ‘s’, ‘x’...

Page 12: Concebendo e construindo um corpus para a questão do acento no Português Brasileiro

Concebendo e construindo um corpus fonológico Construindo um transcritor: Programação e Chave de transcrição

Python Linguagem de programação simples e poderosa.

Conta com boas bibliotecas já prontas para dar continuidade ao andamento da pesquisa.

NLTK, Scikit-Learn, Pandas...

Chave de transcrição baseada em Guide (2013): Cada caractere representa um som.

Diferença na transcrição de vogais átonas e tônicas, nasais e não-nasais

Codificação ASCII

Page 13: Concebendo e construindo um corpus para a questão do acento no Português Brasileiro

Concebendo e construindo um corpus fonológico Construindo o Corpus:

Textos Escritos

Artigos Acadêmicos (342.847 palavras)

Jornais (Estado de S. Paulo – 397.869 palavras | Folha de S. Paulo – 819.381)

Blogs (215.126 palavras)

Textos Falados

ProjetoSP: (230.116 palavras)

60 entrevistas com diferentes perfis sociolinguisticos

Iboruna (corpus recebendo tratamento) :

151 entrevistas com diferentes perfis sociolinguisticos

11 de diário de campo

Total: 2005339 palavras

Page 14: Concebendo e construindo um corpus para a questão do acento no Português Brasileiro

Apontamentos

Esse corpus servirá para a extração de padrões para alimentar algumas abordagens probabilísticas para a questão do acento: Acentuador baseado em n-gramas.

Modelo simples, mas pode demonstrar a ‘localidade’ da questão do acento

Acentuador baseado em um classificador bayesiano ingênuo. Traços para a classificação podem incluir classe morfológica, frequência da palavra,

informatividade da palavra, vogal da última sílaba, vogal da penúltima sílaba...

Page 15: Concebendo e construindo um corpus para a questão do acento no Português Brasileiro

Bibliografia

JURAFSKY, D. and MARTIN, J. (2008). Speech and Language Processing. Upper Saddle River, NJ: Prentice Hall.

LEE, S.H (1995) – “Morfologia e Fonologia lexical do Português Brasileiro” – Tese de Doutorado –UNICAMP

BISOL, L. (Org.) (2010) . Introdução a estudos de fonologia do português brasileiro. 5º. ed. Porto Alegre: ediPUCRS.

GUIDE, B, F. (2013). Construção de um silabificador probabilístico para o

português brasileiro. Iniciação científica pela Universidade de São Paulo.

Wetzels, W. L. and Hermans, B. Productive and Unproductive stress patterns in brazilian portuguese. (2012) Revista Letras & Letras. v. 28.

BYBEE, Joan. (2001). Phonology and language use. Cambridge: Cambridge University Press.

BERBER SARDINHA, Tony. "O que é um corpus representativo." Direct Papers44 (2000).

Page 16: Concebendo e construindo um corpus para a questão do acento no Português Brasileiro

Obrigado pela atenção!