atitude linguÍstica no sistema de conversÃo de …€¦ · 2 nasal + 6 ano, cama, banha ganha 3...

12
© 2005, it - instituto de telecomunicações. Todos os direitos reservados. Sara Candeias Fernando Perdigão ATITUDE LINGUÍSTICA NO SISTEMA DE CONVERSÃO DE GRAFEMA PARA FONE 1.º Encontro de Pós-Graduação em Linguística Coimbra, 10-11 de Dezembro de 2010

Upload: others

Post on 10-Jul-2020

0 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: ATITUDE LINGUÍSTICA NO SISTEMA DE CONVERSÃO DE …€¦ · 2 nasal +  6 ano, cama, banha ganha 3 +  a pai, caixa, aula, flauta saud-faulh-4 = nasal

© 2005, it - instituto de telecomunicações. Todos os direitos reservados.

Sara Candeias

Fernando Perdigão

ATITUDE LINGUÍSTICA NO SISTEMA DE CONVERSÃO DE GRAFEMA PARA FONE

1.º Encontro de Pós-Graduação em LinguísticaCoimbra, 10-11 de Dezembro de 2010

Page 2: ATITUDE LINGUÍSTICA NO SISTEMA DE CONVERSÃO DE …€¦ · 2 nasal +  6 ano, cama, banha ganha 3 +  a pai, caixa, aula, flauta saud-faulh-4 = nasal

2

1.º Encontro de Pós-Graduação em Linguística

CELGA, 10-11.Dezembro.2010

Sumário

Sistema de conversão G-F

Enquadramento

Descrição do Módulo

Exemplificação

Conclusão / Discussão

Page 3: ATITUDE LINGUÍSTICA NO SISTEMA DE CONVERSÃO DE …€¦ · 2 nasal +  6 ano, cama, banha ganha 3 +  a pai, caixa, aula, flauta saud-faulh-4 = nasal

3

Objectivo

DESCRIÇÃO do sistema de Conversão

Grafema-Fone (G-F)

EXPLICITAÇÃO de algumas REGRAS

LINGUÍSTICAS, considerando o Português

Europeu (padrão)

1.º Encontro de Pós-Graduação em Linguística

CELGA, 10-11.Dezembro.2010

UTILIDADES do Conversão Texto-Fala

Software de ensino de línguas e de

e-learning em geral

Sistemas de auxílio à leitura para

cegos

Sistemas de auxílio à navegação

por GPS

Sistemas de pergunta-resposta

usadas em aplicações para

telemóvel

Aplicações industriais (máquinas

com comandos mãos-livres)

Aplicações médicas de

monitorização de doentes

Um dos principais módulos de

processamento de texto subjacentes à

arquitectura de um sistema de

Conversão Texto-Fala

G-F?

Page 4: ATITUDE LINGUÍSTICA NO SISTEMA DE CONVERSÃO DE …€¦ · 2 nasal +  6 ano, cama, banha ganha 3 +  a pai, caixa, aula, flauta saud-faulh-4 = nasal

4

Arquitectura do Sistema de Conversão Texto-Fala Esquema genérico

Análise do texto

•N

orm

aliz

ado

r d

e te

xto

Transcrição Fonética

•M

arca

do

r d

e to

nic

idad

e

•C

on

vers

or

G-F

•A

nal

isad

or

mo

rfo

ssin

táct

ico

Geração Prosódica

•M

od

elo

s d

e en

toaç

ão, d

ura

ções

e

inte

nsi

dad

e

•D

eter

min

ação

de

foco

Motor de Síntese

PROPOR 2008

10 Anos de Linguateca – 2008.Setembro.11

Texto

Voz Sintética

Base de dados de voz

pós- processamentopré- processamento

Page 5: ATITUDE LINGUÍSTICA NO SISTEMA DE CONVERSÃO DE …€¦ · 2 nasal +  6 ano, cama, banha ganha 3 +  a pai, caixa, aula, flauta saud-faulh-4 = nasal

5

Sistema de Conversão G-P (Grafema para Fone)

1.º Encontro de Pós-Graduação em Linguística

CELGA, 10-11.Dezembro.2010

Texto

(grafemas)

Divisão em palavras

Conversor

G-F

Transcrições Fonéticas

SAMPA

Conversor

G-F

Árvores de decisão (treinadas automaticamente)

Modelos de «Tabela Look-Up»

Abordagens baseadas em dicionários

Abordagens por redes neuronais

Máquinas de estados finitos

Cadeias escondidas de Marcov

Modelos estatísticos

Modelos híbridos

Abordagens baseadas em regras linguísticas

Conversão G-F Quadros Teóricos

Page 6: ATITUDE LINGUÍSTICA NO SISTEMA DE CONVERSÃO DE …€¦ · 2 nasal +  6 ano, cama, banha ganha 3 +  a pai, caixa, aula, flauta saud-faulh-4 = nasal

6

Conversor G-FEtapas

1. Siglas > Soletração

2. Lista de excepções

• Casos de alternância vocálica:

• afectados por metafonia:

[E] > [e] medo

[O] > [o] novo

• Casos no interior da flexão verbal:

meto [e] : metes [E]

• Casos responsáveis pela própria etimologia do vocábulo:

ferro [E] < FERRU-

negro [e] < NIGRU-

3. Vocábulos com 1, 2 , 3 grafemas > Regras para 1, 2, 3 grafemas

1.º Encontro de Pós-Graduação em Linguística

CELGA, 10-11.Dezembro.2010

• Regras concebidas a partir da sequências dos padrões gráficos• Natura Corpora: 600M vocábulos

Page 7: ATITUDE LINGUÍSTICA NO SISTEMA DE CONVERSÃO DE …€¦ · 2 nasal +  6 ano, cama, banha ganha 3 +  a pai, caixa, aula, flauta saud-faulh-4 = nasal

7

Conversor G-F Etapas

4. Afixos > Divisão entre afixos e radical

5. Conversor G-F (implementação de regras)

1.º Encontro de Pós-Graduação em Linguística

CELGA, 10-11.Dezembro.2010

Marca a tonicidade das

vogais

• Regras para marcar Vog Tónicas

• Átonas

• Regras para marcar as Vog Nasais

Converte grafema>fone

• Regras para <Vog>

• (Regras para <Gl>)

• Regras para <Cons>

• Se <ã>, <õ>• Se <Vog>+<m|n(s)>

pudim, confins

• Se <Vog>+<m|n>+<Cons>

campo, canto

Page 8: ATITUDE LINGUÍSTICA NO SISTEMA DE CONVERSÃO DE …€¦ · 2 nasal +  6 ano, cama, banha ganha 3 +  a pai, caixa, aula, flauta saud-faulh-4 = nasal

8

Regras para os grafemas <Vog> Exemplos

1.º Encontro de Pós-Graduação em Linguística

CELGA, 10-11.Dezembro.2010

Caso de <a>|<â> <a>|<â> [a | 6 | a~]

regra padrão contextual fone exemplo obs.

1 + # 6 semana, gama

2 nasal + <m | n | nh> 6 ano, cama, banha ganha

3 + <i | u> a pai, caixa, aula, flautasaud-faulh-

4 = nasal a~ campo, cantar

5 + <l> + <Cons> a salvação, alterar

6 + <z> + # a eficaz, cartaz

7 = tónica a faculdade

8 por omissão 6 faculdade

Caso de <e><e> [E | e | @ | i | 6| 6~j~] : 23 regras

Page 9: ATITUDE LINGUÍSTICA NO SISTEMA DE CONVERSÃO DE …€¦ · 2 nasal +  6 ano, cama, banha ganha 3 +  a pai, caixa, aula, flauta saud-faulh-4 = nasal

9

Regras para os grafemas <Cons> Exemplos

1.º Encontro de Pós-Graduação em Linguística

CELGA, 10-11.Dezembro.2010

Caso de <c> <c> [s | k | ]

regra padrão contextual fone exemplo obs.

1 + <e | i> s aceitar, cifra

2 + <t > k | 7815 casos

k bact- 25 casos

-caract- 216 casos

-pact- 451 casos

-tact- 105 casos, tacto, tactear

intelect- 106 casos

-lact- 113 casos

oct- 18 casos, nocturno

hecto- 8 casos

facto, nectar factor, olfacto

3 por omissão k caderno, acordar

Page 10: ATITUDE LINGUÍSTICA NO SISTEMA DE CONVERSÃO DE …€¦ · 2 nasal +  6 ano, cama, banha ganha 3 +  a pai, caixa, aula, flauta saud-faulh-4 = nasal

10

Regras para os grafemas <Cons> Exemplos

1.º Encontro de Pós-Graduação em Linguística

CELGA, 10-11.Dezembro.2010

Caso de <s>

<s> [z | Z | S | s ]

regra padrão contextual fone exemplo obs.

1 # + <*> + <Vog> s saber

2 <Vog> + <*> + <Vog> z coisa

3 <trans> |<trâns> +<Vog> z transição, trânsito<ans>

( 3600 casos)

4 <Cons> + <*> + <Vog> s inserir, salsa

5 + <b|d|g|m|n|l|r|v|z> # z rasga, bisneto disjunto (?)

6 por omissão S casca, cores, constatar

Page 11: ATITUDE LINGUÍSTICA NO SISTEMA DE CONVERSÃO DE …€¦ · 2 nasal +  6 ano, cama, banha ganha 3 +  a pai, caixa, aula, flauta saud-faulh-4 = nasal

11

Conclusão / Discussão

1.º Encontro de Pós-Graduação em Linguística

CELGA, 10-11.Dezembro.2010

Algoritmos de Conversão baseados em Regras Linguísticas

• optimizados

• as variações alofónicas dependentes do contexto são parâmetros extraídos

automaticamente aquando da selecção das unidades feita pelo treino da base de dados

• problemas• Alternâncias vocálicas [e] : [E]; [o] : [O]

• pares de homógrafos heterófonos (de categorias gramaticais distintas)(Nome : Verbo) <selo> [e] : <selo> [E]; <olho> [o] : <olho> [O]

(Preposição: Verbo) <sobre> [o] : <sobre> [O]

Recolha exaustiva de homógrafos em Português?Regrar tipologias e implementá-las?Avaliar a performance do sistema?

Soluções?

Page 12: ATITUDE LINGUÍSTICA NO SISTEMA DE CONVERSÃO DE …€¦ · 2 nasal +  6 ano, cama, banha ganha 3 +  a pai, caixa, aula, flauta saud-faulh-4 = nasal

© 2005, it - instituto de telecomunicações. Todos os direitos reservados.

[email protected]

[email protected]

Muito Obrigada

Muito Obrigada

[mu~j~tu] [obrigad6]