agrupamento e distribuição dos números telefônicos no … e... · -1 agrupamento e...

16
Universidade Federal de Pernambuco NEHTE / Programa de Pós Graduação em Letras CCTE / Programa de Pós Graduação em Ciências da Computação - 1 - Agrupamento e distribuição dos números telefônicos no português brasileiro (PB): uma contribuiçao ao aprimoramento do Google tradutor Oyedeji Musiliyu 1 (UFAL) Resumo: O estudo está preocupado com a estratégia de agrupamento numérico na enunciação dos números telefônicos no português brasileiro (PB). O propósito é disponibilizar informações para o aprimoramento do Google tradutor. Para isso, números telefônicos extraídos de uma lista telefônica local foram lidos naturalmente por falantes nativos do PB. Uma análise segmental foi realizada mediante a utilização do software Praat (Boersma and Weenink 2013, versão 10.3). Os resultados das análises mostraram um padrão de agrupamento numérico na enunciação dos números telefônicos e tal modelo poderia ser base informacional ao aprimoramento do sistema de síntese de voz do Google tradutor em relação ao números telefônicos. Palavras-chave: agrupamento, número telefônico, Google tradutor Abstract: This paper is concerned with the numerical grouping strategy in spoken telephone numbers in Brazilian Portuguese, in order to make available information that could improve the Google translator. To that aim, telephone numbers were extracted from a local phone book and spoken spontaneously by native speakers of Brazilian Portuguese. A segmental analysis was done with the use of Praat (Boersma & Weenink 2013, version 10.3). Results of the analysis show a grouping strategy pattern in the spoken telephone numbers and such model could serve as information in improving the speech synthesis system of Google translator in relation to telephone numbers. Keywords: grouping, telephone numbers, Google translator 1 Oyedeji Musiliyu, Mestrando Universidade Federal de Alagoas (UFAL) Programa de Pós-Graduação em Letras e Linguística [email protected]

Upload: hoanghanh

Post on 10-Dec-2018

221 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Agrupamento e distribuição dos números telefônicos no … e... · -1 Agrupamento e distribuição dos números telefônicos no português brasileiro (PB): uma contribuiçao ao

Universidade Federal de Pernambuco NEHTE / Programa de Pós Graduação em Letras CCTE / Programa de Pós Graduação em Ciências da Computação

- 1 -

Agrupamento e distribuição dos números telefônicos no português brasileiro (PB): uma contribuiçao ao

aprimoramento do Google tradutor

Oyedeji Musiliyu1 (UFAL)

Resumo:

O estudo está preocupado com a estratégia de agrupamento numérico na enunciação dos números telefônicos no português brasileiro (PB). O propósito é disponibilizar informações para o aprimoramento do Google tradutor. Para isso, números telefônicos extraídos de uma lista telefônica local foram lidos naturalmente por falantes nativos do PB. Uma análise segmental foi realizada mediante a utilização do software Praat (Boersma and Weenink 2013, versão 10.3). Os resultados das análises mostraram um padrão de agrupamento numérico na enunciação dos números telefônicos e tal modelo poderia ser base informacional ao aprimoramento do sistema de síntese de voz do Google tradutor em relação ao números telefônicos. Palavras-chave: agrupamento, número telefônico, Google tradutor Abstract: This paper is concerned with the numerical grouping strategy in spoken telephone numbers in Brazilian Portuguese, in order to make available information that could improve the Google translator. To that aim,

telephone numbers were extracted from a local phone book and spoken spontaneously by native speakers of Brazilian Portuguese. A segmental analysis was done with the use of Praat (Boersma & Weenink 2013, version 10.3). Results of the analysis show a grouping strategy pattern in the spoken telephone numbers and such model could serve as information in improving the speech synthesis system of Google translator in relation to telephone numbers. Keywords: grouping, telephone numbers, Google translator

1 Oyedeji Musiliyu, Mestrando

Universidade Federal de Alagoas (UFAL) Programa de Pós-Graduação em Letras e Linguística [email protected]

Page 2: Agrupamento e distribuição dos números telefônicos no … e... · -1 Agrupamento e distribuição dos números telefônicos no português brasileiro (PB): uma contribuiçao ao

Universidade Federal de Pernambuco NEHTE / Programa de Pós Graduação em Letras CCTE / Programa de Pós Graduação em Ciências da Computação

- 2 -

Introdução

A motivação do estudo

O avanço da tecnologia da fala tornou frequente o uso de sistema

automatizado de reconhecimento e de síntese de fala no nosso cotidiano. Isto é

observado em diversos âmbitos de aplicações tais como: informações bancárias,

tradução online, consultas a listas telefônicas, serviços de auxílio a deficientes

visuais, dentre outras.

Em muitos casos, entretanto, o desempenho desses sistemas tem sido

considerado sofrível, ora por não processarem corretamente a fala espontânea (no

caso de sistemas de reconhecimento de fala, por exemplo o AUDIMUS2), ora por

não apresentarem, em sua produção, características de ritmo e entonação

próximas às da fala natural (no caso dos sistemas de síntese de fala, por exemplo o

DIXI3). O Google tradutor que oferece um serviço de tradução online grátis, por

exemplo, possui um TTS (do inglês Text-To-Speech ou conversor to texto para fala)

que não faz uma leitura adequada de números telefônicos no português brasileiro

(doravante PB).

Isso se deve em parte ao fato de tais sistemas serem, na maioria das vezes,

baseados em dados impressionísticos (ou muito antigos) e não em dados de fala

natural e espontânea.

Avanços nessa área foram obtidos em decorrência da descrição da enunciação

de números naturais nas mais diversas línguas, tais como o alemão (Baumann &

Trouvain 2001), o japonês (Amino & Osanai 2011) e o francês (Bartkova & Jouvet

1999). O propósito de tais estudos foi propor um modelo apropriado de produção

2 AUDIMUS.MEDIA / AUDIMUS.SERVER: Sistema automático de reconhecimento de fala usado na transcrição para texto das

palavras proferidas por um ou vários oradores, utilizado em sistemas de legendagem para televisão e rádio, atas de reuniões, tribunais, congressos, … 3 DIXI.SERVER / FACE.SERVER : Sistema de síntese de fala realiza a leitura de qualquer texto em formato electrónico,

podendo ser usado com uma personagem virtual com movimentos faciais sincronizados com a fala em aplicações web, sistemas aumentativos, …

Page 3: Agrupamento e distribuição dos números telefônicos no … e... · -1 Agrupamento e distribuição dos números telefônicos no português brasileiro (PB): uma contribuiçao ao

Universidade Federal de Pernambuco NEHTE / Programa de Pós Graduação em Letras CCTE / Programa de Pós Graduação em Ciências da Computação

- 3 -

dos números telefônicos que poderão servir de informações ao aperfeiçoamento de

sistemas automatizados de reconhecimento e de síntese de voz em aplicações

referentes aos números telefônicos.

Porquanto não houvesse para o PB estudo que descreva, de forma sistemática

e abrangente, a estratégia de produção de números telefônicos em estruturas pré-

estabelecidas, isto é propósito do presente estudo. Os resultados das análises

poderão servir de informações ao aprimoramento do sistema TTS do Google

tradutor em aplicação conectada aos números telefônicos no PB.

Os objetivos desse estudo

O objetivo do estudo é realizar uma análise segmental para investigar a

estratégia padrão de agrupamento e de distribuição sonora aplicada aos números

telefônicos de comprimento diferente no PB.

Metodologia

A caracterização dos participantes

Os participantes que produziram os dados deste estudo foram estudantes (uma

metade do segundo grau e outra do terceiro grau) nativos do PB, todos do estado

de Pernambuco. O grupo foi formado de oitenta e cinco pessoas (quarenta e oito

mulheres e trinta e sete homens) selecionadas aleatoriamente.

Page 4: Agrupamento e distribuição dos números telefônicos no … e... · -1 Agrupamento e distribuição dos números telefônicos no português brasileiro (PB): uma contribuiçao ao

Universidade Federal de Pernambuco NEHTE / Programa de Pós Graduação em Letras CCTE / Programa de Pós Graduação em Ciências da Computação

- 4 -

A caracterização do Corpus

O corpus deste estudo como apresentado no Quadro 1, consiste de um total de

30 números telefônicos. Todos os números são reais e foram extraídos da lista

telefônica LISTEL, para as cidades de Recife, Olinda e Jaboatão dos Guararapes, no

estado de Pernambuco.

Quadro 1: O corpus do estudo

Números telefônicos

3 dígitos 8 dígitos 11 dígitos

120

104

147`

190

193

32224034

32514251

33274686

34238577

34412276

3228 6924

3251 7343

3424 2767

3452 1425

3465 2746

2226 31 96

3221 47 54

3271 00 84

3428 09 24

3465 30 46

8803 91 48

9605 36 81

9619 94 53

9909 62 94

9948 09 93

08002812112

08007010114

08007011566

08007070044

08007704418

Os números foram escolhidos aleatoriamente, de forma a abranger (a) os

números convencionais e de telefone celular com oito dígitos, (b) os números de

serviços especiais com três dígitos e (c) os números de ligação gratuita, com onze

dígitos.

No intuito de testar uma possível relação entre a apresentação gráfica dos

números e a maneira como eles são enunciados, os números convencionais de oito

dígitos foram apresentados de três maneiras diferentes, (i) divididos em dois grupos

de quatro dígitos (NNNN NNNN), (ii) divididos em um grupo de quatro e dois grupos

de dois dígitos (NNNN NN NN) e (iii) sem qualquer tipo de divisão (NNNNNNNN). Os

Page 5: Agrupamento e distribuição dos números telefônicos no … e... · -1 Agrupamento e distribuição dos números telefônicos no português brasileiro (PB): uma contribuiçao ao

Universidade Federal de Pernambuco NEHTE / Programa de Pós Graduação em Letras CCTE / Programa de Pós Graduação em Ciências da Computação

- 5 -

catálogos telefônicos trazem números com esses três tipos de disposição, embora a

do tipo (i) seja a mais frequente.

No Brasil os números telefônicos são regulados pela ANATEL (Agência

Nacional de Telecomunicações), no Plano Nacional de Numeração. E no plano

atual, o Número de Assinante deverá ter o comprimento de oito dígitos,

obedecendo o formato [NNNN + NNNN]. Embora, na região de DDD (discagem direta

a distância) 11, tal como em São Paulo, os telefones móveis deverão ter o

comprimento de 9 (nove) dígitos, obedecendo o formato [9NNNN + NNNN].

A coleta dos dados

Na coleta de dados, os números de telefone pré-selecionados foram

apresentados um após outro, aleatoriamente, em slideshow, com intervalos

regulares de sete segundos. O processo dividiu-se em duas etapas para cada

participante:

(1) Na primeira etapa:

O participante leu a breve instrução a seguir e fez um ensaio:

“Você irá ver a seguir uma série de números telefônicos. O que se pede é

que leia em voz alta os números apresentados da forma como costuma

dizê-los. Os números serão apresentados um após outro automaticamente.

Vocês terá tempo suficiente para lê-los.

Inicialmente, você vai fazer um ensaio rápido, para se familiarizar com a

tarefa. Não há uma forma correta de se dizer números telefônicos. Mais

uma vez: o que se pede apenas é que você leia, naturalmente, os números

da maneira que habitualmente o faz. Depois do teste, a tarefa em si terá

inicio. Cera de 30 números serão apresentados

Page 6: Agrupamento e distribuição dos números telefônicos no … e... · -1 Agrupamento e distribuição dos números telefônicos no português brasileiro (PB): uma contribuiçao ao

Universidade Federal de Pernambuco NEHTE / Programa de Pós Graduação em Letras CCTE / Programa de Pós Graduação em Ciências da Computação

- 6 -

Pede-se também que você procure manter uma distancia constante do

microfone. Se tiver alguma dúvida, não hesite em perguntar.

Obrigado por sua participação.”

O objetivo da instrução foi também deixar para os participantes cientes de

que eles não estavam sendo testados no processo da coleta de dados, possibilitando

assim que sua fala fosse o mais espontânea possível. Depois a leitura da instrução,

um rápido ensaio, contendo um total de seis números telefônicos representativos

(9619 94 53; 32514251; 104; 08007011566; 3228 6924; 8803 91 48) foi realizado.

(2) E na segunda etapa:

Logo depois o ensaio, o slideshow composto dos 30 números foi apresentado

aos participantes e a gravação foi imediatamente feita. A gravação foi realizada

em um equipamento de minidisc Sony, modelo MZ-R700, com um microfone digital

Sony, modelo ECM-MS907, localizado a 15 centímetros da boca dos participantes. A

Figura 1 ilustra um exemplo do slideshow apresentado:

Figura 1: Um exemplo do slideshow apresentado aos participantes.

Os números telefônicos foram segmentados dos enunciados produzidos pelos

participantes e arquivados em formato .wav mediante a utilização do software

Praat (Boersma and Weenink 2013, versão 10.3), tal como ilustrado na Figura 2. O

Praat é uma ferramenta para a análise da voz, desenvolvida em 1992 por Paul

Boersma e David Weenink, do Institute of Phonetic Sciences, da Universidade de

Amsterdam, e pode ser baixado livremente na internet (www.praat.org).

Page 7: Agrupamento e distribuição dos números telefônicos no … e... · -1 Agrupamento e distribuição dos números telefônicos no português brasileiro (PB): uma contribuiçao ao

Universidade Federal de Pernambuco NEHTE / Programa de Pós Graduação em Letras CCTE / Programa de Pós Graduação em Ciências da Computação

- 7 -

Figura 2: Janelas do Praat ilustrando o sinal acústico do Enunciado_01 do participante mulher_01 e da enunciação do número telefônico 9948 09 93

Alguns poucos participantes omitiram um ou dois números no processo da

leitura, no entanto. Portanto, para alguns participantes, só temos dados de 28 ou

29 enunciados de números em vez de 30.

Também, para as análises desse estudo, não foram utilizados todos os dados

produzidos pelos participantes. Alguns deles erraram na leitura de alguns números

telefônicos. Esses dados foram considerados erros e foram descartados da análise.

No entanto o número de dados errados é pouco significativo.

A análise segmental dos dados

Cada trecho de enunciado de número telefônico de formato .wav foi jogado

no Praat e transcrito ortograficamente. Em seguida, o trecho sonoro é segmentado

em agrupamentos representados pelo dígito 1 (unário), 2 (binário), 3 (ternário) ou

4 (quaternário), e em distribuições sonoras representadas pela letra U (unidade), D

(dezena), C (centena) ou M (milhar). A Figura 3 exemplifica a segmentação e

transcrição de um número telefônico tal como enunciado por um participante.

Page 8: Agrupamento e distribuição dos números telefônicos no … e... · -1 Agrupamento e distribuição dos números telefônicos no português brasileiro (PB): uma contribuiçao ao

Universidade Federal de Pernambuco NEHTE / Programa de Pós Graduação em Letras CCTE / Programa de Pós Graduação em Ciências da Computação

- 8 -

Figura 3: Janela do Praat contendo a transcrição e a segmentação do número telefônico 08007704418 tal como enunciado pelo participante homem_69.

Resultados e discussão

A estratégia de agrupamento dos números de oito dígitos:

Números de dígitos 8 dígitos

Agrupamentos 2-2-2-2 1-3-2-2 Outros (3-2-3; 1-1-2-2-2; ...)

Total 1435 188 70

% 85% 11% 4%

Quadro 1: Resultados da estratégia de agrupamento dos números de oito dígitos.

Como se pode observar na Quadro 1, a preferência do agrupamento dos

números telefônicos de oito dígitos em sua maioria é no tipo “2-2-2-2” (NN NN NN

NN), isto é, um conjunto de quatro agrupamentos binários (85% dos casos). Outro

agrupamento relativamente significativo é o do tipo “1-3-2-2” (N NNN NN NN) (11%

dos casos) isso provavelmente pode ser explicado pelo fato de que antes de 1996,

Page 9: Agrupamento e distribuição dos números telefônicos no … e... · -1 Agrupamento e distribuição dos números telefônicos no português brasileiro (PB): uma contribuiçao ao

Universidade Federal de Pernambuco NEHTE / Programa de Pós Graduação em Letras CCTE / Programa de Pós Graduação em Ciências da Computação

- 9 -

os números telefônicos de sete dígitos eram agrupados em “3-2-2” (NNN NN NN). E

a partir desse ano, a companhia telefônica local inseriu um dígito (o dígito 3) na

frente de todos os números. Os agrupamentos irregulares, como os do tipo “1-1-2-

2-2” (N N NN NN NN), “3-2-3” (NNN NN NNN) e “1-2-2-3” (N NN NN NNN),

apareceram raramente e, em sua grande parte, parecem constituir erro.

Na Quadro 2, a disposição gráfica dos números de oito dígitos não parece

exercer nenhuma influência na maneira como eles são agrupados pelos

participantes. As ocorrências do agrupamento “2-2-2-2” (NN NN NN NN) eram de

85% dos casos de disposição gráfica NNNN NNNN, 80% para NNNNNNNN e 81% dos

casos para a disposição gráfica NNNN NN NN.

Números de dígitos 8 dígitos

Disposição gráfica NNNNNNNN NNNN NNNN NNNN NN NN

Total 360 326 749

% de agrupamento 2-2-2-2 (NN NN NN NN)

80% 85% 81%

Quadro 2: Resultados da estratégia do agrupamento com os números de disposição gráfica NNNN NNNN, NNNNNNNN e NNNN NN NN.

O agrupamento dos números de três dígitos:

Números de dígitos 3 dígitos

Agrupamentos 3

Total 424

% 100%

Quadro 3: Resultados da estratégia de agrupamento dos números de três dígitos.

Page 10: Agrupamento e distribuição dos números telefônicos no … e... · -1 Agrupamento e distribuição dos números telefônicos no português brasileiro (PB): uma contribuiçao ao

Universidade Federal de Pernambuco NEHTE / Programa de Pós Graduação em Letras CCTE / Programa de Pós Graduação em Ciências da Computação

- 10 -

Como se pode observar na Quadro 3, a preferência do agrupamento dos

números de 3 dígitos em sua totalidade é no tipo “3” (NNN), isto é, um

agrupamento ternário.

Agrupamento dos números de onze dígitos:

Números de dígitos 11 dígitos

Agrupamentos 4-3-2-2 Outros (2-2-3-2-2; 4-2-1-2-2; ...)

Total 319 5

% 98% 2%

Quadro 4: Resultados da estratégia de agrupamento dos números de onze dígitos.

Como se pode observar na Quadro 4, com os números de onze dígitos, o

agrupamento é majoritariamente feito em “4-3-2-2” (NNNN NNN NN NN), isso é um

conjunto de um agrupamento quaternário, seguido de um agrupamento ternário e

dois agrupamentos binários (98% dos casos).

A distribuição sonora dos números de oito dígitos:

Na enunciação dos números telefônicos, os agrupamentos foram distribuídos

em unidade (U), em dezena (D), em centena (C) ou em milhar (M). O Quadro 5 e o

Gráfico 1 apresentam os resultados da distribuição sonora dos números telefônicos

de oito dígitos de agrupamentos binários “2-2-2-2” que é o mais comum.

Page 11: Agrupamento e distribuição dos números telefônicos no … e... · -1 Agrupamento e distribuição dos números telefônicos no português brasileiro (PB): uma contribuiçao ao

Universidade Federal de Pernambuco NEHTE / Programa de Pós Graduação em Letras CCTE / Programa de Pós Graduação em Ciências da Computação

- 11 -

Gráfico 1: Representação gráfica da distribuição sonora dos números telefônicos de oito dígitos de agrupamentos binários “2-2-2-2” (NN NN NN NN).

Números de dígitos

8 dígitos

Distribuição sonora

UU-UU-UU-UU

D-D-D-D UU-UU-D-UU UU-UU-D-D Outros

Total 689 135 135 130 346

% 48% 9% 9% 9% 24%

Quadro 5: Resultados da distribuição sonora dos números telefônicos de oito dígitos de agrupamentos binários “2-2-2-2” (NN NN NN NN).

Como se pode observar na Quadro 5 e no Gráfico 1, a preferência de

distribuição sonora dos números de oito dígitos de agrupamento “2-2-2-2” (NN NN

NN NN) em sua maioria é no tipo “UU-UU-UU-UU” que é uma distribuição sonora em

unidade (48% dos casos) em detrimento de dezenas, centenas e milhares.

Outras distribuições sonoras relativamente significativas são as do tipo “D-D-

D-D” (9%), “UU-UU-D-UU” (9%) e “UU-UU-D-D” (9%).

A distribuição sonora dos números de três dígitos:

Page 12: Agrupamento e distribuição dos números telefônicos no … e... · -1 Agrupamento e distribuição dos números telefônicos no português brasileiro (PB): uma contribuiçao ao

Universidade Federal de Pernambuco NEHTE / Programa de Pós Graduação em Letras CCTE / Programa de Pós Graduação em Ciências da Computação

- 12 -

O Quadro 6 e o Gráfico 2 apresentam os resultados da distribuição sonora dos

números telefônicos de três dígitos de agrupamentos ternário “3” (NNN) que é o

mais comum.

Gráfico 2: Representação gráfica da distribuição sonora dos números telefônicos de três dígitos de

agrupamento ternário “3” (NNN).

Números de dígitos 3 dígitos

Distribuição sonora UUU C

Total 144 280

% 34% 66%

Quadro 6: Resultados da distribuição sonora dos números telefônicos de três dígitos de agrupamento ternário “3” (NNN)

Quadro 6 e o Gráfico 2 mostram os resultados da distribuição sonora na

enunciação dos números em unidade (U) e em centena (C) dos números telefônicos

de três dígitos de agrupamento ternário “3” (NNN). A preferência da distribuição

sonora em sua maioria é no tipo “C” que é uma distribuição sonora em centena

(66% dos casos) em detrimento da distribuição sonora em unidade (34% dos casos).

A distribuição sonora dos números de onze dígitos:

Page 13: Agrupamento e distribuição dos números telefônicos no … e... · -1 Agrupamento e distribuição dos números telefônicos no português brasileiro (PB): uma contribuiçao ao

Universidade Federal de Pernambuco NEHTE / Programa de Pós Graduação em Letras CCTE / Programa de Pós Graduação em Ciências da Computação

- 13 -

O Quadro 7 e o Gráfico 3 apresentam os resultados da distribuição das

unidades sonoras na enunciação dos números em unidade (U), em centena (C) e em

dezena (D) dos números telefônicos de onze dígitos do conjunto de agrupamento

“4-3-2-2” (NNNN NNN NN NN).

Gráfico 3: Representação gráfica da distribuição sonora dos números telefônicos de onze dígitos de conjunto de agrupamentos “4-3-2-2” (NNNN NNN NN NN).

Números de dígitos

11 dígitos

Distribuição sonora

UC-UUU-UU-UU UC-C-D-D UC-UUU-D-D UC-C-D-UU Outros

Total 62 55 52 43 112

% 19% 17% 16% 13% 35%

Quadro 7: Resultados da distribuição sonora dos números telefônicos de onze dígitos de conjunto de agrupamentos “4-3-2-2” (NNNN NNN NN NN).

Como se pode observar no Quadro 7 e Gráfico 3, a preferência da

distribuição sonora dos números de onze dígitos de agrupamento “4-3-2-2” (NNNN

NNN NN NN) em sua maioria é no tipo “UC-UUU-UU-UU” que é um agrupamento

quaternário de distribuição em unidade e centena, seguido de um agrupamento

Page 14: Agrupamento e distribuição dos números telefônicos no … e... · -1 Agrupamento e distribuição dos números telefônicos no português brasileiro (PB): uma contribuiçao ao

Universidade Federal de Pernambuco NEHTE / Programa de Pós Graduação em Letras CCTE / Programa de Pós Graduação em Ciências da Computação

- 14 -

ternário de distribuição sonora em unidade e de dois agrupamentos binários de

distribuição sonora em unidade (19% dos casos). Outras distribuições relativamente

significativas são as do tipo “UC-C-D-D” (17%), “UC-UUU-D-D” (9%), “UU-UU-D-D”

(16%) e “UC-C-D-UU” (13%).

Conclusões

Os resultados deste trabalho permitiram identificar um padrão de

agrupamento e de distribuição sonora aplicado aos números telefônicos no

português brasileiro.

As análises mostraram que, geralmente, na enunciação dos números

telefônicos de três dígitos, o agrupamento dos dígitos é ternário “3” e é enunciado

em centena “C”. Por exemplo, a preferência na enunciação do número telefônico

“190” é “cento e noventa”.

Na enunciação dos números telefônicos de 8 dígitos, o agrupamento dos

dígitos é um conjunto de quatro agrupamentos binários “2-2-2-2” que é enunciado

em unidade “UU-UU-UU-UU”. Por exemplo, o número telefônico “3424 2767” é

enunciado de preferência tal como “três quatro”-“dois quatro”-“dois sete”-“seis

sete”.

Com os números telefônicos de onze dígitos, de preferência, a estratégia de

agrupamento é um conjunto de um agrupamento quaternário, um agrupamento

ternário e dois agrupamentos binários “4-3-2-2” que é enunciado em unidade e em

centena “UC-UUU-UU-UU”. Por exemplo, o número telefônico “08002812112” é

enunciado preferencialmente da seguinte forma, “zero oitocentos”-“dois oito um”-

“dois um”-“um dois”.

Os resultados poderão contribuir ao aprimoramento do sistema automatizado

de síntese de fala do Google tradutor em aplicação conetada aos números

telefônicos no PB. A Figura 4 mostra que a performance do Google tradutor é

Page 15: Agrupamento e distribuição dos números telefônicos no … e... · -1 Agrupamento e distribuição dos números telefônicos no português brasileiro (PB): uma contribuiçao ao

Universidade Federal de Pernambuco NEHTE / Programa de Pós Graduação em Letras CCTE / Programa de Pós Graduação em Ciências da Computação

- 15 -

sofrível em relação a síntese da enunciação dos números telefônicos no PB. O

número telefônico “3424 2767” é enunciado pelo Google tradutor tal como “três

mil quatrocentos vinte quatro”-“dois mil setecentos sessenta sete”. Isto é uma

estratégia de agrupamento e enunciação de dígitos que não apresenta

caraterísticas próximas às da fala natural no PB tal como observado no presente

estudo.

Figura 4: janela do Google tradutor com a enunciação sintetizada do número telefônico 3424 2767.

Referências

Amino, K and Osanai, T. Realisation of the prosodic structure of spoken telephone

numbers by native and non-native speakers of japanese. In proceeding of: THE

17TH INTERNATIONAL CONGRESS OF PHONETIC SCIENCES (ICPhS XVII). Honk kong,

China, August 17-21, 2011.

Bartkova, K. and Jouvet, D. Selective prosodic post-processing for improving

recognition of French telephone numbers. In Proceedings of: THE 6TH EUROSPEECH.

Budapest, Hungary, 1999.

Page 16: Agrupamento e distribuição dos números telefônicos no … e... · -1 Agrupamento e distribuição dos números telefônicos no português brasileiro (PB): uma contribuiçao ao

Universidade Federal de Pernambuco NEHTE / Programa de Pós Graduação em Letras CCTE / Programa de Pós Graduação em Ciências da Computação

- 16 -

Baumann, S. and Trouvain, J. On the prosody of German telephone numbers. In

Proceedings of: THE 7TH CONFERENCE ON SPEECH COMMUNICATION AND

TECHNOLOGY. Aalborg, Denmark, 2001. P. 557-560.

Boersma, P. and Weenink, D. Praat: doing phonetics by computer. Versão 10.3.

Disponível em:< http://www.praat.org/ >. Acesso em: 11 fev. 2013