sÍntese e prediÇÃo de sinais de...

0

UNIVERSIDADE PRESBITERIANA MACKENZIE ESCOLA DE ENGENHARIA ENGENHARIA ELÉTRICA

FERNANDO CARRARA LOPEZ RENATO DALTO FANGANIELLO

SÍNTESE E PREDIÇÃO DE SINAIS DE VOZ

São Paulo

2007

1

FERNANDO CARRARA LOPEZ RENATO DALTO FANGANIELLO

SÍNTESE E PREDIÇÃO DE SINAIS DE VOZ

Trabalho de Graduação Interdisciplinar apresentado ao Curso de Engenharia Elétrica, da Escola de Engenharia da Universidade Presbiteriana Mackenzie, como requisito parcial à obtenção do grau de Bacharel em Engenharia.

ORIENTADOR: PROF. DOUTOR MARCIO EISENCRAFT

São Paulo

2007

2

Aos amigos que direta ou indiretamente nos apoiram e incentivaram a superar as dificuldades para concluir este trabalho.

3

AGRADECIMENTOS

Ao Prof. Marcio Eisencraft, por ter sido o orientador e incentivar a busca do conhecimento necessário para a realização deste trabalho. Às nossas famílias, pela sua grande compreensão nos nossos momentos de ausência. À Universidade Presbiteriana Mackenzie que nos propiciou conhecimento e recursos para a conclusão deste trabalho

Aos amigos que direta ou indiretamente colaboraram para a realização deste trabalho.

4

Two roads diverged in a wood, and I I took the one less traveled by,

And that has made all the difference. (The Road Not Taken - Robert Frost)

5

RESUMO

Voz é o meio de comunicação mais usual entre humanos e torna-se um meio de comunicação viável entre máquinas e humanos. Nas últimas décadas as técnicas para transmitir informação passaram por muitas mudanças. São explicados os fundamentos básicos de funcionamento destas técnicas e sua importância, além de serem realizadas simulações e comparações dos resultados obtidos. Para facilitar o entendimento delas são descritos conceitos de processamento digital de sinais e noções da anatomia humana. As técnicas aqui abordadas permitem a compreensão do funcionamento de alguns dos atuais sistemas de transmissão de voz, além de poder auxiliar deficientes, por meio de leitores para deficientes visuais e sintetizadores de voz para os deficientes de fala. Este trabalho aborda duas técnicas de processamento de digital de sinais: a predição e a síntese de sinais de voz. Palavras-chave: Processamento de Voz. Voz Sintética. Processamento digital de sinais

6

ABSTRACT

Speech is the most common way for humans to communicate with each other and it becomes a means for communication between men and machines. The techniques used for transmitting information have undergone several remodeling in the past decades. The basic principles of these techniques as well as their importance are explained in this work. Digital signal processing concepts and human anatomy are described in order to smooth the understanding of such techniques, which allow the increase of current voice transmitting systems’ capacity and provide aid for the handicapped, e. g., reading aid for the blind and speaking aid for the vocally handicapped. This work approaches two digital signal processing techniques: voice signals prediction and synthesis. Key words: Voice processing. Synthetic voice. Digital signal processing.

7

LISTA DE ILUSTRAÇÕES

Gráfico 1 - Exemplo de um sinal de tempo discreto.…………………………………… 13 Diagrama 1: Representação em diagrama de blocos de um sistema..................………... 13 Diagrama 2 – Função de sistema do retardo discreto (GIROD, 2003)............................. 15 Diagrama 3 – Sistema gerador de eco.………………………………………………….. 15 Gráfico 2: Exemplo de um sinal amostrado. ................................................................... 18 Diagrama 4: Filtro FIR com M coeficientes (ordem M-1), forma direta. ..................... 20 Diagrama 5: Exemplo de configuração de um filtro IIR. ............................................... 21 Gráfico 3: Exemplo de filtro com o comando filtrer. ..................................................... 22 Desenho 1 – Detalhes do aparelho fonador humano (SIMÕES, 1999). ......................... 25 Desenho 2 – Localização das cordas vocais (SENDA, 2005)........................................... 26 Diagrama 6 – Modelo de síntese de voz ......................................................................... 27 Gráfico 4 – Variações espectrais do pitch da vogal /a/ (PICKETT, 1999) .................... 28 Diagrama 7 – Trato vocal modelado em tubos de mesmo comprimento (MCCLELLAN, 1998) ...................................................................................................... 29 Desenho 3 – Representação esquemática do sistema vocal (RABINER; SCHAFER, 1978) ......................................................……………………... 30 Desenho 4 - Aproximação das cordas vocais (SENDA, 2005). ...................................... 30 Diagrama 8 – Sistema de predição (ABRANTES, 2000). ............................................. 33 Gráfico 5 – Janela de Hamming nos domínios (a) do tempo e (b) da freqüência........... 40 Gráfico 6 – Janela retangular nos domínios (a) do tempo e (b) da freqüência ............... 40 Gráfico 7 – Sinal original da palavra “chiado” utilizada nas simulações. ...................... 42 Gráfico 8 – (a) Sinal original; sinal reconstruído a partir do sinal de erro digitalizado com (b) 8 bits, (c) 5bits, (d) 4 bits e (e) 3 bits. ............................................... 43 Gráfico 9 – Trecho da música Paraíso de Cláudio Zoli – (a) Sinal original; (b)Sinal Predito (c)Sinal de erro; (d)Sinal reconstituído.................................................... 45

8

Gráfico 10 – Sinais referentes à palavra “chiado” (a) originalmente gravado, (b) sintetizado a partir de excitação periódica de 150Hz e (c) sintetizado a partir de ruído branco. ..............................………………………………………......................... 46 Gráfico 11 – Erro entre sinal original e (a) sinal sintetizado por meio de excitação periódica de 150Hz e (b) sinal sintetizado por meio de ruído branco.................................. 47 Gráfico 12 – Espectro dos sinais referentes à palavra “chiado” (a) originalmente gravado, (b) sintetizado a partir de excitação periódica de 150Hz e (c) sintetizado a partir de ruído branco. ....................................................................................................... 48 Gráfico 13 - Sinal correspondente à palavra “chiado” (a) originalmente gravado, (b) sintetizado por meio de seqüência impulsiva periódica com freqüência fundamental de 300Hz e utilizando-se 10 coeficientes de predição, (c) utilizando-se 80 coeficientes de predição e (d) utilizando-se 160 coeficientes de predição..........................................… 49 Gráfico 14 - Sinal correspondente à palavra “chiado” (a) originalmente gravado, (b) sintetizado por meio de ruído branco e utilizando-se 10 coeficientes de predição, (c) sintetizado com 80 coeficientes de predição e (d) sintetizado com 160 coeficientes de predição......................………………………………………………………………… 50

9

SUMÁRIO

1 INTRODUÇÃO ................................................................................................................... 10

2 SINAIS E SISTEMAS DE TEMPO DISCRETO ............................................................. 12 2.1 SINAIS DE TEMPO DISCRETO ...................................................................................... 12 2.2 AMOSTRAGEM DE SINAIS DE TEMPO CONTÍNUO ................................................. 17 2.3 FILTROS DIGITAIS .......................................................................................................... 19 2.3.1 Filtros FIR ....................................................................................................................... 19 2.3.2 Filtros IIR ........................................................................................................................ 20 3.1 O TRATO VOCAL ............................................................................................................ 24 3.2 FUNDAMENTOS DE SINAIS DE VOZ .......................................................................... 25 3.3 GERAÇÃO DO SOM NO TRATO VOCAL .................................................................... 29

4 PREDIÇÃO E SÍNTESE .................................................................................................... 32 4.1 CONCEITOS BÁSICOS DA PREDIÇÃO ........................................................................ 32 4.2 O ALGORITMO LMS ....................................................................................................... 33 4.3 CONCEITOS BÁSICOS DE SÍNTESE DE VOZ ............................................................. 37

5 SIMULAÇÕES COMPUTACIONAIS E ANÁLISE DE RESULTADOS .................... 41 5.1 SIMULAÇÃO DE PREDIÇÃO ......................................................................................... 41 5.2 SIMULAÇÃO DE SÍNTESE DE SINAIS DE VOZ ......................................................... 45

6 CONCLUSÕES .................................................................................................................... 52

REFERÊNCIAS .................................................................................................................. 54

10

1 INTRODUÇÃO

Com o crescimento da sociedade moderna e a grande demanda por

informações foram desenvolvidos mecanismos de transmissão de sinais de voz em que são

empregadas técnicas para a redução de taxas de dados mantendo-se a inteligibilidade do sinal

transmitido (STONICK; BRADLEY, 1996).

Por meio de técnicas de processamento digital de sinais é possível ampliar a

capacidade dos atuais sistemas de comunicação sem a necessidade de alterar o meio físico

pelo qual os sinais são transmitidos. Estas técnicas não estão limitadas apenas à redução das

taxas transmitidas, sendo utilizadas também na geração de sinais de voz sintéticos, ou seja,

com os atuais sistemas de processamento de sinais é possível gerar, a partir de coeficientes,

sinais de fala por exemplo.

A síntese de voz pode ser empregada para auxiliar pessoas com deficiência de

fala a se comunicarem e falar ao telefone substituindo o seu sistema fonador, além de serem

utilizados em sistemas de assistência eletrônica como os atendentes automáticos dos serviços

por telefone (SADAOKI, 1995).

Através do estudo da fala humana é possível determinar e modelar um sistema

digital similar ao trato vocal humano capaz de simular atividades de fala. Este é um dos temas

abordados nas explicações e simulações computacionais contidas neste trabalho.

Com o apoio de pacotes e programas no Matlab são simulados sistemas de

predição e síntese de sinais, além de serem analisados os benefícios desta técnica. Através da

análise dos resultados obtidos é possível entender porque estas técnicas são amplamente usada

nos meios de comunicação.

11

Para tornar este trabalho acessível a um público mais amplo, são introduzidos

alguns conceitos básicos de processamento digital de sinais para tornar mais fácil a

compreensão das principais etapas dos processos de predição e síntese de sinais de voz.

No Capítulo 2 são introduzidos os conceitos de sinais e sistemas de tempo

discreto, suas principais propriedades, características e formas de representação. Ainda neste

capítulo é apresentado o processo de discretização e conceitos de filtros digitais.

No Capítulo 3 são apresentados conceitos da anatomia humana para descrever

o funcionamento do trato vocal e seus componentes. Introduz-se os conceitos básicos

necessários para o entendimento do processo de geração de voz.

No Capítulo 4 são descritos os conceitos de predição e síntese dos sinais de

voz explicando as técnicas utilizadas nestes processos, para apoiar as simulações e análises do

Capítulo 5.

O capítulo 6 encerra o trabalho com as conclusões dos autores considerando

análises realizadas a partir das simulações efetuadas e com os estudos realizados no decorrer

deste trabalho.

12

2 SINAIS E SISTEMAS DE TEMPO DISCRETO

Neste capítulo são apresentados princípios de sistemas e sinais de tempo

discreto. Devido aos sistemas de predição e síntese discutidos neste trabalho serem

implementados de forma digital, os sinais envolvidos neste processo são tratados de forma

discreta. Tendo isso em mente, é abordado o processo de amostragem. Além disso, são

discutidos aspectos básicos de filtros digitais.

2.1 SINAIS DE TEMPO DISCRETO

Sinal é definido como uma função que varia com o tempo, espaço ou qualquer

variável independente (PROAKIS; MANOLAKIS, 1996).

Uma das possíveis maneiras de classificar os sinais é como sinais de tempo

contínuo e discreto.

Um sinal de tempo contínuo é aquele que possui valor para qualquer instante

do tempo como, por exemplo, a tensão elétrica que um microfone produz como resposta a fala

de uma palavra (GIROD, 2003).

Um sinal de tempo discreto é aquele que pode ser representado por uma

seqüência de números. Cada número ( )nx corresponde à amplitude do sinal em um instante

SnT , sendo que n é um número inteiro e ST , o período de amostragem, representa o

intervalo entre dois pontos sucessivos nos quais o sinal é definido (DINIZ, 2004).

Um exemplo de sinal de tempo discreto é

( ) ⎟⎠⎞

⎜⎝⎛=

10cos πnnx , (1)

13

representado no Gráfico 1 no intervalo 390 ≤≤ n .

0 5 10 15 20 25 30 35 40

-1

-0.8

-0.6

-0.4

-0.2

0

0.2

0.4

0.6

0.8

1

n

x(n)

Gráfico 1: Exemplo de um sinal de tempo discreto.

Os sinais de voz, apesar de serem sinais de tempo continuo, também podem ser

representados como sinais no tempo discreto. Para isso é preciso amostrá-los seguindo

algumas regras que são estudadas na Seção 2.2.

Um sistema pode ser descrito como um operador, que transforma um ou mais

sinais de entrada, também chamados de sinais de excitação, no sinal de saída ou de resposta

(HAYES, 1999). Um sistema de tempo discreto manipula sinais no tempo discreto. Um

sistema [ ]⋅H com entrada ( )nx e saída ( )ny é representado como mostrado no Diagrama 1.

Diagrama 1: Representação em diagrama de blocos de um sistema

( )nx ( ) ( )[ ]nxHny = [ ]⋅H

14

Um exemplo de aplicação do conceito de sistema é a geração de voz, na qual

um sinal excita o trato vocal, que representa um sistema. Já o processamento dos sinais de fala

é realizado pelo sistema composto pelos ouvidos, caminhos auditivos e nosso cérebro. Nestas

situações, os sistemas que são responsáveis pela síntese e analise dos sinais são de natureza

biológica. Eles também podem ser realizados usando sistemas eletrônicos que tentam simular

suas contrapartes biológicas. (HAYKIN; VAN VEEN, 2001).

Os sistemas de tempo discreto podem ser descritos por equações de diferenças.

A entrada ( )nx e a saída ( )ny de um sistema descrito por uma equação de diferenças linear se

relacionam por

( ) ( ) 000

=−−− ∑∑==

inxbinyaM

ii

N

ii . (2)

O número inteiro N é chamado de ordem da equação de diferenças e

corresponde ao atraso máximo que envolve a saída do sistema. Por exemplo, uma equação de

diferenças de segunda ordem pode ser representada por

( ) ( ) ( ) ( ) ( )121 10210 −+=−+−+ nxbnxbnyanyanya . (3)

As equações de diferenças são facilmente reorganizadas para se obter fórmulas

recursivas para computar a saída atual do sistema a partir do sinal de entrada e das saídas

passadas. Reescrevendo a Equação (3) de forma a isolar ( )ny , chega-se a

( ) ( ) ( ) ( ) ( )( )21112110

0

−−−−−+= nyanyanxbnxba

ny . (4)

Esta equação indica como obter ( )ny a partir da entrada e dos valores passados

a saída. Essas equações são freqüentemente usadas para implementar sistemas de tempo

discretos em um computador (HAYKIN; VAN VEEN, 2001).

15

O Diagrama 2 representa a função utilizada para realizar um retardo de uma

amostra no tempo discreto utilizada no Diagrama 3.

Diagrama 2 – Função de sistema do retardo discreto (GIROD, 2003).

Como exemplo de um sistema pratico e sua equação de diferenças equivalente

é apresentado no Diagrama 3 um sistema gerador de eco.

Diagrama 3 – Sistema gerador de eco.

Este diagrama representa um sistema com entrada ( )nx e saída

( ) ( )[ ] ( ) ( ) ( ) ( ) ( )41613

812

411

21

−+−+−+−+== nxnxnxnxnxnxHny (5)

considerando que o sinal de entrada é um sinal de voz, pode-se ver que a saída é a somatória

do sinal original com sinais atrasados dele em amplitudes menores.

1−z

1−z

1−z

1−z

+

( )nx

( )ny

1

21

41

81

161

( )nx ( ) ( )1−= nxny 1−z

16

Uma outra maneira de caracterizar o comportamento de qualquer sistema

Linear e Invariante no Tempo (LIT) é utilizar sua resposta impulsiva, isto é, a resposta do

sistema quando se tem como entrada um impulso unitário.

Um sistema é LIT caso satisfaça os princípios da superposição,

homogeneidade e invariância no tempo, descritos a seguir.

• Princípio da superposição:

Seja um sistema ( ) ( )( )nxHny = e sejam ( )ny1 a resposta à entrada ( )nx1 e ( )ny2 a

resposta à entrada ( )nx2 . Um sistema satisfaz o princípio da superposição se, quando

se aplicar a entrada ( ) ( ) ( )nxnxnxs 21 += , sua saída é ( ) ( ) ( )nynynys 21 += .

• Princípio da homogeneidade:

Seja um sistema ( ) ( )( )nxHny = e sejam ( )ny1 a resposta à entrada ( )nx1 . Um sistema

satisfaz o princípio da homogeneidade se, quando aplicarmos a ele a

entrada ( ) ( )naxnxh 1= , *Ra∈ , sua saída é ( ) ( )naynyh 1= .

• Princípio da invariância no tempo:

Um sistema é invariante no tempo se um retardo ou avanço de tempo do sinal de

entrada levar a um deslocamento idêntico no sinal de saída, ou seja, suas

características não se modificam com o tempo.

Através da Transformada Z da resposta impulsiva, pode-se definir a função de

transferência do sistema, ou seja, fornecer a descrição das características das funções de

entrada e saída de sistemas de tempo discreto (HAYKIN, VAN VEEN, 2001). A função de

transferência pode ser obtida, também, por meio das equações de diferenças do sistema, como

mostrado em diversos livros de análises de sinais(LATHI, 1998).

17

2.2 AMOSTRAGEM DE SINAIS DE TEMPO CONTÍNUO

Para processar um sinal de tempo contínuo usando um sistema de tempo

discreto é preciso primeiramente convertê-lo em um sinal no domínio do tempo discreto. Esta

conversão precisa ser feita de tal forma que seja possível restaurar o sinal no tempo continuo a

partir de suas amostras.

Considerando um sinal de tempo contínuo ( )txa , pode-se representar esta

função como um sinal de tempo discreto tomando-se valores de ( )txa em intervalos de ST

segundos formando ( ) ( )Sa nTxnx = . Este processo consiste em retirar amostras instantâneas

dos valores da função ( )txa a cada período de tempo ST que é chamado de período de

amostragem.

Costuma-se especificar a amostragem de um sinal não em função de seu

período, mas sim da taxa ou freqüência de amostragem Sf que é dada pelo inverso do

período, S

S Tf 1

= .

Um exemplo de amostragem de um sinal é apresentado no Gráfico 2, em que

no gráfico (a) é apresentado o sinal original no tempo continuo e no gráfico (b), o sinal

amostrado com 2,0=ST segundos.

18

0 1 2 3 4 5 6 7 8-1

-0.5

0

0.5

1

t

x(t)

5 10 15 20 25 30 35 40-1

-0.5

0

0.5

1

n

x(n)

Gráfico 2: Exemplo de um sinal amostrado.

Quanto maior a taxa de variação de ( )txa , menor deve ser o valor de ST para

que o sinal amostrado possa ser reconstruído para o tempo continuo no final do

processamento sem perder suas características, ou seja, todas as variações no sinal devem ser

conservadas quando ele é amostrado. Para assegurar isso, a taxa de amostragem deve ser de

no mínimo duas vezes o valor da maior freqüência contida no sinal a ser amostrado. Esta taxa

de amostragem é conhecida como taxa de Nyquist (STONICK; BRADLEY, 1996).

19

2.3 FILTROS DIGITAIS

Filtro é um nome genérico que representa um sistema linear invariante no

tempo (LIT), projetado para uma determinada tarefa de discriminação ou de seleção de

freqüências (HAYKIN; VAN VEEN, 2001).

Uma forma importante de classificar os filtros digitais é em filtros com

resposta impulsiva finita (FIR – Finite Impulse Response) ou infinita (IIR – Infinite Impulse

Response). Estes conceitos são abordados em detalhes a seguir.

2.3.1 Filtros FIR

Filtros digitais de Resposta ao Impulso de duração Finita (FIR – Finite Impulse

Response), têm sua operação regida por equações lineares de diferenças com coeficientes

constantes de natureza não-recursiva. Para uma entrada ( )nx , a saída é dada pela convolução

entre o sinal de entrada e os coeficientes de filtro, ou seja,

( ) ( ) ( )knxkhnyM

k−= ∑

−

=

1

0 (6)

onde M é o número de coeficientes do filtro.

A função de transferência de um filtro FIR é um polinômio em 1−z :

( ) ( )∑−

=

−=1

0

M

k

kzkhzH (7)

Os filtros FIR podem implementar uma resposta em módulo desejada com

resposta em fase exatamente linear, isto é, sem nenhuma distorção de fase (HAYKIN; VAN

VEEN, 2001). Esta propriedade é muito útil para processamento de sinais de fala, pois

20

mantém um alinhamento de tempo preciso. São usualmente implementados através da forma

direta como apresentado na Diagrama 4.

Diagrama 4: Filtro FIR com M coeficientes (ordem M-1), forma direta.

2.3.2 Filtros IIR

Filtros digitais de Resposta ao Impulso de duração Infinita (IIR – Infinite

Impulse Response), têm sua operação regida por equações lineares de diferenças com

coeficientes constantes de natureza recursiva. Para uma entrada ( )nx , a saída é calculada

como:

( ) ( ) ( )⎟⎠

⎞⎜⎝

⎛−−−= ∑ ∑

= =

M

k

N

kkk knyaknxb

any

0 10

1 (8)

Um filtro IIR tem função de transferência

( )∑

∑

=

−

=

−

= N

k

kk

M

k

kk

za

zbzH

0

0 . (9)

Os filtros IIR resultam em comprimentos de filtro menor do que o do filtro FIR

correspondente, porém, esta melhoria é obtida às custas de distorção de fase e um transitório

que não se limita a um intervalo de tempo finito (HAYKIN; VAN VEEN, 2001). Os filtros

1−z1−z 1−z 1−z

+

......

( )ny

( )nx

( )0h ( )1h ( )2h ( )3h ( )2−Mh ( )1−Mh

21

IIR podem ser implementados de diferentes formas (ABRANTES, 2000), a forma direta é

apresentada na Diagrama 5:

Diagrama 5: Exemplo de configuração de um filtro IIR

Para a implementação de filtros digitais é possível se utilizar a função filter do

Matlab. Esta função permite a filtragem mais conveniente através de um filtro IIR.

22

Apenas para exemplificar a utilização desta função do Matlab, a partir de um

sinal com duas senóides de freqüências 5 e 80 Hz e freqüência de amostragem 200 Hz, será

implantado um filtro do tipo Butterworth de 2ª ordem.

0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1-2

-1

0

1

2Sinal de Entrada

tempo (s)

ampl

itude

0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1-2

-1

0

1

2Sinal Filtrado

tempo (s)

ampl

itude

Gráfico 3: Exemplo de filtro com o comando filter.

Os sinais apresentados no Gráfico 3 foram gerados no Matlab a partir da

seguinte seqüência de comandos:

fs=200; % Freqüência de amostragem t=0:1/fs:1; % Tempo de amostragem T=1/fs; x=sin(2*pi*5*t)+sin(2*pi*80*t); % sinal de entrada subplot(2,1,1) plot(t,x) grid on title('Sinal de Entrada') xlabel('tempo (s)')

23

ylabel('amplitude') [B,A]=butter(2,20/(fs/2)); % Determinar os coeficientes y=filter(B,A,x); subplot(2,1,2) plot(t,y,'r') title('Sinal Filtrado') xlabel('tempo (s)') ylabel('amplitude')

O programa citado acima, calcula os coeficientes de um filtro Butterworth

utilizando a função butter do Matlab, e o sinal filtrado é calculado com a função filter, tendo

como entrada os coeficientes calculados.

24

3 O trato vocal e os sinais de voz

Este capítulo propõe-se a apresentar as estruturas que compõem o aparelho

fonador humano e introduzir os conceitos básicos necessários para o entendimento do

processo de geração de voz humana e, posteriormente, sintética.

3.1 O TRATO VOCAL

Define-se trato por área, extensão, região ou trecho (GREGORIM; 2002).

Logo, pode-se entender trato vocálico como a região em que ocorre a produção de voz.

O trato vocal tem início na abertura entre as pregas ou cordas vocais, ou glote,

e termina nos lábios, sendo formado assim pela faringe, ou seja, pela conexão entre o esôfago

e a boca, e pela boca ou cavidade oral. O comprimento médio do trato vocal masculino é de

aproximadamente 17cm, com área de seção transversal determinada pela posição da língua,

lábios, maxilar e véu palatino variando entre zero, ou seja, fechamento completo, até cerca de

20cm2 (SMITH, 1997).

O trato nasal inicia-se no véu palatino e termina nas narinas. Quando o véu

palatino é baixado, o trato nasal é acoplado acusticamente ao trato vocal. Com a total

obstrução de algum ponto ao longo da passagem de ar há a produção de sons nasais de voz,

tais como /m/ e /n/. A cavidade oral, embora constrita, permanece acusticamente acoplada à

faringe e, dessa forma, a boca atua como uma cavidade ressonante (SMITH, 1997).

Com o auxílio do Desenho 1 pode-se identificar os principais componentes dos

tratos vocal e nasal constituintes do aparelho fonador humano.

25

Desenho 1 – Detalhes do aparelho fonador humano (SIMÕES, 1999).

3.2 FUNDAMENTOS DE SINAIS DE VOZ

Sinais de voz são compostos por seqüências de sons. Estes sons e a transição

entre eles servem como uma representação simbólica da informação. A combinação destes

sons (símbolos) é governada pelas regras da linguagem. O estudo destas regras e de suas

implicações na comunicação humana é chamado de Lingüística e, o estudo e classificação dos

sons de voz é chamado de Fonética (RABINER; SCHAFER, 1978).

É possível classificar os sons produzidos pela fala humana como vocálicos ou

fricativos.

Sons vocálicos ocorrem quando o ar é forçado pelos pulmões, através das

cordas vocais, em direção à boca ou nariz, por onde escapa. As cordas vocais são formadas

por dois pares de músculos esticados transversalmente ao fluxo de ar, e localizam-se entre a

traquéia e a laringe, conforme ilustrado no Desenho 1. Em resposta à variação de tensão

destes músculos, as cordas vocais vibram a freqüências de 50 a 1000Hz, resultando em sopros

26

periódicos de ar injetado na traquéia (SMITH, 1997). O Desenho 2 ilustra a localização das

cordas vocais.

Desenho 2 – Localização das cordas vocais (SENDA, 2005).

O som produzido ao se pronunciar uma vogal é um exemplo de som vocálico,

que se pode representar matematicamente como a saída de um filtro que tenha como entrada

uma seqüência periódica de impulsos, com freqüência ajustável.

Em contra partida, sons fricativos ou não-vocálicos originam-se quando ocorre

a constrição de algum ponto do trato vocal, geralmente em direção à boca, e o ar é forçado

através da constrição a uma velocidade suficientemente grande para produzir turbulência,

criando uma fonte de ruído que excita o trato vocal (RABINER; SCHAFER, 1978). Sons

fricativos são aqueles cuja pronúncia inclui: /ch/, /f/, /s/, /v/, /x/, e /z/. No modelo ilustrado

pelo Diagrama 6, representa-se a geração de sons fricativos ou não-vocálicos por meio de um

gerador de ruído.

Para curtos intervalos de tempo, de 2 a 40ms, pode-se modelar a voz com o

auxílio de três parâmetros: (a) a seleção de excitação por seqüência de impulsos periódica ou

27

por ruído gaussiano, (b) a freqüência fundamental (pitch) da excitação periódica, quando

utilizada e (c) os coeficientes de um filtro recursivo linear simulando o trato vocal. Pode-se,

então, sintetizar voz atualizando-se continuamente estes parâmetros cerca de 40 vezes por

segundo. Embora a qualidade sonora desta aproximação seja baixa, soando mecânico em vez

de humano, requer baixa taxa de atualização de dados (SMITH, 1997). O processo de síntese

de voz é estudado mais detalhadamente no Capítulo 4.

Diagrama 6 – Modelo de síntese de voz

O Pitch representa o período de interrupção do fluxo de ar que excita o trato

vocal causado pela vibração das cordas vocais quando passado pela glote. Quanto maior for

esse período, menor será o espaço entre as harmônicas e, conseqüentemente menor será a

freqüência fundamental, resultando em um som mais grave. Por outro lado, se esse período

for muito pequeno, a freqüência fundamental será alta, logo, produzindo som mais agudo

(SENDA, 2005). O Gráfico 4 mostra a variação do pitch para a vogal /a/.

Gerador de Ruído

Gerador de Impulsos

vocálicos

não-vocálicos

Filtro Digital

Resposta do trato vocal

pitch

voz sintética

28

Gráfico 4 – Variações espectrais do pitch da vogal /a/ (PICKETT, 1999)

Pode-se modelar os tratos vocal e nasal como tubos de secção transversal não

uniforme, como ilustrado no Diagrama 7. Conforme o som se propaga através destes tubos, o

espectro de freqüência é moldado de acordo com a seletividade de freqüência do tubo,

produzindo um efeito semelhante à ressonância observada em instrumentos de sopro. No

contexto de produção de voz, a freqüência de ressonância do trato vocal é chamada de

freqüência formante ou simplesmente formante (PICKETT, 1999).

As freqüências formantes dependem do formato e das dimensões do trato

vocal, pois formatos diferentes implicam em diferentes conjuntos de freqüências formantes,

podendo-se produzir diferentes sons por meio da alteração do formato do trato vocal. Assim,

as propriedades espectrais dos sinais de voz variam com o tempo conforme o formato do trato

vocal se altera.

29

Diagrama 7 – Trato vocal modelado em tubos de mesmo comprimento

(MCCLELLAN, 1998)

A dependência da área de secção transversal ao longo do trato vocal é chamada

Função Área do trato vocal. A função área para uma vogal, por exemplo, é determinada

principalmente pela posição da língua, mas as posições do maxilar, lábios e, em menor

proporção, a do véu palatino também influenciam no som resultante.

3.3 GERAÇÃO DO SOM NO TRATO VOCAL

Um modelo detalhado do sistema vocal deve envolver os pulmões, brônquios,

traquéia, glote e o trato vocal. O primeiro trabalho abrangente em busca de um modelo físico

detalhado para a geração de som no trato vocal foi realizado por Flanagan, no final da década

de 1960 (CARLSON, 1995). Pesquisas subseqüentes produziam um modelo mais refinado,

fornecendo representação mais detalhada do processo de geração de sons vocálicos e não-

vocálicos. Este modelo se baseia em mecânica clássica e mecânica dos fluídos, mas está além

do propósito deste trabalho. Entretanto, uma discussão qualitativa sobre os princípios básicos

da geração de som é útil para mostrar os modelos mais simples amplamente utilizados como

base no processamento de voz.

Glote Lábios

30

Pode-se explicar a vibração das cordas vocais, para o caso de sons vocálicos,

com a ajuda da representação esquemática do sistema vocal mostrada o Desenho 3.

Desenho 3 – Representação esquemática do sistema vocal (RABINER; SCHAFER, 1978)

Com o aumento da pressão nos pulmões, o ar flui para fora destes e através das

cordas vocais (glote). De acordo com a lei de Bernoulli, quando um fluido se desloca por um

orifício, a pressão é menor na constrição do que nas áreas adjacentes. Se a tensão nas cordas

vocais for ajustada adequadamente, a pressão reduzida permite que as cordas se toquem,

bloqueando completamente o fluxo de ar. Esta situação está representada pelas linhas

pontilhadas no Desenho 3. Como resultado deste bloqueio no fluxo de ar, a pressão sob as

cordas vocais aumenta até finalmente atingir um nível suficiente para forçar a abertura das

cordas vocais e, assim, permitir o fluxo de ar através da glote. A pressão na glote cai

novamente e o ciclo se repete. A figura 3.6 ilustra as cordas vocais em diferentes condições.

Desenho 4 - Aproximação das cordas vocais (SENDA, 2005).

31

Assim, as cordas vocais entram em uma condição de oscilação sustentada. A

taxa com que a glote abre e fecha é controlada pela pressão do ar nos pulmões, pela tensão nas

cordas vocais e pela rigidez das mesmas, além da área de abertura da glote na condição de

repouso. Estes são os parâmetros de controle de um modelo detalhado para o comportamento

das cordas vocais. Tais modelos devem também conter a influência do trato vocal uma vez

que variações de pressão no trato vocal interferem nas variações de pressão na glote.

32

4 PREDIÇÃO E SÍNTESE

O modelo de predição é amplamente utilizado em telecomunicações para

aumentar o número de sinais de voz que podem ser transmitidos por um canal (STONICK;

BRADLEY, 1996). A síntese é a forma utilizada para a partir dos coeficientes de predição e

do sinal de erro se reconstruir o sinal e torná-lo audível novamente.

A seguir são apresentados os conceitos básicos da predição de sinais de voz e o

funcionamento de um dos algoritmos que pode ser utilizado para predição.

4.1 CONCEITOS BÁSICOS DA PREDIÇÃO

Uma vez que no tempo discreto uma amostra de voz é muito parecida com a

amostra anterior, um modelo matemático de equações de diferenças pode ser desenvolvido

para estimar o valor da amostra corrente como uma combinação linear das amostras

anteriores.

Sendo ( )ns um sinal de voz amostrado pode-se adotar,

( ) ( )∑=

−=p

ii insns

1

ˆ α (10)

em que ( )ns é a estimação do sinal de voz ( )ns para a amostra n . O erro entre o sinal original

e o estimado é:

( ) ( ) ( )nsnsne ˆ−= (11)

Substituindo a Eq. (10) na Eq. (11) pode se obter o modelo de equação de

diferença para o processo de predição de voz expresso por

33

( ) ( ) ( )neinsnsp

ii =−−∑

=

ˆ1

α (12)

Se os coeficientes iα são conhecidos pelo transmissor e pelo receptor então

apenas o sinal de erro precisa ser transmitido e o sinal de voz pode ser reconstruído utilizando

a equação de diferenças (12). No transmissor ( )ns é a entrada do filtro de predição e ( )ne é a

saída, já no receptor a situação é inversa. A transmissão do sinal de erro resulta em uma

economia substancial de banda (STONICK; BRADLEY, 1996), como fica demonstrado nas

simulações do Capitulo 5.

O Diagrama 8 apresenta o sistema de predição na forma de blocos para melhor

exemplificar o procedimento utilizado por esta técnica.

Diagrama 8 – Sistema de predição (ABRANTES, 2000).

4.2 O ALGORITMO LMS

Um dos métodos utilizados para se realizar a predição é a utilização do

algoritmo de estimação LMS (Least Mean Square – Mínimo Erro Quadrático) que tenta

- +

Atraso ∑Processador de Predição

( )ns

( )ns

( )ne

34

minimizar o erro entre o sinal predito e o original. Nessa seção detalha-se o princípio deste

algoritmo. As deduções baseiam-se na referência (LATHI, 1998).

Freqüentemente tem-se interesse em determinar a natureza de dependência

entre dois sinais. Quando duas variáveis randômicas x e y são correlacionadas, então uma

possui informações da outra. Assim é possível estimar o valor de y pelo conhecimento do

valor de x . A estimativa de y será dada pela variável aleatória y . O valor estimado de y é

em geral diferente do valor verdadeiro de y . Uma das formas de se obter uma boa estimação

de y é minimizar o erro médio quadrado 2e dado por:

( )22 yye −= (13)

Em geral a melhor estimativa de y é uma função não-linear de x . Pode-se

simplificar o problema fazendo de y uma função linear de x na forma:

axy =ˆ (14)

assumindo que 0=x . Neste caso,

( ) ( ) xyaxayaxyyye 2ˆ 222222 −+=−=−= (15)

Para minimizar 2e , tem-se

022 22

=−=∂∂ xyxa

ae (16)

Portanto,

XX

XY

RR

xxya ==

2 (17)

em que 2xRxx = , 2yRyy = e xyRxy = . Para este valor de a ,

35

xRR

yaxyexx

xy−=−= (18)

Portanto,

2xRR

xyRR

yxxexx

xy

xx

xy −=⎟⎟⎠

⎞⎜⎜⎝

⎛−= (19)

Uma vez que xyRxy = e xxRxxx == 2 , tem-se

0=−= xyxy RRxe (20)

Portanto, o dado x e o erro e são ortogonais, ou seja, seu produto interno é igual a zero..

O erro médio quadrado é dado por:

( ) xyyyxx

xyyy

xx

xy

xx

xyyy aRR

RR

RRR

RR

Rxaxyayaxye −=−=+−=+−=−=222

22222 22 (21)

Se a variável randômica 0x é relacionada com n variáveis randômicas 1x , 2x ,

..., nx então pode-se estimar 0x como uma combinação linear de 1x , 2x , ..., nx :

∑=

=+++=n

iiinno xaxaxaxax

12211 ...ˆ . (22)

O erro médio quadrado é dado por

( )[ ]2221102 ... nn xaxaxaxe +++−= . (23)

Para minimizar 2e , deve-se fazer

0...2

2

2

1

2

=∂∂

==∂∂

=∂∂

nae

ae

ae (24)

isto é

36

( )[ ] 0... 222110

21

2

=+++−∂∂

=∂∂

nn xaxaxaxaa

e (25)

diferenciando o termo em ia , tem-se

( )[ ] 0...2 222110

1

2

=+++−−=∂∂

nn xaxaxaxae (26)

ou

inniii RaRaRaR +++= ...22110 (27)

em que jiij xxR =

Diferenciando 2e em relação a 1a , 2a , ..., na e igualando a zero, obtém-se n

equações simultâneas na forma da Eq. (27). As constantes desejadas 1a , 2a , ..., na podem ser

encontradas através da matriz mostrada abaixo:

⎥⎥⎥⎥

⎦

⎤

⎢⎢⎢⎢

⎣

⎡

⎥⎥⎥⎥

⎦

⎤

⎢⎢⎢⎢

⎣

⎡

=

⎥⎥⎥⎥

⎦

⎤

⎢⎢⎢⎢

⎣

⎡−

nnnnn

n

n

n R

RR

RRR

RRRRRR

a

aa

0

02

011

21

22221

11211

2

1

:...

..................

: (28)

Através desta matriz é possível alimentar o filtro de predição para encontrar os

coeficientes que são enviados junto com o sinal de erro na mensagem transmitida, onde os

coeficientes na da matriz são os coeficientes nα do filtro de predição.

37

4.3 CONCEITOS BÁSICOS DE SÍNTESE DE VOZ

Utilizam-se duas aproximações para geração de voz: gravação digital e

simulação do trato vocal (SMITH, 1997). No caso de gravação digital, a voz de um falante

humano é digitalizada e armazenada, geralmente sob uma forma comprimida. Durante a

reprodução, os dados armazenados são descomprimidos e convertidos em sinal analógico. Já a

simulação do trato vocal é mais complexa, pois tenta imitar o mecanismo físico pelo qual a

voz humana é gerada. Este trabalho é voltado à simulação do trato vocal.

A fim de se modelar o processo de síntese de voz, pode-se utilizar o modelo

básico de predição mostrado na equação (12) para se criar um sinal )(~ ns que imite o sinal

)(ns originalmente amostrado. Pode-se, então, substituir o sinal de erro )(ne por um sinal

)(nx de entrada, multiplicado por um ganho G . Utilizando-se a mesma estrutura da equação

de diferenças para a predição de voz, temos:

( ) ( ) ( )nGxinsnsp

ii =−−∑

=1

~~ α (29)

Se )()( nenGx = , onde G é um ganho unitário, então o sinal )(~ ns sintetizado

deverá ser exatamente igual ao sinal originalmente amostrado. Neste caso tem-se a

reconstrução do sinal em vez da síntese deste.

Tipicamente os coeficientes iα variam a cada 10 a 20ms de acordo com as

mudanças do trato vocal para a produção dos diferentes sons. Para a síntese, aplica-se uma

seqüência de excitação ao modelo que contém os coeficientes apropriados a cada intervalo de

tempo a fim de se gerar a seqüência de sons correspondente ao discurso que se deseja realizar.

38

Pode-se encontrar a resposta característica para uma equação de diferenças a

partir de suas raízes características ou pólos do sistema. É possível mostrar que uma resposta

na forma nz , em que z é um número complexo, satisfaz uma equação de diferenças com

coeficientes constantes e com entrada zero. Assim )(nyz N− , para nzny =)( , corresponde a

uma versão atrasada de )(ny , ou seja, )( Nny − . Tomando-se a entrada nula e substituindo-se

cada atraso na equação de diferenças de predição (12) ou de síntese (29) por uma potência de

1−z , tem-se como resultado um polinômio característico, mostrado na equação (30), cujas

raízes são chamadas de raízes características, e definem a resposta característica do sistema.

∏∑−

=

−

=

−=−=1

01)(1)(

p

ii

ip

ii zzzzQ α (30)

Uma vez que a equação é de ordem p , existem p raízes características iz .

Geralmente para voz masculina, 10=p , e as raízes formam pares complexos conjugados de

forma que todos os coeficientes iα assumem valores reais (STONICK; BRADLEY, 1996).

A síntese de voz utilizando o modelo de equações de diferenças requer que,

primeiramente, um segmento de voz real seja analisado para que se possa determinar quais

coeficientes iα são mais apropriados para cada segmento de 10ms. Para cada um destes

segmentos deve-se calcular um conjunto de coeficientes iα . O processo de extração de um

bloco de 10ms do sinal original é chamado janelamento.

O janelamento é matematicamente equivalente à multiplicação do sinal

completo por uma função retangular de valor igual à unidade na região de interesse e valor

nulo nas demais regiões. Esta função é chamada de janela retangular e, nas bordas da região

de dados há uma transição abrupta de sinal para zero, o que pode causar problemas de análise

(STONICK; BRADLEY, 1996). Uma forma mais eficiente de janelamento é multiplicar o

sinal por uma função que tenha uma transição mais suave. A função mais comum é a chamada

janela de Hamming.

39

Para que se possa compreender a razão pela qual é preferível utilizar a janela

de Hamming em vez da janela quadrada, deve-se observar o impacto do janelamento no

domínio da freqüência. Uma vez que o janelamento de um sinal corresponde à operação de

multiplicação no domínio do tempo, no domínio da freqüência corresponderá à convolução da

Transformada de Fourier da função da janela com o espectro de freqüência do segmento do

sinal amostrado. Se a transformada da função da janela se aproximar de um impulso em

freqüência, então a operação de convolução resultará em um espectro idêntico ao espectro do

sinal original. Entretanto, quanto menos a transformada da janela se assemelhar a um pulso,

maior será a distorção do espectro do sinal original.

Os gráficos 4.1 e 4.2 ilustram as janelas de Hamming e a janela quadrada,

respectivamente nos domínios do tempo e da freqüência. Deve-se perceber que a janela de

Hamming apresenta uma queda maior antes de se estabilizar, chamada de atenuação de banda

de rejeição, mas seu lóbulo principal é praticamente duas vezes maior que o da janela

retangular.

Após o janelamento, uma análise estatística dos dados que determina o grau de

correlação entre as amostras adjacentes é utilizada para se calcular os coeficientes que forneça

a melhor predição do sinal, isto é, que minimize o erro de predição, conforme explicado na

seção 4.2. Uma vez encontrados estes coeficientes, pode-se sintetizar voz aplicando-se um

sinal apropriado de entrada ao modelo. No caso de sons vocálicos, um bom modelo da fonte

para o sinal de entrada é um trem de impulsos ideais a uma dada freqüência, sendo que a

freqüência determina o pitch. Já no caso de sons não vocálicos um bom modelo de fonte para

o sinal de entrada é um ruído branco gaussiano.

40

Gráfico 5 – Janela de Hamming nos domínios (a) do tempo e (b) da freqüência

Gráfico 6 – Janela retangular nos domínios (a) do tempo e (b) da freqüência

41

5 SIMULAÇÕES COMPUTACIONAIS E ANÁLISE DE RESULTADOS

Neste capítulo são realizadas simulações do funcionamento de sistemas de

predição e síntese de sinais de voz através de programas e pacotes no Matlab.

5.1 SIMULAÇÃO DE PREDIÇÃO

Para analisar as vantagens do sistema de predição é feita uma comparação

entre a taxa de bits necessária para transmitir um sinal de voz com e sem o uso da predição.

Para um sistema utilizando predição, a taxa de transmissão é dada por

cosblopbSbits NNNfNTaxa += (31)

em que bitsN é o número de bits utilizados na digitalização do sinal de erro, Sf é a

freqüência de amostragem do sinal original, bN é o número de bits utilizados para

representar cada coeficiente de predição, PN é o número de coeficientes utilizados na

predição por bloco e cosbloN é o número de blocos por segundo.

A taxa para o sinal transmitido sem o uso de predição linear é calculada por

Sbitso fNTaxa = (32)

em que bitsN é o número de bits utilizados na digitalização do sinal, Sf é a freqüência de

amostragem do sinal original.

Nas simulações a seguir o sinal é amostrado a 8000Hz e utiliza-se 16=bN bits

para representar os coeficientes. São utilizados 10=pN coeficientes de predição para cada

bloco de 160 amostras do sinal a ser reconstruído.

42

A partir destes parâmetros se obtém o número de blocos que este sinal é

dividido para realizar a predição, sendo

501608000

160cos === Sblo

fN (33)

O sinal utilizado é o da palavra “chiado” apresentado no Gráfico 7. Esta

palavra foi escolhida por conter tanto sons vocálicos quanto fricativos.

0 1000 2000 3000 4000 5000 6000 7000 8000 9000-1

-0.5

0

0.5

1

n

Ampl

itude

Gráfico 7 – Sinal original da palavra “chiado” utilizada nas simulações

Primeiramente, deseja-se determinar quantos bits são necessários para se

digitalizar o erro de maneira a se reconstruir o sinal original de forma inteligível. Para isto são

analisados os sinais reconstruídos após a digitalização do erro como mostrado no Gráfico 8.

Para determinar a quantidade mínima de bits necessária para que o sinal

reconstituído seja inteligível foram feitos alguns testes de audição com 10 pessoas diferentes

e, a partir destes testes, verificou-se que a maioria das pessoas conseguiram entender o que diz

o sinal com 3 bits na quantização do sinal de erro. Além disso, a maioria das pessoas afirmou

que o sinal possuía uma qualidade razoável de sonoridade quando se utiliza 5 bits.

43

-1

-0.5

0

0.5

1Am

plitu

de

-1

-0.5

0

0.5

1

Ampl

itude

-1

-0.5

0

0.5

1

Ampl

itude

-1

-0.5

0

0.5

1

Ampl

itude

0 1000 2000 3000 4000 5000 6000 7000 8000 9000 -1

-0.5

0

0.5

1

n

Ampl

itude

Gráfico 8 – (a) Sinal original; sinal reconstruído a partir do sinal de erro digitalizado com (b) 8 bits, (c) 5bits, (d) 4 bits e (e) 3 bits.

A partir das análises do Gráfico 8 e da audição do sinal reconstituído pode-se

perceber que algo entre 4 e 6 bits é um bom número para a digitalização do sinal de erro.

a)

b)

c)

d)

e)

44

Pode-se utilizar a Equação (31) para calcular a taxa para se transmitir este

sinal.

4800050101680005 =⋅⋅+⋅=Taxa bps (bits por segundo). (34)

A taxa necessária para se transmitir este sinal sem o uso de predição linear é:

6400080008 =⋅=oTaxa bps (35)

onde se conclui que o uso da predição linear resulta em uma economia de 16000 bps ou 25%

da taxa transmitida.

Em comunicações não são transmitidas apenas pequenas palavras e sim

diálogos complexos com uma grande seqüência de fonemas, para demonstrar que a predição

pode ser utilizada em outros tipos de sinais é utilizado um trecho da música “Paraíso” do

Cláudio Zoli. Os resultados obtidos são mostrados no Gráfico 8.

Pelo Gráfico 9 pode-se ver que mesmo sinais de música podem ser

transmitidos utilizando esta técnica e que o sinal reconstituído tem boa qualidade. Na

transmissão deste sinal que tem 10 segundos de duração foram economizados 160000 bits.

Com a utilização deste programa pode-se ver que a técnica de predição é muito

útil para a transmissão de sinais. Os resultados da simulação mostram que há uma grande

economia na quantidade de bits necessários para se transmitir sinais mostrando a importância

desta técnica para sistemas de comunicações.

A técnica de predição adaptativa é utilizada, por exemplo, na codificação de

voz, na estimação espectral e em PCM diferencial adaptativo (ABRANTES, 2000).

45

-1

-0.5

0

0.5

1

Ampl

itude

-1

-0.5

0

0.5

1

Ampl

itude

-1

-0.5

0

0.5

1

Ampl

itude

0 0.2 0.4 0.6 0.8 1 1.2 1.4 1.6 1.8 2

x 105

-1

-0.5

0

0.5

1

Ampl

itude

n

Gráfico 9 – Trecho da música Paraíso de Cláudio Zoli – a) Sinal original; b)Sinal Predito; c)Sinal de erro; d)Sinal reconstituído.

5.2 SIMULAÇÃO DE SÍNTESE DE SINAIS DE VOZ

Retomando o Diagrama 6, as simulações realizadas têm a finalidade de

sintetizar um sinal de voz apenas a partir de uma excitação periódica ou de ruído branco.

a)

b)

c)

d)

46

Tem-se como proposta analisar a influência do pitch escolhido e do número de coeficientes

do filtro sobre os sinais sintetizados.

Para isto, utilizaram-se programas que, a partir de um sinal de voz previamente

gravado, calcula coeficientes de predição, conforme no Capítulo 4, que serão utilizados como

parâmetros de um filtro IIR que simula o trato vocal.

O Gráficos 5.4 ilustra o sinal referente à palavra “chiado” originalmente

gravado com freqüência de amostragem de 8kHz, o sinal sintetizado a partir de uma seqüência

periódica com freqüência de pitch igual a 150Hz, utilizando 10 coeficientes de predição, e o

sinal sintetizado a partir de uma seqüência aleatória, ou seja, a partir de ruído branco.

Gráfico 10 – Sinais referentes à palavra “chiado” (a) originalmente gravado, (b) sintetizado a partir de excitação periódica de 150Hz e (c) sintetizado a partir de ruído branco.

Pode-se verificar a semelhança entre os sinais sintetizados em relação ao sinal

original. Em ambos os sinais sintetizados aparece uma interferência amplificada pelo processo

de síntese, proveniente de ruídos presentes no ambiente no momento em que se fez a

a)

b)

c)

n

Am

plitu

de

Am

plitu

de

Am

plitu

de

47

gravação. Ao se ouvir estes sinais, pode-se perceber claramente um zunido constante,

caracterizando a interferência amplificada.

Os sinais de erro entre o sinal original e os sinais sintetizados a partir de ruído

gaussiano e excitação periódica são mostrados no Gráfico 11.

Gráfico 11 – Erro entre sinal original e (a) sinal sintetizado por meio de excitação periódica de 150Hz e (b) sinal sintetizado por meio de ruído branco.

Analisando a densidade espectral de potência ( DEP ) destes sinais, mostrados

no Gráfico 12, pode-se verificar que o pitch mais adequado para a síntese por meio de

excitação periódica é de aproximadamente 300Hz, pois esta freqüência está relacionada à baia

de maior amplitude do espectro do sinal original. Pode-se verificar, também, que o pitch de

150Hz escolhido para esta síntese corresponde à baia de maior amplitude do espectro do sinal

sintetizado por excitação periódica.

a)

b)

48

Gráfico 12 – Espectro dos sinais referentes à palavra “chiado” (a) originalmente gravado, (b) sintetizado a partir de excitação periódica de 150Hz e (c) sintetizado a partir de ruído branco.

Desta forma, se sintetizarmos um sinal utilizando excitação periódica com

pitch de 300Hz, obteremos como resultado um sinal com características mais próximas do

sinal original.

A fim de se analisar a influência do pitch escolhido sobre os sinais

sintetizados, gerou-se sinais com pitch variando de 50 a 950 Hz. Verificou-se que sinais

sintetizados com pitch abaixo de 550Hz, quando ouvidos, não apresentam diferença marcante

entre si, podendo muitas vezes ser confundidos.

Já sinais sintetizados com pitch superior a 550Hz começam a apresentar perdas

das características fundamentais da fala humana, principalmente do timbre, ou seja, a

característica que nos permite identificar o falante. O ouvinte, ao escutar estes sinais, tem a

impressão de ouvir uma voz metalizada, lembrando a voz de um robô.

a)

b)

c)

DEP

D

EP

DEP

Freqüência ( Hz )

Raia de maior Densidade Espectral de Potência

49

A fim de se analisar a influência do número de coeficientes utilizados pelo

filtro que simula o aparelho fonador humano sobre os sinais gerados durante a simulação,

sintetizou-se sinais por meio de excitação periódica e por meio de ruído branco com o número

de coeficientes variando de 10 a 160. O Gráfico 13 mostra o sinal originalmente gravado com

freqüência de amostragem igual a 8kHz e sinais sintetizados por meio de seqüência impulsiva

periódica com freqüência fundamental de 300Hz e utilizando-se 10, 80 e 160 coeficientes de

predição, referentes à palavra “chiado”. Vale lembrar que, enquanto a escolha do pitch

influencia apenas os sinais sintetizados por meio de impulsos periódicos, a escolha do número

de coeficientes de predição também influencia os sinais gerados por ruído branco.

Gráfico 13 - Sinal correspondente à palavra “chiado” (a) originalmente gravado, (b) sintetizado por meio de seqüência impulsiva periódica com freqüência fundamental de 300Hz e utilizando-se 10 coeficientes de predição, (c) utilizando-se 80 coeficientes

de predição e (d) utilizando-se 160 coeficientes de predição

a)

b)

c)

d)

n

Am

plitu

de

Am

plitu

de

Am

plitu

de

Am

plitu

de

50

Verificou-se que sinais sintetizados por ruído branco utilizando-se mais que

vinte e cinco coeficientes de predição começam a apresentar distorção, podendo dificultar o

entendimento da mensagem. Ademais, quanto mais complexo for o sinal a ser sintetizado, isto

é, quanto mais sons provenientes de obstrução parcial ,ou total, do fluxo de ar pela boca, tanto

para os sinais sintetizados por ruído quanto para os sintetizados por seqüência periódica de

impulsos, tem-se como resultado sons metalizados, caracterizando perda das características

intrínsecas da voz humana.

O Gráfico 14 mostra o sinal originalmente gravado com freqüência de

amostragem igual a 8kHz e sinais sintetizados por meio de ruído branco, utilizando-se 10, 80

e 160 coeficientes de predição, referentes à palavra “chiado”.

Gráfico 14 - Sinal correspondente à palavra “chiado” (a) originalmente gravado, (b) sintetizado por meio de ruído branco e utilizando-se 10 coeficientes de predição,

(c) sintetizado com 80 coeficientes de predição e (d) sintetizado com 160 coeficientes de predição

Em contrapartida, quanto mais coeficientes de predição forem utilizados na

síntese de sinais por meio de impulsos periódicos, mais próximos estes ficarão, sonoramente,

a)

b)

c)

d)

n

Am

plitu

de

Am

plitu

de

Am

plitu

de

Am

plitu

de

51

do sinal originalmente gravado, porém com o custo de mais tempo ser exigido para o sistema

calcular tais coeficientes, tornando-o muito mais lento. Quantificando, o tempo gasto por um

computador com processador Pentium IV de 2.8GHz calcular 10 coeficientes de predição e

sintetizar um sinal a partir de uma seqüência impulsiva periódica e a partir de ruído branco

para um sinal de 2 segundos de duração é inferior a 1 segundo. Já para se calcular 160

coeficientes de predição para o mesmo sinal são necessários aproximadamente 5 segundos.

52

6 CONCLUSÕES

Neste trabalho, estudou-se técnicas de predição e síntese dos sinais de voz.

Para isso, foram abordados temas de processamento digital de sinais tendo como objetivo

entender conceitos importantes de como os sinais são discretizados e processados.

Através dos resultados obtidos nas simulações de predição pôde-se constatar

como o sinal era afetado pelo número de bits utilizados na digitalização do erro. Pôde-se

perceber através dos dados e gráficos apresentados, a variação da qualidade do sinal

reconstruído na transmissão do sinal de erro.

Como resultados desta simulação constatou-se a economia de banda na

transmissão do sinal ao utilizar-se essa técnica, e que diversos tipos de sinais podem utilizar

esta mesma técnica para serem transmitidos.

Nos resultados obtidos na simulação da síntese foram constatados os efeitos da

geração de voz a partir de um ruído branco ou de uma seqüência de pulsos periódicos,

observando a importância da escolha do sinal de excitação correto para o sinal sintetizado.

Constatou-se que a freqüência do pitch a ser utilizado para sinais sintetizados

por meio de seqüência periódica de impulsos pode variar de acordo com o falante pois está

diretamente relacionada com a freqüência de vibração das cordas vocais.

Existem trabalhos acerca de métodos para determinação automática do pitch e

escolha mais adequada para a síntese de sinais, seja utilizando ruído branco ou seqüência

impulsiva periódica como excitação, isto é, como sinal de entrada de um filtro que simule o

trato vocal (DONG, 2006).

Nestas simulações também foi analisada a influência do número de

coeficientes na síntese do sinal, constatando-se que quanto maior este número, mais lento se

torna o sistema, podendo torná-lo inadequado para aplicações em tempo real.

53

Do assunto tratado neste trabalho pode-se ter como fruto aplicações sociais

como dispositivos de leitura para deficientes visuais, por meio de conversão texto – voz,

vocalizadores artificiais para deficientes de fala e sintetizadores de voz para conversação via

aparelhos telefônicos.

Em trabalhos futuros, os autores pretendem analisar a escolha automática do

sinal de excitação utilizado para a síntese de sinais de voz, estudar algoritmos dedicados ao

cálculo do pitch, além de avaliar uma solução para a decisão do número mais adequado de

coeficientes de predição utilizados como parâmetros do filtro que simula o trato vocal.

54

REFERÊNCIAS

ABRANTES, S. A. Processamento adaptativo de sinais. Lisboa: Fundação Calouste Gulbenkian, 2000. CARLSON, R. Models of Speech Synthesis; Proceedings of the National Academy of Sciences, USA. V. 92, Outubro 1995 P. 9932 - 9937 DONG, W.; An Algorithm for Voiced / Unvoiced Decision And Pitch Estimation in Speech Feature Extraction. International Symposium on Chinese Spoken Language Processing (ISCSLP), August 2002 DINIZ, P. S. R.; SILVA, E. A. B.; LIMA NETTO, S. Processamento digital de sinais: projeto e análise de sistemas. Porto Alegre: Bookman, 2004. FLANAGAN,J.; Research in speech communication; Proceedings of the National Academy of Sciences, USA. V. 92, Outubro 1995 P. 9938 - 9945 GIROD, B.; RABENSTEIN, R.; STENGER, A. Sinais e sistemas. Porto Alegre: LTC - Livros Técnicos e Científicos, 2003. GREGORIM, C. O. MICHAELIS PORTUGUÊS – GRAMÁTICA PRÁTICA, 2002 : Ed. Melhoramentos HAYES, M. H. Schaum's outline of theory and problems of digital signal processing. New York: McGraw-Hill, c1999. HAYKIN, S.; VAN VEEN, B.. Sinais e Sistemas. Porto alegre: Bookman, 2001 LATHI, B. P. Modern digital and analog communication systems. 3ª ed. New York: Oxford University Press, 1998. MCCLELLAN, J. H.; et al. Computer-Based Exercises for Signal Processing using MatLab5: Prentice Hall, 1998. PICKETT, J. M. Acoustics Of Speech Communication: Fundamentals, Speech Perception Theory, And Technology. 2ª ed. New Jersey: Prentice Hall. 1999. PROAKIS, J. G.; MANOLAKIS, D. G. Digital signal processing: principles, algorithms, and applications . 3ª ed. Upper Saddle River: Prentice Hall, 1996. RABINER, L.R.; SCHAFER, R.W.; Digital techniques for computer voice response: Implementations and applications. Proceedings of the IEEE, V. 64, Abril 1978 SADAOKI, F.; Toward the ultimate synthesis / recognition system; Proceedings pf the National Academy of Sciences, USA. V. 92, Outubro 1995. P. 10040 - 10045

55

SENDA, A.. Reconhecimento de fonemas da língua portuguesa da região de São Paulo. 2005. Trabalho de Conclusão de Curso (Graduação em Engenharia Elétrica) – Universidade Presbiteriana Mackenzie, São Paulo, 2005. SIMÕES, F.O.. Implementação de um Sistema de Conversão Texto-Fala para o Português do Brasil. 1999. 204f. Dissertação (Mestrado em Engenharia Elétrica)-Universidade Estadual de Campinas, Campinas, São Paulo, 1999. SMITH, S. W. The Scinentist and Engineer’s Guide to Digital Signal Processing. California Technical Publishing. 1997. STONICK,V.; BRADLEY, K.. Labs for Signals and Systems Using MatLab, cap. 6. PWS Publishing Company1996.

sÍntese e prediÇÃo de sinais de...

Documents