sÍntese e prediÇÃo de sinais de...
TRANSCRIPT
0
UNIVERSIDADE PRESBITERIANA MACKENZIE ESCOLA DE ENGENHARIA ENGENHARIA ELÉTRICA
FERNANDO CARRARA LOPEZ RENATO DALTO FANGANIELLO
SÍNTESE E PREDIÇÃO DE SINAIS DE VOZ
São Paulo
2007
1
FERNANDO CARRARA LOPEZ RENATO DALTO FANGANIELLO
SÍNTESE E PREDIÇÃO DE SINAIS DE VOZ
Trabalho de Graduação Interdisciplinar apresentado ao Curso de Engenharia Elétrica, da Escola de Engenharia da Universidade Presbiteriana Mackenzie, como requisito parcial à obtenção do grau de Bacharel em Engenharia.
ORIENTADOR: PROF. DOUTOR MARCIO EISENCRAFT
São Paulo
2007
2
Aos amigos que direta ou indiretamente nos apoiram e incentivaram a superar as dificuldades para concluir este trabalho.
3
AGRADECIMENTOS
Ao Prof. Marcio Eisencraft, por ter sido o orientador e incentivar a busca do conhecimento necessário para a realização deste trabalho. Às nossas famílias, pela sua grande compreensão nos nossos momentos de ausência. À Universidade Presbiteriana Mackenzie que nos propiciou conhecimento e recursos para a conclusão deste trabalho
Aos amigos que direta ou indiretamente colaboraram para a realização deste trabalho.
4
Two roads diverged in a wood, and I I took the one less traveled by,
And that has made all the difference. (The Road Not Taken - Robert Frost)
5
RESUMO
Voz é o meio de comunicação mais usual entre humanos e torna-se um meio de comunicação viável entre máquinas e humanos. Nas últimas décadas as técnicas para transmitir informação passaram por muitas mudanças. São explicados os fundamentos básicos de funcionamento destas técnicas e sua importância, além de serem realizadas simulações e comparações dos resultados obtidos. Para facilitar o entendimento delas são descritos conceitos de processamento digital de sinais e noções da anatomia humana. As técnicas aqui abordadas permitem a compreensão do funcionamento de alguns dos atuais sistemas de transmissão de voz, além de poder auxiliar deficientes, por meio de leitores para deficientes visuais e sintetizadores de voz para os deficientes de fala. Este trabalho aborda duas técnicas de processamento de digital de sinais: a predição e a síntese de sinais de voz. Palavras-chave: Processamento de Voz. Voz Sintética. Processamento digital de sinais
6
ABSTRACT
Speech is the most common way for humans to communicate with each other and it becomes a means for communication between men and machines. The techniques used for transmitting information have undergone several remodeling in the past decades. The basic principles of these techniques as well as their importance are explained in this work. Digital signal processing concepts and human anatomy are described in order to smooth the understanding of such techniques, which allow the increase of current voice transmitting systems’ capacity and provide aid for the handicapped, e. g., reading aid for the blind and speaking aid for the vocally handicapped. This work approaches two digital signal processing techniques: voice signals prediction and synthesis. Key words: Voice processing. Synthetic voice. Digital signal processing.
7
LISTA DE ILUSTRAÇÕES
Gráfico 1 - Exemplo de um sinal de tempo discreto.…………………………………… 13 Diagrama 1: Representação em diagrama de blocos de um sistema..................………... 13 Diagrama 2 – Função de sistema do retardo discreto (GIROD, 2003)............................. 15 Diagrama 3 – Sistema gerador de eco.………………………………………………….. 15 Gráfico 2: Exemplo de um sinal amostrado. ................................................................... 18 Diagrama 4: Filtro FIR com M coeficientes (ordem M-1), forma direta. ..................... 20 Diagrama 5: Exemplo de configuração de um filtro IIR. ............................................... 21 Gráfico 3: Exemplo de filtro com o comando filtrer. ..................................................... 22 Desenho 1 – Detalhes do aparelho fonador humano (SIMÕES, 1999). ......................... 25 Desenho 2 – Localização das cordas vocais (SENDA, 2005)........................................... 26 Diagrama 6 – Modelo de síntese de voz ......................................................................... 27 Gráfico 4 – Variações espectrais do pitch da vogal /a/ (PICKETT, 1999) .................... 28 Diagrama 7 – Trato vocal modelado em tubos de mesmo comprimento (MCCLELLAN, 1998) ...................................................................................................... 29 Desenho 3 – Representação esquemática do sistema vocal (RABINER; SCHAFER, 1978) ......................................................……………………... 30 Desenho 4 - Aproximação das cordas vocais (SENDA, 2005). ...................................... 30 Diagrama 8 – Sistema de predição (ABRANTES, 2000). ............................................. 33 Gráfico 5 – Janela de Hamming nos domínios (a) do tempo e (b) da freqüência........... 40 Gráfico 6 – Janela retangular nos domínios (a) do tempo e (b) da freqüência ............... 40 Gráfico 7 – Sinal original da palavra “chiado” utilizada nas simulações. ...................... 42 Gráfico 8 – (a) Sinal original; sinal reconstruído a partir do sinal de erro digitalizado com (b) 8 bits, (c) 5bits, (d) 4 bits e (e) 3 bits. ............................................... 43 Gráfico 9 – Trecho da música Paraíso de Cláudio Zoli – (a) Sinal original; (b)Sinal Predito (c)Sinal de erro; (d)Sinal reconstituído.................................................... 45
8
Gráfico 10 – Sinais referentes à palavra “chiado” (a) originalmente gravado, (b) sintetizado a partir de excitação periódica de 150Hz e (c) sintetizado a partir de ruído branco. ..............................………………………………………......................... 46 Gráfico 11 – Erro entre sinal original e (a) sinal sintetizado por meio de excitação periódica de 150Hz e (b) sinal sintetizado por meio de ruído branco.................................. 47 Gráfico 12 – Espectro dos sinais referentes à palavra “chiado” (a) originalmente gravado, (b) sintetizado a partir de excitação periódica de 150Hz e (c) sintetizado a partir de ruído branco. ....................................................................................................... 48 Gráfico 13 - Sinal correspondente à palavra “chiado” (a) originalmente gravado, (b) sintetizado por meio de seqüência impulsiva periódica com freqüência fundamental de 300Hz e utilizando-se 10 coeficientes de predição, (c) utilizando-se 80 coeficientes de predição e (d) utilizando-se 160 coeficientes de predição..........................................… 49 Gráfico 14 - Sinal correspondente à palavra “chiado” (a) originalmente gravado, (b) sintetizado por meio de ruído branco e utilizando-se 10 coeficientes de predição, (c) sintetizado com 80 coeficientes de predição e (d) sintetizado com 160 coeficientes de predição......................………………………………………………………………… 50
9
SUMÁRIO
1 INTRODUÇÃO ................................................................................................................... 10
2 SINAIS E SISTEMAS DE TEMPO DISCRETO ............................................................. 12 2.1 SINAIS DE TEMPO DISCRETO ...................................................................................... 12 2.2 AMOSTRAGEM DE SINAIS DE TEMPO CONTÍNUO ................................................. 17 2.3 FILTROS DIGITAIS .......................................................................................................... 19 2.3.1 Filtros FIR ....................................................................................................................... 19 2.3.2 Filtros IIR ........................................................................................................................ 20 3.1 O TRATO VOCAL ............................................................................................................ 24 3.2 FUNDAMENTOS DE SINAIS DE VOZ .......................................................................... 25 3.3 GERAÇÃO DO SOM NO TRATO VOCAL .................................................................... 29
4 PREDIÇÃO E SÍNTESE .................................................................................................... 32 4.1 CONCEITOS BÁSICOS DA PREDIÇÃO ........................................................................ 32 4.2 O ALGORITMO LMS ....................................................................................................... 33 4.3 CONCEITOS BÁSICOS DE SÍNTESE DE VOZ ............................................................. 37
5 SIMULAÇÕES COMPUTACIONAIS E ANÁLISE DE RESULTADOS .................... 41 5.1 SIMULAÇÃO DE PREDIÇÃO ......................................................................................... 41 5.2 SIMULAÇÃO DE SÍNTESE DE SINAIS DE VOZ ......................................................... 45
6 CONCLUSÕES .................................................................................................................... 52
REFERÊNCIAS .................................................................................................................. 54
10
1 INTRODUÇÃO
Com o crescimento da sociedade moderna e a grande demanda por
informações foram desenvolvidos mecanismos de transmissão de sinais de voz em que são
empregadas técnicas para a redução de taxas de dados mantendo-se a inteligibilidade do sinal
transmitido (STONICK; BRADLEY, 1996).
Por meio de técnicas de processamento digital de sinais é possível ampliar a
capacidade dos atuais sistemas de comunicação sem a necessidade de alterar o meio físico
pelo qual os sinais são transmitidos. Estas técnicas não estão limitadas apenas à redução das
taxas transmitidas, sendo utilizadas também na geração de sinais de voz sintéticos, ou seja,
com os atuais sistemas de processamento de sinais é possível gerar, a partir de coeficientes,
sinais de fala por exemplo.
A síntese de voz pode ser empregada para auxiliar pessoas com deficiência de
fala a se comunicarem e falar ao telefone substituindo o seu sistema fonador, além de serem
utilizados em sistemas de assistência eletrônica como os atendentes automáticos dos serviços
por telefone (SADAOKI, 1995).
Através do estudo da fala humana é possível determinar e modelar um sistema
digital similar ao trato vocal humano capaz de simular atividades de fala. Este é um dos temas
abordados nas explicações e simulações computacionais contidas neste trabalho.
Com o apoio de pacotes e programas no Matlab são simulados sistemas de
predição e síntese de sinais, além de serem analisados os benefícios desta técnica. Através da
análise dos resultados obtidos é possível entender porque estas técnicas são amplamente usada
nos meios de comunicação.
11
Para tornar este trabalho acessível a um público mais amplo, são introduzidos
alguns conceitos básicos de processamento digital de sinais para tornar mais fácil a
compreensão das principais etapas dos processos de predição e síntese de sinais de voz.
No Capítulo 2 são introduzidos os conceitos de sinais e sistemas de tempo
discreto, suas principais propriedades, características e formas de representação. Ainda neste
capítulo é apresentado o processo de discretização e conceitos de filtros digitais.
No Capítulo 3 são apresentados conceitos da anatomia humana para descrever
o funcionamento do trato vocal e seus componentes. Introduz-se os conceitos básicos
necessários para o entendimento do processo de geração de voz.
No Capítulo 4 são descritos os conceitos de predição e síntese dos sinais de
voz explicando as técnicas utilizadas nestes processos, para apoiar as simulações e análises do
Capítulo 5.
O capítulo 6 encerra o trabalho com as conclusões dos autores considerando
análises realizadas a partir das simulações efetuadas e com os estudos realizados no decorrer
deste trabalho.
12
2 SINAIS E SISTEMAS DE TEMPO DISCRETO
Neste capítulo são apresentados princípios de sistemas e sinais de tempo
discreto. Devido aos sistemas de predição e síntese discutidos neste trabalho serem
implementados de forma digital, os sinais envolvidos neste processo são tratados de forma
discreta. Tendo isso em mente, é abordado o processo de amostragem. Além disso, são
discutidos aspectos básicos de filtros digitais.
2.1 SINAIS DE TEMPO DISCRETO
Sinal é definido como uma função que varia com o tempo, espaço ou qualquer
variável independente (PROAKIS; MANOLAKIS, 1996).
Uma das possíveis maneiras de classificar os sinais é como sinais de tempo
contínuo e discreto.
Um sinal de tempo contínuo é aquele que possui valor para qualquer instante
do tempo como, por exemplo, a tensão elétrica que um microfone produz como resposta a fala
de uma palavra (GIROD, 2003).
Um sinal de tempo discreto é aquele que pode ser representado por uma
seqüência de números. Cada número ( )nx corresponde à amplitude do sinal em um instante
SnT , sendo que n é um número inteiro e ST , o período de amostragem, representa o
intervalo entre dois pontos sucessivos nos quais o sinal é definido (DINIZ, 2004).
Um exemplo de sinal de tempo discreto é
( ) ⎟⎠⎞
⎜⎝⎛=
10cos πnnx , (1)
13
representado no Gráfico 1 no intervalo 390 ≤≤ n .
0 5 10 15 20 25 30 35 40
-1
-0.8
-0.6
-0.4
-0.2
0
0.2
0.4
0.6
0.8
1
n
x(n)
Gráfico 1: Exemplo de um sinal de tempo discreto.
Os sinais de voz, apesar de serem sinais de tempo continuo, também podem ser
representados como sinais no tempo discreto. Para isso é preciso amostrá-los seguindo
algumas regras que são estudadas na Seção 2.2.
Um sistema pode ser descrito como um operador, que transforma um ou mais
sinais de entrada, também chamados de sinais de excitação, no sinal de saída ou de resposta
(HAYES, 1999). Um sistema de tempo discreto manipula sinais no tempo discreto. Um
sistema [ ]⋅H com entrada ( )nx e saída ( )ny é representado como mostrado no Diagrama 1.
Diagrama 1: Representação em diagrama de blocos de um sistema
( )nx ( ) ( )[ ]nxHny = [ ]⋅H
14
Um exemplo de aplicação do conceito de sistema é a geração de voz, na qual
um sinal excita o trato vocal, que representa um sistema. Já o processamento dos sinais de fala
é realizado pelo sistema composto pelos ouvidos, caminhos auditivos e nosso cérebro. Nestas
situações, os sistemas que são responsáveis pela síntese e analise dos sinais são de natureza
biológica. Eles também podem ser realizados usando sistemas eletrônicos que tentam simular
suas contrapartes biológicas. (HAYKIN; VAN VEEN, 2001).
Os sistemas de tempo discreto podem ser descritos por equações de diferenças.
A entrada ( )nx e a saída ( )ny de um sistema descrito por uma equação de diferenças linear se
relacionam por
( ) ( ) 000
=−−− ∑∑==
inxbinyaM
ii
N
ii . (2)
O número inteiro N é chamado de ordem da equação de diferenças e
corresponde ao atraso máximo que envolve a saída do sistema. Por exemplo, uma equação de
diferenças de segunda ordem pode ser representada por
( ) ( ) ( ) ( ) ( )121 10210 −+=−+−+ nxbnxbnyanyanya . (3)
As equações de diferenças são facilmente reorganizadas para se obter fórmulas
recursivas para computar a saída atual do sistema a partir do sinal de entrada e das saídas
passadas. Reescrevendo a Equação (3) de forma a isolar ( )ny , chega-se a
( ) ( ) ( ) ( ) ( )( )21112110
0
−−−−−+= nyanyanxbnxba
ny . (4)
Esta equação indica como obter ( )ny a partir da entrada e dos valores passados
a saída. Essas equações são freqüentemente usadas para implementar sistemas de tempo
discretos em um computador (HAYKIN; VAN VEEN, 2001).
15
O Diagrama 2 representa a função utilizada para realizar um retardo de uma
amostra no tempo discreto utilizada no Diagrama 3.
Diagrama 2 – Função de sistema do retardo discreto (GIROD, 2003).
Como exemplo de um sistema pratico e sua equação de diferenças equivalente
é apresentado no Diagrama 3 um sistema gerador de eco.
Diagrama 3 – Sistema gerador de eco.
Este diagrama representa um sistema com entrada ( )nx e saída
( ) ( )[ ] ( ) ( ) ( ) ( ) ( )41613
812
411
21
−+−+−+−+== nxnxnxnxnxnxHny (5)
considerando que o sinal de entrada é um sinal de voz, pode-se ver que a saída é a somatória
do sinal original com sinais atrasados dele em amplitudes menores.
1−z
1−z
1−z
1−z
+
( )nx
( )ny
1
21
41
81
161
( )nx ( ) ( )1−= nxny 1−z
16
Uma outra maneira de caracterizar o comportamento de qualquer sistema
Linear e Invariante no Tempo (LIT) é utilizar sua resposta impulsiva, isto é, a resposta do
sistema quando se tem como entrada um impulso unitário.
Um sistema é LIT caso satisfaça os princípios da superposição,
homogeneidade e invariância no tempo, descritos a seguir.
• Princípio da superposição:
Seja um sistema ( ) ( )( )nxHny = e sejam ( )ny1 a resposta à entrada ( )nx1 e ( )ny2 a
resposta à entrada ( )nx2 . Um sistema satisfaz o princípio da superposição se, quando
se aplicar a entrada ( ) ( ) ( )nxnxnxs 21 += , sua saída é ( ) ( ) ( )nynynys 21 += .
• Princípio da homogeneidade:
Seja um sistema ( ) ( )( )nxHny = e sejam ( )ny1 a resposta à entrada ( )nx1 . Um sistema
satisfaz o princípio da homogeneidade se, quando aplicarmos a ele a
entrada ( ) ( )naxnxh 1= , *Ra∈ , sua saída é ( ) ( )naynyh 1= .
• Princípio da invariância no tempo:
Um sistema é invariante no tempo se um retardo ou avanço de tempo do sinal de
entrada levar a um deslocamento idêntico no sinal de saída, ou seja, suas
características não se modificam com o tempo.
Através da Transformada Z da resposta impulsiva, pode-se definir a função de
transferência do sistema, ou seja, fornecer a descrição das características das funções de
entrada e saída de sistemas de tempo discreto (HAYKIN, VAN VEEN, 2001). A função de
transferência pode ser obtida, também, por meio das equações de diferenças do sistema, como
mostrado em diversos livros de análises de sinais(LATHI, 1998).
17
2.2 AMOSTRAGEM DE SINAIS DE TEMPO CONTÍNUO
Para processar um sinal de tempo contínuo usando um sistema de tempo
discreto é preciso primeiramente convertê-lo em um sinal no domínio do tempo discreto. Esta
conversão precisa ser feita de tal forma que seja possível restaurar o sinal no tempo continuo a
partir de suas amostras.
Considerando um sinal de tempo contínuo ( )txa , pode-se representar esta
função como um sinal de tempo discreto tomando-se valores de ( )txa em intervalos de ST
segundos formando ( ) ( )Sa nTxnx = . Este processo consiste em retirar amostras instantâneas
dos valores da função ( )txa a cada período de tempo ST que é chamado de período de
amostragem.
Costuma-se especificar a amostragem de um sinal não em função de seu
período, mas sim da taxa ou freqüência de amostragem Sf que é dada pelo inverso do
período, S
S Tf 1
= .
Um exemplo de amostragem de um sinal é apresentado no Gráfico 2, em que
no gráfico (a) é apresentado o sinal original no tempo continuo e no gráfico (b), o sinal
amostrado com 2,0=ST segundos.
18
0 1 2 3 4 5 6 7 8-1
-0.5
0
0.5
1
t
x(t)
5 10 15 20 25 30 35 40-1
-0.5
0
0.5
1
n
x(n)
Gráfico 2: Exemplo de um sinal amostrado.
Quanto maior a taxa de variação de ( )txa , menor deve ser o valor de ST para
que o sinal amostrado possa ser reconstruído para o tempo continuo no final do
processamento sem perder suas características, ou seja, todas as variações no sinal devem ser
conservadas quando ele é amostrado. Para assegurar isso, a taxa de amostragem deve ser de
no mínimo duas vezes o valor da maior freqüência contida no sinal a ser amostrado. Esta taxa
de amostragem é conhecida como taxa de Nyquist (STONICK; BRADLEY, 1996).
19
2.3 FILTROS DIGITAIS
Filtro é um nome genérico que representa um sistema linear invariante no
tempo (LIT), projetado para uma determinada tarefa de discriminação ou de seleção de
freqüências (HAYKIN; VAN VEEN, 2001).
Uma forma importante de classificar os filtros digitais é em filtros com
resposta impulsiva finita (FIR – Finite Impulse Response) ou infinita (IIR – Infinite Impulse
Response). Estes conceitos são abordados em detalhes a seguir.
2.3.1 Filtros FIR
Filtros digitais de Resposta ao Impulso de duração Finita (FIR – Finite Impulse
Response), têm sua operação regida por equações lineares de diferenças com coeficientes
constantes de natureza não-recursiva. Para uma entrada ( )nx , a saída é dada pela convolução
entre o sinal de entrada e os coeficientes de filtro, ou seja,
( ) ( ) ( )knxkhnyM
k−= ∑
−
=
1
0 (6)
onde M é o número de coeficientes do filtro.
A função de transferência de um filtro FIR é um polinômio em 1−z :
( ) ( )∑−
=
−=1
0
M
k
kzkhzH (7)
Os filtros FIR podem implementar uma resposta em módulo desejada com
resposta em fase exatamente linear, isto é, sem nenhuma distorção de fase (HAYKIN; VAN
VEEN, 2001). Esta propriedade é muito útil para processamento de sinais de fala, pois
20
mantém um alinhamento de tempo preciso. São usualmente implementados através da forma
direta como apresentado na Diagrama 4.
Diagrama 4: Filtro FIR com M coeficientes (ordem M-1), forma direta.
2.3.2 Filtros IIR
Filtros digitais de Resposta ao Impulso de duração Infinita (IIR – Infinite
Impulse Response), têm sua operação regida por equações lineares de diferenças com
coeficientes constantes de natureza recursiva. Para uma entrada ( )nx , a saída é calculada
como:
( ) ( ) ( )⎟⎠
⎞⎜⎝
⎛−−−= ∑ ∑
= =
M
k
N
kkk knyaknxb
any
0 10
1 (8)
Um filtro IIR tem função de transferência
( )∑
∑
=
−
=
−
= N
k
kk
M
k
kk
za
zbzH
0
0 . (9)
Os filtros IIR resultam em comprimentos de filtro menor do que o do filtro FIR
correspondente, porém, esta melhoria é obtida às custas de distorção de fase e um transitório
que não se limita a um intervalo de tempo finito (HAYKIN; VAN VEEN, 2001). Os filtros
1−z1−z 1−z 1−z
+
......
( )ny
( )nx
( )0h ( )1h ( )2h ( )3h ( )2−Mh ( )1−Mh
21
IIR podem ser implementados de diferentes formas (ABRANTES, 2000), a forma direta é
apresentada na Diagrama 5:
Diagrama 5: Exemplo de configuração de um filtro IIR
Para a implementação de filtros digitais é possível se utilizar a função filter do
Matlab. Esta função permite a filtragem mais conveniente através de um filtro IIR.
22
Apenas para exemplificar a utilização desta função do Matlab, a partir de um
sinal com duas senóides de freqüências 5 e 80 Hz e freqüência de amostragem 200 Hz, será
implantado um filtro do tipo Butterworth de 2ª ordem.
0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1-2
-1
0
1
2Sinal de Entrada
tempo (s)
ampl
itude
0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1-2
-1
0
1
2Sinal Filtrado
tempo (s)
ampl
itude
Gráfico 3: Exemplo de filtro com o comando filter.
Os sinais apresentados no Gráfico 3 foram gerados no Matlab a partir da
seguinte seqüência de comandos:
fs=200; % Freqüência de amostragem t=0:1/fs:1; % Tempo de amostragem T=1/fs; x=sin(2*pi*5*t)+sin(2*pi*80*t); % sinal de entrada subplot(2,1,1) plot(t,x) grid on title('Sinal de Entrada') xlabel('tempo (s)')
23
ylabel('amplitude') [B,A]=butter(2,20/(fs/2)); % Determinar os coeficientes y=filter(B,A,x); subplot(2,1,2) plot(t,y,'r') title('Sinal Filtrado') xlabel('tempo (s)') ylabel('amplitude')
O programa citado acima, calcula os coeficientes de um filtro Butterworth
utilizando a função butter do Matlab, e o sinal filtrado é calculado com a função filter, tendo
como entrada os coeficientes calculados.
24
3 O trato vocal e os sinais de voz
Este capítulo propõe-se a apresentar as estruturas que compõem o aparelho
fonador humano e introduzir os conceitos básicos necessários para o entendimento do
processo de geração de voz humana e, posteriormente, sintética.
3.1 O TRATO VOCAL
Define-se trato por área, extensão, região ou trecho (GREGORIM; 2002).
Logo, pode-se entender trato vocálico como a região em que ocorre a produção de voz.
O trato vocal tem início na abertura entre as pregas ou cordas vocais, ou glote,
e termina nos lábios, sendo formado assim pela faringe, ou seja, pela conexão entre o esôfago
e a boca, e pela boca ou cavidade oral. O comprimento médio do trato vocal masculino é de
aproximadamente 17cm, com área de seção transversal determinada pela posição da língua,
lábios, maxilar e véu palatino variando entre zero, ou seja, fechamento completo, até cerca de
20cm2 (SMITH, 1997).
O trato nasal inicia-se no véu palatino e termina nas narinas. Quando o véu
palatino é baixado, o trato nasal é acoplado acusticamente ao trato vocal. Com a total
obstrução de algum ponto ao longo da passagem de ar há a produção de sons nasais de voz,
tais como /m/ e /n/. A cavidade oral, embora constrita, permanece acusticamente acoplada à
faringe e, dessa forma, a boca atua como uma cavidade ressonante (SMITH, 1997).
Com o auxílio do Desenho 1 pode-se identificar os principais componentes dos
tratos vocal e nasal constituintes do aparelho fonador humano.
25
Desenho 1 – Detalhes do aparelho fonador humano (SIMÕES, 1999).
3.2 FUNDAMENTOS DE SINAIS DE VOZ
Sinais de voz são compostos por seqüências de sons. Estes sons e a transição
entre eles servem como uma representação simbólica da informação. A combinação destes
sons (símbolos) é governada pelas regras da linguagem. O estudo destas regras e de suas
implicações na comunicação humana é chamado de Lingüística e, o estudo e classificação dos
sons de voz é chamado de Fonética (RABINER; SCHAFER, 1978).
É possível classificar os sons produzidos pela fala humana como vocálicos ou
fricativos.
Sons vocálicos ocorrem quando o ar é forçado pelos pulmões, através das
cordas vocais, em direção à boca ou nariz, por onde escapa. As cordas vocais são formadas
por dois pares de músculos esticados transversalmente ao fluxo de ar, e localizam-se entre a
traquéia e a laringe, conforme ilustrado no Desenho 1. Em resposta à variação de tensão
destes músculos, as cordas vocais vibram a freqüências de 50 a 1000Hz, resultando em sopros
26
periódicos de ar injetado na traquéia (SMITH, 1997). O Desenho 2 ilustra a localização das
cordas vocais.
Desenho 2 – Localização das cordas vocais (SENDA, 2005).
O som produzido ao se pronunciar uma vogal é um exemplo de som vocálico,
que se pode representar matematicamente como a saída de um filtro que tenha como entrada
uma seqüência periódica de impulsos, com freqüência ajustável.
Em contra partida, sons fricativos ou não-vocálicos originam-se quando ocorre
a constrição de algum ponto do trato vocal, geralmente em direção à boca, e o ar é forçado
através da constrição a uma velocidade suficientemente grande para produzir turbulência,
criando uma fonte de ruído que excita o trato vocal (RABINER; SCHAFER, 1978). Sons
fricativos são aqueles cuja pronúncia inclui: /ch/, /f/, /s/, /v/, /x/, e /z/. No modelo ilustrado
pelo Diagrama 6, representa-se a geração de sons fricativos ou não-vocálicos por meio de um
gerador de ruído.
Para curtos intervalos de tempo, de 2 a 40ms, pode-se modelar a voz com o
auxílio de três parâmetros: (a) a seleção de excitação por seqüência de impulsos periódica ou
27
por ruído gaussiano, (b) a freqüência fundamental (pitch) da excitação periódica, quando
utilizada e (c) os coeficientes de um filtro recursivo linear simulando o trato vocal. Pode-se,
então, sintetizar voz atualizando-se continuamente estes parâmetros cerca de 40 vezes por
segundo. Embora a qualidade sonora desta aproximação seja baixa, soando mecânico em vez
de humano, requer baixa taxa de atualização de dados (SMITH, 1997). O processo de síntese
de voz é estudado mais detalhadamente no Capítulo 4.
Diagrama 6 – Modelo de síntese de voz
O Pitch representa o período de interrupção do fluxo de ar que excita o trato
vocal causado pela vibração das cordas vocais quando passado pela glote. Quanto maior for
esse período, menor será o espaço entre as harmônicas e, conseqüentemente menor será a
freqüência fundamental, resultando em um som mais grave. Por outro lado, se esse período
for muito pequeno, a freqüência fundamental será alta, logo, produzindo som mais agudo
(SENDA, 2005). O Gráfico 4 mostra a variação do pitch para a vogal /a/.
Gerador de Ruído
Gerador de Impulsos
vocálicos
não-vocálicos
Filtro Digital
Resposta do trato vocal
pitch
voz sintética
28
Gráfico 4 – Variações espectrais do pitch da vogal /a/ (PICKETT, 1999)
Pode-se modelar os tratos vocal e nasal como tubos de secção transversal não
uniforme, como ilustrado no Diagrama 7. Conforme o som se propaga através destes tubos, o
espectro de freqüência é moldado de acordo com a seletividade de freqüência do tubo,
produzindo um efeito semelhante à ressonância observada em instrumentos de sopro. No
contexto de produção de voz, a freqüência de ressonância do trato vocal é chamada de
freqüência formante ou simplesmente formante (PICKETT, 1999).
As freqüências formantes dependem do formato e das dimensões do trato
vocal, pois formatos diferentes implicam em diferentes conjuntos de freqüências formantes,
podendo-se produzir diferentes sons por meio da alteração do formato do trato vocal. Assim,
as propriedades espectrais dos sinais de voz variam com o tempo conforme o formato do trato
vocal se altera.
29
Diagrama 7 – Trato vocal modelado em tubos de mesmo comprimento
(MCCLELLAN, 1998)
A dependência da área de secção transversal ao longo do trato vocal é chamada
Função Área do trato vocal. A função área para uma vogal, por exemplo, é determinada
principalmente pela posição da língua, mas as posições do maxilar, lábios e, em menor
proporção, a do véu palatino também influenciam no som resultante.
3.3 GERAÇÃO DO SOM NO TRATO VOCAL
Um modelo detalhado do sistema vocal deve envolver os pulmões, brônquios,
traquéia, glote e o trato vocal. O primeiro trabalho abrangente em busca de um modelo físico
detalhado para a geração de som no trato vocal foi realizado por Flanagan, no final da década
de 1960 (CARLSON, 1995). Pesquisas subseqüentes produziam um modelo mais refinado,
fornecendo representação mais detalhada do processo de geração de sons vocálicos e não-
vocálicos. Este modelo se baseia em mecânica clássica e mecânica dos fluídos, mas está além
do propósito deste trabalho. Entretanto, uma discussão qualitativa sobre os princípios básicos
da geração de som é útil para mostrar os modelos mais simples amplamente utilizados como
base no processamento de voz.
Glote Lábios
30
Pode-se explicar a vibração das cordas vocais, para o caso de sons vocálicos,
com a ajuda da representação esquemática do sistema vocal mostrada o Desenho 3.
Desenho 3 – Representação esquemática do sistema vocal (RABINER; SCHAFER, 1978)
Com o aumento da pressão nos pulmões, o ar flui para fora destes e através das
cordas vocais (glote). De acordo com a lei de Bernoulli, quando um fluido se desloca por um
orifício, a pressão é menor na constrição do que nas áreas adjacentes. Se a tensão nas cordas
vocais for ajustada adequadamente, a pressão reduzida permite que as cordas se toquem,
bloqueando completamente o fluxo de ar. Esta situação está representada pelas linhas
pontilhadas no Desenho 3. Como resultado deste bloqueio no fluxo de ar, a pressão sob as
cordas vocais aumenta até finalmente atingir um nível suficiente para forçar a abertura das
cordas vocais e, assim, permitir o fluxo de ar através da glote. A pressão na glote cai
novamente e o ciclo se repete. A figura 3.6 ilustra as cordas vocais em diferentes condições.
Desenho 4 - Aproximação das cordas vocais (SENDA, 2005).
31
Assim, as cordas vocais entram em uma condição de oscilação sustentada. A
taxa com que a glote abre e fecha é controlada pela pressão do ar nos pulmões, pela tensão nas
cordas vocais e pela rigidez das mesmas, além da área de abertura da glote na condição de
repouso. Estes são os parâmetros de controle de um modelo detalhado para o comportamento
das cordas vocais. Tais modelos devem também conter a influência do trato vocal uma vez
que variações de pressão no trato vocal interferem nas variações de pressão na glote.
32
4 PREDIÇÃO E SÍNTESE
O modelo de predição é amplamente utilizado em telecomunicações para
aumentar o número de sinais de voz que podem ser transmitidos por um canal (STONICK;
BRADLEY, 1996). A síntese é a forma utilizada para a partir dos coeficientes de predição e
do sinal de erro se reconstruir o sinal e torná-lo audível novamente.
A seguir são apresentados os conceitos básicos da predição de sinais de voz e o
funcionamento de um dos algoritmos que pode ser utilizado para predição.
4.1 CONCEITOS BÁSICOS DA PREDIÇÃO
Uma vez que no tempo discreto uma amostra de voz é muito parecida com a
amostra anterior, um modelo matemático de equações de diferenças pode ser desenvolvido
para estimar o valor da amostra corrente como uma combinação linear das amostras
anteriores.
Sendo ( )ns um sinal de voz amostrado pode-se adotar,
( ) ( )∑=
−=p
ii insns
1
ˆ α (10)
em que ( )ns é a estimação do sinal de voz ( )ns para a amostra n . O erro entre o sinal original
e o estimado é:
( ) ( ) ( )nsnsne ˆ−= (11)
Substituindo a Eq. (10) na Eq. (11) pode se obter o modelo de equação de
diferença para o processo de predição de voz expresso por
33
( ) ( ) ( )neinsnsp
ii =−−∑
=
ˆ1
α (12)
Se os coeficientes iα são conhecidos pelo transmissor e pelo receptor então
apenas o sinal de erro precisa ser transmitido e o sinal de voz pode ser reconstruído utilizando
a equação de diferenças (12). No transmissor ( )ns é a entrada do filtro de predição e ( )ne é a
saída, já no receptor a situação é inversa. A transmissão do sinal de erro resulta em uma
economia substancial de banda (STONICK; BRADLEY, 1996), como fica demonstrado nas
simulações do Capitulo 5.
O Diagrama 8 apresenta o sistema de predição na forma de blocos para melhor
exemplificar o procedimento utilizado por esta técnica.
Diagrama 8 – Sistema de predição (ABRANTES, 2000).
4.2 O ALGORITMO LMS
Um dos métodos utilizados para se realizar a predição é a utilização do
algoritmo de estimação LMS (Least Mean Square – Mínimo Erro Quadrático) que tenta
- +
Atraso ∑Processador de Predição
( )ns
( )ns
( )ne
34
minimizar o erro entre o sinal predito e o original. Nessa seção detalha-se o princípio deste
algoritmo. As deduções baseiam-se na referência (LATHI, 1998).
Freqüentemente tem-se interesse em determinar a natureza de dependência
entre dois sinais. Quando duas variáveis randômicas x e y são correlacionadas, então uma
possui informações da outra. Assim é possível estimar o valor de y pelo conhecimento do
valor de x . A estimativa de y será dada pela variável aleatória y . O valor estimado de y é
em geral diferente do valor verdadeiro de y . Uma das formas de se obter uma boa estimação
de y é minimizar o erro médio quadrado 2e dado por:
( )22 yye −= (13)
Em geral a melhor estimativa de y é uma função não-linear de x . Pode-se
simplificar o problema fazendo de y uma função linear de x na forma:
axy =ˆ (14)
assumindo que 0=x . Neste caso,
( ) ( ) xyaxayaxyyye 2ˆ 222222 −+=−=−= (15)
Para minimizar 2e , tem-se
022 22
=−=∂∂ xyxa
ae (16)
Portanto,
XX
XY
RR
xxya ==
2 (17)
em que 2xRxx = , 2yRyy = e xyRxy = . Para este valor de a ,
35
xRR
yaxyexx
xy−=−= (18)
Portanto,
2xRR
xyRR
yxxexx
xy
xx
xy −=⎟⎟⎠
⎞⎜⎜⎝
⎛−= (19)
Uma vez que xyRxy = e xxRxxx == 2 , tem-se
0=−= xyxy RRxe (20)
Portanto, o dado x e o erro e são ortogonais, ou seja, seu produto interno é igual a zero..
O erro médio quadrado é dado por:
( ) xyyyxx
xyyy
xx
xy
xx
xyyy aRR
RR
RRR
RR
Rxaxyayaxye −=−=+−=+−=−=222
22222 22 (21)
Se a variável randômica 0x é relacionada com n variáveis randômicas 1x , 2x ,
..., nx então pode-se estimar 0x como uma combinação linear de 1x , 2x , ..., nx :
∑=
=+++=n
iiinno xaxaxaxax
12211 ...ˆ . (22)
O erro médio quadrado é dado por
( )[ ]2221102 ... nn xaxaxaxe +++−= . (23)
Para minimizar 2e , deve-se fazer
0...2
2
2
1
2
=∂∂
==∂∂
=∂∂
nae
ae
ae (24)
isto é
36
( )[ ] 0... 222110
21
2
=+++−∂∂
=∂∂
nn xaxaxaxaa
e (25)
diferenciando o termo em ia , tem-se
( )[ ] 0...2 222110
1
2
=+++−−=∂∂
nn xaxaxaxae (26)
ou
inniii RaRaRaR +++= ...22110 (27)
em que jiij xxR =
Diferenciando 2e em relação a 1a , 2a , ..., na e igualando a zero, obtém-se n
equações simultâneas na forma da Eq. (27). As constantes desejadas 1a , 2a , ..., na podem ser
encontradas através da matriz mostrada abaixo:
⎥⎥⎥⎥
⎦
⎤
⎢⎢⎢⎢
⎣
⎡
⎥⎥⎥⎥
⎦
⎤
⎢⎢⎢⎢
⎣
⎡
=
⎥⎥⎥⎥
⎦
⎤
⎢⎢⎢⎢
⎣
⎡−
nnnnn
n
n
n R
RR
RRR
RRRRRR
a
aa
0
02
011
21
22221
11211
2
1
:...
..................
: (28)
Através desta matriz é possível alimentar o filtro de predição para encontrar os
coeficientes que são enviados junto com o sinal de erro na mensagem transmitida, onde os
coeficientes na da matriz são os coeficientes nα do filtro de predição.
37
4.3 CONCEITOS BÁSICOS DE SÍNTESE DE VOZ
Utilizam-se duas aproximações para geração de voz: gravação digital e
simulação do trato vocal (SMITH, 1997). No caso de gravação digital, a voz de um falante
humano é digitalizada e armazenada, geralmente sob uma forma comprimida. Durante a
reprodução, os dados armazenados são descomprimidos e convertidos em sinal analógico. Já a
simulação do trato vocal é mais complexa, pois tenta imitar o mecanismo físico pelo qual a
voz humana é gerada. Este trabalho é voltado à simulação do trato vocal.
A fim de se modelar o processo de síntese de voz, pode-se utilizar o modelo
básico de predição mostrado na equação (12) para se criar um sinal )(~ ns que imite o sinal
)(ns originalmente amostrado. Pode-se, então, substituir o sinal de erro )(ne por um sinal
)(nx de entrada, multiplicado por um ganho G . Utilizando-se a mesma estrutura da equação
de diferenças para a predição de voz, temos:
( ) ( ) ( )nGxinsnsp
ii =−−∑
=1
~~ α (29)
Se )()( nenGx = , onde G é um ganho unitário, então o sinal )(~ ns sintetizado
deverá ser exatamente igual ao sinal originalmente amostrado. Neste caso tem-se a
reconstrução do sinal em vez da síntese deste.
Tipicamente os coeficientes iα variam a cada 10 a 20ms de acordo com as
mudanças do trato vocal para a produção dos diferentes sons. Para a síntese, aplica-se uma
seqüência de excitação ao modelo que contém os coeficientes apropriados a cada intervalo de
tempo a fim de se gerar a seqüência de sons correspondente ao discurso que se deseja realizar.
38
Pode-se encontrar a resposta característica para uma equação de diferenças a
partir de suas raízes características ou pólos do sistema. É possível mostrar que uma resposta
na forma nz , em que z é um número complexo, satisfaz uma equação de diferenças com
coeficientes constantes e com entrada zero. Assim )(nyz N− , para nzny =)( , corresponde a
uma versão atrasada de )(ny , ou seja, )( Nny − . Tomando-se a entrada nula e substituindo-se
cada atraso na equação de diferenças de predição (12) ou de síntese (29) por uma potência de
1−z , tem-se como resultado um polinômio característico, mostrado na equação (30), cujas
raízes são chamadas de raízes características, e definem a resposta característica do sistema.
∏∑−
=
−
=
−=−=1
01)(1)(
p
ii
ip
ii zzzzQ α (30)
Uma vez que a equação é de ordem p , existem p raízes características iz .
Geralmente para voz masculina, 10=p , e as raízes formam pares complexos conjugados de
forma que todos os coeficientes iα assumem valores reais (STONICK; BRADLEY, 1996).
A síntese de voz utilizando o modelo de equações de diferenças requer que,
primeiramente, um segmento de voz real seja analisado para que se possa determinar quais
coeficientes iα são mais apropriados para cada segmento de 10ms. Para cada um destes
segmentos deve-se calcular um conjunto de coeficientes iα . O processo de extração de um
bloco de 10ms do sinal original é chamado janelamento.
O janelamento é matematicamente equivalente à multiplicação do sinal
completo por uma função retangular de valor igual à unidade na região de interesse e valor
nulo nas demais regiões. Esta função é chamada de janela retangular e, nas bordas da região
de dados há uma transição abrupta de sinal para zero, o que pode causar problemas de análise
(STONICK; BRADLEY, 1996). Uma forma mais eficiente de janelamento é multiplicar o
sinal por uma função que tenha uma transição mais suave. A função mais comum é a chamada
janela de Hamming.
39
Para que se possa compreender a razão pela qual é preferível utilizar a janela
de Hamming em vez da janela quadrada, deve-se observar o impacto do janelamento no
domínio da freqüência. Uma vez que o janelamento de um sinal corresponde à operação de
multiplicação no domínio do tempo, no domínio da freqüência corresponderá à convolução da
Transformada de Fourier da função da janela com o espectro de freqüência do segmento do
sinal amostrado. Se a transformada da função da janela se aproximar de um impulso em
freqüência, então a operação de convolução resultará em um espectro idêntico ao espectro do
sinal original. Entretanto, quanto menos a transformada da janela se assemelhar a um pulso,
maior será a distorção do espectro do sinal original.
Os gráficos 4.1 e 4.2 ilustram as janelas de Hamming e a janela quadrada,
respectivamente nos domínios do tempo e da freqüência. Deve-se perceber que a janela de
Hamming apresenta uma queda maior antes de se estabilizar, chamada de atenuação de banda
de rejeição, mas seu lóbulo principal é praticamente duas vezes maior que o da janela
retangular.
Após o janelamento, uma análise estatística dos dados que determina o grau de
correlação entre as amostras adjacentes é utilizada para se calcular os coeficientes que forneça
a melhor predição do sinal, isto é, que minimize o erro de predição, conforme explicado na
seção 4.2. Uma vez encontrados estes coeficientes, pode-se sintetizar voz aplicando-se um
sinal apropriado de entrada ao modelo. No caso de sons vocálicos, um bom modelo da fonte
para o sinal de entrada é um trem de impulsos ideais a uma dada freqüência, sendo que a
freqüência determina o pitch. Já no caso de sons não vocálicos um bom modelo de fonte para
o sinal de entrada é um ruído branco gaussiano.
40
Gráfico 5 – Janela de Hamming nos domínios (a) do tempo e (b) da freqüência
Gráfico 6 – Janela retangular nos domínios (a) do tempo e (b) da freqüência
41
5 SIMULAÇÕES COMPUTACIONAIS E ANÁLISE DE RESULTADOS
Neste capítulo são realizadas simulações do funcionamento de sistemas de
predição e síntese de sinais de voz através de programas e pacotes no Matlab.
5.1 SIMULAÇÃO DE PREDIÇÃO
Para analisar as vantagens do sistema de predição é feita uma comparação
entre a taxa de bits necessária para transmitir um sinal de voz com e sem o uso da predição.
Para um sistema utilizando predição, a taxa de transmissão é dada por
cosblopbSbits NNNfNTaxa += (31)
em que bitsN é o número de bits utilizados na digitalização do sinal de erro, Sf é a
freqüência de amostragem do sinal original, bN é o número de bits utilizados para
representar cada coeficiente de predição, PN é o número de coeficientes utilizados na
predição por bloco e cosbloN é o número de blocos por segundo.
A taxa para o sinal transmitido sem o uso de predição linear é calculada por
Sbitso fNTaxa = (32)
em que bitsN é o número de bits utilizados na digitalização do sinal, Sf é a freqüência de
amostragem do sinal original.
Nas simulações a seguir o sinal é amostrado a 8000Hz e utiliza-se 16=bN bits
para representar os coeficientes. São utilizados 10=pN coeficientes de predição para cada
bloco de 160 amostras do sinal a ser reconstruído.
42
A partir destes parâmetros se obtém o número de blocos que este sinal é
dividido para realizar a predição, sendo
501608000
160cos === Sblo
fN (33)
O sinal utilizado é o da palavra “chiado” apresentado no Gráfico 7. Esta
palavra foi escolhida por conter tanto sons vocálicos quanto fricativos.
0 1000 2000 3000 4000 5000 6000 7000 8000 9000-1
-0.5
0
0.5
1
n
Ampl
itude
Gráfico 7 – Sinal original da palavra “chiado” utilizada nas simulações
Primeiramente, deseja-se determinar quantos bits são necessários para se
digitalizar o erro de maneira a se reconstruir o sinal original de forma inteligível. Para isto são
analisados os sinais reconstruídos após a digitalização do erro como mostrado no Gráfico 8.
Para determinar a quantidade mínima de bits necessária para que o sinal
reconstituído seja inteligível foram feitos alguns testes de audição com 10 pessoas diferentes
e, a partir destes testes, verificou-se que a maioria das pessoas conseguiram entender o que diz
o sinal com 3 bits na quantização do sinal de erro. Além disso, a maioria das pessoas afirmou
que o sinal possuía uma qualidade razoável de sonoridade quando se utiliza 5 bits.
43
-1
-0.5
0
0.5
1Am
plitu
de
-1
-0.5
0
0.5
1
Ampl
itude
-1
-0.5
0
0.5
1
Ampl
itude
-1
-0.5
0
0.5
1
Ampl
itude
0 1000 2000 3000 4000 5000 6000 7000 8000 9000 -1
-0.5
0
0.5
1
n
Ampl
itude
Gráfico 8 – (a) Sinal original; sinal reconstruído a partir do sinal de erro digitalizado com (b) 8 bits, (c) 5bits, (d) 4 bits e (e) 3 bits.
A partir das análises do Gráfico 8 e da audição do sinal reconstituído pode-se
perceber que algo entre 4 e 6 bits é um bom número para a digitalização do sinal de erro.
a)
b)
c)
d)
e)
44
Pode-se utilizar a Equação (31) para calcular a taxa para se transmitir este
sinal.
4800050101680005 =⋅⋅+⋅=Taxa bps (bits por segundo). (34)
A taxa necessária para se transmitir este sinal sem o uso de predição linear é:
6400080008 =⋅=oTaxa bps (35)
onde se conclui que o uso da predição linear resulta em uma economia de 16000 bps ou 25%
da taxa transmitida.
Em comunicações não são transmitidas apenas pequenas palavras e sim
diálogos complexos com uma grande seqüência de fonemas, para demonstrar que a predição
pode ser utilizada em outros tipos de sinais é utilizado um trecho da música “Paraíso” do
Cláudio Zoli. Os resultados obtidos são mostrados no Gráfico 8.
Pelo Gráfico 9 pode-se ver que mesmo sinais de música podem ser
transmitidos utilizando esta técnica e que o sinal reconstituído tem boa qualidade. Na
transmissão deste sinal que tem 10 segundos de duração foram economizados 160000 bits.
Com a utilização deste programa pode-se ver que a técnica de predição é muito
útil para a transmissão de sinais. Os resultados da simulação mostram que há uma grande
economia na quantidade de bits necessários para se transmitir sinais mostrando a importância
desta técnica para sistemas de comunicações.
A técnica de predição adaptativa é utilizada, por exemplo, na codificação de
voz, na estimação espectral e em PCM diferencial adaptativo (ABRANTES, 2000).
45
-1
-0.5
0
0.5
1
Ampl
itude
-1
-0.5
0
0.5
1
Ampl
itude
-1
-0.5
0
0.5
1
Ampl
itude
0 0.2 0.4 0.6 0.8 1 1.2 1.4 1.6 1.8 2
x 105
-1
-0.5
0
0.5
1
Ampl
itude
n
Gráfico 9 – Trecho da música Paraíso de Cláudio Zoli – a) Sinal original; b)Sinal Predito; c)Sinal de erro; d)Sinal reconstituído.
5.2 SIMULAÇÃO DE SÍNTESE DE SINAIS DE VOZ
Retomando o Diagrama 6, as simulações realizadas têm a finalidade de
sintetizar um sinal de voz apenas a partir de uma excitação periódica ou de ruído branco.
a)
b)
c)
d)
46
Tem-se como proposta analisar a influência do pitch escolhido e do número de coeficientes
do filtro sobre os sinais sintetizados.
Para isto, utilizaram-se programas que, a partir de um sinal de voz previamente
gravado, calcula coeficientes de predição, conforme no Capítulo 4, que serão utilizados como
parâmetros de um filtro IIR que simula o trato vocal.
O Gráficos 5.4 ilustra o sinal referente à palavra “chiado” originalmente
gravado com freqüência de amostragem de 8kHz, o sinal sintetizado a partir de uma seqüência
periódica com freqüência de pitch igual a 150Hz, utilizando 10 coeficientes de predição, e o
sinal sintetizado a partir de uma seqüência aleatória, ou seja, a partir de ruído branco.
Gráfico 10 – Sinais referentes à palavra “chiado” (a) originalmente gravado, (b) sintetizado a partir de excitação periódica de 150Hz e (c) sintetizado a partir de ruído branco.
Pode-se verificar a semelhança entre os sinais sintetizados em relação ao sinal
original. Em ambos os sinais sintetizados aparece uma interferência amplificada pelo processo
de síntese, proveniente de ruídos presentes no ambiente no momento em que se fez a
a)
b)
c)
n
Am
plitu
de
Am
plitu
de
Am
plitu
de
47
gravação. Ao se ouvir estes sinais, pode-se perceber claramente um zunido constante,
caracterizando a interferência amplificada.
Os sinais de erro entre o sinal original e os sinais sintetizados a partir de ruído
gaussiano e excitação periódica são mostrados no Gráfico 11.
Gráfico 11 – Erro entre sinal original e (a) sinal sintetizado por meio de excitação periódica de 150Hz e (b) sinal sintetizado por meio de ruído branco.
Analisando a densidade espectral de potência ( DEP ) destes sinais, mostrados
no Gráfico 12, pode-se verificar que o pitch mais adequado para a síntese por meio de
excitação periódica é de aproximadamente 300Hz, pois esta freqüência está relacionada à baia
de maior amplitude do espectro do sinal original. Pode-se verificar, também, que o pitch de
150Hz escolhido para esta síntese corresponde à baia de maior amplitude do espectro do sinal
sintetizado por excitação periódica.
a)
b)
48
Gráfico 12 – Espectro dos sinais referentes à palavra “chiado” (a) originalmente gravado, (b) sintetizado a partir de excitação periódica de 150Hz e (c) sintetizado a partir de ruído branco.
Desta forma, se sintetizarmos um sinal utilizando excitação periódica com
pitch de 300Hz, obteremos como resultado um sinal com características mais próximas do
sinal original.
A fim de se analisar a influência do pitch escolhido sobre os sinais
sintetizados, gerou-se sinais com pitch variando de 50 a 950 Hz. Verificou-se que sinais
sintetizados com pitch abaixo de 550Hz, quando ouvidos, não apresentam diferença marcante
entre si, podendo muitas vezes ser confundidos.
Já sinais sintetizados com pitch superior a 550Hz começam a apresentar perdas
das características fundamentais da fala humana, principalmente do timbre, ou seja, a
característica que nos permite identificar o falante. O ouvinte, ao escutar estes sinais, tem a
impressão de ouvir uma voz metalizada, lembrando a voz de um robô.
a)
b)
c)
DEP
D
EP
DEP
Freqüência ( Hz )
Raia de maior Densidade Espectral de Potência
49
A fim de se analisar a influência do número de coeficientes utilizados pelo
filtro que simula o aparelho fonador humano sobre os sinais gerados durante a simulação,
sintetizou-se sinais por meio de excitação periódica e por meio de ruído branco com o número
de coeficientes variando de 10 a 160. O Gráfico 13 mostra o sinal originalmente gravado com
freqüência de amostragem igual a 8kHz e sinais sintetizados por meio de seqüência impulsiva
periódica com freqüência fundamental de 300Hz e utilizando-se 10, 80 e 160 coeficientes de
predição, referentes à palavra “chiado”. Vale lembrar que, enquanto a escolha do pitch
influencia apenas os sinais sintetizados por meio de impulsos periódicos, a escolha do número
de coeficientes de predição também influencia os sinais gerados por ruído branco.
Gráfico 13 - Sinal correspondente à palavra “chiado” (a) originalmente gravado, (b) sintetizado por meio de seqüência impulsiva periódica com freqüência fundamental de 300Hz e utilizando-se 10 coeficientes de predição, (c) utilizando-se 80 coeficientes
de predição e (d) utilizando-se 160 coeficientes de predição
a)
b)
c)
d)
n
Am
plitu
de
Am
plitu
de
Am
plitu
de
Am
plitu
de
50
Verificou-se que sinais sintetizados por ruído branco utilizando-se mais que
vinte e cinco coeficientes de predição começam a apresentar distorção, podendo dificultar o
entendimento da mensagem. Ademais, quanto mais complexo for o sinal a ser sintetizado, isto
é, quanto mais sons provenientes de obstrução parcial ,ou total, do fluxo de ar pela boca, tanto
para os sinais sintetizados por ruído quanto para os sintetizados por seqüência periódica de
impulsos, tem-se como resultado sons metalizados, caracterizando perda das características
intrínsecas da voz humana.
O Gráfico 14 mostra o sinal originalmente gravado com freqüência de
amostragem igual a 8kHz e sinais sintetizados por meio de ruído branco, utilizando-se 10, 80
e 160 coeficientes de predição, referentes à palavra “chiado”.
Gráfico 14 - Sinal correspondente à palavra “chiado” (a) originalmente gravado, (b) sintetizado por meio de ruído branco e utilizando-se 10 coeficientes de predição,
(c) sintetizado com 80 coeficientes de predição e (d) sintetizado com 160 coeficientes de predição
Em contrapartida, quanto mais coeficientes de predição forem utilizados na
síntese de sinais por meio de impulsos periódicos, mais próximos estes ficarão, sonoramente,
a)
b)
c)
d)
n
Am
plitu
de
Am
plitu
de
Am
plitu
de
Am
plitu
de
51
do sinal originalmente gravado, porém com o custo de mais tempo ser exigido para o sistema
calcular tais coeficientes, tornando-o muito mais lento. Quantificando, o tempo gasto por um
computador com processador Pentium IV de 2.8GHz calcular 10 coeficientes de predição e
sintetizar um sinal a partir de uma seqüência impulsiva periódica e a partir de ruído branco
para um sinal de 2 segundos de duração é inferior a 1 segundo. Já para se calcular 160
coeficientes de predição para o mesmo sinal são necessários aproximadamente 5 segundos.
52
6 CONCLUSÕES
Neste trabalho, estudou-se técnicas de predição e síntese dos sinais de voz.
Para isso, foram abordados temas de processamento digital de sinais tendo como objetivo
entender conceitos importantes de como os sinais são discretizados e processados.
Através dos resultados obtidos nas simulações de predição pôde-se constatar
como o sinal era afetado pelo número de bits utilizados na digitalização do erro. Pôde-se
perceber através dos dados e gráficos apresentados, a variação da qualidade do sinal
reconstruído na transmissão do sinal de erro.
Como resultados desta simulação constatou-se a economia de banda na
transmissão do sinal ao utilizar-se essa técnica, e que diversos tipos de sinais podem utilizar
esta mesma técnica para serem transmitidos.
Nos resultados obtidos na simulação da síntese foram constatados os efeitos da
geração de voz a partir de um ruído branco ou de uma seqüência de pulsos periódicos,
observando a importância da escolha do sinal de excitação correto para o sinal sintetizado.
Constatou-se que a freqüência do pitch a ser utilizado para sinais sintetizados
por meio de seqüência periódica de impulsos pode variar de acordo com o falante pois está
diretamente relacionada com a freqüência de vibração das cordas vocais.
Existem trabalhos acerca de métodos para determinação automática do pitch e
escolha mais adequada para a síntese de sinais, seja utilizando ruído branco ou seqüência
impulsiva periódica como excitação, isto é, como sinal de entrada de um filtro que simule o
trato vocal (DONG, 2006).
Nestas simulações também foi analisada a influência do número de
coeficientes na síntese do sinal, constatando-se que quanto maior este número, mais lento se
torna o sistema, podendo torná-lo inadequado para aplicações em tempo real.
53
Do assunto tratado neste trabalho pode-se ter como fruto aplicações sociais
como dispositivos de leitura para deficientes visuais, por meio de conversão texto – voz,
vocalizadores artificiais para deficientes de fala e sintetizadores de voz para conversação via
aparelhos telefônicos.
Em trabalhos futuros, os autores pretendem analisar a escolha automática do
sinal de excitação utilizado para a síntese de sinais de voz, estudar algoritmos dedicados ao
cálculo do pitch, além de avaliar uma solução para a decisão do número mais adequado de
coeficientes de predição utilizados como parâmetros do filtro que simula o trato vocal.
54
REFERÊNCIAS
ABRANTES, S. A. Processamento adaptativo de sinais. Lisboa: Fundação Calouste Gulbenkian, 2000. CARLSON, R. Models of Speech Synthesis; Proceedings of the National Academy of Sciences, USA. V. 92, Outubro 1995 P. 9932 - 9937 DONG, W.; An Algorithm for Voiced / Unvoiced Decision And Pitch Estimation in Speech Feature Extraction. International Symposium on Chinese Spoken Language Processing (ISCSLP), August 2002 DINIZ, P. S. R.; SILVA, E. A. B.; LIMA NETTO, S. Processamento digital de sinais: projeto e análise de sistemas. Porto Alegre: Bookman, 2004. FLANAGAN,J.; Research in speech communication; Proceedings of the National Academy of Sciences, USA. V. 92, Outubro 1995 P. 9938 - 9945 GIROD, B.; RABENSTEIN, R.; STENGER, A. Sinais e sistemas. Porto Alegre: LTC - Livros Técnicos e Científicos, 2003. GREGORIM, C. O. MICHAELIS PORTUGUÊS – GRAMÁTICA PRÁTICA, 2002 : Ed. Melhoramentos HAYES, M. H. Schaum's outline of theory and problems of digital signal processing. New York: McGraw-Hill, c1999. HAYKIN, S.; VAN VEEN, B.. Sinais e Sistemas. Porto alegre: Bookman, 2001 LATHI, B. P. Modern digital and analog communication systems. 3ª ed. New York: Oxford University Press, 1998. MCCLELLAN, J. H.; et al. Computer-Based Exercises for Signal Processing using MatLab5: Prentice Hall, 1998. PICKETT, J. M. Acoustics Of Speech Communication: Fundamentals, Speech Perception Theory, And Technology. 2ª ed. New Jersey: Prentice Hall. 1999. PROAKIS, J. G.; MANOLAKIS, D. G. Digital signal processing: principles, algorithms, and applications . 3ª ed. Upper Saddle River: Prentice Hall, 1996. RABINER, L.R.; SCHAFER, R.W.; Digital techniques for computer voice response: Implementations and applications. Proceedings of the IEEE, V. 64, Abril 1978 SADAOKI, F.; Toward the ultimate synthesis / recognition system; Proceedings pf the National Academy of Sciences, USA. V. 92, Outubro 1995. P. 10040 - 10045
55
SENDA, A.. Reconhecimento de fonemas da língua portuguesa da região de São Paulo. 2005. Trabalho de Conclusão de Curso (Graduação em Engenharia Elétrica) – Universidade Presbiteriana Mackenzie, São Paulo, 2005. SIMÕES, F.O.. Implementação de um Sistema de Conversão Texto-Fala para o Português do Brasil. 1999. 204f. Dissertação (Mestrado em Engenharia Elétrica)-Universidade Estadual de Campinas, Campinas, São Paulo, 1999. SMITH, S. W. The Scinentist and Engineer’s Guide to Digital Signal Processing. California Technical Publishing. 1997. STONICK,V.; BRADLEY, K.. Labs for Signals and Systems Using MatLab, cap. 6. PWS Publishing Company1996.