algoritmos de supressao de silencio em aplicacoes de voip

Avaliao de Algoritmos para Supresso de Silncio em Aplicaes de VoIP

Ricardo Becker [email protected]

Guilherme Corsetti [email protected]

Moiss Coster [email protected]

Fladhimyr C. Castello [email protected]

Ricardo Balbinot [email protected]

Jorge Guedes Silveira

[email protected]

Grupo de Pesquisas Avanadas em Redes de Comunicao & Tecnologia da Informao (GPARC&TI)

Departamento de Engenharia Eltrica, Pontifcia Universidade Catlica do Rio Grande do Sul, Porto Alegre, Rio Grande do Sul, Brasil

Abstract

The objective of this paper is to perform tests with Voice Activity Detection (VAD) in time domain and frequency domain using techniques of detection and suppression of silence for Voice over Internet Protocol (VoIP) applications, measuring and obtaining a satisfactory performance for silence suppression in voice communications over internet. In this article we made considerations about the properties to measuring of talk spurts, techniques used and your results in a simulation desk and also the future perspectives of applications in a VoIP context.

1. Introduo

A necessidade de economia de banda em redes de transmisso de voz se faz cada vez mais necessria considerando o grande aumento na troca de informaes entre as pessoas e os custos associados implantao dos sistemas de transmisso. Quando nos referimos especificamente a sistemas de voz sobre IP (VoIP Voice over IP), a necessidade a mesma. Foi constatado que durante uma conversao mdia entre duas pessoas, cada pessoa fala apenas de 35% a 50% do tempo total [1,2,3]. Isto leva a pensar no desperdcio de banda ocasionado na rede IP pela transmisso de perodos de silncio. Neste momento, encontramos uma oportunidade para o desenvolvimento e aplicao das tcnicas de deteco e supresso de silncio em chamadas telefnicas.

A economia de banda em sistemas de VoIP, especialmente quando consideradas as aplicaes em tempo real e em redes de capacidade de transmisso limitada, faz-se necessria principalmente devido a

sobrecarga que a transmisso de voz sobre datagramas causa (overhead do cabealho IP). O foco nessa situao fazer com que o detector de silncio identifique a inatividade de voz, e evite a transmisso de um datagrama que no possui informao significativa para a aplicao.

O objetivo deste trabalho avaliar o desempenho de seis algoritmos de deteco de silncio (VAD- Voice Activity Detection) utilizando tcnicas para aplicaes de VoIP, obtendo resultados satisfatrios para a supresso do silncio que combinem uma qualidade aceitvel de comunicao e uma baixa complexidade computacional.

VAD definido como o processo de separao de trechos de uma conversao em segmentos de voz ou no. Para o reconhecimento dos seguimentos de voz ou no, o nvel de energia, os picos de fala, o nmero de cruzamentos do zero e propriedades estatsticas e de espectro do sinal so usualmente consideradas [4].

Na continuao deste trabalho so abordadas questes a respeito dos mtodos, parmetros e algoritmos utilizados para a determinao da presena ou no de voz em determinado perodo de udio. Tambm so apresentadas algumas caractersticas desejadas para os algoritmos, bem como, algumas tcnicas auxiliares que podem facilitar a aplicabilidade das tcnicas, neste trabalho apresentadas, em sistemas de VoIP. Por fim, so descritas as concluses finais, alm de algumas sugestes para trabalhos futuros.

2. Mtodos de deteco de silncio

Para a implementao e avaliao dos seis algoritmos de deteco e supresso de silncio foram consideradas a energia dos pacotes de voz, a taxa de cruzamentos do

O desenvolvimento deste trabalho s foi possvel com o apoio do CNPq, que proveu recursos fsicos e financeiros sob o processo de nmero 552093/2002-5 da chamada conjunta MCT/SEPIN FINEP CNPq 01/2002.

zero, propriedades estatsticas e anlise espectral para a determinao dos segmentos de voz ativa e inativa.

Geralmente o mtodo empregado para a deteco de silncio, consiste na anlise da quantidade de energia em cada pacote de voz como forma de estimativa para a deteco de silncio [5]. Com este mtodo, todo o pacote com uma determinada quantidade de energia abaixo de um determinado valor (limiar de silncio) ser, em alguns casos, reavaliado e se ainda assim, no estiver dentro dos parmetros relevantes para a aplicao, ser considerado silncio e conseqentemente, o pacote no ser transmitido, desta forma proporcionando uma no ocupao de banda da rede.

Para a realizao da anlise de um sinal de voz no que se refere tomada de deciso quanto a sua atividade, foram utilizadas amostras de voz processadas no domnio do tempo simplesmente e em freqncia via transformada DCT (DCT- Discrete Cossine Transform). O fato de se trabalhar a anlise nos dois domnios tem por objetivo avaliar e comparar os desempenhos dos algoritmos no que est relacionado a sua aplicabilidade em sistemas de VoIP. Como itens a serem considerados a fim de determinar a aplicabilidade de cada algoritmo esto avaliao dos tempos de processamento do algoritmo, do percentual de compresso e qualidade subjetiva da voz.

A deteco do silncio e a sua remoo, no se referem apenas ao silncio que ocorre quando uma das partes em uma conversao (locutor e ouvinte) est em silncio ou entre pequenos intervalos de fala, mas inclusive pausas entre palavras e slabas. A remoo destes perodos de silncio, especialmente pausas entre palavras e slabas merecem especial cuidado na implementao das tcnicas de deteco e supresso de silncio. Algoritmos de VAD necessitam ser bastante especficos em suas rotinas. Isto se faz indispensvel para que no sejam causados problemas de perda de qualidade da voz, dentre estes problemas, o efeito de clipping ocasionado na reproduo da voz e a no deteco de sons fricativos.

O efeito de clipping causa interrupes abruptas da fala, como o corte sbito do udio no meio de uma letra, por exemplo, podendo degradar de forma drstica a qualidade da voz a ser transmitida. J sons fricativos so produzidos pela formao de uma constrio em um ponto do trato vocal e pela expulso de ar por esta constrio, criando uma turbulncia que produz uma fonte de rudo para excitar o trato vocal [6]. Em termos simples, isto ocasiona uma grande quantidade de inverses no sinal da magnitude da amostra de voz devido turbulncia citada.

Para este trabalho convencionou-se que voz ativa so os trechos de fala com contedo relevante, palavras, slabas e ou letras da conversao, e voz inativa so

trechos compostos apenas por rudos no decisivos para a boa compreenso da comunicao. Desta forma, como se observa nas Figuras 1 e 2, pode-se distinguir claramente o que so trechos de voz ativa e inativa, quando feita a visualizao de um perodo de fala submetido a um detector e supressor de silncio.

Figura 1 Perodo de fala sem a atuao de um

supressor de silncio.

Figura 2 - Perodo de fala sob a atuao de um supressor

de silncio.

3. Voice activity detection

VAD o processo de separao da conversao por voz em segmentos de voz ativa ou inativa [5,7]. Desta forma so discriminados quais pacotes de voz sero transmitidos via rede IP e quais sero suprimidos pelo sistema.

Os algoritmos de VAD possuem uma srie de aplicaes dentro da rea de processamento de sinais digitais. No por menos que uma srie de emergentes aplicaes, que envolvem tecnologias de processamento digital de voz, necessitem de solues para a reduo do rudo ambiente, de forma que trabalhem de maneira combinada com precisos algoritmos de VAD [8].

A insero de algoritmos VAD nas aplicaes especficas de voz sobre IP, tem um importante papel no que diz respeito a todo o sistema de comunicao, deste o locutor at o receptor. Podendo as tcnicas de deteco e supresso de silncio, dentro das quais est inserido o VAD, serem o maior benefcio para comunicaes em tempo real via internet quando se faz referncia limitao fsica das redes de pacotes de dados, devido economia de banda que as mesmas podem proporcionar.

4. Aspectos desejveis para algoritmos de VAD

Objetivando a deteco e supresso de silncio em sistemas de comunicao de tempo real via redes IP, existem alguns aspectos desejveis que precisam ser considerados e respeitados quando do uso de algoritmos VAD neste tipo de aplicao, em especial, voz sobre IP. Citam-se alguns destes aspectos [5,9,10]:

Boa regra de deciso: diz respeito ao fato de se explorar algumas propriedades fsicas da voz a fim de dar maior consistncia ao julgamento e classificao dos segmentos do sinal de voz em silncio ou voz.

Adaptabilidade ao rudo varivel: adaptabilidade ao rudo ambiente no estacionrio torna o algoritmo mais robusto permitindo a aplicao do mesmo em ambientes mais especficos.

Baixa complexidade computacional: baixa complexidade computacional exige rapidez e simplicidade do algoritmo a fim de garantir a aplicabilidade em sistemas de tempo real.

Baixa perda de qualidade da voz: o algoritmo necessita acrescentar um mnimo de perdas quando da supresso dos segmentos considerados silncio, do contrrio o sistema se tornar invivel e no comercializvel.

Economia de banda maximizada: objetivo principal do VAD, economizar banda com o fim de tornar viveis as comunicaes de voz em tempo real, via mnima ocupao da rede IP.

O que importante salientar a direta relao que existe entre alguns dos aspectos desejveis para o VAD citados acima. Por exemplo, a relao que se pode fazer entre boa regra de deciso e baixa complexidade computacional, ou baixa perda de qualidade da voz e economia de banda maximizada.

Para a primeira relao, boa regra de deciso e baixa complexidade computacional, faz-se necessrio um meticuloso trabalho para que o algoritmo de VAD possa fazer a anlise de caractersticas fsicas da voz e ainda sim ter uma baixa complexidade. Isto porque a maioria das tcnicas referenciadas nas bibliografias relacionadas, utilizam de uma combinao de algoritmos.

J na segunda relao feita, baixa perda de qualidade da voz e economia de banda maximizada, uma tende a ser o inverso da outra por um lado, e compatveis por outro. Geralmente quanto maior for a economia de banda proporcionada pela deteco do silncio feita pelo VAD, teoricamente mais rpido ser o trfico de pacotes de voz pela rede IP. Mas em outro caso, um percentual muito

elevado de supresso de silncio pode degradar a qualidade da voz suprimindo partes da fala do locutor que seriam importantes para o bom entendimento da conversao por parte do ouvinte.

5. Construo dos pacotes de voz

Para as implementaes dos algoritmos de VAD, alguns parmetros foram estabelecidos no que se refere ao processo de captura e formao dos pacotes de voz a serem processados.

Para a digitalizao do sinal de voz a ser analisado pelas tcnicas de deteco e supresso de silncio implementadas, foi adotada uma freqncia de amostragem de 8kHz, 256 nveis de quantizao linear com codificao PCM [9,10] e 20ms de durao para cada pacotes de voz em um nico canal.

Para a determinao do tamanho dos pacotes de voz, precisam ser levados em considerao alguns aspectos. Como estamos falando de comunicaes em tempo real, os pacotes precisam ser pequenos, em torno de 10 a 20 milessegundos, de forma a facilitar o trfego dos mesmos pela rede evitando assim constantes atrasos e grandes perdas de qualidade quando da perda de pacotes no transporte pela rede IP. Outro aspecto relevante a freqncia de amostragem utilizada pelo sistema. Diferentes freqncias de amostragem iro alterar o nmero de amostras por pacotes, o que certamente eleva o tempo de processamento do mesmo no caso do aumento da freqncia.

A Equao 1 apresenta a frmula para a determinao da quantidade de amostras do pacote de voz a ser processada pelo algoritmo de VAD. Na mesma Equao 1, N representa a quantidade de amostras do pacote, tpacote representa o tempo determinado para o pacote e famostragem a freqncia de amostragem utilizada pelo sistema para a discretizao do sinal de voz.

amostragem

epa

f

tN 1

cot=

Equao 1 Nmero de amostras por pacote de voz

Para os testes e verificaes, foram implementadas seis tcnicas, sendo elas baseadas nas bibliografias consultadas [9,10]. Especificaes de cada tcnica quanto ao domnio de trabalho (tempo ou freqncia) do algoritmo bem como sua base de clculo, alm da adaptabilidade a rudo ambiente inconstante com especificao da regra de adaptao so apresentados na seqncia.

6. Parmetros para a determinao da presena de voz no pacote de udio

Todas as tcnicas de deteco e supresso de silncio necessitam de parmetros para que possam mensurar a existncia ou no de voz em um determinado segmento de fala. Como cita Tanyer [9], para o reconhecimento dos segmentos de voz, em voz ativa ou inativa, as propriedades usualmente utilizadas so o nvel de energia, o pitch da voz, a taxa de cruzamentos do zero, propriedades estatsticas e anlise espectral.

O parmetro mais comum para a avaliao e determinao da existncia ou no de voz o nvel de energia das amostras. As amostras so analisadas uma a uma e no final tirada a energia mdia do pacote de voz, assim como mostra a Equao 2. Nesta Equao, Em a energia mdia do pacote de voz, Eamostra a energia da amostra de voz e N o nmero total de amostras do pacote determinado pela Equao 1.

( )= 10

21 Namostram EN

E

Equao 2 Energia de cada pacote de voz

O pitch a freqncia fundamental de vibrao das cordas vocais. Medidas de picth tem recebido especial ateno na pesquisa de voz. O pitch pode ser determinado no domnio freqncia pelo clculo do espaamento espectral entre picos do espectro ou, no domnio tempo, pela medida direta do perodo da forma de onda da voz [6]. A determinao do pitch e sua utilizao em tcnicas de VAD no sero aprofundadas neste trabalho.

A taxa de cruzamentos do zero se refere quantidade de vezes que o sinal de voz tem o sinal da sua magnitude invertido. Apesar de ser uma estimativa grosseira, em alguns casos pode ser muito eficiente. Como se sabe, a energia dos sons vozeados (ativos) tende a se concentrar abaixo de 3 kHz, enquanto a energia dos fricativos geralmente est concentrada acima de 3 kHz [6]. Deste modo a medida do nmero de cruzamentos de zero pode ser utilizada para decidir se um determinado sinal de voz ativo ou inativo. J Prasad, Sangwan e Chiranth [9], citam que o nmero de cruzamento do zero para um pacote de 10 ms de voz, por exemplo, varia dentro de uma faixa fixa, sendo o valor entre 5 e 15 cruzamentos. Esta faixa fixa foi adotada para fins de implementao desta tcnica neste trabalho.

Para uma avaliao estatstica, diferentes algoritmos podem ser empregados, dentre eles os que utilizam o clculo da varincia, Equao 3, do sinal de voz [9]. Como exemplo, o caso de sinal voz avaliado no domnio das freqncias, a verificao da varincia deste sinal

pode indicar a presena ou no de voz ativa ou inativa. O rudo ambiente tem normalmente uma varincia bastante baixa diferente do sinal ativo de voz, sendo possvel desta forma, fazer a distino. Este algoritmo possui recomendao, na mesma referncia [9], de emprego deste algoritmo para sistemas executados em ambientes com baixa relao sinal rudo.

( ) ( )11.....

2

1

_2_2_

2

2_

12

=

++

+

=

=

n

xx

n

xxxxxxVAR

n

iin

Equao 3 Equao para a determinao da varincia das amostras de cada pacote

Na Equao 3, os termos xn so as amostras distintas do sinal de voz, x barrado a mdia das amostras e n o nmero de amostras.

Para a anlise espectral existem diferentes formas de serem realizadas avaliaes dos sinais de voz para fins de deteco de atividade de voz. Uma destas formas a avaliao da energia por sub-bandas. Isto ocorre de forma que as faixas de maior concentrao das freqncias da voz humana, no caso at 4 kHz, so avaliadas de forma separada de modo a garantir que as principais componentes da voz esto de forma ativa em um determinado pacote. Esta tcnica de deteco e supresso de silncio, apresentada de forma ilustrativa na Figura 3.

Figura 3 Avaliao do sinal de voz por sub-bandas [9]

7. Transformao do domnio tempo para freqncia

Como se pode perceber pelos itens anteriores deste trabalho, algumas so as tcnicas para a deteco do silncio e sua supresso, executadas no domnio da freqncia. Partindo do fato de que o sistema recebe um sinal de voz, a ser processado, no domnio do tempo, precisa-se ento, transforma-lo para o domnio freqncia de forma a executar tais manipulaes.

Para este trabalho a transformao do domnio tempo

para a freqncia se d pela implementao da DCT (DCT Discret Cossine Transform).

A DCT, Equao 4 e Equao 5, uma ferramenta matemtica que possui muitas aplicaes para a eletrnica, de filtros de udio compresso de vdeo. A DCT transforma a informao do domnio espacial ou temporal para o domnio freqncia, sobre o qual fica mais adequada a aplicao de algumas ferramentas.

=

=1

0)(1)0(

N

xxf

NC

Equao 4 Equao para a determinao da 1a componente da DCT

Nuxxf

NuC

N

x 2)12(cos)(2)(

1

0

+= =

Equao 5 Equao para a determinao das demais componentes da DCT

Para u = 0, 1, 2, ..., N-1.

A utilizao da DCT para sistemas de transmisso de voz em tempo real sobre redes IP, sugerida pela bibliografia [9], devido ao fato da mesma, conforme o autor, possuir baixa complexidade computacional. Outra caracterstica vlida a facilidade de compreenso e uso desta transformada por se trabalhar apenas no conjunto dos nmeros reais.

8. Determinao do limiar de silncio

A escolha do limiar de silncio, ou threshold do ambiente ponto crucial para a construo de um detector de atividade de voz [11].Uma boa escolha do limiar de silncio a indicao de um eficiente detector, podendo ter como limiar um valor fixo, (Figura 4) ou um valor varivel, sendo este segundo, dependente das condies do rudo ambiente. Conforme Benyassine cita [12], o rudo ambiente pode mudar consideravelmente entre diferentes conversaes ou gravaes, bem como a durao e o local da conversa, sendo desde uma sala silenciosa at o rudo das ruas ou de um carro em movimento.

Figura 4 Representao do limiar de silncio fixo

junto a energia dos segmentos de fala

Como citado por Renevey e Drygajlo em [5], o limiar de silncio aplicado sobre os parmetros extrados do sinal de voz e na seqncia este mesmo sinal dividido em segmentos de fala e rudo. Este limiar pode ser fixo ao logo da conversao, ou adaptativo conforme a variao do rudo ambiente.

Para o caso do limiar de silncio com valor fixo, um valor pr-determinado, ou pelo usurio ou pelo sistema, fica sendo o limite entre o que considerada voz ativa ou inativa em uma conversao. Sendo algoritmos de VAD, em grande parte, baseados no clculo da energia do sinal de voz [5], as referncias [9,10,13] citam que a determinao do limiar de silncio inicial pode ser feita atravs da utilizao da energia de amostras que contenham apenas rudo ambiente. Ainda [9,10,13], citam tambm que para a obteno da energia do rudo podem ser usados dois mtodos.

O primeiro mtodo consiste no treinamento do algoritmo de VAD, de forma que ele calcule a energia de pacotes que contenham apenas sons de rudo ambiente, de forma que o valor de energia encontrado para estes pacotes ser o utilizado como limiar de silncio para o restante dos pacotes no caso de um limiar fixo, j no caso de um limiar adaptvel, este ser apenas o valor inicial. O outro mtodo assume que os primeiros 200 milessegundos de uma comunicao via um sistema de VoIP, so apenas rudo ambiente, de maneira que a energia encontrada nestes primeiros 200 milessegundos ser utilizado da mesma forma que no metodo anterior.

O que tem se verificado [8,5,12,7,9,12,13,14] que a forma mais eficiente para a determinao do valor do limiar de silncio, especialmente em ambientes com grande variao do rudo ambiente, quando da utilizao de algoritmos adaptativos. Os procedimentos adaptativos consistem principalmente de dois passos [14]: deciso e adaptao. A deciso, no caso de algoritmos de VAD baseados no clculo da energia, consiste na comparao entre a energia do sinal de voz e a energia do limiar de silncio. J a adaptao do algoritmo pode ser feita por diversas formas, algumas destas formas a serem abordadas nas implementaes deste trabalho.

9. Tcnicas auxiliares

As tcnicas auxiliares visam dar suporte aos algoritmos de VAD de forma a garantir que no haja degradao significativa da voz que entregue ao usurio.

Como tcnicas auxiliares fundamentais para o bom funcionamento das tcnicas de deteco e supresso de silncio esto a tcnica de hangover, o recobrimento por rudo de conforto e a utilizao de algoritmos de controle automtico de ganho.

9.1 Hangover

Hangover uma tcnica para evitar o sbito clipping da voz, quando da utilizao de tcnicas de deteco e supresso de silncio, funcionando como uma histerese [13], ou uma pequena ligao entre trechos da fala, especialmente consoantes que seriam suprimidas. Dentro do tempo de hangover, mesmo que haja um pacote de voz considerado silncio, este ser considerado parte do ltimo trecho de fala, e se dentro deste mesmo tempo de hangover um pacote ativo de voz detectado, o tempo de hangover renovado [15].

O que se verifica em [15] que o tempo de hangover pode ser determinado por um limitado nmero de pacotes que no total iro perfazer um determinado tempo. Por exemplo, para o caso de um tempo de hangover com cinco pacotes de voz, sendo os pacotes de 20 milessegundo, teremos um tempo de 100 milessegundos de tempo de hangover.

9.2 Rudo de conforto

Para sistemas de VoIP, a gerao de rudo de conforto funciona como uma forma de preenchimento dos espaos criados, pelo supressor de silncio, entre os pacotes considerados ativos. Como cita Benyassine [12], algoritmos de VAD so usualmente combinados com um CNG (CNG Confort Noise Generator), gerador de rudo de conforto, o qual tenta gerar rudo equivalente ao do ambiente para o ouvinte durante os perodos de silncio do locutor.

O funcionamento do CNG ocorre no lado do ouvinte, ficando geralmente atrelado existncia do algoritmo no codificador do mesmo, ou no lado do locutor que pode transmitir via Payload de Confort Noise [16] quando da utilizao do protocolo RTP (RTP Real Time Transport Protocol). O CNG acionado no receptor quando o mesmo recebe um pacote de dados proveniente do locutor informando a deteco de silncio junto ao mesmo, de forma que o rudo ser gerado at o momento do recebimento de um novo pacote ativo de voz.

9.3 Controle automtico de ganho

O controle automtico de ganho um compensador para diferentes intensidades de som no microfone devido as diferentes distncias que podem haver entre o microfone e a boca do locutor. Um controle rpido e robusto permite uma compensao instantnea de diferentes intensidades de som.

Em sistemas de VoIP os algoritmos de controle automtico de ganho desempenham uma importante funo na manuteno da estabilidade do nvel sonoro que processado pelo sistema. Isto porque, por exemplo, os

algoritmos de VAD, podem perder sua funcionalidade quando os nveis sonoros tornam-se muito altos, e em caso de nveis sonoros muito baixos, os algoritmos podem degradar completamente a voz.

10. Algoritmos no domnio do tempo

LED (Linear Energy Based Detector) uma tcnica adaptativa, baseada no domnio do tempo e que tem como base de clculo do algoritmo a energia do sinal de voz. Possui uma caracterstica adaptativa (Equao 6) a qual faz a soma de percentual do pacote atual com do ltimo pacote considerado inativo para fins de atualizao do limiar de silncio [4].

Energy_newpEnergy_oldp)-(1 +=ThresholdEquao 6 Equao para adaptao do limiar de silncio

a variao do rudo ambiente

A determinao do threshold adaptativo na tcnica LED dada pela Equao 6, onde Energy_new a energia do pacote de voz atual, Energy_old a energia do ltimo pacote de voz considerado silncio, antes do atual. O parmetro p o ndice que determina o passo de adaptao, podendo variar de 0 a 1.

ALED (Adaptative Linear Energy-Based Detector) tcnica que utiliza dos mesmos artifcios da LED, com exceo sua adaptabilidade, a qual o ndice p, antes determinado pelo usurio, o resultado da comparao, da razo da varincia da energia do pacote atual com a varincia da energia do ltimo pacote considerado silncio, com a tabela-1.

25,1OLD

NEW

0,25

10,125,1 OLD

NEW

0,20

00,110,1 OLD

NEW

0,15

OLD

NEW

00,1 0,10

Tabela-1: Valores de p dependentes de OLD

NEW

WFD (Weak Fricatives Detector) esta tcnica se diferencia das anteriores por no ser exclusivamente baseada na energia do sinal de voz. Esta tcnica vem a ser um artifcio estatstico para a deteco de alguns fonemas que possuam uma reduzida energia atravs da contagem

do nmero de cruzamentos do zero que o sinal apresenta em um determinado tempo, no caso 20ms, para um sinal amostrado a 8 kHz, sendo que para considerao de pacote ativo devem haver de dez a trinta cruzamentos.

11. Algoritmos no domnio freqncia

DCTLSED (DCT Linear Sub-Band Energy Detector) este algoritmo, baseado no domnio freqncia, tem sua tomada de deciso para a determinao do pacote ativo ou no baseado na diviso do sinal em quatro sub-bandas de 1kHz cada. Outra caracterstica a adaptabilidade ao rudo ambiente, fazendo uso da equao-1 para a atualizao do threshold por sub-banda.

DCTSFD (DCT Spectral Flatness Detector) algoritmo implementado no domnio freqncia com a finalidade de garantir que pacotes de voz com baixo SNR no sejam perdidos. Seu funcionamento baseado na comparao da varincia da energia do pacote atual de voz com a varincia do rudo ambiente, equao 7. Sua adaptabilidade ao rudo dada pela equao 8. O ndice p determinado pelo usurio do sistema.

arSilncioarVoz VV Equao 7 Comparao entre as varincias dos

pacotes de voz e de silncio1

arVozarSilncioarSilncio VpVp)-(1V +=Equao 8 - Equao para adaptao da varincia do rudo

conforme alteraes do mesmo no ambiente

DCTCVAD (DCT Comprehensive VAD) algoritmo que trabalha com uma combinao de algumas das implementaes anteriores. Utiliza da avaliao da energia do sinal por sub-bandas, caso seja o pacote inativo feito o teste do nmero de cruzamentos do zero, e caso

Figura 5 Fluxo de deciso do CVAD [9].

1 Silncio neste caso, referncia o rudo ambiente.

ainda sim seja inativo, ser feita a verificao pela varincia da energia do pacote. Este algoritmo tem sua base de clculo no domnio freqncia, e utiliza da adaptabilidade da Equao 6 por sub-banda.

12. Resultados e concluses

Os resultados das implementaes feitas podem ser visualizadas na figura 6, onde apresentado um comparativo entre as tcnicas de VAD.

Figura 6: Percentual de Supresso x Tcnicas

Implementadas

Para obteno destes dados, foram entrevistadas dez pessoas de ambos os sexos de forma que respondessem sim para uma boa qualidade da voz e no para m qualidade de voz aps ouvirem uma amostra gravada de voz. Esta amostra era apresentada aos entrevistados no seu formato original de gravao e posteriormente mesma amostra sob a ao das tcnicas de deteco e supresso de silncio. O percentual de supresso de silncio foi alterado at o estabelecimento de um limite do que seria uma boa qualidade subjetiva e um bom percentual de supresso de silncio. Por fim foi calculada a mdia do que foi considerado como satisfatrio entre os entrevistados.

Para os testes realizados neste trabalho, foram utilizadas das tcnicas auxiliares de hangover, fixada em 3 pacotes de recobrimento e substituio dos demais pacotes suprimidos pelos algoritmos de VAD por rudo de conforto. A utilizao destas duas tcnicas aumentou significativamente a qualidade percebida pelos ouvintes.

Em comparao com os resultados apresentados em [9], as tcnicas implementadas no domnio freqncia apresentaram um percentual de supresso menor. Em contrapartida, as tcnicas implementadas no domnio tempo apresentaram uma relao percentual de supresso versus qualidade subjetiva bem maior do que as referncias [9,10] indicam. Destacando que as mesmas

referncias no apontam utilizao de nenhuma das tcnicas auxiliares descritas neste trabalho.

Quanto aplicabilidade destes algoritmos para aplicaes de voz em tempo real, no caso especfico de tempo de processamento para sistemas de VoIP, as tcnicas implementadas no domnio tempo apresentam um bom resultado, algo em torno de 80 microssegundos de processamento de cada pacote. J para as tcnicas implementadas no domnio da freqncia, sempre em torno de trs milessegundos.

13. Trabalhos futuros

Como futuros trabalhos no que tange a continuidade das implementaes das tcnicas de deteco e supresso de silncio, est a construo das classes bases de deteco e supresso de silncio, as classes de gerao de rudo de conforto e a integrao das mesmas no cliente de voz sobre IP a ser desenvolvido por este grupo de trabalho.

Tambm como trabalho futuro est a implementao de um algoritmo de controle automtico de ganho a fim de garantir uma melhora na qualidade na captura do udio para o melhor funcionamento das tcnicas de deteco e supresso.

Aps a construo das classes e implementao do algoritmo de controle de ganho, sero ento feitos testes de qualidade com as tcnicas implementadas seguindo a recomendao P.800 (MOS Mean Opinion Score) do ITU-T, alm dos testes em ambiente de rede no ideal.

14. Bibliografia

[1] Monteiro, R. F.; Errico, L.; Yehia, H. C.: Implementao de Transporte Robusto de Voz em Redes Baseadas em Protocolos IP. XVIII SBRC. Belo Horizonte, 2002.

[2] Kondoz, A.M.; Evans, B.G.: A High Quality Voice Coder With Integrates Echo Canceller and Voice Activity Detector for VSAT Systems. Center for Satellite Engeneering Research. University of Surrey. 200.

[3] Rabiner, L., R.; Schafer, R. W.: Digital Processing of Speech Sinals. Prentice-Hall, Inc., Englewood Cliffs, New Jersey, 1978.

[4] Tanyer, S.G.; Ozer,H. Voice Activity Detection in Nonstacionary Gaussian Noise, Ankara, Turkey. ICSP98

[5] Renevey, P; Drygajlo, A: Entropy Based Voice Activity Detection in Very Noisy Conditions. European Conference on Speech Communication and Technology, Aalborg, Denmark, September 2001, vol. 3, pp. 18831886

[6] Rodrigues, S. L.: Implementao e Avaliao do Desempenho de um Sistema Automtico de Reconhecimento de Locutor pela Anlise de Frases Curtas. Tese (Mestrado em

Engenharia), ITA Instituto Militar de Engenharia, Rio de Janeiro, 1988.

[7] Tanyer, S.G.; zer, H.: Voice activity Detection in Nonstationary Gaussian Noise, Eusipco-98, Island of Rhodes, Greece, 1998.

[8] Ramirez, J.; Segura, J. C.; Benitez, C.; Torre, .; Rubio, A.: Efficient Voice Activity Detection Algoritms Using Long-term Speech Information, Dept. of Eletronics and Computer Tecnology, University of Granada, 2002.

[9] Prasad, R.V.; Sangwan, A. Chiranth, M. C. Sah.: Comparation of Voice Activity Detection Algoritms for VoIP. IEEE, Bangalore India, 2002.

[10] Sangwan, A.; Chiranth, M. C.; Jamadagni, H. S.; Sah, R.; Prasad, R. V.: VAD Techniques for Real-Time Speech Transmission on the Internet. High Speed Networks and Multimedia Communications 5th IEEE International Conference on, Jeju Island, S. KOREA, 2002.

[11] Balbinot, R; Silveira, J. G.; Castello, F. C.; Santos, P. M.; Quadra, A. S.: Voz sobre IP Tecnologia e tendncias. SBT 2004. Belm, Brasil, 2004.

[12] Benyassine, A.; Shlomot, E.; Su, H.; Yuen, E.: A Robust Low Complexity Voice Activity Detection Algorithm for Speech Communication System. IEEE Workshop on Speech Coding, Pocono Manor, Pennsylvania, USA, 1997.

[13] Sangwan, A.; Jamadagni, H. S.; Chiranth, M. C.; Sah, R.; Prasad, R. V.; Gaurav, V.: Second and Third Order Adaptable Threshold for VAD in VoIP. ICSP-02, Beijing, CHINA. 2002.

[14] Zhang, J.; Ward, W.; Pellom, B.: Phone Based Voice Activity Detection Using Online Bayesian Adaptation with Conjugate Normal Distributions. ICASSP'2002, Orlando Florida, 2002.

[15] Jiang, W; Schulzrine, H.: Analysis of on-off Patters in VoIP and Their Effect on Voice Traffic Aggregation, IEEE, Department of Computer Science. Columbia University, 2000.

[16] RFC 3389 Payload of Comfort Noise. Setembro de 2002.

algoritmos de supressao de silencio em aplicacoes de voip

Documents