características do sinal de voz - radio.lx.it.ptradio.lx.it.pt/stg/stg0405acetatos4.pdf · humana...

27
Características do sinal de voz Análise na frequência: a voz apresenta um conteúdo espectral que vai de 20 Hz a 20 kHz; os sons vozeados ou nasais (e.g. vogais e algumas consoantes j, l, m) apresentam um espectro discreto com uma frequência fundamental de 100 a 200 Hz nos homens e 200 a 400 Hz nas mulheres; os sons não vozeados (e.g. f, s, p, ch) que são gerados pelo fluxo de ar na boca modulado pelos maxilares, língua e lábios apresentam uma variação aleatória. O seu espectro é contínuo; 500 3500 Hz Energia (dB) Discurso de voz básico Emoção 25 5 as frequências mais baixas transportam a energia do sinal e as mais elevadas a emoção.

Upload: phamphuc

Post on 10-Nov-2018

214 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Características do sinal de voz - radio.lx.it.ptradio.lx.it.pt/STG/STG0405acetatos4.pdf · humana B a n d a d e g u a r d a B a n d a d e g u a r d a. Transmissão digital de sinais

Características do sinal de voz

• Análise na frequência:– a voz apresenta um conteúdo espectral que vai de 20 Hz a 20 kHz;– os sons vozeados ou nasais (e.g. vogais e algumas consoantes j, l, m)

apresentam um espectro discreto com uma frequência fundamental de 100 a 200 Hz nos homens e 200 a 400 Hz nas mulheres;

– os sons não vozeados (e.g. f, s, p, ch) que são gerados pelo fluxo de ar na boca modulado pelos maxilares, língua e lábios apresentam uma variaçãoaleatória. O seu espectro é contínuo;

500 3500 Hz

Ene

rgia

(dB

) Discurso de voz básico

Emoção

25

5

– as frequências mais baixastransportam a energia do sinal e as mais elevadas a emoção.

Page 2: Características do sinal de voz - radio.lx.it.ptradio.lx.it.pt/STG/STG0405acetatos4.pdf · humana B a n d a d e g u a r d a B a n d a d e g u a r d a. Transmissão digital de sinais

Características do sinal de voz (cont.)

• Análise no tempo:– várias sílabas por segundo;– a fala concentra-se em intervalos de duração aleatória (com média de

cerca de 1 seg.) separados por intervalos de duração aleatória (superior a 100 ms, quando se está a falar) � variação temporal bastante irregular e aleatória;

– o sinal de voz só está presente, em média, em 40% do tempo. Pode-se aproveitar este facto para intercalar outras conversações (sistema TASI -time assignement speech interpolation).

Page 3: Características do sinal de voz - radio.lx.it.ptradio.lx.it.pt/STG/STG0405acetatos4.pdf · humana B a n d a d e g u a r d a B a n d a d e g u a r d a. Transmissão digital de sinais

Caracterização do sistema auditivo

• Um indivíduo normal com idade compreendida entre os 18 e 25 anos écapaz de detectar sons puros entre 20 Hz e 20 kHz;

• Com a idade, o limite superior da frequência audível reduz-se significativamente, e.g. em média um homem de 65 anos tem a 8 kHz uma perda de sensibilidade de 40 dB;

• A sensibilidade do ouvido varia com a frequência e com a intensidadesonora. Este aspecto terá de se reflectir na análise do desempenho das redes telefónicas, em particular na medida da potência do ruído: potência psofométrica (dBmp)Ruído branco (0-4000Hz) -3.6dB; (300-3400Hz) -2.5dB

• O ouvido tem uma elevada gama dinâmica, com valores que podem iracima dos 100 dB. Para uma boa reprodução basta valores da ordemdos 30 dB.

Page 4: Características do sinal de voz - radio.lx.it.ptradio.lx.it.pt/STG/STG0405acetatos4.pdf · humana B a n d a d e g u a r d a B a n d a d e g u a r d a. Transmissão digital de sinais

Banda de frequências normalizada para a voz

• As recomendações G.132 e G.151 do ITU-T indicam a banda atribuídaao sinal de voz de 300 - 3400 Hz;

• Nos EUA a banda de frequências atribuída para um canal de voz é 200 - 3200 Hz;

• Estas larguras de banda resultam de um compromisso entre o que os assinantes telefónicos pretendem e o que lhes pode ser fornecidoeconomicamente.

300 3400 Hz

Largura de banda total, 4 kHz

Banda dos sinais de vozhumana

Band a de gu arda

Ban

d a d

e gu

arda

Page 5: Características do sinal de voz - radio.lx.it.ptradio.lx.it.pt/STG/STG0405acetatos4.pdf · humana B a n d a d e g u a r d a B a n d a d e g u a r d a. Transmissão digital de sinais

Transmissão digital de sinais analógicos

Fonte de informação Transdutor Amostrador Quantificador Codificador

de fonte

Descodificadorde fonte

ConversorD/A

TransdutorDestino

Fluxo de bits codificados

e.g. microfone

Transforma o sinal da fontenum sinal eléctrico

e.g. auscultador

e.g. pessoa a falar

e.g. ouvido da pessoa

Page 6: Características do sinal de voz - radio.lx.it.ptradio.lx.it.pt/STG/STG0405acetatos4.pdf · humana B a n d a d e g u a r d a B a n d a d e g u a r d a. Transmissão digital de sinais

PCM - Pulse Code Modulation- Diagrama de blocos -

F Hz

Filtro passa-baixo Quantificador de L níveis

s(t) s(iT)

fs = 2F

Entrada analógica

F Hz

CodificadorCanal de tx Descodificador

s(t) (estimativa)

Conversão das amostras num conjunto de amplitudes

discretas � Errode quantificação

Palavras de Nb bits, Nb=log2L

Filtro passa-baixo

Circuito de amostragem e

retenção

Page 7: Características do sinal de voz - radio.lx.it.ptradio.lx.it.pt/STG/STG0405acetatos4.pdf · humana B a n d a d e g u a r d a B a n d a d e g u a r d a. Transmissão digital de sinais

PCM - Pulse Code Modulation- Exemplo -

1.4

3.32.2

4.1

1.1

2.8 2.4

4.6

3.0

Ts

1

32

4

1

32

5

3

001 011 010 100 001 011 010 101 011

Sinal original

Resultado da amostragem

Resultado da quantificação pelointeiro mais próximo

Resultado da codificação(palavra binária), i.e. sinalPCM

Page 8: Características do sinal de voz - radio.lx.it.ptradio.lx.it.pt/STG/STG0405acetatos4.pdf · humana B a n d a d e g u a r d a B a n d a d e g u a r d a. Transmissão digital de sinais

Amostragem

• A base do PCM começa com o Teorema da Amostragem:– Um sinal de banda limitada pode ser representado pelas suas amostras obtidas a um

ritmo fs que deve ser pelo menos igual ao dobro da frequência máxima presente no sinal (F), i.e. fs ≥ 2F.

-F F ft

g(t) G(f)Transformadade Fourier

Domínio do tempo: Domínio da frequência:

gs(t)

Ts

t -F F f

Gs(f)Resposta do filtro

do receptor

fs=1/Ts

fs 2fs0-fs-2fs

Se fs = 2F (Ritmo de Nyquist):

Considerações:• Sinal g(t) tem uma largura de banda finita (F Hz) - Na prática não se verifica �Aliasing• As amostras são retiradas com pulsos de largura infinitésimal• Filtro passa-baixo ideal

Page 9: Características do sinal de voz - radio.lx.it.ptradio.lx.it.pt/STG/STG0405acetatos4.pdf · humana B a n d a d e g u a r d a B a n d a d e g u a r d a. Transmissão digital de sinais

Quantificação

• A quantificação converte um sinal contínuo em amplitude num sinaldiscreto em amplitude. Notar que o processo de amostragem converteum sinal contínuo no tempo num sinal discreto no tempo - Pulse Amplitude Modulation (PAM).

x, entrada

y=F(x), saída

x0 x1 x2

yi

xixi-1

q

Característica do quantificador linear ou uniforme:

Erro = y-x = εq

xxN

x0

Erro de sobrecarga Erro de sobrecargaErro de quantificação

Característica do erro:

limiares de decisão

NOTA: Quando o valor de entrada está entrexi-1 e xi o quantificador irá produzir o valor yi

O erro está limitado a q/2Característica ideal

Page 10: Características do sinal de voz - radio.lx.it.ptradio.lx.it.pt/STG/STG0405acetatos4.pdf · humana B a n d a d e g u a r d a B a n d a d e g u a r d a. Transmissão digital de sinais

Ruído de quantificação

• O desempenho de um quantificador pode ser descrito pela relaçãosinal-ruído de quantificação;

• A potência de ruído de quantificação é descrita em termos estatísticosatravés do erro quadrático médio:

qqqq dp εεεε �+∞

∞−

>=< )(22

�+∞

∞−

=>==<12

1 222 q

dq

n qqqq εεε

• Para uma distribuição uniforme do erro em cada intervalo de quantificação de largura q;

• Para um quantificador linear, todos os intervalos de quantificaçãoapresentam o mesmo erro quadrático médio.

p(εq )

-q/2 q/20 εq

1/q

Page 11: Características do sinal de voz - radio.lx.it.ptradio.lx.it.pt/STG/STG0405acetatos4.pdf · humana B a n d a d e g u a r d a B a n d a d e g u a r d a. Transmissão digital de sinais

Cálculo da relação sinal-ruído de quantificação

• Assume-se que o sinal de entrada é uma sinusóide com amplitude A, logo a potência média desse sinal vem

• A relação sinal-ruído de quantificação, em dB:

• Para PCM uniforme não inferior a 26dB• Número de intervalos de quantificação para uma gama de

quantificação de -Amax a Amax:

• Número de bits por amostra:

( ) 222 Atxs >==<

���

����

�+=��

����

�=��

��

�=

qA

qA

ns

NS

qq102

2

1010 log2078.7122

log10log10

( )qA

qAA

L maxmaxmax 2=−−=

LNL bNb

2log2 =⇔=

Page 12: Características do sinal de voz - radio.lx.it.ptradio.lx.it.pt/STG/STG0405acetatos4.pdf · humana B a n d a d e g u a r d a B a n d a d e g u a r d a. Transmissão digital de sinais

Cálculo da relação sinal-ruído de quantificação (cont.)

• Relação sinal-ruído de quantificação em termos do número de bits, Nb

• Para um determinado nº de bits por amostra constante a relação sinal-ruído de quantificação depende da amplitude A do sinal a quantificar:– sinais com baixa amplitude têm uma relação S/Nq baixa, enquanto os

sinais com amplitude elevada apresentam S/Nq elevadas;– sinais com elevadas amplitudes têm pouca probabilidade de ocorrer e os

sinais com baixas amplitudes ocorrem mais frequentemente.

� PCM uniforme é pouco eficiente.

���

����

�++=

max10log2002.676.1

AA

NNS

bq

Page 13: Características do sinal de voz - radio.lx.it.ptradio.lx.it.pt/STG/STG0405acetatos4.pdf · humana B a n d a d e g u a r d a B a n d a d e g u a r d a. Transmissão digital de sinais

Gama dinâmica

• Conceito: Relação entre a amplitude máxima, Amax, e a amplitude mínima, Amin, em que o sistema deve ser capaz de funcionar com a qualidade mínima

• Se se quiser assegurar uma qualidade S/Nq para toda a gama dinâmica, então o nº de bits necessário deve verificar

• O sistema telefónico deve ser capaz de transmitir uma elevada gama de amplitudes, i.e. deve ter uma gama dinâmica elevada (30 dB é um valor típico).

���

����

�=

min

max10log20

AA

GD

GDNNS

bq

−+= 02.676.1

Page 14: Características do sinal de voz - radio.lx.it.ptradio.lx.it.pt/STG/STG0405acetatos4.pdf · humana B a n d a d e g u a r d a B a n d a d e g u a r d a. Transmissão digital de sinais

Quantificação não-uniforme

• Com quantificação uniforme– gamas dinâmicas elevadas exigem um nº de bits por amostra, Nb, elevado

para garantir uma S/Nq especificada;

Exemplo: GD = 50 dB, S/Nq = 30 dB � 13 bits/amostra• a S/Nq resultante é demasiado elevada para sinais fortes;• clientes diferentes são servidos com qualidade diferente.

Solução: Quantificação não-uniforme

• Para se obter S/Nq independente da amplitude do sinal, o intervalo de quantificação deve ser proporcional à amplitude do sinal.

GDNNS

bq

−+= 02.676.1

Page 15: Características do sinal de voz - radio.lx.it.ptradio.lx.it.pt/STG/STG0405acetatos4.pdf · humana B a n d a d e g u a r d a B a n d a d e g u a r d a. Transmissão digital de sinais

Quantificação não-uniforme (cont.)

• Solução: dividir a amplitude do sinal de entrada em intervalos não-uniformes, i.e. intervalos de quantificação mais largos para os sinais de amplitudes elevadas e intervalos mais estreitos para amplitudes baixas� S/Nq constante para uma característica de quantificação apropriada.

Entrada, x

Saída, F(x)

xjxj-1

Como se realiza esta função ?• Possível solução: compressãodas amostras seguida de quantificação linear.

Característica do quantificador não-uniforme:

Page 16: Características do sinal de voz - radio.lx.it.ptradio.lx.it.pt/STG/STG0405acetatos4.pdf · humana B a n d a d e g u a r d a B a n d a d e g u a r d a. Transmissão digital de sinais

Implementação do quantificador não-uniforme

F(x)

Quantificadorlinear

Compressor

x y Descodificadorlinear

F-1(x)

Expansor

xy

Emissor: Receptor:

Característica normalizada do compressor (só valores positivos):

F(x) = y

q L níveis na gama de -1 a 1: q = 2/L

Declive da característica do compressor(L elevado, q → 0, δxi→ 0)δxi

xi - δxi/2 xi + δxi/2 x

1

10

���

����

�=

dydx

Lxi

2 δxi

NOTA: xi - 1/2δxi ≤ x ≤ xi - 1/2δxiEste sinal x vai ser representadopela amplitude quantificada xi

Page 17: Características do sinal de voz - radio.lx.it.ptradio.lx.it.pt/STG/STG0405acetatos4.pdf · humana B a n d a d e g u a r d a B a n d a d e g u a r d a. Transmissão digital de sinais

Potência do ruído de quantificação não-uniforme

• O erro quadrático médio total é dado, em termos estatísticos, por

( ) ( ) ( ) � � −=

+

− =

≈−>==<2

2

2

1

2

2 1

22i

i

ii

ii

x

xii

L

i

xx

xx

L

iiiqq dxpdxxpxxn

δ

δ

δ

δ

εεε

Contribuição de cada intervalo de quantificação Assume-se que a fdp de x é constante em cada intervalo

( ) ( ) ( ) ( ) ( ) i

L

ii

L

iii

iL

i

iiq xxp

dydx

Lxxp

xxxpn

31

12

12

1

2

21

2

1

3

δδδδ

===���

����

�===

No caso em que L é elevado ( ): ( )dxxpdydx

Lnq �

−���

����

�=

1

1

2

2310 →ixδ

���

����

�=

dydx

Lxi

2 δProbabilidade do sinal x estar

no i-ésimo intervaloNOTA: no caso da quantificação uniforme δxi = qresultando em nq = q2/12

O ruído de quantificação

depende da estatísticado sinal analógico a

discretizar

εi é o erro de quantificaçãodo intervalo i

Page 18: Características do sinal de voz - radio.lx.it.ptradio.lx.it.pt/STG/STG0405acetatos4.pdf · humana B a n d a d e g u a r d a B a n d a d e g u a r d a. Transmissão digital de sinais

Relação sinal-ruído de quantificação

• Potência do sinal (tambémdepende da estatística do sinal):

• Relação sinal-ruído de quantificação:

• Tem interesse em definir-se uma relação sinal-ruído de quantificação independente (da estatística) do sinal de entrada:

( ) xdxpxxs �−

>==<1

1

22

( )

( )dxxpdydx

dxxpxL

ns

q

���

����

�=

1

1

2

1

1

2

23

2

23kL

ns

kxdydx

q

=�=Relação sinal-ruído proporcional ao quadradodo nº de níveis �melhoria de 6 dB por cadabit a mais na codificação

kxdxdy 1= x

ky ln

11+= Compressão logarítmica: característica irrealizável

devido à assimptota vertical para x = 0x = 1 � y = 1

Resolução da eq. diferencial:

Page 19: Características do sinal de voz - radio.lx.it.ptradio.lx.it.pt/STG/STG0405acetatos4.pdf · humana B a n d a d e g u a r d a B a n d a d e g u a r d a. Transmissão digital de sinais

Ganho de compressão / Vantagem de compressão

• Ganho de compressão, relativamente à quantificação uniforme, gc

– Relação sinal-ruído de quantificação não-uniforme:

– Relação sinal-ruído de quantificação uniforme, dy/dx = 1:

• Vantagem de compressão, vc = ganho de compressão para sinais(muito) fracos

( )dxxpdydx

sLns

unq�−−

���

����

�=��

��

� 1

1

223

sLns

uq

23=��

��

( )( ) ( )dxxp

dydx

ns

nsg

uq

unqc �

−���

����

�==1

1

2

1 Depende (da estatística) do sinal e da característica do compressor

( ) ( )xxpx

lim0

δ=→

2

00limlim �

���

�==→→ dx

dygv

xc

xc

Depende unicamente dacaracterística do compressor

Page 20: Características do sinal de voz - radio.lx.it.ptradio.lx.it.pt/STG/STG0405acetatos4.pdf · humana B a n d a d e g u a r d a B a n d a d e g u a r d a. Transmissão digital de sinais

PCM não-linear (leis A e µ)

• Duas implementações de características de compressão logarítmicas– na Europa: lei A

– nos EUA e Japão: lei µ (µ define o grau de compressão e µ = 255 é um valor típico)

( ) ( )

( ) ( )( )

==

��

���

+=�

≤≤��

���

++

≤≤��

���

+=

87.6)( dB 24ln1

log10

11

ln1ln1

sgn

10

ln1sgn 2

10

AVA

AV

xAA

xAx

Ax

A

xAx

y

c

c

( ) ( )( ) ( )

==

���

����

+=�

++

=255) ( dB 3.33

1lnlog10

1ln1ln

sgn

2

10

µµ

µ

µµ

c

c

V

Vxxy

Melhoria de 24 dB nazona das baixasamplitudes em relação àquantificação uniforme

Page 21: Características do sinal de voz - radio.lx.it.ptradio.lx.it.pt/STG/STG0405acetatos4.pdf · humana B a n d a d e g u a r d a B a n d a d e g u a r d a. Transmissão digital de sinais

Quantificação não uniforme usada para a voz

• Numa GD de 40 dB a lei µ tem uma S/Nq maisuniforme que a lei A.

0

10

-60 -50 -40 -30 -20 -100

40

30

20

Limites especificados na Rec. G.712 da ITU-T com ruído gaussiano à entrada

33 dBLei A - 8 bits

Lei µ - 8 bits

Re l

a çã o

s in a

l -ru

ído

de

q ua n

ti fic

a çã o

, S/N

q(d

B)

Nível de entrada (dBm0)

Page 22: Características do sinal de voz - radio.lx.it.ptradio.lx.it.pt/STG/STG0405acetatos4.pdf · humana B a n d a d e g u a r d a B a n d a d e g u a r d a. Transmissão digital de sinais

Técnicas de quantificação não-uniforme

• Compressão e expansão logaritmica analógica (e.g. díodos) seguida de quantificação uniforme com 8 bits,– dificuldade em garantir a reciprocidade exacta das características de

compressão e expansão.

• Compressão aproximada por uma característica segmentada (e perfeitamente adaptada ao processamento digital),– PCM segmentado de 13 segmentos usando a lei A;– PCM segmentado de 15 segmentos usando a lei µ.

Page 23: Características do sinal de voz - radio.lx.it.ptradio.lx.it.pt/STG/STG0405acetatos4.pdf · humana B a n d a d e g u a r d a B a n d a d e g u a r d a. Transmissão digital de sinais

PCM segmentado de 13 segmentos (lei A, A = 87.6, 8 bits)

Nº do segmento

Intervalos de quantificação com larguramaior do que com quantificação linear

Intervalos de quantificaçãocom larguramenor do quecom quantificaçãolinear

1:4

1/2 1

16:1

16:1

8:1

4:1

2:1

1:1

1:2

1/8 1/41/161/321/64

x

y

1

1:1

7

1

5

6

4

3

2

1

Vc = 24 dB (162)

Largura do intervalo de quantificaçãoaumenta 2 vezes de um segmento para o seguinte

Segmento central com declive 16 e redução do declive 2 vezes de cadasegmento para o seguinte

Page 24: Características do sinal de voz - radio.lx.it.ptradio.lx.it.pt/STG/STG0405acetatos4.pdf · humana B a n d a d e g u a r d a B a n d a d e g u a r d a. Transmissão digital de sinais

Tabela de codificação da lei A segmentada

Nº do segmento

gama do sinal

dimensão do passo

código do segmento

código de quantificação

0-2 00002-4 0001

1 00030-32 2 111132-34 0000

00162-64 111164-68 0000

2 4 010124-128 1111128-136 0000

3 8 011248-256 1111256-272 0000

4 16 100496-512 1111512-544 0000

5 32 101992-1024 11111024-1088 0000

6 64 1101984-2048 11112048-2176 0000

7 128 1113968-4096 1111

Estrutura da palavra PCM

P S Q

Polaridade da amostra0 - positiva1 - negativa

Identificador de segmento (de 000

a 111)

Identificador do intervalo (dentro do

segmento) (de 0000 a 1111)

Page 25: Características do sinal de voz - radio.lx.it.ptradio.lx.it.pt/STG/STG0405acetatos4.pdf · humana B a n d a d e g u a r d a B a n d a d e g u a r d a. Transmissão digital de sinais

Requisitos do sinal de voz / Parâmetros típicos do PCM para a voz

• Requisitos para transmissão de voz:– Testes demonstraram que para garantir uma boa qualidade de transmissão

de voz é necessário garantir

– Esta condição deve ser respeitada para uma gama dinâmica da ordem dos 30 dB.

• Características do sistema PCM para a voz:– Frequência de amostragem: 8000 amostras/s– Quantificação não uniforme com L = 256 níveis;– Compressão segundo a lei A com 13 segmentos (Europa) ou lei µ (EUA e

Japão) com 15 segmentos;– palavras PCM de 8 bits;– Ritmo binário: 64 kbit/s.

dB 35dB

≥��

��

qNS

Page 26: Características do sinal de voz - radio.lx.it.ptradio.lx.it.pt/STG/STG0405acetatos4.pdf · humana B a n d a d e g u a r d a B a n d a d e g u a r d a. Transmissão digital de sinais

Multiplexagem no tempo (Time-Division Multiplexing, TDM)

BitsSincr.

Canal K

Canal 2

Canal 1

BitsSincr.

Canal 1

Trama

... ...Multiplexer

TDMDemultiplexer

TDM

Canal 1

Canal 2

Canal K

Canal 1

Canal 2

Canal K

...

b1 b8b2 ... b1 b8b2 ...

Canal 1 Canal 2

b1 b8b2 ... Fb...

Canal 24

193 bits em 125 µs (i.e. 8000 tramas/s) � rb = 1.544 Mbps

Frame bit(Sincronização)

• Exemplo: Estrutura da trama para 24 canais (DS-1)

é o mais pequeno grupo de bits contendopelo menos 1 amostra de cada canal mais os bits de sincronização

Ver Carlson,

Cap. 12.5 !

Page 27: Características do sinal de voz - radio.lx.it.ptradio.lx.it.pt/STG/STG0405acetatos4.pdf · humana B a n d a d e g u a r d a B a n d a d e g u a r d a. Transmissão digital de sinais

Multiplexagem de canais PCM e hierarquias adoptadas peloITU-T

2048(30)

8448(120)

34368(480)

139264(1920)

1544(24)

6312(96)

32064(480)

97728(1440)

44736(672)

274176(4032)

391200(5760)

x4

x6

x4x3

x7

x5

x4

x4x4

EUA (AT&T)

Japão (NTT)

Europa1ª hierarquia 4ª hierarquia3ª hierarquia2ª hierarquia

NOTA: Os valores entre parêntesisindicam o nº de canais de 64 kbit/sdisponíveis e os outros estão em kbit/s.

5ª hierarquia

E-x (European-x)E-1, …, E-4

DS-x (Digital Signal-x)DS-1, …, DS-4Tx (Transmission lines x)T1,…, T4