![Page 1: VOCALE Um Algoritmo de Identificação de Intervalos Vocálicos no Sinal Acústico de Fala](https://reader033.vdocuments.com.br/reader033/viewer/2022052704/5706384d1a28abb8238f69de/html5/thumbnails/1.jpg)
VOCALE Um Algoritmo de
Identificação de Intervalos Vocálicos no Sinal Acústico de
Fala
![Page 2: VOCALE Um Algoritmo de Identificação de Intervalos Vocálicos no Sinal Acústico de Fala](https://reader033.vdocuments.com.br/reader033/viewer/2022052704/5706384d1a28abb8238f69de/html5/thumbnails/2.jpg)
Temos:
Queremos: (0.179 0.301) v (0.301 0.390) c (0.390 0.440) v(0.440 0.498) c(0.498 0.540) v…
Problema
![Page 3: VOCALE Um Algoritmo de Identificação de Intervalos Vocálicos no Sinal Acústico de Fala](https://reader033.vdocuments.com.br/reader033/viewer/2022052704/5706384d1a28abb8238f69de/html5/thumbnails/3.jpg)
Exemplo de segmentação
Marca
Vowel
Cons.
Vowel.
![Page 4: VOCALE Um Algoritmo de Identificação de Intervalos Vocálicos no Sinal Acústico de Fala](https://reader033.vdocuments.com.br/reader033/viewer/2022052704/5706384d1a28abb8238f69de/html5/thumbnails/4.jpg)
Conjectura das classes rítmicas Diversos linguistas conjecturaram que as línguas
naturais estavam agrupadas num número finito e pequeno de classes rítmicas ( Lloyd James 1940 , Pike 1945, Abercrombie 1967, etc).
Durante meio século não se conseguiu encontrar evidências acústicas que justificassem essa conjectura.
Essas evidências aparecem nos artigos pioneiros de Ramus, Nespor e Mehler (1999), eles utilizam estatísticas simples de amostras de sinais acústicos produzidos por falantes das diversas línguas consideradas.
![Page 5: VOCALE Um Algoritmo de Identificação de Intervalos Vocálicos no Sinal Acústico de Fala](https://reader033.vdocuments.com.br/reader033/viewer/2022052704/5706384d1a28abb8238f69de/html5/thumbnails/5.jpg)
Para um conjunto de oito línguas e 20 frases por língua, eles segmentam as frases em intervalos vocálicos e consonantais e definem:
%V = proporção de tempo passado em vogais e
Delta C = desvio padrão dos intervalos consonantais
Ramus, Nespor & Mehler (1999)
![Page 6: VOCALE Um Algoritmo de Identificação de Intervalos Vocálicos no Sinal Acústico de Fala](https://reader033.vdocuments.com.br/reader033/viewer/2022052704/5706384d1a28abb8238f69de/html5/thumbnails/6.jpg)
Ramus, Nespor & Mehler (1999)
![Page 7: VOCALE Um Algoritmo de Identificação de Intervalos Vocálicos no Sinal Acústico de Fala](https://reader033.vdocuments.com.br/reader033/viewer/2022052704/5706384d1a28abb8238f69de/html5/thumbnails/7.jpg)
Segmentação manualÉ feita baseada na seguinte
informação:
Gráfico do sinal acústico Gráfico do espectrograma Ouvindo a frase
![Page 8: VOCALE Um Algoritmo de Identificação de Intervalos Vocálicos no Sinal Acústico de Fala](https://reader033.vdocuments.com.br/reader033/viewer/2022052704/5706384d1a28abb8238f69de/html5/thumbnails/8.jpg)
Dificuldades:
Leva muito tempo Imprecisões Muito difícil de ser reproduzida
![Page 9: VOCALE Um Algoritmo de Identificação de Intervalos Vocálicos no Sinal Acústico de Fala](https://reader033.vdocuments.com.br/reader033/viewer/2022052704/5706384d1a28abb8238f69de/html5/thumbnails/9.jpg)
Sinal acústico e espectrograma
![Page 10: VOCALE Um Algoritmo de Identificação de Intervalos Vocálicos no Sinal Acústico de Fala](https://reader033.vdocuments.com.br/reader033/viewer/2022052704/5706384d1a28abb8238f69de/html5/thumbnails/10.jpg)
Espectro de Fourier
Problema: o sinal acústico de fala é não estacionário
![Page 11: VOCALE Um Algoritmo de Identificação de Intervalos Vocálicos no Sinal Acústico de Fala](https://reader033.vdocuments.com.br/reader033/viewer/2022052704/5706384d1a28abb8238f69de/html5/thumbnails/11.jpg)
Espectrograma
![Page 12: VOCALE Um Algoritmo de Identificação de Intervalos Vocálicos no Sinal Acústico de Fala](https://reader033.vdocuments.com.br/reader033/viewer/2022052704/5706384d1a28abb8238f69de/html5/thumbnails/12.jpg)
Regiões regulares
![Page 13: VOCALE Um Algoritmo de Identificação de Intervalos Vocálicos no Sinal Acústico de Fala](https://reader033.vdocuments.com.br/reader033/viewer/2022052704/5706384d1a28abb8238f69de/html5/thumbnails/13.jpg)
Identificando zonas regularesObservação: Em intervalos vocálicos, tipicamente,
pt e pt+1 são “parecidos”. Em intervalos consonantais,
tipicamente, isto não acontece.Exceções: semi-vogais, nasais...
![Page 14: VOCALE Um Algoritmo de Identificação de Intervalos Vocálicos no Sinal Acústico de Fala](https://reader033.vdocuments.com.br/reader033/viewer/2022052704/5706384d1a28abb8238f69de/html5/thumbnails/14.jpg)
Classificadores(1) Entropia relativa:
F
ft
ttt f
ffh
ppp
1
11 )(
)(log)(
Distância Euclidiana:
F
fttt ffd pp
1
2
1)()(
![Page 15: VOCALE Um Algoritmo de Identificação de Intervalos Vocálicos no Sinal Acústico de Fala](https://reader033.vdocuments.com.br/reader033/viewer/2022052704/5706384d1a28abb8238f69de/html5/thumbnails/15.jpg)
Classificadores(2) Energia total:
F
ftt fe z
1
)(
Energia na banda [Fa , Fb]:
b
a
ba
F
Fft
FFt fe z )(,
![Page 16: VOCALE Um Algoritmo de Identificação de Intervalos Vocálicos no Sinal Acústico de Fala](https://reader033.vdocuments.com.br/reader033/viewer/2022052704/5706384d1a28abb8238f69de/html5/thumbnails/16.jpg)
Entropia Relativa (japonês)
![Page 17: VOCALE Um Algoritmo de Identificação de Intervalos Vocálicos no Sinal Acústico de Fala](https://reader033.vdocuments.com.br/reader033/viewer/2022052704/5706384d1a28abb8238f69de/html5/thumbnails/17.jpg)
Entropia Relativa (Frances)
![Page 18: VOCALE Um Algoritmo de Identificação de Intervalos Vocálicos no Sinal Acústico de Fala](https://reader033.vdocuments.com.br/reader033/viewer/2022052704/5706384d1a28abb8238f69de/html5/thumbnails/18.jpg)
Energia Total
![Page 19: VOCALE Um Algoritmo de Identificação de Intervalos Vocálicos no Sinal Acústico de Fala](https://reader033.vdocuments.com.br/reader033/viewer/2022052704/5706384d1a28abb8238f69de/html5/thumbnails/19.jpg)
Energia 1000-5000Hz
![Page 20: VOCALE Um Algoritmo de Identificação de Intervalos Vocálicos no Sinal Acústico de Fala](https://reader033.vdocuments.com.br/reader033/viewer/2022052704/5706384d1a28abb8238f69de/html5/thumbnails/20.jpg)
Exemplos de Regras de Classificação do P.B.
Entropia relativa baixa Energia total alta Alta energia na banda [1000,5000] hz
alta probabilidade de vogal
Entropia relativa baixa Baixa energia na banda
[1000,5000] hzalta probabilidadede consoante
(nasal) Entropia relativa alta Alta energia na banda
[1000,5000] hzalta probabilidadede consoante
![Page 21: VOCALE Um Algoritmo de Identificação de Intervalos Vocálicos no Sinal Acústico de Fala](https://reader033.vdocuments.com.br/reader033/viewer/2022052704/5706384d1a28abb8238f69de/html5/thumbnails/21.jpg)
Segmentação: automática vs manual
![Page 22: VOCALE Um Algoritmo de Identificação de Intervalos Vocálicos no Sinal Acústico de Fala](https://reader033.vdocuments.com.br/reader033/viewer/2022052704/5706384d1a28abb8238f69de/html5/thumbnails/22.jpg)
ResultadosTaxa de erro: Portugueis Brasileiro: 18% Ingles Britanico: 24%
Consideramos que um erro e produzido quando:
a fronteira não é detectada, ou a fronteira é colocada a uma distância
maior do que 10ms da marcação manualO algoritmo esta disponivel na rede no endereço:www.ime.usp.br/~tycho/tipal/prosody/vocale/
![Page 23: VOCALE Um Algoritmo de Identificação de Intervalos Vocálicos no Sinal Acústico de Fala](https://reader033.vdocuments.com.br/reader033/viewer/2022052704/5706384d1a28abb8238f69de/html5/thumbnails/23.jpg)
Problemas: Em alguns casos as regras dependem da
língua.
As bandas de freqüências a serem utilizadas dependem do sexo do locutor.
Há critérios linguísticos que não podem ser expressos com regras simples deste tipo. Exemplos: r retroflexo, semi-vogais, etc.
![Page 24: VOCALE Um Algoritmo de Identificação de Intervalos Vocálicos no Sinal Acústico de Fala](https://reader033.vdocuments.com.br/reader033/viewer/2022052704/5706384d1a28abb8238f69de/html5/thumbnails/24.jpg)
Exemplo: Português e Inglês
![Page 25: VOCALE Um Algoritmo de Identificação de Intervalos Vocálicos no Sinal Acústico de Fala](https://reader033.vdocuments.com.br/reader033/viewer/2022052704/5706384d1a28abb8238f69de/html5/thumbnails/25.jpg)
Função de sonoridade
Com o objetivo de evitar as ambigüidades na definição de vogal, definimos a função de sonoridade como:
S(t) é uma função com valores perto de 1 nas regiões regulares e perto de 0 nas regiões irregulares.
![Page 26: VOCALE Um Algoritmo de Identificação de Intervalos Vocálicos no Sinal Acústico de Fala](https://reader033.vdocuments.com.br/reader033/viewer/2022052704/5706384d1a28abb8238f69de/html5/thumbnails/26.jpg)
Uma versão automática de RNM
T
t
tstsT
S1
)1()(1
T
t
tsT
S1
)(1
![Page 27: VOCALE Um Algoritmo de Identificação de Intervalos Vocálicos no Sinal Acústico de Fala](https://reader033.vdocuments.com.br/reader033/viewer/2022052704/5706384d1a28abb8238f69de/html5/thumbnails/27.jpg)
Resultados com a função de sonoridade
![Page 28: VOCALE Um Algoritmo de Identificação de Intervalos Vocálicos no Sinal Acústico de Fala](https://reader033.vdocuments.com.br/reader033/viewer/2022052704/5706384d1a28abb8238f69de/html5/thumbnails/28.jpg)
Sonoridade e variação total para cada fonema
![Page 29: VOCALE Um Algoritmo de Identificação de Intervalos Vocálicos no Sinal Acústico de Fala](https://reader033.vdocuments.com.br/reader033/viewer/2022052704/5706384d1a28abb8238f69de/html5/thumbnails/29.jpg)
Um modelo para a sonoridade
![Page 30: VOCALE Um Algoritmo de Identificação de Intervalos Vocálicos no Sinal Acústico de Fala](https://reader033.vdocuments.com.br/reader033/viewer/2022052704/5706384d1a28abb8238f69de/html5/thumbnails/30.jpg)
Gráfico de p(0)=P(X(t)=0)