sistema de decisão automático para conversão de áudio em texto na geração de legenda oculta
DESCRIPTION
Apresentação realizada na defesa da dissertação do Mestrado Integrado Profissional em Computação Aplicada (MPCOMP) da UFRJ/UECE, Rio de Janeiro, 2015.TRANSCRIPT
-
SISTEMA DE DECISO AUTOMTICO PARA CONVERSO DE UDIO EM TEXTO
NA GERAO DE LEGENDA OCULTA
Luiz Fausto
-
Agenda
Introduo Legenda Oculta Reconhecimento Autom;co de Voz (RAV) Gerao de Legenda Oculta com RAV no mundo Avaliao de Desempenho Concluso e Trabalhos Futuros
-
INTRODUO
-
Tema Desenvolvimento de um sistema de RAV para gerao de closed cap*on a par;r de so,ware livre e de bases de dados disponveis publicamente
Obje>vo Treinar e avaliar um sistema de RAV na gerao de closed cap*on para programas de televiso ao vivo com fala espontnea em Portugus do Brasil u;lizando relocuo
-
LEGENDA OCULTA (CLOSED CAPTION)
-
Decientes audi;vos: quase 10 milhes
Acessibilidade
-
Norma Complementar N 001/2006
Uso obrigatrio de Legenda Oculta (Closed Cap*on) pelas emissoras,
conforme cronograma estabelecido:
Junho / 2011 08 horas / dia Junho / 2012 12 horas / dia Abril / 2014 16 horas / dia Abril / 2015 20 horas / dia
Junho / 2017 24 horas / dia
Legislao NBR 15290:2005
Diretrizes para a legenda oculta Acertos:
no sistema CC ao vivo, o texto das legendas deve ter no mnimo 98% de acerto
Sincronia: no sistema CC ao vivo pode ser tolerado um atraso mximo de quatro segundos
-
Esteno>pia
Digitao em tempo real u;lizando smbolos fon;cos em teclado especial (esten;po)
Os smbolos so conver;dos em palavras de acordo com um dicionrio
Mo-de-obra escassa e cara, treinamento demorado
Erros: digitao, palavras fora do dicionrio
-
RECONHECIMENTO AUTOMTICO DE VOZ (RAV)
-
Relocuo Sistema adaptado a uma voz, sem precisar considerar a variabilidade fon;ca entre pessoas
Melhor relao sinal/rudo
Correo da disuncia oral
Custo operacional mais baixo que esteno;pia
-
IBM ViaVoice Sistema no o>mizado para a
aplicao na gerao de legenda oculta
Produto descon>nuado h quase 10 anos, sem subs;tuto comercial para o Portugus do Brasil
Ausncia de suporte corre;vo e evolu;vo
Potenciais problemas para manter o sistema funcionando a longo prazo
A quan>dade de licenas existentes limitada
-
Soaware Livre
CMUSphinx
F a l a B r a s i l
iATROS
SRILM
-
Funcionamento
-
Dicionrio abafa a b a f a abafada a b a f a d a abafadas a b a f a d a s abafado a b a f a d u abafados a b a f a d u s abafamento a b a f a m ee t u abafando a b a f aa d u abafar a b a f a xm abafou a b a f o w
-
Processamento Digital de Sinais
MFCC
DCT
Log
Banco de Filtros (Escala Mel)
Espectro de Potncia
Janelamento
Pr-nfase
Reamostragem
Sinal de Entrada
-
Modelo Acs>co
-
Modelo de Linguagem -1.9060 a informao consta -3.6396 a informao constava -2.7161 a informao contida -3.6396 a informao contradiz -3.6396 a informao contraria -3.6396 a informao contm -2.3215 a informao correta -1.7412 a informao da -1.9408 a informao dada -2.7161 a informao das -0.7528 a informao de -3.0395 a informao desde -3.0395 a informao desejada -3.0395 a informao deve
-
Decodicao
-
GERAO DE LEGENDA OCULTA COM RAV NO
MUNDO
-
AVALIAO DE DESEMPENHO
-
Material da Avaliao
CMUSphinx
FalaBrasil
-
Programas (50% das sentenas u;lizadas para treinamento; 50% u;lizadas para teste)
Blocos Durao Palavras
BOM DIA BRASIL 5 52m50s 7.903
BEM ESTAR 2 38m55s 6.333
DOMINGO DO FAUSTO 4 01h45m02s 14.686
TOTAL 11 03h16m47s 28.922
-
Material de Treinamento - Corpora de Texto
Sentenas Palavras Vocabulrio
Globo.com (ViaVoice) 100.954 1.707.869 53.633
Globo.com + FalaBrasil
(CMUSphinx - Uso Geral)
1.593.389 24.746.658 210.446
BOM DIA BRASIL 82 4.011 1.333
BEM ESTAR 76 3.056 939
DOMINGO DO FAUSTO 341 7.690 1.569
-
Material de Treinamento - Corpora de Voz Corpus Reduzido
Corpus Intermedirio
Corpus Maior Sentenas Palavras Vocabulrio Durao Vozes Ambiente
Voz Masculina - Cons>tuio1.0 (FalaBrasil)
* * * 1.238 68.575 5.305 08h50m12s 1 Controlado
Vozes Masculinas - LapsBenchMark1.4
(FalaBrasil) * * 500 5.166 2.102 38m10s 25 No controlado
Vozes Masculinas - VoxForge * * 1.828 9.173 584 01h51m24s 78
No controlado
Vozes Femininas - LapsBenchMark1.4
(FalaBrasil) * 200 2.062 1.064 15m51s 10 No controlado
Vozes Femininas - VoxForge * 180 855 351 09m30s 6
No controlado
-
Material de Adaptao de Locutor
Sentenas Palavras Vocabulrio Durao
IBM ViaVoice 1.027 6.622 1.953 53m50s
Relocuo 499 14.757 2.889 98m23s
-
Resultados
Taxa de palavras fora do dicionrio* Perplexidade
Dicionrio de uso geral
Dicionrio especco do programa
Modelo de linguagem de uso geral
Modelo de linguagem
especco do programa
BOM DIA BRASIL 0,57% 0,47% 266,22 246,74
BEM ESTAR 1,34% 1,27% 666,42 589,79
DOMINGO DO FAUSTO 2,30% 1,37% 773,50 536,94
* Dicionrios com as 65.535 palavras mais frequentes do corpus
-
Resultados Relocuo Esteno>pia IBM Via Voice CMU Sphinx c/ Corpus Reduzido
CMU Sphinx c/ Corpus
Intermedirio
CMU Sphinx c/ Corpus Maior
SUBTOTAL BOM DIA BRASIL
Acertos: 99,11% 84,90% 83,91% 81,02% 82,44% 81,82%
Erros: Subs>tuies:
1,10% 0,48%
17,97% 6,96%
20,93% 12,82%
21,57% 14,09%
20,43% 13,23%
20,56% 13,34%
Omisses: 0,40% 8,14% 4,53% 4,89% 4,33% 4,84% Inseres: 0,22% 2,87% 3,58% 2,59% 2,87% 2,38%
Acurcia: 98,90% 82,03% 79,07% 78,43% 79,57% 79,44%
SUBTOTAL BEM ESTAR
Acertos: 95,42% 66,95% 71,49% 68,90% 69,93% 71,20%
Erros: Subs>tuies:
5,01% 3,32%
36,52% 13,33%
32,18% 22,60%
33,46% 22,93%
33,30% 22,43%
32,03% 22,46%
Omisses: 1,26% 19,72% 5,91% 8,17% 7,64% 6,34% Inseres: 0,43% 3,47% 3,67% 2,36% 3,23% 3,23%
Acurcia: 94,99% 63,48% 67,82% 66,54% 66,70% 67,97%
SUBTOTAL DOMINGO DO
FAUSTO
Acertos: 94,69% 60,83% 64,87% 68,88% 70,75% 70,75%
Erros: Subs>tuies:
7,20% 3,14%
40,29% 9,02%
38,36% 27,36%
33,81% 22,83%
32,03% 20,99%
31,94% 21,33%
Omisses: 2,17% 30,15% 7,77% 8,29% 8,26% 7,92% Inseres: 1,89% 1,12% 3,23% 2,69% 2,78% 2,69%
Acurcia: 92,80% 59,71% 61,64% 66,19% 67,97% 68,06%
TOTAL GERAL
Acertos: 96,06% 68,75% 71,52% 72,23% 73,78% 73,90%
Erros: Subs>tuies:
5,05% 2,45%
33,37% 9,40%
32,24% 22,34%
30,36% 20,44%
29,13% 19,18%
28,83% 19,39%
Omisses: 1,49% 21,85% 6,48% 7,33% 7,04% 6,71% Inseres: 1,11% 2,12% 3,42% 2,59% 2,91% 2,73%
Acurcia: 94,95% 66,63% 67,76% 69,64% 70,87% 71,17%
-
Resultados
Sistema Latncia CPU * RAM
Relocuo 1,059 s N/A N/A
Esteno>pia 4,034 s N/A N/A
IBM ViaVoice 2,098 s < 20% (de 1 core) < 70 MB
CMU Sphinx 0,652 s ~ 20% (de 4 cores) ~ 300 MB
* Intel Core i5 de 2,4 GHz
-
CONCLUSES E TRABALHOS FUTUROS
-
Concluses
Demanda por sistemas de RAV em Portugus do Brasil Sistemas de RAV testados apresentaram acurcia mais alta e latncia
mais baixa que a esteno;pia Sistema baseado em so,ware livre apresentou melhor desempenho Possibilidades de melhorias futuras Taxa de acerto mnima especicada pela ABNT NBR 15290 no pde ser
ob;da por RAV nem por esteno;pia
-
Trabalhos Futuros
Desenvolver corpus de voz sucientemente grande e diversicado Desenvolver mecanismos autom;cos para gerar corpus de texto a par;r
da Internet Experimentar smbolos fon;cos diferentes para vogais tnicas O;mizar o tempo de treinamento do sistema Avaliar outros so,wares de RAV
-
Trabalhos Futuros
Atualizao autom;ca dos dicionrios, modelos de linguagem e modelos acs;cos
Desenvolver interface operacional Ferramentas de correo da transcrio Gerao de relatrios de desempenho Integrao com ferramentas de codicao de closed cap*on Integrao da soluo completa em uma ferramenta simples de usar Realizar avaliao qualita;va do desempenho, com a par;cipao de
decientes audi;vos
-
PERGUNTAS?
-
OBRIGADO!