revista de radiodifusÃo - set portal · sinais de tv digital isdb-tb via vhf e uhf na cidade do...

64
RADIODIFUSÃO Revista de volume 08 - número 09 - 2014 ISSN impresso 1981-4984 ISSN eletrônico 2236-9619

Upload: others

Post on 27-Dec-2019

4 views

Category:

Documents


1 download

TRANSCRIPT

Page 1: Revista de RADIODIFUSÃO - SET PORTAL · Sinais de TV Digital ISDB-Tb via VHF e UHF na Cidade do Gama – DF – Brasil Akamine, Cristiano Bedicks Jr, Gunnar ... cujas frequências

RADIODIFUSÃORevista de

volume 08 - número 09 - 2014

ISSN impresso 1981-4984

ISSN eletrônico 2236-9619

Page 2: Revista de RADIODIFUSÃO - SET PORTAL · Sinais de TV Digital ISDB-Tb via VHF e UHF na Cidade do Gama – DF – Brasil Akamine, Cristiano Bedicks Jr, Gunnar ... cujas frequências
Page 3: Revista de RADIODIFUSÃO - SET PORTAL · Sinais de TV Digital ISDB-Tb via VHF e UHF na Cidade do Gama – DF – Brasil Akamine, Cristiano Bedicks Jr, Gunnar ... cujas frequências

RADIODIFUSÃORevista de

volume 07 - número 07 - 2013

SET - Sociedade Brasileira de Engenharia de TelevisãoRio de Janeiro/RJ - Rua Jardim Botânico,700 - Sala 306 | CEP. 22461-000 Tel.: + 55 (21) 2512-8747 - Fax + 55 (21) 2294-2791 São Paulo/SP - Av. Auro Soares de Moura Andrade, 252- Cj. 11 | CEP. 01156-001 Tels: +55 (11) 3666 9604 www.set.org.br | [email protected]

Revista Eletrônica de Radio Difusão / SET. -- v. 8, n. 9 (2014). – São Paulo : Editora Sociedade Brasileira de Engenharia de Televisão - SET, 2014-.

SemestralPeriodicidade do v. 8: semestralDisponível na Internet: : http://www.set.org.br/revistaderadiodifusao/ISSN 2236-9619 1. Radiofusão - Periódicos. 2. TVDigital - Periódicos. 3. Broadcast – Periódicos. I.

Sociedade Brasileira de Engenharia de Televisão. II. SET.

CDD (21. ed.) 384.54

volume 08 • número 09• 2014

Page 4: Revista de RADIODIFUSÃO - SET PORTAL · Sinais de TV Digital ISDB-Tb via VHF e UHF na Cidade do Gama – DF – Brasil Akamine, Cristiano Bedicks Jr, Gunnar ... cujas frequências

Expediente

Presidência Olímpio José FrancoVice Presidente Fernando BittencourtDiretor Executivo José MunhozDiretoria Editorial

Valderez de Almeida Donzelli Valdecir Becker

Comitê Editorial Almir Almas

Francisco S. Husni Ribeiro José Carlos Aronchi

José Olairson Valentim Tom Jones Moreira

Diretoria de Ensino José Frederico Rehme José Raimundo CristóvamComitê de Ensino Aidê Monteiro Rabelo Carla Pagliari Carlos Nazareth Motta Marins Gunnar Bedicks Walter Zucchini JrDiretoria de Tecnologia Carlos Fini José DiasComitê de Tecnologia Affonso Beato Alexandre Yoshida Sano Ana Eliza Faria e Silva Cora Ronai Iuri Saharovsky João Victor Boechat Jose Antonio Garcia

Luis Fausto

Tiago Facchin

Ana Sílvia Médola – UnespAlexandre Pohl –UTFPRAndré Barbosa – EBC/SETCarlos Alberto Ynoguti – INATELCarla Pagliari - IMECarlos Montez – UFSCCarlos Nazareth Motta Marins – INATEL/SETCosette Castro – UCBDébora Christina Muchaluat Saade – UFFEduardo Antonio Barros da Silva – COPPE/UFRJFlavio Archangelo – LABRE/SETGuido Lemos – UFPBGunnar Bedicks – Mackenzie/SETJosé Frederico Rehme, Msc, UP, SETKeiko Veronica Ono Fonseca, UTFPRLuciano Leonel Mendes – INATELLuís Geraldo Pedroso Meloni – FEEC/UnicampLuiz Biscainho – COPPE/UFRJLuiz Fernando Gomes Soares - PUC-RJSandro Fasolo – INATELTatiana Tavares – UFPB/SETTom Jones Moreira - SETValdecir Becker – UFPB/SETValderez de Almeida Donzelli - SET Vanessa Lima e Oliveira, Msc - SETYuzo Iano – UNICAMPYvana Fechine – UFPE

Diretoria da SET

Comitê Científico

Editor

Projeto gráfico / Versão eletrônica

Valdecir Becker

Solange Lorenzo

RADIODIFUSÃORevista de

Revista de Radiodifusão • v. 08 • n. 09 • 2014

Sociedade Brasileira de Engenharia de TelevisãoRua Jardim Botânico, 700 – Sala 306Rio de Janeiro, RJ – CEP: 22461-000Tel: (21) 2512-8747 – Fax: (21) 2294-2791www.set.org.br – [email protected]

O conteúdo dos artigos é de inteira responsabilidade de seus autores.

Volume 08 • número 09 • 2014

Page 5: Revista de RADIODIFUSÃO - SET PORTAL · Sinais de TV Digital ISDB-Tb via VHF e UHF na Cidade do Gama – DF – Brasil Akamine, Cristiano Bedicks Jr, Gunnar ... cujas frequências

Sumário

06 Apresentação

ARTIGOS

Esperante, Paulo Guedes 09 Análise de desempenho do sistema DVB-T2 para

transmissão de 4K (UHD) usando 6 MHz de banda

Borges, Ramon Maia 16 Compensação não linear Adaptativa aplicada à Otimi

zação de Transmissores de TV Digital

Maciel, Yuri Pontes 20 Nova Ferramenta de Desenvolvimento em Radiodifu

são: Software Defined Radio.

Romani, Eduardo 27 Análise Comparativa de Características Temporais de

Vídeos Digitais

33 Rede SFN Híbrida – Dificuldades de Implantação

38 Ensaios de Interferência do Sinal LTE (4G, em 700

MHz) sobre o Sinal de TV Digital Terrestre (ISDB-Tb)

44 A TV Digital Interativa na População de Baixa Renda:

Análise do Projeto Brasil 4D no Distrito Federal

52 Reforçadores de Sinais para Melhoramento

da Cobertura do Sinal de TV Digital na Região Metro

politana na Cidade de Goiânia

58 Análise do Desempenho Prático da Transmissão de

Sinais de TV Digital ISDB-Tb via VHF e UHF na

Cidade do Gama – DF – Brasil

Akamine, Cristiano Bedicks Jr, Gunnar Franco, Roberto

Damasceno, Paulo Marcos

Kusunoki, Marcel Pellegrini, Lucas Valmir Rehme, Jose Frederico

Iasbech, Paulo A.B.Freitas, Cristiana Jorge, Benny Ricciardi Wangenheim, Aldo von Rosa, Danilo Carlos de Oliveira Deus Júnior, Getúlio Antero de

Akamine, Cristiano Bedicks Jr., Gunnar

Pellegrini, Lucas Valmir Kusunoki, Marcel Rehme, Jose Frederico

Revista de Radiodifusão • v. 08 • n. 09 • 2014

Silva, Wyllian Bezerra da

Silva, Adriano Goetz da Terada, Marco Antonio Brasil

Pohl, Alexandre de Almeida Prado Fonseca, Keiko Verônica Ono

Page 6: Revista de RADIODIFUSÃO - SET PORTAL · Sinais de TV Digital ISDB-Tb via VHF e UHF na Cidade do Gama – DF – Brasil Akamine, Cristiano Bedicks Jr, Gunnar ... cujas frequências

Revista de Radiodifusão • v. 08 • n. 09 • 2014

Nesta edição da Revista de Radiodifusão são publicados artigos na área de Engenharia de Televisão relacionados com assuntos relevantes no momento, como UHD (Ultra High Definition), SFN (Single Frequency Network), SDR (Software Defined Radio). Além disto, obstinou-se dar ênfase ao processo que se inicia no país em 2015, com o começo da vigência da obrigatoriedade legal do desligamento da TV Analógica no território nacional: com a seleção de trabalhos práticos, como a análise de interferência do Sinal LTE no ISDB-Tb, a avaliação de desempenho e cobertura do ISDB-Tb em regiões metropolitanas, bem como abordar a questão novamente em pauta da interatividade incubada por decisões governamentais. Toda a equipe da Revista de Radiodifusão acredita que esta edição possa colaborar com a discussão e fomento técnico-científico de seus leitores, compondo assim, uma ferramenta de grande utilidade para todos os envolvidos com as tecnologias que dão vida ao conteúdo.

A Revista recebeu um total de 12 submissões, e, após o processo de revisão do Comitê Científico, nove trabalhos foram considerados aderentes e adequados à proposta da Revista. A seguir temos a relação destes trabalhos aprovados e seus respectivos resumos.

Análise de desempenho do sistema DVB-t2 para transmissão de 4K (UHD) usando 6 MHz de banda, de Paulo Guedes Esperante, Cristiano Akamine, Gunnar Bedicks e Roberto Franco. O DVB-T2 permite a transmissão de elevadas taxas de vídeo podendo atingir até 37,73 Mbps em 6 MHz de largura de banda. Com a evolução das compressões de vídeo o HEVC torna possível a transmissão terrestre em 4K-UHD, em que os encoders apresentam taxas de codificação em torno de 50% mais eficiente quando comparado ao H.264. Análises subjetivas apontam que as taxas ideais de codificação do HEVC estão em torno de 18 a 36 Mbps. Para transmissão de elevadas taxas são necessários sistemas robustos. Para isso o DVB-T2 utiliza diferentes blocos corretores de erro como o LDPC e BCH, e técnicas como rotacionamento da constelação, ajustes de diferentes modos das portadoras-pilotos entre outras técnicas que possibilitem a melhor configuração de acordo com as características de transmissão do meio de comunicação. O presente artigo aborda um estudo prático com emulações do DVB-T2 com transmissões em 6 MHz de banda com taxas de transmissões de 4K. Os testes foram realizados no laboratório de TV Digital do Instituto Presbiteriano Mackenzie com taxa de transmissões de 27,1 e 31,2 Mbps utilizando o critério “TOV” nos estudos de sensibilidade, relação sinal/ruído e a presença de multipercuso no canal de comunicação.

Compensação não linear Adaptativa aplicada à Otimização de Transmissores de TV Digital, de Ramon Maia Borges e Paulo Marcos Damasceno. O trabalho tem por finalidade investigar o desempenho de transmissores de TV digital equipados com compensação não linear adaptativa. Resultados práticos demonstram a eficácia da técnica, que provê flexibilidade em troca de canal, aumento e estabilidade na MER (Modulation Error Ratio) do sistema, e soluções para o confinamento espectral. Obteve-se melhorias de até 18dB no shoulder dos sinais gerados.

Nova Ferramenta de Desenvolvimento em Radiodifusão: Software Defined Radio, de Yuri Pontes Maciel, Cristiano Akamine e Gunnar Bedicks Jr.. Este artigo aborda dois temas relevantes da engenharia elétrica e de comunicações: rádios definidos por software e o padrão de televisão digital usado no Brasil. O rádio definido por software tem se tornado nos últimos tempos uma poderosa ferramenta para a prototipagem e desenvolvimento de equipamentos presentes em sistemas de comunicação. Ele pode ser definido como uma plataforma de desenvolvimento, isto é, hardware genérico e programável que abrange uma grande faixa de radiofrequência trabalhando em conjunto com ferramentas de software. Esta ferramenta de software, em conjunto com processadores digitais de sinais, como microprocessadores presentes em computadores pessoais é responsável pela maior parte do processamento realizado por essa plataforma, enquanto o hardware é responsável geralmente, por partes menos críticas. Dentre as ferramentas de software estão aquelas onda há necessidade de se obter uma licença para usa-la, como o MATLAB/Simulink, LabVIEW e SCA, uma padrão criado por militares dos EUA, e aquelas que são conhecidas por serem open-source como o GNU Radio e OSSIE uma versão open-source do SCA. Essa plataforma pode ser usada para desenvolver equipamentos para radiodifusão. Como o processamento é baseado apenas em software o mesmo hardware pode ser usado para todas essas aplicações, desde que tenha as especificações necessárias.

06

Apresentação

Page 7: Revista de RADIODIFUSÃO - SET PORTAL · Sinais de TV Digital ISDB-Tb via VHF e UHF na Cidade do Gama – DF – Brasil Akamine, Cristiano Bedicks Jr, Gunnar ... cujas frequências

Análise Comparativa de Características Temporais de Vídeos Digitais, de Eduardo Romani, Wyllian Bezerra da Silva, Keiko Verônica Ono Fonseca e Alexandre de Almeida Prado Pohl. Este artigo realiza uma análise comparativa de duas características temporais de vídeos digitais – as Informações Perceptuais Temporais (TI) e os Vetores de Movimento (MV) – buscando quantificar a correla- ção entre elas por meio dos coeficientes de Pearson (PLCC) e de Spearman (SROCC). Com estes coeficientes, pode-se medir o grau de correlação entre estas duas características temporais que são utilizadas em diversas pesquisas e estudos,afim de facilitar o compreensão dos resultados apresentados pelas pesquisas. Além disso, essas características podem estar associadas a atributos extraídos diretamente de vídeos ou retirados do fluxo de dados das codificações destes. Os resultados experimentais apresentam uma correlação moderada entre as duas características e demonstram que ambas seguem a mesma tendência de resposta às variações do vídeo.

Rede SFN Híbrida – Dificuldades de Implantação, de Marcel Kusunoki , Lucas Valmir Pellegrini e Jose Frederico Rehme. Este artigo tem como finalidade explicar o conceito de uma rede SFN Distribuída Híbrida, mostrar o funcionamento desta com um exemplo prático de aplicação, apresentar medidas de multipercurso obtidas durante a instalação do sistema e dificuldades de implantação encontradas. Este experimento permitiu a expansão do sinal digital da RPC TV Curitiba na Região Metropolitana da capital paranaense.

Ensaios de Interferência do Sinal LTE (4G, em 700 MHz) sobre o Sinal de TV Digital Terrestre (ISDB-Tb), de Lucas Valmir Pellegrini, Marcel Kusunoki e Jose Frederico Rehme . Este artigo tem por finalidade descrever os resultados obtidos em testes em bancada das possíveis interferências que o LTE, na faixa de 700 a 800 MHz, pode causar na recepção de sinal de televisão digital terrestre brasileiro (ISDB-Tb) nos canais 14 ao 51, cujas frequências centrais constam na Norma da ABNT NBR 15604 [1]. O objetivo principal deste ensaio é simular a presença de aparelhos de telefone celular, dentro do mesmo ambiente onde se capta, com uso de uma antena interna, os sinais de TV digital da região. Com esta simulação, pretende-se estimar os níveis de sinais de TV e de telefonia, onde este último aqui é chamado de interferente ou ruído, e a relação entre eles, que habilita ou que impossibilita a recepção de TV. Observa-se, portanto, o efeito no televisor, buscando o limiar do não comprometimento da qualidade de sinal percebida na casa do telespectador. Ao final do teste conclui-se que em uma recepção doméstica o sinal recebido pela TV sofre interferência prejudicial em todos os canais, porém com maior intensidade nos canais mais próximos do sinal interferente.

A TV Digital Interativa na População de Baixa Renda: Análise do Projeto Brasil 4D no Distrito Federal, de Paulo A.B.Iasbech, Cristiana Freitas, Benny Ricciardi Jorge e Aldo von Wangenheim. Este artigo visa apresentar os avanços tecnológicos e de aspectos da linguagem audiovisual, do design de interface e de usabilidade presentes no projeto Brasil 4D realizado no Distrito Federal. Experiência pioneira de oferta de informações e serviços interativos por meio da TV digital para a população de baixa renda. Coordenado pela Empresa Brasil de Comunicação (EBC), em parceria com o Governo do Distrito Federal (GDF), o PNUD, instituições como o Banco do Brasil e a Caixa Econômica Federal, o Instituto Nacional para Convergência Digital (INCoD) e empresas privadas do ramo de tecnologia da informação e comunicação como a Totvs, Oi e EiTV. Em parceria com o IPEA, foram selecionadas 300 famílias integrantes dos programas Bolsa Família e do DF Sem Miséria, que receberam em seu domicílio kits com equipamentos digitais e treinamento para utilizarem a TV Digital interativa (TVDi). Utilizando linguagem televisiva para apresentar o novo sistema e motivar o acesso da audiência às aplicações interativos, foi desenvolvida uma arquitetura de informações que disponibilizasse os conteúdos de serviços oferecidos da maneira mais eficiente possível, com base em estudos sobre o perfil da audiência, suas necessidades e hábitos de uso das novas TICs, de usabilidade e design interativo para TV Digital.

Reforçadores de Sinais para Melhoramento da Cobertura do Sinal de TV Digital na Região Metropolitana na Cidade de Goiânia, de Danilo Carlos de Oliveira Rosa e Getúlio Antero de Deus Júnior. Fundamentado no conceito de Rede de Frequência Única (RFU) (do inglês: Single Frequency Network - SFN) aplicado à transmissão de TV digital terrestre, este artigo baseia-se em um tipo específico de rede SFN que são as compostas por estações reforçadoras de sinal (do inglês: gap filler) para o chamado preenchimento de lacunas, ou regiões de sombra, na área de cobertura de uma estação transmissora já existente em uma determinada cidade ou região. Simulações, baseadas em um estudo de caso, mostram

Revista de Radiodifusão • v. 08 • n. 09 • 2014 07

Page 8: Revista de RADIODIFUSÃO - SET PORTAL · Sinais de TV Digital ISDB-Tb via VHF e UHF na Cidade do Gama – DF – Brasil Akamine, Cristiano Bedicks Jr, Gunnar ... cujas frequências

Revista de Radiodifusão • v. 08 • n. 09 • 201408

que estações gap filler utilizadas em regiões urbanas metropolitanas são ferramentas úteis e necessárias para a melhoria da cobertura de TV Digital, cobrindo algumas regiões que podem estar obstruídas por edificações, vegetações, relevo ou outro tipo qualquer de obstáculo. É esperado que simulações e análises detalhadas devam ser cuidadosamente consideradas antes da implementação do projeto para mitigar riscos de interferência em áreas que já estão cobertas e para assegurar que a estação gap filler planejada irá cobrir apropriadamente todas as lacunas.

Análise do Desempenho Prático da Transmissão de Sinais de TV Digital ISDB-Tb via VHF e UHF na Cidade do Gama – DF – Brasil, de Adriano Goetz da Silva e Marco Antonio Brasil Terada. Com o remanejamento da faixa de 700 MHz para uso pelo LTE, tornou-se necessário realizar testes que comprovem a eficiência do sistema ISDB-tb transmitido na faixa de VHF em canal alto, comparando seus rendimentos com o sistema UHF. O presente artigo descreve e analisa a transmissão experimental no canal 13 VHF, na cidade do Gama – DF, comparando os resultados práticos com os resultados previstos pelo modelo oficial de propagação ITU-R P.1546 ponderado pelo modelo Okomura-Hata. São realizadas medidas de intensidade de campo, sendo colhidas amostras do canal 13 e de outros canais ISDB-Tb em UHF, sendo medidas também a taxa de erro (BER) e a relação sinal ruído, realizada análise comparativa de eficiência de cobertura obtida através da transmissão ISDB-Tb nas faixas de VHF versus faixa de UHF.

Boa leitura,

Valdecir Becker

Editor

Page 9: Revista de RADIODIFUSÃO - SET PORTAL · Sinais de TV Digital ISDB-Tb via VHF e UHF na Cidade do Gama – DF – Brasil Akamine, Cristiano Bedicks Jr, Gunnar ... cujas frequências

Análise de desempenho do sistema DVB-T2 paratransmissão de 4K (UHD) usando 6 MHz de banda

Paulo Guedes [email protected]

Cristiano [email protected]

Gunnar Bedicks [email protected]

Roberto [email protected]

Revista de Radiodifusão • v. 08 • n. 09 • 2014 09

Page 10: Revista de RADIODIFUSÃO - SET PORTAL · Sinais de TV Digital ISDB-Tb via VHF e UHF na Cidade do Gama – DF – Brasil Akamine, Cristiano Bedicks Jr, Gunnar ... cujas frequências

MÉTRICA SEM REFERÊNCIA BASEADA EM REDES NEURAISPARA AVALIAÇÃO OBJETIVA DE QUALIDADE DE VÍDEO DIGITALWyllian Bezerra da Silva, Alexandre de Almeida Prado PohlPrograma de Pós-Graduação em Engenharia Elétrica e Informática Industrial (CPGEI) – UTFPR, Curitiba, [email protected], [email protected]: Este trabalho apresenta uma métrica sem referência para avaliação de qualidade de vídeo digital baseada em uma rede neural arti�cial que usa uma versão estendida do algoritmo de aprendizado ELM (Extreme Learning Machine). O método proposto realiza o treinamento da rede neural a partir de seis características espaço-temporais. Os resultados experimentais mostram que o método proposto apresenta desempenho superior às métricas de referência completa PSNR e MS-SSIM na tarefa de predição de qualidade de vídeo. Logo, o método proposto pode ser usado no monitoramento de qualidade em sistemas de transmissão e recepção de vídeo digital, tais como IPTV e TV digital.Palavras chave: algoritmo ELM, avaliação objetiva de vídeo, métrica sem referência, rede neural arti�cial.1. INTRODUÇÃODurante os últimos anos, a literatura tem apresentado um número crescente publicações acerca de métricas objetivas para avaliação de qualidade de vídeo para diversas aplicações em radiodifusão ou no processamento de vídeo digital, seja na aquisição do sinal, codi�cação e decodi�cação, compressão, transmissão, restauração, armazenamento, segmentação e exibição de sinais de vídeo digital [1–4]. A avaliação de qualidade de vídeo digital pode ser realizada por meio de métricas subjetiva e objetiva. A primeira requer uma grande quantidade de recursos humanos e apresenta elevado custo em sua implementação [1–3]. Porém, as métricas objetivas são vantajosas quando apresentam um determinado grau de correlação com as métricas subjetivas. Logo, o desenvolvimento destas é um desa�o no campo de avaliação de qualidade de vídeo e imagem. Além disso, as métricas objetivas, devido à natureza de seu critério objetivo, independem de interação humana e são facilmente reprodutíveis [3]. Dentre as métricas objetivas destacam-se as métricas sem referência (No-Reference – NR), pois não necessitam do vídeo de referência no cálculo de sua medida. Entretanto, estas requerem um conhecimento a priori sobre as distorções em vídeo digital para que seja estabelecida uma correlação com os resultados subjetivos [3].A maioria das métricas NR encontradas na literatura são baseadas na avaliação de qualidade de imagens e em características relacionadas ao Sistema Visual Humano (SVH). Assim, o desenvolvimento de métricas NR é difícil, devido à necessidade de emular a percepção do SVH que envolve aspectos cognitivos, emocionais e estéticos relacionados ao conteúdo do vídeo e que são altamente dependentes do observador [4], [5].A literatura reporta diversos esforços no desenvolvimento de métricas para avaliação de qualidade de vídeo baseadas em redes neurais e em algoritmos de aprendizado. Babu et al. [6] apresentam uma métrica para avaliar a qualidade de imagens comprimidas em JPEG (Joint Photographic Experts Group) por meio de um algoritmo de aprendizado de crescimento e propõem o uso de uma rede neural GAP-RBF (Growing and Pruning Radial Basis Function) que usa características relacionadas ao SVH. Jiang et al. [7] desenvolveram uma métrica NR para avaliação de qualidade de vídeo em HD (High De�nition) baseada em uma rede neural treinada pelo algoritmo BP (Back-Propagation) que usa seis características espaço-temporais e a RoI (Region of Interest). Choe et al. [8] desenvolveram uma métrica NR baseada no �uxo de bits para avaliação de qualidade de vídeo codi�cado em H.264. Esta métrica extrai características quadro a quadro e usa uma rede neural alimentada adiante (feedforward) com três camadas. Suresh et al. [9] apresentaram uma extensão do algoritmo ELM na tarefa de avaliar a qualidade de imagens comprimidas em JPEG com base no esquema de seleção múltipla KS-ELM (K-fold selection Scheme using ELM) e no algoritmo RCGA-ELM (Real-Coded Genetic Algorithm using ELM) para seleção dos pesos de entrada e polarizações.Este trabalho apresenta uma versão estendida do algoritmo ELM para redes neurais SLFN (Single-hidden-Layer Feedforward Neural Networks) que implementa um simples critério de parada na fase de treinamento. Além disso, esse método usa seis características espaço-temporais de vídeos submetidos a diversas condições de distorção.Este artigo está dividido da seguinte maneira: a Seção 2 descreve as métricas para avaliação de qualidade de vídeo. A Seção 3 descreve o método NR proposto para avalição de qualidade de vídeo digital. A Seção 4 apresenta os resultados experimentais, em que são comparados o método NR proposto e duas métricas FR. Finalmente, a Seção 5 apresenta a conclusão do artigo.2. AVALIAÇÃO DE QUALIDADE DE VÍDEOO processo de avaliação de qualidade de vídeopode ser realizado com a aplicação de métricassubjetivas ou objetivas. As métricas subjetivasestimam a qualidade do vídeo por meio de avaliadoreshumanos. Logo, exigem um alto custo, poisnecessitam de uma grande quantidade de recursoshumanos e apresentam problemas quanto aosrequisitos de imparcialidade e reprodutibilidade,tornando-se inapropriadas em sistemas deradiodifusão ou em provedores de conteúdo [10], [11].Por outro lado, as métricas objetivas são baseadas emmodelos matemáticos, cujo objetivo é produzir umescore de qualidade que emule a percepção do SVH.Além disso, as métricas objetivas requerem baixocusto de implementação (quando comparadas com asmétricas subjetivas) e não apresentam problemasquanto à reprodutibilidade e imparcialidade.As métricas objetivas para avaliação de qualidadede vídeo podem ser classi�cadas em três categorias:(i) métricas de referência completa (Full-Reference –FR); (ii) métricas de referência reduzida (Reduced-Reference – RR); (iii) métricas sem referência (NR).2.1. Métricas FRAs métricas FR requerem o vídeo de referência(fonte) no cálculo do escore de qualidade. Estasmétricas são amplamente utilizadas no processo devalidação de métricas RR ou NR, por meio dacomparação de desempenho de�nida pelasrecomendações do Grupo de Especialistas emQualidade de Vídeo (VQEG – Video Quality ExpertsGroup) que é um órgão de padronização internacionalde métricas subjetivas e objetivas de qualidade devídeo. Dentre as métricas FR, destacam-se o PSNR(Peak Signal-to-Noise Ratio), SSIM (StructuralSIMilarity index) [12] e MS-SSIM (Multi-ScaleStructural SIMilarity index) [13].O PSNR é uma métrica FR baseada no erro pixel apixel de fácil implementação. Entretanto, apresentabaixa correlação com o SVH [14]. A sua medida éprocessada sobre o erro quadro a quadro, i.e., entre oquadro original x e o quadro y . A expressão a seguirde�ne o PSNR para um conjunto de quadros F .2011PSNR 20log ,Fff fvF � MSE� �� � �� �� ��(1)com� � � �20 01MSE , , , , ,N Mfi jx f i j y f i jNM � �� ���� � ��(2)em que o termo f v é igual a (2 1) k � , cujo k é onúmero de bits por pixel, i.e., é a componente deluminância do quadro f . Os termos x �f ,i, j � ey �f ,i, j � são os valores de luminância do quadro deorigem e degradado, respectivamente. Ascomponentes bidimensionais são representadas pelonúmero de colunas N e pelo número de linhas M . Otermo f MSE é de�nido como erro quadrático médioou MSE (Mean Square Error).A métrica SSIM baseia-se no fato de que o SVH éfortemente adaptado para extrair informações dascaracterísticas estruturais de um quadro ou imagem.Logo, uma medida de similaridade estrutural (oudistorção) pode prover boa aproximação para aqualidade perceptual de um vídeo [3, 7–9]. Sejam x ey dois sinais não-negativos, em que y é o sinaldegradado e x é o sinal original (sem perda dequalidade), a medida de similaridade é utilizada comoum índice quantitativo de qualidade do sinal distorcido,ou seja, x é tomado como a referência para medir aqualidade de y . A métrica SSIM possui diversasextensões, dentre as quais a versão MS-SSIM,proposta por Wang et al. [13] que assume umaabordagem multiescalar.2.2. Métricas RRAs métricas de referência reduzida retiram certaquantidade de características do vídeo original (fonte),baseadas em componentes espaciais, temporais, nodomínio da frequência ou no �uxo de bits (bitstream).Este tipo de métrica é amplamente utilizada nomonitoramento de transmissões em rede [17]. Nestetipo de cenário de aplicação, o vídeo é transmitidocom uma sequência de informação codi�cada(overhead) e no lado receptor ocorre a suadecodi�cação, seguido pelo cálculo do índice dequalidade, o qual é obtido por meio da comparaçãoentre a representação reduzida da informação nospares emissor e receptor [18]. Tipicamente, métricasRR são implementadas por meio de funções, divididasem duas etapas [19]: (i) cálculo do erro entre osvídeos original e distorcido, constituído pela diferençade suas características, a �m de compor arepresentação reduzida da informação; (ii) função queagrupa os erros ou diferenças para obter um índice dequalidade global. Algumas métricas RR explorampropriedades dos artefatos, por meio da extração decaracterísticas e um modelo de parametrização [20]com foco em tipos especí�cos de distorções(artefatos). Esta abordagem é encontrada em Silva etal. [17], cujo cálculo do escore de qualidade ébaseado na diferença de atividade dos coe�cientesDCT (Discrete Cosine Transform) em um macro blococom resolução de 16�16 pixels.2.3. Métricas NRAs métricas NR extraem característicasrelacionadas ao SVH do vídeo distorcido, i.e., narecepção do sinal de vídeo [14]. Tipicamente, há duasabordagens no desenvolvimento destas métricas: (i)extração dos parâmetros sobre o �uxo de bits, taiscomo a taxa de compressão, informaçõesrelacionadas ao GoP (Group of Pictures), estimaçãode movimento, per�l e nível de codi�cação, bem comoo parâmetro de quantização ou QP (QuantizationParameter) [21–25]. Métricas NR apresentam maiorcomplexidade quando são aplicadas em vídeo, devidoà variação temporal dos quadros, conteúdos dascenas e à di�culdade de compreensão dascaracterísticas do SVH [26]. Assim, algumas métricasdessa categoria exploram características espaciais etemporais na estimação de qualidade de vídeo [21].3. MÉTODO PROPOSTOO método proposto, denominado NRVQA-ELMtc(No-Reference Video Quality Assessment usingExtreme Learning Machine algorithm with terminationcriteria) [27] combina características espaciais etemporais, por meio de uma rede neural arti�cialSLFNs usando o algoritmo de treinamento ELM [28]com a implementação de um simples critério deparada.3.1. Características espaço-temporaisAs características espaciais incorporadas nométodo proposto são baseadas em medidas deartefatos em vídeo digital, i.e., distorções de blocageme borramento desenvolvidas por Wang et al. [20].Assim, a componente de luminância do quadro f érepresentada por y(f , i, j ) com i � ��1,M�� e j � ��1, N�� ,em que M e N são os números de linhas e colunas,respectivamente, de um quadro. Logo, as diferençasde luminância ao longo das linhas e colunas sãorepresentadas, respectivamente, pelas expressões aseguir.� � � � � � � �� � � � � � � �, , , , 1 , , , 1, 1 ,, , , 1, , , , 1, 1 .hvd f i j y f i j y f i j j Nd f i j y f i j y f i j i M� � � � �� � � � �(3)O efeito de blocagem pode ser estimado pelamédia das diferenças entre as bordas dos blocos daDCT (Discrete Cosine Transform) nas direçõeshorizontal e vertical para uma sequência F dequadros, conforme mostra a Equação (4), com ummacrobloco de dimensão � �� , cujo tamanho típico éde � � 8 [20].� � ��� � � �111 1 1111 1 11, , 1 ,111, 1 , .11NF Mh hf i jMF Nvi jvfB d f i jNF MB d f i jMF N��������� � ���� � �� �� �� � � �� � �� �� �� � � �� � �� � �� � �(4)A medida de blocagem em uma sequência devídeo com F quadros é determinada pela média entreh B e v B , caracterizando a medida B , conforme aexpressão a seguir..2h v B BB�� (5)Os efeitos de borramento são estimados pelocálculo da redução de atividade entre os blocos � �� ,em que é usada a medida de blocagem nas direçõeshorizontal e vertical, conforme as expressões� � � �� �� � � �� �11 1 111 1 1, , ,1 1, ,1.1F M Nh h hf i jF M Nv vfvi jA d f i j BF M NA d f i j BF N M������ � ��� � �� �� � �� �� � �� � �� � �(6)A medida de borramento, representada por A ,conforme a Equação (7), é determinada pela médiaentre h A e v A ..2h v A AA�� (7)O segundo fator que contribui para a detecção doartefato de borramento é baseado na taxa decruzamento por zero (Zero Crossing – ZC) nasdireções horizontal e vertical, conforme as expressõesa seguir.� �� �� �� �21 1 121 1 11, , ,21, , ,2F M Nh hf i jF M Nv vf i jZ z f i jF M NZ z f i jF N M�� � ��� � ��� ��� �� � �� � �(8)em que os termos h z e v z são determinados por� �� �1, na direção horizontal, , ,0, caso contrário1, na direção vertical, , .0, caso contráriohvz f i jz f i j�� �� �� ��(9)Assim, a medida de borramento Z é determinadapela média entre as componentes h Z e v Z ..2h v Z ZZ�� (10)O método proposto também incorpora trêscaracterísticas temporais no treinamento da redeneural SLFN com o algoritmo ELM.A primeira característica temporal é a diferença demovimento entre quadros adjacentes, representadapela variável TI (Temporal perceptual Information) [31]que considera os valores de luminância de pixelslocalizados em uma mesma região de um quadro,conforme a expressão a seguir.� �21, , ,1FfTI m f i jF��� �� �� �� (11)em que o número total de quadros é F e � �m�f ,i, j ��� �é o desvio padrão da diferença de movimento(diferença de luminância) entre o quadro atualy �f ,i, j � e o quadro anterior y �f �1,i, j � .A segunda característica temporal é a média dadiferença absoluta (Mean Absolute Di�erence – MAD)[31] entre quadros sucessivos, representada pelaEquação (12) que de�ne a medida global da MADpara todos os quadros de um vídeo.� �� � � �2 1 11, , 1, , .1F M Nf i jMAD y f i j y f i jM N F � � �� � �� �� � �(12)A terceira característica temporal é a média dadiferença absoluta ponderada (weighted MeanAbsolute Di�erence – MADw) [32], a qual mede o graude variação das cenas de um vídeo que considera acena atual de um quadro f e do quadro anterior f �1,conforme a expressão:2 11.1Fff fMADMADwF � MAD �� �� � �� � ��(13)Assim, o método proposto combina ascaracterísticas espaciais e temporais em uma matriz� , , , , , � f f f f f f f x � A B Z TI MAD MADw , em que f é onúmero de amostras de vídeo. A Figura 1 apresentaas características temporais � espaciais de dezessetebases de dados de vídeos (denominada superconjuntoS) usadas neste trabalho e reportadas em [27]. Arecomendação ITU-T P.910 [31] de�ne a medida SI(Spatial perceptual Information) como informaçãoespacial perceptual. A inspeção visual dessa �guramostra que as amostras de vídeo usadas nestetrabalho apresentam uma grande variação espaçotemporal.Fig. 1. Características espaciais e temporais do superconjuntoS com 216 amostras de referência3.2. Métrica NRVQA-ELMtcO algoritmo ELM [28] desenvolvido para otreinamento de uma rede SLFN atribui pesos epolarizações (biases) de maneira aleatória, segundouma distribuição uniforme. O treinamento compreendeN amostras distintas representadas pela variável�� , � , , 1, , � n mf f f f � � x t x � t � f � N , cujo cálculo éconforme a expressão� � � �1, 1, , ,KK i j j f j fff � g b f N�x � � w x � � o � (14)em que f o é a saída (escore objetivo), g(x) é afunção de ativação e j � é o peso que conecta o jésimoneurônio da camada oculta ao neurônio desaída. De acordo com [28], uma rede SLFN com Knós na camada oculta e uma função de ativação g(x)pode apresentar um erro médio próximo de zero, i.e.,10Kf ff �� o � t � . Logo, há parâmetros j � , j w e j b talque� �1, 1, , ,Kj j f j ff� g b f N�� w x � � t � (15)em que f t é o vetor alvo (escores subjetivos),T1, , j j jn � �w w � � � w é o vetor de peso que conecta o jésimoneurônio da camada oculta ao neurônio dacamada de entrada, j b denota a polarização (bias) doj-ésimo neurônio da camada oculta, � � j f w x é oproduto interno de j w e f x . A Figura 2 ilustra oalgoritmo ELM empregado em uma arquitetura derede neural SLFN.xi1βjN1jKtibjN input neuron K hidden neuron output neuronβ1βKwjFig. 2. Arquitetura de uma rede neural SLFN usando algoritmode treinamento ELMO sistema linear da Equação (16) resume o métododo algoritmo ELM.Hβ � T, (16)em que a matriz da camada oculta é representada por� � � 1, , and 1, , � � H � h f � N j � K com a primeiralinha da matriz de características f x igual aT1 2 , , , f f f fn x � ��x x x �� , i.e., a primeira linha é igual a� � 1 1 1 1 1 1 1 , , , , , f f f f f f f x � A B Z TI MAD MADw . A matriz desaída e o vetor alvo (target) são de�nidos comoT1 , K β � ��β β �� eT1, , N T � ��t t �� , respectivamente. Otermo � �T1 , 1, , j jm j � � � j � K � � β β β denota o vetor depeso que conecta o j-ésimo neurônio da camadaoculta e os neurônios de saída. Hung et al. [28]propuseram a atribuição aleatória de pesos aosparâmetros j w e j b , a �m de seja obtido um pequenoerro não-nulo durante o treinamento. Considerando osistema linear da Equação (17), os pesos da camadade saída podem ser aproximados por† β � H T (17)em que † H é de�nida como matriz inversageneralizada de Moore-Penrose (MP) [33] da matrizde saída da camada oculta �H� . Além disso, oconjunto de treinamento � , nó oculta K e umafunção de ativação g �x � , e.g., função de base radial(Radial Basis Function – RBF), hard-limiting (hardlim),sigmoidal (sig) e seno (sin). Em resumo, o algoritmoELM compreende três etapas [28]:i) Atribuição aleatória dos pesos de entrada j w epolarizações j b ;ii) Cálculo da matriz da camada de saída H ;iii) Cálculo dos pesos de saída † β: β� H T .O método NRVQA-ELMtc [27] implementa umsimples critério de parada no treinamento da redeneural SLFN, quanto à atribuição aleatória dos pesosj w e j b . Embora este critério não seja direcionado,busca os pesos relacionados com o menor RMSE(Root-Mean-Square Error) entre a saída desejada(escore subjetivo) e o escore objetivo na fase detreinamento com k iterações (tipicamente, k � 100 ) eN neurônios na camada oculta. Além disso, conformeestudo realizado em [27], caso o RMSE seja menor doque 0,5 o algoritmo cessa a busca pelos parâmetrosj w e j b .4. RESULTADOS EXPERIMENTAISEsta seção apresenta os resultados de acurácia,i.e., os coe�cientes de correlação linear de Pearson(Pearson Linear Correlation Coe�cient – PLCC) [34],[35], entre os escores objetivos e subjetivos de 2627amostras de vídeo estudadas em [27].A Figura 3 compara a acurácia (PLCC) entre asmétricas de referência completa (FR) PSNR e MSSSIMcom o método proposto (NRVQA-ELMtc) paraas 2627 amostras de vídeo, pertencentes a 17 basesde dados de vídeo disponibilizadas por diversasinstituições e laboratórios [27]. A função de ativaçãousada na rede neural SLFN foi o seno (sin) com onúmero de amostras de teste igual ao número deneurônios na camada oculta ( N ). O método devalidação cruzada múltipla (K-fold) foi usado com oobjetivo de gerar uma distribuição de acurácia, a qualfoi analisada por meio do diagrama de caixa (box-plot)[36], em que o traço, o círculo e o quadrado, ambosem vermelho, representam a mediana, a média e odesvio padrão, respectivamente. Destaca-se queneste trabalho foi empregada uma validação cruzadacom um grande número de amostras de treinamentotestecom K � 100 , i.e., cada caixa do box-plotcomporta 100 experimentos distintos. Tipicamente, aliteratura apresenta trabalhos no campo da avaliaçãoFig. 3. Box-plot da predição da acurácia (PLCC) entre as métricas PSNR, MS-SSIM e o método proposto NRVQA-ELMtcde qualidade de vídeo com K entre 5 e 10 [37], [38].Pela inspeção visual da Figura 3 observa-se que odesempenho do método proposto é superior àsmétricas FR, em quaisquer condições de teste, i.e.,para qualquer quantidade de amostras de teste(número de neurônios na camada oculta) entre 25 e500. Em especial, para N � 50 , o método propostoapresenta valores de PLCC, em termos da média emediana, acima de 0,8, denotando uma forteassociação entre os escores objetivos e subjetivos, natarefa de predição de qualidade de vídeo. Isto ocorredevido à grande quantidade de amostras de vídeousadas no treinamento, e.g., para N � 300 foramusadas 2327 amostras de treinamento, ou seja,mesmo usando pares de treinamento-teste disjuntos,o método proposto mostra uma acurácia superior àsmétricas de referência completa. A assimetria positiva,i.e., a maior concentração da acurácia entre osegundo quartil (mediana) e o terceiro quartil, nadistribuição do box-plot nos testes com 300 e 500neurônios na camada oculta, indica que o métodoproposto apresenta um desempenho expressivo emcomparação com as métricas FR.Entretanto, mesmo para N entre 25 e 50, ométodo proposto apresentou uma acurácia maior doque as métricas FR, cujo melhor resultado foi paraN � 25 com o desvio-quartil (amplitude interquartílica)con�nado entre 0,65 e 0,8. Além disso, este resultadotambém apresentou assimetria positiva com a médiado PLCC em torno de 0,75.5. CONCLUSÃOEste trabalho apresentou uma métrica NR baseadaem uma rede neural arti�cial SLFN, cujo treinamento édeterminado pelo algoritmo ELM, o qual consideracaracterísticas espaço-temporais e os escoressubjetivos (alvos) extraídos de 2627 amostrastreinamento. Além disso, este trabalho propõe umaextensão do algoritmo ELM por meio de um simplescritério de parada, a �m de que sejam obtidosparâmetros da rede neural arti�cial relacionados como menor RMSE. Tipicamente, a comparação entremétricas FR e NR é injusta, devido à ausência dovídeo de referência na obtenção do escore dequalidade em métricas NR. Entretanto, os resultadosexperimentais mostram que o método propostoapresentou desempenho superior às métricas dereferência completa PSNR e MS-SSIM, sobretudo,quando o número de amostras de teste e de neurôniosna camada oculta da rede SLFN é maior do que 250.Logo, a métrica NRVQA-ELMtc pode ser empregadano monitoramento de qualidade em sistemas detransmissão e recepção de vídeo digital, tais comoIPTV (Internet Protocol Television), TV digital ou emdispositivos móveis, tais como ultrabooks,smartphones, tablets e em aparelhos WiDi (WirelessDisplay).REFERÊNCIAS[1] S. Winkler, “Issues in vision modeling for perceptualvideo quality assessment,” Signal Processing, vol. 78,no. 2, pp. 231–252, 1999.[2] Z. Wang and A. C. Bovik, Modern image qualityassessment. San Rafael, CA: Morgan & Claypool,2006.[3] W. Lin and C.-C. Jay Kuo, “Perceptual visual qualitymetrics: A survey,” Journal of Visual Communicationand Image Representation, vol. 22, no. 4, pp. 297–312,May 2011.[4] S. S. Hemami and A. R. Reibman, “No-reference imageand video quality estimation: Applications and humanmotivateddesign,” Signal Processing: ImageCommunication, vol. 25, no. 7, pp. 469–481, 2010.[5] Z. Wang and A. Bovik, “Reduced- and No-ReferenceImage Quality Assessment,” IEEE Signal ProcessingMagazine, vol. 28, no. 6, pp. 29–40, Nov. 2011.[6] R. V. Babu, S. Suresh, and A. Perkis, “No-referenceJPEG-image quality assessment using GAP-RBF,”Signal Processing, vol. 87, no. 6, pp. 1493–1503, 2007.[7] X. Jiang, F. Meng, J. Xu, and W. Zhou, “No-ReferencePerceptual Video Quality Measurement for HighDe�nition Videos Based on an Arti�cial NeuralNetwork,” in Computer and Electrical Engineering,2008. ICCEE 2008. International Conference on, 2008,pp. 424–427.[8] J. Choe, K. Lee, C. Lee, and S. Korea, “No-referencevideo quality measurement using neural networks,” in2009 16th International Conference on Digital SignalProcessing, 2009, pp. 1–4.[9] S. Suresh, R. Venkatesh Babu, and H. J. Kim, “Noreferenceimage quality assessment using modi�edextreme learning machine classi�er,” Applied SoftComputing, vol. 9, no. 2, pp. 541–552, Mar. 2009.[10] A. M. Eskicioglu and P. S. Fisher, “Image qualitymeasures and their performance,” IEEE Transactionson Communications, vol. 43, no. 12, pp. 2959–2965,1995.[11] U. Engelke and H.-J. Zepernick, “Perceptual-basedQuality Metrics for Image and Video Services: ASurvey,” in Proceedings EuroNGI Conf. NextGeneration Internet Networks, 2007, pp. 190–197.[12] Z. Wang, A. C. Bovik, H. R. Sheikh, and E. PSimoncelli, “Image quality assessment: from errorvisibility to structural similarity.,” IEEE Transactions onImage Processing, vol. 13, no. 4, pp. 600–612, 2004.[13] Z. Wang, E. P. Simoncelli, and A. C. Bovik, “Multiscalestructural similarity for image quality assessment,” inThe Thrity-Seventh Asilomar Conference on Signals,Systems & Computers, 2003, 2003, vol. 2, no. 1, pp.1398–1402.[14] H. R. Wu, K. R. Rao, and A. A. Kassim, “Digital VideoImage Quality and Perceptual Coding,” Journal ofElectronic Imaging, vol. 16, no. 3, 2007.[15] Z. Wang and A. C. Bovik, “A universal image qualityindex,” IEEE Signal Processing Letters, vol. 9, no. 3,pp. 81–84, Mar. 2002.[16] Y. Shi, Y. Ding, R. Zhang, and J. Li, “Structure and HueSimilarity for Color Image Quality Assessment,” in 2009International Conference on Electronic ComputerTechnology, 2009, pp. 329–333.[17] W. B. Silva, A. A. P. Pohl, and K. V. O. Fonseca, “AReduced-Reference Video Quality Assessment Methodbased on the Activity-Di�erence of DCT Coe�cients,”IEICE Transactions on Information and Systems, vol. E96-D, no. 3, 2013.[18] P. Le Callet, C. Viard-Gaudin, and D. Barba, “A Convolutional Neural Network Approach for Objective Video Quality Assessment,” IEEE Transactions on Neural Networks, vol. 17, no. 5, pp. 1316–1327, 2006.[19] P. Le Callet and D. Barba, “Image Quality Assessment: From Sites Errors to a Global Appreciation of Quality,” in Proceedings of the Picture Coding Sympsium, 2001, pp. 105–108.[20] M. Miyahara, K. Kotani, and V. R. Algazi, “Objective picture quality scale (PQS) for image coding,” IEEE Transactions on Communications, vol. 46, no. 9, pp. 1215–1226, 1998.[21] M. Slanina, V. Ricny, and R. Forchheimer, “A Novel Metric for H.264/AVC No-Reference Quality Assessment,” in 14th International Workshop on Systems, Signals and Image Processing and 6th EURASIP Conference focused on Speech and Image Processing, Multimedia Communications and Services, 2007, pp. 114–117.[22] O. Sugimoto, S. Naito, S. Sakazawa, and A. Koike, “Objective perceptual video quality measurement method based on hybrid no reference framework,” in 16th IEEE International Conference on Image Processing (ICIP’09), 2009, pp. 2237–2240.[23] T. Oelbaum, C. Keimel, and K. Diepold, “Rule-Based No-Reference Video Quality Evaluation Using Additionally Coded Videos,” IEEE Journal of Selected Topics in Signal Processing, vol. 3, no. 2, pp. 294–303, 2009.[24] N. Staelens, N. Vercammen, Y. Dhondt, B. Vermeulen, P. Lambert, R. de Walle, and P. Demeester, “ViQID: A No-Reference bit stream-based visual quality impairment detector,” in Proceedings of the Second Int Quality of Multimedia Experience (QoMEX) Workshop, 2010, pp. 206–211.[25] F. Yang, S. Wan, Q. Xie, and H. R. Wu, “No-Reference Quality Assessment for Networked Video via Primary Analysis of Bit Stream,” IEEE Transactions on Circuits and Systems for Video Technology, vol. 20, no. 11, pp. 1544–1554, Nov. 2010.[26] Z. Wang, H. R. Sheikh, and A. C. Bovik, “Objective Video Quality Assessment,” in The Handbook of Video Databases: Design and Applications, B. Furht and O. Marques, Eds. Boca Raton, FL, USA: CRC Press, 2003, pp. 1041–1078.[27] W. B. da Silva and A. de A. P. Pohl, “Métodos Sem Referência Baseados em Características Espaço-Temporais para Avaliação Objetiva de Qualidade de Vídeo Digital,” Universidade Tecnológica Federal do Paraná (UTFPR), 2013.[28] G.-B. Huang, Q.-Y. Zhu, and C.-K. Siew, “Extreme learning machine: Theory and applications,” Neurocomputing, vol. 70, no. 1–3, pp. 489–501, Dec. 2006.[29] Z. Wang, H. R. Sheikh, and A. C. Bovik, “No-reference perceptual quality assessment of JPEG compressed images,” in Image Processing. 2002. Proceedings. IEEE International Conference on Image Processing, 2002, vol. 1, pp. vol.1 I–477 – I–480.[30] W. B. Silva and A. A. P. Pohl, “No-Reference Video Quality Assessment Method based on the Levenberg-Marquardt Minimization,” in XXX Brazilian Symposium on Telecommunications (SBrT’12), 2012.[31] ITU-T P.910, “Subjective video quality assessment methods for multimedia applications,” Standardization Sector of ITU, 1999.[32] W. Ding, Y. Tong, Q. Zhang, and D. Yang, “Image and Video Quality Assessment Using Neural Network and SVM,” Tsinghua Science & Technology, vol. 13, no. 1, pp. 112–116, 2008.[33] K. S. Banerjee, C. R. Rao, and S. K. Mitra, “Generalized Inverse of Matrices and Its Applications,” Technometrics, vol. 15, no. 1, p. 197, Feb. 1973.[34] VQEG, “Final report from the video quality experts group on the validation of reduced-reference and no-reference objective models for standard de�nition television, Phase I,” 2009.[35] VQEG, “Report on the validation of video quality models for high de�nition video content,” 2010.[36] J. W. Tukey, Exploratory Data Analysis. New York: Addison-Wesley Publishing Company, 1977.[37] P. Gastaldo and R. Zunino, “Neural networks for the no-reference assessment of perceived quality,” J. Electronic Imaging, vol. 14, no. 3, p. 033004, 2005.[38] R. Herzog, M. Čadík, T. O. Aydın, K. I. Kim, K. Myszkowski, and H.-P. Seidel, “NoRM: No-Reference Image Quality Metric for Realistic Image Synthesis,” Comp. Graph. Forum, vol. 31, no. 2pt4, pp. 545–554, 2012.

MÉTRICA SEM REFERÊNCIA BASEADA EM REDES NEURAISPARA AVALIAÇÃO OBJETIVA DE QUALIDADE DE VÍDEO DIGITALWyllian Bezerra da Silva, Alexandre de Almeida Prado PohlPrograma de Pós-Graduação em Engenharia Elétrica e Informática Industrial (CPGEI) – UTFPR, Curitiba, [email protected], [email protected]: Este trabalho apresenta uma métrica sem referência para avaliação de qualidade de vídeo digital baseada em uma rede neural arti�cial que usa uma versão estendida do algoritmo de aprendizado ELM (Extreme Learning Machine). O método proposto realiza o treinamento da rede neural a partir de seis características espaço-temporais. Os resultados experimentais mostram que o método proposto apresenta desempenho superior às métricas de referência completa PSNR e MS-SSIM na tarefa de predição de qualidade de vídeo. Logo, o método proposto pode ser usado no monitoramento de qualidade em sistemas de transmissão e recepção de vídeo digital, tais como IPTV e TV digital.Palavras chave: algoritmo ELM, avaliação objetiva de vídeo, métrica sem referência, rede neural arti�cial.1. INTRODUÇÃODurante os últimos anos, a literatura tem apresentado um número crescente publicações acerca de métricas objetivas para avaliação de qualidade de vídeo para diversas aplicações em radiodifusão ou no processamento de vídeo digital, seja na aquisição do sinal, codi�cação e decodi�cação, compressão, transmissão, restauração, armazenamento, segmentação e exibição de sinais de vídeo digital [1–4]. A avaliação de qualidade de vídeo digital pode ser realizada por meio de métricas subjetiva e objetiva. A primeira requer uma grande quantidade de recursos humanos e apresenta elevado custo em sua implementação [1–3]. Porém, as métricas objetivas são vantajosas quando apresentam um determinado grau de correlação com as métricas subjetivas. Logo, o desenvolvimento destas é um desa�o no campo de avaliação de qualidade de vídeo e imagem. Além disso, as métricas objetivas, devido à natureza de seu critério objetivo, independem de interação humana e são facilmente reprodutíveis [3]. Dentre as métricas objetivas destacam-se as métricas sem referência (No-Reference – NR), pois não necessitam do vídeo de referência no cálculo de sua medida. Entretanto, estas requerem um conhecimento a priori sobre as distorções em vídeo digital para que seja estabelecida uma correlação com os resultados subjetivos [3].A maioria das métricas NR encontradas na literatura são baseadas na avaliação de qualidade de imagens e em características relacionadas ao Sistema Visual Humano (SVH). Assim, o desenvolvimento de métricas NR é difícil, devido à necessidade de emular a percepção do SVH que envolve aspectos cognitivos, emocionais e estéticos relacionados ao conteúdo do vídeo e que são altamente dependentes do observador [4], [5].A literatura reporta diversos esforços no desenvolvimento de métricas para avaliação de qualidade de vídeo baseadas em redes neurais e em algoritmos de aprendizado. Babu et al. [6] apresentam uma métrica para avaliar a qualidade de imagens comprimidas em JPEG (Joint Photographic Experts Group) por meio de um algoritmo de aprendizado de crescimento e propõem o uso de uma rede neural GAP-RBF (Growing and Pruning Radial Basis Function) que usa características relacionadas ao SVH. Jiang et al. [7] desenvolveram uma métrica NR para avaliação de qualidade de vídeo em HD (High De�nition) baseada em uma rede neural treinada pelo algoritmo BP (Back-Propagation) que usa seis características espaço-temporais e a RoI (Region of Interest). Choe et al. [8] desenvolveram uma métrica NR baseada no �uxo de bits para avaliação de qualidade de vídeo codi�cado em H.264. Esta métrica extrai características quadro a quadro e usa uma rede neural alimentada adiante (feedforward) com três camadas. Suresh et al. [9] apresentaram uma extensão do algoritmo ELM na tarefa de avaliar a qualidade de imagens comprimidas em JPEG com base no esquema de seleção múltipla KS-ELM (K-fold selection Scheme using ELM) e no algoritmo RCGA-ELM (Real-Coded Genetic Algorithm using ELM) para seleção dos pesos de entrada e polarizações.Este trabalho apresenta uma versão estendida do algoritmo ELM para redes neurais SLFN (Single-hidden-Layer Feedforward Neural Networks) que implementa um simples critério de parada na fase de treinamento. Além disso, esse método usa seis características espaço-temporais de vídeos submetidos a diversas condições de distorção.Este artigo está dividido da seguinte maneira: a Seção 2 descreve as métricas para avaliação de qualidade de vídeo. A Seção 3 descreve o método NR proposto para avalição de qualidade de vídeo digital. A Seção 4 apresenta os resultados experimentais, em que são comparados o método NR proposto e duas métricas FR. Finalmente, a Seção 5 apresenta a conclusão do artigo.2. AVALIAÇÃO DE QUALIDADE DE VÍDEOO processo de avaliação de qualidade de vídeopode ser realizado com a aplicação de métricassubjetivas ou objetivas. As métricas subjetivasestimam a qualidade do vídeo por meio de avaliadoreshumanos. Logo, exigem um alto custo, poisnecessitam de uma grande quantidade de recursoshumanos e apresentam problemas quanto aosrequisitos de imparcialidade e reprodutibilidade,tornando-se inapropriadas em sistemas deradiodifusão ou em provedores de conteúdo [10], [11].Por outro lado, as métricas objetivas são baseadas emmodelos matemáticos, cujo objetivo é produzir umescore de qualidade que emule a percepção do SVH.Além disso, as métricas objetivas requerem baixocusto de implementação (quando comparadas com asmétricas subjetivas) e não apresentam problemasquanto à reprodutibilidade e imparcialidade.As métricas objetivas para avaliação de qualidadede vídeo podem ser classi�cadas em três categorias:(i) métricas de referência completa (Full-Reference –FR); (ii) métricas de referência reduzida (Reduced-Reference – RR); (iii) métricas sem referência (NR).2.1. Métricas FRAs métricas FR requerem o vídeo de referência(fonte) no cálculo do escore de qualidade. Estasmétricas são amplamente utilizadas no processo devalidação de métricas RR ou NR, por meio dacomparação de desempenho de�nida pelasrecomendações do Grupo de Especialistas emQualidade de Vídeo (VQEG – Video Quality ExpertsGroup) que é um órgão de padronização internacionalde métricas subjetivas e objetivas de qualidade devídeo. Dentre as métricas FR, destacam-se o PSNR(Peak Signal-to-Noise Ratio), SSIM (StructuralSIMilarity index) [12] e MS-SSIM (Multi-ScaleStructural SIMilarity index) [13].O PSNR é uma métrica FR baseada no erro pixel apixel de fácil implementação. Entretanto, apresentabaixa correlação com o SVH [14]. A sua medida éprocessada sobre o erro quadro a quadro, i.e., entre oquadro original x e o quadro y . A expressão a seguirde�ne o PSNR para um conjunto de quadros F .2011PSNR 20log ,Fff fvF � MSE� �� � �� �� ��(1)com� � � �20 01MSE , , , , ,N Mfi jx f i j y f i jNM � �� ���� � ��(2)em que o termo f v é igual a (2 1) k � , cujo k é onúmero de bits por pixel, i.e., é a componente deluminância do quadro f . Os termos x �f ,i, j � ey �f ,i, j � são os valores de luminância do quadro deorigem e degradado, respectivamente. Ascomponentes bidimensionais são representadas pelonúmero de colunas N e pelo número de linhas M . Otermo f MSE é de�nido como erro quadrático médioou MSE (Mean Square Error).A métrica SSIM baseia-se no fato de que o SVH éfortemente adaptado para extrair informações dascaracterísticas estruturais de um quadro ou imagem.Logo, uma medida de similaridade estrutural (oudistorção) pode prover boa aproximação para aqualidade perceptual de um vídeo [3, 7–9]. Sejam x ey dois sinais não-negativos, em que y é o sinaldegradado e x é o sinal original (sem perda dequalidade), a medida de similaridade é utilizada comoum índice quantitativo de qualidade do sinal distorcido,ou seja, x é tomado como a referência para medir aqualidade de y . A métrica SSIM possui diversasextensões, dentre as quais a versão MS-SSIM,proposta por Wang et al. [13] que assume umaabordagem multiescalar.2.2. Métricas RRAs métricas de referência reduzida retiram certaquantidade de características do vídeo original (fonte),baseadas em componentes espaciais, temporais, nodomínio da frequência ou no �uxo de bits (bitstream).Este tipo de métrica é amplamente utilizada nomonitoramento de transmissões em rede [17]. Nestetipo de cenário de aplicação, o vídeo é transmitidocom uma sequência de informação codi�cada(overhead) e no lado receptor ocorre a suadecodi�cação, seguido pelo cálculo do índice dequalidade, o qual é obtido por meio da comparaçãoentre a representação reduzida da informação nospares emissor e receptor [18]. Tipicamente, métricasRR são implementadas por meio de funções, divididasem duas etapas [19]: (i) cálculo do erro entre osvídeos original e distorcido, constituído pela diferençade suas características, a �m de compor arepresentação reduzida da informação; (ii) função queagrupa os erros ou diferenças para obter um índice dequalidade global. Algumas métricas RR explorampropriedades dos artefatos, por meio da extração decaracterísticas e um modelo de parametrização [20]com foco em tipos especí�cos de distorções(artefatos). Esta abordagem é encontrada em Silva etal. [17], cujo cálculo do escore de qualidade ébaseado na diferença de atividade dos coe�cientesDCT (Discrete Cosine Transform) em um macro blococom resolução de 16�16 pixels.2.3. Métricas NRAs métricas NR extraem característicasrelacionadas ao SVH do vídeo distorcido, i.e., narecepção do sinal de vídeo [14]. Tipicamente, há duasabordagens no desenvolvimento destas métricas: (i)extração dos parâmetros sobre o �uxo de bits, taiscomo a taxa de compressão, informaçõesrelacionadas ao GoP (Group of Pictures), estimaçãode movimento, per�l e nível de codi�cação, bem comoo parâmetro de quantização ou QP (QuantizationParameter) [21–25]. Métricas NR apresentam maiorcomplexidade quando são aplicadas em vídeo, devidoà variação temporal dos quadros, conteúdos dascenas e à di�culdade de compreensão dascaracterísticas do SVH [26]. Assim, algumas métricasdessa categoria exploram características espaciais etemporais na estimação de qualidade de vídeo [21].3. MÉTODO PROPOSTOO método proposto, denominado NRVQA-ELMtc(No-Reference Video Quality Assessment usingExtreme Learning Machine algorithm with terminationcriteria) [27] combina características espaciais etemporais, por meio de uma rede neural arti�cialSLFNs usando o algoritmo de treinamento ELM [28]com a implementação de um simples critério deparada.3.1. Características espaço-temporaisAs características espaciais incorporadas nométodo proposto são baseadas em medidas deartefatos em vídeo digital, i.e., distorções de blocageme borramento desenvolvidas por Wang et al. [20].Assim, a componente de luminância do quadro f érepresentada por y(f , i, j ) com i � ��1,M�� e j � ��1, N�� ,em que M e N são os números de linhas e colunas,respectivamente, de um quadro. Logo, as diferençasde luminância ao longo das linhas e colunas sãorepresentadas, respectivamente, pelas expressões aseguir.� � � � � � � �� � � � � � � �, , , , 1 , , , 1, 1 ,, , , 1, , , , 1, 1 .hvd f i j y f i j y f i j j Nd f i j y f i j y f i j i M� � � � �� � � � �(3)O efeito de blocagem pode ser estimado pelamédia das diferenças entre as bordas dos blocos daDCT (Discrete Cosine Transform) nas direçõeshorizontal e vertical para uma sequência F dequadros, conforme mostra a Equação (4), com ummacrobloco de dimensão � �� , cujo tamanho típico éde � � 8 [20].� � ��� � � �111 1 1111 1 11, , 1 ,111, 1 , .11NF Mh hf i jMF Nvi jvfB d f i jNF MB d f i jMF N��������� � ���� � �� �� �� � � �� � �� �� �� � � �� � �� � �� � �(4)A medida de blocagem em uma sequência devídeo com F quadros é determinada pela média entreh B e v B , caracterizando a medida B , conforme aexpressão a seguir..2h v B BB�� (5)Os efeitos de borramento são estimados pelocálculo da redução de atividade entre os blocos � �� ,em que é usada a medida de blocagem nas direçõeshorizontal e vertical, conforme as expressões� � � �� �� � � �� �11 1 111 1 1, , ,1 1, ,1.1F M Nh h hf i jF M Nv vfvi jA d f i j BF M NA d f i j BF N M������ � ��� � �� �� � �� �� � �� � �� � �(6)A medida de borramento, representada por A ,conforme a Equação (7), é determinada pela médiaentre h A e v A ..2h v A AA�� (7)O segundo fator que contribui para a detecção doartefato de borramento é baseado na taxa decruzamento por zero (Zero Crossing – ZC) nasdireções horizontal e vertical, conforme as expressõesa seguir.� �� �� �� �21 1 121 1 11, , ,21, , ,2F M Nh hf i jF M Nv vf i jZ z f i jF M NZ z f i jF N M�� � ��� � ��� ��� �� � �� � �(8)em que os termos h z e v z são determinados por� �� �1, na direção horizontal, , ,0, caso contrário1, na direção vertical, , .0, caso contráriohvz f i jz f i j�� �� �� ��(9)Assim, a medida de borramento Z é determinadapela média entre as componentes h Z e v Z ..2h v Z ZZ�� (10)O método proposto também incorpora trêscaracterísticas temporais no treinamento da redeneural SLFN com o algoritmo ELM.A primeira característica temporal é a diferença demovimento entre quadros adjacentes, representadapela variável TI (Temporal perceptual Information) [31]que considera os valores de luminância de pixelslocalizados em uma mesma região de um quadro,conforme a expressão a seguir.� �21, , ,1FfTI m f i jF��� �� �� �� (11)em que o número total de quadros é F e � �m�f ,i, j ��� �é o desvio padrão da diferença de movimento(diferença de luminância) entre o quadro atualy �f ,i, j � e o quadro anterior y �f �1,i, j � .A segunda característica temporal é a média dadiferença absoluta (Mean Absolute Di�erence – MAD)[31] entre quadros sucessivos, representada pelaEquação (12) que de�ne a medida global da MADpara todos os quadros de um vídeo.� �� � � �2 1 11, , 1, , .1F M Nf i jMAD y f i j y f i jM N F � � �� � �� �� � �(12)A terceira característica temporal é a média dadiferença absoluta ponderada (weighted MeanAbsolute Di�erence – MADw) [32], a qual mede o graude variação das cenas de um vídeo que considera acena atual de um quadro f e do quadro anterior f �1,conforme a expressão:2 11.1Fff fMADMADwF � MAD �� �� � �� � ��(13)Assim, o método proposto combina ascaracterísticas espaciais e temporais em uma matriz� , , , , , � f f f f f f f x � A B Z TI MAD MADw , em que f é onúmero de amostras de vídeo. A Figura 1 apresentaas características temporais � espaciais de dezessetebases de dados de vídeos (denominada superconjuntoS) usadas neste trabalho e reportadas em [27]. Arecomendação ITU-T P.910 [31] de�ne a medida SI(Spatial perceptual Information) como informaçãoespacial perceptual. A inspeção visual dessa �guramostra que as amostras de vídeo usadas nestetrabalho apresentam uma grande variação espaçotemporal.Fig. 1. Características espaciais e temporais do superconjuntoS com 216 amostras de referência3.2. Métrica NRVQA-ELMtcO algoritmo ELM [28] desenvolvido para otreinamento de uma rede SLFN atribui pesos epolarizações (biases) de maneira aleatória, segundouma distribuição uniforme. O treinamento compreendeN amostras distintas representadas pela variável�� , � , , 1, , � n mf f f f � � x t x � t � f � N , cujo cálculo éconforme a expressão� � � �1, 1, , ,KK i j j f j fff � g b f N�x � � w x � � o � (14)em que f o é a saída (escore objetivo), g(x) é afunção de ativação e j � é o peso que conecta o jésimoneurônio da camada oculta ao neurônio desaída. De acordo com [28], uma rede SLFN com Knós na camada oculta e uma função de ativação g(x)pode apresentar um erro médio próximo de zero, i.e.,10Kf ff �� o � t � . Logo, há parâmetros j � , j w e j b talque� �1, 1, , ,Kj j f j ff� g b f N�� w x � � t � (15)em que f t é o vetor alvo (escores subjetivos),T1, , j j jn � �w w � � � w é o vetor de peso que conecta o jésimoneurônio da camada oculta ao neurônio dacamada de entrada, j b denota a polarização (bias) doj-ésimo neurônio da camada oculta, � � j f w x é oproduto interno de j w e f x . A Figura 2 ilustra oalgoritmo ELM empregado em uma arquitetura derede neural SLFN.xi1βjN1jKtibjN input neuron K hidden neuron output neuronβ1βKwjFig. 2. Arquitetura de uma rede neural SLFN usando algoritmode treinamento ELMO sistema linear da Equação (16) resume o métododo algoritmo ELM.Hβ � T, (16)em que a matriz da camada oculta é representada por� � � 1, , and 1, , � � H � h f � N j � K com a primeiralinha da matriz de características f x igual aT1 2 , , , f f f fn x � ��x x x �� , i.e., a primeira linha é igual a� � 1 1 1 1 1 1 1 , , , , , f f f f f f f x � A B Z TI MAD MADw . A matriz desaída e o vetor alvo (target) são de�nidos comoT1 , K β � ��β β �� eT1, , N T � ��t t �� , respectivamente. Otermo � �T1 , 1, , j jm j � � � j � K � � β β β denota o vetor depeso que conecta o j-ésimo neurônio da camadaoculta e os neurônios de saída. Hung et al. [28]propuseram a atribuição aleatória de pesos aosparâmetros j w e j b , a �m de seja obtido um pequenoerro não-nulo durante o treinamento. Considerando osistema linear da Equação (17), os pesos da camadade saída podem ser aproximados por† β � H T (17)em que † H é de�nida como matriz inversageneralizada de Moore-Penrose (MP) [33] da matrizde saída da camada oculta �H� . Além disso, oconjunto de treinamento � , nó oculta K e umafunção de ativação g �x � , e.g., função de base radial(Radial Basis Function – RBF), hard-limiting (hardlim),sigmoidal (sig) e seno (sin). Em resumo, o algoritmoELM compreende três etapas [28]:i) Atribuição aleatória dos pesos de entrada j w epolarizações j b ;ii) Cálculo da matriz da camada de saída H ;iii) Cálculo dos pesos de saída † β: β� H T .O método NRVQA-ELMtc [27] implementa umsimples critério de parada no treinamento da redeneural SLFN, quanto à atribuição aleatória dos pesosj w e j b . Embora este critério não seja direcionado,busca os pesos relacionados com o menor RMSE(Root-Mean-Square Error) entre a saída desejada(escore subjetivo) e o escore objetivo na fase detreinamento com k iterações (tipicamente, k � 100 ) eN neurônios na camada oculta. Além disso, conformeestudo realizado em [27], caso o RMSE seja menor doque 0,5 o algoritmo cessa a busca pelos parâmetrosj w e j b .4. RESULTADOS EXPERIMENTAISEsta seção apresenta os resultados de acurácia,i.e., os coe�cientes de correlação linear de Pearson(Pearson Linear Correlation Coe�cient – PLCC) [34],[35], entre os escores objetivos e subjetivos de 2627amostras de vídeo estudadas em [27].A Figura 3 compara a acurácia (PLCC) entre asmétricas de referência completa (FR) PSNR e MSSSIMcom o método proposto (NRVQA-ELMtc) paraas 2627 amostras de vídeo, pertencentes a 17 basesde dados de vídeo disponibilizadas por diversasinstituições e laboratórios [27]. A função de ativaçãousada na rede neural SLFN foi o seno (sin) com onúmero de amostras de teste igual ao número deneurônios na camada oculta ( N ). O método devalidação cruzada múltipla (K-fold) foi usado com oobjetivo de gerar uma distribuição de acurácia, a qualfoi analisada por meio do diagrama de caixa (box-plot)[36], em que o traço, o círculo e o quadrado, ambosem vermelho, representam a mediana, a média e odesvio padrão, respectivamente. Destaca-se queneste trabalho foi empregada uma validação cruzadacom um grande número de amostras de treinamentotestecom K � 100 , i.e., cada caixa do box-plotcomporta 100 experimentos distintos. Tipicamente, aliteratura apresenta trabalhos no campo da avaliaçãoFig. 3. Box-plot da predição da acurácia (PLCC) entre as métricas PSNR, MS-SSIM e o método proposto NRVQA-ELMtcde qualidade de vídeo com K entre 5 e 10 [37], [38].Pela inspeção visual da Figura 3 observa-se que odesempenho do método proposto é superior àsmétricas FR, em quaisquer condições de teste, i.e.,para qualquer quantidade de amostras de teste(número de neurônios na camada oculta) entre 25 e500. Em especial, para N � 50 , o método propostoapresenta valores de PLCC, em termos da média emediana, acima de 0,8, denotando uma forteassociação entre os escores objetivos e subjetivos, natarefa de predição de qualidade de vídeo. Isto ocorredevido à grande quantidade de amostras de vídeousadas no treinamento, e.g., para N � 300 foramusadas 2327 amostras de treinamento, ou seja,mesmo usando pares de treinamento-teste disjuntos,o método proposto mostra uma acurácia superior àsmétricas de referência completa. A assimetria positiva,i.e., a maior concentração da acurácia entre osegundo quartil (mediana) e o terceiro quartil, nadistribuição do box-plot nos testes com 300 e 500neurônios na camada oculta, indica que o métodoproposto apresenta um desempenho expressivo emcomparação com as métricas FR.Entretanto, mesmo para N entre 25 e 50, ométodo proposto apresentou uma acurácia maior doque as métricas FR, cujo melhor resultado foi paraN � 25 com o desvio-quartil (amplitude interquartílica)con�nado entre 0,65 e 0,8. Além disso, este resultadotambém apresentou assimetria positiva com a médiado PLCC em torno de 0,75.5. CONCLUSÃOEste trabalho apresentou uma métrica NR baseadaem uma rede neural arti�cial SLFN, cujo treinamento édeterminado pelo algoritmo ELM, o qual consideracaracterísticas espaço-temporais e os escoressubjetivos (alvos) extraídos de 2627 amostrastreinamento. Além disso, este trabalho propõe umaextensão do algoritmo ELM por meio de um simplescritério de parada, a �m de que sejam obtidosparâmetros da rede neural arti�cial relacionados como menor RMSE. Tipicamente, a comparação entremétricas FR e NR é injusta, devido à ausência dovídeo de referência na obtenção do escore dequalidade em métricas NR. Entretanto, os resultadosexperimentais mostram que o método propostoapresentou desempenho superior às métricas dereferência completa PSNR e MS-SSIM, sobretudo,quando o número de amostras de teste e de neurôniosna camada oculta da rede SLFN é maior do que 250.Logo, a métrica NRVQA-ELMtc pode ser empregadano monitoramento de qualidade em sistemas detransmissão e recepção de vídeo digital, tais comoIPTV (Internet Protocol Television), TV digital ou emdispositivos móveis, tais como ultrabooks,smartphones, tablets e em aparelhos WiDi (WirelessDisplay).REFERÊNCIAS[1] S. Winkler, “Issues in vision modeling for perceptualvideo quality assessment,” Signal Processing, vol. 78,no. 2, pp. 231–252, 1999.[2] Z. Wang and A. C. Bovik, Modern image qualityassessment. San Rafael, CA: Morgan & Claypool,2006.[3] W. Lin and C.-C. Jay Kuo, “Perceptual visual qualitymetrics: A survey,” Journal of Visual Communicationand Image Representation, vol. 22, no. 4, pp. 297–312,May 2011.[4] S. S. Hemami and A. R. Reibman, “No-reference imageand video quality estimation: Applications and humanmotivateddesign,” Signal Processing: ImageCommunication, vol. 25, no. 7, pp. 469–481, 2010.[5] Z. Wang and A. Bovik, “Reduced- and No-ReferenceImage Quality Assessment,” IEEE Signal ProcessingMagazine, vol. 28, no. 6, pp. 29–40, Nov. 2011.[6] R. V. Babu, S. Suresh, and A. Perkis, “No-referenceJPEG-image quality assessment using GAP-RBF,”Signal Processing, vol. 87, no. 6, pp. 1493–1503, 2007.[7] X. Jiang, F. Meng, J. Xu, and W. Zhou, “No-ReferencePerceptual Video Quality Measurement for HighDe�nition Videos Based on an Arti�cial NeuralNetwork,” in Computer and Electrical Engineering,2008. ICCEE 2008. International Conference on, 2008,pp. 424–427.[8] J. Choe, K. Lee, C. Lee, and S. Korea, “No-referencevideo quality measurement using neural networks,” in2009 16th International Conference on Digital SignalProcessing, 2009, pp. 1–4.[9] S. Suresh, R. Venkatesh Babu, and H. J. Kim, “Noreferenceimage quality assessment using modi�edextreme learning machine classi�er,” Applied SoftComputing, vol. 9, no. 2, pp. 541–552, Mar. 2009.[10] A. M. Eskicioglu and P. S. Fisher, “Image qualitymeasures and their performance,” IEEE Transactionson Communications, vol. 43, no. 12, pp. 2959–2965,1995.[11] U. Engelke and H.-J. Zepernick, “Perceptual-basedQuality Metrics for Image and Video Services: ASurvey,” in Proceedings EuroNGI Conf. NextGeneration Internet Networks, 2007, pp. 190–197.[12] Z. Wang, A. C. Bovik, H. R. Sheikh, and E. PSimoncelli, “Image quality assessment: from errorvisibility to structural similarity.,” IEEE Transactions onImage Processing, vol. 13, no. 4, pp. 600–612, 2004.[13] Z. Wang, E. P. Simoncelli, and A. C. Bovik, “Multiscalestructural similarity for image quality assessment,” inThe Thrity-Seventh Asilomar Conference on Signals,Systems & Computers, 2003, 2003, vol. 2, no. 1, pp.1398–1402.[14] H. R. Wu, K. R. Rao, and A. A. Kassim, “Digital VideoImage Quality and Perceptual Coding,” Journal ofElectronic Imaging, vol. 16, no. 3, 2007.[15] Z. Wang and A. C. Bovik, “A universal image qualityindex,” IEEE Signal Processing Letters, vol. 9, no. 3,pp. 81–84, Mar. 2002.[16] Y. Shi, Y. Ding, R. Zhang, and J. Li, “Structure and HueSimilarity for Color Image Quality Assessment,” in 2009International Conference on Electronic ComputerTechnology, 2009, pp. 329–333.[17] W. B. Silva, A. A. P. Pohl, and K. V. O. Fonseca, “AReduced-Reference Video Quality Assessment Methodbased on the Activity-Di�erence of DCT Coe�cients,”IEICE Transactions on Information and Systems, vol. E96-D, no. 3, 2013.[18] P. Le Callet, C. Viard-Gaudin, and D. Barba, “A Convolutional Neural Network Approach for Objective Video Quality Assessment,” IEEE Transactions on Neural Networks, vol. 17, no. 5, pp. 1316–1327, 2006.[19] P. Le Callet and D. Barba, “Image Quality Assessment: From Sites Errors to a Global Appreciation of Quality,” in Proceedings of the Picture Coding Sympsium, 2001, pp. 105–108.[20] M. Miyahara, K. Kotani, and V. R. Algazi, “Objective picture quality scale (PQS) for image coding,” IEEE Transactions on Communications, vol. 46, no. 9, pp. 1215–1226, 1998.[21] M. Slanina, V. Ricny, and R. Forchheimer, “A Novel Metric for H.264/AVC No-Reference Quality Assessment,” in 14th International Workshop on Systems, Signals and Image Processing and 6th EURASIP Conference focused on Speech and Image Processing, Multimedia Communications and Services, 2007, pp. 114–117.[22] O. Sugimoto, S. Naito, S. Sakazawa, and A. Koike, “Objective perceptual video quality measurement method based on hybrid no reference framework,” in 16th IEEE International Conference on Image Processing (ICIP’09), 2009, pp. 2237–2240.[23] T. Oelbaum, C. Keimel, and K. Diepold, “Rule-Based No-Reference Video Quality Evaluation Using Additionally Coded Videos,” IEEE Journal of Selected Topics in Signal Processing, vol. 3, no. 2, pp. 294–303, 2009.[24] N. Staelens, N. Vercammen, Y. Dhondt, B. Vermeulen, P. Lambert, R. de Walle, and P. Demeester, “ViQID: A No-Reference bit stream-based visual quality impairment detector,” in Proceedings of the Second Int Quality of Multimedia Experience (QoMEX) Workshop, 2010, pp. 206–211.[25] F. Yang, S. Wan, Q. Xie, and H. R. Wu, “No-Reference Quality Assessment for Networked Video via Primary Analysis of Bit Stream,” IEEE Transactions on Circuits and Systems for Video Technology, vol. 20, no. 11, pp. 1544–1554, Nov. 2010.[26] Z. Wang, H. R. Sheikh, and A. C. Bovik, “Objective Video Quality Assessment,” in The Handbook of Video Databases: Design and Applications, B. Furht and O. Marques, Eds. Boca Raton, FL, USA: CRC Press, 2003, pp. 1041–1078.[27] W. B. da Silva and A. de A. P. Pohl, “Métodos Sem Referência Baseados em Características Espaço-Temporais para Avaliação Objetiva de Qualidade de Vídeo Digital,” Universidade Tecnológica Federal do Paraná (UTFPR), 2013.[28] G.-B. Huang, Q.-Y. Zhu, and C.-K. Siew, “Extreme learning machine: Theory and applications,” Neurocomputing, vol. 70, no. 1–3, pp. 489–501, Dec. 2006.[29] Z. Wang, H. R. Sheikh, and A. C. Bovik, “No-reference perceptual quality assessment of JPEG compressed images,” in Image Processing. 2002. Proceedings. IEEE International Conference on Image Processing, 2002, vol. 1, pp. vol.1 I–477 – I–480.[30] W. B. Silva and A. A. P. Pohl, “No-Reference Video Quality Assessment Method based on the Levenberg-Marquardt Minimization,” in XXX Brazilian Symposium on Telecommunications (SBrT’12), 2012.[31] ITU-T P.910, “Subjective video quality assessment methods for multimedia applications,” Standardization Sector of ITU, 1999.[32] W. Ding, Y. Tong, Q. Zhang, and D. Yang, “Image and Video Quality Assessment Using Neural Network and SVM,” Tsinghua Science & Technology, vol. 13, no. 1, pp. 112–116, 2008.[33] K. S. Banerjee, C. R. Rao, and S. K. Mitra, “Generalized Inverse of Matrices and Its Applications,” Technometrics, vol. 15, no. 1, p. 197, Feb. 1973.[34] VQEG, “Final report from the video quality experts group on the validation of reduced-reference and no-reference objective models for standard de�nition television, Phase I,” 2009.[35] VQEG, “Report on the validation of video quality models for high de�nition video content,” 2010.[36] J. W. Tukey, Exploratory Data Analysis. New York: Addison-Wesley Publishing Company, 1977.[37] P. Gastaldo and R. Zunino, “Neural networks for the no-reference assessment of perceived quality,” J. Electronic Imaging, vol. 14, no. 3, p. 033004, 2005.[38] R. Herzog, M. Čadík, T. O. Aydın, K. I. Kim, K. Myszkowski, and H.-P. Seidel, “NoRM: No-Reference Image Quality Metric for Realistic Image Synthesis,” Comp. Graph. Forum, vol. 31, no. 2pt4, pp. 545–554, 2012.

Revista de Radiodifusão • v. 08 • n. 09 • 201410

ANÁLISE DE DESEMPENHO DO SISTEMA DVB-T2 PARA TRANSMISSÃO DE 4K (UHD) USANDO 6 MHZ DE BANDA

Paulo Guedes Esperante 1, Cristiano Akamine 2, Gunnar Bedicks 3,Roberto Franco 4

1 SBT, São Paulo, São Paulo, [email protected] 2 Universidade Presbiteriana Mackenzie, São Paulo, São Paulo, [email protected]

3 Universidade Presbiteriana Mackenzie, São Paulo, São Paulo, [email protected] 4 SBT, São Paulo, São Paulo, [email protected]

Resumo: O DVB-T2 permite a transmissão de elevadas taxas de vídeo podendo atingir até 37,73 Mbps em 6 MHz de largura de banda. Com a evolução das compressões de vídeo o HEVC torna possível a transmissão terrestre em 4K-UHD, em que os encoders apresentam taxas de codificação em torno de 50% mais eficiente quando comparado ao H.264. Análises subjetivas apontam que as taxas ideais de codificação do HEVC estão em torno de 18 a 36 Mbps. Para transmissão de elevadas taxas são necessários sistemas robustos. Para isso o DVB-T2 utiliza diferentes blocos corretores de erro como o LDPC e BCH, e técnicas como rotacionamento da constelação, ajustes de diferentes modos das portadoras-pilotos entre outras técnicas que possibilitem a melhor configuração de acordo com as características de transmissão do meio de comunicação. O presente artigo aborda um estudo prático com emulações do DVB-T2 com transmissões em 6 MHz de banda com taxas de transmissões de 4K. Os testes foram realizados no laboratório de TV Digital do Instituto Presbiteriano Mackenzie com taxa de transmissões de 27,1 e 31,2 Mbps utilizando o critério “TOV” nos estudos de sensibilidade, relação sinal/ruído e a presença de multipercuso no canal de comunicação. Palavras chave: DVB-T2, HEVC, sensibilidade, relação sinal/ruído, multipercurso.

1. INTRODUÇÃO TEÓRICA

O sistema europeu segunda geração DVB-T2, já é uma realidade para países da América latina como Haiti, Suriname e Colômbia. O DVB-T2 apresenta uma serie de parâmetros e recursos permitindo uma transmissão com maior eficiência espectral (bits/Hz). Ao lado das transmissões mais eficientes e robustas foram desenvolvidas técnicas de codificação apresentando maior taxa de compressão e elevando o nível de qualidade [1], [2].

Em janeiro de 2013 foi publicada a primeira versão do High Efficiency Video Coding (HEVC), e recentemente testes de qualidade subjetiva apresentaram eficiência na compressão de até 75%, quando comparado ao H.264, padrão utilizado na maioria transmissões digital terrestre [3].

Diante da eficiência do HEVC as transmissões terrestres em Ultra High Definition (UHD) poderão se

tornar viáveis. Comercialmente existem dois tipos de alta definição o HD que é utilizado nas transmissões terrestres com resolução de 1920 x 1080 e o 4K-UHD cuja resolução é de 3840 x 2160, apresentando 4 vezes mais resolução que o HD [3], [4].

Acompanhando a linha do UHD existem estudos e testes realizados pela Japan Broadcasting Corporation (NHK) com transmissões de UHD em 8K com taxa de 91,8 Mbps utilizando compressão H.264. O 8K-UHD é chamado de segundo nível de UHD e apresenta uma resolução de 7680 x 4320. No entanto, o 8K com HEVC não é o foco deste artigo por conta das elevadas taxas de vídeos [3]-[5].

Diante dos atuais sistemas de televisão terrestre, o DVB-T2 apresenta para largura de banda 6 MHz taxa de até 37,73 Mbps e para largura de banda de 8 MHz taxa de até 53 Mbps, o que possibilita as transmissões em 4K. Estudos apontam que é possível realizar transmissões YUV420 4K com taxa de 18 Mbps utilizando uma largura de banda de 6 MHz resultando numa qualidade de imagem de vídeo boa. Segundo análise realizada por Bae (2013) é imperceptível a diferença entre o vídeo original e o codificado HEVC com taxas de 18 a 36 Mbps [3].

De modo geral a codificação HEVC contem três macros blocos desenvolvidos com a intenção de otimizar os processos de codificação. Os blocos são Unidade de Codificação (CU – Coding Unit), Unidade de Transformada e Quantização (TU – Transform Unit) e Unidade de Predição (PU – Prediction Unit). A figura 1 representa graficamente a divisão de um quadro de vídeo LCU (Largest Coding Unit) [3], [5].

Fig. 1. Exemplo de uma treeblock dividida em CU´s a esq. e uma árvore quadrática de uma treeblock a dir.

Page 11: Revista de RADIODIFUSÃO - SET PORTAL · Sinais de TV Digital ISDB-Tb via VHF e UHF na Cidade do Gama – DF – Brasil Akamine, Cristiano Bedicks Jr, Gunnar ... cujas frequências

MÉTRICA SEM REFERÊNCIA BASEADA EM REDES NEURAISPARA AVALIAÇÃO OBJETIVA DE QUALIDADE DE VÍDEO DIGITALWyllian Bezerra da Silva, Alexandre de Almeida Prado PohlPrograma de Pós-Graduação em Engenharia Elétrica e Informática Industrial (CPGEI) – UTFPR, Curitiba, [email protected], [email protected]: Este trabalho apresenta uma métrica sem referência para avaliação de qualidade de vídeo digital baseada em uma rede neural arti�cial que usa uma versão estendida do algoritmo de aprendizado ELM (Extreme Learning Machine). O método proposto realiza o treinamento da rede neural a partir de seis características espaço-temporais. Os resultados experimentais mostram que o método proposto apresenta desempenho superior às métricas de referência completa PSNR e MS-SSIM na tarefa de predição de qualidade de vídeo. Logo, o método proposto pode ser usado no monitoramento de qualidade em sistemas de transmissão e recepção de vídeo digital, tais como IPTV e TV digital.Palavras chave: algoritmo ELM, avaliação objetiva de vídeo, métrica sem referência, rede neural arti�cial.1. INTRODUÇÃODurante os últimos anos, a literatura tem apresentado um número crescente publicações acerca de métricas objetivas para avaliação de qualidade de vídeo para diversas aplicações em radiodifusão ou no processamento de vídeo digital, seja na aquisição do sinal, codi�cação e decodi�cação, compressão, transmissão, restauração, armazenamento, segmentação e exibição de sinais de vídeo digital [1–4]. A avaliação de qualidade de vídeo digital pode ser realizada por meio de métricas subjetiva e objetiva. A primeira requer uma grande quantidade de recursos humanos e apresenta elevado custo em sua implementação [1–3]. Porém, as métricas objetivas são vantajosas quando apresentam um determinado grau de correlação com as métricas subjetivas. Logo, o desenvolvimento destas é um desa�o no campo de avaliação de qualidade de vídeo e imagem. Além disso, as métricas objetivas, devido à natureza de seu critério objetivo, independem de interação humana e são facilmente reprodutíveis [3]. Dentre as métricas objetivas destacam-se as métricas sem referência (No-Reference – NR), pois não necessitam do vídeo de referência no cálculo de sua medida. Entretanto, estas requerem um conhecimento a priori sobre as distorções em vídeo digital para que seja estabelecida uma correlação com os resultados subjetivos [3].A maioria das métricas NR encontradas na literatura são baseadas na avaliação de qualidade de imagens e em características relacionadas ao Sistema Visual Humano (SVH). Assim, o desenvolvimento de métricas NR é difícil, devido à necessidade de emular a percepção do SVH que envolve aspectos cognitivos, emocionais e estéticos relacionados ao conteúdo do vídeo e que são altamente dependentes do observador [4], [5].A literatura reporta diversos esforços no desenvolvimento de métricas para avaliação de qualidade de vídeo baseadas em redes neurais e em algoritmos de aprendizado. Babu et al. [6] apresentam uma métrica para avaliar a qualidade de imagens comprimidas em JPEG (Joint Photographic Experts Group) por meio de um algoritmo de aprendizado de crescimento e propõem o uso de uma rede neural GAP-RBF (Growing and Pruning Radial Basis Function) que usa características relacionadas ao SVH. Jiang et al. [7] desenvolveram uma métrica NR para avaliação de qualidade de vídeo em HD (High De�nition) baseada em uma rede neural treinada pelo algoritmo BP (Back-Propagation) que usa seis características espaço-temporais e a RoI (Region of Interest). Choe et al. [8] desenvolveram uma métrica NR baseada no �uxo de bits para avaliação de qualidade de vídeo codi�cado em H.264. Esta métrica extrai características quadro a quadro e usa uma rede neural alimentada adiante (feedforward) com três camadas. Suresh et al. [9] apresentaram uma extensão do algoritmo ELM na tarefa de avaliar a qualidade de imagens comprimidas em JPEG com base no esquema de seleção múltipla KS-ELM (K-fold selection Scheme using ELM) e no algoritmo RCGA-ELM (Real-Coded Genetic Algorithm using ELM) para seleção dos pesos de entrada e polarizações.Este trabalho apresenta uma versão estendida do algoritmo ELM para redes neurais SLFN (Single-hidden-Layer Feedforward Neural Networks) que implementa um simples critério de parada na fase de treinamento. Além disso, esse método usa seis características espaço-temporais de vídeos submetidos a diversas condições de distorção.Este artigo está dividido da seguinte maneira: a Seção 2 descreve as métricas para avaliação de qualidade de vídeo. A Seção 3 descreve o método NR proposto para avalição de qualidade de vídeo digital. A Seção 4 apresenta os resultados experimentais, em que são comparados o método NR proposto e duas métricas FR. Finalmente, a Seção 5 apresenta a conclusão do artigo.2. AVALIAÇÃO DE QUALIDADE DE VÍDEOO processo de avaliação de qualidade de vídeopode ser realizado com a aplicação de métricassubjetivas ou objetivas. As métricas subjetivasestimam a qualidade do vídeo por meio de avaliadoreshumanos. Logo, exigem um alto custo, poisnecessitam de uma grande quantidade de recursoshumanos e apresentam problemas quanto aosrequisitos de imparcialidade e reprodutibilidade,tornando-se inapropriadas em sistemas deradiodifusão ou em provedores de conteúdo [10], [11].Por outro lado, as métricas objetivas são baseadas emmodelos matemáticos, cujo objetivo é produzir umescore de qualidade que emule a percepção do SVH.Além disso, as métricas objetivas requerem baixocusto de implementação (quando comparadas com asmétricas subjetivas) e não apresentam problemasquanto à reprodutibilidade e imparcialidade.As métricas objetivas para avaliação de qualidadede vídeo podem ser classi�cadas em três categorias:(i) métricas de referência completa (Full-Reference –FR); (ii) métricas de referência reduzida (Reduced-Reference – RR); (iii) métricas sem referência (NR).2.1. Métricas FRAs métricas FR requerem o vídeo de referência(fonte) no cálculo do escore de qualidade. Estasmétricas são amplamente utilizadas no processo devalidação de métricas RR ou NR, por meio dacomparação de desempenho de�nida pelasrecomendações do Grupo de Especialistas emQualidade de Vídeo (VQEG – Video Quality ExpertsGroup) que é um órgão de padronização internacionalde métricas subjetivas e objetivas de qualidade devídeo. Dentre as métricas FR, destacam-se o PSNR(Peak Signal-to-Noise Ratio), SSIM (StructuralSIMilarity index) [12] e MS-SSIM (Multi-ScaleStructural SIMilarity index) [13].O PSNR é uma métrica FR baseada no erro pixel apixel de fácil implementação. Entretanto, apresentabaixa correlação com o SVH [14]. A sua medida éprocessada sobre o erro quadro a quadro, i.e., entre oquadro original x e o quadro y . A expressão a seguirde�ne o PSNR para um conjunto de quadros F .2011PSNR 20log ,Fff fvF � MSE� �� � �� �� ��(1)com� � � �20 01MSE , , , , ,N Mfi jx f i j y f i jNM � �� ���� � ��(2)em que o termo f v é igual a (2 1) k � , cujo k é onúmero de bits por pixel, i.e., é a componente deluminância do quadro f . Os termos x �f ,i, j � ey �f ,i, j � são os valores de luminância do quadro deorigem e degradado, respectivamente. Ascomponentes bidimensionais são representadas pelonúmero de colunas N e pelo número de linhas M . Otermo f MSE é de�nido como erro quadrático médioou MSE (Mean Square Error).A métrica SSIM baseia-se no fato de que o SVH éfortemente adaptado para extrair informações dascaracterísticas estruturais de um quadro ou imagem.Logo, uma medida de similaridade estrutural (oudistorção) pode prover boa aproximação para aqualidade perceptual de um vídeo [3, 7–9]. Sejam x ey dois sinais não-negativos, em que y é o sinaldegradado e x é o sinal original (sem perda dequalidade), a medida de similaridade é utilizada comoum índice quantitativo de qualidade do sinal distorcido,ou seja, x é tomado como a referência para medir aqualidade de y . A métrica SSIM possui diversasextensões, dentre as quais a versão MS-SSIM,proposta por Wang et al. [13] que assume umaabordagem multiescalar.2.2. Métricas RRAs métricas de referência reduzida retiram certaquantidade de características do vídeo original (fonte),baseadas em componentes espaciais, temporais, nodomínio da frequência ou no �uxo de bits (bitstream).Este tipo de métrica é amplamente utilizada nomonitoramento de transmissões em rede [17]. Nestetipo de cenário de aplicação, o vídeo é transmitidocom uma sequência de informação codi�cada(overhead) e no lado receptor ocorre a suadecodi�cação, seguido pelo cálculo do índice dequalidade, o qual é obtido por meio da comparaçãoentre a representação reduzida da informação nospares emissor e receptor [18]. Tipicamente, métricasRR são implementadas por meio de funções, divididasem duas etapas [19]: (i) cálculo do erro entre osvídeos original e distorcido, constituído pela diferençade suas características, a �m de compor arepresentação reduzida da informação; (ii) função queagrupa os erros ou diferenças para obter um índice dequalidade global. Algumas métricas RR explorampropriedades dos artefatos, por meio da extração decaracterísticas e um modelo de parametrização [20]com foco em tipos especí�cos de distorções(artefatos). Esta abordagem é encontrada em Silva etal. [17], cujo cálculo do escore de qualidade ébaseado na diferença de atividade dos coe�cientesDCT (Discrete Cosine Transform) em um macro blococom resolução de 16�16 pixels.2.3. Métricas NRAs métricas NR extraem característicasrelacionadas ao SVH do vídeo distorcido, i.e., narecepção do sinal de vídeo [14]. Tipicamente, há duasabordagens no desenvolvimento destas métricas: (i)extração dos parâmetros sobre o �uxo de bits, taiscomo a taxa de compressão, informaçõesrelacionadas ao GoP (Group of Pictures), estimaçãode movimento, per�l e nível de codi�cação, bem comoo parâmetro de quantização ou QP (QuantizationParameter) [21–25]. Métricas NR apresentam maiorcomplexidade quando são aplicadas em vídeo, devidoà variação temporal dos quadros, conteúdos dascenas e à di�culdade de compreensão dascaracterísticas do SVH [26]. Assim, algumas métricasdessa categoria exploram características espaciais etemporais na estimação de qualidade de vídeo [21].3. MÉTODO PROPOSTOO método proposto, denominado NRVQA-ELMtc(No-Reference Video Quality Assessment usingExtreme Learning Machine algorithm with terminationcriteria) [27] combina características espaciais etemporais, por meio de uma rede neural arti�cialSLFNs usando o algoritmo de treinamento ELM [28]com a implementação de um simples critério deparada.3.1. Características espaço-temporaisAs características espaciais incorporadas nométodo proposto são baseadas em medidas deartefatos em vídeo digital, i.e., distorções de blocageme borramento desenvolvidas por Wang et al. [20].Assim, a componente de luminância do quadro f érepresentada por y(f , i, j ) com i � ��1,M�� e j � ��1, N�� ,em que M e N são os números de linhas e colunas,respectivamente, de um quadro. Logo, as diferençasde luminância ao longo das linhas e colunas sãorepresentadas, respectivamente, pelas expressões aseguir.� � � � � � � �� � � � � � � �, , , , 1 , , , 1, 1 ,, , , 1, , , , 1, 1 .hvd f i j y f i j y f i j j Nd f i j y f i j y f i j i M� � � � �� � � � �(3)O efeito de blocagem pode ser estimado pelamédia das diferenças entre as bordas dos blocos daDCT (Discrete Cosine Transform) nas direçõeshorizontal e vertical para uma sequência F dequadros, conforme mostra a Equação (4), com ummacrobloco de dimensão � �� , cujo tamanho típico éde � � 8 [20].� � ��� � � �111 1 1111 1 11, , 1 ,111, 1 , .11NF Mh hf i jMF Nvi jvfB d f i jNF MB d f i jMF N��������� � ���� � �� �� �� � � �� � �� �� �� � � �� � �� � �� � �(4)A medida de blocagem em uma sequência devídeo com F quadros é determinada pela média entreh B e v B , caracterizando a medida B , conforme aexpressão a seguir..2h v B BB�� (5)Os efeitos de borramento são estimados pelocálculo da redução de atividade entre os blocos � �� ,em que é usada a medida de blocagem nas direçõeshorizontal e vertical, conforme as expressões� � � �� �� � � �� �11 1 111 1 1, , ,1 1, ,1.1F M Nh h hf i jF M Nv vfvi jA d f i j BF M NA d f i j BF N M������ � ��� � �� �� � �� �� � �� � �� � �(6)A medida de borramento, representada por A ,conforme a Equação (7), é determinada pela médiaentre h A e v A ..2h v A AA�� (7)O segundo fator que contribui para a detecção doartefato de borramento é baseado na taxa decruzamento por zero (Zero Crossing – ZC) nasdireções horizontal e vertical, conforme as expressõesa seguir.� �� �� �� �21 1 121 1 11, , ,21, , ,2F M Nh hf i jF M Nv vf i jZ z f i jF M NZ z f i jF N M�� � ��� � ��� ��� �� � �� � �(8)em que os termos h z e v z são determinados por� �� �1, na direção horizontal, , ,0, caso contrário1, na direção vertical, , .0, caso contráriohvz f i jz f i j�� �� �� ��(9)Assim, a medida de borramento Z é determinadapela média entre as componentes h Z e v Z ..2h v Z ZZ�� (10)O método proposto também incorpora trêscaracterísticas temporais no treinamento da redeneural SLFN com o algoritmo ELM.A primeira característica temporal é a diferença demovimento entre quadros adjacentes, representadapela variável TI (Temporal perceptual Information) [31]que considera os valores de luminância de pixelslocalizados em uma mesma região de um quadro,conforme a expressão a seguir.� �21, , ,1FfTI m f i jF��� �� �� �� (11)em que o número total de quadros é F e � �m�f ,i, j ��� �é o desvio padrão da diferença de movimento(diferença de luminância) entre o quadro atualy �f ,i, j � e o quadro anterior y �f �1,i, j � .A segunda característica temporal é a média dadiferença absoluta (Mean Absolute Di�erence – MAD)[31] entre quadros sucessivos, representada pelaEquação (12) que de�ne a medida global da MADpara todos os quadros de um vídeo.� �� � � �2 1 11, , 1, , .1F M Nf i jMAD y f i j y f i jM N F � � �� � �� �� � �(12)A terceira característica temporal é a média dadiferença absoluta ponderada (weighted MeanAbsolute Di�erence – MADw) [32], a qual mede o graude variação das cenas de um vídeo que considera acena atual de um quadro f e do quadro anterior f �1,conforme a expressão:2 11.1Fff fMADMADwF � MAD �� �� � �� � ��(13)Assim, o método proposto combina ascaracterísticas espaciais e temporais em uma matriz� , , , , , � f f f f f f f x � A B Z TI MAD MADw , em que f é onúmero de amostras de vídeo. A Figura 1 apresentaas características temporais � espaciais de dezessetebases de dados de vídeos (denominada superconjuntoS) usadas neste trabalho e reportadas em [27]. Arecomendação ITU-T P.910 [31] de�ne a medida SI(Spatial perceptual Information) como informaçãoespacial perceptual. A inspeção visual dessa �guramostra que as amostras de vídeo usadas nestetrabalho apresentam uma grande variação espaçotemporal.Fig. 1. Características espaciais e temporais do superconjuntoS com 216 amostras de referência3.2. Métrica NRVQA-ELMtcO algoritmo ELM [28] desenvolvido para otreinamento de uma rede SLFN atribui pesos epolarizações (biases) de maneira aleatória, segundouma distribuição uniforme. O treinamento compreendeN amostras distintas representadas pela variável�� , � , , 1, , � n mf f f f � � x t x � t � f � N , cujo cálculo éconforme a expressão� � � �1, 1, , ,KK i j j f j fff � g b f N�x � � w x � � o � (14)em que f o é a saída (escore objetivo), g(x) é afunção de ativação e j � é o peso que conecta o jésimoneurônio da camada oculta ao neurônio desaída. De acordo com [28], uma rede SLFN com Knós na camada oculta e uma função de ativação g(x)pode apresentar um erro médio próximo de zero, i.e.,10Kf ff �� o � t � . Logo, há parâmetros j � , j w e j b talque� �1, 1, , ,Kj j f j ff� g b f N�� w x � � t � (15)em que f t é o vetor alvo (escores subjetivos),T1, , j j jn � �w w � � � w é o vetor de peso que conecta o jésimoneurônio da camada oculta ao neurônio dacamada de entrada, j b denota a polarização (bias) doj-ésimo neurônio da camada oculta, � � j f w x é oproduto interno de j w e f x . A Figura 2 ilustra oalgoritmo ELM empregado em uma arquitetura derede neural SLFN.xi1βjN1jKtibjN input neuron K hidden neuron output neuronβ1βKwjFig. 2. Arquitetura de uma rede neural SLFN usando algoritmode treinamento ELMO sistema linear da Equação (16) resume o métododo algoritmo ELM.Hβ � T, (16)em que a matriz da camada oculta é representada por� � � 1, , and 1, , � � H � h f � N j � K com a primeiralinha da matriz de características f x igual aT1 2 , , , f f f fn x � ��x x x �� , i.e., a primeira linha é igual a� � 1 1 1 1 1 1 1 , , , , , f f f f f f f x � A B Z TI MAD MADw . A matriz desaída e o vetor alvo (target) são de�nidos comoT1 , K β � ��β β �� eT1, , N T � ��t t �� , respectivamente. Otermo � �T1 , 1, , j jm j � � � j � K � � β β β denota o vetor depeso que conecta o j-ésimo neurônio da camadaoculta e os neurônios de saída. Hung et al. [28]propuseram a atribuição aleatória de pesos aosparâmetros j w e j b , a �m de seja obtido um pequenoerro não-nulo durante o treinamento. Considerando osistema linear da Equação (17), os pesos da camadade saída podem ser aproximados por† β � H T (17)em que † H é de�nida como matriz inversageneralizada de Moore-Penrose (MP) [33] da matrizde saída da camada oculta �H� . Além disso, oconjunto de treinamento � , nó oculta K e umafunção de ativação g �x � , e.g., função de base radial(Radial Basis Function – RBF), hard-limiting (hardlim),sigmoidal (sig) e seno (sin). Em resumo, o algoritmoELM compreende três etapas [28]:i) Atribuição aleatória dos pesos de entrada j w epolarizações j b ;ii) Cálculo da matriz da camada de saída H ;iii) Cálculo dos pesos de saída † β: β� H T .O método NRVQA-ELMtc [27] implementa umsimples critério de parada no treinamento da redeneural SLFN, quanto à atribuição aleatória dos pesosj w e j b . Embora este critério não seja direcionado,busca os pesos relacionados com o menor RMSE(Root-Mean-Square Error) entre a saída desejada(escore subjetivo) e o escore objetivo na fase detreinamento com k iterações (tipicamente, k � 100 ) eN neurônios na camada oculta. Além disso, conformeestudo realizado em [27], caso o RMSE seja menor doque 0,5 o algoritmo cessa a busca pelos parâmetrosj w e j b .4. RESULTADOS EXPERIMENTAISEsta seção apresenta os resultados de acurácia,i.e., os coe�cientes de correlação linear de Pearson(Pearson Linear Correlation Coe�cient – PLCC) [34],[35], entre os escores objetivos e subjetivos de 2627amostras de vídeo estudadas em [27].A Figura 3 compara a acurácia (PLCC) entre asmétricas de referência completa (FR) PSNR e MSSSIMcom o método proposto (NRVQA-ELMtc) paraas 2627 amostras de vídeo, pertencentes a 17 basesde dados de vídeo disponibilizadas por diversasinstituições e laboratórios [27]. A função de ativaçãousada na rede neural SLFN foi o seno (sin) com onúmero de amostras de teste igual ao número deneurônios na camada oculta ( N ). O método devalidação cruzada múltipla (K-fold) foi usado com oobjetivo de gerar uma distribuição de acurácia, a qualfoi analisada por meio do diagrama de caixa (box-plot)[36], em que o traço, o círculo e o quadrado, ambosem vermelho, representam a mediana, a média e odesvio padrão, respectivamente. Destaca-se queneste trabalho foi empregada uma validação cruzadacom um grande número de amostras de treinamentotestecom K � 100 , i.e., cada caixa do box-plotcomporta 100 experimentos distintos. Tipicamente, aliteratura apresenta trabalhos no campo da avaliaçãoFig. 3. Box-plot da predição da acurácia (PLCC) entre as métricas PSNR, MS-SSIM e o método proposto NRVQA-ELMtcde qualidade de vídeo com K entre 5 e 10 [37], [38].Pela inspeção visual da Figura 3 observa-se que odesempenho do método proposto é superior àsmétricas FR, em quaisquer condições de teste, i.e.,para qualquer quantidade de amostras de teste(número de neurônios na camada oculta) entre 25 e500. Em especial, para N � 50 , o método propostoapresenta valores de PLCC, em termos da média emediana, acima de 0,8, denotando uma forteassociação entre os escores objetivos e subjetivos, natarefa de predição de qualidade de vídeo. Isto ocorredevido à grande quantidade de amostras de vídeousadas no treinamento, e.g., para N � 300 foramusadas 2327 amostras de treinamento, ou seja,mesmo usando pares de treinamento-teste disjuntos,o método proposto mostra uma acurácia superior àsmétricas de referência completa. A assimetria positiva,i.e., a maior concentração da acurácia entre osegundo quartil (mediana) e o terceiro quartil, nadistribuição do box-plot nos testes com 300 e 500neurônios na camada oculta, indica que o métodoproposto apresenta um desempenho expressivo emcomparação com as métricas FR.Entretanto, mesmo para N entre 25 e 50, ométodo proposto apresentou uma acurácia maior doque as métricas FR, cujo melhor resultado foi paraN � 25 com o desvio-quartil (amplitude interquartílica)con�nado entre 0,65 e 0,8. Além disso, este resultadotambém apresentou assimetria positiva com a médiado PLCC em torno de 0,75.5. CONCLUSÃOEste trabalho apresentou uma métrica NR baseadaem uma rede neural arti�cial SLFN, cujo treinamento édeterminado pelo algoritmo ELM, o qual consideracaracterísticas espaço-temporais e os escoressubjetivos (alvos) extraídos de 2627 amostrastreinamento. Além disso, este trabalho propõe umaextensão do algoritmo ELM por meio de um simplescritério de parada, a �m de que sejam obtidosparâmetros da rede neural arti�cial relacionados como menor RMSE. Tipicamente, a comparação entremétricas FR e NR é injusta, devido à ausência dovídeo de referência na obtenção do escore dequalidade em métricas NR. Entretanto, os resultadosexperimentais mostram que o método propostoapresentou desempenho superior às métricas dereferência completa PSNR e MS-SSIM, sobretudo,quando o número de amostras de teste e de neurôniosna camada oculta da rede SLFN é maior do que 250.Logo, a métrica NRVQA-ELMtc pode ser empregadano monitoramento de qualidade em sistemas detransmissão e recepção de vídeo digital, tais comoIPTV (Internet Protocol Television), TV digital ou emdispositivos móveis, tais como ultrabooks,smartphones, tablets e em aparelhos WiDi (WirelessDisplay).REFERÊNCIAS[1] S. Winkler, “Issues in vision modeling for perceptualvideo quality assessment,” Signal Processing, vol. 78,no. 2, pp. 231–252, 1999.[2] Z. Wang and A. C. Bovik, Modern image qualityassessment. San Rafael, CA: Morgan & Claypool,2006.[3] W. Lin and C.-C. Jay Kuo, “Perceptual visual qualitymetrics: A survey,” Journal of Visual Communicationand Image Representation, vol. 22, no. 4, pp. 297–312,May 2011.[4] S. S. Hemami and A. R. Reibman, “No-reference imageand video quality estimation: Applications and humanmotivateddesign,” Signal Processing: ImageCommunication, vol. 25, no. 7, pp. 469–481, 2010.[5] Z. Wang and A. Bovik, “Reduced- and No-ReferenceImage Quality Assessment,” IEEE Signal ProcessingMagazine, vol. 28, no. 6, pp. 29–40, Nov. 2011.[6] R. V. Babu, S. Suresh, and A. Perkis, “No-referenceJPEG-image quality assessment using GAP-RBF,”Signal Processing, vol. 87, no. 6, pp. 1493–1503, 2007.[7] X. Jiang, F. Meng, J. Xu, and W. Zhou, “No-ReferencePerceptual Video Quality Measurement for HighDe�nition Videos Based on an Arti�cial NeuralNetwork,” in Computer and Electrical Engineering,2008. ICCEE 2008. International Conference on, 2008,pp. 424–427.[8] J. Choe, K. Lee, C. Lee, and S. Korea, “No-referencevideo quality measurement using neural networks,” in2009 16th International Conference on Digital SignalProcessing, 2009, pp. 1–4.[9] S. Suresh, R. Venkatesh Babu, and H. J. Kim, “Noreferenceimage quality assessment using modi�edextreme learning machine classi�er,” Applied SoftComputing, vol. 9, no. 2, pp. 541–552, Mar. 2009.[10] A. M. Eskicioglu and P. S. Fisher, “Image qualitymeasures and their performance,” IEEE Transactionson Communications, vol. 43, no. 12, pp. 2959–2965,1995.[11] U. Engelke and H.-J. Zepernick, “Perceptual-basedQuality Metrics for Image and Video Services: ASurvey,” in Proceedings EuroNGI Conf. NextGeneration Internet Networks, 2007, pp. 190–197.[12] Z. Wang, A. C. Bovik, H. R. Sheikh, and E. PSimoncelli, “Image quality assessment: from errorvisibility to structural similarity.,” IEEE Transactions onImage Processing, vol. 13, no. 4, pp. 600–612, 2004.[13] Z. Wang, E. P. Simoncelli, and A. C. Bovik, “Multiscalestructural similarity for image quality assessment,” inThe Thrity-Seventh Asilomar Conference on Signals,Systems & Computers, 2003, 2003, vol. 2, no. 1, pp.1398–1402.[14] H. R. Wu, K. R. Rao, and A. A. Kassim, “Digital VideoImage Quality and Perceptual Coding,” Journal ofElectronic Imaging, vol. 16, no. 3, 2007.[15] Z. Wang and A. C. Bovik, “A universal image qualityindex,” IEEE Signal Processing Letters, vol. 9, no. 3,pp. 81–84, Mar. 2002.[16] Y. Shi, Y. Ding, R. Zhang, and J. Li, “Structure and HueSimilarity for Color Image Quality Assessment,” in 2009International Conference on Electronic ComputerTechnology, 2009, pp. 329–333.[17] W. B. Silva, A. A. P. Pohl, and K. V. O. Fonseca, “AReduced-Reference Video Quality Assessment Methodbased on the Activity-Di�erence of DCT Coe�cients,”IEICE Transactions on Information and Systems, vol. E96-D, no. 3, 2013.[18] P. Le Callet, C. Viard-Gaudin, and D. Barba, “A Convolutional Neural Network Approach for Objective Video Quality Assessment,” IEEE Transactions on Neural Networks, vol. 17, no. 5, pp. 1316–1327, 2006.[19] P. Le Callet and D. Barba, “Image Quality Assessment: From Sites Errors to a Global Appreciation of Quality,” in Proceedings of the Picture Coding Sympsium, 2001, pp. 105–108.[20] M. Miyahara, K. Kotani, and V. R. Algazi, “Objective picture quality scale (PQS) for image coding,” IEEE Transactions on Communications, vol. 46, no. 9, pp. 1215–1226, 1998.[21] M. Slanina, V. Ricny, and R. Forchheimer, “A Novel Metric for H.264/AVC No-Reference Quality Assessment,” in 14th International Workshop on Systems, Signals and Image Processing and 6th EURASIP Conference focused on Speech and Image Processing, Multimedia Communications and Services, 2007, pp. 114–117.[22] O. Sugimoto, S. Naito, S. Sakazawa, and A. Koike, “Objective perceptual video quality measurement method based on hybrid no reference framework,” in 16th IEEE International Conference on Image Processing (ICIP’09), 2009, pp. 2237–2240.[23] T. Oelbaum, C. Keimel, and K. Diepold, “Rule-Based No-Reference Video Quality Evaluation Using Additionally Coded Videos,” IEEE Journal of Selected Topics in Signal Processing, vol. 3, no. 2, pp. 294–303, 2009.[24] N. Staelens, N. Vercammen, Y. Dhondt, B. Vermeulen, P. Lambert, R. de Walle, and P. Demeester, “ViQID: A No-Reference bit stream-based visual quality impairment detector,” in Proceedings of the Second Int Quality of Multimedia Experience (QoMEX) Workshop, 2010, pp. 206–211.[25] F. Yang, S. Wan, Q. Xie, and H. R. Wu, “No-Reference Quality Assessment for Networked Video via Primary Analysis of Bit Stream,” IEEE Transactions on Circuits and Systems for Video Technology, vol. 20, no. 11, pp. 1544–1554, Nov. 2010.[26] Z. Wang, H. R. Sheikh, and A. C. Bovik, “Objective Video Quality Assessment,” in The Handbook of Video Databases: Design and Applications, B. Furht and O. Marques, Eds. Boca Raton, FL, USA: CRC Press, 2003, pp. 1041–1078.[27] W. B. da Silva and A. de A. P. Pohl, “Métodos Sem Referência Baseados em Características Espaço-Temporais para Avaliação Objetiva de Qualidade de Vídeo Digital,” Universidade Tecnológica Federal do Paraná (UTFPR), 2013.[28] G.-B. Huang, Q.-Y. Zhu, and C.-K. Siew, “Extreme learning machine: Theory and applications,” Neurocomputing, vol. 70, no. 1–3, pp. 489–501, Dec. 2006.[29] Z. Wang, H. R. Sheikh, and A. C. Bovik, “No-reference perceptual quality assessment of JPEG compressed images,” in Image Processing. 2002. Proceedings. IEEE International Conference on Image Processing, 2002, vol. 1, pp. vol.1 I–477 – I–480.[30] W. B. Silva and A. A. P. Pohl, “No-Reference Video Quality Assessment Method based on the Levenberg-Marquardt Minimization,” in XXX Brazilian Symposium on Telecommunications (SBrT’12), 2012.[31] ITU-T P.910, “Subjective video quality assessment methods for multimedia applications,” Standardization Sector of ITU, 1999.[32] W. Ding, Y. Tong, Q. Zhang, and D. Yang, “Image and Video Quality Assessment Using Neural Network and SVM,” Tsinghua Science & Technology, vol. 13, no. 1, pp. 112–116, 2008.[33] K. S. Banerjee, C. R. Rao, and S. K. Mitra, “Generalized Inverse of Matrices and Its Applications,” Technometrics, vol. 15, no. 1, p. 197, Feb. 1973.[34] VQEG, “Final report from the video quality experts group on the validation of reduced-reference and no-reference objective models for standard de�nition television, Phase I,” 2009.[35] VQEG, “Report on the validation of video quality models for high de�nition video content,” 2010.[36] J. W. Tukey, Exploratory Data Analysis. New York: Addison-Wesley Publishing Company, 1977.[37] P. Gastaldo and R. Zunino, “Neural networks for the no-reference assessment of perceived quality,” J. Electronic Imaging, vol. 14, no. 3, p. 033004, 2005.[38] R. Herzog, M. Čadík, T. O. Aydın, K. I. Kim, K. Myszkowski, and H.-P. Seidel, “NoRM: No-Reference Image Quality Metric for Realistic Image Synthesis,” Comp. Graph. Forum, vol. 31, no. 2pt4, pp. 545–554, 2012.

Fig. 3. Estrutura do bloco BICM (Bit Interleaving Coding and Modulation).

Diferentemente do H.264 o HEVC apresenta uma

maior quantidade de tamanhos dos blocos de 8 x 8 até 64 x 64 e utilizando amostragem de 10 bit para sensibilidade de profundidade, as etapas do processo de codificação estão mais detalhadas em [3]-[5].

As características do HEVC possibilitam transmissões 4K com taxas de vídeos de 27,1 Mbps a 31,7, no entanto é necessário saber se o DVB-T2 apresenta robustez durante a transmissão de elevadas taxas.

Para isso o presente artigo abordará no capítulo 2 os processos envolvidos no processo de transmissão do DVB-T2. Em seguida o capítulo 3 apresenta os parâmetros de transmissão e os procedimentos realizados para as transmissões do sistema europeu.

O capítulo 4 consta os resultados dos procedimentos realizados. Ao termino deste artigo são apresentadas as conclusões finais no capítulo 5.

2. CARACTERISTICAS DE TRANSMISSÃO DO DVB-T2

A segunda geração do sistema europeu pode ser dividido em 4 principais blocos. Na etapa inicial é realizado um processamento dos dados na entrada, em seguida é realizado o processo de Bit, Entrelaçador, Codificação e Modulação (BICM), na terceira etapa os quadros são estruturados e por fim é realizado o processo de modulação OFDM. Os tópicos a seguir abordam resumidamente os 4 blocos citados.

2.1. Processamento dos dados de entrada

Os dados de entrada são divididos em três segmentos primeiramente cabeçalho chamado de BBHEADER, em seguida vem o campo dos dados e por fim no último bloco são inseridos nulos e sinalização. A figura 2 apresenta o processo de entrada para transmissão de um serviço, chamado de physical layer pipe (PLP) [1].

Fig. 2. Etapas do processamento de entrada.

Os nulos são inseridos para manter o comprimento necessário para o próximo estagio em que é realizada a codificação externa pelo bloco BCH. Quando não

são inseridos nulos é acrescentada sinalização L1, informação na qual contém os parâmetros de transmissão do intervalo de guarda, pilot pattern, Cell ID, Network ID, quantidade de símbolos de dados, entre outras informações [1], [2].

2.2. BICM (Bit Interleaving Coding Modulation)

O macro bloco BICM realiza a implementação de outras técnicas a fim de tornar o sistema mais robusto. A figura 3 apresenta os principais blocos envolvidos no processo de “BICM".

A segunda etapa é responsável pela codificação do canal. Nesse sistema de televisão o código corretor de erro utilizado como codificador interno é o Low Density Parity Check (LDPC) concatenado com codificador externo o código cíclico BCH (Bose Chaudhuri Hocquenghem), o qual também é utilizado no sistema DVB-S2, adotado nas transmissões via satélite [1].

A norma ETSI define tamanhos do bloco LDPC, o curto que contém 16200 bits e o longo que transmite 64800 bits sendo o sistema mais utilizado pelos radiodifusores. A etapa seguinte é realizada a codificação BCH, em que o tamanho varia de acordo com o tamanho do código LDPC.

Para tornar o DVB-T2 mais robusto também foram implementadas técnicas de entrelaçamento de bit que tem como objetivo reduzir erros do tipo rajada, processo realizado através da escrita dos bits em colunas e linhas e o rotacionamento no inicio do posicionamento das colunas, em que o tamanho varia de acordo com a modulação, durante o processo de transmissão a informação é transmitida entrelaçada.

Na segunda geração do sistema europeu o mapeamento da constelação pode ser de até 256-QAM, o que permite um aumento significativo na taxa útil dos dados transmitidos. O DVB-T2 incluiu a possibilidade de rotacionamento, processo no qual o atraso é inserido durante o mapeamento em quadratura (Q), sendo inserida na célula seguinte e esse processo se repete. Essa técnica é conhecida como atraso cíclico Q entre as células adjacentes. O estudo [7] indica que o rotacionamento pode resultar em até 3 dB de ganho na relação sinal/ ruído (Carrier to Noise Ratio - C/N) dependendo da ordem da modulação. A figura 4 apresenta o processo de rotacionamento da constelação [1], [6].

A angulação do rotacionamento varia de acordo com a ordem da modulação. A figura 5 apresenta a

Revista de Radiodifusão • v. 08 • n. 09 • 2014 11

Paulo Guedes Esperante, Cristiano Akamine, Gunnar Bedicks , Roberto Franco

Page 12: Revista de RADIODIFUSÃO - SET PORTAL · Sinais de TV Digital ISDB-Tb via VHF e UHF na Cidade do Gama – DF – Brasil Akamine, Cristiano Bedicks Jr, Gunnar ... cujas frequências

MÉTRICA SEM REFERÊNCIA BASEADA EM REDES NEURAISPARA AVALIAÇÃO OBJETIVA DE QUALIDADE DE VÍDEO DIGITALWyllian Bezerra da Silva, Alexandre de Almeida Prado PohlPrograma de Pós-Graduação em Engenharia Elétrica e Informática Industrial (CPGEI) – UTFPR, Curitiba, [email protected], [email protected]: Este trabalho apresenta uma métrica sem referência para avaliação de qualidade de vídeo digital baseada em uma rede neural arti�cial que usa uma versão estendida do algoritmo de aprendizado ELM (Extreme Learning Machine). O método proposto realiza o treinamento da rede neural a partir de seis características espaço-temporais. Os resultados experimentais mostram que o método proposto apresenta desempenho superior às métricas de referência completa PSNR e MS-SSIM na tarefa de predição de qualidade de vídeo. Logo, o método proposto pode ser usado no monitoramento de qualidade em sistemas de transmissão e recepção de vídeo digital, tais como IPTV e TV digital.Palavras chave: algoritmo ELM, avaliação objetiva de vídeo, métrica sem referência, rede neural arti�cial.1. INTRODUÇÃODurante os últimos anos, a literatura tem apresentado um número crescente publicações acerca de métricas objetivas para avaliação de qualidade de vídeo para diversas aplicações em radiodifusão ou no processamento de vídeo digital, seja na aquisição do sinal, codi�cação e decodi�cação, compressão, transmissão, restauração, armazenamento, segmentação e exibição de sinais de vídeo digital [1–4]. A avaliação de qualidade de vídeo digital pode ser realizada por meio de métricas subjetiva e objetiva. A primeira requer uma grande quantidade de recursos humanos e apresenta elevado custo em sua implementação [1–3]. Porém, as métricas objetivas são vantajosas quando apresentam um determinado grau de correlação com as métricas subjetivas. Logo, o desenvolvimento destas é um desa�o no campo de avaliação de qualidade de vídeo e imagem. Além disso, as métricas objetivas, devido à natureza de seu critério objetivo, independem de interação humana e são facilmente reprodutíveis [3]. Dentre as métricas objetivas destacam-se as métricas sem referência (No-Reference – NR), pois não necessitam do vídeo de referência no cálculo de sua medida. Entretanto, estas requerem um conhecimento a priori sobre as distorções em vídeo digital para que seja estabelecida uma correlação com os resultados subjetivos [3].A maioria das métricas NR encontradas na literatura são baseadas na avaliação de qualidade de imagens e em características relacionadas ao Sistema Visual Humano (SVH). Assim, o desenvolvimento de métricas NR é difícil, devido à necessidade de emular a percepção do SVH que envolve aspectos cognitivos, emocionais e estéticos relacionados ao conteúdo do vídeo e que são altamente dependentes do observador [4], [5].A literatura reporta diversos esforços no desenvolvimento de métricas para avaliação de qualidade de vídeo baseadas em redes neurais e em algoritmos de aprendizado. Babu et al. [6] apresentam uma métrica para avaliar a qualidade de imagens comprimidas em JPEG (Joint Photographic Experts Group) por meio de um algoritmo de aprendizado de crescimento e propõem o uso de uma rede neural GAP-RBF (Growing and Pruning Radial Basis Function) que usa características relacionadas ao SVH. Jiang et al. [7] desenvolveram uma métrica NR para avaliação de qualidade de vídeo em HD (High De�nition) baseada em uma rede neural treinada pelo algoritmo BP (Back-Propagation) que usa seis características espaço-temporais e a RoI (Region of Interest). Choe et al. [8] desenvolveram uma métrica NR baseada no �uxo de bits para avaliação de qualidade de vídeo codi�cado em H.264. Esta métrica extrai características quadro a quadro e usa uma rede neural alimentada adiante (feedforward) com três camadas. Suresh et al. [9] apresentaram uma extensão do algoritmo ELM na tarefa de avaliar a qualidade de imagens comprimidas em JPEG com base no esquema de seleção múltipla KS-ELM (K-fold selection Scheme using ELM) e no algoritmo RCGA-ELM (Real-Coded Genetic Algorithm using ELM) para seleção dos pesos de entrada e polarizações.Este trabalho apresenta uma versão estendida do algoritmo ELM para redes neurais SLFN (Single-hidden-Layer Feedforward Neural Networks) que implementa um simples critério de parada na fase de treinamento. Além disso, esse método usa seis características espaço-temporais de vídeos submetidos a diversas condições de distorção.Este artigo está dividido da seguinte maneira: a Seção 2 descreve as métricas para avaliação de qualidade de vídeo. A Seção 3 descreve o método NR proposto para avalição de qualidade de vídeo digital. A Seção 4 apresenta os resultados experimentais, em que são comparados o método NR proposto e duas métricas FR. Finalmente, a Seção 5 apresenta a conclusão do artigo.2. AVALIAÇÃO DE QUALIDADE DE VÍDEOO processo de avaliação de qualidade de vídeopode ser realizado com a aplicação de métricassubjetivas ou objetivas. As métricas subjetivasestimam a qualidade do vídeo por meio de avaliadoreshumanos. Logo, exigem um alto custo, poisnecessitam de uma grande quantidade de recursoshumanos e apresentam problemas quanto aosrequisitos de imparcialidade e reprodutibilidade,tornando-se inapropriadas em sistemas deradiodifusão ou em provedores de conteúdo [10], [11].Por outro lado, as métricas objetivas são baseadas emmodelos matemáticos, cujo objetivo é produzir umescore de qualidade que emule a percepção do SVH.Além disso, as métricas objetivas requerem baixocusto de implementação (quando comparadas com asmétricas subjetivas) e não apresentam problemasquanto à reprodutibilidade e imparcialidade.As métricas objetivas para avaliação de qualidadede vídeo podem ser classi�cadas em três categorias:(i) métricas de referência completa (Full-Reference –FR); (ii) métricas de referência reduzida (Reduced-Reference – RR); (iii) métricas sem referência (NR).2.1. Métricas FRAs métricas FR requerem o vídeo de referência(fonte) no cálculo do escore de qualidade. Estasmétricas são amplamente utilizadas no processo devalidação de métricas RR ou NR, por meio dacomparação de desempenho de�nida pelasrecomendações do Grupo de Especialistas emQualidade de Vídeo (VQEG – Video Quality ExpertsGroup) que é um órgão de padronização internacionalde métricas subjetivas e objetivas de qualidade devídeo. Dentre as métricas FR, destacam-se o PSNR(Peak Signal-to-Noise Ratio), SSIM (StructuralSIMilarity index) [12] e MS-SSIM (Multi-ScaleStructural SIMilarity index) [13].O PSNR é uma métrica FR baseada no erro pixel apixel de fácil implementação. Entretanto, apresentabaixa correlação com o SVH [14]. A sua medida éprocessada sobre o erro quadro a quadro, i.e., entre oquadro original x e o quadro y . A expressão a seguirde�ne o PSNR para um conjunto de quadros F .2011PSNR 20log ,Fff fvF � MSE� �� � �� �� ��(1)com� � � �20 01MSE , , , , ,N Mfi jx f i j y f i jNM � �� ���� � ��(2)em que o termo f v é igual a (2 1) k � , cujo k é onúmero de bits por pixel, i.e., é a componente deluminância do quadro f . Os termos x �f ,i, j � ey �f ,i, j � são os valores de luminância do quadro deorigem e degradado, respectivamente. Ascomponentes bidimensionais são representadas pelonúmero de colunas N e pelo número de linhas M . Otermo f MSE é de�nido como erro quadrático médioou MSE (Mean Square Error).A métrica SSIM baseia-se no fato de que o SVH éfortemente adaptado para extrair informações dascaracterísticas estruturais de um quadro ou imagem.Logo, uma medida de similaridade estrutural (oudistorção) pode prover boa aproximação para aqualidade perceptual de um vídeo [3, 7–9]. Sejam x ey dois sinais não-negativos, em que y é o sinaldegradado e x é o sinal original (sem perda dequalidade), a medida de similaridade é utilizada comoum índice quantitativo de qualidade do sinal distorcido,ou seja, x é tomado como a referência para medir aqualidade de y . A métrica SSIM possui diversasextensões, dentre as quais a versão MS-SSIM,proposta por Wang et al. [13] que assume umaabordagem multiescalar.2.2. Métricas RRAs métricas de referência reduzida retiram certaquantidade de características do vídeo original (fonte),baseadas em componentes espaciais, temporais, nodomínio da frequência ou no �uxo de bits (bitstream).Este tipo de métrica é amplamente utilizada nomonitoramento de transmissões em rede [17]. Nestetipo de cenário de aplicação, o vídeo é transmitidocom uma sequência de informação codi�cada(overhead) e no lado receptor ocorre a suadecodi�cação, seguido pelo cálculo do índice dequalidade, o qual é obtido por meio da comparaçãoentre a representação reduzida da informação nospares emissor e receptor [18]. Tipicamente, métricasRR são implementadas por meio de funções, divididasem duas etapas [19]: (i) cálculo do erro entre osvídeos original e distorcido, constituído pela diferençade suas características, a �m de compor arepresentação reduzida da informação; (ii) função queagrupa os erros ou diferenças para obter um índice dequalidade global. Algumas métricas RR explorampropriedades dos artefatos, por meio da extração decaracterísticas e um modelo de parametrização [20]com foco em tipos especí�cos de distorções(artefatos). Esta abordagem é encontrada em Silva etal. [17], cujo cálculo do escore de qualidade ébaseado na diferença de atividade dos coe�cientesDCT (Discrete Cosine Transform) em um macro blococom resolução de 16�16 pixels.2.3. Métricas NRAs métricas NR extraem característicasrelacionadas ao SVH do vídeo distorcido, i.e., narecepção do sinal de vídeo [14]. Tipicamente, há duasabordagens no desenvolvimento destas métricas: (i)extração dos parâmetros sobre o �uxo de bits, taiscomo a taxa de compressão, informaçõesrelacionadas ao GoP (Group of Pictures), estimaçãode movimento, per�l e nível de codi�cação, bem comoo parâmetro de quantização ou QP (QuantizationParameter) [21–25]. Métricas NR apresentam maiorcomplexidade quando são aplicadas em vídeo, devidoà variação temporal dos quadros, conteúdos dascenas e à di�culdade de compreensão dascaracterísticas do SVH [26]. Assim, algumas métricasdessa categoria exploram características espaciais etemporais na estimação de qualidade de vídeo [21].3. MÉTODO PROPOSTOO método proposto, denominado NRVQA-ELMtc(No-Reference Video Quality Assessment usingExtreme Learning Machine algorithm with terminationcriteria) [27] combina características espaciais etemporais, por meio de uma rede neural arti�cialSLFNs usando o algoritmo de treinamento ELM [28]com a implementação de um simples critério deparada.3.1. Características espaço-temporaisAs características espaciais incorporadas nométodo proposto são baseadas em medidas deartefatos em vídeo digital, i.e., distorções de blocageme borramento desenvolvidas por Wang et al. [20].Assim, a componente de luminância do quadro f érepresentada por y(f , i, j ) com i � ��1,M�� e j � ��1, N�� ,em que M e N são os números de linhas e colunas,respectivamente, de um quadro. Logo, as diferençasde luminância ao longo das linhas e colunas sãorepresentadas, respectivamente, pelas expressões aseguir.� � � � � � � �� � � � � � � �, , , , 1 , , , 1, 1 ,, , , 1, , , , 1, 1 .hvd f i j y f i j y f i j j Nd f i j y f i j y f i j i M� � � � �� � � � �(3)O efeito de blocagem pode ser estimado pelamédia das diferenças entre as bordas dos blocos daDCT (Discrete Cosine Transform) nas direçõeshorizontal e vertical para uma sequência F dequadros, conforme mostra a Equação (4), com ummacrobloco de dimensão � �� , cujo tamanho típico éde � � 8 [20].� � ��� � � �111 1 1111 1 11, , 1 ,111, 1 , .11NF Mh hf i jMF Nvi jvfB d f i jNF MB d f i jMF N��������� � ���� � �� �� �� � � �� � �� �� �� � � �� � �� � �� � �(4)A medida de blocagem em uma sequência devídeo com F quadros é determinada pela média entreh B e v B , caracterizando a medida B , conforme aexpressão a seguir..2h v B BB�� (5)Os efeitos de borramento são estimados pelocálculo da redução de atividade entre os blocos � �� ,em que é usada a medida de blocagem nas direçõeshorizontal e vertical, conforme as expressões� � � �� �� � � �� �11 1 111 1 1, , ,1 1, ,1.1F M Nh h hf i jF M Nv vfvi jA d f i j BF M NA d f i j BF N M������ � ��� � �� �� � �� �� � �� � �� � �(6)A medida de borramento, representada por A ,conforme a Equação (7), é determinada pela médiaentre h A e v A ..2h v A AA�� (7)O segundo fator que contribui para a detecção doartefato de borramento é baseado na taxa decruzamento por zero (Zero Crossing – ZC) nasdireções horizontal e vertical, conforme as expressõesa seguir.� �� �� �� �21 1 121 1 11, , ,21, , ,2F M Nh hf i jF M Nv vf i jZ z f i jF M NZ z f i jF N M�� � ��� � ��� ��� �� � �� � �(8)em que os termos h z e v z são determinados por� �� �1, na direção horizontal, , ,0, caso contrário1, na direção vertical, , .0, caso contráriohvz f i jz f i j�� �� �� ��(9)Assim, a medida de borramento Z é determinadapela média entre as componentes h Z e v Z ..2h v Z ZZ�� (10)O método proposto também incorpora trêscaracterísticas temporais no treinamento da redeneural SLFN com o algoritmo ELM.A primeira característica temporal é a diferença demovimento entre quadros adjacentes, representadapela variável TI (Temporal perceptual Information) [31]que considera os valores de luminância de pixelslocalizados em uma mesma região de um quadro,conforme a expressão a seguir.� �21, , ,1FfTI m f i jF��� �� �� �� (11)em que o número total de quadros é F e � �m�f ,i, j ��� �é o desvio padrão da diferença de movimento(diferença de luminância) entre o quadro atualy �f ,i, j � e o quadro anterior y �f �1,i, j � .A segunda característica temporal é a média dadiferença absoluta (Mean Absolute Di�erence – MAD)[31] entre quadros sucessivos, representada pelaEquação (12) que de�ne a medida global da MADpara todos os quadros de um vídeo.� �� � � �2 1 11, , 1, , .1F M Nf i jMAD y f i j y f i jM N F � � �� � �� �� � �(12)A terceira característica temporal é a média dadiferença absoluta ponderada (weighted MeanAbsolute Di�erence – MADw) [32], a qual mede o graude variação das cenas de um vídeo que considera acena atual de um quadro f e do quadro anterior f �1,conforme a expressão:2 11.1Fff fMADMADwF � MAD �� �� � �� � ��(13)Assim, o método proposto combina ascaracterísticas espaciais e temporais em uma matriz� , , , , , � f f f f f f f x � A B Z TI MAD MADw , em que f é onúmero de amostras de vídeo. A Figura 1 apresentaas características temporais � espaciais de dezessetebases de dados de vídeos (denominada superconjuntoS) usadas neste trabalho e reportadas em [27]. Arecomendação ITU-T P.910 [31] de�ne a medida SI(Spatial perceptual Information) como informaçãoespacial perceptual. A inspeção visual dessa �guramostra que as amostras de vídeo usadas nestetrabalho apresentam uma grande variação espaçotemporal.Fig. 1. Características espaciais e temporais do superconjuntoS com 216 amostras de referência3.2. Métrica NRVQA-ELMtcO algoritmo ELM [28] desenvolvido para otreinamento de uma rede SLFN atribui pesos epolarizações (biases) de maneira aleatória, segundouma distribuição uniforme. O treinamento compreendeN amostras distintas representadas pela variável�� , � , , 1, , � n mf f f f � � x t x � t � f � N , cujo cálculo éconforme a expressão� � � �1, 1, , ,KK i j j f j fff � g b f N�x � � w x � � o � (14)em que f o é a saída (escore objetivo), g(x) é afunção de ativação e j � é o peso que conecta o jésimoneurônio da camada oculta ao neurônio desaída. De acordo com [28], uma rede SLFN com Knós na camada oculta e uma função de ativação g(x)pode apresentar um erro médio próximo de zero, i.e.,10Kf ff �� o � t � . Logo, há parâmetros j � , j w e j b talque� �1, 1, , ,Kj j f j ff� g b f N�� w x � � t � (15)em que f t é o vetor alvo (escores subjetivos),T1, , j j jn � �w w � � � w é o vetor de peso que conecta o jésimoneurônio da camada oculta ao neurônio dacamada de entrada, j b denota a polarização (bias) doj-ésimo neurônio da camada oculta, � � j f w x é oproduto interno de j w e f x . A Figura 2 ilustra oalgoritmo ELM empregado em uma arquitetura derede neural SLFN.xi1βjN1jKtibjN input neuron K hidden neuron output neuronβ1βKwjFig. 2. Arquitetura de uma rede neural SLFN usando algoritmode treinamento ELMO sistema linear da Equação (16) resume o métododo algoritmo ELM.Hβ � T, (16)em que a matriz da camada oculta é representada por� � � 1, , and 1, , � � H � h f � N j � K com a primeiralinha da matriz de características f x igual aT1 2 , , , f f f fn x � ��x x x �� , i.e., a primeira linha é igual a� � 1 1 1 1 1 1 1 , , , , , f f f f f f f x � A B Z TI MAD MADw . A matriz desaída e o vetor alvo (target) são de�nidos comoT1 , K β � ��β β �� eT1, , N T � ��t t �� , respectivamente. Otermo � �T1 , 1, , j jm j � � � j � K � � β β β denota o vetor depeso que conecta o j-ésimo neurônio da camadaoculta e os neurônios de saída. Hung et al. [28]propuseram a atribuição aleatória de pesos aosparâmetros j w e j b , a �m de seja obtido um pequenoerro não-nulo durante o treinamento. Considerando osistema linear da Equação (17), os pesos da camadade saída podem ser aproximados por† β � H T (17)em que † H é de�nida como matriz inversageneralizada de Moore-Penrose (MP) [33] da matrizde saída da camada oculta �H� . Além disso, oconjunto de treinamento � , nó oculta K e umafunção de ativação g �x � , e.g., função de base radial(Radial Basis Function – RBF), hard-limiting (hardlim),sigmoidal (sig) e seno (sin). Em resumo, o algoritmoELM compreende três etapas [28]:i) Atribuição aleatória dos pesos de entrada j w epolarizações j b ;ii) Cálculo da matriz da camada de saída H ;iii) Cálculo dos pesos de saída † β: β� H T .O método NRVQA-ELMtc [27] implementa umsimples critério de parada no treinamento da redeneural SLFN, quanto à atribuição aleatória dos pesosj w e j b . Embora este critério não seja direcionado,busca os pesos relacionados com o menor RMSE(Root-Mean-Square Error) entre a saída desejada(escore subjetivo) e o escore objetivo na fase detreinamento com k iterações (tipicamente, k � 100 ) eN neurônios na camada oculta. Além disso, conformeestudo realizado em [27], caso o RMSE seja menor doque 0,5 o algoritmo cessa a busca pelos parâmetrosj w e j b .4. RESULTADOS EXPERIMENTAISEsta seção apresenta os resultados de acurácia,i.e., os coe�cientes de correlação linear de Pearson(Pearson Linear Correlation Coe�cient – PLCC) [34],[35], entre os escores objetivos e subjetivos de 2627amostras de vídeo estudadas em [27].A Figura 3 compara a acurácia (PLCC) entre asmétricas de referência completa (FR) PSNR e MSSSIMcom o método proposto (NRVQA-ELMtc) paraas 2627 amostras de vídeo, pertencentes a 17 basesde dados de vídeo disponibilizadas por diversasinstituições e laboratórios [27]. A função de ativaçãousada na rede neural SLFN foi o seno (sin) com onúmero de amostras de teste igual ao número deneurônios na camada oculta ( N ). O método devalidação cruzada múltipla (K-fold) foi usado com oobjetivo de gerar uma distribuição de acurácia, a qualfoi analisada por meio do diagrama de caixa (box-plot)[36], em que o traço, o círculo e o quadrado, ambosem vermelho, representam a mediana, a média e odesvio padrão, respectivamente. Destaca-se queneste trabalho foi empregada uma validação cruzadacom um grande número de amostras de treinamentotestecom K � 100 , i.e., cada caixa do box-plotcomporta 100 experimentos distintos. Tipicamente, aliteratura apresenta trabalhos no campo da avaliaçãoFig. 3. Box-plot da predição da acurácia (PLCC) entre as métricas PSNR, MS-SSIM e o método proposto NRVQA-ELMtcde qualidade de vídeo com K entre 5 e 10 [37], [38].Pela inspeção visual da Figura 3 observa-se que odesempenho do método proposto é superior àsmétricas FR, em quaisquer condições de teste, i.e.,para qualquer quantidade de amostras de teste(número de neurônios na camada oculta) entre 25 e500. Em especial, para N � 50 , o método propostoapresenta valores de PLCC, em termos da média emediana, acima de 0,8, denotando uma forteassociação entre os escores objetivos e subjetivos, natarefa de predição de qualidade de vídeo. Isto ocorredevido à grande quantidade de amostras de vídeousadas no treinamento, e.g., para N � 300 foramusadas 2327 amostras de treinamento, ou seja,mesmo usando pares de treinamento-teste disjuntos,o método proposto mostra uma acurácia superior àsmétricas de referência completa. A assimetria positiva,i.e., a maior concentração da acurácia entre osegundo quartil (mediana) e o terceiro quartil, nadistribuição do box-plot nos testes com 300 e 500neurônios na camada oculta, indica que o métodoproposto apresenta um desempenho expressivo emcomparação com as métricas FR.Entretanto, mesmo para N entre 25 e 50, ométodo proposto apresentou uma acurácia maior doque as métricas FR, cujo melhor resultado foi paraN � 25 com o desvio-quartil (amplitude interquartílica)con�nado entre 0,65 e 0,8. Além disso, este resultadotambém apresentou assimetria positiva com a médiado PLCC em torno de 0,75.5. CONCLUSÃOEste trabalho apresentou uma métrica NR baseadaem uma rede neural arti�cial SLFN, cujo treinamento édeterminado pelo algoritmo ELM, o qual consideracaracterísticas espaço-temporais e os escoressubjetivos (alvos) extraídos de 2627 amostrastreinamento. Além disso, este trabalho propõe umaextensão do algoritmo ELM por meio de um simplescritério de parada, a �m de que sejam obtidosparâmetros da rede neural arti�cial relacionados como menor RMSE. Tipicamente, a comparação entremétricas FR e NR é injusta, devido à ausência dovídeo de referência na obtenção do escore dequalidade em métricas NR. Entretanto, os resultadosexperimentais mostram que o método propostoapresentou desempenho superior às métricas dereferência completa PSNR e MS-SSIM, sobretudo,quando o número de amostras de teste e de neurôniosna camada oculta da rede SLFN é maior do que 250.Logo, a métrica NRVQA-ELMtc pode ser empregadano monitoramento de qualidade em sistemas detransmissão e recepção de vídeo digital, tais comoIPTV (Internet Protocol Television), TV digital ou emdispositivos móveis, tais como ultrabooks,smartphones, tablets e em aparelhos WiDi (WirelessDisplay).REFERÊNCIAS[1] S. Winkler, “Issues in vision modeling for perceptualvideo quality assessment,” Signal Processing, vol. 78,no. 2, pp. 231–252, 1999.[2] Z. Wang and A. C. Bovik, Modern image qualityassessment. San Rafael, CA: Morgan & Claypool,2006.[3] W. Lin and C.-C. Jay Kuo, “Perceptual visual qualitymetrics: A survey,” Journal of Visual Communicationand Image Representation, vol. 22, no. 4, pp. 297–312,May 2011.[4] S. S. Hemami and A. R. Reibman, “No-reference imageand video quality estimation: Applications and humanmotivateddesign,” Signal Processing: ImageCommunication, vol. 25, no. 7, pp. 469–481, 2010.[5] Z. Wang and A. Bovik, “Reduced- and No-ReferenceImage Quality Assessment,” IEEE Signal ProcessingMagazine, vol. 28, no. 6, pp. 29–40, Nov. 2011.[6] R. V. Babu, S. Suresh, and A. Perkis, “No-referenceJPEG-image quality assessment using GAP-RBF,”Signal Processing, vol. 87, no. 6, pp. 1493–1503, 2007.[7] X. Jiang, F. Meng, J. Xu, and W. Zhou, “No-ReferencePerceptual Video Quality Measurement for HighDe�nition Videos Based on an Arti�cial NeuralNetwork,” in Computer and Electrical Engineering,2008. ICCEE 2008. International Conference on, 2008,pp. 424–427.[8] J. Choe, K. Lee, C. Lee, and S. Korea, “No-referencevideo quality measurement using neural networks,” in2009 16th International Conference on Digital SignalProcessing, 2009, pp. 1–4.[9] S. Suresh, R. Venkatesh Babu, and H. J. Kim, “Noreferenceimage quality assessment using modi�edextreme learning machine classi�er,” Applied SoftComputing, vol. 9, no. 2, pp. 541–552, Mar. 2009.[10] A. M. Eskicioglu and P. S. Fisher, “Image qualitymeasures and their performance,” IEEE Transactionson Communications, vol. 43, no. 12, pp. 2959–2965,1995.[11] U. Engelke and H.-J. Zepernick, “Perceptual-basedQuality Metrics for Image and Video Services: ASurvey,” in Proceedings EuroNGI Conf. NextGeneration Internet Networks, 2007, pp. 190–197.[12] Z. Wang, A. C. Bovik, H. R. Sheikh, and E. PSimoncelli, “Image quality assessment: from errorvisibility to structural similarity.,” IEEE Transactions onImage Processing, vol. 13, no. 4, pp. 600–612, 2004.[13] Z. Wang, E. P. Simoncelli, and A. C. Bovik, “Multiscalestructural similarity for image quality assessment,” inThe Thrity-Seventh Asilomar Conference on Signals,Systems & Computers, 2003, 2003, vol. 2, no. 1, pp.1398–1402.[14] H. R. Wu, K. R. Rao, and A. A. Kassim, “Digital VideoImage Quality and Perceptual Coding,” Journal ofElectronic Imaging, vol. 16, no. 3, 2007.[15] Z. Wang and A. C. Bovik, “A universal image qualityindex,” IEEE Signal Processing Letters, vol. 9, no. 3,pp. 81–84, Mar. 2002.[16] Y. Shi, Y. Ding, R. Zhang, and J. Li, “Structure and HueSimilarity for Color Image Quality Assessment,” in 2009International Conference on Electronic ComputerTechnology, 2009, pp. 329–333.[17] W. B. Silva, A. A. P. Pohl, and K. V. O. Fonseca, “AReduced-Reference Video Quality Assessment Methodbased on the Activity-Di�erence of DCT Coe�cients,”IEICE Transactions on Information and Systems, vol. E96-D, no. 3, 2013.[18] P. Le Callet, C. Viard-Gaudin, and D. Barba, “A Convolutional Neural Network Approach for Objective Video Quality Assessment,” IEEE Transactions on Neural Networks, vol. 17, no. 5, pp. 1316–1327, 2006.[19] P. Le Callet and D. Barba, “Image Quality Assessment: From Sites Errors to a Global Appreciation of Quality,” in Proceedings of the Picture Coding Sympsium, 2001, pp. 105–108.[20] M. Miyahara, K. Kotani, and V. R. Algazi, “Objective picture quality scale (PQS) for image coding,” IEEE Transactions on Communications, vol. 46, no. 9, pp. 1215–1226, 1998.[21] M. Slanina, V. Ricny, and R. Forchheimer, “A Novel Metric for H.264/AVC No-Reference Quality Assessment,” in 14th International Workshop on Systems, Signals and Image Processing and 6th EURASIP Conference focused on Speech and Image Processing, Multimedia Communications and Services, 2007, pp. 114–117.[22] O. Sugimoto, S. Naito, S. Sakazawa, and A. Koike, “Objective perceptual video quality measurement method based on hybrid no reference framework,” in 16th IEEE International Conference on Image Processing (ICIP’09), 2009, pp. 2237–2240.[23] T. Oelbaum, C. Keimel, and K. Diepold, “Rule-Based No-Reference Video Quality Evaluation Using Additionally Coded Videos,” IEEE Journal of Selected Topics in Signal Processing, vol. 3, no. 2, pp. 294–303, 2009.[24] N. Staelens, N. Vercammen, Y. Dhondt, B. Vermeulen, P. Lambert, R. de Walle, and P. Demeester, “ViQID: A No-Reference bit stream-based visual quality impairment detector,” in Proceedings of the Second Int Quality of Multimedia Experience (QoMEX) Workshop, 2010, pp. 206–211.[25] F. Yang, S. Wan, Q. Xie, and H. R. Wu, “No-Reference Quality Assessment for Networked Video via Primary Analysis of Bit Stream,” IEEE Transactions on Circuits and Systems for Video Technology, vol. 20, no. 11, pp. 1544–1554, Nov. 2010.[26] Z. Wang, H. R. Sheikh, and A. C. Bovik, “Objective Video Quality Assessment,” in The Handbook of Video Databases: Design and Applications, B. Furht and O. Marques, Eds. Boca Raton, FL, USA: CRC Press, 2003, pp. 1041–1078.[27] W. B. da Silva and A. de A. P. Pohl, “Métodos Sem Referência Baseados em Características Espaço-Temporais para Avaliação Objetiva de Qualidade de Vídeo Digital,” Universidade Tecnológica Federal do Paraná (UTFPR), 2013.[28] G.-B. Huang, Q.-Y. Zhu, and C.-K. Siew, “Extreme learning machine: Theory and applications,” Neurocomputing, vol. 70, no. 1–3, pp. 489–501, Dec. 2006.[29] Z. Wang, H. R. Sheikh, and A. C. Bovik, “No-reference perceptual quality assessment of JPEG compressed images,” in Image Processing. 2002. Proceedings. IEEE International Conference on Image Processing, 2002, vol. 1, pp. vol.1 I–477 – I–480.[30] W. B. Silva and A. A. P. Pohl, “No-Reference Video Quality Assessment Method based on the Levenberg-Marquardt Minimization,” in XXX Brazilian Symposium on Telecommunications (SBrT’12), 2012.[31] ITU-T P.910, “Subjective video quality assessment methods for multimedia applications,” Standardization Sector of ITU, 1999.[32] W. Ding, Y. Tong, Q. Zhang, and D. Yang, “Image and Video Quality Assessment Using Neural Network and SVM,” Tsinghua Science & Technology, vol. 13, no. 1, pp. 112–116, 2008.[33] K. S. Banerjee, C. R. Rao, and S. K. Mitra, “Generalized Inverse of Matrices and Its Applications,” Technometrics, vol. 15, no. 1, p. 197, Feb. 1973.[34] VQEG, “Final report from the video quality experts group on the validation of reduced-reference and no-reference objective models for standard de�nition television, Phase I,” 2009.[35] VQEG, “Report on the validation of video quality models for high de�nition video content,” 2010.[36] J. W. Tukey, Exploratory Data Analysis. New York: Addison-Wesley Publishing Company, 1977.[37] P. Gastaldo and R. Zunino, “Neural networks for the no-reference assessment of perceived quality,” J. Electronic Imaging, vol. 14, no. 3, p. 033004, 2005.[38] R. Herzog, M. Čadík, T. O. Aydın, K. I. Kim, K. Myszkowski, and H.-P. Seidel, “NoRM: No-Reference Image Quality Metric for Realistic Image Synthesis,” Comp. Graph. Forum, vol. 31, no. 2pt4, pp. 545–554, 2012.

constelação 256-QAM rotacionada em 3,6º graus e os parâmetros de transmissão de um dos testes realizados [1], [6].

Fig. 4. Processo de rotacionamento da constelação.

Fig. 5. Transmissão com 256-QAM e constelação rotacionada.

O entrelaçamento temporal do DVB-T2 possui 3

possíveis configurações para baixas, medias e altas taxas de transmissão. As variáveis que compõe o entrelaçamento temporal são os tamanhos dos blocos e os saltos entre os mesmos. A operação deste bloco é semelhante ao entrelaçamento de bit, em que ocorre a realocação em blocos das células e entrelaçamento no tempo [6].

2.3. Mapeamento do Quadro

O mapeamento dos quadros é o processo final antes que os dados sejam encaminhados para o processo de modulação. O bloco de mapeamento do quadro é composto por Super-frame (super-quadros). Os super-frames são compostos por um conjunto de quadros T2. Durante o processo de mapeamento também são inseridas informações de sinalização P1, P2 e a possibilidade de inserção de Future Extension Frame (FEF) e Time Frequency Slicing (TFS).

Os FEF´s possuem espaços reservados nos quadros, em que é possível transmitir qualquer tipo de informação nesse campo. Esse bloco é transmitido dentro do quadro DVB-T2, a informação é sinalizada pelo símbolo P2.

Outro recurso é a técnica TFS a qual auxilia em um melhor aproveitamento o uso do espectro sendo possível transmitir uma ou mais camadas PLP’s sobre um único canal de transmissão. O processo consiste na multiplexação dos serviços e na utilização de até 6 canais de RF em que a informação é alocada em frequências que estão disponíveis (os White Spaces). A figura 6 apresenta um exemplo de TFS.

Fig. 6. Exemplo de Fatiamento da Frequência no Tempo (TFS).

Com a técnica TFS é possível transmitir uma maior

taxa de dados para cada um dos serviços, transmissão de mais serviços e uma maior qualidade dos vídeos transmitidos. No entanto, essa técnica necessita de pelo menos 2 sintonizadores e um demodulador especial o que torna os receptores mais caros. Além de ser um método de transmissão que necessita de mais estudos para ser futuramente implantado num sistema de televisão.

2.4. Modulação OFDM

No processo de modulação os pacotes são enviados à interface de modulação, chamada de T2-Gateway, responsável por inserir informações como o BBFRAME, PLP´s, sinalizações L1, timestamp, FEF. Em seguida os dados são multiplexados e recebe o nome de T2-MI (Modulator Interface).

Durante o processo de modulação ocorre a inserção da sequencia pseudo noise (PN) responsável por realizar o sincronismo, o qual também é aplicado as portadoras do tipo Scattered Pilots, Edge pilots, Continual Pilot, P2 e frame-closing pilots responsáveis por realizar estimação do canal, equalização, sincronização e correção de erros em fase [1].

No DVB-T2 existe a possibilidade de configuração de 8 modos das portadoras pilotos. Cada um destes tipos possui diferentes quantidades e deslocamentos entre as portadoras pilotos e comprimento entre as sequencia de símbolos. A escolha do modo de transmissão resulta em diferentes respostas de acordo com o canal de comunicação [1], [2].

Também foram acrescentadas técnicas de Peak to Average Power Ratio Reduction (PAPR) é o bloco responsável pela redução dos fatores de crista. O fator de crista é a relação entre tensão de pico máxima e o

Revista de Radiodifusão • v. 08 • n. 09 • 2014

Análise de desempenho do sistema DVB-T2 para transmissão de 4K (UHD) usando 6 MHz de banda

12

Page 13: Revista de RADIODIFUSÃO - SET PORTAL · Sinais de TV Digital ISDB-Tb via VHF e UHF na Cidade do Gama – DF – Brasil Akamine, Cristiano Bedicks Jr, Gunnar ... cujas frequências

MÉTRICA SEM REFERÊNCIA BASEADA EM REDES NEURAISPARA AVALIAÇÃO OBJETIVA DE QUALIDADE DE VÍDEO DIGITALWyllian Bezerra da Silva, Alexandre de Almeida Prado PohlPrograma de Pós-Graduação em Engenharia Elétrica e Informática Industrial (CPGEI) – UTFPR, Curitiba, [email protected], [email protected]: Este trabalho apresenta uma métrica sem referência para avaliação de qualidade de vídeo digital baseada em uma rede neural arti�cial que usa uma versão estendida do algoritmo de aprendizado ELM (Extreme Learning Machine). O método proposto realiza o treinamento da rede neural a partir de seis características espaço-temporais. Os resultados experimentais mostram que o método proposto apresenta desempenho superior às métricas de referência completa PSNR e MS-SSIM na tarefa de predição de qualidade de vídeo. Logo, o método proposto pode ser usado no monitoramento de qualidade em sistemas de transmissão e recepção de vídeo digital, tais como IPTV e TV digital.Palavras chave: algoritmo ELM, avaliação objetiva de vídeo, métrica sem referência, rede neural arti�cial.1. INTRODUÇÃODurante os últimos anos, a literatura tem apresentado um número crescente publicações acerca de métricas objetivas para avaliação de qualidade de vídeo para diversas aplicações em radiodifusão ou no processamento de vídeo digital, seja na aquisição do sinal, codi�cação e decodi�cação, compressão, transmissão, restauração, armazenamento, segmentação e exibição de sinais de vídeo digital [1–4]. A avaliação de qualidade de vídeo digital pode ser realizada por meio de métricas subjetiva e objetiva. A primeira requer uma grande quantidade de recursos humanos e apresenta elevado custo em sua implementação [1–3]. Porém, as métricas objetivas são vantajosas quando apresentam um determinado grau de correlação com as métricas subjetivas. Logo, o desenvolvimento destas é um desa�o no campo de avaliação de qualidade de vídeo e imagem. Além disso, as métricas objetivas, devido à natureza de seu critério objetivo, independem de interação humana e são facilmente reprodutíveis [3]. Dentre as métricas objetivas destacam-se as métricas sem referência (No-Reference – NR), pois não necessitam do vídeo de referência no cálculo de sua medida. Entretanto, estas requerem um conhecimento a priori sobre as distorções em vídeo digital para que seja estabelecida uma correlação com os resultados subjetivos [3].A maioria das métricas NR encontradas na literatura são baseadas na avaliação de qualidade de imagens e em características relacionadas ao Sistema Visual Humano (SVH). Assim, o desenvolvimento de métricas NR é difícil, devido à necessidade de emular a percepção do SVH que envolve aspectos cognitivos, emocionais e estéticos relacionados ao conteúdo do vídeo e que são altamente dependentes do observador [4], [5].A literatura reporta diversos esforços no desenvolvimento de métricas para avaliação de qualidade de vídeo baseadas em redes neurais e em algoritmos de aprendizado. Babu et al. [6] apresentam uma métrica para avaliar a qualidade de imagens comprimidas em JPEG (Joint Photographic Experts Group) por meio de um algoritmo de aprendizado de crescimento e propõem o uso de uma rede neural GAP-RBF (Growing and Pruning Radial Basis Function) que usa características relacionadas ao SVH. Jiang et al. [7] desenvolveram uma métrica NR para avaliação de qualidade de vídeo em HD (High De�nition) baseada em uma rede neural treinada pelo algoritmo BP (Back-Propagation) que usa seis características espaço-temporais e a RoI (Region of Interest). Choe et al. [8] desenvolveram uma métrica NR baseada no �uxo de bits para avaliação de qualidade de vídeo codi�cado em H.264. Esta métrica extrai características quadro a quadro e usa uma rede neural alimentada adiante (feedforward) com três camadas. Suresh et al. [9] apresentaram uma extensão do algoritmo ELM na tarefa de avaliar a qualidade de imagens comprimidas em JPEG com base no esquema de seleção múltipla KS-ELM (K-fold selection Scheme using ELM) e no algoritmo RCGA-ELM (Real-Coded Genetic Algorithm using ELM) para seleção dos pesos de entrada e polarizações.Este trabalho apresenta uma versão estendida do algoritmo ELM para redes neurais SLFN (Single-hidden-Layer Feedforward Neural Networks) que implementa um simples critério de parada na fase de treinamento. Além disso, esse método usa seis características espaço-temporais de vídeos submetidos a diversas condições de distorção.Este artigo está dividido da seguinte maneira: a Seção 2 descreve as métricas para avaliação de qualidade de vídeo. A Seção 3 descreve o método NR proposto para avalição de qualidade de vídeo digital. A Seção 4 apresenta os resultados experimentais, em que são comparados o método NR proposto e duas métricas FR. Finalmente, a Seção 5 apresenta a conclusão do artigo.2. AVALIAÇÃO DE QUALIDADE DE VÍDEOO processo de avaliação de qualidade de vídeopode ser realizado com a aplicação de métricassubjetivas ou objetivas. As métricas subjetivasestimam a qualidade do vídeo por meio de avaliadoreshumanos. Logo, exigem um alto custo, poisnecessitam de uma grande quantidade de recursoshumanos e apresentam problemas quanto aosrequisitos de imparcialidade e reprodutibilidade,tornando-se inapropriadas em sistemas deradiodifusão ou em provedores de conteúdo [10], [11].Por outro lado, as métricas objetivas são baseadas emmodelos matemáticos, cujo objetivo é produzir umescore de qualidade que emule a percepção do SVH.Além disso, as métricas objetivas requerem baixocusto de implementação (quando comparadas com asmétricas subjetivas) e não apresentam problemasquanto à reprodutibilidade e imparcialidade.As métricas objetivas para avaliação de qualidadede vídeo podem ser classi�cadas em três categorias:(i) métricas de referência completa (Full-Reference –FR); (ii) métricas de referência reduzida (Reduced-Reference – RR); (iii) métricas sem referência (NR).2.1. Métricas FRAs métricas FR requerem o vídeo de referência(fonte) no cálculo do escore de qualidade. Estasmétricas são amplamente utilizadas no processo devalidação de métricas RR ou NR, por meio dacomparação de desempenho de�nida pelasrecomendações do Grupo de Especialistas emQualidade de Vídeo (VQEG – Video Quality ExpertsGroup) que é um órgão de padronização internacionalde métricas subjetivas e objetivas de qualidade devídeo. Dentre as métricas FR, destacam-se o PSNR(Peak Signal-to-Noise Ratio), SSIM (StructuralSIMilarity index) [12] e MS-SSIM (Multi-ScaleStructural SIMilarity index) [13].O PSNR é uma métrica FR baseada no erro pixel apixel de fácil implementação. Entretanto, apresentabaixa correlação com o SVH [14]. A sua medida éprocessada sobre o erro quadro a quadro, i.e., entre oquadro original x e o quadro y . A expressão a seguirde�ne o PSNR para um conjunto de quadros F .2011PSNR 20log ,Fff fvF � MSE� �� � �� �� ��(1)com� � � �20 01MSE , , , , ,N Mfi jx f i j y f i jNM � �� ���� � ��(2)em que o termo f v é igual a (2 1) k � , cujo k é onúmero de bits por pixel, i.e., é a componente deluminância do quadro f . Os termos x �f ,i, j � ey �f ,i, j � são os valores de luminância do quadro deorigem e degradado, respectivamente. Ascomponentes bidimensionais são representadas pelonúmero de colunas N e pelo número de linhas M . Otermo f MSE é de�nido como erro quadrático médioou MSE (Mean Square Error).A métrica SSIM baseia-se no fato de que o SVH éfortemente adaptado para extrair informações dascaracterísticas estruturais de um quadro ou imagem.Logo, uma medida de similaridade estrutural (oudistorção) pode prover boa aproximação para aqualidade perceptual de um vídeo [3, 7–9]. Sejam x ey dois sinais não-negativos, em que y é o sinaldegradado e x é o sinal original (sem perda dequalidade), a medida de similaridade é utilizada comoum índice quantitativo de qualidade do sinal distorcido,ou seja, x é tomado como a referência para medir aqualidade de y . A métrica SSIM possui diversasextensões, dentre as quais a versão MS-SSIM,proposta por Wang et al. [13] que assume umaabordagem multiescalar.2.2. Métricas RRAs métricas de referência reduzida retiram certaquantidade de características do vídeo original (fonte),baseadas em componentes espaciais, temporais, nodomínio da frequência ou no �uxo de bits (bitstream).Este tipo de métrica é amplamente utilizada nomonitoramento de transmissões em rede [17]. Nestetipo de cenário de aplicação, o vídeo é transmitidocom uma sequência de informação codi�cada(overhead) e no lado receptor ocorre a suadecodi�cação, seguido pelo cálculo do índice dequalidade, o qual é obtido por meio da comparaçãoentre a representação reduzida da informação nospares emissor e receptor [18]. Tipicamente, métricasRR são implementadas por meio de funções, divididasem duas etapas [19]: (i) cálculo do erro entre osvídeos original e distorcido, constituído pela diferençade suas características, a �m de compor arepresentação reduzida da informação; (ii) função queagrupa os erros ou diferenças para obter um índice dequalidade global. Algumas métricas RR explorampropriedades dos artefatos, por meio da extração decaracterísticas e um modelo de parametrização [20]com foco em tipos especí�cos de distorções(artefatos). Esta abordagem é encontrada em Silva etal. [17], cujo cálculo do escore de qualidade ébaseado na diferença de atividade dos coe�cientesDCT (Discrete Cosine Transform) em um macro blococom resolução de 16�16 pixels.2.3. Métricas NRAs métricas NR extraem característicasrelacionadas ao SVH do vídeo distorcido, i.e., narecepção do sinal de vídeo [14]. Tipicamente, há duasabordagens no desenvolvimento destas métricas: (i)extração dos parâmetros sobre o �uxo de bits, taiscomo a taxa de compressão, informaçõesrelacionadas ao GoP (Group of Pictures), estimaçãode movimento, per�l e nível de codi�cação, bem comoo parâmetro de quantização ou QP (QuantizationParameter) [21–25]. Métricas NR apresentam maiorcomplexidade quando são aplicadas em vídeo, devidoà variação temporal dos quadros, conteúdos dascenas e à di�culdade de compreensão dascaracterísticas do SVH [26]. Assim, algumas métricasdessa categoria exploram características espaciais etemporais na estimação de qualidade de vídeo [21].3. MÉTODO PROPOSTOO método proposto, denominado NRVQA-ELMtc(No-Reference Video Quality Assessment usingExtreme Learning Machine algorithm with terminationcriteria) [27] combina características espaciais etemporais, por meio de uma rede neural arti�cialSLFNs usando o algoritmo de treinamento ELM [28]com a implementação de um simples critério deparada.3.1. Características espaço-temporaisAs características espaciais incorporadas nométodo proposto são baseadas em medidas deartefatos em vídeo digital, i.e., distorções de blocageme borramento desenvolvidas por Wang et al. [20].Assim, a componente de luminância do quadro f érepresentada por y(f , i, j ) com i � ��1,M�� e j � ��1, N�� ,em que M e N são os números de linhas e colunas,respectivamente, de um quadro. Logo, as diferençasde luminância ao longo das linhas e colunas sãorepresentadas, respectivamente, pelas expressões aseguir.� � � � � � � �� � � � � � � �, , , , 1 , , , 1, 1 ,, , , 1, , , , 1, 1 .hvd f i j y f i j y f i j j Nd f i j y f i j y f i j i M� � � � �� � � � �(3)O efeito de blocagem pode ser estimado pelamédia das diferenças entre as bordas dos blocos daDCT (Discrete Cosine Transform) nas direçõeshorizontal e vertical para uma sequência F dequadros, conforme mostra a Equação (4), com ummacrobloco de dimensão � �� , cujo tamanho típico éde � � 8 [20].� � ��� � � �111 1 1111 1 11, , 1 ,111, 1 , .11NF Mh hf i jMF Nvi jvfB d f i jNF MB d f i jMF N��������� � ���� � �� �� �� � � �� � �� �� �� � � �� � �� � �� � �(4)A medida de blocagem em uma sequência devídeo com F quadros é determinada pela média entreh B e v B , caracterizando a medida B , conforme aexpressão a seguir..2h v B BB�� (5)Os efeitos de borramento são estimados pelocálculo da redução de atividade entre os blocos � �� ,em que é usada a medida de blocagem nas direçõeshorizontal e vertical, conforme as expressões� � � �� �� � � �� �11 1 111 1 1, , ,1 1, ,1.1F M Nh h hf i jF M Nv vfvi jA d f i j BF M NA d f i j BF N M������ � ��� � �� �� � �� �� � �� � �� � �(6)A medida de borramento, representada por A ,conforme a Equação (7), é determinada pela médiaentre h A e v A ..2h v A AA�� (7)O segundo fator que contribui para a detecção doartefato de borramento é baseado na taxa decruzamento por zero (Zero Crossing – ZC) nasdireções horizontal e vertical, conforme as expressõesa seguir.� �� �� �� �21 1 121 1 11, , ,21, , ,2F M Nh hf i jF M Nv vf i jZ z f i jF M NZ z f i jF N M�� � ��� � ��� ��� �� � �� � �(8)em que os termos h z e v z são determinados por� �� �1, na direção horizontal, , ,0, caso contrário1, na direção vertical, , .0, caso contráriohvz f i jz f i j�� �� �� ��(9)Assim, a medida de borramento Z é determinadapela média entre as componentes h Z e v Z ..2h v Z ZZ�� (10)O método proposto também incorpora trêscaracterísticas temporais no treinamento da redeneural SLFN com o algoritmo ELM.A primeira característica temporal é a diferença demovimento entre quadros adjacentes, representadapela variável TI (Temporal perceptual Information) [31]que considera os valores de luminância de pixelslocalizados em uma mesma região de um quadro,conforme a expressão a seguir.� �21, , ,1FfTI m f i jF��� �� �� �� (11)em que o número total de quadros é F e � �m�f ,i, j ��� �é o desvio padrão da diferença de movimento(diferença de luminância) entre o quadro atualy �f ,i, j � e o quadro anterior y �f �1,i, j � .A segunda característica temporal é a média dadiferença absoluta (Mean Absolute Di�erence – MAD)[31] entre quadros sucessivos, representada pelaEquação (12) que de�ne a medida global da MADpara todos os quadros de um vídeo.� �� � � �2 1 11, , 1, , .1F M Nf i jMAD y f i j y f i jM N F � � �� � �� �� � �(12)A terceira característica temporal é a média dadiferença absoluta ponderada (weighted MeanAbsolute Di�erence – MADw) [32], a qual mede o graude variação das cenas de um vídeo que considera acena atual de um quadro f e do quadro anterior f �1,conforme a expressão:2 11.1Fff fMADMADwF � MAD �� �� � �� � ��(13)Assim, o método proposto combina ascaracterísticas espaciais e temporais em uma matriz� , , , , , � f f f f f f f x � A B Z TI MAD MADw , em que f é onúmero de amostras de vídeo. A Figura 1 apresentaas características temporais � espaciais de dezessetebases de dados de vídeos (denominada superconjuntoS) usadas neste trabalho e reportadas em [27]. Arecomendação ITU-T P.910 [31] de�ne a medida SI(Spatial perceptual Information) como informaçãoespacial perceptual. A inspeção visual dessa �guramostra que as amostras de vídeo usadas nestetrabalho apresentam uma grande variação espaçotemporal.Fig. 1. Características espaciais e temporais do superconjuntoS com 216 amostras de referência3.2. Métrica NRVQA-ELMtcO algoritmo ELM [28] desenvolvido para otreinamento de uma rede SLFN atribui pesos epolarizações (biases) de maneira aleatória, segundouma distribuição uniforme. O treinamento compreendeN amostras distintas representadas pela variável�� , � , , 1, , � n mf f f f � � x t x � t � f � N , cujo cálculo éconforme a expressão� � � �1, 1, , ,KK i j j f j fff � g b f N�x � � w x � � o � (14)em que f o é a saída (escore objetivo), g(x) é afunção de ativação e j � é o peso que conecta o jésimoneurônio da camada oculta ao neurônio desaída. De acordo com [28], uma rede SLFN com Knós na camada oculta e uma função de ativação g(x)pode apresentar um erro médio próximo de zero, i.e.,10Kf ff �� o � t � . Logo, há parâmetros j � , j w e j b talque� �1, 1, , ,Kj j f j ff� g b f N�� w x � � t � (15)em que f t é o vetor alvo (escores subjetivos),T1, , j j jn � �w w � � � w é o vetor de peso que conecta o jésimoneurônio da camada oculta ao neurônio dacamada de entrada, j b denota a polarização (bias) doj-ésimo neurônio da camada oculta, � � j f w x é oproduto interno de j w e f x . A Figura 2 ilustra oalgoritmo ELM empregado em uma arquitetura derede neural SLFN.xi1βjN1jKtibjN input neuron K hidden neuron output neuronβ1βKwjFig. 2. Arquitetura de uma rede neural SLFN usando algoritmode treinamento ELMO sistema linear da Equação (16) resume o métododo algoritmo ELM.Hβ � T, (16)em que a matriz da camada oculta é representada por� � � 1, , and 1, , � � H � h f � N j � K com a primeiralinha da matriz de características f x igual aT1 2 , , , f f f fn x � ��x x x �� , i.e., a primeira linha é igual a� � 1 1 1 1 1 1 1 , , , , , f f f f f f f x � A B Z TI MAD MADw . A matriz desaída e o vetor alvo (target) são de�nidos comoT1 , K β � ��β β �� eT1, , N T � ��t t �� , respectivamente. Otermo � �T1 , 1, , j jm j � � � j � K � � β β β denota o vetor depeso que conecta o j-ésimo neurônio da camadaoculta e os neurônios de saída. Hung et al. [28]propuseram a atribuição aleatória de pesos aosparâmetros j w e j b , a �m de seja obtido um pequenoerro não-nulo durante o treinamento. Considerando osistema linear da Equação (17), os pesos da camadade saída podem ser aproximados por† β � H T (17)em que † H é de�nida como matriz inversageneralizada de Moore-Penrose (MP) [33] da matrizde saída da camada oculta �H� . Além disso, oconjunto de treinamento � , nó oculta K e umafunção de ativação g �x � , e.g., função de base radial(Radial Basis Function – RBF), hard-limiting (hardlim),sigmoidal (sig) e seno (sin). Em resumo, o algoritmoELM compreende três etapas [28]:i) Atribuição aleatória dos pesos de entrada j w epolarizações j b ;ii) Cálculo da matriz da camada de saída H ;iii) Cálculo dos pesos de saída † β: β� H T .O método NRVQA-ELMtc [27] implementa umsimples critério de parada no treinamento da redeneural SLFN, quanto à atribuição aleatória dos pesosj w e j b . Embora este critério não seja direcionado,busca os pesos relacionados com o menor RMSE(Root-Mean-Square Error) entre a saída desejada(escore subjetivo) e o escore objetivo na fase detreinamento com k iterações (tipicamente, k � 100 ) eN neurônios na camada oculta. Além disso, conformeestudo realizado em [27], caso o RMSE seja menor doque 0,5 o algoritmo cessa a busca pelos parâmetrosj w e j b .4. RESULTADOS EXPERIMENTAISEsta seção apresenta os resultados de acurácia,i.e., os coe�cientes de correlação linear de Pearson(Pearson Linear Correlation Coe�cient – PLCC) [34],[35], entre os escores objetivos e subjetivos de 2627amostras de vídeo estudadas em [27].A Figura 3 compara a acurácia (PLCC) entre asmétricas de referência completa (FR) PSNR e MSSSIMcom o método proposto (NRVQA-ELMtc) paraas 2627 amostras de vídeo, pertencentes a 17 basesde dados de vídeo disponibilizadas por diversasinstituições e laboratórios [27]. A função de ativaçãousada na rede neural SLFN foi o seno (sin) com onúmero de amostras de teste igual ao número deneurônios na camada oculta ( N ). O método devalidação cruzada múltipla (K-fold) foi usado com oobjetivo de gerar uma distribuição de acurácia, a qualfoi analisada por meio do diagrama de caixa (box-plot)[36], em que o traço, o círculo e o quadrado, ambosem vermelho, representam a mediana, a média e odesvio padrão, respectivamente. Destaca-se queneste trabalho foi empregada uma validação cruzadacom um grande número de amostras de treinamentotestecom K � 100 , i.e., cada caixa do box-plotcomporta 100 experimentos distintos. Tipicamente, aliteratura apresenta trabalhos no campo da avaliaçãoFig. 3. Box-plot da predição da acurácia (PLCC) entre as métricas PSNR, MS-SSIM e o método proposto NRVQA-ELMtcde qualidade de vídeo com K entre 5 e 10 [37], [38].Pela inspeção visual da Figura 3 observa-se que odesempenho do método proposto é superior àsmétricas FR, em quaisquer condições de teste, i.e.,para qualquer quantidade de amostras de teste(número de neurônios na camada oculta) entre 25 e500. Em especial, para N � 50 , o método propostoapresenta valores de PLCC, em termos da média emediana, acima de 0,8, denotando uma forteassociação entre os escores objetivos e subjetivos, natarefa de predição de qualidade de vídeo. Isto ocorredevido à grande quantidade de amostras de vídeousadas no treinamento, e.g., para N � 300 foramusadas 2327 amostras de treinamento, ou seja,mesmo usando pares de treinamento-teste disjuntos,o método proposto mostra uma acurácia superior àsmétricas de referência completa. A assimetria positiva,i.e., a maior concentração da acurácia entre osegundo quartil (mediana) e o terceiro quartil, nadistribuição do box-plot nos testes com 300 e 500neurônios na camada oculta, indica que o métodoproposto apresenta um desempenho expressivo emcomparação com as métricas FR.Entretanto, mesmo para N entre 25 e 50, ométodo proposto apresentou uma acurácia maior doque as métricas FR, cujo melhor resultado foi paraN � 25 com o desvio-quartil (amplitude interquartílica)con�nado entre 0,65 e 0,8. Além disso, este resultadotambém apresentou assimetria positiva com a médiado PLCC em torno de 0,75.5. CONCLUSÃOEste trabalho apresentou uma métrica NR baseadaem uma rede neural arti�cial SLFN, cujo treinamento édeterminado pelo algoritmo ELM, o qual consideracaracterísticas espaço-temporais e os escoressubjetivos (alvos) extraídos de 2627 amostrastreinamento. Além disso, este trabalho propõe umaextensão do algoritmo ELM por meio de um simplescritério de parada, a �m de que sejam obtidosparâmetros da rede neural arti�cial relacionados como menor RMSE. Tipicamente, a comparação entremétricas FR e NR é injusta, devido à ausência dovídeo de referência na obtenção do escore dequalidade em métricas NR. Entretanto, os resultadosexperimentais mostram que o método propostoapresentou desempenho superior às métricas dereferência completa PSNR e MS-SSIM, sobretudo,quando o número de amostras de teste e de neurôniosna camada oculta da rede SLFN é maior do que 250.Logo, a métrica NRVQA-ELMtc pode ser empregadano monitoramento de qualidade em sistemas detransmissão e recepção de vídeo digital, tais comoIPTV (Internet Protocol Television), TV digital ou emdispositivos móveis, tais como ultrabooks,smartphones, tablets e em aparelhos WiDi (WirelessDisplay).REFERÊNCIAS[1] S. Winkler, “Issues in vision modeling for perceptualvideo quality assessment,” Signal Processing, vol. 78,no. 2, pp. 231–252, 1999.[2] Z. Wang and A. C. Bovik, Modern image qualityassessment. San Rafael, CA: Morgan & Claypool,2006.[3] W. Lin and C.-C. Jay Kuo, “Perceptual visual qualitymetrics: A survey,” Journal of Visual Communicationand Image Representation, vol. 22, no. 4, pp. 297–312,May 2011.[4] S. S. Hemami and A. R. Reibman, “No-reference imageand video quality estimation: Applications and humanmotivateddesign,” Signal Processing: ImageCommunication, vol. 25, no. 7, pp. 469–481, 2010.[5] Z. Wang and A. Bovik, “Reduced- and No-ReferenceImage Quality Assessment,” IEEE Signal ProcessingMagazine, vol. 28, no. 6, pp. 29–40, Nov. 2011.[6] R. V. Babu, S. Suresh, and A. Perkis, “No-referenceJPEG-image quality assessment using GAP-RBF,”Signal Processing, vol. 87, no. 6, pp. 1493–1503, 2007.[7] X. Jiang, F. Meng, J. Xu, and W. Zhou, “No-ReferencePerceptual Video Quality Measurement for HighDe�nition Videos Based on an Arti�cial NeuralNetwork,” in Computer and Electrical Engineering,2008. ICCEE 2008. International Conference on, 2008,pp. 424–427.[8] J. Choe, K. Lee, C. Lee, and S. Korea, “No-referencevideo quality measurement using neural networks,” in2009 16th International Conference on Digital SignalProcessing, 2009, pp. 1–4.[9] S. Suresh, R. Venkatesh Babu, and H. J. Kim, “Noreferenceimage quality assessment using modi�edextreme learning machine classi�er,” Applied SoftComputing, vol. 9, no. 2, pp. 541–552, Mar. 2009.[10] A. M. Eskicioglu and P. S. Fisher, “Image qualitymeasures and their performance,” IEEE Transactionson Communications, vol. 43, no. 12, pp. 2959–2965,1995.[11] U. Engelke and H.-J. Zepernick, “Perceptual-basedQuality Metrics for Image and Video Services: ASurvey,” in Proceedings EuroNGI Conf. NextGeneration Internet Networks, 2007, pp. 190–197.[12] Z. Wang, A. C. Bovik, H. R. Sheikh, and E. PSimoncelli, “Image quality assessment: from errorvisibility to structural similarity.,” IEEE Transactions onImage Processing, vol. 13, no. 4, pp. 600–612, 2004.[13] Z. Wang, E. P. Simoncelli, and A. C. Bovik, “Multiscalestructural similarity for image quality assessment,” inThe Thrity-Seventh Asilomar Conference on Signals,Systems & Computers, 2003, 2003, vol. 2, no. 1, pp.1398–1402.[14] H. R. Wu, K. R. Rao, and A. A. Kassim, “Digital VideoImage Quality and Perceptual Coding,” Journal ofElectronic Imaging, vol. 16, no. 3, 2007.[15] Z. Wang and A. C. Bovik, “A universal image qualityindex,” IEEE Signal Processing Letters, vol. 9, no. 3,pp. 81–84, Mar. 2002.[16] Y. Shi, Y. Ding, R. Zhang, and J. Li, “Structure and HueSimilarity for Color Image Quality Assessment,” in 2009International Conference on Electronic ComputerTechnology, 2009, pp. 329–333.[17] W. B. Silva, A. A. P. Pohl, and K. V. O. Fonseca, “AReduced-Reference Video Quality Assessment Methodbased on the Activity-Di�erence of DCT Coe�cients,”IEICE Transactions on Information and Systems, vol. E96-D, no. 3, 2013.[18] P. Le Callet, C. Viard-Gaudin, and D. Barba, “A Convolutional Neural Network Approach for Objective Video Quality Assessment,” IEEE Transactions on Neural Networks, vol. 17, no. 5, pp. 1316–1327, 2006.[19] P. Le Callet and D. Barba, “Image Quality Assessment: From Sites Errors to a Global Appreciation of Quality,” in Proceedings of the Picture Coding Sympsium, 2001, pp. 105–108.[20] M. Miyahara, K. Kotani, and V. R. Algazi, “Objective picture quality scale (PQS) for image coding,” IEEE Transactions on Communications, vol. 46, no. 9, pp. 1215–1226, 1998.[21] M. Slanina, V. Ricny, and R. Forchheimer, “A Novel Metric for H.264/AVC No-Reference Quality Assessment,” in 14th International Workshop on Systems, Signals and Image Processing and 6th EURASIP Conference focused on Speech and Image Processing, Multimedia Communications and Services, 2007, pp. 114–117.[22] O. Sugimoto, S. Naito, S. Sakazawa, and A. Koike, “Objective perceptual video quality measurement method based on hybrid no reference framework,” in 16th IEEE International Conference on Image Processing (ICIP’09), 2009, pp. 2237–2240.[23] T. Oelbaum, C. Keimel, and K. Diepold, “Rule-Based No-Reference Video Quality Evaluation Using Additionally Coded Videos,” IEEE Journal of Selected Topics in Signal Processing, vol. 3, no. 2, pp. 294–303, 2009.[24] N. Staelens, N. Vercammen, Y. Dhondt, B. Vermeulen, P. Lambert, R. de Walle, and P. Demeester, “ViQID: A No-Reference bit stream-based visual quality impairment detector,” in Proceedings of the Second Int Quality of Multimedia Experience (QoMEX) Workshop, 2010, pp. 206–211.[25] F. Yang, S. Wan, Q. Xie, and H. R. Wu, “No-Reference Quality Assessment for Networked Video via Primary Analysis of Bit Stream,” IEEE Transactions on Circuits and Systems for Video Technology, vol. 20, no. 11, pp. 1544–1554, Nov. 2010.[26] Z. Wang, H. R. Sheikh, and A. C. Bovik, “Objective Video Quality Assessment,” in The Handbook of Video Databases: Design and Applications, B. Furht and O. Marques, Eds. Boca Raton, FL, USA: CRC Press, 2003, pp. 1041–1078.[27] W. B. da Silva and A. de A. P. Pohl, “Métodos Sem Referência Baseados em Características Espaço-Temporais para Avaliação Objetiva de Qualidade de Vídeo Digital,” Universidade Tecnológica Federal do Paraná (UTFPR), 2013.[28] G.-B. Huang, Q.-Y. Zhu, and C.-K. Siew, “Extreme learning machine: Theory and applications,” Neurocomputing, vol. 70, no. 1–3, pp. 489–501, Dec. 2006.[29] Z. Wang, H. R. Sheikh, and A. C. Bovik, “No-reference perceptual quality assessment of JPEG compressed images,” in Image Processing. 2002. Proceedings. IEEE International Conference on Image Processing, 2002, vol. 1, pp. vol.1 I–477 – I–480.[30] W. B. Silva and A. A. P. Pohl, “No-Reference Video Quality Assessment Method based on the Levenberg-Marquardt Minimization,” in XXX Brazilian Symposium on Telecommunications (SBrT’12), 2012.[31] ITU-T P.910, “Subjective video quality assessment methods for multimedia applications,” Standardization Sector of ITU, 1999.[32] W. Ding, Y. Tong, Q. Zhang, and D. Yang, “Image and Video Quality Assessment Using Neural Network and SVM,” Tsinghua Science & Technology, vol. 13, no. 1, pp. 112–116, 2008.[33] K. S. Banerjee, C. R. Rao, and S. K. Mitra, “Generalized Inverse of Matrices and Its Applications,” Technometrics, vol. 15, no. 1, p. 197, Feb. 1973.[34] VQEG, “Final report from the video quality experts group on the validation of reduced-reference and no-reference objective models for standard de�nition television, Phase I,” 2009.[35] VQEG, “Report on the validation of video quality models for high de�nition video content,” 2010.[36] J. W. Tukey, Exploratory Data Analysis. New York: Addison-Wesley Publishing Company, 1977.[37] P. Gastaldo and R. Zunino, “Neural networks for the no-reference assessment of perceived quality,” J. Electronic Imaging, vol. 14, no. 3, p. 033004, 2005.[38] R. Herzog, M. Čadík, T. O. Aydın, K. I. Kim, K. Myszkowski, and H.-P. Seidel, “NoRM: No-Reference Image Quality Metric for Realistic Image Synthesis,” Comp. Graph. Forum, vol. 31, no. 2pt4, pp. 545–554, 2012.

valor RMS, que traz grandes benefícios em relação ao aumento de eficiência dos estágios de saída do transmissor, representando uma redução de custo na operação. No DVB-T2 existem duas técnicas de PAPR são elas a Active Constellation Extension (ACE) e Tone Reservation (TR) [1], [6].

O intervalo de guarda é o penúltimo bloco antes que o sinal seja transmitido em RF. Esse bloco realiza a mesma técnica implementada na primeira versão do sistema europeu, em que parte dos dados são inseridos no inicio do bloco transmitido, o que diferencia é o acréscimo de novos valores.

Outro recurso do DVB-T2 é a transmissão utilizando técnica de múltiplas antenas de transmissão e uma antena de recepção (MISO), o qual não foi o foco deste artigo [1].

A tabela I apresenta os valores possíveis de dos parâmetros de transmissão do DVB-T2.

3. PARÂMETROS E PROCEDIMENTOS

A transmissão terrestre em 4K é viável apenas utilizando a codificação HEVC. Ainda assim o DVB-T2 é um dos poucos padrões que suportam as elevadas taxas de transmissão.

O DVB-T2 necessita da configuração de diversos parâmetros necessários para realizar as transmissões, alguns já apresentados na tabela I. Dependendo das configurações ajustadas resulta numa taxa inferior ao mínimo necessário de transmissão do DVB-T2 impossibilitando as transmissões 4K.

Durante a realização desse estudo foram propostos testes com duas configurações, apresentando taxas de transmissão de 27,1 e 31,2 Mbps. As tabelas II e III apresentam os parâmetros utilizados durante a realização dos testes, na tabela II são apresentados valores fixos que foram utilizados para ambas as configurações como valor de entrelaçamento, modulação da portadora de sinalização L1, FEF e TFS desativados.

Já a tabela III apresenta a ordem da modulação, possibilidade ou não de rotacionamento da constelação, taxa do bloco corretor de erro, intervalo

de guarda, modo de transmissão das portadoras-piloto, modo de transmissão de PAPR.

O procedimento adotado consiste na análise

durante 60 segundos até que atinja o critério “TOV” do inglês Treshold of Visibility (limiar de visibilidade) [8]. Análise na qual não pode ocorrer a presença de artefatos ou erros durante o processo de decodificação do vídeo. A figura 7 apresenta imagem do vídeo analisado “zone plate”.

Fig. 7. Imagem do vídeo Zone Plate analisado durante o procedimento de testes.

Os testes foram realizados no laboratório de TV

Digital do Instituto Presbiteriano Mackenzie com o equipamento Analisador ETC marca Rohde & Schwarz, fonte de sinal modelo SFU-Broadcasting Test System marca Rohde & Schwarz, gerador de ruído branco modelo Noise Generator marca Micronetics, Simulador de Sinal TAS modelo 4500 Flex RF Chanel emulator marca Spirent Communications, receptor DVB-T2.

A figura 8 apresenta de maneira genérica o setup dos equipamentos utilizados durante a realização dos testes de sensibilidade, C/N e multipercurso. Para realização dos testes foi definido o canal 69, frequência central 803 MHz.

TABELA I PARÂMETROS DE TRANSMISSÃO DO DVB-T2

MODULAÇÃO QPSK, 16-QAM, 64-QAM, 256-QAM

TAMANHO DA FFT 1K,2K,4K,8K, 8K ext., 16K, 16K ext.,32K, 32K ext.

FEC LDPC+BCH

CODE RATE 1/2, 3/5, 2/3, 3/4, 4/5, 5/6

I.G. 1/4, 9/256,1/8, 19/128, 1/16, 1/32, 1/128

Modo Portadoras Piloto PP1 à PP8

LARGURA DE BANDA (MHZ) 1.7, 5, 6, 7, 8, 10

TABELA II PARÂMETROS DVB-T2

FEF TFS T.I. T. Length OFF OFF 1 1

L1-POS PLP Group PLP Type BB Header 16-QAM 01 1 1

TABELA III PARÂMETROS DVB-T2

Parâmetros RX 1 RX 2 FFT 32K ext. 8K ext.

MOD. 256-QAM 256-QAM ROT. ON ON FEC 3/5 3/4 I.G. 1/128 1/32 PPT PP7 PP4

PAPR OFF OFF Taxa (Mbps) 27,1 31,2

Revista de Radiodifusão • v. 08 • n. 09 • 2014 13

Paulo Guedes Esperante, Cristiano Akamine, Gunnar Bedicks , Roberto Franco

Page 14: Revista de RADIODIFUSÃO - SET PORTAL · Sinais de TV Digital ISDB-Tb via VHF e UHF na Cidade do Gama – DF – Brasil Akamine, Cristiano Bedicks Jr, Gunnar ... cujas frequências

Fig. 8. Diagrama genérico do setup de testes.

4. RESULTADOS

O primeiro teste realizado foi o de sensibilidade, procedimento que consiste no mínimo nível de sinal admissível na entrada da antena do receptor, dado em dBm, os resultados constam na tabela IV.

Em seguida foi realizado o teste de C/N, o qual se tem por objetivo identificar a tolerância do sistema à presença de ruído branco. O cálculo dessa relação é obtido através da potência do sinal fixada em -30 dBm subtraído pela potência do ruído branco valor obtido no procedimento do teste. Na tabela IV também são apresentados os resultados de relação C/N.

O multipercurso também é um fator muito importante para analisar a robustez de um sistema. O multipercurso é um fenômeno em que os sinais percorrem múltiplos caminhos também chamados de ecos. Na maioria das situações os ecos estão atrasados em relação ao sinal principal conhecido por pós-eco. Existe também a possibilidade de ocorrer o pré-eco, em que o eco chega adiantado em relação ao sinal principal [9].

A variável que garante robustez em relação ao multipercurso é o intervalo de guarda, e também deve ser levado em consideração para projetos de redes de frequência única (SFN). A figura 9 apresenta a análise do multipercurso para transmissões com taxas de 27,1 e 31,2 Mbps com atraso do eco até 125 µs para pré-eco e pós-eco.

A duração do intervalo de guarda (Δ) é definida por , em que representa o tempo útil do símbolo

OFDM e são os valores do intervalo de guarda, apresentados na tabela I [1].

Logo considerando 6 MHz de banda e FFT 32 K (ext.) a duração do símbolo é de 4779 µs para intervalo de guarda =1/128 (RX1) a duração do intervalo de guarda é de 37,0 µs. Para o teste RX2 em que foi utilizado FFT 8K (ext.), o tempo útil do símbolo

é de 1195 µs e intervalo de guarda =1/32, o que resulta na duração do intervalo de guarda de 37,0 µs.

O teste com taxa de 27,1 Mbps (RX1) apresentou robustez em relação ao multipercurso. Para esses parâmetros de configuração também foi possível identificar que o sinal é decodificado quando ocorre uma atenuação de 1 dB em relação ao pré-eco e pós-eco, conforme figura 9.

Já o teste com taxa de 31,2 Mbps (RX2) apresentou ser menos robusto quando comparado ao teste anterior. Para atrasos maiores que o intervalo de guarda 37,0 µs foi necessário atenuar significativamente os sinais de pré-eco e pós-eco para decodificar o sinal, conforme figura 9. Esse fenômeno pode estar relacionado com o FEC 3/4 que é considerado menos robusto, quando comparado ao teste RX1 que utiliza 3/5 e possui 1 bit de paridade a mais em relação a RX2.

Fig. 9. Análise de multipercurso até 125,0 µs do DV-T2 para taxa de 27,1 (RX1) e 31,2 Mbps (RX2)

5. CONCLUSÕES

O DVB-T2 possui robustez semelhante ao ISDB-TB com parâmetros de modulação para elevadas taxas de transmissão. Foi demonstrado que o DVB-T2 é capaz de realizar transmissões 4K-UHD utilizando taxas compatíveis às utilizadas com a compressão HEVC.

A sensibilidade e C/N obtidos são satisfatórios e estão próximos aos testes realizados em [2],[10], [11].

Verificou-se que o DVB-T2 apresenta diferentes parâmetros de configuração e dependendo dos valores ajustados é possível se obter um melhor desempenho. É importante a análise do comportamento do multipercurso uma vez que em centros urbanos é comum a interferência causada por múltiplos sinais durante a recepção.

TABELA IV RESULTADOS DOS TESTES

Teste Taxa

RX 1 27,1(MBPS)

RX 2 31,2(MBPS)

Sensibilidade (dBm) -81,5 -78,0

C/N (dB) 17,7 21,8

Revista de Radiodifusão • v. 08 • n. 09 • 2014

Análise de desempenho do sistema DVB-T2 para transmissão de 4K (UHD) usando 6 MHz de banda

14

Page 15: Revista de RADIODIFUSÃO - SET PORTAL · Sinais de TV Digital ISDB-Tb via VHF e UHF na Cidade do Gama – DF – Brasil Akamine, Cristiano Bedicks Jr, Gunnar ... cujas frequências

AGRADECIMENTOS Os autores agradecem a Universidade

Presbiteriana Mackenzie, Sistema Brasileito de Televisão, Rohde & Schwarz do Brasil e Zinwell/Ivision.

REFERÊNCIAS

[1] ETSI, T. S. 302 755 v1. 3.1 (2012-04): Digital Video Broadcasting (DVB). Frame structure channel coding and modulation for a second generation digital terrestrial television broadcasting system (DVB-T2), 2012.

[2] TECH, E. B. U. 3348,“. Frequency and Network

Planning Aspects of DVBT2”, EBU, 2011. [3] BAE, S.-H. et al. Assessments of Subjective Video

Quality on HEVC-Encoded 4K-UHD Video for Beyond-HDTV Broadcasting Services. 2013.

[4] BROSS, Benjamin et al. HEVC performance and

complexity for 4K video. In: Consumer Electronics - Berlin (ICCE-Berlin), 2013. ICCEBerlin 2013. IEEE Third International Conference on. IEEE, 2013. p. 44-47.

[5] Afonso, V. Desenvolvimento de Arquiteturas para

Estimação de Movimento Fracionária Segundo o Padrão HEVC. 2012. Dissertação (Mestrado em Ciências da Computação) – Instituto de Informática, Universidade Federal de Pelotas,Pelotas.

[6] FISHER, W. Digital Video and Audio Broadcasting

Technology: A Practical Engineering Guide. 3. ed. München: Springer, 2010. 701-762 p.

[7] POLAK, L.; KRATOCHVIL, T. Comparison of the

non-rotated and rotated constellations used in DVB-T2 standard. In: Radioelektronika (RADIOELEKTRONIKA), 2012 22nd International Conference. [S.l.: s.n.], 2012. p. 1-4.

[8] NORDIG (Ed.). NorDig Unified Test Specifications

for Integrated Receiver Decoders. NorDig, 2012. Disponível em: <http://www.nordig.org/>.

[9] YAMADA, F. et al. Revista Mackenzie de

Engenharia e Computação - Sistema de TV Digital. São Paulo: Editora Mackenzie, 2004.

[10] Kratochvil, T.; Polak, L., "Measurement of the

DVB-T2 with 256QAM rotated constellation and 32K extended mode in relation to variable pilot patterns," Broadband Multimedia Systems and Broadcasting (BMSB), 2013 IEEE International Symposium on , vol., no., pp.1,4, 5-7 June 2013

[11] EIZMENDI, Inaki et al. DVB-T2 performance in

presence of multipath laboratory tests. In: Broadband Multimedia Systems and Broadcasting (BMSB), 2011 IEEE International Symposium on. IEEE, 2011. p. 1-6.

Revista de Radiodifusão • v. 08 • n. 09 • 2014 15

Paulo Guedes Esperante, Cristiano Akamine, Gunnar Bedicks , Roberto Franco

Page 16: Revista de RADIODIFUSÃO - SET PORTAL · Sinais de TV Digital ISDB-Tb via VHF e UHF na Cidade do Gama – DF – Brasil Akamine, Cristiano Bedicks Jr, Gunnar ... cujas frequências

Compensação não linear Adaptativa aplicada àOtimização de Transmissores de TV Digital

Ramon Maia [email protected]

Paulo Marcos [email protected]

Revista de Radiodifusão • v. 08 • n. 09 • 201416

Page 17: Revista de RADIODIFUSÃO - SET PORTAL · Sinais de TV Digital ISDB-Tb via VHF e UHF na Cidade do Gama – DF – Brasil Akamine, Cristiano Bedicks Jr, Gunnar ... cujas frequências

MÉTRICA SEM REFERÊNCIA BASEADA EM REDES NEURAISPARA AVALIAÇÃO OBJETIVA DE QUALIDADE DE VÍDEO DIGITALWyllian Bezerra da Silva, Alexandre de Almeida Prado PohlPrograma de Pós-Graduação em Engenharia Elétrica e Informática Industrial (CPGEI) – UTFPR, Curitiba, [email protected], [email protected]: Este trabalho apresenta uma métrica sem referência para avaliação de qualidade de vídeo digital baseada em uma rede neural arti�cial que usa uma versão estendida do algoritmo de aprendizado ELM (Extreme Learning Machine). O método proposto realiza o treinamento da rede neural a partir de seis características espaço-temporais. Os resultados experimentais mostram que o método proposto apresenta desempenho superior às métricas de referência completa PSNR e MS-SSIM na tarefa de predição de qualidade de vídeo. Logo, o método proposto pode ser usado no monitoramento de qualidade em sistemas de transmissão e recepção de vídeo digital, tais como IPTV e TV digital.Palavras chave: algoritmo ELM, avaliação objetiva de vídeo, métrica sem referência, rede neural arti�cial.1. INTRODUÇÃODurante os últimos anos, a literatura tem apresentado um número crescente publicações acerca de métricas objetivas para avaliação de qualidade de vídeo para diversas aplicações em radiodifusão ou no processamento de vídeo digital, seja na aquisição do sinal, codi�cação e decodi�cação, compressão, transmissão, restauração, armazenamento, segmentação e exibição de sinais de vídeo digital [1–4]. A avaliação de qualidade de vídeo digital pode ser realizada por meio de métricas subjetiva e objetiva. A primeira requer uma grande quantidade de recursos humanos e apresenta elevado custo em sua implementação [1–3]. Porém, as métricas objetivas são vantajosas quando apresentam um determinado grau de correlação com as métricas subjetivas. Logo, o desenvolvimento destas é um desa�o no campo de avaliação de qualidade de vídeo e imagem. Além disso, as métricas objetivas, devido à natureza de seu critério objetivo, independem de interação humana e são facilmente reprodutíveis [3]. Dentre as métricas objetivas destacam-se as métricas sem referência (No-Reference – NR), pois não necessitam do vídeo de referência no cálculo de sua medida. Entretanto, estas requerem um conhecimento a priori sobre as distorções em vídeo digital para que seja estabelecida uma correlação com os resultados subjetivos [3].A maioria das métricas NR encontradas na literatura são baseadas na avaliação de qualidade de imagens e em características relacionadas ao Sistema Visual Humano (SVH). Assim, o desenvolvimento de métricas NR é difícil, devido à necessidade de emular a percepção do SVH que envolve aspectos cognitivos, emocionais e estéticos relacionados ao conteúdo do vídeo e que são altamente dependentes do observador [4], [5].A literatura reporta diversos esforços no desenvolvimento de métricas para avaliação de qualidade de vídeo baseadas em redes neurais e em algoritmos de aprendizado. Babu et al. [6] apresentam uma métrica para avaliar a qualidade de imagens comprimidas em JPEG (Joint Photographic Experts Group) por meio de um algoritmo de aprendizado de crescimento e propõem o uso de uma rede neural GAP-RBF (Growing and Pruning Radial Basis Function) que usa características relacionadas ao SVH. Jiang et al. [7] desenvolveram uma métrica NR para avaliação de qualidade de vídeo em HD (High De�nition) baseada em uma rede neural treinada pelo algoritmo BP (Back-Propagation) que usa seis características espaço-temporais e a RoI (Region of Interest). Choe et al. [8] desenvolveram uma métrica NR baseada no �uxo de bits para avaliação de qualidade de vídeo codi�cado em H.264. Esta métrica extrai características quadro a quadro e usa uma rede neural alimentada adiante (feedforward) com três camadas. Suresh et al. [9] apresentaram uma extensão do algoritmo ELM na tarefa de avaliar a qualidade de imagens comprimidas em JPEG com base no esquema de seleção múltipla KS-ELM (K-fold selection Scheme using ELM) e no algoritmo RCGA-ELM (Real-Coded Genetic Algorithm using ELM) para seleção dos pesos de entrada e polarizações.Este trabalho apresenta uma versão estendida do algoritmo ELM para redes neurais SLFN (Single-hidden-Layer Feedforward Neural Networks) que implementa um simples critério de parada na fase de treinamento. Além disso, esse método usa seis características espaço-temporais de vídeos submetidos a diversas condições de distorção.Este artigo está dividido da seguinte maneira: a Seção 2 descreve as métricas para avaliação de qualidade de vídeo. A Seção 3 descreve o método NR proposto para avalição de qualidade de vídeo digital. A Seção 4 apresenta os resultados experimentais, em que são comparados o método NR proposto e duas métricas FR. Finalmente, a Seção 5 apresenta a conclusão do artigo.2. AVALIAÇÃO DE QUALIDADE DE VÍDEOO processo de avaliação de qualidade de vídeopode ser realizado com a aplicação de métricassubjetivas ou objetivas. As métricas subjetivasestimam a qualidade do vídeo por meio de avaliadoreshumanos. Logo, exigem um alto custo, poisnecessitam de uma grande quantidade de recursoshumanos e apresentam problemas quanto aosrequisitos de imparcialidade e reprodutibilidade,tornando-se inapropriadas em sistemas deradiodifusão ou em provedores de conteúdo [10], [11].Por outro lado, as métricas objetivas são baseadas emmodelos matemáticos, cujo objetivo é produzir umescore de qualidade que emule a percepção do SVH.Além disso, as métricas objetivas requerem baixocusto de implementação (quando comparadas com asmétricas subjetivas) e não apresentam problemasquanto à reprodutibilidade e imparcialidade.As métricas objetivas para avaliação de qualidadede vídeo podem ser classi�cadas em três categorias:(i) métricas de referência completa (Full-Reference –FR); (ii) métricas de referência reduzida (Reduced-Reference – RR); (iii) métricas sem referência (NR).2.1. Métricas FRAs métricas FR requerem o vídeo de referência(fonte) no cálculo do escore de qualidade. Estasmétricas são amplamente utilizadas no processo devalidação de métricas RR ou NR, por meio dacomparação de desempenho de�nida pelasrecomendações do Grupo de Especialistas emQualidade de Vídeo (VQEG – Video Quality ExpertsGroup) que é um órgão de padronização internacionalde métricas subjetivas e objetivas de qualidade devídeo. Dentre as métricas FR, destacam-se o PSNR(Peak Signal-to-Noise Ratio), SSIM (StructuralSIMilarity index) [12] e MS-SSIM (Multi-ScaleStructural SIMilarity index) [13].O PSNR é uma métrica FR baseada no erro pixel apixel de fácil implementação. Entretanto, apresentabaixa correlação com o SVH [14]. A sua medida éprocessada sobre o erro quadro a quadro, i.e., entre oquadro original x e o quadro y . A expressão a seguirde�ne o PSNR para um conjunto de quadros F .2011PSNR 20log ,Fff fvF � MSE� �� � �� �� ��(1)com� � � �20 01MSE , , , , ,N Mfi jx f i j y f i jNM � �� ���� � ��(2)em que o termo f v é igual a (2 1) k � , cujo k é onúmero de bits por pixel, i.e., é a componente deluminância do quadro f . Os termos x �f ,i, j � ey �f ,i, j � são os valores de luminância do quadro deorigem e degradado, respectivamente. Ascomponentes bidimensionais são representadas pelonúmero de colunas N e pelo número de linhas M . Otermo f MSE é de�nido como erro quadrático médioou MSE (Mean Square Error).A métrica SSIM baseia-se no fato de que o SVH éfortemente adaptado para extrair informações dascaracterísticas estruturais de um quadro ou imagem.Logo, uma medida de similaridade estrutural (oudistorção) pode prover boa aproximação para aqualidade perceptual de um vídeo [3, 7–9]. Sejam x ey dois sinais não-negativos, em que y é o sinaldegradado e x é o sinal original (sem perda dequalidade), a medida de similaridade é utilizada comoum índice quantitativo de qualidade do sinal distorcido,ou seja, x é tomado como a referência para medir aqualidade de y . A métrica SSIM possui diversasextensões, dentre as quais a versão MS-SSIM,proposta por Wang et al. [13] que assume umaabordagem multiescalar.2.2. Métricas RRAs métricas de referência reduzida retiram certaquantidade de características do vídeo original (fonte),baseadas em componentes espaciais, temporais, nodomínio da frequência ou no �uxo de bits (bitstream).Este tipo de métrica é amplamente utilizada nomonitoramento de transmissões em rede [17]. Nestetipo de cenário de aplicação, o vídeo é transmitidocom uma sequência de informação codi�cada(overhead) e no lado receptor ocorre a suadecodi�cação, seguido pelo cálculo do índice dequalidade, o qual é obtido por meio da comparaçãoentre a representação reduzida da informação nospares emissor e receptor [18]. Tipicamente, métricasRR são implementadas por meio de funções, divididasem duas etapas [19]: (i) cálculo do erro entre osvídeos original e distorcido, constituído pela diferençade suas características, a �m de compor arepresentação reduzida da informação; (ii) função queagrupa os erros ou diferenças para obter um índice dequalidade global. Algumas métricas RR explorampropriedades dos artefatos, por meio da extração decaracterísticas e um modelo de parametrização [20]com foco em tipos especí�cos de distorções(artefatos). Esta abordagem é encontrada em Silva etal. [17], cujo cálculo do escore de qualidade ébaseado na diferença de atividade dos coe�cientesDCT (Discrete Cosine Transform) em um macro blococom resolução de 16�16 pixels.2.3. Métricas NRAs métricas NR extraem característicasrelacionadas ao SVH do vídeo distorcido, i.e., narecepção do sinal de vídeo [14]. Tipicamente, há duasabordagens no desenvolvimento destas métricas: (i)extração dos parâmetros sobre o �uxo de bits, taiscomo a taxa de compressão, informaçõesrelacionadas ao GoP (Group of Pictures), estimaçãode movimento, per�l e nível de codi�cação, bem comoo parâmetro de quantização ou QP (QuantizationParameter) [21–25]. Métricas NR apresentam maiorcomplexidade quando são aplicadas em vídeo, devidoà variação temporal dos quadros, conteúdos dascenas e à di�culdade de compreensão dascaracterísticas do SVH [26]. Assim, algumas métricasdessa categoria exploram características espaciais etemporais na estimação de qualidade de vídeo [21].3. MÉTODO PROPOSTOO método proposto, denominado NRVQA-ELMtc(No-Reference Video Quality Assessment usingExtreme Learning Machine algorithm with terminationcriteria) [27] combina características espaciais etemporais, por meio de uma rede neural arti�cialSLFNs usando o algoritmo de treinamento ELM [28]com a implementação de um simples critério deparada.3.1. Características espaço-temporaisAs características espaciais incorporadas nométodo proposto são baseadas em medidas deartefatos em vídeo digital, i.e., distorções de blocageme borramento desenvolvidas por Wang et al. [20].Assim, a componente de luminância do quadro f érepresentada por y(f , i, j ) com i � ��1,M�� e j � ��1, N�� ,em que M e N são os números de linhas e colunas,respectivamente, de um quadro. Logo, as diferençasde luminância ao longo das linhas e colunas sãorepresentadas, respectivamente, pelas expressões aseguir.� � � � � � � �� � � � � � � �, , , , 1 , , , 1, 1 ,, , , 1, , , , 1, 1 .hvd f i j y f i j y f i j j Nd f i j y f i j y f i j i M� � � � �� � � � �(3)O efeito de blocagem pode ser estimado pelamédia das diferenças entre as bordas dos blocos daDCT (Discrete Cosine Transform) nas direçõeshorizontal e vertical para uma sequência F dequadros, conforme mostra a Equação (4), com ummacrobloco de dimensão � �� , cujo tamanho típico éde � � 8 [20].� � ��� � � �111 1 1111 1 11, , 1 ,111, 1 , .11NF Mh hf i jMF Nvi jvfB d f i jNF MB d f i jMF N��������� � ���� � �� �� �� � � �� � �� �� �� � � �� � �� � �� � �(4)A medida de blocagem em uma sequência devídeo com F quadros é determinada pela média entreh B e v B , caracterizando a medida B , conforme aexpressão a seguir..2h v B BB�� (5)Os efeitos de borramento são estimados pelocálculo da redução de atividade entre os blocos � �� ,em que é usada a medida de blocagem nas direçõeshorizontal e vertical, conforme as expressões� � � �� �� � � �� �11 1 111 1 1, , ,1 1, ,1.1F M Nh h hf i jF M Nv vfvi jA d f i j BF M NA d f i j BF N M������ � ��� � �� �� � �� �� � �� � �� � �(6)A medida de borramento, representada por A ,conforme a Equação (7), é determinada pela médiaentre h A e v A ..2h v A AA�� (7)O segundo fator que contribui para a detecção doartefato de borramento é baseado na taxa decruzamento por zero (Zero Crossing – ZC) nasdireções horizontal e vertical, conforme as expressõesa seguir.� �� �� �� �21 1 121 1 11, , ,21, , ,2F M Nh hf i jF M Nv vf i jZ z f i jF M NZ z f i jF N M�� � ��� � ��� ��� �� � �� � �(8)em que os termos h z e v z são determinados por� �� �1, na direção horizontal, , ,0, caso contrário1, na direção vertical, , .0, caso contráriohvz f i jz f i j�� �� �� ��(9)Assim, a medida de borramento Z é determinadapela média entre as componentes h Z e v Z ..2h v Z ZZ�� (10)O método proposto também incorpora trêscaracterísticas temporais no treinamento da redeneural SLFN com o algoritmo ELM.A primeira característica temporal é a diferença demovimento entre quadros adjacentes, representadapela variável TI (Temporal perceptual Information) [31]que considera os valores de luminância de pixelslocalizados em uma mesma região de um quadro,conforme a expressão a seguir.� �21, , ,1FfTI m f i jF��� �� �� �� (11)em que o número total de quadros é F e � �m�f ,i, j ��� �é o desvio padrão da diferença de movimento(diferença de luminância) entre o quadro atualy �f ,i, j � e o quadro anterior y �f �1,i, j � .A segunda característica temporal é a média dadiferença absoluta (Mean Absolute Di�erence – MAD)[31] entre quadros sucessivos, representada pelaEquação (12) que de�ne a medida global da MADpara todos os quadros de um vídeo.� �� � � �2 1 11, , 1, , .1F M Nf i jMAD y f i j y f i jM N F � � �� � �� �� � �(12)A terceira característica temporal é a média dadiferença absoluta ponderada (weighted MeanAbsolute Di�erence – MADw) [32], a qual mede o graude variação das cenas de um vídeo que considera acena atual de um quadro f e do quadro anterior f �1,conforme a expressão:2 11.1Fff fMADMADwF � MAD �� �� � �� � ��(13)Assim, o método proposto combina ascaracterísticas espaciais e temporais em uma matriz� , , , , , � f f f f f f f x � A B Z TI MAD MADw , em que f é onúmero de amostras de vídeo. A Figura 1 apresentaas características temporais � espaciais de dezessetebases de dados de vídeos (denominada superconjuntoS) usadas neste trabalho e reportadas em [27]. Arecomendação ITU-T P.910 [31] de�ne a medida SI(Spatial perceptual Information) como informaçãoespacial perceptual. A inspeção visual dessa �guramostra que as amostras de vídeo usadas nestetrabalho apresentam uma grande variação espaçotemporal.Fig. 1. Características espaciais e temporais do superconjuntoS com 216 amostras de referência3.2. Métrica NRVQA-ELMtcO algoritmo ELM [28] desenvolvido para otreinamento de uma rede SLFN atribui pesos epolarizações (biases) de maneira aleatória, segundouma distribuição uniforme. O treinamento compreendeN amostras distintas representadas pela variável�� , � , , 1, , � n mf f f f � � x t x � t � f � N , cujo cálculo éconforme a expressão� � � �1, 1, , ,KK i j j f j fff � g b f N�x � � w x � � o � (14)em que f o é a saída (escore objetivo), g(x) é afunção de ativação e j � é o peso que conecta o jésimoneurônio da camada oculta ao neurônio desaída. De acordo com [28], uma rede SLFN com Knós na camada oculta e uma função de ativação g(x)pode apresentar um erro médio próximo de zero, i.e.,10Kf ff �� o � t � . Logo, há parâmetros j � , j w e j b talque� �1, 1, , ,Kj j f j ff� g b f N�� w x � � t � (15)em que f t é o vetor alvo (escores subjetivos),T1, , j j jn � �w w � � � w é o vetor de peso que conecta o jésimoneurônio da camada oculta ao neurônio dacamada de entrada, j b denota a polarização (bias) doj-ésimo neurônio da camada oculta, � � j f w x é oproduto interno de j w e f x . A Figura 2 ilustra oalgoritmo ELM empregado em uma arquitetura derede neural SLFN.xi1βjN1jKtibjN input neuron K hidden neuron output neuronβ1βKwjFig. 2. Arquitetura de uma rede neural SLFN usando algoritmode treinamento ELMO sistema linear da Equação (16) resume o métododo algoritmo ELM.Hβ � T, (16)em que a matriz da camada oculta é representada por� � � 1, , and 1, , � � H � h f � N j � K com a primeiralinha da matriz de características f x igual aT1 2 , , , f f f fn x � ��x x x �� , i.e., a primeira linha é igual a� � 1 1 1 1 1 1 1 , , , , , f f f f f f f x � A B Z TI MAD MADw . A matriz desaída e o vetor alvo (target) são de�nidos comoT1 , K β � ��β β �� eT1, , N T � ��t t �� , respectivamente. Otermo � �T1 , 1, , j jm j � � � j � K � � β β β denota o vetor depeso que conecta o j-ésimo neurônio da camadaoculta e os neurônios de saída. Hung et al. [28]propuseram a atribuição aleatória de pesos aosparâmetros j w e j b , a �m de seja obtido um pequenoerro não-nulo durante o treinamento. Considerando osistema linear da Equação (17), os pesos da camadade saída podem ser aproximados por† β � H T (17)em que † H é de�nida como matriz inversageneralizada de Moore-Penrose (MP) [33] da matrizde saída da camada oculta �H� . Além disso, oconjunto de treinamento � , nó oculta K e umafunção de ativação g �x � , e.g., função de base radial(Radial Basis Function – RBF), hard-limiting (hardlim),sigmoidal (sig) e seno (sin). Em resumo, o algoritmoELM compreende três etapas [28]:i) Atribuição aleatória dos pesos de entrada j w epolarizações j b ;ii) Cálculo da matriz da camada de saída H ;iii) Cálculo dos pesos de saída † β: β� H T .O método NRVQA-ELMtc [27] implementa umsimples critério de parada no treinamento da redeneural SLFN, quanto à atribuição aleatória dos pesosj w e j b . Embora este critério não seja direcionado,busca os pesos relacionados com o menor RMSE(Root-Mean-Square Error) entre a saída desejada(escore subjetivo) e o escore objetivo na fase detreinamento com k iterações (tipicamente, k � 100 ) eN neurônios na camada oculta. Além disso, conformeestudo realizado em [27], caso o RMSE seja menor doque 0,5 o algoritmo cessa a busca pelos parâmetrosj w e j b .4. RESULTADOS EXPERIMENTAISEsta seção apresenta os resultados de acurácia,i.e., os coe�cientes de correlação linear de Pearson(Pearson Linear Correlation Coe�cient – PLCC) [34],[35], entre os escores objetivos e subjetivos de 2627amostras de vídeo estudadas em [27].A Figura 3 compara a acurácia (PLCC) entre asmétricas de referência completa (FR) PSNR e MSSSIMcom o método proposto (NRVQA-ELMtc) paraas 2627 amostras de vídeo, pertencentes a 17 basesde dados de vídeo disponibilizadas por diversasinstituições e laboratórios [27]. A função de ativaçãousada na rede neural SLFN foi o seno (sin) com onúmero de amostras de teste igual ao número deneurônios na camada oculta ( N ). O método devalidação cruzada múltipla (K-fold) foi usado com oobjetivo de gerar uma distribuição de acurácia, a qualfoi analisada por meio do diagrama de caixa (box-plot)[36], em que o traço, o círculo e o quadrado, ambosem vermelho, representam a mediana, a média e odesvio padrão, respectivamente. Destaca-se queneste trabalho foi empregada uma validação cruzadacom um grande número de amostras de treinamentotestecom K � 100 , i.e., cada caixa do box-plotcomporta 100 experimentos distintos. Tipicamente, aliteratura apresenta trabalhos no campo da avaliaçãoFig. 3. Box-plot da predição da acurácia (PLCC) entre as métricas PSNR, MS-SSIM e o método proposto NRVQA-ELMtcde qualidade de vídeo com K entre 5 e 10 [37], [38].Pela inspeção visual da Figura 3 observa-se que odesempenho do método proposto é superior àsmétricas FR, em quaisquer condições de teste, i.e.,para qualquer quantidade de amostras de teste(número de neurônios na camada oculta) entre 25 e500. Em especial, para N � 50 , o método propostoapresenta valores de PLCC, em termos da média emediana, acima de 0,8, denotando uma forteassociação entre os escores objetivos e subjetivos, natarefa de predição de qualidade de vídeo. Isto ocorredevido à grande quantidade de amostras de vídeousadas no treinamento, e.g., para N � 300 foramusadas 2327 amostras de treinamento, ou seja,mesmo usando pares de treinamento-teste disjuntos,o método proposto mostra uma acurácia superior àsmétricas de referência completa. A assimetria positiva,i.e., a maior concentração da acurácia entre osegundo quartil (mediana) e o terceiro quartil, nadistribuição do box-plot nos testes com 300 e 500neurônios na camada oculta, indica que o métodoproposto apresenta um desempenho expressivo emcomparação com as métricas FR.Entretanto, mesmo para N entre 25 e 50, ométodo proposto apresentou uma acurácia maior doque as métricas FR, cujo melhor resultado foi paraN � 25 com o desvio-quartil (amplitude interquartílica)con�nado entre 0,65 e 0,8. Além disso, este resultadotambém apresentou assimetria positiva com a médiado PLCC em torno de 0,75.5. CONCLUSÃOEste trabalho apresentou uma métrica NR baseadaem uma rede neural arti�cial SLFN, cujo treinamento édeterminado pelo algoritmo ELM, o qual consideracaracterísticas espaço-temporais e os escoressubjetivos (alvos) extraídos de 2627 amostrastreinamento. Além disso, este trabalho propõe umaextensão do algoritmo ELM por meio de um simplescritério de parada, a �m de que sejam obtidosparâmetros da rede neural arti�cial relacionados como menor RMSE. Tipicamente, a comparação entremétricas FR e NR é injusta, devido à ausência dovídeo de referência na obtenção do escore dequalidade em métricas NR. Entretanto, os resultadosexperimentais mostram que o método propostoapresentou desempenho superior às métricas dereferência completa PSNR e MS-SSIM, sobretudo,quando o número de amostras de teste e de neurôniosna camada oculta da rede SLFN é maior do que 250.Logo, a métrica NRVQA-ELMtc pode ser empregadano monitoramento de qualidade em sistemas detransmissão e recepção de vídeo digital, tais comoIPTV (Internet Protocol Television), TV digital ou emdispositivos móveis, tais como ultrabooks,smartphones, tablets e em aparelhos WiDi (WirelessDisplay).REFERÊNCIAS[1] S. Winkler, “Issues in vision modeling for perceptualvideo quality assessment,” Signal Processing, vol. 78,no. 2, pp. 231–252, 1999.[2] Z. Wang and A. C. Bovik, Modern image qualityassessment. San Rafael, CA: Morgan & Claypool,2006.[3] W. Lin and C.-C. Jay Kuo, “Perceptual visual qualitymetrics: A survey,” Journal of Visual Communicationand Image Representation, vol. 22, no. 4, pp. 297–312,May 2011.[4] S. S. Hemami and A. R. Reibman, “No-reference imageand video quality estimation: Applications and humanmotivateddesign,” Signal Processing: ImageCommunication, vol. 25, no. 7, pp. 469–481, 2010.[5] Z. Wang and A. Bovik, “Reduced- and No-ReferenceImage Quality Assessment,” IEEE Signal ProcessingMagazine, vol. 28, no. 6, pp. 29–40, Nov. 2011.[6] R. V. Babu, S. Suresh, and A. Perkis, “No-referenceJPEG-image quality assessment using GAP-RBF,”Signal Processing, vol. 87, no. 6, pp. 1493–1503, 2007.[7] X. Jiang, F. Meng, J. Xu, and W. Zhou, “No-ReferencePerceptual Video Quality Measurement for HighDe�nition Videos Based on an Arti�cial NeuralNetwork,” in Computer and Electrical Engineering,2008. ICCEE 2008. International Conference on, 2008,pp. 424–427.[8] J. Choe, K. Lee, C. Lee, and S. Korea, “No-referencevideo quality measurement using neural networks,” in2009 16th International Conference on Digital SignalProcessing, 2009, pp. 1–4.[9] S. Suresh, R. Venkatesh Babu, and H. J. Kim, “Noreferenceimage quality assessment using modi�edextreme learning machine classi�er,” Applied SoftComputing, vol. 9, no. 2, pp. 541–552, Mar. 2009.[10] A. M. Eskicioglu and P. S. Fisher, “Image qualitymeasures and their performance,” IEEE Transactionson Communications, vol. 43, no. 12, pp. 2959–2965,1995.[11] U. Engelke and H.-J. Zepernick, “Perceptual-basedQuality Metrics for Image and Video Services: ASurvey,” in Proceedings EuroNGI Conf. NextGeneration Internet Networks, 2007, pp. 190–197.[12] Z. Wang, A. C. Bovik, H. R. Sheikh, and E. PSimoncelli, “Image quality assessment: from errorvisibility to structural similarity.,” IEEE Transactions onImage Processing, vol. 13, no. 4, pp. 600–612, 2004.[13] Z. Wang, E. P. Simoncelli, and A. C. Bovik, “Multiscalestructural similarity for image quality assessment,” inThe Thrity-Seventh Asilomar Conference on Signals,Systems & Computers, 2003, 2003, vol. 2, no. 1, pp.1398–1402.[14] H. R. Wu, K. R. Rao, and A. A. Kassim, “Digital VideoImage Quality and Perceptual Coding,” Journal ofElectronic Imaging, vol. 16, no. 3, 2007.[15] Z. Wang and A. C. Bovik, “A universal image qualityindex,” IEEE Signal Processing Letters, vol. 9, no. 3,pp. 81–84, Mar. 2002.[16] Y. Shi, Y. Ding, R. Zhang, and J. Li, “Structure and HueSimilarity for Color Image Quality Assessment,” in 2009International Conference on Electronic ComputerTechnology, 2009, pp. 329–333.[17] W. B. Silva, A. A. P. Pohl, and K. V. O. Fonseca, “AReduced-Reference Video Quality Assessment Methodbased on the Activity-Di�erence of DCT Coe�cients,”IEICE Transactions on Information and Systems, vol. E96-D, no. 3, 2013.[18] P. Le Callet, C. Viard-Gaudin, and D. Barba, “A Convolutional Neural Network Approach for Objective Video Quality Assessment,” IEEE Transactions on Neural Networks, vol. 17, no. 5, pp. 1316–1327, 2006.[19] P. Le Callet and D. Barba, “Image Quality Assessment: From Sites Errors to a Global Appreciation of Quality,” in Proceedings of the Picture Coding Sympsium, 2001, pp. 105–108.[20] M. Miyahara, K. Kotani, and V. R. Algazi, “Objective picture quality scale (PQS) for image coding,” IEEE Transactions on Communications, vol. 46, no. 9, pp. 1215–1226, 1998.[21] M. Slanina, V. Ricny, and R. Forchheimer, “A Novel Metric for H.264/AVC No-Reference Quality Assessment,” in 14th International Workshop on Systems, Signals and Image Processing and 6th EURASIP Conference focused on Speech and Image Processing, Multimedia Communications and Services, 2007, pp. 114–117.[22] O. Sugimoto, S. Naito, S. Sakazawa, and A. Koike, “Objective perceptual video quality measurement method based on hybrid no reference framework,” in 16th IEEE International Conference on Image Processing (ICIP’09), 2009, pp. 2237–2240.[23] T. Oelbaum, C. Keimel, and K. Diepold, “Rule-Based No-Reference Video Quality Evaluation Using Additionally Coded Videos,” IEEE Journal of Selected Topics in Signal Processing, vol. 3, no. 2, pp. 294–303, 2009.[24] N. Staelens, N. Vercammen, Y. Dhondt, B. Vermeulen, P. Lambert, R. de Walle, and P. Demeester, “ViQID: A No-Reference bit stream-based visual quality impairment detector,” in Proceedings of the Second Int Quality of Multimedia Experience (QoMEX) Workshop, 2010, pp. 206–211.[25] F. Yang, S. Wan, Q. Xie, and H. R. Wu, “No-Reference Quality Assessment for Networked Video via Primary Analysis of Bit Stream,” IEEE Transactions on Circuits and Systems for Video Technology, vol. 20, no. 11, pp. 1544–1554, Nov. 2010.[26] Z. Wang, H. R. Sheikh, and A. C. Bovik, “Objective Video Quality Assessment,” in The Handbook of Video Databases: Design and Applications, B. Furht and O. Marques, Eds. Boca Raton, FL, USA: CRC Press, 2003, pp. 1041–1078.[27] W. B. da Silva and A. de A. P. Pohl, “Métodos Sem Referência Baseados em Características Espaço-Temporais para Avaliação Objetiva de Qualidade de Vídeo Digital,” Universidade Tecnológica Federal do Paraná (UTFPR), 2013.[28] G.-B. Huang, Q.-Y. Zhu, and C.-K. Siew, “Extreme learning machine: Theory and applications,” Neurocomputing, vol. 70, no. 1–3, pp. 489–501, Dec. 2006.[29] Z. Wang, H. R. Sheikh, and A. C. Bovik, “No-reference perceptual quality assessment of JPEG compressed images,” in Image Processing. 2002. Proceedings. IEEE International Conference on Image Processing, 2002, vol. 1, pp. vol.1 I–477 – I–480.[30] W. B. Silva and A. A. P. Pohl, “No-Reference Video Quality Assessment Method based on the Levenberg-Marquardt Minimization,” in XXX Brazilian Symposium on Telecommunications (SBrT’12), 2012.[31] ITU-T P.910, “Subjective video quality assessment methods for multimedia applications,” Standardization Sector of ITU, 1999.[32] W. Ding, Y. Tong, Q. Zhang, and D. Yang, “Image and Video Quality Assessment Using Neural Network and SVM,” Tsinghua Science &amp; Technology, vol. 13, no. 1, pp. 112–116, 2008.[33] K. S. Banerjee, C. R. Rao, and S. K. Mitra, “Generalized Inverse of Matrices and Its Applications,” Technometrics, vol. 15, no. 1, p. 197, Feb. 1973.[34] VQEG, “Final report from the video quality experts group on the validation of reduced-reference and no-reference objective models for standard de�nition television, Phase I,” 2009.[35] VQEG, “Report on the validation of video quality models for high de�nition video content,” 2010.[36] J. W. Tukey, Exploratory Data Analysis. New York: Addison-Wesley Publishing Company, 1977.[37] P. Gastaldo and R. Zunino, “Neural networks for the no-reference assessment of perceived quality,” J. Electronic Imaging, vol. 14, no. 3, p. 033004, 2005.[38] R. Herzog, M. Čadík, T. O. Aydın, K. I. Kim, K. Myszkowski, and H.-P. Seidel, “NoRM: No-Reference Image Quality Metric for Realistic Image Synthesis,” Comp. Graph. Forum, vol. 31, no. 2pt4, pp. 545–554, 2012.

Revista de Radiodifusão • v. 08 • n. 09 • 2014

Resumo: O trabalho tem por finalidade investigar o

desempenho de transmissores de TV digital equipados com compensação não linear adaptativa. Resultados práticos demonstram a eficácia da técnica, que provê flexibilidade em troca de canal, aumento e estabilidade na MER (Modulation Error Ratio) do sistema, e soluções para o confinamento espectral. Obteve-se melhorias de até 18dB no shoulder dos sinais gerados.

Palavras-chaves: canal, compensação não linear adaptativa, MER, transmissor, TV Digital.

I. INTRODUÇÃO

O serviço de broadcasting para televisão digital está em fase de expansão no Brasil. De acordo com os últimos balanços realizados no País, observa-se a ampliação das regiões de cobertura, o aumento de emissoras em operação e uma grande perspectiva de crescimento para o setor [1] [2].

Entre os fatores energizantes, destacam-se o prazo de switch off da TV analógica estabelecido pelo Governo Federal [3], a ótima qualidade de imagem oferecida pela tecnologia HDTV (High Definition Television) e o interesse pela mobilidade, provida pelo one seg. Deve também ser considerado o advento dos televisores tela plana com receptor digital embarcado, que já atingiram 79,2% dos lares brasileiros [4].

Outro fator propulsor se relaciona à elaboração da fase final do plano de desligamento. Nesta etapa, uma das frentes de estudo é a otimização do espectro radioelétrico através do replanejamento de canais [5]. Pretende-se por exemplo, esgotado o prazo de switch off e finalizados os testes cabíveis, alocar a faixa do VHF (Very High Frequency) alto para o sistema digital [6]. Esta medida seria um novo atrativo para investimentos em HDTV, já que 7 novos canais poderiam ser reutilizados para abrigar emissoras digitais.

Neste cenário, os fabricantes de equipamentos de broadcasting para TV digital devem estar preparados para atender a demanda prevista, disponibilizando aceleradamente produtos que atendam e até mesmo superem os requisitos mínimos de qualidade exigidos para o mercado. Os transmissores, por exemplo, deverão gozar de tecnologia para simultaneamente apresentar eficiência de transmissão e

Artigo Científico finalizado em 26/10/2014. Ramon Maia Borges pertence ao laboratório Wireless and Optical Convergent Access (WOCA) do Inatel. Av. João de Camargo, 510 – Santa Rita do Sapucaí – Minas Gerais – Brasil (e-mail: [email protected]). Paulo Marcos Damasceno pertence ao departamento de engenharia da Screen Sérvice Brasil. Av. dos Alecrins, 740 – Pouso Alegre – Minas Gerais – Brasil (e-mail: [email protected]).

evitar interferência co-canal. Isto porque, além do aumento previsto do número de canais em operação com programação HD (High Definition), o sistema digital permite, ao contrário do serviço analógico, a utilização de canais vizinhos em uma mesma região.

O presente trabalho avalia a técnica adaptativa de compensação não linear, também denominada de pré-correção adaptativa, aplicada a otimização dos transmissores de TV digital. Comparações experimentais serão fundamentadas em resultados obtidos com transmissores operando dentro e fora do modo adaptativo.

A seção 2 descreve a implementação da técnica e os ensaios realizados em laboratório, com e sem compensação não linear adaptativa. Na seção 3 os resultados obtidos são expostos e comentados. O trabalho é finalizado com as conclusões relevantes e trabalhos futuros.

II. PRÉ- CORREÇÃO NÃO LINEAR ADAPTATIVA A técnica de pré-correção não linear adaptativa é

responsável por compensar os produtos de intermodulação inseridos ao sinal de RF (Radiofrequência), devido à amplificação, tornando-os irrelevantes para o desempenho final do transmissor [7]. A Fig. 1 ilustra os blocos funcionais de um equipamento de transmissão com o método implementado.

Fig. 1: Diagrama em blocos de um transmissor com compensação não linear adaptativa. Exemplo com realimentação interna.

Através de um elo de realimentação, uma amostra do

sinal proveniente dos amplificadores é reintroduzido ao transmissor. O circuito de monitoramento converte a frequência de canal para FI (Frequência Intermediária) e entrega o respectivo sinal para os blocos de processamento digital, onde são determinadas a distorção e o filtro adaptativo de compensação. Desta forma, torna-se possível pré-corrigir o sinal de TV de modo que os efeitos dos produtos de intermodulação, provenientes do processo de

Compensação não linear Adaptativa aplicada à Otimização de Transmissores de TV

Digital Ramon Maia Borges & Paulo Marcos Damasceno

17

Page 18: Revista de RADIODIFUSÃO - SET PORTAL · Sinais de TV Digital ISDB-Tb via VHF e UHF na Cidade do Gama – DF – Brasil Akamine, Cristiano Bedicks Jr, Gunnar ... cujas frequências

MÉTRICA SEM REFERÊNCIA BASEADA EM REDES NEURAISPARA AVALIAÇÃO OBJETIVA DE QUALIDADE DE VÍDEO DIGITALWyllian Bezerra da Silva, Alexandre de Almeida Prado PohlPrograma de Pós-Graduação em Engenharia Elétrica e Informática Industrial (CPGEI) – UTFPR, Curitiba, [email protected], [email protected]: Este trabalho apresenta uma métrica sem referência para avaliação de qualidade de vídeo digital baseada em uma rede neural arti�cial que usa uma versão estendida do algoritmo de aprendizado ELM (Extreme Learning Machine). O método proposto realiza o treinamento da rede neural a partir de seis características espaço-temporais. Os resultados experimentais mostram que o método proposto apresenta desempenho superior às métricas de referência completa PSNR e MS-SSIM na tarefa de predição de qualidade de vídeo. Logo, o método proposto pode ser usado no monitoramento de qualidade em sistemas de transmissão e recepção de vídeo digital, tais como IPTV e TV digital.Palavras chave: algoritmo ELM, avaliação objetiva de vídeo, métrica sem referência, rede neural arti�cial.1. INTRODUÇÃODurante os últimos anos, a literatura tem apresentado um número crescente publicações acerca de métricas objetivas para avaliação de qualidade de vídeo para diversas aplicações em radiodifusão ou no processamento de vídeo digital, seja na aquisição do sinal, codi�cação e decodi�cação, compressão, transmissão, restauração, armazenamento, segmentação e exibição de sinais de vídeo digital [1–4]. A avaliação de qualidade de vídeo digital pode ser realizada por meio de métricas subjetiva e objetiva. A primeira requer uma grande quantidade de recursos humanos e apresenta elevado custo em sua implementação [1–3]. Porém, as métricas objetivas são vantajosas quando apresentam um determinado grau de correlação com as métricas subjetivas. Logo, o desenvolvimento destas é um desa�o no campo de avaliação de qualidade de vídeo e imagem. Além disso, as métricas objetivas, devido à natureza de seu critério objetivo, independem de interação humana e são facilmente reprodutíveis [3]. Dentre as métricas objetivas destacam-se as métricas sem referência (No-Reference – NR), pois não necessitam do vídeo de referência no cálculo de sua medida. Entretanto, estas requerem um conhecimento a priori sobre as distorções em vídeo digital para que seja estabelecida uma correlação com os resultados subjetivos [3].A maioria das métricas NR encontradas na literatura são baseadas na avaliação de qualidade de imagens e em características relacionadas ao Sistema Visual Humano (SVH). Assim, o desenvolvimento de métricas NR é difícil, devido à necessidade de emular a percepção do SVH que envolve aspectos cognitivos, emocionais e estéticos relacionados ao conteúdo do vídeo e que são altamente dependentes do observador [4], [5].A literatura reporta diversos esforços no desenvolvimento de métricas para avaliação de qualidade de vídeo baseadas em redes neurais e em algoritmos de aprendizado. Babu et al. [6] apresentam uma métrica para avaliar a qualidade de imagens comprimidas em JPEG (Joint Photographic Experts Group) por meio de um algoritmo de aprendizado de crescimento e propõem o uso de uma rede neural GAP-RBF (Growing and Pruning Radial Basis Function) que usa características relacionadas ao SVH. Jiang et al. [7] desenvolveram uma métrica NR para avaliação de qualidade de vídeo em HD (High De�nition) baseada em uma rede neural treinada pelo algoritmo BP (Back-Propagation) que usa seis características espaço-temporais e a RoI (Region of Interest). Choe et al. [8] desenvolveram uma métrica NR baseada no �uxo de bits para avaliação de qualidade de vídeo codi�cado em H.264. Esta métrica extrai características quadro a quadro e usa uma rede neural alimentada adiante (feedforward) com três camadas. Suresh et al. [9] apresentaram uma extensão do algoritmo ELM na tarefa de avaliar a qualidade de imagens comprimidas em JPEG com base no esquema de seleção múltipla KS-ELM (K-fold selection Scheme using ELM) e no algoritmo RCGA-ELM (Real-Coded Genetic Algorithm using ELM) para seleção dos pesos de entrada e polarizações.Este trabalho apresenta uma versão estendida do algoritmo ELM para redes neurais SLFN (Single-hidden-Layer Feedforward Neural Networks) que implementa um simples critério de parada na fase de treinamento. Além disso, esse método usa seis características espaço-temporais de vídeos submetidos a diversas condições de distorção.Este artigo está dividido da seguinte maneira: a Seção 2 descreve as métricas para avaliação de qualidade de vídeo. A Seção 3 descreve o método NR proposto para avalição de qualidade de vídeo digital. A Seção 4 apresenta os resultados experimentais, em que são comparados o método NR proposto e duas métricas FR. Finalmente, a Seção 5 apresenta a conclusão do artigo.2. AVALIAÇÃO DE QUALIDADE DE VÍDEOO processo de avaliação de qualidade de vídeopode ser realizado com a aplicação de métricassubjetivas ou objetivas. As métricas subjetivasestimam a qualidade do vídeo por meio de avaliadoreshumanos. Logo, exigem um alto custo, poisnecessitam de uma grande quantidade de recursoshumanos e apresentam problemas quanto aosrequisitos de imparcialidade e reprodutibilidade,tornando-se inapropriadas em sistemas deradiodifusão ou em provedores de conteúdo [10], [11].Por outro lado, as métricas objetivas são baseadas emmodelos matemáticos, cujo objetivo é produzir umescore de qualidade que emule a percepção do SVH.Além disso, as métricas objetivas requerem baixocusto de implementação (quando comparadas com asmétricas subjetivas) e não apresentam problemasquanto à reprodutibilidade e imparcialidade.As métricas objetivas para avaliação de qualidadede vídeo podem ser classi�cadas em três categorias:(i) métricas de referência completa (Full-Reference –FR); (ii) métricas de referência reduzida (Reduced-Reference – RR); (iii) métricas sem referência (NR).2.1. Métricas FRAs métricas FR requerem o vídeo de referência(fonte) no cálculo do escore de qualidade. Estasmétricas são amplamente utilizadas no processo devalidação de métricas RR ou NR, por meio dacomparação de desempenho de�nida pelasrecomendações do Grupo de Especialistas emQualidade de Vídeo (VQEG – Video Quality ExpertsGroup) que é um órgão de padronização internacionalde métricas subjetivas e objetivas de qualidade devídeo. Dentre as métricas FR, destacam-se o PSNR(Peak Signal-to-Noise Ratio), SSIM (StructuralSIMilarity index) [12] e MS-SSIM (Multi-ScaleStructural SIMilarity index) [13].O PSNR é uma métrica FR baseada no erro pixel apixel de fácil implementação. Entretanto, apresentabaixa correlação com o SVH [14]. A sua medida éprocessada sobre o erro quadro a quadro, i.e., entre oquadro original x e o quadro y . A expressão a seguirde�ne o PSNR para um conjunto de quadros F .2011PSNR 20log ,Fff fvF � MSE� �� � �� �� ��(1)com� � � �20 01MSE , , , , ,N Mfi jx f i j y f i jNM � �� ���� � ��(2)em que o termo f v é igual a (2 1) k � , cujo k é onúmero de bits por pixel, i.e., é a componente deluminância do quadro f . Os termos x �f ,i, j � ey �f ,i, j � são os valores de luminância do quadro deorigem e degradado, respectivamente. Ascomponentes bidimensionais são representadas pelonúmero de colunas N e pelo número de linhas M . Otermo f MSE é de�nido como erro quadrático médioou MSE (Mean Square Error).A métrica SSIM baseia-se no fato de que o SVH éfortemente adaptado para extrair informações dascaracterísticas estruturais de um quadro ou imagem.Logo, uma medida de similaridade estrutural (oudistorção) pode prover boa aproximação para aqualidade perceptual de um vídeo [3, 7–9]. Sejam x ey dois sinais não-negativos, em que y é o sinaldegradado e x é o sinal original (sem perda dequalidade), a medida de similaridade é utilizada comoum índice quantitativo de qualidade do sinal distorcido,ou seja, x é tomado como a referência para medir aqualidade de y . A métrica SSIM possui diversasextensões, dentre as quais a versão MS-SSIM,proposta por Wang et al. [13] que assume umaabordagem multiescalar.2.2. Métricas RRAs métricas de referência reduzida retiram certaquantidade de características do vídeo original (fonte),baseadas em componentes espaciais, temporais, nodomínio da frequência ou no �uxo de bits (bitstream).Este tipo de métrica é amplamente utilizada nomonitoramento de transmissões em rede [17]. Nestetipo de cenário de aplicação, o vídeo é transmitidocom uma sequência de informação codi�cada(overhead) e no lado receptor ocorre a suadecodi�cação, seguido pelo cálculo do índice dequalidade, o qual é obtido por meio da comparaçãoentre a representação reduzida da informação nospares emissor e receptor [18]. Tipicamente, métricasRR são implementadas por meio de funções, divididasem duas etapas [19]: (i) cálculo do erro entre osvídeos original e distorcido, constituído pela diferençade suas características, a �m de compor arepresentação reduzida da informação; (ii) função queagrupa os erros ou diferenças para obter um índice dequalidade global. Algumas métricas RR explorampropriedades dos artefatos, por meio da extração decaracterísticas e um modelo de parametrização [20]com foco em tipos especí�cos de distorções(artefatos). Esta abordagem é encontrada em Silva etal. [17], cujo cálculo do escore de qualidade ébaseado na diferença de atividade dos coe�cientesDCT (Discrete Cosine Transform) em um macro blococom resolução de 16�16 pixels.2.3. Métricas NRAs métricas NR extraem característicasrelacionadas ao SVH do vídeo distorcido, i.e., narecepção do sinal de vídeo [14]. Tipicamente, há duasabordagens no desenvolvimento destas métricas: (i)extração dos parâmetros sobre o �uxo de bits, taiscomo a taxa de compressão, informaçõesrelacionadas ao GoP (Group of Pictures), estimaçãode movimento, per�l e nível de codi�cação, bem comoo parâmetro de quantização ou QP (QuantizationParameter) [21–25]. Métricas NR apresentam maiorcomplexidade quando são aplicadas em vídeo, devidoà variação temporal dos quadros, conteúdos dascenas e à di�culdade de compreensão dascaracterísticas do SVH [26]. Assim, algumas métricasdessa categoria exploram características espaciais etemporais na estimação de qualidade de vídeo [21].3. MÉTODO PROPOSTOO método proposto, denominado NRVQA-ELMtc(No-Reference Video Quality Assessment usingExtreme Learning Machine algorithm with terminationcriteria) [27] combina características espaciais etemporais, por meio de uma rede neural arti�cialSLFNs usando o algoritmo de treinamento ELM [28]com a implementação de um simples critério deparada.3.1. Características espaço-temporaisAs características espaciais incorporadas nométodo proposto são baseadas em medidas deartefatos em vídeo digital, i.e., distorções de blocageme borramento desenvolvidas por Wang et al. [20].Assim, a componente de luminância do quadro f érepresentada por y(f , i, j ) com i � ��1,M�� e j � ��1, N�� ,em que M e N são os números de linhas e colunas,respectivamente, de um quadro. Logo, as diferençasde luminância ao longo das linhas e colunas sãorepresentadas, respectivamente, pelas expressões aseguir.� � � � � � � �� � � � � � � �, , , , 1 , , , 1, 1 ,, , , 1, , , , 1, 1 .hvd f i j y f i j y f i j j Nd f i j y f i j y f i j i M� � � � �� � � � �(3)O efeito de blocagem pode ser estimado pelamédia das diferenças entre as bordas dos blocos daDCT (Discrete Cosine Transform) nas direçõeshorizontal e vertical para uma sequência F dequadros, conforme mostra a Equação (4), com ummacrobloco de dimensão � �� , cujo tamanho típico éde � � 8 [20].� � ��� � � �111 1 1111 1 11, , 1 ,111, 1 , .11NF Mh hf i jMF Nvi jvfB d f i jNF MB d f i jMF N��������� � ���� � �� �� �� � � �� � �� �� �� � � �� � �� � �� � �(4)A medida de blocagem em uma sequência devídeo com F quadros é determinada pela média entreh B e v B , caracterizando a medida B , conforme aexpressão a seguir..2h v B BB�� (5)Os efeitos de borramento são estimados pelocálculo da redução de atividade entre os blocos � �� ,em que é usada a medida de blocagem nas direçõeshorizontal e vertical, conforme as expressões� � � �� �� � � �� �11 1 111 1 1, , ,1 1, ,1.1F M Nh h hf i jF M Nv vfvi jA d f i j BF M NA d f i j BF N M������ � ��� � �� �� � �� �� � �� � �� � �(6)A medida de borramento, representada por A ,conforme a Equação (7), é determinada pela médiaentre h A e v A ..2h v A AA�� (7)O segundo fator que contribui para a detecção doartefato de borramento é baseado na taxa decruzamento por zero (Zero Crossing – ZC) nasdireções horizontal e vertical, conforme as expressõesa seguir.� �� �� �� �21 1 121 1 11, , ,21, , ,2F M Nh hf i jF M Nv vf i jZ z f i jF M NZ z f i jF N M�� � ��� � ��� ��� �� � �� � �(8)em que os termos h z e v z são determinados por� �� �1, na direção horizontal, , ,0, caso contrário1, na direção vertical, , .0, caso contráriohvz f i jz f i j�� �� �� ��(9)Assim, a medida de borramento Z é determinadapela média entre as componentes h Z e v Z ..2h v Z ZZ�� (10)O método proposto também incorpora trêscaracterísticas temporais no treinamento da redeneural SLFN com o algoritmo ELM.A primeira característica temporal é a diferença demovimento entre quadros adjacentes, representadapela variável TI (Temporal perceptual Information) [31]que considera os valores de luminância de pixelslocalizados em uma mesma região de um quadro,conforme a expressão a seguir.� �21, , ,1FfTI m f i jF��� �� �� �� (11)em que o número total de quadros é F e � �m�f ,i, j ��� �é o desvio padrão da diferença de movimento(diferença de luminância) entre o quadro atualy �f ,i, j � e o quadro anterior y �f �1,i, j � .A segunda característica temporal é a média dadiferença absoluta (Mean Absolute Di�erence – MAD)[31] entre quadros sucessivos, representada pelaEquação (12) que de�ne a medida global da MADpara todos os quadros de um vídeo.� �� � � �2 1 11, , 1, , .1F M Nf i jMAD y f i j y f i jM N F � � �� � �� �� � �(12)A terceira característica temporal é a média dadiferença absoluta ponderada (weighted MeanAbsolute Di�erence – MADw) [32], a qual mede o graude variação das cenas de um vídeo que considera acena atual de um quadro f e do quadro anterior f �1,conforme a expressão:2 11.1Fff fMADMADwF � MAD �� �� � �� � ��(13)Assim, o método proposto combina ascaracterísticas espaciais e temporais em uma matriz� , , , , , � f f f f f f f x � A B Z TI MAD MADw , em que f é onúmero de amostras de vídeo. A Figura 1 apresentaas características temporais � espaciais de dezessetebases de dados de vídeos (denominada superconjuntoS) usadas neste trabalho e reportadas em [27]. Arecomendação ITU-T P.910 [31] de�ne a medida SI(Spatial perceptual Information) como informaçãoespacial perceptual. A inspeção visual dessa �guramostra que as amostras de vídeo usadas nestetrabalho apresentam uma grande variação espaçotemporal.Fig. 1. Características espaciais e temporais do superconjuntoS com 216 amostras de referência3.2. Métrica NRVQA-ELMtcO algoritmo ELM [28] desenvolvido para otreinamento de uma rede SLFN atribui pesos epolarizações (biases) de maneira aleatória, segundouma distribuição uniforme. O treinamento compreendeN amostras distintas representadas pela variável�� , � , , 1, , � n mf f f f � � x t x � t � f � N , cujo cálculo éconforme a expressão� � � �1, 1, , ,KK i j j f j fff � g b f N�x � � w x � � o � (14)em que f o é a saída (escore objetivo), g(x) é afunção de ativação e j � é o peso que conecta o jésimoneurônio da camada oculta ao neurônio desaída. De acordo com [28], uma rede SLFN com Knós na camada oculta e uma função de ativação g(x)pode apresentar um erro médio próximo de zero, i.e.,10Kf ff �� o � t � . Logo, há parâmetros j � , j w e j b talque� �1, 1, , ,Kj j f j ff� g b f N�� w x � � t � (15)em que f t é o vetor alvo (escores subjetivos),T1, , j j jn � �w w � � � w é o vetor de peso que conecta o jésimoneurônio da camada oculta ao neurônio dacamada de entrada, j b denota a polarização (bias) doj-ésimo neurônio da camada oculta, � � j f w x é oproduto interno de j w e f x . A Figura 2 ilustra oalgoritmo ELM empregado em uma arquitetura derede neural SLFN.xi1βjN1jKtibjN input neuron K hidden neuron output neuronβ1βKwjFig. 2. Arquitetura de uma rede neural SLFN usando algoritmode treinamento ELMO sistema linear da Equação (16) resume o métododo algoritmo ELM.Hβ � T, (16)em que a matriz da camada oculta é representada por� � � 1, , and 1, , � � H � h f � N j � K com a primeiralinha da matriz de características f x igual aT1 2 , , , f f f fn x � ��x x x �� , i.e., a primeira linha é igual a� � 1 1 1 1 1 1 1 , , , , , f f f f f f f x � A B Z TI MAD MADw . A matriz desaída e o vetor alvo (target) são de�nidos comoT1 , K β � ��β β �� eT1, , N T � ��t t �� , respectivamente. Otermo � �T1 , 1, , j jm j � � � j � K � � β β β denota o vetor depeso que conecta o j-ésimo neurônio da camadaoculta e os neurônios de saída. Hung et al. [28]propuseram a atribuição aleatória de pesos aosparâmetros j w e j b , a �m de seja obtido um pequenoerro não-nulo durante o treinamento. Considerando osistema linear da Equação (17), os pesos da camadade saída podem ser aproximados por† β � H T (17)em que † H é de�nida como matriz inversageneralizada de Moore-Penrose (MP) [33] da matrizde saída da camada oculta �H� . Além disso, oconjunto de treinamento � , nó oculta K e umafunção de ativação g �x � , e.g., função de base radial(Radial Basis Function – RBF), hard-limiting (hardlim),sigmoidal (sig) e seno (sin). Em resumo, o algoritmoELM compreende três etapas [28]:i) Atribuição aleatória dos pesos de entrada j w epolarizações j b ;ii) Cálculo da matriz da camada de saída H ;iii) Cálculo dos pesos de saída † β: β� H T .O método NRVQA-ELMtc [27] implementa umsimples critério de parada no treinamento da redeneural SLFN, quanto à atribuição aleatória dos pesosj w e j b . Embora este critério não seja direcionado,busca os pesos relacionados com o menor RMSE(Root-Mean-Square Error) entre a saída desejada(escore subjetivo) e o escore objetivo na fase detreinamento com k iterações (tipicamente, k � 100 ) eN neurônios na camada oculta. Além disso, conformeestudo realizado em [27], caso o RMSE seja menor doque 0,5 o algoritmo cessa a busca pelos parâmetrosj w e j b .4. RESULTADOS EXPERIMENTAISEsta seção apresenta os resultados de acurácia,i.e., os coe�cientes de correlação linear de Pearson(Pearson Linear Correlation Coe�cient – PLCC) [34],[35], entre os escores objetivos e subjetivos de 2627amostras de vídeo estudadas em [27].A Figura 3 compara a acurácia (PLCC) entre asmétricas de referência completa (FR) PSNR e MSSSIMcom o método proposto (NRVQA-ELMtc) paraas 2627 amostras de vídeo, pertencentes a 17 basesde dados de vídeo disponibilizadas por diversasinstituições e laboratórios [27]. A função de ativaçãousada na rede neural SLFN foi o seno (sin) com onúmero de amostras de teste igual ao número deneurônios na camada oculta ( N ). O método devalidação cruzada múltipla (K-fold) foi usado com oobjetivo de gerar uma distribuição de acurácia, a qualfoi analisada por meio do diagrama de caixa (box-plot)[36], em que o traço, o círculo e o quadrado, ambosem vermelho, representam a mediana, a média e odesvio padrão, respectivamente. Destaca-se queneste trabalho foi empregada uma validação cruzadacom um grande número de amostras de treinamentotestecom K � 100 , i.e., cada caixa do box-plotcomporta 100 experimentos distintos. Tipicamente, aliteratura apresenta trabalhos no campo da avaliaçãoFig. 3. Box-plot da predição da acurácia (PLCC) entre as métricas PSNR, MS-SSIM e o método proposto NRVQA-ELMtcde qualidade de vídeo com K entre 5 e 10 [37], [38].Pela inspeção visual da Figura 3 observa-se que odesempenho do método proposto é superior àsmétricas FR, em quaisquer condições de teste, i.e.,para qualquer quantidade de amostras de teste(número de neurônios na camada oculta) entre 25 e500. Em especial, para N � 50 , o método propostoapresenta valores de PLCC, em termos da média emediana, acima de 0,8, denotando uma forteassociação entre os escores objetivos e subjetivos, natarefa de predição de qualidade de vídeo. Isto ocorredevido à grande quantidade de amostras de vídeousadas no treinamento, e.g., para N � 300 foramusadas 2327 amostras de treinamento, ou seja,mesmo usando pares de treinamento-teste disjuntos,o método proposto mostra uma acurácia superior àsmétricas de referência completa. A assimetria positiva,i.e., a maior concentração da acurácia entre osegundo quartil (mediana) e o terceiro quartil, nadistribuição do box-plot nos testes com 300 e 500neurônios na camada oculta, indica que o métodoproposto apresenta um desempenho expressivo emcomparação com as métricas FR.Entretanto, mesmo para N entre 25 e 50, ométodo proposto apresentou uma acurácia maior doque as métricas FR, cujo melhor resultado foi paraN � 25 com o desvio-quartil (amplitude interquartílica)con�nado entre 0,65 e 0,8. Além disso, este resultadotambém apresentou assimetria positiva com a médiado PLCC em torno de 0,75.5. CONCLUSÃOEste trabalho apresentou uma métrica NR baseadaem uma rede neural arti�cial SLFN, cujo treinamento édeterminado pelo algoritmo ELM, o qual consideracaracterísticas espaço-temporais e os escoressubjetivos (alvos) extraídos de 2627 amostrastreinamento. Além disso, este trabalho propõe umaextensão do algoritmo ELM por meio de um simplescritério de parada, a �m de que sejam obtidosparâmetros da rede neural arti�cial relacionados como menor RMSE. Tipicamente, a comparação entremétricas FR e NR é injusta, devido à ausência dovídeo de referência na obtenção do escore dequalidade em métricas NR. Entretanto, os resultadosexperimentais mostram que o método propostoapresentou desempenho superior às métricas dereferência completa PSNR e MS-SSIM, sobretudo,quando o número de amostras de teste e de neurôniosna camada oculta da rede SLFN é maior do que 250.Logo, a métrica NRVQA-ELMtc pode ser empregadano monitoramento de qualidade em sistemas detransmissão e recepção de vídeo digital, tais comoIPTV (Internet Protocol Television), TV digital ou emdispositivos móveis, tais como ultrabooks,smartphones, tablets e em aparelhos WiDi (WirelessDisplay).REFERÊNCIAS[1] S. Winkler, “Issues in vision modeling for perceptualvideo quality assessment,” Signal Processing, vol. 78,no. 2, pp. 231–252, 1999.[2] Z. Wang and A. C. Bovik, Modern image qualityassessment. San Rafael, CA: Morgan & Claypool,2006.[3] W. Lin and C.-C. Jay Kuo, “Perceptual visual qualitymetrics: A survey,” Journal of Visual Communicationand Image Representation, vol. 22, no. 4, pp. 297–312,May 2011.[4] S. S. Hemami and A. R. Reibman, “No-reference imageand video quality estimation: Applications and humanmotivateddesign,” Signal Processing: ImageCommunication, vol. 25, no. 7, pp. 469–481, 2010.[5] Z. Wang and A. Bovik, “Reduced- and No-ReferenceImage Quality Assessment,” IEEE Signal ProcessingMagazine, vol. 28, no. 6, pp. 29–40, Nov. 2011.[6] R. V. Babu, S. Suresh, and A. Perkis, “No-referenceJPEG-image quality assessment using GAP-RBF,”Signal Processing, vol. 87, no. 6, pp. 1493–1503, 2007.[7] X. Jiang, F. Meng, J. Xu, and W. Zhou, “No-ReferencePerceptual Video Quality Measurement for HighDe�nition Videos Based on an Arti�cial NeuralNetwork,” in Computer and Electrical Engineering,2008. ICCEE 2008. International Conference on, 2008,pp. 424–427.[8] J. Choe, K. Lee, C. Lee, and S. Korea, “No-referencevideo quality measurement using neural networks,” in2009 16th International Conference on Digital SignalProcessing, 2009, pp. 1–4.[9] S. Suresh, R. Venkatesh Babu, and H. J. Kim, “Noreferenceimage quality assessment using modi�edextreme learning machine classi�er,” Applied SoftComputing, vol. 9, no. 2, pp. 541–552, Mar. 2009.[10] A. M. Eskicioglu and P. S. Fisher, “Image qualitymeasures and their performance,” IEEE Transactionson Communications, vol. 43, no. 12, pp. 2959–2965,1995.[11] U. Engelke and H.-J. Zepernick, “Perceptual-basedQuality Metrics for Image and Video Services: ASurvey,” in Proceedings EuroNGI Conf. NextGeneration Internet Networks, 2007, pp. 190–197.[12] Z. Wang, A. C. Bovik, H. R. Sheikh, and E. PSimoncelli, “Image quality assessment: from errorvisibility to structural similarity.,” IEEE Transactions onImage Processing, vol. 13, no. 4, pp. 600–612, 2004.[13] Z. Wang, E. P. Simoncelli, and A. C. Bovik, “Multiscalestructural similarity for image quality assessment,” inThe Thrity-Seventh Asilomar Conference on Signals,Systems & Computers, 2003, 2003, vol. 2, no. 1, pp.1398–1402.[14] H. R. Wu, K. R. Rao, and A. A. Kassim, “Digital VideoImage Quality and Perceptual Coding,” Journal ofElectronic Imaging, vol. 16, no. 3, 2007.[15] Z. Wang and A. C. Bovik, “A universal image qualityindex,” IEEE Signal Processing Letters, vol. 9, no. 3,pp. 81–84, Mar. 2002.[16] Y. Shi, Y. Ding, R. Zhang, and J. Li, “Structure and HueSimilarity for Color Image Quality Assessment,” in 2009International Conference on Electronic ComputerTechnology, 2009, pp. 329–333.[17] W. B. Silva, A. A. P. Pohl, and K. V. O. Fonseca, “AReduced-Reference Video Quality Assessment Methodbased on the Activity-Di�erence of DCT Coe�cients,”IEICE Transactions on Information and Systems, vol. E96-D, no. 3, 2013.[18] P. Le Callet, C. Viard-Gaudin, and D. Barba, “A Convolutional Neural Network Approach for Objective Video Quality Assessment,” IEEE Transactions on Neural Networks, vol. 17, no. 5, pp. 1316–1327, 2006.[19] P. Le Callet and D. Barba, “Image Quality Assessment: From Sites Errors to a Global Appreciation of Quality,” in Proceedings of the Picture Coding Sympsium, 2001, pp. 105–108.[20] M. Miyahara, K. Kotani, and V. R. Algazi, “Objective picture quality scale (PQS) for image coding,” IEEE Transactions on Communications, vol. 46, no. 9, pp. 1215–1226, 1998.[21] M. Slanina, V. Ricny, and R. Forchheimer, “A Novel Metric for H.264/AVC No-Reference Quality Assessment,” in 14th International Workshop on Systems, Signals and Image Processing and 6th EURASIP Conference focused on Speech and Image Processing, Multimedia Communications and Services, 2007, pp. 114–117.[22] O. Sugimoto, S. Naito, S. Sakazawa, and A. Koike, “Objective perceptual video quality measurement method based on hybrid no reference framework,” in 16th IEEE International Conference on Image Processing (ICIP’09), 2009, pp. 2237–2240.[23] T. Oelbaum, C. Keimel, and K. Diepold, “Rule-Based No-Reference Video Quality Evaluation Using Additionally Coded Videos,” IEEE Journal of Selected Topics in Signal Processing, vol. 3, no. 2, pp. 294–303, 2009.[24] N. Staelens, N. Vercammen, Y. Dhondt, B. Vermeulen, P. Lambert, R. de Walle, and P. Demeester, “ViQID: A No-Reference bit stream-based visual quality impairment detector,” in Proceedings of the Second Int Quality of Multimedia Experience (QoMEX) Workshop, 2010, pp. 206–211.[25] F. Yang, S. Wan, Q. Xie, and H. R. Wu, “No-Reference Quality Assessment for Networked Video via Primary Analysis of Bit Stream,” IEEE Transactions on Circuits and Systems for Video Technology, vol. 20, no. 11, pp. 1544–1554, Nov. 2010.[26] Z. Wang, H. R. Sheikh, and A. C. Bovik, “Objective Video Quality Assessment,” in The Handbook of Video Databases: Design and Applications, B. Furht and O. Marques, Eds. Boca Raton, FL, USA: CRC Press, 2003, pp. 1041–1078.[27] W. B. da Silva and A. de A. P. Pohl, “Métodos Sem Referência Baseados em Características Espaço-Temporais para Avaliação Objetiva de Qualidade de Vídeo Digital,” Universidade Tecnológica Federal do Paraná (UTFPR), 2013.[28] G.-B. Huang, Q.-Y. Zhu, and C.-K. Siew, “Extreme learning machine: Theory and applications,” Neurocomputing, vol. 70, no. 1–3, pp. 489–501, Dec. 2006.[29] Z. Wang, H. R. Sheikh, and A. C. Bovik, “No-reference perceptual quality assessment of JPEG compressed images,” in Image Processing. 2002. Proceedings. IEEE International Conference on Image Processing, 2002, vol. 1, pp. vol.1 I–477 – I–480.[30] W. B. Silva and A. A. P. Pohl, “No-Reference Video Quality Assessment Method based on the Levenberg-Marquardt Minimization,” in XXX Brazilian Symposium on Telecommunications (SBrT’12), 2012.[31] ITU-T P.910, “Subjective video quality assessment methods for multimedia applications,” Standardization Sector of ITU, 1999.[32] W. Ding, Y. Tong, Q. Zhang, and D. Yang, “Image and Video Quality Assessment Using Neural Network and SVM,” Tsinghua Science &amp; Technology, vol. 13, no. 1, pp. 112–116, 2008.[33] K. S. Banerjee, C. R. Rao, and S. K. Mitra, “Generalized Inverse of Matrices and Its Applications,” Technometrics, vol. 15, no. 1, p. 197, Feb. 1973.[34] VQEG, “Final report from the video quality experts group on the validation of reduced-reference and no-reference objective models for standard de�nition television, Phase I,” 2009.[35] VQEG, “Report on the validation of video quality models for high de�nition video content,” 2010.[36] J. W. Tukey, Exploratory Data Analysis. New York: Addison-Wesley Publishing Company, 1977.[37] P. Gastaldo and R. Zunino, “Neural networks for the no-reference assessment of perceived quality,” J. Electronic Imaging, vol. 14, no. 3, p. 033004, 2005.[38] R. Herzog, M. Čadík, T. O. Aydın, K. I. Kim, K. Myszkowski, and H.-P. Seidel, “NoRM: No-Reference Image Quality Metric for Realistic Image Synthesis,” Comp. Graph. Forum, vol. 31, no. 2pt4, pp. 545–554, 2012.

Revista de Radiodifusão • v. 08 • n. 09 • 2014

Compensação não linear Adaptativa aplicada à Otimização de Transmissores de TV Digital

amplificação, sejam anulados. O processo se repete constantemente, garantindo

autonomia de ajuste e estabilidade para o transmissor. Basta que a função descrita esteja ativada para que as compensações sejam definidas e aplicadas ao sinal de RF que será entregue ao sistema de irradiação.

Para avaliar o desempenho alcançado com a implementação da técnica, e justificar sua utilização, foram realizados experimentos em laboratório de acordo com a montagem apresentada pela Fig. 2. Utilizou-se um transmissor (TX 1) com potência de 100W, capaz de operar em qualquer um dos canais da faixa de UHF (Ultra High Frequency), e equipado com a função de pré-correção não linear adaptativa. Tal equipamento foi devidamente referenciado com sinais de GPS (Global Positioning System), 1PPS (1 pulso por segundo) e 10MHz. A ele foi ainda inserido um sinal ASI (Asynchronous Serial Interface), contendo as informações de áudio e vídeo já digitalizadas.

Fig. 2: Montagem utilizada para avaliar o desempenho do transmissor de TV digital, equipado com algoritmos digitais para a compensação não linear adaptativa.

Foi realizada conexão com um notebook, via rede

ethernet, afim de se obter acesso à interface gráfica de comunicação do transmissor, já que através dela são definidos vários parâmetros, como o canal de operação, por exemplo. Inseriu-se ainda ao setup de teste, um acoplador direcional permitindo que uma amostra do sinal amplificado retorne ao TX para processamento, caracterizando a realimentação externa. Deste acoplador foram também extraídas amostras para os instrumentos de medição, e o sinal de RF foi entregue a uma carga para dissipação. Deve-se observar que para melhor analisar as alterações no shoulder, não utilizou-se filtro de canal, responsável por impor a máscara do espectro de transmissão [8].

Para fins de comparação, avaliou-se ainda um segundo transmissor (TX 2), do mesmo fabricante e com as mesmas características, também equipado com pré-correção não linear, porém não adaptativa. Tal situação configura o modo convencional de operação, onde as compensações não lineares são realizadas por meio de ajuste manual, via interface de controle. Neste caso, a cada troca de canal exige-se o reajuste dos filtros de compensação.

III. RESULTADOS EXPERIMENTAIS O canal entregue pelo transmissor foi avaliado por meio

de um analisador de TV e um analisador de espectro. Fez-se ainda o uso de um wattímetro, com o intuito de garantir experimentos na potência nominal de operação.

Os resultados experimentais da Fig. 3 se referem ao TX 1 sintonizado no canal 45, operando com e sem compensação não linear.

Observa-se um aumento de 18dB no shoulder do canal quando a função em destaque é habilitada, bem como a melhoria de 11,8dB na MER do sistema. Este resultado evidencia que a não compensação descreve o modo ineficaz de operação, e que o uso da técnica favorece o confinamento do sinal no espectro radioelétrico.

Fig. 3: Espectro obtido na saída do transmissor. Observar a redução do nível espectral fora da banda alocada. A Fig. 4 expõe os resultados obtidos pelos transmissores 1 e 2, considerando toda a faixa de UHF. Vale ressaltar que, para o TX 2, foi realizado o ajuste manual da pré-correção não linear à cada troca de canal efetuada. Observa-se um comportamento semelhante entre as curvas, com os valores mais elevados de MER na região central de operação. Entretanto, com o transmissor no modo adaptativo, obteve-se um incremento de 1,7dB na MER alcançada. Esta, se manteve superior em todos os canais analisados, sem qualquer tipo de ajuste manual.

Tal resultado, além de evidenciar a maior robustez adquirida, garante flexibilidade em troca de canal, permitindo que o transmissor seja realocado para outras redes sem necessidade de reajustes.

10 20 30 40 50 60 7037.5

38

38.5

39

39.5

40

40.5

Canal

ME

R [

dB]

TX 1TX 2

Fig. 4: MER alcançada com os transmissores 1 e 2, ao longo de toda a faixa de UHF.

18

Page 19: Revista de RADIODIFUSÃO - SET PORTAL · Sinais de TV Digital ISDB-Tb via VHF e UHF na Cidade do Gama – DF – Brasil Akamine, Cristiano Bedicks Jr, Gunnar ... cujas frequências

MÉTRICA SEM REFERÊNCIA BASEADA EM REDES NEURAISPARA AVALIAÇÃO OBJETIVA DE QUALIDADE DE VÍDEO DIGITALWyllian Bezerra da Silva, Alexandre de Almeida Prado PohlPrograma de Pós-Graduação em Engenharia Elétrica e Informática Industrial (CPGEI) – UTFPR, Curitiba, [email protected], [email protected]: Este trabalho apresenta uma métrica sem referência para avaliação de qualidade de vídeo digital baseada em uma rede neural arti�cial que usa uma versão estendida do algoritmo de aprendizado ELM (Extreme Learning Machine). O método proposto realiza o treinamento da rede neural a partir de seis características espaço-temporais. Os resultados experimentais mostram que o método proposto apresenta desempenho superior às métricas de referência completa PSNR e MS-SSIM na tarefa de predição de qualidade de vídeo. Logo, o método proposto pode ser usado no monitoramento de qualidade em sistemas de transmissão e recepção de vídeo digital, tais como IPTV e TV digital.Palavras chave: algoritmo ELM, avaliação objetiva de vídeo, métrica sem referência, rede neural arti�cial.1. INTRODUÇÃODurante os últimos anos, a literatura tem apresentado um número crescente publicações acerca de métricas objetivas para avaliação de qualidade de vídeo para diversas aplicações em radiodifusão ou no processamento de vídeo digital, seja na aquisição do sinal, codi�cação e decodi�cação, compressão, transmissão, restauração, armazenamento, segmentação e exibição de sinais de vídeo digital [1–4]. A avaliação de qualidade de vídeo digital pode ser realizada por meio de métricas subjetiva e objetiva. A primeira requer uma grande quantidade de recursos humanos e apresenta elevado custo em sua implementação [1–3]. Porém, as métricas objetivas são vantajosas quando apresentam um determinado grau de correlação com as métricas subjetivas. Logo, o desenvolvimento destas é um desa�o no campo de avaliação de qualidade de vídeo e imagem. Além disso, as métricas objetivas, devido à natureza de seu critério objetivo, independem de interação humana e são facilmente reprodutíveis [3]. Dentre as métricas objetivas destacam-se as métricas sem referência (No-Reference – NR), pois não necessitam do vídeo de referência no cálculo de sua medida. Entretanto, estas requerem um conhecimento a priori sobre as distorções em vídeo digital para que seja estabelecida uma correlação com os resultados subjetivos [3].A maioria das métricas NR encontradas na literatura são baseadas na avaliação de qualidade de imagens e em características relacionadas ao Sistema Visual Humano (SVH). Assim, o desenvolvimento de métricas NR é difícil, devido à necessidade de emular a percepção do SVH que envolve aspectos cognitivos, emocionais e estéticos relacionados ao conteúdo do vídeo e que são altamente dependentes do observador [4], [5].A literatura reporta diversos esforços no desenvolvimento de métricas para avaliação de qualidade de vídeo baseadas em redes neurais e em algoritmos de aprendizado. Babu et al. [6] apresentam uma métrica para avaliar a qualidade de imagens comprimidas em JPEG (Joint Photographic Experts Group) por meio de um algoritmo de aprendizado de crescimento e propõem o uso de uma rede neural GAP-RBF (Growing and Pruning Radial Basis Function) que usa características relacionadas ao SVH. Jiang et al. [7] desenvolveram uma métrica NR para avaliação de qualidade de vídeo em HD (High De�nition) baseada em uma rede neural treinada pelo algoritmo BP (Back-Propagation) que usa seis características espaço-temporais e a RoI (Region of Interest). Choe et al. [8] desenvolveram uma métrica NR baseada no �uxo de bits para avaliação de qualidade de vídeo codi�cado em H.264. Esta métrica extrai características quadro a quadro e usa uma rede neural alimentada adiante (feedforward) com três camadas. Suresh et al. [9] apresentaram uma extensão do algoritmo ELM na tarefa de avaliar a qualidade de imagens comprimidas em JPEG com base no esquema de seleção múltipla KS-ELM (K-fold selection Scheme using ELM) e no algoritmo RCGA-ELM (Real-Coded Genetic Algorithm using ELM) para seleção dos pesos de entrada e polarizações.Este trabalho apresenta uma versão estendida do algoritmo ELM para redes neurais SLFN (Single-hidden-Layer Feedforward Neural Networks) que implementa um simples critério de parada na fase de treinamento. Além disso, esse método usa seis características espaço-temporais de vídeos submetidos a diversas condições de distorção.Este artigo está dividido da seguinte maneira: a Seção 2 descreve as métricas para avaliação de qualidade de vídeo. A Seção 3 descreve o método NR proposto para avalição de qualidade de vídeo digital. A Seção 4 apresenta os resultados experimentais, em que são comparados o método NR proposto e duas métricas FR. Finalmente, a Seção 5 apresenta a conclusão do artigo.2. AVALIAÇÃO DE QUALIDADE DE VÍDEOO processo de avaliação de qualidade de vídeopode ser realizado com a aplicação de métricassubjetivas ou objetivas. As métricas subjetivasestimam a qualidade do vídeo por meio de avaliadoreshumanos. Logo, exigem um alto custo, poisnecessitam de uma grande quantidade de recursoshumanos e apresentam problemas quanto aosrequisitos de imparcialidade e reprodutibilidade,tornando-se inapropriadas em sistemas deradiodifusão ou em provedores de conteúdo [10], [11].Por outro lado, as métricas objetivas são baseadas emmodelos matemáticos, cujo objetivo é produzir umescore de qualidade que emule a percepção do SVH.Além disso, as métricas objetivas requerem baixocusto de implementação (quando comparadas com asmétricas subjetivas) e não apresentam problemasquanto à reprodutibilidade e imparcialidade.As métricas objetivas para avaliação de qualidadede vídeo podem ser classi�cadas em três categorias:(i) métricas de referência completa (Full-Reference –FR); (ii) métricas de referência reduzida (Reduced-Reference – RR); (iii) métricas sem referência (NR).2.1. Métricas FRAs métricas FR requerem o vídeo de referência(fonte) no cálculo do escore de qualidade. Estasmétricas são amplamente utilizadas no processo devalidação de métricas RR ou NR, por meio dacomparação de desempenho de�nida pelasrecomendações do Grupo de Especialistas emQualidade de Vídeo (VQEG – Video Quality ExpertsGroup) que é um órgão de padronização internacionalde métricas subjetivas e objetivas de qualidade devídeo. Dentre as métricas FR, destacam-se o PSNR(Peak Signal-to-Noise Ratio), SSIM (StructuralSIMilarity index) [12] e MS-SSIM (Multi-ScaleStructural SIMilarity index) [13].O PSNR é uma métrica FR baseada no erro pixel apixel de fácil implementação. Entretanto, apresentabaixa correlação com o SVH [14]. A sua medida éprocessada sobre o erro quadro a quadro, i.e., entre oquadro original x e o quadro y . A expressão a seguirde�ne o PSNR para um conjunto de quadros F .2011PSNR 20log ,Fff fvF � MSE� �� � �� �� ��(1)com� � � �20 01MSE , , , , ,N Mfi jx f i j y f i jNM � �� ���� � ��(2)em que o termo f v é igual a (2 1) k � , cujo k é onúmero de bits por pixel, i.e., é a componente deluminância do quadro f . Os termos x �f ,i, j � ey �f ,i, j � são os valores de luminância do quadro deorigem e degradado, respectivamente. Ascomponentes bidimensionais são representadas pelonúmero de colunas N e pelo número de linhas M . Otermo f MSE é de�nido como erro quadrático médioou MSE (Mean Square Error).A métrica SSIM baseia-se no fato de que o SVH éfortemente adaptado para extrair informações dascaracterísticas estruturais de um quadro ou imagem.Logo, uma medida de similaridade estrutural (oudistorção) pode prover boa aproximação para aqualidade perceptual de um vídeo [3, 7–9]. Sejam x ey dois sinais não-negativos, em que y é o sinaldegradado e x é o sinal original (sem perda dequalidade), a medida de similaridade é utilizada comoum índice quantitativo de qualidade do sinal distorcido,ou seja, x é tomado como a referência para medir aqualidade de y . A métrica SSIM possui diversasextensões, dentre as quais a versão MS-SSIM,proposta por Wang et al. [13] que assume umaabordagem multiescalar.2.2. Métricas RRAs métricas de referência reduzida retiram certaquantidade de características do vídeo original (fonte),baseadas em componentes espaciais, temporais, nodomínio da frequência ou no �uxo de bits (bitstream).Este tipo de métrica é amplamente utilizada nomonitoramento de transmissões em rede [17]. Nestetipo de cenário de aplicação, o vídeo é transmitidocom uma sequência de informação codi�cada(overhead) e no lado receptor ocorre a suadecodi�cação, seguido pelo cálculo do índice dequalidade, o qual é obtido por meio da comparaçãoentre a representação reduzida da informação nospares emissor e receptor [18]. Tipicamente, métricasRR são implementadas por meio de funções, divididasem duas etapas [19]: (i) cálculo do erro entre osvídeos original e distorcido, constituído pela diferençade suas características, a �m de compor arepresentação reduzida da informação; (ii) função queagrupa os erros ou diferenças para obter um índice dequalidade global. Algumas métricas RR explorampropriedades dos artefatos, por meio da extração decaracterísticas e um modelo de parametrização [20]com foco em tipos especí�cos de distorções(artefatos). Esta abordagem é encontrada em Silva etal. [17], cujo cálculo do escore de qualidade ébaseado na diferença de atividade dos coe�cientesDCT (Discrete Cosine Transform) em um macro blococom resolução de 16�16 pixels.2.3. Métricas NRAs métricas NR extraem característicasrelacionadas ao SVH do vídeo distorcido, i.e., narecepção do sinal de vídeo [14]. Tipicamente, há duasabordagens no desenvolvimento destas métricas: (i)extração dos parâmetros sobre o �uxo de bits, taiscomo a taxa de compressão, informaçõesrelacionadas ao GoP (Group of Pictures), estimaçãode movimento, per�l e nível de codi�cação, bem comoo parâmetro de quantização ou QP (QuantizationParameter) [21–25]. Métricas NR apresentam maiorcomplexidade quando são aplicadas em vídeo, devidoà variação temporal dos quadros, conteúdos dascenas e à di�culdade de compreensão dascaracterísticas do SVH [26]. Assim, algumas métricasdessa categoria exploram características espaciais etemporais na estimação de qualidade de vídeo [21].3. MÉTODO PROPOSTOO método proposto, denominado NRVQA-ELMtc(No-Reference Video Quality Assessment usingExtreme Learning Machine algorithm with terminationcriteria) [27] combina características espaciais etemporais, por meio de uma rede neural arti�cialSLFNs usando o algoritmo de treinamento ELM [28]com a implementação de um simples critério deparada.3.1. Características espaço-temporaisAs características espaciais incorporadas nométodo proposto são baseadas em medidas deartefatos em vídeo digital, i.e., distorções de blocageme borramento desenvolvidas por Wang et al. [20].Assim, a componente de luminância do quadro f érepresentada por y(f , i, j ) com i � ��1,M�� e j � ��1, N�� ,em que M e N são os números de linhas e colunas,respectivamente, de um quadro. Logo, as diferençasde luminância ao longo das linhas e colunas sãorepresentadas, respectivamente, pelas expressões aseguir.� � � � � � � �� � � � � � � �, , , , 1 , , , 1, 1 ,, , , 1, , , , 1, 1 .hvd f i j y f i j y f i j j Nd f i j y f i j y f i j i M� � � � �� � � � �(3)O efeito de blocagem pode ser estimado pelamédia das diferenças entre as bordas dos blocos daDCT (Discrete Cosine Transform) nas direçõeshorizontal e vertical para uma sequência F dequadros, conforme mostra a Equação (4), com ummacrobloco de dimensão � �� , cujo tamanho típico éde � � 8 [20].� � ��� � � �111 1 1111 1 11, , 1 ,111, 1 , .11NF Mh hf i jMF Nvi jvfB d f i jNF MB d f i jMF N��������� � ���� � �� �� �� � � �� � �� �� �� � � �� � �� � �� � �(4)A medida de blocagem em uma sequência devídeo com F quadros é determinada pela média entreh B e v B , caracterizando a medida B , conforme aexpressão a seguir..2h v B BB�� (5)Os efeitos de borramento são estimados pelocálculo da redução de atividade entre os blocos � �� ,em que é usada a medida de blocagem nas direçõeshorizontal e vertical, conforme as expressões� � � �� �� � � �� �11 1 111 1 1, , ,1 1, ,1.1F M Nh h hf i jF M Nv vfvi jA d f i j BF M NA d f i j BF N M������ � ��� � �� �� � �� �� � �� � �� � �(6)A medida de borramento, representada por A ,conforme a Equação (7), é determinada pela médiaentre h A e v A ..2h v A AA�� (7)O segundo fator que contribui para a detecção doartefato de borramento é baseado na taxa decruzamento por zero (Zero Crossing – ZC) nasdireções horizontal e vertical, conforme as expressõesa seguir.� �� �� �� �21 1 121 1 11, , ,21, , ,2F M Nh hf i jF M Nv vf i jZ z f i jF M NZ z f i jF N M�� � ��� � ��� ��� �� � �� � �(8)em que os termos h z e v z são determinados por� �� �1, na direção horizontal, , ,0, caso contrário1, na direção vertical, , .0, caso contráriohvz f i jz f i j�� �� �� ��(9)Assim, a medida de borramento Z é determinadapela média entre as componentes h Z e v Z ..2h v Z ZZ�� (10)O método proposto também incorpora trêscaracterísticas temporais no treinamento da redeneural SLFN com o algoritmo ELM.A primeira característica temporal é a diferença demovimento entre quadros adjacentes, representadapela variável TI (Temporal perceptual Information) [31]que considera os valores de luminância de pixelslocalizados em uma mesma região de um quadro,conforme a expressão a seguir.� �21, , ,1FfTI m f i jF��� �� �� �� (11)em que o número total de quadros é F e � �m�f ,i, j ��� �é o desvio padrão da diferença de movimento(diferença de luminância) entre o quadro atualy �f ,i, j � e o quadro anterior y �f �1,i, j � .A segunda característica temporal é a média dadiferença absoluta (Mean Absolute Di�erence – MAD)[31] entre quadros sucessivos, representada pelaEquação (12) que de�ne a medida global da MADpara todos os quadros de um vídeo.� �� � � �2 1 11, , 1, , .1F M Nf i jMAD y f i j y f i jM N F � � �� � �� �� � �(12)A terceira característica temporal é a média dadiferença absoluta ponderada (weighted MeanAbsolute Di�erence – MADw) [32], a qual mede o graude variação das cenas de um vídeo que considera acena atual de um quadro f e do quadro anterior f �1,conforme a expressão:2 11.1Fff fMADMADwF � MAD �� �� � �� � ��(13)Assim, o método proposto combina ascaracterísticas espaciais e temporais em uma matriz� , , , , , � f f f f f f f x � A B Z TI MAD MADw , em que f é onúmero de amostras de vídeo. A Figura 1 apresentaas características temporais � espaciais de dezessetebases de dados de vídeos (denominada superconjuntoS) usadas neste trabalho e reportadas em [27]. Arecomendação ITU-T P.910 [31] de�ne a medida SI(Spatial perceptual Information) como informaçãoespacial perceptual. A inspeção visual dessa �guramostra que as amostras de vídeo usadas nestetrabalho apresentam uma grande variação espaçotemporal.Fig. 1. Características espaciais e temporais do superconjuntoS com 216 amostras de referência3.2. Métrica NRVQA-ELMtcO algoritmo ELM [28] desenvolvido para otreinamento de uma rede SLFN atribui pesos epolarizações (biases) de maneira aleatória, segundouma distribuição uniforme. O treinamento compreendeN amostras distintas representadas pela variável�� , � , , 1, , � n mf f f f � � x t x � t � f � N , cujo cálculo éconforme a expressão� � � �1, 1, , ,KK i j j f j fff � g b f N�x � � w x � � o � (14)em que f o é a saída (escore objetivo), g(x) é afunção de ativação e j � é o peso que conecta o jésimoneurônio da camada oculta ao neurônio desaída. De acordo com [28], uma rede SLFN com Knós na camada oculta e uma função de ativação g(x)pode apresentar um erro médio próximo de zero, i.e.,10Kf ff �� o � t � . Logo, há parâmetros j � , j w e j b talque� �1, 1, , ,Kj j f j ff� g b f N�� w x � � t � (15)em que f t é o vetor alvo (escores subjetivos),T1, , j j jn � �w w � � � w é o vetor de peso que conecta o jésimoneurônio da camada oculta ao neurônio dacamada de entrada, j b denota a polarização (bias) doj-ésimo neurônio da camada oculta, � � j f w x é oproduto interno de j w e f x . A Figura 2 ilustra oalgoritmo ELM empregado em uma arquitetura derede neural SLFN.xi1βjN1jKtibjN input neuron K hidden neuron output neuronβ1βKwjFig. 2. Arquitetura de uma rede neural SLFN usando algoritmode treinamento ELMO sistema linear da Equação (16) resume o métododo algoritmo ELM.Hβ � T, (16)em que a matriz da camada oculta é representada por� � � 1, , and 1, , � � H � h f � N j � K com a primeiralinha da matriz de características f x igual aT1 2 , , , f f f fn x � ��x x x �� , i.e., a primeira linha é igual a� � 1 1 1 1 1 1 1 , , , , , f f f f f f f x � A B Z TI MAD MADw . A matriz desaída e o vetor alvo (target) são de�nidos comoT1 , K β � ��β β �� eT1, , N T � ��t t �� , respectivamente. Otermo � �T1 , 1, , j jm j � � � j � K � � β β β denota o vetor depeso que conecta o j-ésimo neurônio da camadaoculta e os neurônios de saída. Hung et al. [28]propuseram a atribuição aleatória de pesos aosparâmetros j w e j b , a �m de seja obtido um pequenoerro não-nulo durante o treinamento. Considerando osistema linear da Equação (17), os pesos da camadade saída podem ser aproximados por† β � H T (17)em que † H é de�nida como matriz inversageneralizada de Moore-Penrose (MP) [33] da matrizde saída da camada oculta �H� . Além disso, oconjunto de treinamento � , nó oculta K e umafunção de ativação g �x � , e.g., função de base radial(Radial Basis Function – RBF), hard-limiting (hardlim),sigmoidal (sig) e seno (sin). Em resumo, o algoritmoELM compreende três etapas [28]:i) Atribuição aleatória dos pesos de entrada j w epolarizações j b ;ii) Cálculo da matriz da camada de saída H ;iii) Cálculo dos pesos de saída † β: β� H T .O método NRVQA-ELMtc [27] implementa umsimples critério de parada no treinamento da redeneural SLFN, quanto à atribuição aleatória dos pesosj w e j b . Embora este critério não seja direcionado,busca os pesos relacionados com o menor RMSE(Root-Mean-Square Error) entre a saída desejada(escore subjetivo) e o escore objetivo na fase detreinamento com k iterações (tipicamente, k � 100 ) eN neurônios na camada oculta. Além disso, conformeestudo realizado em [27], caso o RMSE seja menor doque 0,5 o algoritmo cessa a busca pelos parâmetrosj w e j b .4. RESULTADOS EXPERIMENTAISEsta seção apresenta os resultados de acurácia,i.e., os coe�cientes de correlação linear de Pearson(Pearson Linear Correlation Coe�cient – PLCC) [34],[35], entre os escores objetivos e subjetivos de 2627amostras de vídeo estudadas em [27].A Figura 3 compara a acurácia (PLCC) entre asmétricas de referência completa (FR) PSNR e MSSSIMcom o método proposto (NRVQA-ELMtc) paraas 2627 amostras de vídeo, pertencentes a 17 basesde dados de vídeo disponibilizadas por diversasinstituições e laboratórios [27]. A função de ativaçãousada na rede neural SLFN foi o seno (sin) com onúmero de amostras de teste igual ao número deneurônios na camada oculta ( N ). O método devalidação cruzada múltipla (K-fold) foi usado com oobjetivo de gerar uma distribuição de acurácia, a qualfoi analisada por meio do diagrama de caixa (box-plot)[36], em que o traço, o círculo e o quadrado, ambosem vermelho, representam a mediana, a média e odesvio padrão, respectivamente. Destaca-se queneste trabalho foi empregada uma validação cruzadacom um grande número de amostras de treinamentotestecom K � 100 , i.e., cada caixa do box-plotcomporta 100 experimentos distintos. Tipicamente, aliteratura apresenta trabalhos no campo da avaliaçãoFig. 3. Box-plot da predição da acurácia (PLCC) entre as métricas PSNR, MS-SSIM e o método proposto NRVQA-ELMtcde qualidade de vídeo com K entre 5 e 10 [37], [38].Pela inspeção visual da Figura 3 observa-se que odesempenho do método proposto é superior àsmétricas FR, em quaisquer condições de teste, i.e.,para qualquer quantidade de amostras de teste(número de neurônios na camada oculta) entre 25 e500. Em especial, para N � 50 , o método propostoapresenta valores de PLCC, em termos da média emediana, acima de 0,8, denotando uma forteassociação entre os escores objetivos e subjetivos, natarefa de predição de qualidade de vídeo. Isto ocorredevido à grande quantidade de amostras de vídeousadas no treinamento, e.g., para N � 300 foramusadas 2327 amostras de treinamento, ou seja,mesmo usando pares de treinamento-teste disjuntos,o método proposto mostra uma acurácia superior àsmétricas de referência completa. A assimetria positiva,i.e., a maior concentração da acurácia entre osegundo quartil (mediana) e o terceiro quartil, nadistribuição do box-plot nos testes com 300 e 500neurônios na camada oculta, indica que o métodoproposto apresenta um desempenho expressivo emcomparação com as métricas FR.Entretanto, mesmo para N entre 25 e 50, ométodo proposto apresentou uma acurácia maior doque as métricas FR, cujo melhor resultado foi paraN � 25 com o desvio-quartil (amplitude interquartílica)con�nado entre 0,65 e 0,8. Além disso, este resultadotambém apresentou assimetria positiva com a médiado PLCC em torno de 0,75.5. CONCLUSÃOEste trabalho apresentou uma métrica NR baseadaem uma rede neural arti�cial SLFN, cujo treinamento édeterminado pelo algoritmo ELM, o qual consideracaracterísticas espaço-temporais e os escoressubjetivos (alvos) extraídos de 2627 amostrastreinamento. Além disso, este trabalho propõe umaextensão do algoritmo ELM por meio de um simplescritério de parada, a �m de que sejam obtidosparâmetros da rede neural arti�cial relacionados como menor RMSE. Tipicamente, a comparação entremétricas FR e NR é injusta, devido à ausência dovídeo de referência na obtenção do escore dequalidade em métricas NR. Entretanto, os resultadosexperimentais mostram que o método propostoapresentou desempenho superior às métricas dereferência completa PSNR e MS-SSIM, sobretudo,quando o número de amostras de teste e de neurôniosna camada oculta da rede SLFN é maior do que 250.Logo, a métrica NRVQA-ELMtc pode ser empregadano monitoramento de qualidade em sistemas detransmissão e recepção de vídeo digital, tais comoIPTV (Internet Protocol Television), TV digital ou emdispositivos móveis, tais como ultrabooks,smartphones, tablets e em aparelhos WiDi (WirelessDisplay).REFERÊNCIAS[1] S. Winkler, “Issues in vision modeling for perceptualvideo quality assessment,” Signal Processing, vol. 78,no. 2, pp. 231–252, 1999.[2] Z. Wang and A. C. Bovik, Modern image qualityassessment. San Rafael, CA: Morgan & Claypool,2006.[3] W. Lin and C.-C. Jay Kuo, “Perceptual visual qualitymetrics: A survey,” Journal of Visual Communicationand Image Representation, vol. 22, no. 4, pp. 297–312,May 2011.[4] S. S. Hemami and A. R. Reibman, “No-reference imageand video quality estimation: Applications and humanmotivateddesign,” Signal Processing: ImageCommunication, vol. 25, no. 7, pp. 469–481, 2010.[5] Z. Wang and A. Bovik, “Reduced- and No-ReferenceImage Quality Assessment,” IEEE Signal ProcessingMagazine, vol. 28, no. 6, pp. 29–40, Nov. 2011.[6] R. V. Babu, S. Suresh, and A. Perkis, “No-referenceJPEG-image quality assessment using GAP-RBF,”Signal Processing, vol. 87, no. 6, pp. 1493–1503, 2007.[7] X. Jiang, F. Meng, J. Xu, and W. Zhou, “No-ReferencePerceptual Video Quality Measurement for HighDe�nition Videos Based on an Arti�cial NeuralNetwork,” in Computer and Electrical Engineering,2008. ICCEE 2008. International Conference on, 2008,pp. 424–427.[8] J. Choe, K. Lee, C. Lee, and S. Korea, “No-referencevideo quality measurement using neural networks,” in2009 16th International Conference on Digital SignalProcessing, 2009, pp. 1–4.[9] S. Suresh, R. Venkatesh Babu, and H. J. Kim, “Noreferenceimage quality assessment using modi�edextreme learning machine classi�er,” Applied SoftComputing, vol. 9, no. 2, pp. 541–552, Mar. 2009.[10] A. M. Eskicioglu and P. S. Fisher, “Image qualitymeasures and their performance,” IEEE Transactionson Communications, vol. 43, no. 12, pp. 2959–2965,1995.[11] U. Engelke and H.-J. Zepernick, “Perceptual-basedQuality Metrics for Image and Video Services: ASurvey,” in Proceedings EuroNGI Conf. NextGeneration Internet Networks, 2007, pp. 190–197.[12] Z. Wang, A. C. Bovik, H. R. Sheikh, and E. PSimoncelli, “Image quality assessment: from errorvisibility to structural similarity.,” IEEE Transactions onImage Processing, vol. 13, no. 4, pp. 600–612, 2004.[13] Z. Wang, E. P. Simoncelli, and A. C. Bovik, “Multiscalestructural similarity for image quality assessment,” inThe Thrity-Seventh Asilomar Conference on Signals,Systems & Computers, 2003, 2003, vol. 2, no. 1, pp.1398–1402.[14] H. R. Wu, K. R. Rao, and A. A. Kassim, “Digital VideoImage Quality and Perceptual Coding,” Journal ofElectronic Imaging, vol. 16, no. 3, 2007.[15] Z. Wang and A. C. Bovik, “A universal image qualityindex,” IEEE Signal Processing Letters, vol. 9, no. 3,pp. 81–84, Mar. 2002.[16] Y. Shi, Y. Ding, R. Zhang, and J. Li, “Structure and HueSimilarity for Color Image Quality Assessment,” in 2009International Conference on Electronic ComputerTechnology, 2009, pp. 329–333.[17] W. B. Silva, A. A. P. Pohl, and K. V. O. Fonseca, “AReduced-Reference Video Quality Assessment Methodbased on the Activity-Di�erence of DCT Coe�cients,”IEICE Transactions on Information and Systems, vol. E96-D, no. 3, 2013.[18] P. Le Callet, C. Viard-Gaudin, and D. Barba, “A Convolutional Neural Network Approach for Objective Video Quality Assessment,” IEEE Transactions on Neural Networks, vol. 17, no. 5, pp. 1316–1327, 2006.[19] P. Le Callet and D. Barba, “Image Quality Assessment: From Sites Errors to a Global Appreciation of Quality,” in Proceedings of the Picture Coding Sympsium, 2001, pp. 105–108.[20] M. Miyahara, K. Kotani, and V. R. Algazi, “Objective picture quality scale (PQS) for image coding,” IEEE Transactions on Communications, vol. 46, no. 9, pp. 1215–1226, 1998.[21] M. Slanina, V. Ricny, and R. Forchheimer, “A Novel Metric for H.264/AVC No-Reference Quality Assessment,” in 14th International Workshop on Systems, Signals and Image Processing and 6th EURASIP Conference focused on Speech and Image Processing, Multimedia Communications and Services, 2007, pp. 114–117.[22] O. Sugimoto, S. Naito, S. Sakazawa, and A. Koike, “Objective perceptual video quality measurement method based on hybrid no reference framework,” in 16th IEEE International Conference on Image Processing (ICIP’09), 2009, pp. 2237–2240.[23] T. Oelbaum, C. Keimel, and K. Diepold, “Rule-Based No-Reference Video Quality Evaluation Using Additionally Coded Videos,” IEEE Journal of Selected Topics in Signal Processing, vol. 3, no. 2, pp. 294–303, 2009.[24] N. Staelens, N. Vercammen, Y. Dhondt, B. Vermeulen, P. Lambert, R. de Walle, and P. Demeester, “ViQID: A No-Reference bit stream-based visual quality impairment detector,” in Proceedings of the Second Int Quality of Multimedia Experience (QoMEX) Workshop, 2010, pp. 206–211.[25] F. Yang, S. Wan, Q. Xie, and H. R. Wu, “No-Reference Quality Assessment for Networked Video via Primary Analysis of Bit Stream,” IEEE Transactions on Circuits and Systems for Video Technology, vol. 20, no. 11, pp. 1544–1554, Nov. 2010.[26] Z. Wang, H. R. Sheikh, and A. C. Bovik, “Objective Video Quality Assessment,” in The Handbook of Video Databases: Design and Applications, B. Furht and O. Marques, Eds. Boca Raton, FL, USA: CRC Press, 2003, pp. 1041–1078.[27] W. B. da Silva and A. de A. P. Pohl, “Métodos Sem Referência Baseados em Características Espaço-Temporais para Avaliação Objetiva de Qualidade de Vídeo Digital,” Universidade Tecnológica Federal do Paraná (UTFPR), 2013.[28] G.-B. Huang, Q.-Y. Zhu, and C.-K. Siew, “Extreme learning machine: Theory and applications,” Neurocomputing, vol. 70, no. 1–3, pp. 489–501, Dec. 2006.[29] Z. Wang, H. R. Sheikh, and A. C. Bovik, “No-reference perceptual quality assessment of JPEG compressed images,” in Image Processing. 2002. Proceedings. IEEE International Conference on Image Processing, 2002, vol. 1, pp. vol.1 I–477 – I–480.[30] W. B. Silva and A. A. P. Pohl, “No-Reference Video Quality Assessment Method based on the Levenberg-Marquardt Minimization,” in XXX Brazilian Symposium on Telecommunications (SBrT’12), 2012.[31] ITU-T P.910, “Subjective video quality assessment methods for multimedia applications,” Standardization Sector of ITU, 1999.[32] W. Ding, Y. Tong, Q. Zhang, and D. Yang, “Image and Video Quality Assessment Using Neural Network and SVM,” Tsinghua Science &amp; Technology, vol. 13, no. 1, pp. 112–116, 2008.[33] K. S. Banerjee, C. R. Rao, and S. K. Mitra, “Generalized Inverse of Matrices and Its Applications,” Technometrics, vol. 15, no. 1, p. 197, Feb. 1973.[34] VQEG, “Final report from the video quality experts group on the validation of reduced-reference and no-reference objective models for standard de�nition television, Phase I,” 2009.[35] VQEG, “Report on the validation of video quality models for high de�nition video content,” 2010.[36] J. W. Tukey, Exploratory Data Analysis. New York: Addison-Wesley Publishing Company, 1977.[37] P. Gastaldo and R. Zunino, “Neural networks for the no-reference assessment of perceived quality,” J. Electronic Imaging, vol. 14, no. 3, p. 033004, 2005.[38] R. Herzog, M. Čadík, T. O. Aydın, K. I. Kim, K. Myszkowski, and H.-P. Seidel, “NoRM: No-Reference Image Quality Metric for Realistic Image Synthesis,” Comp. Graph. Forum, vol. 31, no. 2pt4, pp. 545–554, 2012.

Revista de Radiodifusão • v. 08 • n. 09 • 2014

Com relação à estabilidade, foi analisada a variação da MER no decorrer do tempo, conforme mostra a Fig. 5.

Observa-se que para o TX 1, este parâmetro se manteve estável e com o valor de 40,2dB, mesmo após o aquecimento dos transistores de potência. Já o resultado proveniente do transmissor com pré-correção não adaptativa, apresentou variações e após uma hora de burn-in, teve a MER reduzida em 0,5dB. Esta redução se deve à elevação da temperatura de operação, e poderia ser compensada por novos reajustes nos filtros de compensação.

0 10 20 30 40 50 6037.5

38

38.5

39

39.5

40

40.5

Tempo [min]

ME

R [

dB]

TX 1TX 2

Fig. 5: Variação da MER ao longo no tempo. As medidas foram realizadas no canal 45. Também investigou-se o tempo necessário para que a pré correção não-linear adaptativa atue, após uma troca de canal. Os resultados obtidos são expostos pela Tabela 1, e se referem a transmissores com potência de 15, 100 e 200 watts, respectivamente.

Os equipamentos analisados, ao receberem o comando de troca da frequência de operação, derrubam a potência no canal atual e a reestabelecem em um processo de rampa, já no novo canal configurado. Por este motivo, as medidas foram realizadas entre os instantes em que os transmissores atingiram a potência nominal e o momento em que a MER foi incrementada e estabilizada. Verifica-se um curto instante de tempo para que a compensação atue, independentemente do canal de operação. Observa-se ainda que o tempo medido é influenciado pela potência do transmissor. Isto porque a elevação da potência nominal de operação implica no aumento dos produtos de intermodulação e portanto, maiores tempos em processamento são gastos para compensá-los.

TABELA I TEMPO GASTO PARA QUE A COMPENSAÇÃO NÃO LINEAR ATUE.

302 300 300 305 15W

660 660 665 665 100W

855 850 850 850 200W

TX

Tempo (ms)

Troca de Canal ch 14 - ch 25 ch 25 - ch 45 ch 45 - ch 65 ch 55 - ch 60

IV. CONCLUSÕES Neste trabalho foram abordados conceitos referentes à

compensação não linear adaptativa, implementada em transmissores de TV Digital. Os resultados experimentais justificaram a utilização da técnica, que otimiza o desempenho dos equipamentos de transmissão.

Demonstrou-se a estabilidade e o aumento significativo da MER em relação ao modelo convencional, bem como a operabilidade em toda a faixa de UHF, sem qualquer tipo de reajuste manual dos filtros de compensação. Estes, por serem definidos automaticamente em um curto intervalo de tempo, permitem flexibilidade em troca de canal, sendo esta propriedade bastante útil para a realocação de equipamentos.

Observou-se ainda que o recurso traz soluções para o confinamento espectral, já que o shoulder de 50dB alcançado favoreceu o delineamento do sinal no espectro. Tal característica torna-se desejável ao se considerar a alocação de canais vizinhos em uma mesma região. Como trabalhos futuros, pretende-se repetir os ensaios realizados para transmissores de alta potência, e comparar os resultados obtidos com os apresentados neste documento.

REFERÊNCIAS [1] F. Moura e F. Bonanome. “Número de estações cresceu mais de

1.400% nos últimos 3 anos,” Revista da SET – Interferência na TV Digital, no. 140, Fev/Mar. 2014.

[2] Agência Nacional de Telecomunicações. “Estações de TV Didital,” ANATEL, Jul.2012.

[3] Ministério das Comunicações. “Elaboração do plano de desligamento da TV Analógica entra na fase final,” Brasília. 2013.

[4] Ministério das Comunicações. “A viabilidade de implantação do cronograma de transição da TV analógica para a TV Digital,” Audiência Pública, Out. 2013.

[5] P.B. Ávila. “A migração da TV digital,” Ministério das Comunicações – Secretaria de Serviços de Comunicação Eletrônica, Brasília, Fev. 2014.

[6] Ministério das Comunicações. “Testes avaliam inclusão de novos canais na TV aberta,” Brasília, Mar. 2014

[7] C. Di. Biase. “Software User Manual ARK6,” Screen Service IT Works - External Document, version 1.1, pp. 323-324, Sep. 2011.

[8] Associação Brasileira de Normas Técnicas. “Televisão digital terrestre – Sistema de transmissão,” ABNT NBR 15601, pp. 54-56, Abr. 2008.

Ramon Maia Borges nasceu em Campanha, MG, em 04 de outubro de 1986. Possui os títulos: Técnico em Eletrônica (ETE “FMC”, 2004) e Engenheiro Eletricista (INATEL, 2012). Atuou na empresa Screen Service do Brasil, efetuando testes e ensaios com equipamentos de broadcast para televisão. Desde 2013 é pesquisador do laboratório Wireless and Optical Convergent Access (WOCA) no Inatel, onde cursa Mestrado em Telecomunicações. Tem interesse nas áreas de sistemas de rádio, transmissão e retransmissão de TV digital, RoF e comunicações ópticas. Paulo Marcos Damasceno nasceu em Itaú de Minas, MG, em 26 de abril de 1984. Possui o título de Engenheiro Eletricista (PUC MG, 2007) e é aluno do curso de Pós Graduação em Engenharia Eletrônica, no Inatel. Atuou no Laboratório de Comunicações Visuais – FEE/UNICAMP e desde 2010 é engenheiro na empresa Screen Service do Brasil, atuando no laboratório de testes, produção, projeto e implantação de sistemas de broadcast. Tem interesse nas áreas de transmissão e retransmissão de TV digital, distribuição de conteúdo e comunicação por satélite.

19

Ramon Maia Borges, Paulo Marcos Damasceno

Page 20: Revista de RADIODIFUSÃO - SET PORTAL · Sinais de TV Digital ISDB-Tb via VHF e UHF na Cidade do Gama – DF – Brasil Akamine, Cristiano Bedicks Jr, Gunnar ... cujas frequências

Nova Ferramenta de Desenvolvimento em Radiodifusão: Software Defined Radio.

Yuri Pontes [email protected]

Cristiano [email protected]

Gunnar Bedicks [email protected]

Revista de Radiodifusão • v. 08 • n. 09 • 201420

Page 21: Revista de RADIODIFUSÃO - SET PORTAL · Sinais de TV Digital ISDB-Tb via VHF e UHF na Cidade do Gama – DF – Brasil Akamine, Cristiano Bedicks Jr, Gunnar ... cujas frequências

MÉTRICA SEM REFERÊNCIA BASEADA EM REDES NEURAISPARA AVALIAÇÃO OBJETIVA DE QUALIDADE DE VÍDEO DIGITALWyllian Bezerra da Silva, Alexandre de Almeida Prado PohlPrograma de Pós-Graduação em Engenharia Elétrica e Informática Industrial (CPGEI) – UTFPR, Curitiba, [email protected], [email protected]: Este trabalho apresenta uma métrica sem referência para avaliação de qualidade de vídeo digital baseada em uma rede neural arti�cial que usa uma versão estendida do algoritmo de aprendizado ELM (Extreme Learning Machine). O método proposto realiza o treinamento da rede neural a partir de seis características espaço-temporais. Os resultados experimentais mostram que o método proposto apresenta desempenho superior às métricas de referência completa PSNR e MS-SSIM na tarefa de predição de qualidade de vídeo. Logo, o método proposto pode ser usado no monitoramento de qualidade em sistemas de transmissão e recepção de vídeo digital, tais como IPTV e TV digital.Palavras chave: algoritmo ELM, avaliação objetiva de vídeo, métrica sem referência, rede neural arti�cial.1. INTRODUÇÃODurante os últimos anos, a literatura tem apresentado um número crescente publicações acerca de métricas objetivas para avaliação de qualidade de vídeo para diversas aplicações em radiodifusão ou no processamento de vídeo digital, seja na aquisição do sinal, codi�cação e decodi�cação, compressão, transmissão, restauração, armazenamento, segmentação e exibição de sinais de vídeo digital [1–4]. A avaliação de qualidade de vídeo digital pode ser realizada por meio de métricas subjetiva e objetiva. A primeira requer uma grande quantidade de recursos humanos e apresenta elevado custo em sua implementação [1–3]. Porém, as métricas objetivas são vantajosas quando apresentam um determinado grau de correlação com as métricas subjetivas. Logo, o desenvolvimento destas é um desa�o no campo de avaliação de qualidade de vídeo e imagem. Além disso, as métricas objetivas, devido à natureza de seu critério objetivo, independem de interação humana e são facilmente reprodutíveis [3]. Dentre as métricas objetivas destacam-se as métricas sem referência (No-Reference – NR), pois não necessitam do vídeo de referência no cálculo de sua medida. Entretanto, estas requerem um conhecimento a priori sobre as distorções em vídeo digital para que seja estabelecida uma correlação com os resultados subjetivos [3].A maioria das métricas NR encontradas na literatura são baseadas na avaliação de qualidade de imagens e em características relacionadas ao Sistema Visual Humano (SVH). Assim, o desenvolvimento de métricas NR é difícil, devido à necessidade de emular a percepção do SVH que envolve aspectos cognitivos, emocionais e estéticos relacionados ao conteúdo do vídeo e que são altamente dependentes do observador [4], [5].A literatura reporta diversos esforços no desenvolvimento de métricas para avaliação de qualidade de vídeo baseadas em redes neurais e em algoritmos de aprendizado. Babu et al. [6] apresentam uma métrica para avaliar a qualidade de imagens comprimidas em JPEG (Joint Photographic Experts Group) por meio de um algoritmo de aprendizado de crescimento e propõem o uso de uma rede neural GAP-RBF (Growing and Pruning Radial Basis Function) que usa características relacionadas ao SVH. Jiang et al. [7] desenvolveram uma métrica NR para avaliação de qualidade de vídeo em HD (High De�nition) baseada em uma rede neural treinada pelo algoritmo BP (Back-Propagation) que usa seis características espaço-temporais e a RoI (Region of Interest). Choe et al. [8] desenvolveram uma métrica NR baseada no �uxo de bits para avaliação de qualidade de vídeo codi�cado em H.264. Esta métrica extrai características quadro a quadro e usa uma rede neural alimentada adiante (feedforward) com três camadas. Suresh et al. [9] apresentaram uma extensão do algoritmo ELM na tarefa de avaliar a qualidade de imagens comprimidas em JPEG com base no esquema de seleção múltipla KS-ELM (K-fold selection Scheme using ELM) e no algoritmo RCGA-ELM (Real-Coded Genetic Algorithm using ELM) para seleção dos pesos de entrada e polarizações.Este trabalho apresenta uma versão estendida do algoritmo ELM para redes neurais SLFN (Single-hidden-Layer Feedforward Neural Networks) que implementa um simples critério de parada na fase de treinamento. Além disso, esse método usa seis características espaço-temporais de vídeos submetidos a diversas condições de distorção.Este artigo está dividido da seguinte maneira: a Seção 2 descreve as métricas para avaliação de qualidade de vídeo. A Seção 3 descreve o método NR proposto para avalição de qualidade de vídeo digital. A Seção 4 apresenta os resultados experimentais, em que são comparados o método NR proposto e duas métricas FR. Finalmente, a Seção 5 apresenta a conclusão do artigo.2. AVALIAÇÃO DE QUALIDADE DE VÍDEOO processo de avaliação de qualidade de vídeopode ser realizado com a aplicação de métricassubjetivas ou objetivas. As métricas subjetivasestimam a qualidade do vídeo por meio de avaliadoreshumanos. Logo, exigem um alto custo, poisnecessitam de uma grande quantidade de recursoshumanos e apresentam problemas quanto aosrequisitos de imparcialidade e reprodutibilidade,tornando-se inapropriadas em sistemas deradiodifusão ou em provedores de conteúdo [10], [11].Por outro lado, as métricas objetivas são baseadas emmodelos matemáticos, cujo objetivo é produzir umescore de qualidade que emule a percepção do SVH.Além disso, as métricas objetivas requerem baixocusto de implementação (quando comparadas com asmétricas subjetivas) e não apresentam problemasquanto à reprodutibilidade e imparcialidade.As métricas objetivas para avaliação de qualidadede vídeo podem ser classi�cadas em três categorias:(i) métricas de referência completa (Full-Reference –FR); (ii) métricas de referência reduzida (Reduced-Reference – RR); (iii) métricas sem referência (NR).2.1. Métricas FRAs métricas FR requerem o vídeo de referência(fonte) no cálculo do escore de qualidade. Estasmétricas são amplamente utilizadas no processo devalidação de métricas RR ou NR, por meio dacomparação de desempenho de�nida pelasrecomendações do Grupo de Especialistas emQualidade de Vídeo (VQEG – Video Quality ExpertsGroup) que é um órgão de padronização internacionalde métricas subjetivas e objetivas de qualidade devídeo. Dentre as métricas FR, destacam-se o PSNR(Peak Signal-to-Noise Ratio), SSIM (StructuralSIMilarity index) [12] e MS-SSIM (Multi-ScaleStructural SIMilarity index) [13].O PSNR é uma métrica FR baseada no erro pixel apixel de fácil implementação. Entretanto, apresentabaixa correlação com o SVH [14]. A sua medida éprocessada sobre o erro quadro a quadro, i.e., entre oquadro original x e o quadro y . A expressão a seguirde�ne o PSNR para um conjunto de quadros F .2011PSNR 20log ,Fff fvF � MSE� �� � �� �� ��(1)com� � � �20 01MSE , , , , ,N Mfi jx f i j y f i jNM � �� ���� � ��(2)em que o termo f v é igual a (2 1) k � , cujo k é onúmero de bits por pixel, i.e., é a componente deluminância do quadro f . Os termos x �f ,i, j � ey �f ,i, j � são os valores de luminância do quadro deorigem e degradado, respectivamente. Ascomponentes bidimensionais são representadas pelonúmero de colunas N e pelo número de linhas M . Otermo f MSE é de�nido como erro quadrático médioou MSE (Mean Square Error).A métrica SSIM baseia-se no fato de que o SVH éfortemente adaptado para extrair informações dascaracterísticas estruturais de um quadro ou imagem.Logo, uma medida de similaridade estrutural (oudistorção) pode prover boa aproximação para aqualidade perceptual de um vídeo [3, 7–9]. Sejam x ey dois sinais não-negativos, em que y é o sinaldegradado e x é o sinal original (sem perda dequalidade), a medida de similaridade é utilizada comoum índice quantitativo de qualidade do sinal distorcido,ou seja, x é tomado como a referência para medir aqualidade de y . A métrica SSIM possui diversasextensões, dentre as quais a versão MS-SSIM,proposta por Wang et al. [13] que assume umaabordagem multiescalar.2.2. Métricas RRAs métricas de referência reduzida retiram certaquantidade de características do vídeo original (fonte),baseadas em componentes espaciais, temporais, nodomínio da frequência ou no �uxo de bits (bitstream).Este tipo de métrica é amplamente utilizada nomonitoramento de transmissões em rede [17]. Nestetipo de cenário de aplicação, o vídeo é transmitidocom uma sequência de informação codi�cada(overhead) e no lado receptor ocorre a suadecodi�cação, seguido pelo cálculo do índice dequalidade, o qual é obtido por meio da comparaçãoentre a representação reduzida da informação nospares emissor e receptor [18]. Tipicamente, métricasRR são implementadas por meio de funções, divididasem duas etapas [19]: (i) cálculo do erro entre osvídeos original e distorcido, constituído pela diferençade suas características, a �m de compor arepresentação reduzida da informação; (ii) função queagrupa os erros ou diferenças para obter um índice dequalidade global. Algumas métricas RR explorampropriedades dos artefatos, por meio da extração decaracterísticas e um modelo de parametrização [20]com foco em tipos especí�cos de distorções(artefatos). Esta abordagem é encontrada em Silva etal. [17], cujo cálculo do escore de qualidade ébaseado na diferença de atividade dos coe�cientesDCT (Discrete Cosine Transform) em um macro blococom resolução de 16�16 pixels.2.3. Métricas NRAs métricas NR extraem característicasrelacionadas ao SVH do vídeo distorcido, i.e., narecepção do sinal de vídeo [14]. Tipicamente, há duasabordagens no desenvolvimento destas métricas: (i)extração dos parâmetros sobre o �uxo de bits, taiscomo a taxa de compressão, informaçõesrelacionadas ao GoP (Group of Pictures), estimaçãode movimento, per�l e nível de codi�cação, bem comoo parâmetro de quantização ou QP (QuantizationParameter) [21–25]. Métricas NR apresentam maiorcomplexidade quando são aplicadas em vídeo, devidoà variação temporal dos quadros, conteúdos dascenas e à di�culdade de compreensão dascaracterísticas do SVH [26]. Assim, algumas métricasdessa categoria exploram características espaciais etemporais na estimação de qualidade de vídeo [21].3. MÉTODO PROPOSTOO método proposto, denominado NRVQA-ELMtc(No-Reference Video Quality Assessment usingExtreme Learning Machine algorithm with terminationcriteria) [27] combina características espaciais etemporais, por meio de uma rede neural arti�cialSLFNs usando o algoritmo de treinamento ELM [28]com a implementação de um simples critério deparada.3.1. Características espaço-temporaisAs características espaciais incorporadas nométodo proposto são baseadas em medidas deartefatos em vídeo digital, i.e., distorções de blocageme borramento desenvolvidas por Wang et al. [20].Assim, a componente de luminância do quadro f érepresentada por y(f , i, j ) com i � ��1,M�� e j � ��1, N�� ,em que M e N são os números de linhas e colunas,respectivamente, de um quadro. Logo, as diferençasde luminância ao longo das linhas e colunas sãorepresentadas, respectivamente, pelas expressões aseguir.� � � � � � � �� � � � � � � �, , , , 1 , , , 1, 1 ,, , , 1, , , , 1, 1 .hvd f i j y f i j y f i j j Nd f i j y f i j y f i j i M� � � � �� � � � �(3)O efeito de blocagem pode ser estimado pelamédia das diferenças entre as bordas dos blocos daDCT (Discrete Cosine Transform) nas direçõeshorizontal e vertical para uma sequência F dequadros, conforme mostra a Equação (4), com ummacrobloco de dimensão � �� , cujo tamanho típico éde � � 8 [20].� � ��� � � �111 1 1111 1 11, , 1 ,111, 1 , .11NF Mh hf i jMF Nvi jvfB d f i jNF MB d f i jMF N��������� � ���� � �� �� �� � � �� � �� �� �� � � �� � �� � �� � �(4)A medida de blocagem em uma sequência devídeo com F quadros é determinada pela média entreh B e v B , caracterizando a medida B , conforme aexpressão a seguir..2h v B BB�� (5)Os efeitos de borramento são estimados pelocálculo da redução de atividade entre os blocos � �� ,em que é usada a medida de blocagem nas direçõeshorizontal e vertical, conforme as expressões� � � �� �� � � �� �11 1 111 1 1, , ,1 1, ,1.1F M Nh h hf i jF M Nv vfvi jA d f i j BF M NA d f i j BF N M������ � ��� � �� �� � �� �� � �� � �� � �(6)A medida de borramento, representada por A ,conforme a Equação (7), é determinada pela médiaentre h A e v A ..2h v A AA�� (7)O segundo fator que contribui para a detecção doartefato de borramento é baseado na taxa decruzamento por zero (Zero Crossing – ZC) nasdireções horizontal e vertical, conforme as expressõesa seguir.� �� �� �� �21 1 121 1 11, , ,21, , ,2F M Nh hf i jF M Nv vf i jZ z f i jF M NZ z f i jF N M�� � ��� � ��� ��� �� � �� � �(8)em que os termos h z e v z são determinados por� �� �1, na direção horizontal, , ,0, caso contrário1, na direção vertical, , .0, caso contráriohvz f i jz f i j�� �� �� ��(9)Assim, a medida de borramento Z é determinadapela média entre as componentes h Z e v Z ..2h v Z ZZ�� (10)O método proposto também incorpora trêscaracterísticas temporais no treinamento da redeneural SLFN com o algoritmo ELM.A primeira característica temporal é a diferença demovimento entre quadros adjacentes, representadapela variável TI (Temporal perceptual Information) [31]que considera os valores de luminância de pixelslocalizados em uma mesma região de um quadro,conforme a expressão a seguir.� �21, , ,1FfTI m f i jF��� �� �� �� (11)em que o número total de quadros é F e � �m�f ,i, j ��� �é o desvio padrão da diferença de movimento(diferença de luminância) entre o quadro atualy �f ,i, j � e o quadro anterior y �f �1,i, j � .A segunda característica temporal é a média dadiferença absoluta (Mean Absolute Di�erence – MAD)[31] entre quadros sucessivos, representada pelaEquação (12) que de�ne a medida global da MADpara todos os quadros de um vídeo.� �� � � �2 1 11, , 1, , .1F M Nf i jMAD y f i j y f i jM N F � � �� � �� �� � �(12)A terceira característica temporal é a média dadiferença absoluta ponderada (weighted MeanAbsolute Di�erence – MADw) [32], a qual mede o graude variação das cenas de um vídeo que considera acena atual de um quadro f e do quadro anterior f �1,conforme a expressão:2 11.1Fff fMADMADwF � MAD �� �� � �� � ��(13)Assim, o método proposto combina ascaracterísticas espaciais e temporais em uma matriz� , , , , , � f f f f f f f x � A B Z TI MAD MADw , em que f é onúmero de amostras de vídeo. A Figura 1 apresentaas características temporais � espaciais de dezessetebases de dados de vídeos (denominada superconjuntoS) usadas neste trabalho e reportadas em [27]. Arecomendação ITU-T P.910 [31] de�ne a medida SI(Spatial perceptual Information) como informaçãoespacial perceptual. A inspeção visual dessa �guramostra que as amostras de vídeo usadas nestetrabalho apresentam uma grande variação espaçotemporal.Fig. 1. Características espaciais e temporais do superconjuntoS com 216 amostras de referência3.2. Métrica NRVQA-ELMtcO algoritmo ELM [28] desenvolvido para otreinamento de uma rede SLFN atribui pesos epolarizações (biases) de maneira aleatória, segundouma distribuição uniforme. O treinamento compreendeN amostras distintas representadas pela variável�� , � , , 1, , � n mf f f f � � x t x � t � f � N , cujo cálculo éconforme a expressão� � � �1, 1, , ,KK i j j f j fff � g b f N�x � � w x � � o � (14)em que f o é a saída (escore objetivo), g(x) é afunção de ativação e j � é o peso que conecta o jésimoneurônio da camada oculta ao neurônio desaída. De acordo com [28], uma rede SLFN com Knós na camada oculta e uma função de ativação g(x)pode apresentar um erro médio próximo de zero, i.e.,10Kf ff �� o � t � . Logo, há parâmetros j � , j w e j b talque� �1, 1, , ,Kj j f j ff� g b f N�� w x � � t � (15)em que f t é o vetor alvo (escores subjetivos),T1, , j j jn � �w w � � � w é o vetor de peso que conecta o jésimoneurônio da camada oculta ao neurônio dacamada de entrada, j b denota a polarização (bias) doj-ésimo neurônio da camada oculta, � � j f w x é oproduto interno de j w e f x . A Figura 2 ilustra oalgoritmo ELM empregado em uma arquitetura derede neural SLFN.xi1βjN1jKtibjN input neuron K hidden neuron output neuronβ1βKwjFig. 2. Arquitetura de uma rede neural SLFN usando algoritmode treinamento ELMO sistema linear da Equação (16) resume o métododo algoritmo ELM.Hβ � T, (16)em que a matriz da camada oculta é representada por� � � 1, , and 1, , � � H � h f � N j � K com a primeiralinha da matriz de características f x igual aT1 2 , , , f f f fn x � ��x x x �� , i.e., a primeira linha é igual a� � 1 1 1 1 1 1 1 , , , , , f f f f f f f x � A B Z TI MAD MADw . A matriz desaída e o vetor alvo (target) são de�nidos comoT1 , K β � ��β β �� eT1, , N T � ��t t �� , respectivamente. Otermo � �T1 , 1, , j jm j � � � j � K � � β β β denota o vetor depeso que conecta o j-ésimo neurônio da camadaoculta e os neurônios de saída. Hung et al. [28]propuseram a atribuição aleatória de pesos aosparâmetros j w e j b , a �m de seja obtido um pequenoerro não-nulo durante o treinamento. Considerando osistema linear da Equação (17), os pesos da camadade saída podem ser aproximados por† β � H T (17)em que † H é de�nida como matriz inversageneralizada de Moore-Penrose (MP) [33] da matrizde saída da camada oculta �H� . Além disso, oconjunto de treinamento � , nó oculta K e umafunção de ativação g �x � , e.g., função de base radial(Radial Basis Function – RBF), hard-limiting (hardlim),sigmoidal (sig) e seno (sin). Em resumo, o algoritmoELM compreende três etapas [28]:i) Atribuição aleatória dos pesos de entrada j w epolarizações j b ;ii) Cálculo da matriz da camada de saída H ;iii) Cálculo dos pesos de saída † β: β� H T .O método NRVQA-ELMtc [27] implementa umsimples critério de parada no treinamento da redeneural SLFN, quanto à atribuição aleatória dos pesosj w e j b . Embora este critério não seja direcionado,busca os pesos relacionados com o menor RMSE(Root-Mean-Square Error) entre a saída desejada(escore subjetivo) e o escore objetivo na fase detreinamento com k iterações (tipicamente, k � 100 ) eN neurônios na camada oculta. Além disso, conformeestudo realizado em [27], caso o RMSE seja menor doque 0,5 o algoritmo cessa a busca pelos parâmetrosj w e j b .4. RESULTADOS EXPERIMENTAISEsta seção apresenta os resultados de acurácia,i.e., os coe�cientes de correlação linear de Pearson(Pearson Linear Correlation Coe�cient – PLCC) [34],[35], entre os escores objetivos e subjetivos de 2627amostras de vídeo estudadas em [27].A Figura 3 compara a acurácia (PLCC) entre asmétricas de referência completa (FR) PSNR e MSSSIMcom o método proposto (NRVQA-ELMtc) paraas 2627 amostras de vídeo, pertencentes a 17 basesde dados de vídeo disponibilizadas por diversasinstituições e laboratórios [27]. A função de ativaçãousada na rede neural SLFN foi o seno (sin) com onúmero de amostras de teste igual ao número deneurônios na camada oculta ( N ). O método devalidação cruzada múltipla (K-fold) foi usado com oobjetivo de gerar uma distribuição de acurácia, a qualfoi analisada por meio do diagrama de caixa (box-plot)[36], em que o traço, o círculo e o quadrado, ambosem vermelho, representam a mediana, a média e odesvio padrão, respectivamente. Destaca-se queneste trabalho foi empregada uma validação cruzadacom um grande número de amostras de treinamentotestecom K � 100 , i.e., cada caixa do box-plotcomporta 100 experimentos distintos. Tipicamente, aliteratura apresenta trabalhos no campo da avaliaçãoFig. 3. Box-plot da predição da acurácia (PLCC) entre as métricas PSNR, MS-SSIM e o método proposto NRVQA-ELMtcde qualidade de vídeo com K entre 5 e 10 [37], [38].Pela inspeção visual da Figura 3 observa-se que odesempenho do método proposto é superior àsmétricas FR, em quaisquer condições de teste, i.e.,para qualquer quantidade de amostras de teste(número de neurônios na camada oculta) entre 25 e500. Em especial, para N � 50 , o método propostoapresenta valores de PLCC, em termos da média emediana, acima de 0,8, denotando uma forteassociação entre os escores objetivos e subjetivos, natarefa de predição de qualidade de vídeo. Isto ocorredevido à grande quantidade de amostras de vídeousadas no treinamento, e.g., para N � 300 foramusadas 2327 amostras de treinamento, ou seja,mesmo usando pares de treinamento-teste disjuntos,o método proposto mostra uma acurácia superior àsmétricas de referência completa. A assimetria positiva,i.e., a maior concentração da acurácia entre osegundo quartil (mediana) e o terceiro quartil, nadistribuição do box-plot nos testes com 300 e 500neurônios na camada oculta, indica que o métodoproposto apresenta um desempenho expressivo emcomparação com as métricas FR.Entretanto, mesmo para N entre 25 e 50, ométodo proposto apresentou uma acurácia maior doque as métricas FR, cujo melhor resultado foi paraN � 25 com o desvio-quartil (amplitude interquartílica)con�nado entre 0,65 e 0,8. Além disso, este resultadotambém apresentou assimetria positiva com a médiado PLCC em torno de 0,75.5. CONCLUSÃOEste trabalho apresentou uma métrica NR baseadaem uma rede neural arti�cial SLFN, cujo treinamento édeterminado pelo algoritmo ELM, o qual consideracaracterísticas espaço-temporais e os escoressubjetivos (alvos) extraídos de 2627 amostrastreinamento. Além disso, este trabalho propõe umaextensão do algoritmo ELM por meio de um simplescritério de parada, a �m de que sejam obtidosparâmetros da rede neural arti�cial relacionados como menor RMSE. Tipicamente, a comparação entremétricas FR e NR é injusta, devido à ausência dovídeo de referência na obtenção do escore dequalidade em métricas NR. Entretanto, os resultadosexperimentais mostram que o método propostoapresentou desempenho superior às métricas dereferência completa PSNR e MS-SSIM, sobretudo,quando o número de amostras de teste e de neurôniosna camada oculta da rede SLFN é maior do que 250.Logo, a métrica NRVQA-ELMtc pode ser empregadano monitoramento de qualidade em sistemas detransmissão e recepção de vídeo digital, tais comoIPTV (Internet Protocol Television), TV digital ou emdispositivos móveis, tais como ultrabooks,smartphones, tablets e em aparelhos WiDi (WirelessDisplay).REFERÊNCIAS[1] S. Winkler, “Issues in vision modeling for perceptualvideo quality assessment,” Signal Processing, vol. 78,no. 2, pp. 231–252, 1999.[2] Z. Wang and A. C. Bovik, Modern image qualityassessment. San Rafael, CA: Morgan & Claypool,2006.[3] W. Lin and C.-C. Jay Kuo, “Perceptual visual qualitymetrics: A survey,” Journal of Visual Communicationand Image Representation, vol. 22, no. 4, pp. 297–312,May 2011.[4] S. S. Hemami and A. R. Reibman, “No-reference imageand video quality estimation: Applications and humanmotivateddesign,” Signal Processing: ImageCommunication, vol. 25, no. 7, pp. 469–481, 2010.[5] Z. Wang and A. Bovik, “Reduced- and No-ReferenceImage Quality Assessment,” IEEE Signal ProcessingMagazine, vol. 28, no. 6, pp. 29–40, Nov. 2011.[6] R. V. Babu, S. Suresh, and A. Perkis, “No-referenceJPEG-image quality assessment using GAP-RBF,”Signal Processing, vol. 87, no. 6, pp. 1493–1503, 2007.[7] X. Jiang, F. Meng, J. Xu, and W. Zhou, “No-ReferencePerceptual Video Quality Measurement for HighDe�nition Videos Based on an Arti�cial NeuralNetwork,” in Computer and Electrical Engineering,2008. ICCEE 2008. International Conference on, 2008,pp. 424–427.[8] J. Choe, K. Lee, C. Lee, and S. Korea, “No-referencevideo quality measurement using neural networks,” in2009 16th International Conference on Digital SignalProcessing, 2009, pp. 1–4.[9] S. Suresh, R. Venkatesh Babu, and H. J. Kim, “Noreferenceimage quality assessment using modi�edextreme learning machine classi�er,” Applied SoftComputing, vol. 9, no. 2, pp. 541–552, Mar. 2009.[10] A. M. Eskicioglu and P. S. Fisher, “Image qualitymeasures and their performance,” IEEE Transactionson Communications, vol. 43, no. 12, pp. 2959–2965,1995.[11] U. Engelke and H.-J. Zepernick, “Perceptual-basedQuality Metrics for Image and Video Services: ASurvey,” in Proceedings EuroNGI Conf. NextGeneration Internet Networks, 2007, pp. 190–197.[12] Z. Wang, A. C. Bovik, H. R. Sheikh, and E. PSimoncelli, “Image quality assessment: from errorvisibility to structural similarity.,” IEEE Transactions onImage Processing, vol. 13, no. 4, pp. 600–612, 2004.[13] Z. Wang, E. P. Simoncelli, and A. C. Bovik, “Multiscalestructural similarity for image quality assessment,” inThe Thrity-Seventh Asilomar Conference on Signals,Systems & Computers, 2003, 2003, vol. 2, no. 1, pp.1398–1402.[14] H. R. Wu, K. R. Rao, and A. A. Kassim, “Digital VideoImage Quality and Perceptual Coding,” Journal ofElectronic Imaging, vol. 16, no. 3, 2007.[15] Z. Wang and A. C. Bovik, “A universal image qualityindex,” IEEE Signal Processing Letters, vol. 9, no. 3,pp. 81–84, Mar. 2002.[16] Y. Shi, Y. Ding, R. Zhang, and J. Li, “Structure and HueSimilarity for Color Image Quality Assessment,” in 2009International Conference on Electronic ComputerTechnology, 2009, pp. 329–333.[17] W. B. Silva, A. A. P. Pohl, and K. V. O. Fonseca, “AReduced-Reference Video Quality Assessment Methodbased on the Activity-Di�erence of DCT Coe�cients,”IEICE Transactions on Information and Systems, vol. E96-D, no. 3, 2013.[18] P. Le Callet, C. Viard-Gaudin, and D. Barba, “A Convolutional Neural Network Approach for Objective Video Quality Assessment,” IEEE Transactions on Neural Networks, vol. 17, no. 5, pp. 1316–1327, 2006.[19] P. Le Callet and D. Barba, “Image Quality Assessment: From Sites Errors to a Global Appreciation of Quality,” in Proceedings of the Picture Coding Sympsium, 2001, pp. 105–108.[20] M. Miyahara, K. Kotani, and V. R. Algazi, “Objective picture quality scale (PQS) for image coding,” IEEE Transactions on Communications, vol. 46, no. 9, pp. 1215–1226, 1998.[21] M. Slanina, V. Ricny, and R. Forchheimer, “A Novel Metric for H.264/AVC No-Reference Quality Assessment,” in 14th International Workshop on Systems, Signals and Image Processing and 6th EURASIP Conference focused on Speech and Image Processing, Multimedia Communications and Services, 2007, pp. 114–117.[22] O. Sugimoto, S. Naito, S. Sakazawa, and A. Koike, “Objective perceptual video quality measurement method based on hybrid no reference framework,” in 16th IEEE International Conference on Image Processing (ICIP’09), 2009, pp. 2237–2240.[23] T. Oelbaum, C. Keimel, and K. Diepold, “Rule-Based No-Reference Video Quality Evaluation Using Additionally Coded Videos,” IEEE Journal of Selected Topics in Signal Processing, vol. 3, no. 2, pp. 294–303, 2009.[24] N. Staelens, N. Vercammen, Y. Dhondt, B. Vermeulen, P. Lambert, R. de Walle, and P. Demeester, “ViQID: A No-Reference bit stream-based visual quality impairment detector,” in Proceedings of the Second Int Quality of Multimedia Experience (QoMEX) Workshop, 2010, pp. 206–211.[25] F. Yang, S. Wan, Q. Xie, and H. R. Wu, “No-Reference Quality Assessment for Networked Video via Primary Analysis of Bit Stream,” IEEE Transactions on Circuits and Systems for Video Technology, vol. 20, no. 11, pp. 1544–1554, Nov. 2010.[26] Z. Wang, H. R. Sheikh, and A. C. Bovik, “Objective Video Quality Assessment,” in The Handbook of Video Databases: Design and Applications, B. Furht and O. Marques, Eds. Boca Raton, FL, USA: CRC Press, 2003, pp. 1041–1078.[27] W. B. da Silva and A. de A. P. Pohl, “Métodos Sem Referência Baseados em Características Espaço-Temporais para Avaliação Objetiva de Qualidade de Vídeo Digital,” Universidade Tecnológica Federal do Paraná (UTFPR), 2013.[28] G.-B. Huang, Q.-Y. Zhu, and C.-K. Siew, “Extreme learning machine: Theory and applications,” Neurocomputing, vol. 70, no. 1–3, pp. 489–501, Dec. 2006.[29] Z. Wang, H. R. Sheikh, and A. C. Bovik, “No-reference perceptual quality assessment of JPEG compressed images,” in Image Processing. 2002. Proceedings. IEEE International Conference on Image Processing, 2002, vol. 1, pp. vol.1 I–477 – I–480.[30] W. B. Silva and A. A. P. Pohl, “No-Reference Video Quality Assessment Method based on the Levenberg-Marquardt Minimization,” in XXX Brazilian Symposium on Telecommunications (SBrT’12), 2012.[31] ITU-T P.910, “Subjective video quality assessment methods for multimedia applications,” Standardization Sector of ITU, 1999.[32] W. Ding, Y. Tong, Q. Zhang, and D. Yang, “Image and Video Quality Assessment Using Neural Network and SVM,” Tsinghua Science &amp; Technology, vol. 13, no. 1, pp. 112–116, 2008.[33] K. S. Banerjee, C. R. Rao, and S. K. Mitra, “Generalized Inverse of Matrices and Its Applications,” Technometrics, vol. 15, no. 1, p. 197, Feb. 1973.[34] VQEG, “Final report from the video quality experts group on the validation of reduced-reference and no-reference objective models for standard de�nition television, Phase I,” 2009.[35] VQEG, “Report on the validation of video quality models for high de�nition video content,” 2010.[36] J. W. Tukey, Exploratory Data Analysis. New York: Addison-Wesley Publishing Company, 1977.[37] P. Gastaldo and R. Zunino, “Neural networks for the no-reference assessment of perceived quality,” J. Electronic Imaging, vol. 14, no. 3, p. 033004, 2005.[38] R. Herzog, M. Čadík, T. O. Aydın, K. I. Kim, K. Myszkowski, and H.-P. Seidel, “NoRM: No-Reference Image Quality Metric for Realistic Image Synthesis,” Comp. Graph. Forum, vol. 31, no. 2pt4, pp. 545–554, 2012.

Revista de Radiodifusão • v. 08 • n. 09 • 2014 21

NOVA FERRAMENTA DE DESENVOLVIMENTO EM RÁDIODIFUSÃO: SOFTWARE DEFINED RADIO.

Yuri Pontes Maciel 1, Cristiano Akamine 2, Gunnar Bedicks Jr. 3

1 Universidade Presbiteriana Mackenzie, São Paulo, Brasil, [email protected]

2 Universidade Presbiteriana Mackenzie, São Paulo, Brasil, [email protected] 3 Universidade Presbiteriana Mackenzie, São Paulo, Brasil, [email protected]

Resumo: Este artigo aborda dois temas relevantes da engenharia elétrica e de comunicações: rádios definidos por software e o padrão de televisão digital usado no Brasil. O rádio definido por software tem se tornado nos últimos tempos uma poderosa ferramenta para a prototipagem e desenvolvimento de equipamentos presentes em sistemas de comunicação. Ele pode ser definido como uma plataforma de desenvolvimento, isto é, hardware genérico e programável que abrange uma grande faixa de radiofrequência trabalhando em conjunto com ferramentas de software. Esta ferramenta de software, em conjunto com processadores digitais de sinais, como microprocessadores presentes em computadores pessoais é responsável pela maior parte do processamento realizado por essa plataforma, enquanto o hardware é responsável geralmente, por partes menos críticas. Dentre as ferramentas de software estão aquelas onda há necessidade de se obter uma licença para usa-la, como o MATLAB/Simulink, LabVIEW e SCA, uma padrão criado por militares dos EUA, e aquelas que são conhecidas por serem open-source como o GNU Radio e OSSIE uma versão open-source do SCA. Essa plataforma pode ser usada para desenvolver equipamentos para radiodifusão. Como o processamento é baseado apenas em software o mesmo hardware pode ser usado para todas essas aplicações, desde que tenha as especificações necessárias. Palavras chave: Programação, Rádio Definido por Software, Processamento, TV Digital.

1. INTRODUÇÃO

Projetos tecnológicos necessitam de confiabilidade quanto ao seu funcionamento, e agilidade quanto ao seu desenvolvimento, testes e aprimoramento. A prototipagem de dispositivos é uma técnica que visa a criação de um protótipo, isto é, uma versão prévia de um produto final. As técnicas de prototipagem podem ser variadas, como o desenvolvimento de um dispositivo por meio da eletrônica analógica convencional, isto é, montando fisicamente o circuito desejado em placas de ensaio ou em circuitos impressos. Contudo existe a preferência de uso componentes digitais, ao invés de componentes analógicos.

Um dos motivos pelos quais a eletrônica digital é preferida em relação a analógica é devido a falta de confiabilidade desta última. Componentes analógicos são mais sensíveis a interferências presentes em rádio frequência. Portanto o tempo desprendido na tentativa de solucionar os problemas associados ao uso dos mesmos fez com que fossem substituídos por componentes digitais. Este é um exemplo que pode ser observado mesmo nas salas de aula das universidades, onde o fator confiabilidade não é tão restritivo [1].

Entretanto está é uma abordagem lenta e esta sujeita a erros comuns presentes em bancadas de experimento, como ruídos espúrios. Outras técnicas se utilizam do desenvolvimento do projeto a partir de um hardware genérico, previamente montando. Deste ponto de vista, pode-se destacar a prototipagem em hardware programável e a prototipagem em software.

A constante e rápida evolução da eletrônica digital propiciou o desenvolvimento de ferramentas que facilitaram o desenvolvimento de sistemas com grande capacidade de processamento, como os dispositivos lógicos programáveis, dos quais é possível citar: Application Specific Integrated Circuits (ASICs), Field Programmable Gate Arrays (FPGAs) e Digital Signal Processors (DSPs) [2].

O desenvolvimento de protótipos que se utilizam apenas de hardware programável, embora útil, é caro e restritivo, pois todos estes componentes estão limitados a execução de algumas tarefas. Embora estes dispositivos sejam programáveis eles possuem limitações, por exemplo, um circuito de FPGA tem uma determinada quantidade de portas lógicas, caso o projeto ultrapasse essa quantidade será necessário substituir este circuito por outro.

Outro fator importante a se considerar é a obsolescência do hardware [3]. Neste caso o desenvolvimento em software se torna mais atrativo.

O uso de rádios definidos por software superou estas limitações, já que faz uso de processadores genéricos para diversas funções, que são executadas em software enquanto o hardware programável, como o caso da FPGA, só é responsável pela parte relacionada à interface com a rádio frequência; além de que a sua programação pode ser feita com linguagens muito bem conceituadas como C, o que traz muitas vantagens, dada a sua ampla difusão, como por exemplo, uma vasta literatura disponível sobre o assunto [4].

Page 22: Revista de RADIODIFUSÃO - SET PORTAL · Sinais de TV Digital ISDB-Tb via VHF e UHF na Cidade do Gama – DF – Brasil Akamine, Cristiano Bedicks Jr, Gunnar ... cujas frequências

MÉTRICA SEM REFERÊNCIA BASEADA EM REDES NEURAISPARA AVALIAÇÃO OBJETIVA DE QUALIDADE DE VÍDEO DIGITALWyllian Bezerra da Silva, Alexandre de Almeida Prado PohlPrograma de Pós-Graduação em Engenharia Elétrica e Informática Industrial (CPGEI) – UTFPR, Curitiba, [email protected], [email protected]: Este trabalho apresenta uma métrica sem referência para avaliação de qualidade de vídeo digital baseada em uma rede neural arti�cial que usa uma versão estendida do algoritmo de aprendizado ELM (Extreme Learning Machine). O método proposto realiza o treinamento da rede neural a partir de seis características espaço-temporais. Os resultados experimentais mostram que o método proposto apresenta desempenho superior às métricas de referência completa PSNR e MS-SSIM na tarefa de predição de qualidade de vídeo. Logo, o método proposto pode ser usado no monitoramento de qualidade em sistemas de transmissão e recepção de vídeo digital, tais como IPTV e TV digital.Palavras chave: algoritmo ELM, avaliação objetiva de vídeo, métrica sem referência, rede neural arti�cial.1. INTRODUÇÃODurante os últimos anos, a literatura tem apresentado um número crescente publicações acerca de métricas objetivas para avaliação de qualidade de vídeo para diversas aplicações em radiodifusão ou no processamento de vídeo digital, seja na aquisição do sinal, codi�cação e decodi�cação, compressão, transmissão, restauração, armazenamento, segmentação e exibição de sinais de vídeo digital [1–4]. A avaliação de qualidade de vídeo digital pode ser realizada por meio de métricas subjetiva e objetiva. A primeira requer uma grande quantidade de recursos humanos e apresenta elevado custo em sua implementação [1–3]. Porém, as métricas objetivas são vantajosas quando apresentam um determinado grau de correlação com as métricas subjetivas. Logo, o desenvolvimento destas é um desa�o no campo de avaliação de qualidade de vídeo e imagem. Além disso, as métricas objetivas, devido à natureza de seu critério objetivo, independem de interação humana e são facilmente reprodutíveis [3]. Dentre as métricas objetivas destacam-se as métricas sem referência (No-Reference – NR), pois não necessitam do vídeo de referência no cálculo de sua medida. Entretanto, estas requerem um conhecimento a priori sobre as distorções em vídeo digital para que seja estabelecida uma correlação com os resultados subjetivos [3].A maioria das métricas NR encontradas na literatura são baseadas na avaliação de qualidade de imagens e em características relacionadas ao Sistema Visual Humano (SVH). Assim, o desenvolvimento de métricas NR é difícil, devido à necessidade de emular a percepção do SVH que envolve aspectos cognitivos, emocionais e estéticos relacionados ao conteúdo do vídeo e que são altamente dependentes do observador [4], [5].A literatura reporta diversos esforços no desenvolvimento de métricas para avaliação de qualidade de vídeo baseadas em redes neurais e em algoritmos de aprendizado. Babu et al. [6] apresentam uma métrica para avaliar a qualidade de imagens comprimidas em JPEG (Joint Photographic Experts Group) por meio de um algoritmo de aprendizado de crescimento e propõem o uso de uma rede neural GAP-RBF (Growing and Pruning Radial Basis Function) que usa características relacionadas ao SVH. Jiang et al. [7] desenvolveram uma métrica NR para avaliação de qualidade de vídeo em HD (High De�nition) baseada em uma rede neural treinada pelo algoritmo BP (Back-Propagation) que usa seis características espaço-temporais e a RoI (Region of Interest). Choe et al. [8] desenvolveram uma métrica NR baseada no �uxo de bits para avaliação de qualidade de vídeo codi�cado em H.264. Esta métrica extrai características quadro a quadro e usa uma rede neural alimentada adiante (feedforward) com três camadas. Suresh et al. [9] apresentaram uma extensão do algoritmo ELM na tarefa de avaliar a qualidade de imagens comprimidas em JPEG com base no esquema de seleção múltipla KS-ELM (K-fold selection Scheme using ELM) e no algoritmo RCGA-ELM (Real-Coded Genetic Algorithm using ELM) para seleção dos pesos de entrada e polarizações.Este trabalho apresenta uma versão estendida do algoritmo ELM para redes neurais SLFN (Single-hidden-Layer Feedforward Neural Networks) que implementa um simples critério de parada na fase de treinamento. Além disso, esse método usa seis características espaço-temporais de vídeos submetidos a diversas condições de distorção.Este artigo está dividido da seguinte maneira: a Seção 2 descreve as métricas para avaliação de qualidade de vídeo. A Seção 3 descreve o método NR proposto para avalição de qualidade de vídeo digital. A Seção 4 apresenta os resultados experimentais, em que são comparados o método NR proposto e duas métricas FR. Finalmente, a Seção 5 apresenta a conclusão do artigo.2. AVALIAÇÃO DE QUALIDADE DE VÍDEOO processo de avaliação de qualidade de vídeopode ser realizado com a aplicação de métricassubjetivas ou objetivas. As métricas subjetivasestimam a qualidade do vídeo por meio de avaliadoreshumanos. Logo, exigem um alto custo, poisnecessitam de uma grande quantidade de recursoshumanos e apresentam problemas quanto aosrequisitos de imparcialidade e reprodutibilidade,tornando-se inapropriadas em sistemas deradiodifusão ou em provedores de conteúdo [10], [11].Por outro lado, as métricas objetivas são baseadas emmodelos matemáticos, cujo objetivo é produzir umescore de qualidade que emule a percepção do SVH.Além disso, as métricas objetivas requerem baixocusto de implementação (quando comparadas com asmétricas subjetivas) e não apresentam problemasquanto à reprodutibilidade e imparcialidade.As métricas objetivas para avaliação de qualidadede vídeo podem ser classi�cadas em três categorias:(i) métricas de referência completa (Full-Reference –FR); (ii) métricas de referência reduzida (Reduced-Reference – RR); (iii) métricas sem referência (NR).2.1. Métricas FRAs métricas FR requerem o vídeo de referência(fonte) no cálculo do escore de qualidade. Estasmétricas são amplamente utilizadas no processo devalidação de métricas RR ou NR, por meio dacomparação de desempenho de�nida pelasrecomendações do Grupo de Especialistas emQualidade de Vídeo (VQEG – Video Quality ExpertsGroup) que é um órgão de padronização internacionalde métricas subjetivas e objetivas de qualidade devídeo. Dentre as métricas FR, destacam-se o PSNR(Peak Signal-to-Noise Ratio), SSIM (StructuralSIMilarity index) [12] e MS-SSIM (Multi-ScaleStructural SIMilarity index) [13].O PSNR é uma métrica FR baseada no erro pixel apixel de fácil implementação. Entretanto, apresentabaixa correlação com o SVH [14]. A sua medida éprocessada sobre o erro quadro a quadro, i.e., entre oquadro original x e o quadro y . A expressão a seguirde�ne o PSNR para um conjunto de quadros F .2011PSNR 20log ,Fff fvF � MSE� �� � �� �� ��(1)com� � � �20 01MSE , , , , ,N Mfi jx f i j y f i jNM � �� ���� � ��(2)em que o termo f v é igual a (2 1) k � , cujo k é onúmero de bits por pixel, i.e., é a componente deluminância do quadro f . Os termos x �f ,i, j � ey �f ,i, j � são os valores de luminância do quadro deorigem e degradado, respectivamente. Ascomponentes bidimensionais são representadas pelonúmero de colunas N e pelo número de linhas M . Otermo f MSE é de�nido como erro quadrático médioou MSE (Mean Square Error).A métrica SSIM baseia-se no fato de que o SVH éfortemente adaptado para extrair informações dascaracterísticas estruturais de um quadro ou imagem.Logo, uma medida de similaridade estrutural (oudistorção) pode prover boa aproximação para aqualidade perceptual de um vídeo [3, 7–9]. Sejam x ey dois sinais não-negativos, em que y é o sinaldegradado e x é o sinal original (sem perda dequalidade), a medida de similaridade é utilizada comoum índice quantitativo de qualidade do sinal distorcido,ou seja, x é tomado como a referência para medir aqualidade de y . A métrica SSIM possui diversasextensões, dentre as quais a versão MS-SSIM,proposta por Wang et al. [13] que assume umaabordagem multiescalar.2.2. Métricas RRAs métricas de referência reduzida retiram certaquantidade de características do vídeo original (fonte),baseadas em componentes espaciais, temporais, nodomínio da frequência ou no �uxo de bits (bitstream).Este tipo de métrica é amplamente utilizada nomonitoramento de transmissões em rede [17]. Nestetipo de cenário de aplicação, o vídeo é transmitidocom uma sequência de informação codi�cada(overhead) e no lado receptor ocorre a suadecodi�cação, seguido pelo cálculo do índice dequalidade, o qual é obtido por meio da comparaçãoentre a representação reduzida da informação nospares emissor e receptor [18]. Tipicamente, métricasRR são implementadas por meio de funções, divididasem duas etapas [19]: (i) cálculo do erro entre osvídeos original e distorcido, constituído pela diferençade suas características, a �m de compor arepresentação reduzida da informação; (ii) função queagrupa os erros ou diferenças para obter um índice dequalidade global. Algumas métricas RR explorampropriedades dos artefatos, por meio da extração decaracterísticas e um modelo de parametrização [20]com foco em tipos especí�cos de distorções(artefatos). Esta abordagem é encontrada em Silva etal. [17], cujo cálculo do escore de qualidade ébaseado na diferença de atividade dos coe�cientesDCT (Discrete Cosine Transform) em um macro blococom resolução de 16�16 pixels.2.3. Métricas NRAs métricas NR extraem característicasrelacionadas ao SVH do vídeo distorcido, i.e., narecepção do sinal de vídeo [14]. Tipicamente, há duasabordagens no desenvolvimento destas métricas: (i)extração dos parâmetros sobre o �uxo de bits, taiscomo a taxa de compressão, informaçõesrelacionadas ao GoP (Group of Pictures), estimaçãode movimento, per�l e nível de codi�cação, bem comoo parâmetro de quantização ou QP (QuantizationParameter) [21–25]. Métricas NR apresentam maiorcomplexidade quando são aplicadas em vídeo, devidoà variação temporal dos quadros, conteúdos dascenas e à di�culdade de compreensão dascaracterísticas do SVH [26]. Assim, algumas métricasdessa categoria exploram características espaciais etemporais na estimação de qualidade de vídeo [21].3. MÉTODO PROPOSTOO método proposto, denominado NRVQA-ELMtc(No-Reference Video Quality Assessment usingExtreme Learning Machine algorithm with terminationcriteria) [27] combina características espaciais etemporais, por meio de uma rede neural arti�cialSLFNs usando o algoritmo de treinamento ELM [28]com a implementação de um simples critério deparada.3.1. Características espaço-temporaisAs características espaciais incorporadas nométodo proposto são baseadas em medidas deartefatos em vídeo digital, i.e., distorções de blocageme borramento desenvolvidas por Wang et al. [20].Assim, a componente de luminância do quadro f érepresentada por y(f , i, j ) com i � ��1,M�� e j � ��1, N�� ,em que M e N são os números de linhas e colunas,respectivamente, de um quadro. Logo, as diferençasde luminância ao longo das linhas e colunas sãorepresentadas, respectivamente, pelas expressões aseguir.� � � � � � � �� � � � � � � �, , , , 1 , , , 1, 1 ,, , , 1, , , , 1, 1 .hvd f i j y f i j y f i j j Nd f i j y f i j y f i j i M� � � � �� � � � �(3)O efeito de blocagem pode ser estimado pelamédia das diferenças entre as bordas dos blocos daDCT (Discrete Cosine Transform) nas direçõeshorizontal e vertical para uma sequência F dequadros, conforme mostra a Equação (4), com ummacrobloco de dimensão � �� , cujo tamanho típico éde � � 8 [20].� � ��� � � �111 1 1111 1 11, , 1 ,111, 1 , .11NF Mh hf i jMF Nvi jvfB d f i jNF MB d f i jMF N��������� � ���� � �� �� �� � � �� � �� �� �� � � �� � �� � �� � �(4)A medida de blocagem em uma sequência devídeo com F quadros é determinada pela média entreh B e v B , caracterizando a medida B , conforme aexpressão a seguir..2h v B BB�� (5)Os efeitos de borramento são estimados pelocálculo da redução de atividade entre os blocos � �� ,em que é usada a medida de blocagem nas direçõeshorizontal e vertical, conforme as expressões� � � �� �� � � �� �11 1 111 1 1, , ,1 1, ,1.1F M Nh h hf i jF M Nv vfvi jA d f i j BF M NA d f i j BF N M������ � ��� � �� �� � �� �� � �� � �� � �(6)A medida de borramento, representada por A ,conforme a Equação (7), é determinada pela médiaentre h A e v A ..2h v A AA�� (7)O segundo fator que contribui para a detecção doartefato de borramento é baseado na taxa decruzamento por zero (Zero Crossing – ZC) nasdireções horizontal e vertical, conforme as expressõesa seguir.� �� �� �� �21 1 121 1 11, , ,21, , ,2F M Nh hf i jF M Nv vf i jZ z f i jF M NZ z f i jF N M�� � ��� � ��� ��� �� � �� � �(8)em que os termos h z e v z são determinados por� �� �1, na direção horizontal, , ,0, caso contrário1, na direção vertical, , .0, caso contráriohvz f i jz f i j�� �� �� ��(9)Assim, a medida de borramento Z é determinadapela média entre as componentes h Z e v Z ..2h v Z ZZ�� (10)O método proposto também incorpora trêscaracterísticas temporais no treinamento da redeneural SLFN com o algoritmo ELM.A primeira característica temporal é a diferença demovimento entre quadros adjacentes, representadapela variável TI (Temporal perceptual Information) [31]que considera os valores de luminância de pixelslocalizados em uma mesma região de um quadro,conforme a expressão a seguir.� �21, , ,1FfTI m f i jF��� �� �� �� (11)em que o número total de quadros é F e � �m�f ,i, j ��� �é o desvio padrão da diferença de movimento(diferença de luminância) entre o quadro atualy �f ,i, j � e o quadro anterior y �f �1,i, j � .A segunda característica temporal é a média dadiferença absoluta (Mean Absolute Di�erence – MAD)[31] entre quadros sucessivos, representada pelaEquação (12) que de�ne a medida global da MADpara todos os quadros de um vídeo.� �� � � �2 1 11, , 1, , .1F M Nf i jMAD y f i j y f i jM N F � � �� � �� �� � �(12)A terceira característica temporal é a média dadiferença absoluta ponderada (weighted MeanAbsolute Di�erence – MADw) [32], a qual mede o graude variação das cenas de um vídeo que considera acena atual de um quadro f e do quadro anterior f �1,conforme a expressão:2 11.1Fff fMADMADwF � MAD �� �� � �� � ��(13)Assim, o método proposto combina ascaracterísticas espaciais e temporais em uma matriz� , , , , , � f f f f f f f x � A B Z TI MAD MADw , em que f é onúmero de amostras de vídeo. A Figura 1 apresentaas características temporais � espaciais de dezessetebases de dados de vídeos (denominada superconjuntoS) usadas neste trabalho e reportadas em [27]. Arecomendação ITU-T P.910 [31] de�ne a medida SI(Spatial perceptual Information) como informaçãoespacial perceptual. A inspeção visual dessa �guramostra que as amostras de vídeo usadas nestetrabalho apresentam uma grande variação espaçotemporal.Fig. 1. Características espaciais e temporais do superconjuntoS com 216 amostras de referência3.2. Métrica NRVQA-ELMtcO algoritmo ELM [28] desenvolvido para otreinamento de uma rede SLFN atribui pesos epolarizações (biases) de maneira aleatória, segundouma distribuição uniforme. O treinamento compreendeN amostras distintas representadas pela variável�� , � , , 1, , � n mf f f f � � x t x � t � f � N , cujo cálculo éconforme a expressão� � � �1, 1, , ,KK i j j f j fff � g b f N�x � � w x � � o � (14)em que f o é a saída (escore objetivo), g(x) é afunção de ativação e j � é o peso que conecta o jésimoneurônio da camada oculta ao neurônio desaída. De acordo com [28], uma rede SLFN com Knós na camada oculta e uma função de ativação g(x)pode apresentar um erro médio próximo de zero, i.e.,10Kf ff �� o � t � . Logo, há parâmetros j � , j w e j b talque� �1, 1, , ,Kj j f j ff� g b f N�� w x � � t � (15)em que f t é o vetor alvo (escores subjetivos),T1, , j j jn � �w w � � � w é o vetor de peso que conecta o jésimoneurônio da camada oculta ao neurônio dacamada de entrada, j b denota a polarização (bias) doj-ésimo neurônio da camada oculta, � � j f w x é oproduto interno de j w e f x . A Figura 2 ilustra oalgoritmo ELM empregado em uma arquitetura derede neural SLFN.xi1βjN1jKtibjN input neuron K hidden neuron output neuronβ1βKwjFig. 2. Arquitetura de uma rede neural SLFN usando algoritmode treinamento ELMO sistema linear da Equação (16) resume o métododo algoritmo ELM.Hβ � T, (16)em que a matriz da camada oculta é representada por� � � 1, , and 1, , � � H � h f � N j � K com a primeiralinha da matriz de características f x igual aT1 2 , , , f f f fn x � ��x x x �� , i.e., a primeira linha é igual a� � 1 1 1 1 1 1 1 , , , , , f f f f f f f x � A B Z TI MAD MADw . A matriz desaída e o vetor alvo (target) são de�nidos comoT1 , K β � ��β β �� eT1, , N T � ��t t �� , respectivamente. Otermo � �T1 , 1, , j jm j � � � j � K � � β β β denota o vetor depeso que conecta o j-ésimo neurônio da camadaoculta e os neurônios de saída. Hung et al. [28]propuseram a atribuição aleatória de pesos aosparâmetros j w e j b , a �m de seja obtido um pequenoerro não-nulo durante o treinamento. Considerando osistema linear da Equação (17), os pesos da camadade saída podem ser aproximados por† β � H T (17)em que † H é de�nida como matriz inversageneralizada de Moore-Penrose (MP) [33] da matrizde saída da camada oculta �H� . Além disso, oconjunto de treinamento � , nó oculta K e umafunção de ativação g �x � , e.g., função de base radial(Radial Basis Function – RBF), hard-limiting (hardlim),sigmoidal (sig) e seno (sin). Em resumo, o algoritmoELM compreende três etapas [28]:i) Atribuição aleatória dos pesos de entrada j w epolarizações j b ;ii) Cálculo da matriz da camada de saída H ;iii) Cálculo dos pesos de saída † β: β� H T .O método NRVQA-ELMtc [27] implementa umsimples critério de parada no treinamento da redeneural SLFN, quanto à atribuição aleatória dos pesosj w e j b . Embora este critério não seja direcionado,busca os pesos relacionados com o menor RMSE(Root-Mean-Square Error) entre a saída desejada(escore subjetivo) e o escore objetivo na fase detreinamento com k iterações (tipicamente, k � 100 ) eN neurônios na camada oculta. Além disso, conformeestudo realizado em [27], caso o RMSE seja menor doque 0,5 o algoritmo cessa a busca pelos parâmetrosj w e j b .4. RESULTADOS EXPERIMENTAISEsta seção apresenta os resultados de acurácia,i.e., os coe�cientes de correlação linear de Pearson(Pearson Linear Correlation Coe�cient – PLCC) [34],[35], entre os escores objetivos e subjetivos de 2627amostras de vídeo estudadas em [27].A Figura 3 compara a acurácia (PLCC) entre asmétricas de referência completa (FR) PSNR e MSSSIMcom o método proposto (NRVQA-ELMtc) paraas 2627 amostras de vídeo, pertencentes a 17 basesde dados de vídeo disponibilizadas por diversasinstituições e laboratórios [27]. A função de ativaçãousada na rede neural SLFN foi o seno (sin) com onúmero de amostras de teste igual ao número deneurônios na camada oculta ( N ). O método devalidação cruzada múltipla (K-fold) foi usado com oobjetivo de gerar uma distribuição de acurácia, a qualfoi analisada por meio do diagrama de caixa (box-plot)[36], em que o traço, o círculo e o quadrado, ambosem vermelho, representam a mediana, a média e odesvio padrão, respectivamente. Destaca-se queneste trabalho foi empregada uma validação cruzadacom um grande número de amostras de treinamentotestecom K � 100 , i.e., cada caixa do box-plotcomporta 100 experimentos distintos. Tipicamente, aliteratura apresenta trabalhos no campo da avaliaçãoFig. 3. Box-plot da predição da acurácia (PLCC) entre as métricas PSNR, MS-SSIM e o método proposto NRVQA-ELMtcde qualidade de vídeo com K entre 5 e 10 [37], [38].Pela inspeção visual da Figura 3 observa-se que odesempenho do método proposto é superior àsmétricas FR, em quaisquer condições de teste, i.e.,para qualquer quantidade de amostras de teste(número de neurônios na camada oculta) entre 25 e500. Em especial, para N � 50 , o método propostoapresenta valores de PLCC, em termos da média emediana, acima de 0,8, denotando uma forteassociação entre os escores objetivos e subjetivos, natarefa de predição de qualidade de vídeo. Isto ocorredevido à grande quantidade de amostras de vídeousadas no treinamento, e.g., para N � 300 foramusadas 2327 amostras de treinamento, ou seja,mesmo usando pares de treinamento-teste disjuntos,o método proposto mostra uma acurácia superior àsmétricas de referência completa. A assimetria positiva,i.e., a maior concentração da acurácia entre osegundo quartil (mediana) e o terceiro quartil, nadistribuição do box-plot nos testes com 300 e 500neurônios na camada oculta, indica que o métodoproposto apresenta um desempenho expressivo emcomparação com as métricas FR.Entretanto, mesmo para N entre 25 e 50, ométodo proposto apresentou uma acurácia maior doque as métricas FR, cujo melhor resultado foi paraN � 25 com o desvio-quartil (amplitude interquartílica)con�nado entre 0,65 e 0,8. Além disso, este resultadotambém apresentou assimetria positiva com a médiado PLCC em torno de 0,75.5. CONCLUSÃOEste trabalho apresentou uma métrica NR baseadaem uma rede neural arti�cial SLFN, cujo treinamento édeterminado pelo algoritmo ELM, o qual consideracaracterísticas espaço-temporais e os escoressubjetivos (alvos) extraídos de 2627 amostrastreinamento. Além disso, este trabalho propõe umaextensão do algoritmo ELM por meio de um simplescritério de parada, a �m de que sejam obtidosparâmetros da rede neural arti�cial relacionados como menor RMSE. Tipicamente, a comparação entremétricas FR e NR é injusta, devido à ausência dovídeo de referência na obtenção do escore dequalidade em métricas NR. Entretanto, os resultadosexperimentais mostram que o método propostoapresentou desempenho superior às métricas dereferência completa PSNR e MS-SSIM, sobretudo,quando o número de amostras de teste e de neurôniosna camada oculta da rede SLFN é maior do que 250.Logo, a métrica NRVQA-ELMtc pode ser empregadano monitoramento de qualidade em sistemas detransmissão e recepção de vídeo digital, tais comoIPTV (Internet Protocol Television), TV digital ou emdispositivos móveis, tais como ultrabooks,smartphones, tablets e em aparelhos WiDi (WirelessDisplay).REFERÊNCIAS[1] S. Winkler, “Issues in vision modeling for perceptualvideo quality assessment,” Signal Processing, vol. 78,no. 2, pp. 231–252, 1999.[2] Z. Wang and A. C. Bovik, Modern image qualityassessment. San Rafael, CA: Morgan & Claypool,2006.[3] W. Lin and C.-C. Jay Kuo, “Perceptual visual qualitymetrics: A survey,” Journal of Visual Communicationand Image Representation, vol. 22, no. 4, pp. 297–312,May 2011.[4] S. S. Hemami and A. R. Reibman, “No-reference imageand video quality estimation: Applications and humanmotivateddesign,” Signal Processing: ImageCommunication, vol. 25, no. 7, pp. 469–481, 2010.[5] Z. Wang and A. Bovik, “Reduced- and No-ReferenceImage Quality Assessment,” IEEE Signal ProcessingMagazine, vol. 28, no. 6, pp. 29–40, Nov. 2011.[6] R. V. Babu, S. Suresh, and A. Perkis, “No-referenceJPEG-image quality assessment using GAP-RBF,”Signal Processing, vol. 87, no. 6, pp. 1493–1503, 2007.[7] X. Jiang, F. Meng, J. Xu, and W. Zhou, “No-ReferencePerceptual Video Quality Measurement for HighDe�nition Videos Based on an Arti�cial NeuralNetwork,” in Computer and Electrical Engineering,2008. ICCEE 2008. International Conference on, 2008,pp. 424–427.[8] J. Choe, K. Lee, C. Lee, and S. Korea, “No-referencevideo quality measurement using neural networks,” in2009 16th International Conference on Digital SignalProcessing, 2009, pp. 1–4.[9] S. Suresh, R. Venkatesh Babu, and H. J. Kim, “Noreferenceimage quality assessment using modi�edextreme learning machine classi�er,” Applied SoftComputing, vol. 9, no. 2, pp. 541–552, Mar. 2009.[10] A. M. Eskicioglu and P. S. Fisher, “Image qualitymeasures and their performance,” IEEE Transactionson Communications, vol. 43, no. 12, pp. 2959–2965,1995.[11] U. Engelke and H.-J. Zepernick, “Perceptual-basedQuality Metrics for Image and Video Services: ASurvey,” in Proceedings EuroNGI Conf. NextGeneration Internet Networks, 2007, pp. 190–197.[12] Z. Wang, A. C. Bovik, H. R. Sheikh, and E. PSimoncelli, “Image quality assessment: from errorvisibility to structural similarity.,” IEEE Transactions onImage Processing, vol. 13, no. 4, pp. 600–612, 2004.[13] Z. Wang, E. P. Simoncelli, and A. C. Bovik, “Multiscalestructural similarity for image quality assessment,” inThe Thrity-Seventh Asilomar Conference on Signals,Systems & Computers, 2003, 2003, vol. 2, no. 1, pp.1398–1402.[14] H. R. Wu, K. R. Rao, and A. A. Kassim, “Digital VideoImage Quality and Perceptual Coding,” Journal ofElectronic Imaging, vol. 16, no. 3, 2007.[15] Z. Wang and A. C. Bovik, “A universal image qualityindex,” IEEE Signal Processing Letters, vol. 9, no. 3,pp. 81–84, Mar. 2002.[16] Y. Shi, Y. Ding, R. Zhang, and J. Li, “Structure and HueSimilarity for Color Image Quality Assessment,” in 2009International Conference on Electronic ComputerTechnology, 2009, pp. 329–333.[17] W. B. Silva, A. A. P. Pohl, and K. V. O. Fonseca, “AReduced-Reference Video Quality Assessment Methodbased on the Activity-Di�erence of DCT Coe�cients,”IEICE Transactions on Information and Systems, vol. E96-D, no. 3, 2013.[18] P. Le Callet, C. Viard-Gaudin, and D. Barba, “A Convolutional Neural Network Approach for Objective Video Quality Assessment,” IEEE Transactions on Neural Networks, vol. 17, no. 5, pp. 1316–1327, 2006.[19] P. Le Callet and D. Barba, “Image Quality Assessment: From Sites Errors to a Global Appreciation of Quality,” in Proceedings of the Picture Coding Sympsium, 2001, pp. 105–108.[20] M. Miyahara, K. Kotani, and V. R. Algazi, “Objective picture quality scale (PQS) for image coding,” IEEE Transactions on Communications, vol. 46, no. 9, pp. 1215–1226, 1998.[21] M. Slanina, V. Ricny, and R. Forchheimer, “A Novel Metric for H.264/AVC No-Reference Quality Assessment,” in 14th International Workshop on Systems, Signals and Image Processing and 6th EURASIP Conference focused on Speech and Image Processing, Multimedia Communications and Services, 2007, pp. 114–117.[22] O. Sugimoto, S. Naito, S. Sakazawa, and A. Koike, “Objective perceptual video quality measurement method based on hybrid no reference framework,” in 16th IEEE International Conference on Image Processing (ICIP’09), 2009, pp. 2237–2240.[23] T. Oelbaum, C. Keimel, and K. Diepold, “Rule-Based No-Reference Video Quality Evaluation Using Additionally Coded Videos,” IEEE Journal of Selected Topics in Signal Processing, vol. 3, no. 2, pp. 294–303, 2009.[24] N. Staelens, N. Vercammen, Y. Dhondt, B. Vermeulen, P. Lambert, R. de Walle, and P. Demeester, “ViQID: A No-Reference bit stream-based visual quality impairment detector,” in Proceedings of the Second Int Quality of Multimedia Experience (QoMEX) Workshop, 2010, pp. 206–211.[25] F. Yang, S. Wan, Q. Xie, and H. R. Wu, “No-Reference Quality Assessment for Networked Video via Primary Analysis of Bit Stream,” IEEE Transactions on Circuits and Systems for Video Technology, vol. 20, no. 11, pp. 1544–1554, Nov. 2010.[26] Z. Wang, H. R. Sheikh, and A. C. Bovik, “Objective Video Quality Assessment,” in The Handbook of Video Databases: Design and Applications, B. Furht and O. Marques, Eds. Boca Raton, FL, USA: CRC Press, 2003, pp. 1041–1078.[27] W. B. da Silva and A. de A. P. Pohl, “Métodos Sem Referência Baseados em Características Espaço-Temporais para Avaliação Objetiva de Qualidade de Vídeo Digital,” Universidade Tecnológica Federal do Paraná (UTFPR), 2013.[28] G.-B. Huang, Q.-Y. Zhu, and C.-K. Siew, “Extreme learning machine: Theory and applications,” Neurocomputing, vol. 70, no. 1–3, pp. 489–501, Dec. 2006.[29] Z. Wang, H. R. Sheikh, and A. C. Bovik, “No-reference perceptual quality assessment of JPEG compressed images,” in Image Processing. 2002. Proceedings. IEEE International Conference on Image Processing, 2002, vol. 1, pp. vol.1 I–477 – I–480.[30] W. B. Silva and A. A. P. Pohl, “No-Reference Video Quality Assessment Method based on the Levenberg-Marquardt Minimization,” in XXX Brazilian Symposium on Telecommunications (SBrT’12), 2012.[31] ITU-T P.910, “Subjective video quality assessment methods for multimedia applications,” Standardization Sector of ITU, 1999.[32] W. Ding, Y. Tong, Q. Zhang, and D. Yang, “Image and Video Quality Assessment Using Neural Network and SVM,” Tsinghua Science &amp; Technology, vol. 13, no. 1, pp. 112–116, 2008.[33] K. S. Banerjee, C. R. Rao, and S. K. Mitra, “Generalized Inverse of Matrices and Its Applications,” Technometrics, vol. 15, no. 1, p. 197, Feb. 1973.[34] VQEG, “Final report from the video quality experts group on the validation of reduced-reference and no-reference objective models for standard de�nition television, Phase I,” 2009.[35] VQEG, “Report on the validation of video quality models for high de�nition video content,” 2010.[36] J. W. Tukey, Exploratory Data Analysis. New York: Addison-Wesley Publishing Company, 1977.[37] P. Gastaldo and R. Zunino, “Neural networks for the no-reference assessment of perceived quality,” J. Electronic Imaging, vol. 14, no. 3, p. 033004, 2005.[38] R. Herzog, M. Čadík, T. O. Aydın, K. I. Kim, K. Myszkowski, and H.-P. Seidel, “NoRM: No-Reference Image Quality Metric for Realistic Image Synthesis,” Comp. Graph. Forum, vol. 31, no. 2pt4, pp. 545–554, 2012.

Revista de Radiodifusão • v. 08 • n. 09 • 2014

Nova Ferramenta de Desenvolvimento em Radiodifusão: Software Defined Radio.

22

O rádio definido por software, do inglês Software Defined Radio (SDR), é uma evolução dos rádios digitais que passam a ter suas principais funções de processamento de dados realizadas por software e não mais em hardware dedicado. No SDR é desejável que todas as funções sejam implementadas em software [5].

2. SOFTWARE DEFINED RADIO

O caminho para o SDR pode ser traçado da evolução dos rádios analógicos, para os rádios digitais, por sua vez para rádios digitais que são controlados por software, mas ainda sim estáticos, isto é, executam apenas funções prédeterminadas, para aqueles em que até o hardware pode ser programado para executar diversas funções [5].

A diferença básica entre um rádio digital programável, dito Hardware Defined Radio (HDR) [6] e um SDR é que o primeiro necessita de hardware novo, isto é, uma peça física, para diferentes aplicações, por exemplo para transmissão de um novo tipo de forma de onda, enquanto que para um SDR é necessário criar um novo software para executar essa tarefa, sem a necessidade de alteração física do equipamento, entretanto esta flexibilidade de aplicação normalmente é mais cara e demanda mais recursos computacionais, por outro lado o comportamento de componentes físicos tendem a variar com o tempo, enquanto o software permanece o mesmo [7].

A marca principal do SDR é que todos seus componentes sejam programáveis, assim sendo podem ser controlados por software, inclusive o hardware, isto distingue esta classe de rádios de outros rádios digitais. Circuitos de FPGA e outros dispositivos lógicos programáveis (DLPs) promovem essa flexibilidade de hardware programável exigida por essa tecnologia [8].

Idealmente o SDR deve fazer interação com o ambiente externo a ele apenas com o uso de conversores analógicos-digitais (CAD) ou conversores digitais-analógicos ou (CDA). Entretanto o acesso a tais conversores ainda não é viável, pois para serviços localizados em canais de alta frequência haveria necessidade de que esses conversores trabalhassem com uma taxa de amostragem elevada. Portanto um SDR é concebido como na figura 1 com antenas, de transmissão e recepção no caso de rádios bidirecionais, conversores de rádiofrequência (RF), CADs e CDAs, DSPs, processadores de uso genérico, do inglês Generic Purpose Processors (GPPs) e memória para o processamento [9].

Fig. 1. Arquitetura genérica de um SDR

Contudo toda essa flexibilidade exigida trás dificuldades para a concepção dessa tecnologia. A manipulação de sinais que estão em diferentes faixas de frequência, isto é, a operação em banda larga de RF, o processamento de elevadas taxas de bit é um gargalo na estimação dos recursos necessários do DSP e na quantidade de memória que o sistema terá que armazenar [5].

A evolução dos sistemas de comunicação é constante, portanto há necessidade de que os equipamentos que fazem parte deste sistema acompanhem este ritmo de evolução.

Tais equipamentos evoluíram de arquiteturas estáticas, para arquiteturas compostas por alguns componentes programáveis, e então para implementações ainda mais adaptáveis.

A migração para plataformas mais flexíveis, como SDR, pode trazer benefícios econômicos e logísticos [6,9].

O SDR pode ser definido como uma plataforma que tem a possibilidade de trabalhar com uma ampla faixa de radiofrequência e no qual as funções mais críticas de processamento são realizadas em software ao invés de hardware dedicado.

A figura 2 ilustra um diagrama de estados [7], no qual a escolha pelos componentes e pela sua programabilidade demonstra a diferença entre diversos tipos de rádio digitais. A concepção ideal é de que as funções de processamento de dados sejam implementadas em componentes mais genéricos em termos de programação como no caso do GPP.

Page 23: Revista de RADIODIFUSÃO - SET PORTAL · Sinais de TV Digital ISDB-Tb via VHF e UHF na Cidade do Gama – DF – Brasil Akamine, Cristiano Bedicks Jr, Gunnar ... cujas frequências

MÉTRICA SEM REFERÊNCIA BASEADA EM REDES NEURAISPARA AVALIAÇÃO OBJETIVA DE QUALIDADE DE VÍDEO DIGITALWyllian Bezerra da Silva, Alexandre de Almeida Prado PohlPrograma de Pós-Graduação em Engenharia Elétrica e Informática Industrial (CPGEI) – UTFPR, Curitiba, [email protected], [email protected]: Este trabalho apresenta uma métrica sem referência para avaliação de qualidade de vídeo digital baseada em uma rede neural arti�cial que usa uma versão estendida do algoritmo de aprendizado ELM (Extreme Learning Machine). O método proposto realiza o treinamento da rede neural a partir de seis características espaço-temporais. Os resultados experimentais mostram que o método proposto apresenta desempenho superior às métricas de referência completa PSNR e MS-SSIM na tarefa de predição de qualidade de vídeo. Logo, o método proposto pode ser usado no monitoramento de qualidade em sistemas de transmissão e recepção de vídeo digital, tais como IPTV e TV digital.Palavras chave: algoritmo ELM, avaliação objetiva de vídeo, métrica sem referência, rede neural arti�cial.1. INTRODUÇÃODurante os últimos anos, a literatura tem apresentado um número crescente publicações acerca de métricas objetivas para avaliação de qualidade de vídeo para diversas aplicações em radiodifusão ou no processamento de vídeo digital, seja na aquisição do sinal, codi�cação e decodi�cação, compressão, transmissão, restauração, armazenamento, segmentação e exibição de sinais de vídeo digital [1–4]. A avaliação de qualidade de vídeo digital pode ser realizada por meio de métricas subjetiva e objetiva. A primeira requer uma grande quantidade de recursos humanos e apresenta elevado custo em sua implementação [1–3]. Porém, as métricas objetivas são vantajosas quando apresentam um determinado grau de correlação com as métricas subjetivas. Logo, o desenvolvimento destas é um desa�o no campo de avaliação de qualidade de vídeo e imagem. Além disso, as métricas objetivas, devido à natureza de seu critério objetivo, independem de interação humana e são facilmente reprodutíveis [3]. Dentre as métricas objetivas destacam-se as métricas sem referência (No-Reference – NR), pois não necessitam do vídeo de referência no cálculo de sua medida. Entretanto, estas requerem um conhecimento a priori sobre as distorções em vídeo digital para que seja estabelecida uma correlação com os resultados subjetivos [3].A maioria das métricas NR encontradas na literatura são baseadas na avaliação de qualidade de imagens e em características relacionadas ao Sistema Visual Humano (SVH). Assim, o desenvolvimento de métricas NR é difícil, devido à necessidade de emular a percepção do SVH que envolve aspectos cognitivos, emocionais e estéticos relacionados ao conteúdo do vídeo e que são altamente dependentes do observador [4], [5].A literatura reporta diversos esforços no desenvolvimento de métricas para avaliação de qualidade de vídeo baseadas em redes neurais e em algoritmos de aprendizado. Babu et al. [6] apresentam uma métrica para avaliar a qualidade de imagens comprimidas em JPEG (Joint Photographic Experts Group) por meio de um algoritmo de aprendizado de crescimento e propõem o uso de uma rede neural GAP-RBF (Growing and Pruning Radial Basis Function) que usa características relacionadas ao SVH. Jiang et al. [7] desenvolveram uma métrica NR para avaliação de qualidade de vídeo em HD (High De�nition) baseada em uma rede neural treinada pelo algoritmo BP (Back-Propagation) que usa seis características espaço-temporais e a RoI (Region of Interest). Choe et al. [8] desenvolveram uma métrica NR baseada no �uxo de bits para avaliação de qualidade de vídeo codi�cado em H.264. Esta métrica extrai características quadro a quadro e usa uma rede neural alimentada adiante (feedforward) com três camadas. Suresh et al. [9] apresentaram uma extensão do algoritmo ELM na tarefa de avaliar a qualidade de imagens comprimidas em JPEG com base no esquema de seleção múltipla KS-ELM (K-fold selection Scheme using ELM) e no algoritmo RCGA-ELM (Real-Coded Genetic Algorithm using ELM) para seleção dos pesos de entrada e polarizações.Este trabalho apresenta uma versão estendida do algoritmo ELM para redes neurais SLFN (Single-hidden-Layer Feedforward Neural Networks) que implementa um simples critério de parada na fase de treinamento. Além disso, esse método usa seis características espaço-temporais de vídeos submetidos a diversas condições de distorção.Este artigo está dividido da seguinte maneira: a Seção 2 descreve as métricas para avaliação de qualidade de vídeo. A Seção 3 descreve o método NR proposto para avalição de qualidade de vídeo digital. A Seção 4 apresenta os resultados experimentais, em que são comparados o método NR proposto e duas métricas FR. Finalmente, a Seção 5 apresenta a conclusão do artigo.2. AVALIAÇÃO DE QUALIDADE DE VÍDEOO processo de avaliação de qualidade de vídeopode ser realizado com a aplicação de métricassubjetivas ou objetivas. As métricas subjetivasestimam a qualidade do vídeo por meio de avaliadoreshumanos. Logo, exigem um alto custo, poisnecessitam de uma grande quantidade de recursoshumanos e apresentam problemas quanto aosrequisitos de imparcialidade e reprodutibilidade,tornando-se inapropriadas em sistemas deradiodifusão ou em provedores de conteúdo [10], [11].Por outro lado, as métricas objetivas são baseadas emmodelos matemáticos, cujo objetivo é produzir umescore de qualidade que emule a percepção do SVH.Além disso, as métricas objetivas requerem baixocusto de implementação (quando comparadas com asmétricas subjetivas) e não apresentam problemasquanto à reprodutibilidade e imparcialidade.As métricas objetivas para avaliação de qualidadede vídeo podem ser classi�cadas em três categorias:(i) métricas de referência completa (Full-Reference –FR); (ii) métricas de referência reduzida (Reduced-Reference – RR); (iii) métricas sem referência (NR).2.1. Métricas FRAs métricas FR requerem o vídeo de referência(fonte) no cálculo do escore de qualidade. Estasmétricas são amplamente utilizadas no processo devalidação de métricas RR ou NR, por meio dacomparação de desempenho de�nida pelasrecomendações do Grupo de Especialistas emQualidade de Vídeo (VQEG – Video Quality ExpertsGroup) que é um órgão de padronização internacionalde métricas subjetivas e objetivas de qualidade devídeo. Dentre as métricas FR, destacam-se o PSNR(Peak Signal-to-Noise Ratio), SSIM (StructuralSIMilarity index) [12] e MS-SSIM (Multi-ScaleStructural SIMilarity index) [13].O PSNR é uma métrica FR baseada no erro pixel apixel de fácil implementação. Entretanto, apresentabaixa correlação com o SVH [14]. A sua medida éprocessada sobre o erro quadro a quadro, i.e., entre oquadro original x e o quadro y . A expressão a seguirde�ne o PSNR para um conjunto de quadros F .2011PSNR 20log ,Fff fvF � MSE� �� � �� �� ��(1)com� � � �20 01MSE , , , , ,N Mfi jx f i j y f i jNM � �� ���� � ��(2)em que o termo f v é igual a (2 1) k � , cujo k é onúmero de bits por pixel, i.e., é a componente deluminância do quadro f . Os termos x �f ,i, j � ey �f ,i, j � são os valores de luminância do quadro deorigem e degradado, respectivamente. Ascomponentes bidimensionais são representadas pelonúmero de colunas N e pelo número de linhas M . Otermo f MSE é de�nido como erro quadrático médioou MSE (Mean Square Error).A métrica SSIM baseia-se no fato de que o SVH éfortemente adaptado para extrair informações dascaracterísticas estruturais de um quadro ou imagem.Logo, uma medida de similaridade estrutural (oudistorção) pode prover boa aproximação para aqualidade perceptual de um vídeo [3, 7–9]. Sejam x ey dois sinais não-negativos, em que y é o sinaldegradado e x é o sinal original (sem perda dequalidade), a medida de similaridade é utilizada comoum índice quantitativo de qualidade do sinal distorcido,ou seja, x é tomado como a referência para medir aqualidade de y . A métrica SSIM possui diversasextensões, dentre as quais a versão MS-SSIM,proposta por Wang et al. [13] que assume umaabordagem multiescalar.2.2. Métricas RRAs métricas de referência reduzida retiram certaquantidade de características do vídeo original (fonte),baseadas em componentes espaciais, temporais, nodomínio da frequência ou no �uxo de bits (bitstream).Este tipo de métrica é amplamente utilizada nomonitoramento de transmissões em rede [17]. Nestetipo de cenário de aplicação, o vídeo é transmitidocom uma sequência de informação codi�cada(overhead) e no lado receptor ocorre a suadecodi�cação, seguido pelo cálculo do índice dequalidade, o qual é obtido por meio da comparaçãoentre a representação reduzida da informação nospares emissor e receptor [18]. Tipicamente, métricasRR são implementadas por meio de funções, divididasem duas etapas [19]: (i) cálculo do erro entre osvídeos original e distorcido, constituído pela diferençade suas características, a �m de compor arepresentação reduzida da informação; (ii) função queagrupa os erros ou diferenças para obter um índice dequalidade global. Algumas métricas RR explorampropriedades dos artefatos, por meio da extração decaracterísticas e um modelo de parametrização [20]com foco em tipos especí�cos de distorções(artefatos). Esta abordagem é encontrada em Silva etal. [17], cujo cálculo do escore de qualidade ébaseado na diferença de atividade dos coe�cientesDCT (Discrete Cosine Transform) em um macro blococom resolução de 16�16 pixels.2.3. Métricas NRAs métricas NR extraem característicasrelacionadas ao SVH do vídeo distorcido, i.e., narecepção do sinal de vídeo [14]. Tipicamente, há duasabordagens no desenvolvimento destas métricas: (i)extração dos parâmetros sobre o �uxo de bits, taiscomo a taxa de compressão, informaçõesrelacionadas ao GoP (Group of Pictures), estimaçãode movimento, per�l e nível de codi�cação, bem comoo parâmetro de quantização ou QP (QuantizationParameter) [21–25]. Métricas NR apresentam maiorcomplexidade quando são aplicadas em vídeo, devidoà variação temporal dos quadros, conteúdos dascenas e à di�culdade de compreensão dascaracterísticas do SVH [26]. Assim, algumas métricasdessa categoria exploram características espaciais etemporais na estimação de qualidade de vídeo [21].3. MÉTODO PROPOSTOO método proposto, denominado NRVQA-ELMtc(No-Reference Video Quality Assessment usingExtreme Learning Machine algorithm with terminationcriteria) [27] combina características espaciais etemporais, por meio de uma rede neural arti�cialSLFNs usando o algoritmo de treinamento ELM [28]com a implementação de um simples critério deparada.3.1. Características espaço-temporaisAs características espaciais incorporadas nométodo proposto são baseadas em medidas deartefatos em vídeo digital, i.e., distorções de blocageme borramento desenvolvidas por Wang et al. [20].Assim, a componente de luminância do quadro f érepresentada por y(f , i, j ) com i � ��1,M�� e j � ��1, N�� ,em que M e N são os números de linhas e colunas,respectivamente, de um quadro. Logo, as diferençasde luminância ao longo das linhas e colunas sãorepresentadas, respectivamente, pelas expressões aseguir.� � � � � � � �� � � � � � � �, , , , 1 , , , 1, 1 ,, , , 1, , , , 1, 1 .hvd f i j y f i j y f i j j Nd f i j y f i j y f i j i M� � � � �� � � � �(3)O efeito de blocagem pode ser estimado pelamédia das diferenças entre as bordas dos blocos daDCT (Discrete Cosine Transform) nas direçõeshorizontal e vertical para uma sequência F dequadros, conforme mostra a Equação (4), com ummacrobloco de dimensão � �� , cujo tamanho típico éde � � 8 [20].� � ��� � � �111 1 1111 1 11, , 1 ,111, 1 , .11NF Mh hf i jMF Nvi jvfB d f i jNF MB d f i jMF N��������� � ���� � �� �� �� � � �� � �� �� �� � � �� � �� � �� � �(4)A medida de blocagem em uma sequência devídeo com F quadros é determinada pela média entreh B e v B , caracterizando a medida B , conforme aexpressão a seguir..2h v B BB�� (5)Os efeitos de borramento são estimados pelocálculo da redução de atividade entre os blocos � �� ,em que é usada a medida de blocagem nas direçõeshorizontal e vertical, conforme as expressões� � � �� �� � � �� �11 1 111 1 1, , ,1 1, ,1.1F M Nh h hf i jF M Nv vfvi jA d f i j BF M NA d f i j BF N M������ � ��� � �� �� � �� �� � �� � �� � �(6)A medida de borramento, representada por A ,conforme a Equação (7), é determinada pela médiaentre h A e v A ..2h v A AA�� (7)O segundo fator que contribui para a detecção doartefato de borramento é baseado na taxa decruzamento por zero (Zero Crossing – ZC) nasdireções horizontal e vertical, conforme as expressõesa seguir.� �� �� �� �21 1 121 1 11, , ,21, , ,2F M Nh hf i jF M Nv vf i jZ z f i jF M NZ z f i jF N M�� � ��� � ��� ��� �� � �� � �(8)em que os termos h z e v z são determinados por� �� �1, na direção horizontal, , ,0, caso contrário1, na direção vertical, , .0, caso contráriohvz f i jz f i j�� �� �� ��(9)Assim, a medida de borramento Z é determinadapela média entre as componentes h Z e v Z ..2h v Z ZZ�� (10)O método proposto também incorpora trêscaracterísticas temporais no treinamento da redeneural SLFN com o algoritmo ELM.A primeira característica temporal é a diferença demovimento entre quadros adjacentes, representadapela variável TI (Temporal perceptual Information) [31]que considera os valores de luminância de pixelslocalizados em uma mesma região de um quadro,conforme a expressão a seguir.� �21, , ,1FfTI m f i jF��� �� �� �� (11)em que o número total de quadros é F e � �m�f ,i, j ��� �é o desvio padrão da diferença de movimento(diferença de luminância) entre o quadro atualy �f ,i, j � e o quadro anterior y �f �1,i, j � .A segunda característica temporal é a média dadiferença absoluta (Mean Absolute Di�erence – MAD)[31] entre quadros sucessivos, representada pelaEquação (12) que de�ne a medida global da MADpara todos os quadros de um vídeo.� �� � � �2 1 11, , 1, , .1F M Nf i jMAD y f i j y f i jM N F � � �� � �� �� � �(12)A terceira característica temporal é a média dadiferença absoluta ponderada (weighted MeanAbsolute Di�erence – MADw) [32], a qual mede o graude variação das cenas de um vídeo que considera acena atual de um quadro f e do quadro anterior f �1,conforme a expressão:2 11.1Fff fMADMADwF � MAD �� �� � �� � ��(13)Assim, o método proposto combina ascaracterísticas espaciais e temporais em uma matriz� , , , , , � f f f f f f f x � A B Z TI MAD MADw , em que f é onúmero de amostras de vídeo. A Figura 1 apresentaas características temporais � espaciais de dezessetebases de dados de vídeos (denominada superconjuntoS) usadas neste trabalho e reportadas em [27]. Arecomendação ITU-T P.910 [31] de�ne a medida SI(Spatial perceptual Information) como informaçãoespacial perceptual. A inspeção visual dessa �guramostra que as amostras de vídeo usadas nestetrabalho apresentam uma grande variação espaçotemporal.Fig. 1. Características espaciais e temporais do superconjuntoS com 216 amostras de referência3.2. Métrica NRVQA-ELMtcO algoritmo ELM [28] desenvolvido para otreinamento de uma rede SLFN atribui pesos epolarizações (biases) de maneira aleatória, segundouma distribuição uniforme. O treinamento compreendeN amostras distintas representadas pela variável�� , � , , 1, , � n mf f f f � � x t x � t � f � N , cujo cálculo éconforme a expressão� � � �1, 1, , ,KK i j j f j fff � g b f N�x � � w x � � o � (14)em que f o é a saída (escore objetivo), g(x) é afunção de ativação e j � é o peso que conecta o jésimoneurônio da camada oculta ao neurônio desaída. De acordo com [28], uma rede SLFN com Knós na camada oculta e uma função de ativação g(x)pode apresentar um erro médio próximo de zero, i.e.,10Kf ff �� o � t � . Logo, há parâmetros j � , j w e j b talque� �1, 1, , ,Kj j f j ff� g b f N�� w x � � t � (15)em que f t é o vetor alvo (escores subjetivos),T1, , j j jn � �w w � � � w é o vetor de peso que conecta o jésimoneurônio da camada oculta ao neurônio dacamada de entrada, j b denota a polarização (bias) doj-ésimo neurônio da camada oculta, � � j f w x é oproduto interno de j w e f x . A Figura 2 ilustra oalgoritmo ELM empregado em uma arquitetura derede neural SLFN.xi1βjN1jKtibjN input neuron K hidden neuron output neuronβ1βKwjFig. 2. Arquitetura de uma rede neural SLFN usando algoritmode treinamento ELMO sistema linear da Equação (16) resume o métododo algoritmo ELM.Hβ � T, (16)em que a matriz da camada oculta é representada por� � � 1, , and 1, , � � H � h f � N j � K com a primeiralinha da matriz de características f x igual aT1 2 , , , f f f fn x � ��x x x �� , i.e., a primeira linha é igual a� � 1 1 1 1 1 1 1 , , , , , f f f f f f f x � A B Z TI MAD MADw . A matriz desaída e o vetor alvo (target) são de�nidos comoT1 , K β � ��β β �� eT1, , N T � ��t t �� , respectivamente. Otermo � �T1 , 1, , j jm j � � � j � K � � β β β denota o vetor depeso que conecta o j-ésimo neurônio da camadaoculta e os neurônios de saída. Hung et al. [28]propuseram a atribuição aleatória de pesos aosparâmetros j w e j b , a �m de seja obtido um pequenoerro não-nulo durante o treinamento. Considerando osistema linear da Equação (17), os pesos da camadade saída podem ser aproximados por† β � H T (17)em que † H é de�nida como matriz inversageneralizada de Moore-Penrose (MP) [33] da matrizde saída da camada oculta �H� . Além disso, oconjunto de treinamento � , nó oculta K e umafunção de ativação g �x � , e.g., função de base radial(Radial Basis Function – RBF), hard-limiting (hardlim),sigmoidal (sig) e seno (sin). Em resumo, o algoritmoELM compreende três etapas [28]:i) Atribuição aleatória dos pesos de entrada j w epolarizações j b ;ii) Cálculo da matriz da camada de saída H ;iii) Cálculo dos pesos de saída † β: β� H T .O método NRVQA-ELMtc [27] implementa umsimples critério de parada no treinamento da redeneural SLFN, quanto à atribuição aleatória dos pesosj w e j b . Embora este critério não seja direcionado,busca os pesos relacionados com o menor RMSE(Root-Mean-Square Error) entre a saída desejada(escore subjetivo) e o escore objetivo na fase detreinamento com k iterações (tipicamente, k � 100 ) eN neurônios na camada oculta. Além disso, conformeestudo realizado em [27], caso o RMSE seja menor doque 0,5 o algoritmo cessa a busca pelos parâmetrosj w e j b .4. RESULTADOS EXPERIMENTAISEsta seção apresenta os resultados de acurácia,i.e., os coe�cientes de correlação linear de Pearson(Pearson Linear Correlation Coe�cient – PLCC) [34],[35], entre os escores objetivos e subjetivos de 2627amostras de vídeo estudadas em [27].A Figura 3 compara a acurácia (PLCC) entre asmétricas de referência completa (FR) PSNR e MSSSIMcom o método proposto (NRVQA-ELMtc) paraas 2627 amostras de vídeo, pertencentes a 17 basesde dados de vídeo disponibilizadas por diversasinstituições e laboratórios [27]. A função de ativaçãousada na rede neural SLFN foi o seno (sin) com onúmero de amostras de teste igual ao número deneurônios na camada oculta ( N ). O método devalidação cruzada múltipla (K-fold) foi usado com oobjetivo de gerar uma distribuição de acurácia, a qualfoi analisada por meio do diagrama de caixa (box-plot)[36], em que o traço, o círculo e o quadrado, ambosem vermelho, representam a mediana, a média e odesvio padrão, respectivamente. Destaca-se queneste trabalho foi empregada uma validação cruzadacom um grande número de amostras de treinamentotestecom K � 100 , i.e., cada caixa do box-plotcomporta 100 experimentos distintos. Tipicamente, aliteratura apresenta trabalhos no campo da avaliaçãoFig. 3. Box-plot da predição da acurácia (PLCC) entre as métricas PSNR, MS-SSIM e o método proposto NRVQA-ELMtcde qualidade de vídeo com K entre 5 e 10 [37], [38].Pela inspeção visual da Figura 3 observa-se que odesempenho do método proposto é superior àsmétricas FR, em quaisquer condições de teste, i.e.,para qualquer quantidade de amostras de teste(número de neurônios na camada oculta) entre 25 e500. Em especial, para N � 50 , o método propostoapresenta valores de PLCC, em termos da média emediana, acima de 0,8, denotando uma forteassociação entre os escores objetivos e subjetivos, natarefa de predição de qualidade de vídeo. Isto ocorredevido à grande quantidade de amostras de vídeousadas no treinamento, e.g., para N � 300 foramusadas 2327 amostras de treinamento, ou seja,mesmo usando pares de treinamento-teste disjuntos,o método proposto mostra uma acurácia superior àsmétricas de referência completa. A assimetria positiva,i.e., a maior concentração da acurácia entre osegundo quartil (mediana) e o terceiro quartil, nadistribuição do box-plot nos testes com 300 e 500neurônios na camada oculta, indica que o métodoproposto apresenta um desempenho expressivo emcomparação com as métricas FR.Entretanto, mesmo para N entre 25 e 50, ométodo proposto apresentou uma acurácia maior doque as métricas FR, cujo melhor resultado foi paraN � 25 com o desvio-quartil (amplitude interquartílica)con�nado entre 0,65 e 0,8. Além disso, este resultadotambém apresentou assimetria positiva com a médiado PLCC em torno de 0,75.5. CONCLUSÃOEste trabalho apresentou uma métrica NR baseadaem uma rede neural arti�cial SLFN, cujo treinamento édeterminado pelo algoritmo ELM, o qual consideracaracterísticas espaço-temporais e os escoressubjetivos (alvos) extraídos de 2627 amostrastreinamento. Além disso, este trabalho propõe umaextensão do algoritmo ELM por meio de um simplescritério de parada, a �m de que sejam obtidosparâmetros da rede neural arti�cial relacionados como menor RMSE. Tipicamente, a comparação entremétricas FR e NR é injusta, devido à ausência dovídeo de referência na obtenção do escore dequalidade em métricas NR. Entretanto, os resultadosexperimentais mostram que o método propostoapresentou desempenho superior às métricas dereferência completa PSNR e MS-SSIM, sobretudo,quando o número de amostras de teste e de neurôniosna camada oculta da rede SLFN é maior do que 250.Logo, a métrica NRVQA-ELMtc pode ser empregadano monitoramento de qualidade em sistemas detransmissão e recepção de vídeo digital, tais comoIPTV (Internet Protocol Television), TV digital ou emdispositivos móveis, tais como ultrabooks,smartphones, tablets e em aparelhos WiDi (WirelessDisplay).REFERÊNCIAS[1] S. Winkler, “Issues in vision modeling for perceptualvideo quality assessment,” Signal Processing, vol. 78,no. 2, pp. 231–252, 1999.[2] Z. Wang and A. C. Bovik, Modern image qualityassessment. San Rafael, CA: Morgan & Claypool,2006.[3] W. Lin and C.-C. Jay Kuo, “Perceptual visual qualitymetrics: A survey,” Journal of Visual Communicationand Image Representation, vol. 22, no. 4, pp. 297–312,May 2011.[4] S. S. Hemami and A. R. Reibman, “No-reference imageand video quality estimation: Applications and humanmotivateddesign,” Signal Processing: ImageCommunication, vol. 25, no. 7, pp. 469–481, 2010.[5] Z. Wang and A. Bovik, “Reduced- and No-ReferenceImage Quality Assessment,” IEEE Signal ProcessingMagazine, vol. 28, no. 6, pp. 29–40, Nov. 2011.[6] R. V. Babu, S. Suresh, and A. Perkis, “No-referenceJPEG-image quality assessment using GAP-RBF,”Signal Processing, vol. 87, no. 6, pp. 1493–1503, 2007.[7] X. Jiang, F. Meng, J. Xu, and W. Zhou, “No-ReferencePerceptual Video Quality Measurement for HighDe�nition Videos Based on an Arti�cial NeuralNetwork,” in Computer and Electrical Engineering,2008. ICCEE 2008. International Conference on, 2008,pp. 424–427.[8] J. Choe, K. Lee, C. Lee, and S. Korea, “No-referencevideo quality measurement using neural networks,” in2009 16th International Conference on Digital SignalProcessing, 2009, pp. 1–4.[9] S. Suresh, R. Venkatesh Babu, and H. J. Kim, “Noreferenceimage quality assessment using modi�edextreme learning machine classi�er,” Applied SoftComputing, vol. 9, no. 2, pp. 541–552, Mar. 2009.[10] A. M. Eskicioglu and P. S. Fisher, “Image qualitymeasures and their performance,” IEEE Transactionson Communications, vol. 43, no. 12, pp. 2959–2965,1995.[11] U. Engelke and H.-J. Zepernick, “Perceptual-basedQuality Metrics for Image and Video Services: ASurvey,” in Proceedings EuroNGI Conf. NextGeneration Internet Networks, 2007, pp. 190–197.[12] Z. Wang, A. C. Bovik, H. R. Sheikh, and E. PSimoncelli, “Image quality assessment: from errorvisibility to structural similarity.,” IEEE Transactions onImage Processing, vol. 13, no. 4, pp. 600–612, 2004.[13] Z. Wang, E. P. Simoncelli, and A. C. Bovik, “Multiscalestructural similarity for image quality assessment,” inThe Thrity-Seventh Asilomar Conference on Signals,Systems & Computers, 2003, 2003, vol. 2, no. 1, pp.1398–1402.[14] H. R. Wu, K. R. Rao, and A. A. Kassim, “Digital VideoImage Quality and Perceptual Coding,” Journal ofElectronic Imaging, vol. 16, no. 3, 2007.[15] Z. Wang and A. C. Bovik, “A universal image qualityindex,” IEEE Signal Processing Letters, vol. 9, no. 3,pp. 81–84, Mar. 2002.[16] Y. Shi, Y. Ding, R. Zhang, and J. Li, “Structure and HueSimilarity for Color Image Quality Assessment,” in 2009International Conference on Electronic ComputerTechnology, 2009, pp. 329–333.[17] W. B. Silva, A. A. P. Pohl, and K. V. O. Fonseca, “AReduced-Reference Video Quality Assessment Methodbased on the Activity-Di�erence of DCT Coe�cients,”IEICE Transactions on Information and Systems, vol. E96-D, no. 3, 2013.[18] P. Le Callet, C. Viard-Gaudin, and D. Barba, “A Convolutional Neural Network Approach for Objective Video Quality Assessment,” IEEE Transactions on Neural Networks, vol. 17, no. 5, pp. 1316–1327, 2006.[19] P. Le Callet and D. Barba, “Image Quality Assessment: From Sites Errors to a Global Appreciation of Quality,” in Proceedings of the Picture Coding Sympsium, 2001, pp. 105–108.[20] M. Miyahara, K. Kotani, and V. R. Algazi, “Objective picture quality scale (PQS) for image coding,” IEEE Transactions on Communications, vol. 46, no. 9, pp. 1215–1226, 1998.[21] M. Slanina, V. Ricny, and R. Forchheimer, “A Novel Metric for H.264/AVC No-Reference Quality Assessment,” in 14th International Workshop on Systems, Signals and Image Processing and 6th EURASIP Conference focused on Speech and Image Processing, Multimedia Communications and Services, 2007, pp. 114–117.[22] O. Sugimoto, S. Naito, S. Sakazawa, and A. Koike, “Objective perceptual video quality measurement method based on hybrid no reference framework,” in 16th IEEE International Conference on Image Processing (ICIP’09), 2009, pp. 2237–2240.[23] T. Oelbaum, C. Keimel, and K. Diepold, “Rule-Based No-Reference Video Quality Evaluation Using Additionally Coded Videos,” IEEE Journal of Selected Topics in Signal Processing, vol. 3, no. 2, pp. 294–303, 2009.[24] N. Staelens, N. Vercammen, Y. Dhondt, B. Vermeulen, P. Lambert, R. de Walle, and P. Demeester, “ViQID: A No-Reference bit stream-based visual quality impairment detector,” in Proceedings of the Second Int Quality of Multimedia Experience (QoMEX) Workshop, 2010, pp. 206–211.[25] F. Yang, S. Wan, Q. Xie, and H. R. Wu, “No-Reference Quality Assessment for Networked Video via Primary Analysis of Bit Stream,” IEEE Transactions on Circuits and Systems for Video Technology, vol. 20, no. 11, pp. 1544–1554, Nov. 2010.[26] Z. Wang, H. R. Sheikh, and A. C. Bovik, “Objective Video Quality Assessment,” in The Handbook of Video Databases: Design and Applications, B. Furht and O. Marques, Eds. Boca Raton, FL, USA: CRC Press, 2003, pp. 1041–1078.[27] W. B. da Silva and A. de A. P. Pohl, “Métodos Sem Referência Baseados em Características Espaço-Temporais para Avaliação Objetiva de Qualidade de Vídeo Digital,” Universidade Tecnológica Federal do Paraná (UTFPR), 2013.[28] G.-B. Huang, Q.-Y. Zhu, and C.-K. Siew, “Extreme learning machine: Theory and applications,” Neurocomputing, vol. 70, no. 1–3, pp. 489–501, Dec. 2006.[29] Z. Wang, H. R. Sheikh, and A. C. Bovik, “No-reference perceptual quality assessment of JPEG compressed images,” in Image Processing. 2002. Proceedings. IEEE International Conference on Image Processing, 2002, vol. 1, pp. vol.1 I–477 – I–480.[30] W. B. Silva and A. A. P. Pohl, “No-Reference Video Quality Assessment Method based on the Levenberg-Marquardt Minimization,” in XXX Brazilian Symposium on Telecommunications (SBrT’12), 2012.[31] ITU-T P.910, “Subjective video quality assessment methods for multimedia applications,” Standardization Sector of ITU, 1999.[32] W. Ding, Y. Tong, Q. Zhang, and D. Yang, “Image and Video Quality Assessment Using Neural Network and SVM,” Tsinghua Science &amp; Technology, vol. 13, no. 1, pp. 112–116, 2008.[33] K. S. Banerjee, C. R. Rao, and S. K. Mitra, “Generalized Inverse of Matrices and Its Applications,” Technometrics, vol. 15, no. 1, p. 197, Feb. 1973.[34] VQEG, “Final report from the video quality experts group on the validation of reduced-reference and no-reference objective models for standard de�nition television, Phase I,” 2009.[35] VQEG, “Report on the validation of video quality models for high de�nition video content,” 2010.[36] J. W. Tukey, Exploratory Data Analysis. New York: Addison-Wesley Publishing Company, 1977.[37] P. Gastaldo and R. Zunino, “Neural networks for the no-reference assessment of perceived quality,” J. Electronic Imaging, vol. 14, no. 3, p. 033004, 2005.[38] R. Herzog, M. Čadík, T. O. Aydın, K. I. Kim, K. Myszkowski, and H.-P. Seidel, “NoRM: No-Reference Image Quality Metric for Realistic Image Synthesis,” Comp. Graph. Forum, vol. 31, no. 2pt4, pp. 545–554, 2012.

Revista de Radiodifusão • v. 08 • n. 09 • 2014 23

Yuri Pontes Maciel, Cristiano Akamine, Gunnar Bedicks Jr.

Fig. 2. Diagrama de estados dos rádios digitais

2.1. Ambiente de desenvolvimento

A maior parte do processamento e desenvolvimento, como inserção de códigos corretores de erros, modulação, filtragem, aplicação de protocolos de segurança, executado pelo SDR é feito em software. Além disso, as ferramentas de software também servem para analisar as condições de transmissão ou recepção de sinais.

Como visto na figura 2 o SDR está em uma região onde é necessário trabalhar com altas frequências e GPPs, portanto é preferível usar um computador para executar o processamento do SDR.

Existem algumas ferramentas de software que são usadas para fazer a interface entre o processamento de dados, feito em software, e o hardware que compõem o SDR. Normalmente estas ferramentas são desenvolvidas para fazer a interface de modo transparente para o usuário desenvolvedor. A arquitetura Software Communications Architecture (SCA) é arquitetura mais usada. As ferramentas baseadas nela permitem a criação de projetos como uma ligação entre componentes, que são funções em software que realizam o processamentos de dados, e dispositivos lógicos, que são abstrações do hardware. A comunicação entre eles é feita usando Common Object Request Broker Architecture (CORBA). Está é uma arquitetura fechada, isto é não é um padrão aberto [11]. Entretanto existe o projeto Open-Source SCA Implementation Embedded (OSSIE) desenvolvido pela universidade Virginia Tech. O projeto OSSIE usa ferramentas de software baseadas no padrão SCA para desenvolver aplicações em SDR. Seus componentes podem ser escritos na linguagem C++ e este ambiente é executado em um sistema operacional (SO) Linux. [11,12,13]. Outras opções de ambientes para o desenvolvimento de projetos, para aplicações que

fazem uso do SDR, são o MATLAB/Simulink da empresa Mathworks [14] e o LabVIEW da empresa National Instruments [15]. O Simulink e o LabVIEW criam as aplicações como projetos gráficos que se assemelham a um fluxograma de dados, como na figura 3. A fonte e destino podem ser o hardware que compõe a plataforma de SDR ou algum arquivo que é armazenado no computador. Enquanto o processamento é feito em software em funções disponíveis nessas ferramentas, ou funções que podem ser escritas em outras linguagens de programação. A análise dos dados é feita também com recursos destas ferramentas. Entretanto como no caso do SCA, essas ferramentas não são gratuitas. Uma ferramenta de software gratuita que possibilita o desenvolvimento de aplicações para SDR é o projeto GNU Radio. Assim como o OSSIE este é um projeto open-source, no qual o usuário pode desenvolver aplicações para esse fim. Esta ferramenta foi criada e é mantida de forma gratuita por entusiastas da área.

Fig. 3. Exemplo simples de um fluxograma

Fonte de dados

Processamento

Destino

Análise de dados

Page 24: Revista de RADIODIFUSÃO - SET PORTAL · Sinais de TV Digital ISDB-Tb via VHF e UHF na Cidade do Gama – DF – Brasil Akamine, Cristiano Bedicks Jr, Gunnar ... cujas frequências

Revista de Radiodifusão • v. 08 • n. 09 • 2014

Nova Ferramenta de Desenvolvimento em Radiodifusão: Software Defined Radio.

24

As aplicações podem ser desenvolvidas usando a biblioteca de funções disponíveis, inclusive alterando seus códigos, ou criando novas funções baseadas nas linguagens de programação C, C++ ou Python, já que esta é uma ferramenta gratuita. Como no caso do OSSIE este ambiente é executado em um SO Linux para algumas distribuições específicas, como o Ubuntu.

Existem duas versões do GNU Radio onde o usuário desenvolvedor pode trabalhar, um ambiente por linhas de comando, e um ambiente gráfico, similar ao Simulink e LabVIEW, chamado de GNU Radio Companion [16].

3. SISTEMA BRASILEIRO DE TELEVISÃO DIGITAL

O sistema de televisão digital do Brasil tem o nome de Sistema Brasileiro de Televisão Digital (SBTVD) [17] o qual é baseado no sistema de televisão digital japonês Integrated Services Digital Broadcasting – Terrestrial (ISDB-T) [18].

A parte que diz respeito a codificação de canal, modulação e transmissão do SBTVD é feita como na figura 4 [17], que divide o sistema em diversos blocos, cada qual realiza algum processamento de dados.

Fig. 4. Codificação de canal e modulação do SBTVD

A codificação externa é realizada por um código do tipo Reed-Solomon. Já a codificação interna é um

código do tipo convolucional com taxa de puncionamento variável. As modulações podem ser do tipo: Quaternary Phase Shift Keying (QSPK), que pode ser também codificada diferencialmente e Quadrature Amplitude Modulation (QAM), com 16 ou 64 níveis. [17]. De modo geral a recepção de um sinal transmitido pelo SBTVD realiza os processos inversos aos mostrados na figura 4.

4. APLICAÇÕES DO SDR EM RADIODIFUSÃO

Este tópico apresenta alguns estudos, que desenvolveram protótipos em SDR de equipamentos de radiodifusão.

Em [19] um protótipo para recepção em tempo real de sinais do ISDB-T é desenvolvido usando GNU Radio e um hardware conhecido como USRP. Um algoritmo de recepção é criado em software, que realiza a maior parte do processamento necessário. Finalmente uma versão deste software para recepção de sinais parciais é aplicada e demonstrada em um sistema real.

Em [20] um modulador para o sistema DVB-T é desenvolvido nos princípios de software. Neste trabalho são apresentados alguns resultados que mostram a implementação de um modulador feito em software, escrito em C++ e Python, usando um computador pessoal como meio de processamento. A plataforma GNU Radio mais USRP também é usada.

Em [21] um receptor para o sistema DVB-C2 é criado em software, novamente um computador pessoal é usado como ambiente que hospeda o software responsável pelo processamento. Este receptor é capaz de lidar com decodificação de códigos corretores de erro do tipo Low Density Parity Check (LDPC) e trabalhar com constelações, por exemplo de 4096 QAM.

Um receptor para DVB-T2 é proposto e elaborado em [22], entretanto a plataforma usada é um conjunto formada por diferentes placas de circuitos impressos, de diferentes fabricantes, ao contrário do USPR que é desenvolvido por uma única empresa.

Em [23] um transceptor para sinais do tipo Orthogonal Frequency Division Multiplexing (OFDM) é elaborado. Nele os autores emulam uma cadeia de transmissão de sinais OFDM entre dois hardwares USRP, um como transmissor e outro como receptor. Um algoritmo para compensar erros de fase é desenvolvido. Os resultados qualitativos dos testes desta emulação também são mostrados.

Em [24] um método de avaliação para transmissão de sinais DVB-T usando SDR é proposto. Os algoritmos de transmissão do DVB-T são elaborados em C++ e executados em tempo real em um computador pessoal. Novamente a plataforma USRP é usada.

Um gap-filler cognitivo desenvolvido em uma plataforma de SDR é apresentado em [25]. Dois conjuntos formam o projeto apresentado, uma plataforma com o hardware USRP e o software GNU Radio e outro hardware USRP e o MATLAB. Ambas

Page 25: Revista de RADIODIFUSÃO - SET PORTAL · Sinais de TV Digital ISDB-Tb via VHF e UHF na Cidade do Gama – DF – Brasil Akamine, Cristiano Bedicks Jr, Gunnar ... cujas frequências

Revista de Radiodifusão • v. 08 • n. 09 • 2014 25

Yuri Pontes Maciel, Cristiano Akamine, Gunnar Bedicks Jr.

plataformas trabalham em conjunto para realizar o projeto.

Um estudo comparativo entre duas plataformas: GNU Radio e OSSIE é apresentado por [13].

Embora o conceito de SDR seja usado em grande parte para desenvolver protótipos de novos equipamentos, nada impede que seja usada para padrões de transmissão mais simples, como televisão analógica [26] e transmissão de sinais de frequência modulada [27].

O conceito de SDR também pode ser usado como uma nova ferramenta educacional em aulas de comunicações digitais, ou que envolvam alguns dos temas relacionadas ao SDR [1, 4, 28].

5. CONCLUSÃO

Este artigo apresentou alguns tópicos que definem

o rádio definido por software. Pode ser visto que esta nova forma de prototipagem se encaixa em um novo modelo que tem sido adotado para o desenvolvimento de alguns equipamentos relacionados a radiodifusão, embora a principio seja mais caro que outros métodos, com sua difusão os custos relacionados serão diminuídos, além do que a mesma plataforma pode ser usada para diferentes projetos.

REFERÊNCIAS

[1] A. L. G. Reis. et al, “Software defined radio on digital communications: A new teaching tool”, 13th Annual Wireless and Microwave Technology (WAMICON), IEEE. [S.l.:s.n], 2012.

[2] J. L. Shanton, “A Software Defined Radio Transformation”, Military Communications Conference (MILCOM, 2009), IEEE, [S.l.:s.n], 2009.

[3] M. Ettus, “Rádios Definidos por Software”, Palestra, Universidade Presbiteriana Mackenzie, São Paulo, Brasil, abril de 2013.

[4] J. Baranda; P. H. Y. Grunenberger; M. Nájar, “Prototyping with SDR: A quick way to play with next-gen communications systems”, 8th International Symposium on Wireless Communications Systems (ISWCS), pp.16-20, [S.l: s.n], 2011.

[5] J. Mitola, “The software radio architecture”, IEEE Communications Magazine, v.33, n.5, pp. 26-38, maio de 1995.

[6] A. Tribble, “The software defined radio: Fact and fiction”, Radio and Wireless Symposium, pp. 5-8, 2008 IEEE, [S.l.: s.n], 2008.

[7] J. Mitola, “Software radio architecture: a mathematical perspective”, IEEE Journal on Selected Areas in Communications, v.17, n.4, pp. 514-538, abril de 2009.

[8] M. N. O. Sadiku, C. M. Akujuobi, “Software-defined radio: a brief overview”, IEEE Potentials, v.24, n.4, pp. 14-15, outubro de 2004.

[9] A. A. Abid, “The Path to the Software-Defined Radio Receiver”, IEEE Journal of Solid-State Circuits, v.42, n.5, pp. 954-966, maio de 2007.

[10] F. Harris, W. Lowdermilk, “Software defined radio: Part 22 in a series of tutorials on instrumentation and measurement”, IEEE Instrumentation Measurement Magazine v.13, n. 1, pp. 23-32, fevereiro de 2010.

[11] T. Ulversøy, “Software Defined Radio: Challenges and Opportunities”, IEEE Communications Surveys & Tutorials, v.12, n.4, 2010.

[12] OSSIE SCA-Based Open Source Software Defined Radio, disponível em: <http://ossie.wireless.vt.edu/>.

[13] G. Abgrall, et. al, “A comparative study of two software defined radio platforms”, SDR’08 Technical Conference Product Exposition, outubro de 2008.

[14] Build software-defined radios (SDRs) with MATLAB, disponível em: <http://www.mathworks.com/discovery/sdr/>.

[15] National Instruments do Brasil, “Rádio Definido por Software com LabVIEW”, Conferência Tecnológica sobre Projeto Gráfico de Sistemas, São Paulo, Brasil, 2013.

[16] Welcome to GNU Radio!, disponível em: <http://gnuradio.org/redmine/projects/gnuradio/wiki>.

[17] Associação Brasileira de Normas Técnicas, “NBR 15601: Televisão digital terrestre: Sistema de transmissão”, Rio de Janeiro, Brasil, abril de 2008.

[18] Association of Radio Industries and Businesses, “ARIB STD-B31: Transmission System for Digital Terrestrial Television Broadcasting, Japão, julho de 2003.

[19] H. Sugano; R. Miyamoto; R. Okada, “Fully Software-based real time ISDB-T 1 segment receiver”, IEEE International Symposium on Broadband Multimedia Systems and Broadcasting (BMSB), 2011.

Page 26: Revista de RADIODIFUSÃO - SET PORTAL · Sinais de TV Digital ISDB-Tb via VHF e UHF na Cidade do Gama – DF – Brasil Akamine, Cristiano Bedicks Jr, Gunnar ... cujas frequências

Revista de Radiodifusão • v. 08 • n. 09 • 2014

Nova Ferramenta de Desenvolvimento em Radiodifusão: Software Defined Radio.

26

[20] V. Pellegrini; G. Bacci; M. Luise, “Soft-DVB: A Fully-Software GNURadio-based ETSI DVB-T Modulator”, 5th Karlsruhe Workshop on Software Radio (WSR’08), Karlsruhe, Alemanha, 2008.

[21] P. Hasse; J. Robert, “A software-based real-time DVB-C2 receiver”, IEEE International Symposium on Broadband Multimedia Systems and Broadcasting (BMSB), 2011.

[22] C. Kocks, et. al, “A DVB-T2 Receiver Realization based on a Software-Defined Radio Concept”, Proceeding of the 4th International Symposium on Communications, Control and Signal Processing (ISCCSP 2010), pp. 3-5, Limassol, Chipre, março de 2010.

[23] G. Berardinelli, et. al, “An SDR architecute for OFDM transmission over USRP2 boards” Conference on Signals, Systems and Computers (ASILOMAR 2011), Pacific Grove, EUA, novembro de 2011.

[24] G. Baruffa; L. Rugini; P. Banelli, “Desing and Validation of a Software Defined Radio Testbed for DVB-T Transmission”, Radioengineering, v. 23, n.1, pp. 387-398, abril de 2014.

[25] C. Rocha, et. al, Adaptive Gap Filler For Digital Terrestrial Television, IEEE International Symposium on Broadband Multimedia Systems and Broadcasting (BMSB), 2014.

[26] D. C. Tucker; G. A. Tagliarini, “Prototyping with GNU Radio and the USRP – where to begin”, pp. 50-54, IEEE SOUTHEASCON’09, 2009.

[27] M. Bruno, et. al, “Widely Tunable RF Transceiver Front End for Software-Defined Radio”, IEEE Military Communication Conference (MILCOM 2009), Boston, EUA, 2009.

[28] A. F. B. Selva, et. al, “Introduction to the Software-defined Radio Approach”, IEEE Latin America Transactions, v. 10, n.1, janeiro de 2012.

Page 27: Revista de RADIODIFUSÃO - SET PORTAL · Sinais de TV Digital ISDB-Tb via VHF e UHF na Cidade do Gama – DF – Brasil Akamine, Cristiano Bedicks Jr, Gunnar ... cujas frequências

Análise Comparativa de CaracterísticasTemporais de Vídeos Digitais

Eduardo [email protected]

Wyllian Bezerra da [email protected]

Keiko Verônica Ono [email protected]

Alexandre de Almeida Prado [email protected]

Revista de Radiodifusão • v. 08 • n. 09 • 2014 27

Page 28: Revista de RADIODIFUSÃO - SET PORTAL · Sinais de TV Digital ISDB-Tb via VHF e UHF na Cidade do Gama – DF – Brasil Akamine, Cristiano Bedicks Jr, Gunnar ... cujas frequências

MÉTRICA SEM REFERÊNCIA BASEADA EM REDES NEURAISPARA AVALIAÇÃO OBJETIVA DE QUALIDADE DE VÍDEO DIGITALWyllian Bezerra da Silva, Alexandre de Almeida Prado PohlPrograma de Pós-Graduação em Engenharia Elétrica e Informática Industrial (CPGEI) – UTFPR, Curitiba, [email protected], [email protected]: Este trabalho apresenta uma métrica sem referência para avaliação de qualidade de vídeo digital baseada em uma rede neural arti�cial que usa uma versão estendida do algoritmo de aprendizado ELM (Extreme Learning Machine). O método proposto realiza o treinamento da rede neural a partir de seis características espaço-temporais. Os resultados experimentais mostram que o método proposto apresenta desempenho superior às métricas de referência completa PSNR e MS-SSIM na tarefa de predição de qualidade de vídeo. Logo, o método proposto pode ser usado no monitoramento de qualidade em sistemas de transmissão e recepção de vídeo digital, tais como IPTV e TV digital.Palavras chave: algoritmo ELM, avaliação objetiva de vídeo, métrica sem referência, rede neural arti�cial.1. INTRODUÇÃODurante os últimos anos, a literatura tem apresentado um número crescente publicações acerca de métricas objetivas para avaliação de qualidade de vídeo para diversas aplicações em radiodifusão ou no processamento de vídeo digital, seja na aquisição do sinal, codi�cação e decodi�cação, compressão, transmissão, restauração, armazenamento, segmentação e exibição de sinais de vídeo digital [1–4]. A avaliação de qualidade de vídeo digital pode ser realizada por meio de métricas subjetiva e objetiva. A primeira requer uma grande quantidade de recursos humanos e apresenta elevado custo em sua implementação [1–3]. Porém, as métricas objetivas são vantajosas quando apresentam um determinado grau de correlação com as métricas subjetivas. Logo, o desenvolvimento destas é um desa�o no campo de avaliação de qualidade de vídeo e imagem. Além disso, as métricas objetivas, devido à natureza de seu critério objetivo, independem de interação humana e são facilmente reprodutíveis [3]. Dentre as métricas objetivas destacam-se as métricas sem referência (No-Reference – NR), pois não necessitam do vídeo de referência no cálculo de sua medida. Entretanto, estas requerem um conhecimento a priori sobre as distorções em vídeo digital para que seja estabelecida uma correlação com os resultados subjetivos [3].A maioria das métricas NR encontradas na literatura são baseadas na avaliação de qualidade de imagens e em características relacionadas ao Sistema Visual Humano (SVH). Assim, o desenvolvimento de métricas NR é difícil, devido à necessidade de emular a percepção do SVH que envolve aspectos cognitivos, emocionais e estéticos relacionados ao conteúdo do vídeo e que são altamente dependentes do observador [4], [5].A literatura reporta diversos esforços no desenvolvimento de métricas para avaliação de qualidade de vídeo baseadas em redes neurais e em algoritmos de aprendizado. Babu et al. [6] apresentam uma métrica para avaliar a qualidade de imagens comprimidas em JPEG (Joint Photographic Experts Group) por meio de um algoritmo de aprendizado de crescimento e propõem o uso de uma rede neural GAP-RBF (Growing and Pruning Radial Basis Function) que usa características relacionadas ao SVH. Jiang et al. [7] desenvolveram uma métrica NR para avaliação de qualidade de vídeo em HD (High De�nition) baseada em uma rede neural treinada pelo algoritmo BP (Back-Propagation) que usa seis características espaço-temporais e a RoI (Region of Interest). Choe et al. [8] desenvolveram uma métrica NR baseada no �uxo de bits para avaliação de qualidade de vídeo codi�cado em H.264. Esta métrica extrai características quadro a quadro e usa uma rede neural alimentada adiante (feedforward) com três camadas. Suresh et al. [9] apresentaram uma extensão do algoritmo ELM na tarefa de avaliar a qualidade de imagens comprimidas em JPEG com base no esquema de seleção múltipla KS-ELM (K-fold selection Scheme using ELM) e no algoritmo RCGA-ELM (Real-Coded Genetic Algorithm using ELM) para seleção dos pesos de entrada e polarizações.Este trabalho apresenta uma versão estendida do algoritmo ELM para redes neurais SLFN (Single-hidden-Layer Feedforward Neural Networks) que implementa um simples critério de parada na fase de treinamento. Além disso, esse método usa seis características espaço-temporais de vídeos submetidos a diversas condições de distorção.Este artigo está dividido da seguinte maneira: a Seção 2 descreve as métricas para avaliação de qualidade de vídeo. A Seção 3 descreve o método NR proposto para avalição de qualidade de vídeo digital. A Seção 4 apresenta os resultados experimentais, em que são comparados o método NR proposto e duas métricas FR. Finalmente, a Seção 5 apresenta a conclusão do artigo.2. AVALIAÇÃO DE QUALIDADE DE VÍDEOO processo de avaliação de qualidade de vídeopode ser realizado com a aplicação de métricassubjetivas ou objetivas. As métricas subjetivasestimam a qualidade do vídeo por meio de avaliadoreshumanos. Logo, exigem um alto custo, poisnecessitam de uma grande quantidade de recursoshumanos e apresentam problemas quanto aosrequisitos de imparcialidade e reprodutibilidade,tornando-se inapropriadas em sistemas deradiodifusão ou em provedores de conteúdo [10], [11].Por outro lado, as métricas objetivas são baseadas emmodelos matemáticos, cujo objetivo é produzir umescore de qualidade que emule a percepção do SVH.Além disso, as métricas objetivas requerem baixocusto de implementação (quando comparadas com asmétricas subjetivas) e não apresentam problemasquanto à reprodutibilidade e imparcialidade.As métricas objetivas para avaliação de qualidadede vídeo podem ser classi�cadas em três categorias:(i) métricas de referência completa (Full-Reference –FR); (ii) métricas de referência reduzida (Reduced-Reference – RR); (iii) métricas sem referência (NR).2.1. Métricas FRAs métricas FR requerem o vídeo de referência(fonte) no cálculo do escore de qualidade. Estasmétricas são amplamente utilizadas no processo devalidação de métricas RR ou NR, por meio dacomparação de desempenho de�nida pelasrecomendações do Grupo de Especialistas emQualidade de Vídeo (VQEG – Video Quality ExpertsGroup) que é um órgão de padronização internacionalde métricas subjetivas e objetivas de qualidade devídeo. Dentre as métricas FR, destacam-se o PSNR(Peak Signal-to-Noise Ratio), SSIM (StructuralSIMilarity index) [12] e MS-SSIM (Multi-ScaleStructural SIMilarity index) [13].O PSNR é uma métrica FR baseada no erro pixel apixel de fácil implementação. Entretanto, apresentabaixa correlação com o SVH [14]. A sua medida éprocessada sobre o erro quadro a quadro, i.e., entre oquadro original x e o quadro y . A expressão a seguirde�ne o PSNR para um conjunto de quadros F .2011PSNR 20log ,Fff fvF � MSE� �� � �� �� ��(1)com� � � �20 01MSE , , , , ,N Mfi jx f i j y f i jNM � �� ���� � ��(2)em que o termo f v é igual a (2 1) k � , cujo k é onúmero de bits por pixel, i.e., é a componente deluminância do quadro f . Os termos x �f ,i, j � ey �f ,i, j � são os valores de luminância do quadro deorigem e degradado, respectivamente. Ascomponentes bidimensionais são representadas pelonúmero de colunas N e pelo número de linhas M . Otermo f MSE é de�nido como erro quadrático médioou MSE (Mean Square Error).A métrica SSIM baseia-se no fato de que o SVH éfortemente adaptado para extrair informações dascaracterísticas estruturais de um quadro ou imagem.Logo, uma medida de similaridade estrutural (oudistorção) pode prover boa aproximação para aqualidade perceptual de um vídeo [3, 7–9]. Sejam x ey dois sinais não-negativos, em que y é o sinaldegradado e x é o sinal original (sem perda dequalidade), a medida de similaridade é utilizada comoum índice quantitativo de qualidade do sinal distorcido,ou seja, x é tomado como a referência para medir aqualidade de y . A métrica SSIM possui diversasextensões, dentre as quais a versão MS-SSIM,proposta por Wang et al. [13] que assume umaabordagem multiescalar.2.2. Métricas RRAs métricas de referência reduzida retiram certaquantidade de características do vídeo original (fonte),baseadas em componentes espaciais, temporais, nodomínio da frequência ou no �uxo de bits (bitstream).Este tipo de métrica é amplamente utilizada nomonitoramento de transmissões em rede [17]. Nestetipo de cenário de aplicação, o vídeo é transmitidocom uma sequência de informação codi�cada(overhead) e no lado receptor ocorre a suadecodi�cação, seguido pelo cálculo do índice dequalidade, o qual é obtido por meio da comparaçãoentre a representação reduzida da informação nospares emissor e receptor [18]. Tipicamente, métricasRR são implementadas por meio de funções, divididasem duas etapas [19]: (i) cálculo do erro entre osvídeos original e distorcido, constituído pela diferençade suas características, a �m de compor arepresentação reduzida da informação; (ii) função queagrupa os erros ou diferenças para obter um índice dequalidade global. Algumas métricas RR explorampropriedades dos artefatos, por meio da extração decaracterísticas e um modelo de parametrização [20]com foco em tipos especí�cos de distorções(artefatos). Esta abordagem é encontrada em Silva etal. [17], cujo cálculo do escore de qualidade ébaseado na diferença de atividade dos coe�cientesDCT (Discrete Cosine Transform) em um macro blococom resolução de 16�16 pixels.2.3. Métricas NRAs métricas NR extraem característicasrelacionadas ao SVH do vídeo distorcido, i.e., narecepção do sinal de vídeo [14]. Tipicamente, há duasabordagens no desenvolvimento destas métricas: (i)extração dos parâmetros sobre o �uxo de bits, taiscomo a taxa de compressão, informaçõesrelacionadas ao GoP (Group of Pictures), estimaçãode movimento, per�l e nível de codi�cação, bem comoo parâmetro de quantização ou QP (QuantizationParameter) [21–25]. Métricas NR apresentam maiorcomplexidade quando são aplicadas em vídeo, devidoà variação temporal dos quadros, conteúdos dascenas e à di�culdade de compreensão dascaracterísticas do SVH [26]. Assim, algumas métricasdessa categoria exploram características espaciais etemporais na estimação de qualidade de vídeo [21].3. MÉTODO PROPOSTOO método proposto, denominado NRVQA-ELMtc(No-Reference Video Quality Assessment usingExtreme Learning Machine algorithm with terminationcriteria) [27] combina características espaciais etemporais, por meio de uma rede neural arti�cialSLFNs usando o algoritmo de treinamento ELM [28]com a implementação de um simples critério deparada.3.1. Características espaço-temporaisAs características espaciais incorporadas nométodo proposto são baseadas em medidas deartefatos em vídeo digital, i.e., distorções de blocageme borramento desenvolvidas por Wang et al. [20].Assim, a componente de luminância do quadro f érepresentada por y(f , i, j ) com i � ��1,M�� e j � ��1, N�� ,em que M e N são os números de linhas e colunas,respectivamente, de um quadro. Logo, as diferençasde luminância ao longo das linhas e colunas sãorepresentadas, respectivamente, pelas expressões aseguir.� � � � � � � �� � � � � � � �, , , , 1 , , , 1, 1 ,, , , 1, , , , 1, 1 .hvd f i j y f i j y f i j j Nd f i j y f i j y f i j i M� � � � �� � � � �(3)O efeito de blocagem pode ser estimado pelamédia das diferenças entre as bordas dos blocos daDCT (Discrete Cosine Transform) nas direçõeshorizontal e vertical para uma sequência F dequadros, conforme mostra a Equação (4), com ummacrobloco de dimensão � �� , cujo tamanho típico éde � � 8 [20].� � ��� � � �111 1 1111 1 11, , 1 ,111, 1 , .11NF Mh hf i jMF Nvi jvfB d f i jNF MB d f i jMF N��������� � ���� � �� �� �� � � �� � �� �� �� � � �� � �� � �� � �(4)A medida de blocagem em uma sequência devídeo com F quadros é determinada pela média entreh B e v B , caracterizando a medida B , conforme aexpressão a seguir..2h v B BB�� (5)Os efeitos de borramento são estimados pelocálculo da redução de atividade entre os blocos � �� ,em que é usada a medida de blocagem nas direçõeshorizontal e vertical, conforme as expressões� � � �� �� � � �� �11 1 111 1 1, , ,1 1, ,1.1F M Nh h hf i jF M Nv vfvi jA d f i j BF M NA d f i j BF N M������ � ��� � �� �� � �� �� � �� � �� � �(6)A medida de borramento, representada por A ,conforme a Equação (7), é determinada pela médiaentre h A e v A ..2h v A AA�� (7)O segundo fator que contribui para a detecção doartefato de borramento é baseado na taxa decruzamento por zero (Zero Crossing – ZC) nasdireções horizontal e vertical, conforme as expressõesa seguir.� �� �� �� �21 1 121 1 11, , ,21, , ,2F M Nh hf i jF M Nv vf i jZ z f i jF M NZ z f i jF N M�� � ��� � ��� ��� �� � �� � �(8)em que os termos h z e v z são determinados por� �� �1, na direção horizontal, , ,0, caso contrário1, na direção vertical, , .0, caso contráriohvz f i jz f i j�� �� �� ��(9)Assim, a medida de borramento Z é determinadapela média entre as componentes h Z e v Z ..2h v Z ZZ�� (10)O método proposto também incorpora trêscaracterísticas temporais no treinamento da redeneural SLFN com o algoritmo ELM.A primeira característica temporal é a diferença demovimento entre quadros adjacentes, representadapela variável TI (Temporal perceptual Information) [31]que considera os valores de luminância de pixelslocalizados em uma mesma região de um quadro,conforme a expressão a seguir.� �21, , ,1FfTI m f i jF��� �� �� �� (11)em que o número total de quadros é F e � �m�f ,i, j ��� �é o desvio padrão da diferença de movimento(diferença de luminância) entre o quadro atualy �f ,i, j � e o quadro anterior y �f �1,i, j � .A segunda característica temporal é a média dadiferença absoluta (Mean Absolute Di�erence – MAD)[31] entre quadros sucessivos, representada pelaEquação (12) que de�ne a medida global da MADpara todos os quadros de um vídeo.� �� � � �2 1 11, , 1, , .1F M Nf i jMAD y f i j y f i jM N F � � �� � �� �� � �(12)A terceira característica temporal é a média dadiferença absoluta ponderada (weighted MeanAbsolute Di�erence – MADw) [32], a qual mede o graude variação das cenas de um vídeo que considera acena atual de um quadro f e do quadro anterior f �1,conforme a expressão:2 11.1Fff fMADMADwF � MAD �� �� � �� � ��(13)Assim, o método proposto combina ascaracterísticas espaciais e temporais em uma matriz� , , , , , � f f f f f f f x � A B Z TI MAD MADw , em que f é onúmero de amostras de vídeo. A Figura 1 apresentaas características temporais � espaciais de dezessetebases de dados de vídeos (denominada superconjuntoS) usadas neste trabalho e reportadas em [27]. Arecomendação ITU-T P.910 [31] de�ne a medida SI(Spatial perceptual Information) como informaçãoespacial perceptual. A inspeção visual dessa �guramostra que as amostras de vídeo usadas nestetrabalho apresentam uma grande variação espaçotemporal.Fig. 1. Características espaciais e temporais do superconjuntoS com 216 amostras de referência3.2. Métrica NRVQA-ELMtcO algoritmo ELM [28] desenvolvido para otreinamento de uma rede SLFN atribui pesos epolarizações (biases) de maneira aleatória, segundouma distribuição uniforme. O treinamento compreendeN amostras distintas representadas pela variável�� , � , , 1, , � n mf f f f � � x t x � t � f � N , cujo cálculo éconforme a expressão� � � �1, 1, , ,KK i j j f j fff � g b f N�x � � w x � � o � (14)em que f o é a saída (escore objetivo), g(x) é afunção de ativação e j � é o peso que conecta o jésimoneurônio da camada oculta ao neurônio desaída. De acordo com [28], uma rede SLFN com Knós na camada oculta e uma função de ativação g(x)pode apresentar um erro médio próximo de zero, i.e.,10Kf ff �� o � t � . Logo, há parâmetros j � , j w e j b talque� �1, 1, , ,Kj j f j ff� g b f N�� w x � � t � (15)em que f t é o vetor alvo (escores subjetivos),T1, , j j jn � �w w � � � w é o vetor de peso que conecta o jésimoneurônio da camada oculta ao neurônio dacamada de entrada, j b denota a polarização (bias) doj-ésimo neurônio da camada oculta, � � j f w x é oproduto interno de j w e f x . A Figura 2 ilustra oalgoritmo ELM empregado em uma arquitetura derede neural SLFN.xi1βjN1jKtibjN input neuron K hidden neuron output neuronβ1βKwjFig. 2. Arquitetura de uma rede neural SLFN usando algoritmode treinamento ELMO sistema linear da Equação (16) resume o métododo algoritmo ELM.Hβ � T, (16)em que a matriz da camada oculta é representada por� � � 1, , and 1, , � � H � h f � N j � K com a primeiralinha da matriz de características f x igual aT1 2 , , , f f f fn x � ��x x x �� , i.e., a primeira linha é igual a� � 1 1 1 1 1 1 1 , , , , , f f f f f f f x � A B Z TI MAD MADw . A matriz desaída e o vetor alvo (target) são de�nidos comoT1 , K β � ��β β �� eT1, , N T � ��t t �� , respectivamente. Otermo � �T1 , 1, , j jm j � � � j � K � � β β β denota o vetor depeso que conecta o j-ésimo neurônio da camadaoculta e os neurônios de saída. Hung et al. [28]propuseram a atribuição aleatória de pesos aosparâmetros j w e j b , a �m de seja obtido um pequenoerro não-nulo durante o treinamento. Considerando osistema linear da Equação (17), os pesos da camadade saída podem ser aproximados por† β � H T (17)em que † H é de�nida como matriz inversageneralizada de Moore-Penrose (MP) [33] da matrizde saída da camada oculta �H� . Além disso, oconjunto de treinamento � , nó oculta K e umafunção de ativação g �x � , e.g., função de base radial(Radial Basis Function – RBF), hard-limiting (hardlim),sigmoidal (sig) e seno (sin). Em resumo, o algoritmoELM compreende três etapas [28]:i) Atribuição aleatória dos pesos de entrada j w epolarizações j b ;ii) Cálculo da matriz da camada de saída H ;iii) Cálculo dos pesos de saída † β: β� H T .O método NRVQA-ELMtc [27] implementa umsimples critério de parada no treinamento da redeneural SLFN, quanto à atribuição aleatória dos pesosj w e j b . Embora este critério não seja direcionado,busca os pesos relacionados com o menor RMSE(Root-Mean-Square Error) entre a saída desejada(escore subjetivo) e o escore objetivo na fase detreinamento com k iterações (tipicamente, k � 100 ) eN neurônios na camada oculta. Além disso, conformeestudo realizado em [27], caso o RMSE seja menor doque 0,5 o algoritmo cessa a busca pelos parâmetrosj w e j b .4. RESULTADOS EXPERIMENTAISEsta seção apresenta os resultados de acurácia,i.e., os coe�cientes de correlação linear de Pearson(Pearson Linear Correlation Coe�cient – PLCC) [34],[35], entre os escores objetivos e subjetivos de 2627amostras de vídeo estudadas em [27].A Figura 3 compara a acurácia (PLCC) entre asmétricas de referência completa (FR) PSNR e MSSSIMcom o método proposto (NRVQA-ELMtc) paraas 2627 amostras de vídeo, pertencentes a 17 basesde dados de vídeo disponibilizadas por diversasinstituições e laboratórios [27]. A função de ativaçãousada na rede neural SLFN foi o seno (sin) com onúmero de amostras de teste igual ao número deneurônios na camada oculta ( N ). O método devalidação cruzada múltipla (K-fold) foi usado com oobjetivo de gerar uma distribuição de acurácia, a qualfoi analisada por meio do diagrama de caixa (box-plot)[36], em que o traço, o círculo e o quadrado, ambosem vermelho, representam a mediana, a média e odesvio padrão, respectivamente. Destaca-se queneste trabalho foi empregada uma validação cruzadacom um grande número de amostras de treinamentotestecom K � 100 , i.e., cada caixa do box-plotcomporta 100 experimentos distintos. Tipicamente, aliteratura apresenta trabalhos no campo da avaliaçãoFig. 3. Box-plot da predição da acurácia (PLCC) entre as métricas PSNR, MS-SSIM e o método proposto NRVQA-ELMtcde qualidade de vídeo com K entre 5 e 10 [37], [38].Pela inspeção visual da Figura 3 observa-se que odesempenho do método proposto é superior àsmétricas FR, em quaisquer condições de teste, i.e.,para qualquer quantidade de amostras de teste(número de neurônios na camada oculta) entre 25 e500. Em especial, para N � 50 , o método propostoapresenta valores de PLCC, em termos da média emediana, acima de 0,8, denotando uma forteassociação entre os escores objetivos e subjetivos, natarefa de predição de qualidade de vídeo. Isto ocorredevido à grande quantidade de amostras de vídeousadas no treinamento, e.g., para N � 300 foramusadas 2327 amostras de treinamento, ou seja,mesmo usando pares de treinamento-teste disjuntos,o método proposto mostra uma acurácia superior àsmétricas de referência completa. A assimetria positiva,i.e., a maior concentração da acurácia entre osegundo quartil (mediana) e o terceiro quartil, nadistribuição do box-plot nos testes com 300 e 500neurônios na camada oculta, indica que o métodoproposto apresenta um desempenho expressivo emcomparação com as métricas FR.Entretanto, mesmo para N entre 25 e 50, ométodo proposto apresentou uma acurácia maior doque as métricas FR, cujo melhor resultado foi paraN � 25 com o desvio-quartil (amplitude interquartílica)con�nado entre 0,65 e 0,8. Além disso, este resultadotambém apresentou assimetria positiva com a médiado PLCC em torno de 0,75.5. CONCLUSÃOEste trabalho apresentou uma métrica NR baseadaem uma rede neural arti�cial SLFN, cujo treinamento édeterminado pelo algoritmo ELM, o qual consideracaracterísticas espaço-temporais e os escoressubjetivos (alvos) extraídos de 2627 amostrastreinamento. Além disso, este trabalho propõe umaextensão do algoritmo ELM por meio de um simplescritério de parada, a �m de que sejam obtidosparâmetros da rede neural arti�cial relacionados como menor RMSE. Tipicamente, a comparação entremétricas FR e NR é injusta, devido à ausência dovídeo de referência na obtenção do escore dequalidade em métricas NR. Entretanto, os resultadosexperimentais mostram que o método propostoapresentou desempenho superior às métricas dereferência completa PSNR e MS-SSIM, sobretudo,quando o número de amostras de teste e de neurôniosna camada oculta da rede SLFN é maior do que 250.Logo, a métrica NRVQA-ELMtc pode ser empregadano monitoramento de qualidade em sistemas detransmissão e recepção de vídeo digital, tais comoIPTV (Internet Protocol Television), TV digital ou emdispositivos móveis, tais como ultrabooks,smartphones, tablets e em aparelhos WiDi (WirelessDisplay).REFERÊNCIAS[1] S. Winkler, “Issues in vision modeling for perceptualvideo quality assessment,” Signal Processing, vol. 78,no. 2, pp. 231–252, 1999.[2] Z. Wang and A. C. Bovik, Modern image qualityassessment. San Rafael, CA: Morgan & Claypool,2006.[3] W. Lin and C.-C. Jay Kuo, “Perceptual visual qualitymetrics: A survey,” Journal of Visual Communicationand Image Representation, vol. 22, no. 4, pp. 297–312,May 2011.[4] S. S. Hemami and A. R. Reibman, “No-reference imageand video quality estimation: Applications and humanmotivateddesign,” Signal Processing: ImageCommunication, vol. 25, no. 7, pp. 469–481, 2010.[5] Z. Wang and A. Bovik, “Reduced- and No-ReferenceImage Quality Assessment,” IEEE Signal ProcessingMagazine, vol. 28, no. 6, pp. 29–40, Nov. 2011.[6] R. V. Babu, S. Suresh, and A. Perkis, “No-referenceJPEG-image quality assessment using GAP-RBF,”Signal Processing, vol. 87, no. 6, pp. 1493–1503, 2007.[7] X. Jiang, F. Meng, J. Xu, and W. Zhou, “No-ReferencePerceptual Video Quality Measurement for HighDe�nition Videos Based on an Arti�cial NeuralNetwork,” in Computer and Electrical Engineering,2008. ICCEE 2008. International Conference on, 2008,pp. 424–427.[8] J. Choe, K. Lee, C. Lee, and S. Korea, “No-referencevideo quality measurement using neural networks,” in2009 16th International Conference on Digital SignalProcessing, 2009, pp. 1–4.[9] S. Suresh, R. Venkatesh Babu, and H. J. Kim, “Noreferenceimage quality assessment using modi�edextreme learning machine classi�er,” Applied SoftComputing, vol. 9, no. 2, pp. 541–552, Mar. 2009.[10] A. M. Eskicioglu and P. S. Fisher, “Image qualitymeasures and their performance,” IEEE Transactionson Communications, vol. 43, no. 12, pp. 2959–2965,1995.[11] U. Engelke and H.-J. Zepernick, “Perceptual-basedQuality Metrics for Image and Video Services: ASurvey,” in Proceedings EuroNGI Conf. NextGeneration Internet Networks, 2007, pp. 190–197.[12] Z. Wang, A. C. Bovik, H. R. Sheikh, and E. PSimoncelli, “Image quality assessment: from errorvisibility to structural similarity.,” IEEE Transactions onImage Processing, vol. 13, no. 4, pp. 600–612, 2004.[13] Z. Wang, E. P. Simoncelli, and A. C. Bovik, “Multiscalestructural similarity for image quality assessment,” inThe Thrity-Seventh Asilomar Conference on Signals,Systems & Computers, 2003, 2003, vol. 2, no. 1, pp.1398–1402.[14] H. R. Wu, K. R. Rao, and A. A. Kassim, “Digital VideoImage Quality and Perceptual Coding,” Journal ofElectronic Imaging, vol. 16, no. 3, 2007.[15] Z. Wang and A. C. Bovik, “A universal image qualityindex,” IEEE Signal Processing Letters, vol. 9, no. 3,pp. 81–84, Mar. 2002.[16] Y. Shi, Y. Ding, R. Zhang, and J. Li, “Structure and HueSimilarity for Color Image Quality Assessment,” in 2009International Conference on Electronic ComputerTechnology, 2009, pp. 329–333.[17] W. B. Silva, A. A. P. Pohl, and K. V. O. Fonseca, “AReduced-Reference Video Quality Assessment Methodbased on the Activity-Di�erence of DCT Coe�cients,”IEICE Transactions on Information and Systems, vol. E96-D, no. 3, 2013.[18] P. Le Callet, C. Viard-Gaudin, and D. Barba, “A Convolutional Neural Network Approach for Objective Video Quality Assessment,” IEEE Transactions on Neural Networks, vol. 17, no. 5, pp. 1316–1327, 2006.[19] P. Le Callet and D. Barba, “Image Quality Assessment: From Sites Errors to a Global Appreciation of Quality,” in Proceedings of the Picture Coding Sympsium, 2001, pp. 105–108.[20] M. Miyahara, K. Kotani, and V. R. Algazi, “Objective picture quality scale (PQS) for image coding,” IEEE Transactions on Communications, vol. 46, no. 9, pp. 1215–1226, 1998.[21] M. Slanina, V. Ricny, and R. Forchheimer, “A Novel Metric for H.264/AVC No-Reference Quality Assessment,” in 14th International Workshop on Systems, Signals and Image Processing and 6th EURASIP Conference focused on Speech and Image Processing, Multimedia Communications and Services, 2007, pp. 114–117.[22] O. Sugimoto, S. Naito, S. Sakazawa, and A. Koike, “Objective perceptual video quality measurement method based on hybrid no reference framework,” in 16th IEEE International Conference on Image Processing (ICIP’09), 2009, pp. 2237–2240.[23] T. Oelbaum, C. Keimel, and K. Diepold, “Rule-Based No-Reference Video Quality Evaluation Using Additionally Coded Videos,” IEEE Journal of Selected Topics in Signal Processing, vol. 3, no. 2, pp. 294–303, 2009.[24] N. Staelens, N. Vercammen, Y. Dhondt, B. Vermeulen, P. Lambert, R. de Walle, and P. Demeester, “ViQID: A No-Reference bit stream-based visual quality impairment detector,” in Proceedings of the Second Int Quality of Multimedia Experience (QoMEX) Workshop, 2010, pp. 206–211.[25] F. Yang, S. Wan, Q. Xie, and H. R. Wu, “No-Reference Quality Assessment for Networked Video via Primary Analysis of Bit Stream,” IEEE Transactions on Circuits and Systems for Video Technology, vol. 20, no. 11, pp. 1544–1554, Nov. 2010.[26] Z. Wang, H. R. Sheikh, and A. C. Bovik, “Objective Video Quality Assessment,” in The Handbook of Video Databases: Design and Applications, B. Furht and O. Marques, Eds. Boca Raton, FL, USA: CRC Press, 2003, pp. 1041–1078.[27] W. B. da Silva and A. de A. P. Pohl, “Métodos Sem Referência Baseados em Características Espaço-Temporais para Avaliação Objetiva de Qualidade de Vídeo Digital,” Universidade Tecnológica Federal do Paraná (UTFPR), 2013.[28] G.-B. Huang, Q.-Y. Zhu, and C.-K. Siew, “Extreme learning machine: Theory and applications,” Neurocomputing, vol. 70, no. 1–3, pp. 489–501, Dec. 2006.[29] Z. Wang, H. R. Sheikh, and A. C. Bovik, “No-reference perceptual quality assessment of JPEG compressed images,” in Image Processing. 2002. Proceedings. IEEE International Conference on Image Processing, 2002, vol. 1, pp. vol.1 I–477 – I–480.[30] W. B. Silva and A. A. P. Pohl, “No-Reference Video Quality Assessment Method based on the Levenberg-Marquardt Minimization,” in XXX Brazilian Symposium on Telecommunications (SBrT’12), 2012.[31] ITU-T P.910, “Subjective video quality assessment methods for multimedia applications,” Standardization Sector of ITU, 1999.[32] W. Ding, Y. Tong, Q. Zhang, and D. Yang, “Image and Video Quality Assessment Using Neural Network and SVM,” Tsinghua Science &amp; Technology, vol. 13, no. 1, pp. 112–116, 2008.[33] K. S. Banerjee, C. R. Rao, and S. K. Mitra, “Generalized Inverse of Matrices and Its Applications,” Technometrics, vol. 15, no. 1, p. 197, Feb. 1973.[34] VQEG, “Final report from the video quality experts group on the validation of reduced-reference and no-reference objective models for standard de�nition television, Phase I,” 2009.[35] VQEG, “Report on the validation of video quality models for high de�nition video content,” 2010.[36] J. W. Tukey, Exploratory Data Analysis. New York: Addison-Wesley Publishing Company, 1977.[37] P. Gastaldo and R. Zunino, “Neural networks for the no-reference assessment of perceived quality,” J. Electronic Imaging, vol. 14, no. 3, p. 033004, 2005.[38] R. Herzog, M. Čadík, T. O. Aydın, K. I. Kim, K. Myszkowski, and H.-P. Seidel, “NoRM: No-Reference Image Quality Metric for Realistic Image Synthesis,” Comp. Graph. Forum, vol. 31, no. 2pt4, pp. 545–554, 2012.

MÉTRICA SEM REFERÊNCIA BASEADA EM REDES NEURAISPARA AVALIAÇÃO OBJETIVA DE QUALIDADE DE VÍDEO DIGITALWyllian Bezerra da Silva, Alexandre de Almeida Prado PohlPrograma de Pós-Graduação em Engenharia Elétrica e Informática Industrial (CPGEI) – UTFPR, Curitiba, [email protected], [email protected]: Este trabalho apresenta uma métrica sem referência para avaliação de qualidade de vídeo digital baseada em uma rede neural arti�cial que usa uma versão estendida do algoritmo de aprendizado ELM (Extreme Learning Machine). O método proposto realiza o treinamento da rede neural a partir de seis características espaço-temporais. Os resultados experimentais mostram que o método proposto apresenta desempenho superior às métricas de referência completa PSNR e MS-SSIM na tarefa de predição de qualidade de vídeo. Logo, o método proposto pode ser usado no monitoramento de qualidade em sistemas de transmissão e recepção de vídeo digital, tais como IPTV e TV digital.Palavras chave: algoritmo ELM, avaliação objetiva de vídeo, métrica sem referência, rede neural arti�cial.1. INTRODUÇÃODurante os últimos anos, a literatura tem apresentado um número crescente publicações acerca de métricas objetivas para avaliação de qualidade de vídeo para diversas aplicações em radiodifusão ou no processamento de vídeo digital, seja na aquisição do sinal, codi�cação e decodi�cação, compressão, transmissão, restauração, armazenamento, segmentação e exibição de sinais de vídeo digital [1–4]. A avaliação de qualidade de vídeo digital pode ser realizada por meio de métricas subjetiva e objetiva. A primeira requer uma grande quantidade de recursos humanos e apresenta elevado custo em sua implementação [1–3]. Porém, as métricas objetivas são vantajosas quando apresentam um determinado grau de correlação com as métricas subjetivas. Logo, o desenvolvimento destas é um desa�o no campo de avaliação de qualidade de vídeo e imagem. Além disso, as métricas objetivas, devido à natureza de seu critério objetivo, independem de interação humana e são facilmente reprodutíveis [3]. Dentre as métricas objetivas destacam-se as métricas sem referência (No-Reference – NR), pois não necessitam do vídeo de referência no cálculo de sua medida. Entretanto, estas requerem um conhecimento a priori sobre as distorções em vídeo digital para que seja estabelecida uma correlação com os resultados subjetivos [3].A maioria das métricas NR encontradas na literatura são baseadas na avaliação de qualidade de imagens e em características relacionadas ao Sistema Visual Humano (SVH). Assim, o desenvolvimento de métricas NR é difícil, devido à necessidade de emular a percepção do SVH que envolve aspectos cognitivos, emocionais e estéticos relacionados ao conteúdo do vídeo e que são altamente dependentes do observador [4], [5].A literatura reporta diversos esforços no desenvolvimento de métricas para avaliação de qualidade de vídeo baseadas em redes neurais e em algoritmos de aprendizado. Babu et al. [6] apresentam uma métrica para avaliar a qualidade de imagens comprimidas em JPEG (Joint Photographic Experts Group) por meio de um algoritmo de aprendizado de crescimento e propõem o uso de uma rede neural GAP-RBF (Growing and Pruning Radial Basis Function) que usa características relacionadas ao SVH. Jiang et al. [7] desenvolveram uma métrica NR para avaliação de qualidade de vídeo em HD (High De�nition) baseada em uma rede neural treinada pelo algoritmo BP (Back-Propagation) que usa seis características espaço-temporais e a RoI (Region of Interest). Choe et al. [8] desenvolveram uma métrica NR baseada no �uxo de bits para avaliação de qualidade de vídeo codi�cado em H.264. Esta métrica extrai características quadro a quadro e usa uma rede neural alimentada adiante (feedforward) com três camadas. Suresh et al. [9] apresentaram uma extensão do algoritmo ELM na tarefa de avaliar a qualidade de imagens comprimidas em JPEG com base no esquema de seleção múltipla KS-ELM (K-fold selection Scheme using ELM) e no algoritmo RCGA-ELM (Real-Coded Genetic Algorithm using ELM) para seleção dos pesos de entrada e polarizações.Este trabalho apresenta uma versão estendida do algoritmo ELM para redes neurais SLFN (Single-hidden-Layer Feedforward Neural Networks) que implementa um simples critério de parada na fase de treinamento. Além disso, esse método usa seis características espaço-temporais de vídeos submetidos a diversas condições de distorção.Este artigo está dividido da seguinte maneira: a Seção 2 descreve as métricas para avaliação de qualidade de vídeo. A Seção 3 descreve o método NR proposto para avalição de qualidade de vídeo digital. A Seção 4 apresenta os resultados experimentais, em que são comparados o método NR proposto e duas métricas FR. Finalmente, a Seção 5 apresenta a conclusão do artigo.2. AVALIAÇÃO DE QUALIDADE DE VÍDEOO processo de avaliação de qualidade de vídeopode ser realizado com a aplicação de métricassubjetivas ou objetivas. As métricas subjetivasestimam a qualidade do vídeo por meio de avaliadoreshumanos. Logo, exigem um alto custo, poisnecessitam de uma grande quantidade de recursoshumanos e apresentam problemas quanto aosrequisitos de imparcialidade e reprodutibilidade,tornando-se inapropriadas em sistemas deradiodifusão ou em provedores de conteúdo [10], [11].Por outro lado, as métricas objetivas são baseadas emmodelos matemáticos, cujo objetivo é produzir umescore de qualidade que emule a percepção do SVH.Além disso, as métricas objetivas requerem baixocusto de implementação (quando comparadas com asmétricas subjetivas) e não apresentam problemasquanto à reprodutibilidade e imparcialidade.As métricas objetivas para avaliação de qualidadede vídeo podem ser classi�cadas em três categorias:(i) métricas de referência completa (Full-Reference –FR); (ii) métricas de referência reduzida (Reduced-Reference – RR); (iii) métricas sem referência (NR).2.1. Métricas FRAs métricas FR requerem o vídeo de referência(fonte) no cálculo do escore de qualidade. Estasmétricas são amplamente utilizadas no processo devalidação de métricas RR ou NR, por meio dacomparação de desempenho de�nida pelasrecomendações do Grupo de Especialistas emQualidade de Vídeo (VQEG – Video Quality ExpertsGroup) que é um órgão de padronização internacionalde métricas subjetivas e objetivas de qualidade devídeo. Dentre as métricas FR, destacam-se o PSNR(Peak Signal-to-Noise Ratio), SSIM (StructuralSIMilarity index) [12] e MS-SSIM (Multi-ScaleStructural SIMilarity index) [13].O PSNR é uma métrica FR baseada no erro pixel apixel de fácil implementação. Entretanto, apresentabaixa correlação com o SVH [14]. A sua medida éprocessada sobre o erro quadro a quadro, i.e., entre oquadro original x e o quadro y . A expressão a seguirde�ne o PSNR para um conjunto de quadros F .2011PSNR 20log ,Fff fvF � MSE� �� � �� �� ��(1)com� � � �20 01MSE , , , , ,N Mfi jx f i j y f i jNM � �� ���� � ��(2)em que o termo f v é igual a (2 1) k � , cujo k é onúmero de bits por pixel, i.e., é a componente deluminância do quadro f . Os termos x �f ,i, j � ey �f ,i, j � são os valores de luminância do quadro deorigem e degradado, respectivamente. Ascomponentes bidimensionais são representadas pelonúmero de colunas N e pelo número de linhas M . Otermo f MSE é de�nido como erro quadrático médioou MSE (Mean Square Error).A métrica SSIM baseia-se no fato de que o SVH éfortemente adaptado para extrair informações dascaracterísticas estruturais de um quadro ou imagem.Logo, uma medida de similaridade estrutural (oudistorção) pode prover boa aproximação para aqualidade perceptual de um vídeo [3, 7–9]. Sejam x ey dois sinais não-negativos, em que y é o sinaldegradado e x é o sinal original (sem perda dequalidade), a medida de similaridade é utilizada comoum índice quantitativo de qualidade do sinal distorcido,ou seja, x é tomado como a referência para medir aqualidade de y . A métrica SSIM possui diversasextensões, dentre as quais a versão MS-SSIM,proposta por Wang et al. [13] que assume umaabordagem multiescalar.2.2. Métricas RRAs métricas de referência reduzida retiram certaquantidade de características do vídeo original (fonte),baseadas em componentes espaciais, temporais, nodomínio da frequência ou no �uxo de bits (bitstream).Este tipo de métrica é amplamente utilizada nomonitoramento de transmissões em rede [17]. Nestetipo de cenário de aplicação, o vídeo é transmitidocom uma sequência de informação codi�cada(overhead) e no lado receptor ocorre a suadecodi�cação, seguido pelo cálculo do índice dequalidade, o qual é obtido por meio da comparaçãoentre a representação reduzida da informação nospares emissor e receptor [18]. Tipicamente, métricasRR são implementadas por meio de funções, divididasem duas etapas [19]: (i) cálculo do erro entre osvídeos original e distorcido, constituído pela diferençade suas características, a �m de compor arepresentação reduzida da informação; (ii) função queagrupa os erros ou diferenças para obter um índice dequalidade global. Algumas métricas RR explorampropriedades dos artefatos, por meio da extração decaracterísticas e um modelo de parametrização [20]com foco em tipos especí�cos de distorções(artefatos). Esta abordagem é encontrada em Silva etal. [17], cujo cálculo do escore de qualidade ébaseado na diferença de atividade dos coe�cientesDCT (Discrete Cosine Transform) em um macro blococom resolução de 16�16 pixels.2.3. Métricas NRAs métricas NR extraem característicasrelacionadas ao SVH do vídeo distorcido, i.e., narecepção do sinal de vídeo [14]. Tipicamente, há duasabordagens no desenvolvimento destas métricas: (i)extração dos parâmetros sobre o �uxo de bits, taiscomo a taxa de compressão, informaçõesrelacionadas ao GoP (Group of Pictures), estimaçãode movimento, per�l e nível de codi�cação, bem comoo parâmetro de quantização ou QP (QuantizationParameter) [21–25]. Métricas NR apresentam maiorcomplexidade quando são aplicadas em vídeo, devidoà variação temporal dos quadros, conteúdos dascenas e à di�culdade de compreensão dascaracterísticas do SVH [26]. Assim, algumas métricasdessa categoria exploram características espaciais etemporais na estimação de qualidade de vídeo [21].3. MÉTODO PROPOSTOO método proposto, denominado NRVQA-ELMtc(No-Reference Video Quality Assessment usingExtreme Learning Machine algorithm with terminationcriteria) [27] combina características espaciais etemporais, por meio de uma rede neural arti�cialSLFNs usando o algoritmo de treinamento ELM [28]com a implementação de um simples critério deparada.3.1. Características espaço-temporaisAs características espaciais incorporadas nométodo proposto são baseadas em medidas deartefatos em vídeo digital, i.e., distorções de blocageme borramento desenvolvidas por Wang et al. [20].Assim, a componente de luminância do quadro f érepresentada por y(f , i, j ) com i � ��1,M�� e j � ��1, N�� ,em que M e N são os números de linhas e colunas,respectivamente, de um quadro. Logo, as diferençasde luminância ao longo das linhas e colunas sãorepresentadas, respectivamente, pelas expressões aseguir.� � � � � � � �� � � � � � � �, , , , 1 , , , 1, 1 ,, , , 1, , , , 1, 1 .hvd f i j y f i j y f i j j Nd f i j y f i j y f i j i M� � � � �� � � � �(3)O efeito de blocagem pode ser estimado pelamédia das diferenças entre as bordas dos blocos daDCT (Discrete Cosine Transform) nas direçõeshorizontal e vertical para uma sequência F dequadros, conforme mostra a Equação (4), com ummacrobloco de dimensão � �� , cujo tamanho típico éde � � 8 [20].� � ��� � � �111 1 1111 1 11, , 1 ,111, 1 , .11NF Mh hf i jMF Nvi jvfB d f i jNF MB d f i jMF N��������� � ���� � �� �� �� � � �� � �� �� �� � � �� � �� � �� � �(4)A medida de blocagem em uma sequência devídeo com F quadros é determinada pela média entreh B e v B , caracterizando a medida B , conforme aexpressão a seguir..2h v B BB�� (5)Os efeitos de borramento são estimados pelocálculo da redução de atividade entre os blocos � �� ,em que é usada a medida de blocagem nas direçõeshorizontal e vertical, conforme as expressões� � � �� �� � � �� �11 1 111 1 1, , ,1 1, ,1.1F M Nh h hf i jF M Nv vfvi jA d f i j BF M NA d f i j BF N M������ � ��� � �� �� � �� �� � �� � �� � �(6)A medida de borramento, representada por A ,conforme a Equação (7), é determinada pela médiaentre h A e v A ..2h v A AA�� (7)O segundo fator que contribui para a detecção doartefato de borramento é baseado na taxa decruzamento por zero (Zero Crossing – ZC) nasdireções horizontal e vertical, conforme as expressõesa seguir.� �� �� �� �21 1 121 1 11, , ,21, , ,2F M Nh hf i jF M Nv vf i jZ z f i jF M NZ z f i jF N M�� � ��� � ��� ��� �� � �� � �(8)em que os termos h z e v z são determinados por� �� �1, na direção horizontal, , ,0, caso contrário1, na direção vertical, , .0, caso contráriohvz f i jz f i j�� �� �� ��(9)Assim, a medida de borramento Z é determinadapela média entre as componentes h Z e v Z ..2h v Z ZZ�� (10)O método proposto também incorpora trêscaracterísticas temporais no treinamento da redeneural SLFN com o algoritmo ELM.A primeira característica temporal é a diferença demovimento entre quadros adjacentes, representadapela variável TI (Temporal perceptual Information) [31]que considera os valores de luminância de pixelslocalizados em uma mesma região de um quadro,conforme a expressão a seguir.� �21, , ,1FfTI m f i jF��� �� �� �� (11)em que o número total de quadros é F e � �m�f ,i, j ��� �é o desvio padrão da diferença de movimento(diferença de luminância) entre o quadro atualy �f ,i, j � e o quadro anterior y �f �1,i, j � .A segunda característica temporal é a média dadiferença absoluta (Mean Absolute Di�erence – MAD)[31] entre quadros sucessivos, representada pelaEquação (12) que de�ne a medida global da MADpara todos os quadros de um vídeo.� �� � � �2 1 11, , 1, , .1F M Nf i jMAD y f i j y f i jM N F � � �� � �� �� � �(12)A terceira característica temporal é a média dadiferença absoluta ponderada (weighted MeanAbsolute Di�erence – MADw) [32], a qual mede o graude variação das cenas de um vídeo que considera acena atual de um quadro f e do quadro anterior f �1,conforme a expressão:2 11.1Fff fMADMADwF � MAD �� �� � �� � ��(13)Assim, o método proposto combina ascaracterísticas espaciais e temporais em uma matriz� , , , , , � f f f f f f f x � A B Z TI MAD MADw , em que f é onúmero de amostras de vídeo. A Figura 1 apresentaas características temporais � espaciais de dezessetebases de dados de vídeos (denominada superconjuntoS) usadas neste trabalho e reportadas em [27]. Arecomendação ITU-T P.910 [31] de�ne a medida SI(Spatial perceptual Information) como informaçãoespacial perceptual. A inspeção visual dessa �guramostra que as amostras de vídeo usadas nestetrabalho apresentam uma grande variação espaçotemporal.Fig. 1. Características espaciais e temporais do superconjuntoS com 216 amostras de referência3.2. Métrica NRVQA-ELMtcO algoritmo ELM [28] desenvolvido para otreinamento de uma rede SLFN atribui pesos epolarizações (biases) de maneira aleatória, segundouma distribuição uniforme. O treinamento compreendeN amostras distintas representadas pela variável�� , � , , 1, , � n mf f f f � � x t x � t � f � N , cujo cálculo éconforme a expressão� � � �1, 1, , ,KK i j j f j fff � g b f N�x � � w x � � o � (14)em que f o é a saída (escore objetivo), g(x) é afunção de ativação e j � é o peso que conecta o jésimoneurônio da camada oculta ao neurônio desaída. De acordo com [28], uma rede SLFN com Knós na camada oculta e uma função de ativação g(x)pode apresentar um erro médio próximo de zero, i.e.,10Kf ff �� o � t � . Logo, há parâmetros j � , j w e j b talque� �1, 1, , ,Kj j f j ff� g b f N�� w x � � t � (15)em que f t é o vetor alvo (escores subjetivos),T1, , j j jn � �w w � � � w é o vetor de peso que conecta o jésimoneurônio da camada oculta ao neurônio dacamada de entrada, j b denota a polarização (bias) doj-ésimo neurônio da camada oculta, � � j f w x é oproduto interno de j w e f x . A Figura 2 ilustra oalgoritmo ELM empregado em uma arquitetura derede neural SLFN.xi1βjN1jKtibjN input neuron K hidden neuron output neuronβ1βKwjFig. 2. Arquitetura de uma rede neural SLFN usando algoritmode treinamento ELMO sistema linear da Equação (16) resume o métododo algoritmo ELM.Hβ � T, (16)em que a matriz da camada oculta é representada por� � � 1, , and 1, , � � H � h f � N j � K com a primeiralinha da matriz de características f x igual aT1 2 , , , f f f fn x � ��x x x �� , i.e., a primeira linha é igual a� � 1 1 1 1 1 1 1 , , , , , f f f f f f f x � A B Z TI MAD MADw . A matriz desaída e o vetor alvo (target) são de�nidos comoT1 , K β � ��β β �� eT1, , N T � ��t t �� , respectivamente. Otermo � �T1 , 1, , j jm j � � � j � K � � β β β denota o vetor depeso que conecta o j-ésimo neurônio da camadaoculta e os neurônios de saída. Hung et al. [28]propuseram a atribuição aleatória de pesos aosparâmetros j w e j b , a �m de seja obtido um pequenoerro não-nulo durante o treinamento. Considerando osistema linear da Equação (17), os pesos da camadade saída podem ser aproximados por† β � H T (17)em que † H é de�nida como matriz inversageneralizada de Moore-Penrose (MP) [33] da matrizde saída da camada oculta �H� . Além disso, oconjunto de treinamento � , nó oculta K e umafunção de ativação g �x � , e.g., função de base radial(Radial Basis Function – RBF), hard-limiting (hardlim),sigmoidal (sig) e seno (sin). Em resumo, o algoritmoELM compreende três etapas [28]:i) Atribuição aleatória dos pesos de entrada j w epolarizações j b ;ii) Cálculo da matriz da camada de saída H ;iii) Cálculo dos pesos de saída † β: β� H T .O método NRVQA-ELMtc [27] implementa umsimples critério de parada no treinamento da redeneural SLFN, quanto à atribuição aleatória dos pesosj w e j b . Embora este critério não seja direcionado,busca os pesos relacionados com o menor RMSE(Root-Mean-Square Error) entre a saída desejada(escore subjetivo) e o escore objetivo na fase detreinamento com k iterações (tipicamente, k � 100 ) eN neurônios na camada oculta. Além disso, conformeestudo realizado em [27], caso o RMSE seja menor doque 0,5 o algoritmo cessa a busca pelos parâmetrosj w e j b .4. RESULTADOS EXPERIMENTAISEsta seção apresenta os resultados de acurácia,i.e., os coe�cientes de correlação linear de Pearson(Pearson Linear Correlation Coe�cient – PLCC) [34],[35], entre os escores objetivos e subjetivos de 2627amostras de vídeo estudadas em [27].A Figura 3 compara a acurácia (PLCC) entre asmétricas de referência completa (FR) PSNR e MSSSIMcom o método proposto (NRVQA-ELMtc) paraas 2627 amostras de vídeo, pertencentes a 17 basesde dados de vídeo disponibilizadas por diversasinstituições e laboratórios [27]. A função de ativaçãousada na rede neural SLFN foi o seno (sin) com onúmero de amostras de teste igual ao número deneurônios na camada oculta ( N ). O método devalidação cruzada múltipla (K-fold) foi usado com oobjetivo de gerar uma distribuição de acurácia, a qualfoi analisada por meio do diagrama de caixa (box-plot)[36], em que o traço, o círculo e o quadrado, ambosem vermelho, representam a mediana, a média e odesvio padrão, respectivamente. Destaca-se queneste trabalho foi empregada uma validação cruzadacom um grande número de amostras de treinamentotestecom K � 100 , i.e., cada caixa do box-plotcomporta 100 experimentos distintos. Tipicamente, aliteratura apresenta trabalhos no campo da avaliaçãoFig. 3. Box-plot da predição da acurácia (PLCC) entre as métricas PSNR, MS-SSIM e o método proposto NRVQA-ELMtcde qualidade de vídeo com K entre 5 e 10 [37], [38].Pela inspeção visual da Figura 3 observa-se que odesempenho do método proposto é superior àsmétricas FR, em quaisquer condições de teste, i.e.,para qualquer quantidade de amostras de teste(número de neurônios na camada oculta) entre 25 e500. Em especial, para N � 50 , o método propostoapresenta valores de PLCC, em termos da média emediana, acima de 0,8, denotando uma forteassociação entre os escores objetivos e subjetivos, natarefa de predição de qualidade de vídeo. Isto ocorredevido à grande quantidade de amostras de vídeousadas no treinamento, e.g., para N � 300 foramusadas 2327 amostras de treinamento, ou seja,mesmo usando pares de treinamento-teste disjuntos,o método proposto mostra uma acurácia superior àsmétricas de referência completa. A assimetria positiva,i.e., a maior concentração da acurácia entre osegundo quartil (mediana) e o terceiro quartil, nadistribuição do box-plot nos testes com 300 e 500neurônios na camada oculta, indica que o métodoproposto apresenta um desempenho expressivo emcomparação com as métricas FR.Entretanto, mesmo para N entre 25 e 50, ométodo proposto apresentou uma acurácia maior doque as métricas FR, cujo melhor resultado foi paraN � 25 com o desvio-quartil (amplitude interquartílica)con�nado entre 0,65 e 0,8. Além disso, este resultadotambém apresentou assimetria positiva com a médiado PLCC em torno de 0,75.5. CONCLUSÃOEste trabalho apresentou uma métrica NR baseadaem uma rede neural arti�cial SLFN, cujo treinamento édeterminado pelo algoritmo ELM, o qual consideracaracterísticas espaço-temporais e os escoressubjetivos (alvos) extraídos de 2627 amostrastreinamento. Além disso, este trabalho propõe umaextensão do algoritmo ELM por meio de um simplescritério de parada, a �m de que sejam obtidosparâmetros da rede neural arti�cial relacionados como menor RMSE. Tipicamente, a comparação entremétricas FR e NR é injusta, devido à ausência dovídeo de referência na obtenção do escore dequalidade em métricas NR. Entretanto, os resultadosexperimentais mostram que o método propostoapresentou desempenho superior às métricas dereferência completa PSNR e MS-SSIM, sobretudo,quando o número de amostras de teste e de neurôniosna camada oculta da rede SLFN é maior do que 250.Logo, a métrica NRVQA-ELMtc pode ser empregadano monitoramento de qualidade em sistemas detransmissão e recepção de vídeo digital, tais comoIPTV (Internet Protocol Television), TV digital ou emdispositivos móveis, tais como ultrabooks,smartphones, tablets e em aparelhos WiDi (WirelessDisplay).REFERÊNCIAS[1] S. Winkler, “Issues in vision modeling for perceptualvideo quality assessment,” Signal Processing, vol. 78,no. 2, pp. 231–252, 1999.[2] Z. Wang and A. C. Bovik, Modern image qualityassessment. San Rafael, CA: Morgan & Claypool,2006.[3] W. Lin and C.-C. Jay Kuo, “Perceptual visual qualitymetrics: A survey,” Journal of Visual Communicationand Image Representation, vol. 22, no. 4, pp. 297–312,May 2011.[4] S. S. Hemami and A. R. Reibman, “No-reference imageand video quality estimation: Applications and humanmotivateddesign,” Signal Processing: ImageCommunication, vol. 25, no. 7, pp. 469–481, 2010.[5] Z. Wang and A. Bovik, “Reduced- and No-ReferenceImage Quality Assessment,” IEEE Signal ProcessingMagazine, vol. 28, no. 6, pp. 29–40, Nov. 2011.[6] R. V. Babu, S. Suresh, and A. Perkis, “No-referenceJPEG-image quality assessment using GAP-RBF,”Signal Processing, vol. 87, no. 6, pp. 1493–1503, 2007.[7] X. Jiang, F. Meng, J. Xu, and W. Zhou, “No-ReferencePerceptual Video Quality Measurement for HighDe�nition Videos Based on an Arti�cial NeuralNetwork,” in Computer and Electrical Engineering,2008. ICCEE 2008. International Conference on, 2008,pp. 424–427.[8] J. Choe, K. Lee, C. Lee, and S. Korea, “No-referencevideo quality measurement using neural networks,” in2009 16th International Conference on Digital SignalProcessing, 2009, pp. 1–4.[9] S. Suresh, R. Venkatesh Babu, and H. J. Kim, “Noreferenceimage quality assessment using modi�edextreme learning machine classi�er,” Applied SoftComputing, vol. 9, no. 2, pp. 541–552, Mar. 2009.[10] A. M. Eskicioglu and P. S. Fisher, “Image qualitymeasures and their performance,” IEEE Transactionson Communications, vol. 43, no. 12, pp. 2959–2965,1995.[11] U. Engelke and H.-J. Zepernick, “Perceptual-basedQuality Metrics for Image and Video Services: ASurvey,” in Proceedings EuroNGI Conf. NextGeneration Internet Networks, 2007, pp. 190–197.[12] Z. Wang, A. C. Bovik, H. R. Sheikh, and E. PSimoncelli, “Image quality assessment: from errorvisibility to structural similarity.,” IEEE Transactions onImage Processing, vol. 13, no. 4, pp. 600–612, 2004.[13] Z. Wang, E. P. Simoncelli, and A. C. Bovik, “Multiscalestructural similarity for image quality assessment,” inThe Thrity-Seventh Asilomar Conference on Signals,Systems & Computers, 2003, 2003, vol. 2, no. 1, pp.1398–1402.[14] H. R. Wu, K. R. Rao, and A. A. Kassim, “Digital VideoImage Quality and Perceptual Coding,” Journal ofElectronic Imaging, vol. 16, no. 3, 2007.[15] Z. Wang and A. C. Bovik, “A universal image qualityindex,” IEEE Signal Processing Letters, vol. 9, no. 3,pp. 81–84, Mar. 2002.[16] Y. Shi, Y. Ding, R. Zhang, and J. Li, “Structure and HueSimilarity for Color Image Quality Assessment,” in 2009International Conference on Electronic ComputerTechnology, 2009, pp. 329–333.[17] W. B. Silva, A. A. P. Pohl, and K. V. O. Fonseca, “AReduced-Reference Video Quality Assessment Methodbased on the Activity-Di�erence of DCT Coe�cients,”IEICE Transactions on Information and Systems, vol. E96-D, no. 3, 2013.[18] P. Le Callet, C. Viard-Gaudin, and D. Barba, “A Convolutional Neural Network Approach for Objective Video Quality Assessment,” IEEE Transactions on Neural Networks, vol. 17, no. 5, pp. 1316–1327, 2006.[19] P. Le Callet and D. Barba, “Image Quality Assessment: From Sites Errors to a Global Appreciation of Quality,” in Proceedings of the Picture Coding Sympsium, 2001, pp. 105–108.[20] M. Miyahara, K. Kotani, and V. R. Algazi, “Objective picture quality scale (PQS) for image coding,” IEEE Transactions on Communications, vol. 46, no. 9, pp. 1215–1226, 1998.[21] M. Slanina, V. Ricny, and R. Forchheimer, “A Novel Metric for H.264/AVC No-Reference Quality Assessment,” in 14th International Workshop on Systems, Signals and Image Processing and 6th EURASIP Conference focused on Speech and Image Processing, Multimedia Communications and Services, 2007, pp. 114–117.[22] O. Sugimoto, S. Naito, S. Sakazawa, and A. Koike, “Objective perceptual video quality measurement method based on hybrid no reference framework,” in 16th IEEE International Conference on Image Processing (ICIP’09), 2009, pp. 2237–2240.[23] T. Oelbaum, C. Keimel, and K. Diepold, “Rule-Based No-Reference Video Quality Evaluation Using Additionally Coded Videos,” IEEE Journal of Selected Topics in Signal Processing, vol. 3, no. 2, pp. 294–303, 2009.[24] N. Staelens, N. Vercammen, Y. Dhondt, B. Vermeulen, P. Lambert, R. de Walle, and P. Demeester, “ViQID: A No-Reference bit stream-based visual quality impairment detector,” in Proceedings of the Second Int Quality of Multimedia Experience (QoMEX) Workshop, 2010, pp. 206–211.[25] F. Yang, S. Wan, Q. Xie, and H. R. Wu, “No-Reference Quality Assessment for Networked Video via Primary Analysis of Bit Stream,” IEEE Transactions on Circuits and Systems for Video Technology, vol. 20, no. 11, pp. 1544–1554, Nov. 2010.[26] Z. Wang, H. R. Sheikh, and A. C. Bovik, “Objective Video Quality Assessment,” in The Handbook of Video Databases: Design and Applications, B. Furht and O. Marques, Eds. Boca Raton, FL, USA: CRC Press, 2003, pp. 1041–1078.[27] W. B. da Silva and A. de A. P. Pohl, “Métodos Sem Referência Baseados em Características Espaço-Temporais para Avaliação Objetiva de Qualidade de Vídeo Digital,” Universidade Tecnológica Federal do Paraná (UTFPR), 2013.[28] G.-B. Huang, Q.-Y. Zhu, and C.-K. Siew, “Extreme learning machine: Theory and applications,” Neurocomputing, vol. 70, no. 1–3, pp. 489–501, Dec. 2006.[29] Z. Wang, H. R. Sheikh, and A. C. Bovik, “No-reference perceptual quality assessment of JPEG compressed images,” in Image Processing. 2002. Proceedings. IEEE International Conference on Image Processing, 2002, vol. 1, pp. vol.1 I–477 – I–480.[30] W. B. Silva and A. A. P. Pohl, “No-Reference Video Quality Assessment Method based on the Levenberg-Marquardt Minimization,” in XXX Brazilian Symposium on Telecommunications (SBrT’12), 2012.[31] ITU-T P.910, “Subjective video quality assessment methods for multimedia applications,” Standardization Sector of ITU, 1999.[32] W. Ding, Y. Tong, Q. Zhang, and D. Yang, “Image and Video Quality Assessment Using Neural Network and SVM,” Tsinghua Science &amp; Technology, vol. 13, no. 1, pp. 112–116, 2008.[33] K. S. Banerjee, C. R. Rao, and S. K. Mitra, “Generalized Inverse of Matrices and Its Applications,” Technometrics, vol. 15, no. 1, p. 197, Feb. 1973.[34] VQEG, “Final report from the video quality experts group on the validation of reduced-reference and no-reference objective models for standard de�nition television, Phase I,” 2009.[35] VQEG, “Report on the validation of video quality models for high de�nition video content,” 2010.[36] J. W. Tukey, Exploratory Data Analysis. New York: Addison-Wesley Publishing Company, 1977.[37] P. Gastaldo and R. Zunino, “Neural networks for the no-reference assessment of perceived quality,” J. Electronic Imaging, vol. 14, no. 3, p. 033004, 2005.[38] R. Herzog, M. Čadík, T. O. Aydın, K. I. Kim, K. Myszkowski, and H.-P. Seidel, “NoRM: No-Reference Image Quality Metric for Realistic Image Synthesis,” Comp. Graph. Forum, vol. 31, no. 2pt4, pp. 545–554, 2012.

Revista de Radiodifusão • v. 08 • n. 09 • 201428

ANÁLISE COMPARATIVA DE CARACTERÍSTICAS TEMPORAIS DE VÍDEOS DIGITAIS

Eduardo Romani 1, Wyllian Bezerra da Silva 2, Keiko Verônica Ono Fonseca 3, Alexandre de Almeida PradoPohl 4

1Universidade Tecnológica Federal do Paraná – UTFPR, Curitiba, Brasil, [email protected] Federal de Santa Catarina – UFSC, Joinville, Brasil, [email protected]

3Universidade Tecnológica Federal do Paraná – UTFPR, Curitiba, Brasil, [email protected] Tecnológica Federal do Paraná – UTFPR, Curitiba, Brasil, [email protected]

Resumo— Este artigo realiza uma análise comparativade duas características temporais de vídeos digitais –as Informações Perceptuais Temporais (TI) e os Vetoresde Movimento (MV) – buscando quantificar a correla-ção entre elas por meio dos coeficientes de Pearson(PLCC) e de Spearman (SROCC). Com estes coeficientes,pode-se medir o grau de correlação entre estas duascaracterísticas temporais que são utilizadas em diversaspesquisas e estudos,afim de facilitar o compreensão dosresultados apresentados pelas pesquisas. Além disso,essas características podem estar associadas a atributosextraídos diretamente de vídeos ou retirados do fluxode dados das codificações destes. Os resultados experi-mentais apresentam uma correlação moderada entre asduas características e demonstram que ambas seguem amesma tendência de resposta às variações do vídeo.

Palavras-Chave— Vídeo Digital, Informação PerceptualTemporal, Vetor de Movimento, Análise Estatítica.

1. INTRODUÇÃO

Nos últimos anos, vários trabalhos têm sido desenvol-vidos na pesquisa e desenvolvimento de métricas objeti-vas para avaliação de qualidade de vídeo digital. Dentreos quais, destacam-se os trabalhos que abordam desdea geração de bancos de vídeos e suas respectivasavaliações subjetivas, como os bancos LIVE [1], IVP [2],VQEG-FR [3] e MMSP [4], até a elaboração de métricasobjetivas, como as métricas MOVIE [5], PSNR [6], SSIM[7], VQM [8] e NRVQA-ELMtc [9], para validação demétodos de avaliação de qualidade de vídeo (VQA) emdiversos cenários de transmissão e recepção.

Na implementação de métricas VQA são utilizadasinformações que caracterizam o conteúdo do vídeo emaspectos espaciais, temporais, espaço-temporais, doplano da frequência e do fluxo de dados (bitstream).Este trabalho faz uma análise comparativa de duascaracterísticas temporais, a informação perceptual tem-poral (TI) e os vetores de movimento (MV), que sãoextraídos do fluxo de dados.

As características temporais de vídeos digitais sãoutilizadas para determinar a diferença entre quadrosconsecutivos de um vídeo. Além disso, essas caracte-rísticas podem estar associadas a outros atributos, den-tre os quais, a movimentação de objetos, movimentaçãode ambientes, cortes entre cenas e variações causadaspor degradações. Devido a este fato, vídeos com cenas

que detêm maior movimentação apresentam maioresvalores para estas características.

Logo, este trabalho tem foco na análise e comparaçãodos parâmetros TI e MV. Assim, a seguir são citados osprincipais aspectos que indicam a importância destes:

• Recomendações do Video Quality Experts Group(VQEG) [10].

• Recomendações da ITU P.910 [11] (Subjective vi-deo quality assessment methods for multimediaapplication).

• Frequência da utilização de ambas característicasna literatura.

• Amplo uso do algoritmo de compressão de vídeosdigitais MPEG-2 [12] (emprega o MV como um deseus parâmetros).

• Análise da caracterização temporal de vídeo pordois métodos aplicados de maneiras distintas.

Partindo disto, o artigo esta estruturado da seguinteforma: a Seção II apresenta uma fundamentação teóricadas duas características abordadas, a Seção III des-creve a metodologia utilizada na análise estatística, aSeção IV discute os resultados experimentais e, final-mente, a Seção V traz as conclusões deste trabalho.

2. FUNDAMENTAÇÃO TEÓRICA

Nesta seção são apresentadas as definições teóricasdas caracteríticas temporais e das medidas estatíticas:

2.1. Caracteríticas Temporais

• Informação Perceptual Temporal, segundo ITUP.910 [11], é baseado na função de diferenças demovimento Mn{i, j}, caracterizada pela diferençaentre o valor de luminância dos pixels em umamesma localização mas em quadros sucessivos.Esta função é definida, conforme a Equação (1):

Mn{i, j} = Fn{i, j} − Fn−1{i, j}, (1)

em que, Fn{i, j} é um pixel na linha i e coluna jno quadro de tempo n.A medida TI, é definida através do valor máximodentre n quadros, quanto ao desvio padrão no

Page 29: Revista de RADIODIFUSÃO - SET PORTAL · Sinais de TV Digital ISDB-Tb via VHF e UHF na Cidade do Gama – DF – Brasil Akamine, Cristiano Bedicks Jr, Gunnar ... cujas frequências

espaço da função de diferenças de movimentos,conforme a Equação (2):

T I = maxtime{stdspace[Mn{i, j}]}. (2)

No entanto, para realizar uma análise quadro aquadro do vídeo, utiliza-se um valor de TI para cadaquadro e não apenas um valor para o vídeo inteiro,obtendo-se a Equação (3).

T In = stdspace[Mn{i, j}], (3)

em que, TIn apresenta um valor de TI para cadaquadro, sendo que o valor varia, conforme o graude movimentação entre os quadros. Logo, quantomaior o grau de movimentação, maior será o valorde TI.

• Vetores de Movimentos são indicadores de energiade movimento do vídeo. Para otimizar o custocomputacional cada quadro é dividido em macro-blocos, e a diferença entre a localização de cadamacrobloco em dois quardros sucessivos é definidocomo um vetor. Esta diferença pode ser medidapela Média Absoluta das Diferenças (MAD), queé mostrada na Equação (4), apresentada por Li eDrew [13].

MAD(i, j) = 1

N2

N−1∑k=0

N−1∑l=1

|C(x+ k, y + l)−

R(x+ i+ k, y + j + l)|,(4)

em que N é o tamanho do macrobloco, R(x+ i+k, y+ j+ l) são os pixels do quadro de referência eC(x+k, y+ l) os pixels do próximo quadro. A MADé utilizada para encontrar os vetores de movimento(u, v), como demonstrado na Figura 1.

Fig. 1. Geração de um vetor de movimento através do des-locamento de um macrobloco em dois quadro consecutivos.Adaptado de [14].

Para cada macrobloco da imagem, será criadoum vetor de movimento relacionado à posição domesmo macrobloco no quadro anterior. Assim, emum vídeo com resolução de 1920×1088 pixels, serágerada uma matriz de tamanho 120× 68 macroblo-cos de 16× 16 pixels. Estes vetores são utilizadosem diversas compressões de vídeos, como H.261e MPEG-2 [12], e tem seus parâmetros gravados

no bitstream (fluxo de bits) no processo de codifi-cação. Neste trabalho, serão considerados a médiadas amplitudes dos vetores de movimento quadroa quadro, traçando assim uma curva em relação aotempo do vídeo.

2.2. Medidas EstatíticasPara realizar a análise estatística dos resultados, o

coeficiente de correlação linear de Pearson (PLCC) eo coeficiente de correlação de postos de Spearman(SROCC) foram os métodos escolhidos dentre os reco-mendados pelo VQEG [10]. O PLCC mede a acuráciaentre as medidas comparadas, cujo valor estiver maispróximo de 1 ou -1, maior é a correlação entre TI e MV.O PLCC é definido conforme a Equação (5).

PLCC =

∑N−1k=1 (µk − µ) (νk − ν)√∑N−1

k=1 (µk − µ)2√∑N−1

k=1 (νk − ν)2, (5)

em que µ e ν são as médias de TI e MV, respectiva-mente.

O SROCC representa a monotonicidade, cuja medidaacompanha as alterações de magnitude entre as carac-terísticas temporais, sendo definido pela Equação (6).

SROCC =

∑N−1k=1 (ρk − ρ) (γk − γ)√∑N−1

k=1 (ρk − ρ)2√∑N−1

k=1 (γk − γ)2, (6)

em que ρ e γ são os postos das características TI e MV,respectivamente.

3. METODOLOGIAA metodologia utilizada para avaliar a correlação

entre TI e MV é dividida em quatro etapas, dentre asquais, a escolha de vídeos de banco de dados usadospara análise de qualidade de vídeo, a extração dosparâmetros TI e MV, bem como a análise estatística dosresultados. Todas as etapas definidas na metodologiaseguem as recomendações do VQEG [10] e prezampela confiabilidade e repetibilidade dos experimentos.

3.1. Banco de Dados (Database)Os vídeos utilizados para a realização do experimento

pertencem ao IVP Database [2] no formato de vídeoYUV. Os arquivos de vídeo usados foram robot e bus, eambos possuem 250 quadros com resolução de 1920×1088 pixels, subamostragem 4:2:0 e duração de 10segundos (25fps). A correlação entre as característicasTI e MV dos vídeos foi analisada nos primeiros 100quadros, sendo este um número suficiente de quadrospara extrair esta relação, já que inclui vários tipos demovimentos, inclusive com a mudança de cena.

Este banco de dados foi selecionado pois é am-plamente utilizado na literatura na análise de vídeosdigitais, inclusive os parâmetros TI como o MV. Winkler[15] analisa este banco de dados traçando, entre outras,suas características MV. Em Silva [9] é aplicado oparâmetro TI no desenvolvimento de métricas objetivasde avaliação de vídeo digital.

Revista de Radiodifusão • v. 08 • n. 09 • 2014 29

Eduardo Romani, Wyllian Bezerra da Silva, Keiko Verônica Ono Fonseca, Alexandre de Almeida Prado Pohl

Page 30: Revista de RADIODIFUSÃO - SET PORTAL · Sinais de TV Digital ISDB-Tb via VHF e UHF na Cidade do Gama – DF – Brasil Akamine, Cristiano Bedicks Jr, Gunnar ... cujas frequências

MÉTRICA SEM REFERÊNCIA BASEADA EM REDES NEURAISPARA AVALIAÇÃO OBJETIVA DE QUALIDADE DE VÍDEO DIGITALWyllian Bezerra da Silva, Alexandre de Almeida Prado PohlPrograma de Pós-Graduação em Engenharia Elétrica e Informática Industrial (CPGEI) – UTFPR, Curitiba, [email protected], [email protected]: Este trabalho apresenta uma métrica sem referência para avaliação de qualidade de vídeo digital baseada em uma rede neural arti�cial que usa uma versão estendida do algoritmo de aprendizado ELM (Extreme Learning Machine). O método proposto realiza o treinamento da rede neural a partir de seis características espaço-temporais. Os resultados experimentais mostram que o método proposto apresenta desempenho superior às métricas de referência completa PSNR e MS-SSIM na tarefa de predição de qualidade de vídeo. Logo, o método proposto pode ser usado no monitoramento de qualidade em sistemas de transmissão e recepção de vídeo digital, tais como IPTV e TV digital.Palavras chave: algoritmo ELM, avaliação objetiva de vídeo, métrica sem referência, rede neural arti�cial.1. INTRODUÇÃODurante os últimos anos, a literatura tem apresentado um número crescente publicações acerca de métricas objetivas para avaliação de qualidade de vídeo para diversas aplicações em radiodifusão ou no processamento de vídeo digital, seja na aquisição do sinal, codi�cação e decodi�cação, compressão, transmissão, restauração, armazenamento, segmentação e exibição de sinais de vídeo digital [1–4]. A avaliação de qualidade de vídeo digital pode ser realizada por meio de métricas subjetiva e objetiva. A primeira requer uma grande quantidade de recursos humanos e apresenta elevado custo em sua implementação [1–3]. Porém, as métricas objetivas são vantajosas quando apresentam um determinado grau de correlação com as métricas subjetivas. Logo, o desenvolvimento destas é um desa�o no campo de avaliação de qualidade de vídeo e imagem. Além disso, as métricas objetivas, devido à natureza de seu critério objetivo, independem de interação humana e são facilmente reprodutíveis [3]. Dentre as métricas objetivas destacam-se as métricas sem referência (No-Reference – NR), pois não necessitam do vídeo de referência no cálculo de sua medida. Entretanto, estas requerem um conhecimento a priori sobre as distorções em vídeo digital para que seja estabelecida uma correlação com os resultados subjetivos [3].A maioria das métricas NR encontradas na literatura são baseadas na avaliação de qualidade de imagens e em características relacionadas ao Sistema Visual Humano (SVH). Assim, o desenvolvimento de métricas NR é difícil, devido à necessidade de emular a percepção do SVH que envolve aspectos cognitivos, emocionais e estéticos relacionados ao conteúdo do vídeo e que são altamente dependentes do observador [4], [5].A literatura reporta diversos esforços no desenvolvimento de métricas para avaliação de qualidade de vídeo baseadas em redes neurais e em algoritmos de aprendizado. Babu et al. [6] apresentam uma métrica para avaliar a qualidade de imagens comprimidas em JPEG (Joint Photographic Experts Group) por meio de um algoritmo de aprendizado de crescimento e propõem o uso de uma rede neural GAP-RBF (Growing and Pruning Radial Basis Function) que usa características relacionadas ao SVH. Jiang et al. [7] desenvolveram uma métrica NR para avaliação de qualidade de vídeo em HD (High De�nition) baseada em uma rede neural treinada pelo algoritmo BP (Back-Propagation) que usa seis características espaço-temporais e a RoI (Region of Interest). Choe et al. [8] desenvolveram uma métrica NR baseada no �uxo de bits para avaliação de qualidade de vídeo codi�cado em H.264. Esta métrica extrai características quadro a quadro e usa uma rede neural alimentada adiante (feedforward) com três camadas. Suresh et al. [9] apresentaram uma extensão do algoritmo ELM na tarefa de avaliar a qualidade de imagens comprimidas em JPEG com base no esquema de seleção múltipla KS-ELM (K-fold selection Scheme using ELM) e no algoritmo RCGA-ELM (Real-Coded Genetic Algorithm using ELM) para seleção dos pesos de entrada e polarizações.Este trabalho apresenta uma versão estendida do algoritmo ELM para redes neurais SLFN (Single-hidden-Layer Feedforward Neural Networks) que implementa um simples critério de parada na fase de treinamento. Além disso, esse método usa seis características espaço-temporais de vídeos submetidos a diversas condições de distorção.Este artigo está dividido da seguinte maneira: a Seção 2 descreve as métricas para avaliação de qualidade de vídeo. A Seção 3 descreve o método NR proposto para avalição de qualidade de vídeo digital. A Seção 4 apresenta os resultados experimentais, em que são comparados o método NR proposto e duas métricas FR. Finalmente, a Seção 5 apresenta a conclusão do artigo.2. AVALIAÇÃO DE QUALIDADE DE VÍDEOO processo de avaliação de qualidade de vídeopode ser realizado com a aplicação de métricassubjetivas ou objetivas. As métricas subjetivasestimam a qualidade do vídeo por meio de avaliadoreshumanos. Logo, exigem um alto custo, poisnecessitam de uma grande quantidade de recursoshumanos e apresentam problemas quanto aosrequisitos de imparcialidade e reprodutibilidade,tornando-se inapropriadas em sistemas deradiodifusão ou em provedores de conteúdo [10], [11].Por outro lado, as métricas objetivas são baseadas emmodelos matemáticos, cujo objetivo é produzir umescore de qualidade que emule a percepção do SVH.Além disso, as métricas objetivas requerem baixocusto de implementação (quando comparadas com asmétricas subjetivas) e não apresentam problemasquanto à reprodutibilidade e imparcialidade.As métricas objetivas para avaliação de qualidadede vídeo podem ser classi�cadas em três categorias:(i) métricas de referência completa (Full-Reference –FR); (ii) métricas de referência reduzida (Reduced-Reference – RR); (iii) métricas sem referência (NR).2.1. Métricas FRAs métricas FR requerem o vídeo de referência(fonte) no cálculo do escore de qualidade. Estasmétricas são amplamente utilizadas no processo devalidação de métricas RR ou NR, por meio dacomparação de desempenho de�nida pelasrecomendações do Grupo de Especialistas emQualidade de Vídeo (VQEG – Video Quality ExpertsGroup) que é um órgão de padronização internacionalde métricas subjetivas e objetivas de qualidade devídeo. Dentre as métricas FR, destacam-se o PSNR(Peak Signal-to-Noise Ratio), SSIM (StructuralSIMilarity index) [12] e MS-SSIM (Multi-ScaleStructural SIMilarity index) [13].O PSNR é uma métrica FR baseada no erro pixel apixel de fácil implementação. Entretanto, apresentabaixa correlação com o SVH [14]. A sua medida éprocessada sobre o erro quadro a quadro, i.e., entre oquadro original x e o quadro y . A expressão a seguirde�ne o PSNR para um conjunto de quadros F .2011PSNR 20log ,Fff fvF � MSE� �� � �� �� ��(1)com� � � �20 01MSE , , , , ,N Mfi jx f i j y f i jNM � �� ���� � ��(2)em que o termo f v é igual a (2 1) k � , cujo k é onúmero de bits por pixel, i.e., é a componente deluminância do quadro f . Os termos x �f ,i, j � ey �f ,i, j � são os valores de luminância do quadro deorigem e degradado, respectivamente. Ascomponentes bidimensionais são representadas pelonúmero de colunas N e pelo número de linhas M . Otermo f MSE é de�nido como erro quadrático médioou MSE (Mean Square Error).A métrica SSIM baseia-se no fato de que o SVH éfortemente adaptado para extrair informações dascaracterísticas estruturais de um quadro ou imagem.Logo, uma medida de similaridade estrutural (oudistorção) pode prover boa aproximação para aqualidade perceptual de um vídeo [3, 7–9]. Sejam x ey dois sinais não-negativos, em que y é o sinaldegradado e x é o sinal original (sem perda dequalidade), a medida de similaridade é utilizada comoum índice quantitativo de qualidade do sinal distorcido,ou seja, x é tomado como a referência para medir aqualidade de y . A métrica SSIM possui diversasextensões, dentre as quais a versão MS-SSIM,proposta por Wang et al. [13] que assume umaabordagem multiescalar.2.2. Métricas RRAs métricas de referência reduzida retiram certaquantidade de características do vídeo original (fonte),baseadas em componentes espaciais, temporais, nodomínio da frequência ou no �uxo de bits (bitstream).Este tipo de métrica é amplamente utilizada nomonitoramento de transmissões em rede [17]. Nestetipo de cenário de aplicação, o vídeo é transmitidocom uma sequência de informação codi�cada(overhead) e no lado receptor ocorre a suadecodi�cação, seguido pelo cálculo do índice dequalidade, o qual é obtido por meio da comparaçãoentre a representação reduzida da informação nospares emissor e receptor [18]. Tipicamente, métricasRR são implementadas por meio de funções, divididasem duas etapas [19]: (i) cálculo do erro entre osvídeos original e distorcido, constituído pela diferençade suas características, a �m de compor arepresentação reduzida da informação; (ii) função queagrupa os erros ou diferenças para obter um índice dequalidade global. Algumas métricas RR explorampropriedades dos artefatos, por meio da extração decaracterísticas e um modelo de parametrização [20]com foco em tipos especí�cos de distorções(artefatos). Esta abordagem é encontrada em Silva etal. [17], cujo cálculo do escore de qualidade ébaseado na diferença de atividade dos coe�cientesDCT (Discrete Cosine Transform) em um macro blococom resolução de 16�16 pixels.2.3. Métricas NRAs métricas NR extraem característicasrelacionadas ao SVH do vídeo distorcido, i.e., narecepção do sinal de vídeo [14]. Tipicamente, há duasabordagens no desenvolvimento destas métricas: (i)extração dos parâmetros sobre o �uxo de bits, taiscomo a taxa de compressão, informaçõesrelacionadas ao GoP (Group of Pictures), estimaçãode movimento, per�l e nível de codi�cação, bem comoo parâmetro de quantização ou QP (QuantizationParameter) [21–25]. Métricas NR apresentam maiorcomplexidade quando são aplicadas em vídeo, devidoà variação temporal dos quadros, conteúdos dascenas e à di�culdade de compreensão dascaracterísticas do SVH [26]. Assim, algumas métricasdessa categoria exploram características espaciais etemporais na estimação de qualidade de vídeo [21].3. MÉTODO PROPOSTOO método proposto, denominado NRVQA-ELMtc(No-Reference Video Quality Assessment usingExtreme Learning Machine algorithm with terminationcriteria) [27] combina características espaciais etemporais, por meio de uma rede neural arti�cialSLFNs usando o algoritmo de treinamento ELM [28]com a implementação de um simples critério deparada.3.1. Características espaço-temporaisAs características espaciais incorporadas nométodo proposto são baseadas em medidas deartefatos em vídeo digital, i.e., distorções de blocageme borramento desenvolvidas por Wang et al. [20].Assim, a componente de luminância do quadro f érepresentada por y(f , i, j ) com i � ��1,M�� e j � ��1, N�� ,em que M e N são os números de linhas e colunas,respectivamente, de um quadro. Logo, as diferençasde luminância ao longo das linhas e colunas sãorepresentadas, respectivamente, pelas expressões aseguir.� � � � � � � �� � � � � � � �, , , , 1 , , , 1, 1 ,, , , 1, , , , 1, 1 .hvd f i j y f i j y f i j j Nd f i j y f i j y f i j i M� � � � �� � � � �(3)O efeito de blocagem pode ser estimado pelamédia das diferenças entre as bordas dos blocos daDCT (Discrete Cosine Transform) nas direçõeshorizontal e vertical para uma sequência F dequadros, conforme mostra a Equação (4), com ummacrobloco de dimensão � �� , cujo tamanho típico éde � � 8 [20].� � ��� � � �111 1 1111 1 11, , 1 ,111, 1 , .11NF Mh hf i jMF Nvi jvfB d f i jNF MB d f i jMF N��������� � ���� � �� �� �� � � �� � �� �� �� � � �� � �� � �� � �(4)A medida de blocagem em uma sequência devídeo com F quadros é determinada pela média entreh B e v B , caracterizando a medida B , conforme aexpressão a seguir..2h v B BB�� (5)Os efeitos de borramento são estimados pelocálculo da redução de atividade entre os blocos � �� ,em que é usada a medida de blocagem nas direçõeshorizontal e vertical, conforme as expressões� � � �� �� � � �� �11 1 111 1 1, , ,1 1, ,1.1F M Nh h hf i jF M Nv vfvi jA d f i j BF M NA d f i j BF N M������ � ��� � �� �� � �� �� � �� � �� � �(6)A medida de borramento, representada por A ,conforme a Equação (7), é determinada pela médiaentre h A e v A ..2h v A AA�� (7)O segundo fator que contribui para a detecção doartefato de borramento é baseado na taxa decruzamento por zero (Zero Crossing – ZC) nasdireções horizontal e vertical, conforme as expressõesa seguir.� �� �� �� �21 1 121 1 11, , ,21, , ,2F M Nh hf i jF M Nv vf i jZ z f i jF M NZ z f i jF N M�� � ��� � ��� ��� �� � �� � �(8)em que os termos h z e v z são determinados por� �� �1, na direção horizontal, , ,0, caso contrário1, na direção vertical, , .0, caso contráriohvz f i jz f i j�� �� �� ��(9)Assim, a medida de borramento Z é determinadapela média entre as componentes h Z e v Z ..2h v Z ZZ�� (10)O método proposto também incorpora trêscaracterísticas temporais no treinamento da redeneural SLFN com o algoritmo ELM.A primeira característica temporal é a diferença demovimento entre quadros adjacentes, representadapela variável TI (Temporal perceptual Information) [31]que considera os valores de luminância de pixelslocalizados em uma mesma região de um quadro,conforme a expressão a seguir.� �21, , ,1FfTI m f i jF��� �� �� �� (11)em que o número total de quadros é F e � �m�f ,i, j ��� �é o desvio padrão da diferença de movimento(diferença de luminância) entre o quadro atualy �f ,i, j � e o quadro anterior y �f �1,i, j � .A segunda característica temporal é a média dadiferença absoluta (Mean Absolute Di�erence – MAD)[31] entre quadros sucessivos, representada pelaEquação (12) que de�ne a medida global da MADpara todos os quadros de um vídeo.� �� � � �2 1 11, , 1, , .1F M Nf i jMAD y f i j y f i jM N F � � �� � �� �� � �(12)A terceira característica temporal é a média dadiferença absoluta ponderada (weighted MeanAbsolute Di�erence – MADw) [32], a qual mede o graude variação das cenas de um vídeo que considera acena atual de um quadro f e do quadro anterior f �1,conforme a expressão:2 11.1Fff fMADMADwF � MAD �� �� � �� � ��(13)Assim, o método proposto combina ascaracterísticas espaciais e temporais em uma matriz� , , , , , � f f f f f f f x � A B Z TI MAD MADw , em que f é onúmero de amostras de vídeo. A Figura 1 apresentaas características temporais � espaciais de dezessetebases de dados de vídeos (denominada superconjuntoS) usadas neste trabalho e reportadas em [27]. Arecomendação ITU-T P.910 [31] de�ne a medida SI(Spatial perceptual Information) como informaçãoespacial perceptual. A inspeção visual dessa �guramostra que as amostras de vídeo usadas nestetrabalho apresentam uma grande variação espaçotemporal.Fig. 1. Características espaciais e temporais do superconjuntoS com 216 amostras de referência3.2. Métrica NRVQA-ELMtcO algoritmo ELM [28] desenvolvido para otreinamento de uma rede SLFN atribui pesos epolarizações (biases) de maneira aleatória, segundouma distribuição uniforme. O treinamento compreendeN amostras distintas representadas pela variável�� , � , , 1, , � n mf f f f � � x t x � t � f � N , cujo cálculo éconforme a expressão� � � �1, 1, , ,KK i j j f j fff � g b f N�x � � w x � � o � (14)em que f o é a saída (escore objetivo), g(x) é afunção de ativação e j � é o peso que conecta o jésimoneurônio da camada oculta ao neurônio desaída. De acordo com [28], uma rede SLFN com Knós na camada oculta e uma função de ativação g(x)pode apresentar um erro médio próximo de zero, i.e.,10Kf ff �� o � t � . Logo, há parâmetros j � , j w e j b talque� �1, 1, , ,Kj j f j ff� g b f N�� w x � � t � (15)em que f t é o vetor alvo (escores subjetivos),T1, , j j jn � �w w � � � w é o vetor de peso que conecta o jésimoneurônio da camada oculta ao neurônio dacamada de entrada, j b denota a polarização (bias) doj-ésimo neurônio da camada oculta, � � j f w x é oproduto interno de j w e f x . A Figura 2 ilustra oalgoritmo ELM empregado em uma arquitetura derede neural SLFN.xi1βjN1jKtibjN input neuron K hidden neuron output neuronβ1βKwjFig. 2. Arquitetura de uma rede neural SLFN usando algoritmode treinamento ELMO sistema linear da Equação (16) resume o métododo algoritmo ELM.Hβ � T, (16)em que a matriz da camada oculta é representada por� � � 1, , and 1, , � � H � h f � N j � K com a primeiralinha da matriz de características f x igual aT1 2 , , , f f f fn x � ��x x x �� , i.e., a primeira linha é igual a� � 1 1 1 1 1 1 1 , , , , , f f f f f f f x � A B Z TI MAD MADw . A matriz desaída e o vetor alvo (target) são de�nidos comoT1 , K β � ��β β �� eT1, , N T � ��t t �� , respectivamente. Otermo � �T1 , 1, , j jm j � � � j � K � � β β β denota o vetor depeso que conecta o j-ésimo neurônio da camadaoculta e os neurônios de saída. Hung et al. [28]propuseram a atribuição aleatória de pesos aosparâmetros j w e j b , a �m de seja obtido um pequenoerro não-nulo durante o treinamento. Considerando osistema linear da Equação (17), os pesos da camadade saída podem ser aproximados por† β � H T (17)em que † H é de�nida como matriz inversageneralizada de Moore-Penrose (MP) [33] da matrizde saída da camada oculta �H� . Além disso, oconjunto de treinamento � , nó oculta K e umafunção de ativação g �x � , e.g., função de base radial(Radial Basis Function – RBF), hard-limiting (hardlim),sigmoidal (sig) e seno (sin). Em resumo, o algoritmoELM compreende três etapas [28]:i) Atribuição aleatória dos pesos de entrada j w epolarizações j b ;ii) Cálculo da matriz da camada de saída H ;iii) Cálculo dos pesos de saída † β: β� H T .O método NRVQA-ELMtc [27] implementa umsimples critério de parada no treinamento da redeneural SLFN, quanto à atribuição aleatória dos pesosj w e j b . Embora este critério não seja direcionado,busca os pesos relacionados com o menor RMSE(Root-Mean-Square Error) entre a saída desejada(escore subjetivo) e o escore objetivo na fase detreinamento com k iterações (tipicamente, k � 100 ) eN neurônios na camada oculta. Além disso, conformeestudo realizado em [27], caso o RMSE seja menor doque 0,5 o algoritmo cessa a busca pelos parâmetrosj w e j b .4. RESULTADOS EXPERIMENTAISEsta seção apresenta os resultados de acurácia,i.e., os coe�cientes de correlação linear de Pearson(Pearson Linear Correlation Coe�cient – PLCC) [34],[35], entre os escores objetivos e subjetivos de 2627amostras de vídeo estudadas em [27].A Figura 3 compara a acurácia (PLCC) entre asmétricas de referência completa (FR) PSNR e MSSSIMcom o método proposto (NRVQA-ELMtc) paraas 2627 amostras de vídeo, pertencentes a 17 basesde dados de vídeo disponibilizadas por diversasinstituições e laboratórios [27]. A função de ativaçãousada na rede neural SLFN foi o seno (sin) com onúmero de amostras de teste igual ao número deneurônios na camada oculta ( N ). O método devalidação cruzada múltipla (K-fold) foi usado com oobjetivo de gerar uma distribuição de acurácia, a qualfoi analisada por meio do diagrama de caixa (box-plot)[36], em que o traço, o círculo e o quadrado, ambosem vermelho, representam a mediana, a média e odesvio padrão, respectivamente. Destaca-se queneste trabalho foi empregada uma validação cruzadacom um grande número de amostras de treinamentotestecom K � 100 , i.e., cada caixa do box-plotcomporta 100 experimentos distintos. Tipicamente, aliteratura apresenta trabalhos no campo da avaliaçãoFig. 3. Box-plot da predição da acurácia (PLCC) entre as métricas PSNR, MS-SSIM e o método proposto NRVQA-ELMtcde qualidade de vídeo com K entre 5 e 10 [37], [38].Pela inspeção visual da Figura 3 observa-se que odesempenho do método proposto é superior àsmétricas FR, em quaisquer condições de teste, i.e.,para qualquer quantidade de amostras de teste(número de neurônios na camada oculta) entre 25 e500. Em especial, para N � 50 , o método propostoapresenta valores de PLCC, em termos da média emediana, acima de 0,8, denotando uma forteassociação entre os escores objetivos e subjetivos, natarefa de predição de qualidade de vídeo. Isto ocorredevido à grande quantidade de amostras de vídeousadas no treinamento, e.g., para N � 300 foramusadas 2327 amostras de treinamento, ou seja,mesmo usando pares de treinamento-teste disjuntos,o método proposto mostra uma acurácia superior àsmétricas de referência completa. A assimetria positiva,i.e., a maior concentração da acurácia entre osegundo quartil (mediana) e o terceiro quartil, nadistribuição do box-plot nos testes com 300 e 500neurônios na camada oculta, indica que o métodoproposto apresenta um desempenho expressivo emcomparação com as métricas FR.Entretanto, mesmo para N entre 25 e 50, ométodo proposto apresentou uma acurácia maior doque as métricas FR, cujo melhor resultado foi paraN � 25 com o desvio-quartil (amplitude interquartílica)con�nado entre 0,65 e 0,8. Além disso, este resultadotambém apresentou assimetria positiva com a médiado PLCC em torno de 0,75.5. CONCLUSÃOEste trabalho apresentou uma métrica NR baseadaem uma rede neural arti�cial SLFN, cujo treinamento édeterminado pelo algoritmo ELM, o qual consideracaracterísticas espaço-temporais e os escoressubjetivos (alvos) extraídos de 2627 amostrastreinamento. Além disso, este trabalho propõe umaextensão do algoritmo ELM por meio de um simplescritério de parada, a �m de que sejam obtidosparâmetros da rede neural arti�cial relacionados como menor RMSE. Tipicamente, a comparação entremétricas FR e NR é injusta, devido à ausência dovídeo de referência na obtenção do escore dequalidade em métricas NR. Entretanto, os resultadosexperimentais mostram que o método propostoapresentou desempenho superior às métricas dereferência completa PSNR e MS-SSIM, sobretudo,quando o número de amostras de teste e de neurôniosna camada oculta da rede SLFN é maior do que 250.Logo, a métrica NRVQA-ELMtc pode ser empregadano monitoramento de qualidade em sistemas detransmissão e recepção de vídeo digital, tais comoIPTV (Internet Protocol Television), TV digital ou emdispositivos móveis, tais como ultrabooks,smartphones, tablets e em aparelhos WiDi (WirelessDisplay).REFERÊNCIAS[1] S. Winkler, “Issues in vision modeling for perceptualvideo quality assessment,” Signal Processing, vol. 78,no. 2, pp. 231–252, 1999.[2] Z. Wang and A. C. Bovik, Modern image qualityassessment. San Rafael, CA: Morgan & Claypool,2006.[3] W. Lin and C.-C. Jay Kuo, “Perceptual visual qualitymetrics: A survey,” Journal of Visual Communicationand Image Representation, vol. 22, no. 4, pp. 297–312,May 2011.[4] S. S. Hemami and A. R. Reibman, “No-reference imageand video quality estimation: Applications and humanmotivateddesign,” Signal Processing: ImageCommunication, vol. 25, no. 7, pp. 469–481, 2010.[5] Z. Wang and A. Bovik, “Reduced- and No-ReferenceImage Quality Assessment,” IEEE Signal ProcessingMagazine, vol. 28, no. 6, pp. 29–40, Nov. 2011.[6] R. V. Babu, S. Suresh, and A. Perkis, “No-referenceJPEG-image quality assessment using GAP-RBF,”Signal Processing, vol. 87, no. 6, pp. 1493–1503, 2007.[7] X. Jiang, F. Meng, J. Xu, and W. Zhou, “No-ReferencePerceptual Video Quality Measurement for HighDe�nition Videos Based on an Arti�cial NeuralNetwork,” in Computer and Electrical Engineering,2008. ICCEE 2008. International Conference on, 2008,pp. 424–427.[8] J. Choe, K. Lee, C. Lee, and S. Korea, “No-referencevideo quality measurement using neural networks,” in2009 16th International Conference on Digital SignalProcessing, 2009, pp. 1–4.[9] S. Suresh, R. Venkatesh Babu, and H. J. Kim, “Noreferenceimage quality assessment using modi�edextreme learning machine classi�er,” Applied SoftComputing, vol. 9, no. 2, pp. 541–552, Mar. 2009.[10] A. M. Eskicioglu and P. S. Fisher, “Image qualitymeasures and their performance,” IEEE Transactionson Communications, vol. 43, no. 12, pp. 2959–2965,1995.[11] U. Engelke and H.-J. Zepernick, “Perceptual-basedQuality Metrics for Image and Video Services: ASurvey,” in Proceedings EuroNGI Conf. NextGeneration Internet Networks, 2007, pp. 190–197.[12] Z. Wang, A. C. Bovik, H. R. Sheikh, and E. PSimoncelli, “Image quality assessment: from errorvisibility to structural similarity.,” IEEE Transactions onImage Processing, vol. 13, no. 4, pp. 600–612, 2004.[13] Z. Wang, E. P. Simoncelli, and A. C. Bovik, “Multiscalestructural similarity for image quality assessment,” inThe Thrity-Seventh Asilomar Conference on Signals,Systems & Computers, 2003, 2003, vol. 2, no. 1, pp.1398–1402.[14] H. R. Wu, K. R. Rao, and A. A. Kassim, “Digital VideoImage Quality and Perceptual Coding,” Journal ofElectronic Imaging, vol. 16, no. 3, 2007.[15] Z. Wang and A. C. Bovik, “A universal image qualityindex,” IEEE Signal Processing Letters, vol. 9, no. 3,pp. 81–84, Mar. 2002.[16] Y. Shi, Y. Ding, R. Zhang, and J. Li, “Structure and HueSimilarity for Color Image Quality Assessment,” in 2009International Conference on Electronic ComputerTechnology, 2009, pp. 329–333.[17] W. B. Silva, A. A. P. Pohl, and K. V. O. Fonseca, “AReduced-Reference Video Quality Assessment Methodbased on the Activity-Di�erence of DCT Coe�cients,”IEICE Transactions on Information and Systems, vol. E96-D, no. 3, 2013.[18] P. Le Callet, C. Viard-Gaudin, and D. Barba, “A Convolutional Neural Network Approach for Objective Video Quality Assessment,” IEEE Transactions on Neural Networks, vol. 17, no. 5, pp. 1316–1327, 2006.[19] P. Le Callet and D. Barba, “Image Quality Assessment: From Sites Errors to a Global Appreciation of Quality,” in Proceedings of the Picture Coding Sympsium, 2001, pp. 105–108.[20] M. Miyahara, K. Kotani, and V. R. Algazi, “Objective picture quality scale (PQS) for image coding,” IEEE Transactions on Communications, vol. 46, no. 9, pp. 1215–1226, 1998.[21] M. Slanina, V. Ricny, and R. Forchheimer, “A Novel Metric for H.264/AVC No-Reference Quality Assessment,” in 14th International Workshop on Systems, Signals and Image Processing and 6th EURASIP Conference focused on Speech and Image Processing, Multimedia Communications and Services, 2007, pp. 114–117.[22] O. Sugimoto, S. Naito, S. Sakazawa, and A. Koike, “Objective perceptual video quality measurement method based on hybrid no reference framework,” in 16th IEEE International Conference on Image Processing (ICIP’09), 2009, pp. 2237–2240.[23] T. Oelbaum, C. Keimel, and K. Diepold, “Rule-Based No-Reference Video Quality Evaluation Using Additionally Coded Videos,” IEEE Journal of Selected Topics in Signal Processing, vol. 3, no. 2, pp. 294–303, 2009.[24] N. Staelens, N. Vercammen, Y. Dhondt, B. Vermeulen, P. Lambert, R. de Walle, and P. Demeester, “ViQID: A No-Reference bit stream-based visual quality impairment detector,” in Proceedings of the Second Int Quality of Multimedia Experience (QoMEX) Workshop, 2010, pp. 206–211.[25] F. Yang, S. Wan, Q. Xie, and H. R. Wu, “No-Reference Quality Assessment for Networked Video via Primary Analysis of Bit Stream,” IEEE Transactions on Circuits and Systems for Video Technology, vol. 20, no. 11, pp. 1544–1554, Nov. 2010.[26] Z. Wang, H. R. Sheikh, and A. C. Bovik, “Objective Video Quality Assessment,” in The Handbook of Video Databases: Design and Applications, B. Furht and O. Marques, Eds. Boca Raton, FL, USA: CRC Press, 2003, pp. 1041–1078.[27] W. B. da Silva and A. de A. P. Pohl, “Métodos Sem Referência Baseados em Características Espaço-Temporais para Avaliação Objetiva de Qualidade de Vídeo Digital,” Universidade Tecnológica Federal do Paraná (UTFPR), 2013.[28] G.-B. Huang, Q.-Y. Zhu, and C.-K. Siew, “Extreme learning machine: Theory and applications,” Neurocomputing, vol. 70, no. 1–3, pp. 489–501, Dec. 2006.[29] Z. Wang, H. R. Sheikh, and A. C. Bovik, “No-reference perceptual quality assessment of JPEG compressed images,” in Image Processing. 2002. Proceedings. IEEE International Conference on Image Processing, 2002, vol. 1, pp. vol.1 I–477 – I–480.[30] W. B. Silva and A. A. P. Pohl, “No-Reference Video Quality Assessment Method based on the Levenberg-Marquardt Minimization,” in XXX Brazilian Symposium on Telecommunications (SBrT’12), 2012.[31] ITU-T P.910, “Subjective video quality assessment methods for multimedia applications,” Standardization Sector of ITU, 1999.[32] W. Ding, Y. Tong, Q. Zhang, and D. Yang, “Image and Video Quality Assessment Using Neural Network and SVM,” Tsinghua Science &amp; Technology, vol. 13, no. 1, pp. 112–116, 2008.[33] K. S. Banerjee, C. R. Rao, and S. K. Mitra, “Generalized Inverse of Matrices and Its Applications,” Technometrics, vol. 15, no. 1, p. 197, Feb. 1973.[34] VQEG, “Final report from the video quality experts group on the validation of reduced-reference and no-reference objective models for standard de�nition television, Phase I,” 2009.[35] VQEG, “Report on the validation of video quality models for high de�nition video content,” 2010.[36] J. W. Tukey, Exploratory Data Analysis. New York: Addison-Wesley Publishing Company, 1977.[37] P. Gastaldo and R. Zunino, “Neural networks for the no-reference assessment of perceived quality,” J. Electronic Imaging, vol. 14, no. 3, p. 033004, 2005.[38] R. Herzog, M. Čadík, T. O. Aydın, K. I. Kim, K. Myszkowski, and H.-P. Seidel, “NoRM: No-Reference Image Quality Metric for Realistic Image Synthesis,” Comp. Graph. Forum, vol. 31, no. 2pt4, pp. 545–554, 2012.

Revista de Radiodifusão • v. 08 • n. 09 • 2014

Análise Comparativa de Características Temporais de Vídeos Digitais

30

3.2. Extração do Parâmetro TIUma versão da Equação (2) foi usada para obter o

valor de TI entre quadros sucessivos, conforme a Equa-ção (7). Diferentemente da Equação (2), a Equação (7)não utiliza o valor de pico da diferença de movimento(Mn{i, j}).

T In = stdspace[Mn{i, j}]. (7)

Para aplicar este método, foi adaptado o algoritmo de-senvolvido por Silva [9] para extração de característicastemporais em vídeos digitais.

3.3. Extração do Parâmetro MVOs parâmetros MV possuem sua informação inclusa

no fluxo de dados (bitstream) da codificação do vídeo. Acodificação utilizada neste trabalho é a MPEG-2, e paraextrair o MV do fluxo de dados codificado foi utilizadoum algoritmo que simula a codificação (MPEG-2) dovídeo gerando assim os valores de MV a partir do vídeono formato YUV.

1) Carrega o vídeo (YUV) para codificá-lo;2) Codifica o vídeo e retorna os dados no formato

MPEG [12];3) Extrai do processo de codificação os valores dos

vetores de movimento para cada macrobloco emcada quadro;

4) Armazena os valores em uma estrutura paraposterior análise.

O algoritmo desenvolvido foi adaptado do algoritmode codificação e decodificação de MPEG-2 [12] imple-mentado por Hoelzer [16], adaptando este para a ex-tração e armazenamento do parâmetro MV. Os vetoresgerados por este código representam o movimento en-tre dois quadros consecutivos, cuja localização pertençaa um macrobloco de 16× 16 pixels.

Para exemplificar este processo, as Figuras 2(a) e2(b) ilustram dois quadros sucessivos do vídeo robot,cujos vetores de movimento obtidos pelo algoritmo pro-posto estão representados na Figura 2(c).

A inspeção visual da Figura 2 mostra que a amplitudedos vetores de movimento onde há maior movimen-tação nos quadros são maiores, como no caso dasregiões em que é representada a luta entre os robôsda animação. Isto ocorre devido ao maior deslocamentoespacial destes macroblocos (16 × 16 pixels) entre osdois quadros sucessivos. A extração destas amplitudesé feita no algoritmo proposto, utilizando a Equação (4),e a partir destes valores pode-se chegar a um valorabsoluto de MV para cada quadro, cuja média é dadapela razão entre as amplitudes e o número de vetores,em que a medida MV gerada é adimensional.

3.4. Comparação Estatística entre TI e MVPara realizar uma comparação estatística são apli-

cadas algumas manipulações nas medidas de TI e MV.Inicialmente, é preciso normalizar os valores de TI e MV.

(a)

(b)

0 20 40 60 80 100 120

0

10

20

30

40

50

60

70

(c)

Fig. 2. Extração de dois quadros consecutivos. (a) Quadro 29;(b) Quadro 30; (c) MV com macroblocos de 16× 16 pixels entredois quadros consecutivos.

Como ambos possuem valores adimensionais e positi-vos, a normalização proposta é dada pelas Equações(8) e (9), as quais, restringirão todos os valores a umintervalo entre zero e um.

T Inorm(n) =TI(n)

maxn{TI}, (8)

MVnorm(n) =MV (n)

maxn{MV }. (9)

Após esta normalização, aplicam-se os coeficientes

Page 31: Revista de RADIODIFUSÃO - SET PORTAL · Sinais de TV Digital ISDB-Tb via VHF e UHF na Cidade do Gama – DF – Brasil Akamine, Cristiano Bedicks Jr, Gunnar ... cujas frequências

MÉTRICA SEM REFERÊNCIA BASEADA EM REDES NEURAISPARA AVALIAÇÃO OBJETIVA DE QUALIDADE DE VÍDEO DIGITALWyllian Bezerra da Silva, Alexandre de Almeida Prado PohlPrograma de Pós-Graduação em Engenharia Elétrica e Informática Industrial (CPGEI) – UTFPR, Curitiba, [email protected], [email protected]: Este trabalho apresenta uma métrica sem referência para avaliação de qualidade de vídeo digital baseada em uma rede neural arti�cial que usa uma versão estendida do algoritmo de aprendizado ELM (Extreme Learning Machine). O método proposto realiza o treinamento da rede neural a partir de seis características espaço-temporais. Os resultados experimentais mostram que o método proposto apresenta desempenho superior às métricas de referência completa PSNR e MS-SSIM na tarefa de predição de qualidade de vídeo. Logo, o método proposto pode ser usado no monitoramento de qualidade em sistemas de transmissão e recepção de vídeo digital, tais como IPTV e TV digital.Palavras chave: algoritmo ELM, avaliação objetiva de vídeo, métrica sem referência, rede neural arti�cial.1. INTRODUÇÃODurante os últimos anos, a literatura tem apresentado um número crescente publicações acerca de métricas objetivas para avaliação de qualidade de vídeo para diversas aplicações em radiodifusão ou no processamento de vídeo digital, seja na aquisição do sinal, codi�cação e decodi�cação, compressão, transmissão, restauração, armazenamento, segmentação e exibição de sinais de vídeo digital [1–4]. A avaliação de qualidade de vídeo digital pode ser realizada por meio de métricas subjetiva e objetiva. A primeira requer uma grande quantidade de recursos humanos e apresenta elevado custo em sua implementação [1–3]. Porém, as métricas objetivas são vantajosas quando apresentam um determinado grau de correlação com as métricas subjetivas. Logo, o desenvolvimento destas é um desa�o no campo de avaliação de qualidade de vídeo e imagem. Além disso, as métricas objetivas, devido à natureza de seu critério objetivo, independem de interação humana e são facilmente reprodutíveis [3]. Dentre as métricas objetivas destacam-se as métricas sem referência (No-Reference – NR), pois não necessitam do vídeo de referência no cálculo de sua medida. Entretanto, estas requerem um conhecimento a priori sobre as distorções em vídeo digital para que seja estabelecida uma correlação com os resultados subjetivos [3].A maioria das métricas NR encontradas na literatura são baseadas na avaliação de qualidade de imagens e em características relacionadas ao Sistema Visual Humano (SVH). Assim, o desenvolvimento de métricas NR é difícil, devido à necessidade de emular a percepção do SVH que envolve aspectos cognitivos, emocionais e estéticos relacionados ao conteúdo do vídeo e que são altamente dependentes do observador [4], [5].A literatura reporta diversos esforços no desenvolvimento de métricas para avaliação de qualidade de vídeo baseadas em redes neurais e em algoritmos de aprendizado. Babu et al. [6] apresentam uma métrica para avaliar a qualidade de imagens comprimidas em JPEG (Joint Photographic Experts Group) por meio de um algoritmo de aprendizado de crescimento e propõem o uso de uma rede neural GAP-RBF (Growing and Pruning Radial Basis Function) que usa características relacionadas ao SVH. Jiang et al. [7] desenvolveram uma métrica NR para avaliação de qualidade de vídeo em HD (High De�nition) baseada em uma rede neural treinada pelo algoritmo BP (Back-Propagation) que usa seis características espaço-temporais e a RoI (Region of Interest). Choe et al. [8] desenvolveram uma métrica NR baseada no �uxo de bits para avaliação de qualidade de vídeo codi�cado em H.264. Esta métrica extrai características quadro a quadro e usa uma rede neural alimentada adiante (feedforward) com três camadas. Suresh et al. [9] apresentaram uma extensão do algoritmo ELM na tarefa de avaliar a qualidade de imagens comprimidas em JPEG com base no esquema de seleção múltipla KS-ELM (K-fold selection Scheme using ELM) e no algoritmo RCGA-ELM (Real-Coded Genetic Algorithm using ELM) para seleção dos pesos de entrada e polarizações.Este trabalho apresenta uma versão estendida do algoritmo ELM para redes neurais SLFN (Single-hidden-Layer Feedforward Neural Networks) que implementa um simples critério de parada na fase de treinamento. Além disso, esse método usa seis características espaço-temporais de vídeos submetidos a diversas condições de distorção.Este artigo está dividido da seguinte maneira: a Seção 2 descreve as métricas para avaliação de qualidade de vídeo. A Seção 3 descreve o método NR proposto para avalição de qualidade de vídeo digital. A Seção 4 apresenta os resultados experimentais, em que são comparados o método NR proposto e duas métricas FR. Finalmente, a Seção 5 apresenta a conclusão do artigo.2. AVALIAÇÃO DE QUALIDADE DE VÍDEOO processo de avaliação de qualidade de vídeopode ser realizado com a aplicação de métricassubjetivas ou objetivas. As métricas subjetivasestimam a qualidade do vídeo por meio de avaliadoreshumanos. Logo, exigem um alto custo, poisnecessitam de uma grande quantidade de recursoshumanos e apresentam problemas quanto aosrequisitos de imparcialidade e reprodutibilidade,tornando-se inapropriadas em sistemas deradiodifusão ou em provedores de conteúdo [10], [11].Por outro lado, as métricas objetivas são baseadas emmodelos matemáticos, cujo objetivo é produzir umescore de qualidade que emule a percepção do SVH.Além disso, as métricas objetivas requerem baixocusto de implementação (quando comparadas com asmétricas subjetivas) e não apresentam problemasquanto à reprodutibilidade e imparcialidade.As métricas objetivas para avaliação de qualidadede vídeo podem ser classi�cadas em três categorias:(i) métricas de referência completa (Full-Reference –FR); (ii) métricas de referência reduzida (Reduced-Reference – RR); (iii) métricas sem referência (NR).2.1. Métricas FRAs métricas FR requerem o vídeo de referência(fonte) no cálculo do escore de qualidade. Estasmétricas são amplamente utilizadas no processo devalidação de métricas RR ou NR, por meio dacomparação de desempenho de�nida pelasrecomendações do Grupo de Especialistas emQualidade de Vídeo (VQEG – Video Quality ExpertsGroup) que é um órgão de padronização internacionalde métricas subjetivas e objetivas de qualidade devídeo. Dentre as métricas FR, destacam-se o PSNR(Peak Signal-to-Noise Ratio), SSIM (StructuralSIMilarity index) [12] e MS-SSIM (Multi-ScaleStructural SIMilarity index) [13].O PSNR é uma métrica FR baseada no erro pixel apixel de fácil implementação. Entretanto, apresentabaixa correlação com o SVH [14]. A sua medida éprocessada sobre o erro quadro a quadro, i.e., entre oquadro original x e o quadro y . A expressão a seguirde�ne o PSNR para um conjunto de quadros F .2011PSNR 20log ,Fff fvF � MSE� �� � �� �� ��(1)com� � � �20 01MSE , , , , ,N Mfi jx f i j y f i jNM � �� ���� � ��(2)em que o termo f v é igual a (2 1) k � , cujo k é onúmero de bits por pixel, i.e., é a componente deluminância do quadro f . Os termos x �f ,i, j � ey �f ,i, j � são os valores de luminância do quadro deorigem e degradado, respectivamente. Ascomponentes bidimensionais são representadas pelonúmero de colunas N e pelo número de linhas M . Otermo f MSE é de�nido como erro quadrático médioou MSE (Mean Square Error).A métrica SSIM baseia-se no fato de que o SVH éfortemente adaptado para extrair informações dascaracterísticas estruturais de um quadro ou imagem.Logo, uma medida de similaridade estrutural (oudistorção) pode prover boa aproximação para aqualidade perceptual de um vídeo [3, 7–9]. Sejam x ey dois sinais não-negativos, em que y é o sinaldegradado e x é o sinal original (sem perda dequalidade), a medida de similaridade é utilizada comoum índice quantitativo de qualidade do sinal distorcido,ou seja, x é tomado como a referência para medir aqualidade de y . A métrica SSIM possui diversasextensões, dentre as quais a versão MS-SSIM,proposta por Wang et al. [13] que assume umaabordagem multiescalar.2.2. Métricas RRAs métricas de referência reduzida retiram certaquantidade de características do vídeo original (fonte),baseadas em componentes espaciais, temporais, nodomínio da frequência ou no �uxo de bits (bitstream).Este tipo de métrica é amplamente utilizada nomonitoramento de transmissões em rede [17]. Nestetipo de cenário de aplicação, o vídeo é transmitidocom uma sequência de informação codi�cada(overhead) e no lado receptor ocorre a suadecodi�cação, seguido pelo cálculo do índice dequalidade, o qual é obtido por meio da comparaçãoentre a representação reduzida da informação nospares emissor e receptor [18]. Tipicamente, métricasRR são implementadas por meio de funções, divididasem duas etapas [19]: (i) cálculo do erro entre osvídeos original e distorcido, constituído pela diferençade suas características, a �m de compor arepresentação reduzida da informação; (ii) função queagrupa os erros ou diferenças para obter um índice dequalidade global. Algumas métricas RR explorampropriedades dos artefatos, por meio da extração decaracterísticas e um modelo de parametrização [20]com foco em tipos especí�cos de distorções(artefatos). Esta abordagem é encontrada em Silva etal. [17], cujo cálculo do escore de qualidade ébaseado na diferença de atividade dos coe�cientesDCT (Discrete Cosine Transform) em um macro blococom resolução de 16�16 pixels.2.3. Métricas NRAs métricas NR extraem característicasrelacionadas ao SVH do vídeo distorcido, i.e., narecepção do sinal de vídeo [14]. Tipicamente, há duasabordagens no desenvolvimento destas métricas: (i)extração dos parâmetros sobre o �uxo de bits, taiscomo a taxa de compressão, informaçõesrelacionadas ao GoP (Group of Pictures), estimaçãode movimento, per�l e nível de codi�cação, bem comoo parâmetro de quantização ou QP (QuantizationParameter) [21–25]. Métricas NR apresentam maiorcomplexidade quando são aplicadas em vídeo, devidoà variação temporal dos quadros, conteúdos dascenas e à di�culdade de compreensão dascaracterísticas do SVH [26]. Assim, algumas métricasdessa categoria exploram características espaciais etemporais na estimação de qualidade de vídeo [21].3. MÉTODO PROPOSTOO método proposto, denominado NRVQA-ELMtc(No-Reference Video Quality Assessment usingExtreme Learning Machine algorithm with terminationcriteria) [27] combina características espaciais etemporais, por meio de uma rede neural arti�cialSLFNs usando o algoritmo de treinamento ELM [28]com a implementação de um simples critério deparada.3.1. Características espaço-temporaisAs características espaciais incorporadas nométodo proposto são baseadas em medidas deartefatos em vídeo digital, i.e., distorções de blocageme borramento desenvolvidas por Wang et al. [20].Assim, a componente de luminância do quadro f érepresentada por y(f , i, j ) com i � ��1,M�� e j � ��1, N�� ,em que M e N são os números de linhas e colunas,respectivamente, de um quadro. Logo, as diferençasde luminância ao longo das linhas e colunas sãorepresentadas, respectivamente, pelas expressões aseguir.� � � � � � � �� � � � � � � �, , , , 1 , , , 1, 1 ,, , , 1, , , , 1, 1 .hvd f i j y f i j y f i j j Nd f i j y f i j y f i j i M� � � � �� � � � �(3)O efeito de blocagem pode ser estimado pelamédia das diferenças entre as bordas dos blocos daDCT (Discrete Cosine Transform) nas direçõeshorizontal e vertical para uma sequência F dequadros, conforme mostra a Equação (4), com ummacrobloco de dimensão � �� , cujo tamanho típico éde � � 8 [20].� � ��� � � �111 1 1111 1 11, , 1 ,111, 1 , .11NF Mh hf i jMF Nvi jvfB d f i jNF MB d f i jMF N��������� � ���� � �� �� �� � � �� � �� �� �� � � �� � �� � �� � �(4)A medida de blocagem em uma sequência devídeo com F quadros é determinada pela média entreh B e v B , caracterizando a medida B , conforme aexpressão a seguir..2h v B BB�� (5)Os efeitos de borramento são estimados pelocálculo da redução de atividade entre os blocos � �� ,em que é usada a medida de blocagem nas direçõeshorizontal e vertical, conforme as expressões� � � �� �� � � �� �11 1 111 1 1, , ,1 1, ,1.1F M Nh h hf i jF M Nv vfvi jA d f i j BF M NA d f i j BF N M������ � ��� � �� �� � �� �� � �� � �� � �(6)A medida de borramento, representada por A ,conforme a Equação (7), é determinada pela médiaentre h A e v A ..2h v A AA�� (7)O segundo fator que contribui para a detecção doartefato de borramento é baseado na taxa decruzamento por zero (Zero Crossing – ZC) nasdireções horizontal e vertical, conforme as expressõesa seguir.� �� �� �� �21 1 121 1 11, , ,21, , ,2F M Nh hf i jF M Nv vf i jZ z f i jF M NZ z f i jF N M�� � ��� � ��� ��� �� � �� � �(8)em que os termos h z e v z são determinados por� �� �1, na direção horizontal, , ,0, caso contrário1, na direção vertical, , .0, caso contráriohvz f i jz f i j�� �� �� ��(9)Assim, a medida de borramento Z é determinadapela média entre as componentes h Z e v Z ..2h v Z ZZ�� (10)O método proposto também incorpora trêscaracterísticas temporais no treinamento da redeneural SLFN com o algoritmo ELM.A primeira característica temporal é a diferença demovimento entre quadros adjacentes, representadapela variável TI (Temporal perceptual Information) [31]que considera os valores de luminância de pixelslocalizados em uma mesma região de um quadro,conforme a expressão a seguir.� �21, , ,1FfTI m f i jF��� �� �� �� (11)em que o número total de quadros é F e � �m�f ,i, j ��� �é o desvio padrão da diferença de movimento(diferença de luminância) entre o quadro atualy �f ,i, j � e o quadro anterior y �f �1,i, j � .A segunda característica temporal é a média dadiferença absoluta (Mean Absolute Di�erence – MAD)[31] entre quadros sucessivos, representada pelaEquação (12) que de�ne a medida global da MADpara todos os quadros de um vídeo.� �� � � �2 1 11, , 1, , .1F M Nf i jMAD y f i j y f i jM N F � � �� � �� �� � �(12)A terceira característica temporal é a média dadiferença absoluta ponderada (weighted MeanAbsolute Di�erence – MADw) [32], a qual mede o graude variação das cenas de um vídeo que considera acena atual de um quadro f e do quadro anterior f �1,conforme a expressão:2 11.1Fff fMADMADwF � MAD �� �� � �� � ��(13)Assim, o método proposto combina ascaracterísticas espaciais e temporais em uma matriz� , , , , , � f f f f f f f x � A B Z TI MAD MADw , em que f é onúmero de amostras de vídeo. A Figura 1 apresentaas características temporais � espaciais de dezessetebases de dados de vídeos (denominada superconjuntoS) usadas neste trabalho e reportadas em [27]. Arecomendação ITU-T P.910 [31] de�ne a medida SI(Spatial perceptual Information) como informaçãoespacial perceptual. A inspeção visual dessa �guramostra que as amostras de vídeo usadas nestetrabalho apresentam uma grande variação espaçotemporal.Fig. 1. Características espaciais e temporais do superconjuntoS com 216 amostras de referência3.2. Métrica NRVQA-ELMtcO algoritmo ELM [28] desenvolvido para otreinamento de uma rede SLFN atribui pesos epolarizações (biases) de maneira aleatória, segundouma distribuição uniforme. O treinamento compreendeN amostras distintas representadas pela variável�� , � , , 1, , � n mf f f f � � x t x � t � f � N , cujo cálculo éconforme a expressão� � � �1, 1, , ,KK i j j f j fff � g b f N�x � � w x � � o � (14)em que f o é a saída (escore objetivo), g(x) é afunção de ativação e j � é o peso que conecta o jésimoneurônio da camada oculta ao neurônio desaída. De acordo com [28], uma rede SLFN com Knós na camada oculta e uma função de ativação g(x)pode apresentar um erro médio próximo de zero, i.e.,10Kf ff �� o � t � . Logo, há parâmetros j � , j w e j b talque� �1, 1, , ,Kj j f j ff� g b f N�� w x � � t � (15)em que f t é o vetor alvo (escores subjetivos),T1, , j j jn � �w w � � � w é o vetor de peso que conecta o jésimoneurônio da camada oculta ao neurônio dacamada de entrada, j b denota a polarização (bias) doj-ésimo neurônio da camada oculta, � � j f w x é oproduto interno de j w e f x . A Figura 2 ilustra oalgoritmo ELM empregado em uma arquitetura derede neural SLFN.xi1βjN1jKtibjN input neuron K hidden neuron output neuronβ1βKwjFig. 2. Arquitetura de uma rede neural SLFN usando algoritmode treinamento ELMO sistema linear da Equação (16) resume o métododo algoritmo ELM.Hβ � T, (16)em que a matriz da camada oculta é representada por� � � 1, , and 1, , � � H � h f � N j � K com a primeiralinha da matriz de características f x igual aT1 2 , , , f f f fn x � ��x x x �� , i.e., a primeira linha é igual a� � 1 1 1 1 1 1 1 , , , , , f f f f f f f x � A B Z TI MAD MADw . A matriz desaída e o vetor alvo (target) são de�nidos comoT1 , K β � ��β β �� eT1, , N T � ��t t �� , respectivamente. Otermo � �T1 , 1, , j jm j � � � j � K � � β β β denota o vetor depeso que conecta o j-ésimo neurônio da camadaoculta e os neurônios de saída. Hung et al. [28]propuseram a atribuição aleatória de pesos aosparâmetros j w e j b , a �m de seja obtido um pequenoerro não-nulo durante o treinamento. Considerando osistema linear da Equação (17), os pesos da camadade saída podem ser aproximados por† β � H T (17)em que † H é de�nida como matriz inversageneralizada de Moore-Penrose (MP) [33] da matrizde saída da camada oculta �H� . Além disso, oconjunto de treinamento � , nó oculta K e umafunção de ativação g �x � , e.g., função de base radial(Radial Basis Function – RBF), hard-limiting (hardlim),sigmoidal (sig) e seno (sin). Em resumo, o algoritmoELM compreende três etapas [28]:i) Atribuição aleatória dos pesos de entrada j w epolarizações j b ;ii) Cálculo da matriz da camada de saída H ;iii) Cálculo dos pesos de saída † β: β� H T .O método NRVQA-ELMtc [27] implementa umsimples critério de parada no treinamento da redeneural SLFN, quanto à atribuição aleatória dos pesosj w e j b . Embora este critério não seja direcionado,busca os pesos relacionados com o menor RMSE(Root-Mean-Square Error) entre a saída desejada(escore subjetivo) e o escore objetivo na fase detreinamento com k iterações (tipicamente, k � 100 ) eN neurônios na camada oculta. Além disso, conformeestudo realizado em [27], caso o RMSE seja menor doque 0,5 o algoritmo cessa a busca pelos parâmetrosj w e j b .4. RESULTADOS EXPERIMENTAISEsta seção apresenta os resultados de acurácia,i.e., os coe�cientes de correlação linear de Pearson(Pearson Linear Correlation Coe�cient – PLCC) [34],[35], entre os escores objetivos e subjetivos de 2627amostras de vídeo estudadas em [27].A Figura 3 compara a acurácia (PLCC) entre asmétricas de referência completa (FR) PSNR e MSSSIMcom o método proposto (NRVQA-ELMtc) paraas 2627 amostras de vídeo, pertencentes a 17 basesde dados de vídeo disponibilizadas por diversasinstituições e laboratórios [27]. A função de ativaçãousada na rede neural SLFN foi o seno (sin) com onúmero de amostras de teste igual ao número deneurônios na camada oculta ( N ). O método devalidação cruzada múltipla (K-fold) foi usado com oobjetivo de gerar uma distribuição de acurácia, a qualfoi analisada por meio do diagrama de caixa (box-plot)[36], em que o traço, o círculo e o quadrado, ambosem vermelho, representam a mediana, a média e odesvio padrão, respectivamente. Destaca-se queneste trabalho foi empregada uma validação cruzadacom um grande número de amostras de treinamentotestecom K � 100 , i.e., cada caixa do box-plotcomporta 100 experimentos distintos. Tipicamente, aliteratura apresenta trabalhos no campo da avaliaçãoFig. 3. Box-plot da predição da acurácia (PLCC) entre as métricas PSNR, MS-SSIM e o método proposto NRVQA-ELMtcde qualidade de vídeo com K entre 5 e 10 [37], [38].Pela inspeção visual da Figura 3 observa-se que odesempenho do método proposto é superior àsmétricas FR, em quaisquer condições de teste, i.e.,para qualquer quantidade de amostras de teste(número de neurônios na camada oculta) entre 25 e500. Em especial, para N � 50 , o método propostoapresenta valores de PLCC, em termos da média emediana, acima de 0,8, denotando uma forteassociação entre os escores objetivos e subjetivos, natarefa de predição de qualidade de vídeo. Isto ocorredevido à grande quantidade de amostras de vídeousadas no treinamento, e.g., para N � 300 foramusadas 2327 amostras de treinamento, ou seja,mesmo usando pares de treinamento-teste disjuntos,o método proposto mostra uma acurácia superior àsmétricas de referência completa. A assimetria positiva,i.e., a maior concentração da acurácia entre osegundo quartil (mediana) e o terceiro quartil, nadistribuição do box-plot nos testes com 300 e 500neurônios na camada oculta, indica que o métodoproposto apresenta um desempenho expressivo emcomparação com as métricas FR.Entretanto, mesmo para N entre 25 e 50, ométodo proposto apresentou uma acurácia maior doque as métricas FR, cujo melhor resultado foi paraN � 25 com o desvio-quartil (amplitude interquartílica)con�nado entre 0,65 e 0,8. Além disso, este resultadotambém apresentou assimetria positiva com a médiado PLCC em torno de 0,75.5. CONCLUSÃOEste trabalho apresentou uma métrica NR baseadaem uma rede neural arti�cial SLFN, cujo treinamento édeterminado pelo algoritmo ELM, o qual consideracaracterísticas espaço-temporais e os escoressubjetivos (alvos) extraídos de 2627 amostrastreinamento. Além disso, este trabalho propõe umaextensão do algoritmo ELM por meio de um simplescritério de parada, a �m de que sejam obtidosparâmetros da rede neural arti�cial relacionados como menor RMSE. Tipicamente, a comparação entremétricas FR e NR é injusta, devido à ausência dovídeo de referência na obtenção do escore dequalidade em métricas NR. Entretanto, os resultadosexperimentais mostram que o método propostoapresentou desempenho superior às métricas dereferência completa PSNR e MS-SSIM, sobretudo,quando o número de amostras de teste e de neurôniosna camada oculta da rede SLFN é maior do que 250.Logo, a métrica NRVQA-ELMtc pode ser empregadano monitoramento de qualidade em sistemas detransmissão e recepção de vídeo digital, tais comoIPTV (Internet Protocol Television), TV digital ou emdispositivos móveis, tais como ultrabooks,smartphones, tablets e em aparelhos WiDi (WirelessDisplay).REFERÊNCIAS[1] S. Winkler, “Issues in vision modeling for perceptualvideo quality assessment,” Signal Processing, vol. 78,no. 2, pp. 231–252, 1999.[2] Z. Wang and A. C. Bovik, Modern image qualityassessment. San Rafael, CA: Morgan & Claypool,2006.[3] W. Lin and C.-C. Jay Kuo, “Perceptual visual qualitymetrics: A survey,” Journal of Visual Communicationand Image Representation, vol. 22, no. 4, pp. 297–312,May 2011.[4] S. S. Hemami and A. R. Reibman, “No-reference imageand video quality estimation: Applications and humanmotivateddesign,” Signal Processing: ImageCommunication, vol. 25, no. 7, pp. 469–481, 2010.[5] Z. Wang and A. Bovik, “Reduced- and No-ReferenceImage Quality Assessment,” IEEE Signal ProcessingMagazine, vol. 28, no. 6, pp. 29–40, Nov. 2011.[6] R. V. Babu, S. Suresh, and A. Perkis, “No-referenceJPEG-image quality assessment using GAP-RBF,”Signal Processing, vol. 87, no. 6, pp. 1493–1503, 2007.[7] X. Jiang, F. Meng, J. Xu, and W. Zhou, “No-ReferencePerceptual Video Quality Measurement for HighDe�nition Videos Based on an Arti�cial NeuralNetwork,” in Computer and Electrical Engineering,2008. ICCEE 2008. International Conference on, 2008,pp. 424–427.[8] J. Choe, K. Lee, C. Lee, and S. Korea, “No-referencevideo quality measurement using neural networks,” in2009 16th International Conference on Digital SignalProcessing, 2009, pp. 1–4.[9] S. Suresh, R. Venkatesh Babu, and H. J. Kim, “Noreferenceimage quality assessment using modi�edextreme learning machine classi�er,” Applied SoftComputing, vol. 9, no. 2, pp. 541–552, Mar. 2009.[10] A. M. Eskicioglu and P. S. Fisher, “Image qualitymeasures and their performance,” IEEE Transactionson Communications, vol. 43, no. 12, pp. 2959–2965,1995.[11] U. Engelke and H.-J. Zepernick, “Perceptual-basedQuality Metrics for Image and Video Services: ASurvey,” in Proceedings EuroNGI Conf. NextGeneration Internet Networks, 2007, pp. 190–197.[12] Z. Wang, A. C. Bovik, H. R. Sheikh, and E. PSimoncelli, “Image quality assessment: from errorvisibility to structural similarity.,” IEEE Transactions onImage Processing, vol. 13, no. 4, pp. 600–612, 2004.[13] Z. Wang, E. P. Simoncelli, and A. C. Bovik, “Multiscalestructural similarity for image quality assessment,” inThe Thrity-Seventh Asilomar Conference on Signals,Systems & Computers, 2003, 2003, vol. 2, no. 1, pp.1398–1402.[14] H. R. Wu, K. R. Rao, and A. A. Kassim, “Digital VideoImage Quality and Perceptual Coding,” Journal ofElectronic Imaging, vol. 16, no. 3, 2007.[15] Z. Wang and A. C. Bovik, “A universal image qualityindex,” IEEE Signal Processing Letters, vol. 9, no. 3,pp. 81–84, Mar. 2002.[16] Y. Shi, Y. Ding, R. Zhang, and J. Li, “Structure and HueSimilarity for Color Image Quality Assessment,” in 2009International Conference on Electronic ComputerTechnology, 2009, pp. 329–333.[17] W. B. Silva, A. A. P. Pohl, and K. V. O. Fonseca, “AReduced-Reference Video Quality Assessment Methodbased on the Activity-Di�erence of DCT Coe�cients,”IEICE Transactions on Information and Systems, vol. E96-D, no. 3, 2013.[18] P. Le Callet, C. Viard-Gaudin, and D. Barba, “A Convolutional Neural Network Approach for Objective Video Quality Assessment,” IEEE Transactions on Neural Networks, vol. 17, no. 5, pp. 1316–1327, 2006.[19] P. Le Callet and D. Barba, “Image Quality Assessment: From Sites Errors to a Global Appreciation of Quality,” in Proceedings of the Picture Coding Sympsium, 2001, pp. 105–108.[20] M. Miyahara, K. Kotani, and V. R. Algazi, “Objective picture quality scale (PQS) for image coding,” IEEE Transactions on Communications, vol. 46, no. 9, pp. 1215–1226, 1998.[21] M. Slanina, V. Ricny, and R. Forchheimer, “A Novel Metric for H.264/AVC No-Reference Quality Assessment,” in 14th International Workshop on Systems, Signals and Image Processing and 6th EURASIP Conference focused on Speech and Image Processing, Multimedia Communications and Services, 2007, pp. 114–117.[22] O. Sugimoto, S. Naito, S. Sakazawa, and A. Koike, “Objective perceptual video quality measurement method based on hybrid no reference framework,” in 16th IEEE International Conference on Image Processing (ICIP’09), 2009, pp. 2237–2240.[23] T. Oelbaum, C. Keimel, and K. Diepold, “Rule-Based No-Reference Video Quality Evaluation Using Additionally Coded Videos,” IEEE Journal of Selected Topics in Signal Processing, vol. 3, no. 2, pp. 294–303, 2009.[24] N. Staelens, N. Vercammen, Y. Dhondt, B. Vermeulen, P. Lambert, R. de Walle, and P. Demeester, “ViQID: A No-Reference bit stream-based visual quality impairment detector,” in Proceedings of the Second Int Quality of Multimedia Experience (QoMEX) Workshop, 2010, pp. 206–211.[25] F. Yang, S. Wan, Q. Xie, and H. R. Wu, “No-Reference Quality Assessment for Networked Video via Primary Analysis of Bit Stream,” IEEE Transactions on Circuits and Systems for Video Technology, vol. 20, no. 11, pp. 1544–1554, Nov. 2010.[26] Z. Wang, H. R. Sheikh, and A. C. Bovik, “Objective Video Quality Assessment,” in The Handbook of Video Databases: Design and Applications, B. Furht and O. Marques, Eds. Boca Raton, FL, USA: CRC Press, 2003, pp. 1041–1078.[27] W. B. da Silva and A. de A. P. Pohl, “Métodos Sem Referência Baseados em Características Espaço-Temporais para Avaliação Objetiva de Qualidade de Vídeo Digital,” Universidade Tecnológica Federal do Paraná (UTFPR), 2013.[28] G.-B. Huang, Q.-Y. Zhu, and C.-K. Siew, “Extreme learning machine: Theory and applications,” Neurocomputing, vol. 70, no. 1–3, pp. 489–501, Dec. 2006.[29] Z. Wang, H. R. Sheikh, and A. C. Bovik, “No-reference perceptual quality assessment of JPEG compressed images,” in Image Processing. 2002. Proceedings. IEEE International Conference on Image Processing, 2002, vol. 1, pp. vol.1 I–477 – I–480.[30] W. B. Silva and A. A. P. Pohl, “No-Reference Video Quality Assessment Method based on the Levenberg-Marquardt Minimization,” in XXX Brazilian Symposium on Telecommunications (SBrT’12), 2012.[31] ITU-T P.910, “Subjective video quality assessment methods for multimedia applications,” Standardization Sector of ITU, 1999.[32] W. Ding, Y. Tong, Q. Zhang, and D. Yang, “Image and Video Quality Assessment Using Neural Network and SVM,” Tsinghua Science &amp; Technology, vol. 13, no. 1, pp. 112–116, 2008.[33] K. S. Banerjee, C. R. Rao, and S. K. Mitra, “Generalized Inverse of Matrices and Its Applications,” Technometrics, vol. 15, no. 1, p. 197, Feb. 1973.[34] VQEG, “Final report from the video quality experts group on the validation of reduced-reference and no-reference objective models for standard de�nition television, Phase I,” 2009.[35] VQEG, “Report on the validation of video quality models for high de�nition video content,” 2010.[36] J. W. Tukey, Exploratory Data Analysis. New York: Addison-Wesley Publishing Company, 1977.[37] P. Gastaldo and R. Zunino, “Neural networks for the no-reference assessment of perceived quality,” J. Electronic Imaging, vol. 14, no. 3, p. 033004, 2005.[38] R. Herzog, M. Čadík, T. O. Aydın, K. I. Kim, K. Myszkowski, and H.-P. Seidel, “NoRM: No-Reference Image Quality Metric for Realistic Image Synthesis,” Comp. Graph. Forum, vol. 31, no. 2pt4, pp. 545–554, 2012.

Revista de Radiodifusão • v. 08 • n. 09 • 2014 31

Eduardo Romani, Wyllian Bezerra da Silva, Keiko Verônica Ono Fonseca, Alexandre de Almeida Prado Pohl

PLCC e SROCC entre as medidas normalizadas, ex-pressos respectivamente pelas equações (5) e (6).

4. RESULTADOS E DISCUSSÃONesta seção serão exibidos os resultados experimen-

tais que comparam as medidas TI e MV. As Figuras 3e 4 ilustram os resultados de MV e TI para o vídeorobot. Nas Figuras 3(a) e 3(b), estão respectivamente,os valores adimensionais de MV e TI em relação aonúmero de quadros do vídeo. Já na Figura 3(c), estãosobrepostas as curvas normalizadas de MV e TI emrelação aos quadros, na qual, é possível observar umanítida relação entre as duas curvas, que também se-guem a mesma tendência no trecho entre os quadros90 e 95, em que ocorre uma mudança de cena.

Por meio destes resultados foi calculado o coeficientePLCC e SROCC entre TI e MV. O PLCC e o SROCCapresentaram valores de 0,7328 e 0,7814, respectiva-mente, ambos em uma faixa moderada de correlação[17]. Observa-se que o SROCC apresenta valor maiordo que o PLCC, isto ocorre devido ao fato do SROCCsofrer menor influência dos pontos discrepantes e res-ponder as variações de magnitude.

A distribuição dos pontos da relação entre TI e MVestá disposta na Figura 4, em que pode-se observar quepoucos pontos se dispersam abruptamente da curva,o que pode explicar a diferença entre os valores dosdois coeficientes, afetando com mais intensidade ocoeficiente PLCC. Nesta mesma figura foi traçado umfitting linear das característica temporais.

As Figuras 5 e 6 apresentam os resultados dascaracterísticas temporais para o vídeo bus. Observa-seque na Figura 5(c), que corresponde às curvas de TI e

0 20 40 60 80 1000

1

2

3

4

5

6

7

MV

nº de quadros

a)

0 20 40 60 80 1000

10

20

30

40

50

60

TI

nº de quadros

b)

0 10 20 30 40 50 60 70 80 90 1000

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9

1

MV

e T

I n

orm

aliz

ad

os

nº de quadros

c)

TI

MV

Fig. 3. Características TI e MV do vídeo robot. (a) MV; (b) TI;(c) TI e MV normalizados e distribuídos no tempo (número dequadros).

0 0.2 0.4 0.6 0.8 10

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9

1

MV

TI

Fig. 4. Gráfico da correlação entre MV e TI do vídeo robot, comPLCC = 0,7328. e SROCC = 0,7814.

MV normalizadas em relação ao tempo. A similaridadeentre ambas é menos aparente do que no caso do vídeorobot, embora as curvas seguem um mesmo padrão deresposta aos movimentos do vídeo.

Em seguida, é calculado o PLCC para o vídeo bus,que é igual a 0,5891, e o SROCC com valor de 0,7041,ambos na faixa de correlação moderada [17], porémcomo era de se esperar, com valores inferiores aos co-eficientes referentes ao vídeo robot. Também observa-se um valor superior do coeficiente SROCC, devido àmesma relação que ocorre no outro vídeo. Na Figura 6é representada a distribuição da relação entre MV e TIpara o vídeo bus.

Com estes resultados pode-se chegar à conclusãode que tanto TI como MV respondem de maneiras

0 20 40 60 80 1000

0.5

1

1.5

2

2.5

3

3.5

4

4.5

MV

nº de quadros

a)

0 20 40 60 80 1000

2

4

6

8

10

12

14

16

18

TI

nº de quadros

b)

0 10 20 30 40 50 60 70 80 90 1000

0.2

0.4

0.6

0.8

1

MV

e T

I n

orm

aliz

ad

os

nº de quadros

c)

TI

MV

Fig. 5. Características TI e MV do vídeo bus. (a) MV; (b) TI;(c) TI e MV normalizados e distribuídos no tempo (número dequadros).

Page 32: Revista de RADIODIFUSÃO - SET PORTAL · Sinais de TV Digital ISDB-Tb via VHF e UHF na Cidade do Gama – DF – Brasil Akamine, Cristiano Bedicks Jr, Gunnar ... cujas frequências

Revista de Radiodifusão • v. 08 • n. 09 • 2014

Análise Comparativa de Características Temporais de Vídeos Digitais

32

0 0.2 0.4 0.6 0.8 10

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9

1

MV

TI

Fig. 6. Gráfico da correlação entre MV e TI do vídeo bus, comPLCC = 0,5891 e SROCC = 0,7041.

similares às variações existentes no vídeo no decorrerdo tempo, embora possuam suas disparidades devidoa diferente forma de implementação e extração de suascaracterísticas. Ainda assim, esta correlação pode sermelhorada utilizando outros algoritmos de busca dosvetores de movimentos, como algoritmos que variemo tamanho do macrobloco, aumentando sua resoluçãopara áreas com maior movimentação e mantendo ma-croblocos maiores para áreas que apresentem maiorrepetição entre os quadros.

5. CONCLUSÃO

Este trabalho apresentou uma metodologia para ana-lisar estatisticamente a correlação entre duas carac-terísticas temporais de vídeos digitais, sendo elas asInformações Perceptuais Temporais e os Vetores deMovimento.

Os resultados foram encontrados através da extra-ção de ambas características do mesmo vídeo e daaveriguação de suas respostas no tempo (número dequadros do vídeo).

A partir dos resultados, pode-se chegar à conclusãode que TI e MV possuem uma correlação moderada,com valores entre 0,5 e 0,8 tanto para a correlação depostos de Spearman como para a correlação linear dePearson, ou seja, as curvas de repostas de TI e MVseguem as mesmas tendências, respondendo de formasimilar às variações de magnitude.

Esta análise comparativa entre TI e MV serve deauxílio para uma melhor compreensão dos estudos epesquisas na avaliação de qualidade de vídeo digital,podendo contribuir para uma comparação entre métri-cas que utilizem diferentes características temporais emsuas fórmulas.

Partindo desta análise comparativa direta entre asduas caracteísticas abordadas, em trabalhos futurossugere-se a aplicação de TI e MV no suporte ao de-senvolvimento de métricas objetivas de avaliação dequalidade de vídeo digital.

REFERÊNCIAS

[1] H. R. Sheik et al, “LIVE Image Quality Assessment Database,“2003. Disponível em: http.://live.ece.utexas.edu/research/quality.

[2] F. Zhang, S. Li, L. Ma, Y. C. Wong e K. N. Ngan,“IVP Subjective Quality Video Database,” 2011,http://ivp.ee.cuhk.edu.hk/research/database/subjective/.

[3] VQEG, “Final Report from the Video Quality Experts Group onthe validation of objetive models of video quality assessment,”April 2000, http://www.vqeg.org/.

[4] J.-S. Lee et al, “MMSP Scalable Video Database,” 2010,http://mmspg.epfl.ch/svd.

[5] K. Seshadrinathan, R. Soundararajan, A. C. Bovik e L. K. Cor-mack, “Study of Subjective and Objective Quality Assessment ofVideo,” IEEE Transactions on Image Processing, vol. 19, n. 6,June 2010.

[6] Z. Wang e A. C. Bovik., “Multiscale Structural Similarity for ImageQuality Assessment,“ Proceedings of the IEEE International Con-ference on Image Processing (ICIP’02). vol. 1, p. 477-480, 2002.

[7] Z. Wang et al, ”Image Quality Assessment: from Error Visibilityto Structural Similarity,“ IEEE Signal Processing Letters, v. 13, n.4, p. 600-612, 2004.

[8] VQM, [Online]. Disponível em:http://www.its.bldrdoc.gov./n3/video/VQM_software/.

[9] W. B. Silva, “Métodos Sem Referência Baseados em Caracterís-ticas Espaço-Temporais para Avaliação Objetiva de Qualidadede Vídeo Digital,” 2013. 173 f. Tese (Doutorado em Telecomuni-cações e Rede) - Programa de Pós-Graduação em EngenhariaElétrica e Informática Industrial, Universidade Tecnológica Fede-ral do Paraná, Curitiba, Paraná, 2013.

[10] Video Quality Experts Group (VQEG), “Final Report from the Vi-deo Quality Experts Group on the Validation of Objective Modelsof Video Quality Assessment,” April 2000, http://www.vqeg.org/.

[11] ITU-T Recomendation P.910, ‘Subjective Video Quality Assess-ment Methods for Multimedia Applications,” International Teleco-munication Unionm Geneva, Switzerland,2008.

[12] ISO.MPEG Standards, “Coded Representation of Video andAudio,” 2009, http://mpeg.chiariglione.org/.

[13] Z.-N. Li e S. M. Drew, “Fundamentals of Multimedia,” PearsonEducation International, 2004.

[14] T.-K. Lee, Y.-L. Chan, C.-H. Fu e W.-C. Siu, “Reliable Trac-king Algorithm for Multiple Reference Frame Motion Estima-tion,” Journal of Electronoc Imaging, vol. 20, ed. 3, July 2011,http://dx.doi.org/10.1117/1.3605574.

[15] S. Winkler, “Analysis of Public Image and Video Databases forQuality Assessment,” Signal Processing, vol. 6, November 2012.

[16] S. Hoelzer, “MPEG-2 Overview and MATLAB Codec Project,”April 2005.

[17] N. O’Rourke, L. Hatcher e E.J. Stepanski, “A Step-by-StepAproach to Using SAS for Univariate and Multivariate Statistics,Second Edition.” Cary, NC: SAS Institute Inc., p. 127, 2005.

Page 33: Revista de RADIODIFUSÃO - SET PORTAL · Sinais de TV Digital ISDB-Tb via VHF e UHF na Cidade do Gama – DF – Brasil Akamine, Cristiano Bedicks Jr, Gunnar ... cujas frequências

Rede SFN Híbrida – Dificuldades de Implantação

Marcel Kusunoki [email protected]

Lucas Valmir [email protected]

Jose Frederico [email protected]

Revista de Radiodifusão • v. 08 • n. 09 • 2014 33

Page 34: Revista de RADIODIFUSÃO - SET PORTAL · Sinais de TV Digital ISDB-Tb via VHF e UHF na Cidade do Gama – DF – Brasil Akamine, Cristiano Bedicks Jr, Gunnar ... cujas frequências

MÉTRICA SEM REFERÊNCIA BASEADA EM REDES NEURAISPARA AVALIAÇÃO OBJETIVA DE QUALIDADE DE VÍDEO DIGITALWyllian Bezerra da Silva, Alexandre de Almeida Prado PohlPrograma de Pós-Graduação em Engenharia Elétrica e Informática Industrial (CPGEI) – UTFPR, Curitiba, [email protected], [email protected]: Este trabalho apresenta uma métrica sem referência para avaliação de qualidade de vídeo digital baseada em uma rede neural arti�cial que usa uma versão estendida do algoritmo de aprendizado ELM (Extreme Learning Machine). O método proposto realiza o treinamento da rede neural a partir de seis características espaço-temporais. Os resultados experimentais mostram que o método proposto apresenta desempenho superior às métricas de referência completa PSNR e MS-SSIM na tarefa de predição de qualidade de vídeo. Logo, o método proposto pode ser usado no monitoramento de qualidade em sistemas de transmissão e recepção de vídeo digital, tais como IPTV e TV digital.Palavras chave: algoritmo ELM, avaliação objetiva de vídeo, métrica sem referência, rede neural arti�cial.1. INTRODUÇÃODurante os últimos anos, a literatura tem apresentado um número crescente publicações acerca de métricas objetivas para avaliação de qualidade de vídeo para diversas aplicações em radiodifusão ou no processamento de vídeo digital, seja na aquisição do sinal, codi�cação e decodi�cação, compressão, transmissão, restauração, armazenamento, segmentação e exibição de sinais de vídeo digital [1–4]. A avaliação de qualidade de vídeo digital pode ser realizada por meio de métricas subjetiva e objetiva. A primeira requer uma grande quantidade de recursos humanos e apresenta elevado custo em sua implementação [1–3]. Porém, as métricas objetivas são vantajosas quando apresentam um determinado grau de correlação com as métricas subjetivas. Logo, o desenvolvimento destas é um desa�o no campo de avaliação de qualidade de vídeo e imagem. Além disso, as métricas objetivas, devido à natureza de seu critério objetivo, independem de interação humana e são facilmente reprodutíveis [3]. Dentre as métricas objetivas destacam-se as métricas sem referência (No-Reference – NR), pois não necessitam do vídeo de referência no cálculo de sua medida. Entretanto, estas requerem um conhecimento a priori sobre as distorções em vídeo digital para que seja estabelecida uma correlação com os resultados subjetivos [3].A maioria das métricas NR encontradas na literatura são baseadas na avaliação de qualidade de imagens e em características relacionadas ao Sistema Visual Humano (SVH). Assim, o desenvolvimento de métricas NR é difícil, devido à necessidade de emular a percepção do SVH que envolve aspectos cognitivos, emocionais e estéticos relacionados ao conteúdo do vídeo e que são altamente dependentes do observador [4], [5].A literatura reporta diversos esforços no desenvolvimento de métricas para avaliação de qualidade de vídeo baseadas em redes neurais e em algoritmos de aprendizado. Babu et al. [6] apresentam uma métrica para avaliar a qualidade de imagens comprimidas em JPEG (Joint Photographic Experts Group) por meio de um algoritmo de aprendizado de crescimento e propõem o uso de uma rede neural GAP-RBF (Growing and Pruning Radial Basis Function) que usa características relacionadas ao SVH. Jiang et al. [7] desenvolveram uma métrica NR para avaliação de qualidade de vídeo em HD (High De�nition) baseada em uma rede neural treinada pelo algoritmo BP (Back-Propagation) que usa seis características espaço-temporais e a RoI (Region of Interest). Choe et al. [8] desenvolveram uma métrica NR baseada no �uxo de bits para avaliação de qualidade de vídeo codi�cado em H.264. Esta métrica extrai características quadro a quadro e usa uma rede neural alimentada adiante (feedforward) com três camadas. Suresh et al. [9] apresentaram uma extensão do algoritmo ELM na tarefa de avaliar a qualidade de imagens comprimidas em JPEG com base no esquema de seleção múltipla KS-ELM (K-fold selection Scheme using ELM) e no algoritmo RCGA-ELM (Real-Coded Genetic Algorithm using ELM) para seleção dos pesos de entrada e polarizações.Este trabalho apresenta uma versão estendida do algoritmo ELM para redes neurais SLFN (Single-hidden-Layer Feedforward Neural Networks) que implementa um simples critério de parada na fase de treinamento. Além disso, esse método usa seis características espaço-temporais de vídeos submetidos a diversas condições de distorção.Este artigo está dividido da seguinte maneira: a Seção 2 descreve as métricas para avaliação de qualidade de vídeo. A Seção 3 descreve o método NR proposto para avalição de qualidade de vídeo digital. A Seção 4 apresenta os resultados experimentais, em que são comparados o método NR proposto e duas métricas FR. Finalmente, a Seção 5 apresenta a conclusão do artigo.2. AVALIAÇÃO DE QUALIDADE DE VÍDEOO processo de avaliação de qualidade de vídeopode ser realizado com a aplicação de métricassubjetivas ou objetivas. As métricas subjetivasestimam a qualidade do vídeo por meio de avaliadoreshumanos. Logo, exigem um alto custo, poisnecessitam de uma grande quantidade de recursoshumanos e apresentam problemas quanto aosrequisitos de imparcialidade e reprodutibilidade,tornando-se inapropriadas em sistemas deradiodifusão ou em provedores de conteúdo [10], [11].Por outro lado, as métricas objetivas são baseadas emmodelos matemáticos, cujo objetivo é produzir umescore de qualidade que emule a percepção do SVH.Além disso, as métricas objetivas requerem baixocusto de implementação (quando comparadas com asmétricas subjetivas) e não apresentam problemasquanto à reprodutibilidade e imparcialidade.As métricas objetivas para avaliação de qualidadede vídeo podem ser classi�cadas em três categorias:(i) métricas de referência completa (Full-Reference –FR); (ii) métricas de referência reduzida (Reduced-Reference – RR); (iii) métricas sem referência (NR).2.1. Métricas FRAs métricas FR requerem o vídeo de referência(fonte) no cálculo do escore de qualidade. Estasmétricas são amplamente utilizadas no processo devalidação de métricas RR ou NR, por meio dacomparação de desempenho de�nida pelasrecomendações do Grupo de Especialistas emQualidade de Vídeo (VQEG – Video Quality ExpertsGroup) que é um órgão de padronização internacionalde métricas subjetivas e objetivas de qualidade devídeo. Dentre as métricas FR, destacam-se o PSNR(Peak Signal-to-Noise Ratio), SSIM (StructuralSIMilarity index) [12] e MS-SSIM (Multi-ScaleStructural SIMilarity index) [13].O PSNR é uma métrica FR baseada no erro pixel apixel de fácil implementação. Entretanto, apresentabaixa correlação com o SVH [14]. A sua medida éprocessada sobre o erro quadro a quadro, i.e., entre oquadro original x e o quadro y . A expressão a seguirde�ne o PSNR para um conjunto de quadros F .2011PSNR 20log ,Fff fvF � MSE� �� � �� �� ��(1)com� � � �20 01MSE , , , , ,N Mfi jx f i j y f i jNM � �� ���� � ��(2)em que o termo f v é igual a (2 1) k � , cujo k é onúmero de bits por pixel, i.e., é a componente deluminância do quadro f . Os termos x �f ,i, j � ey �f ,i, j � são os valores de luminância do quadro deorigem e degradado, respectivamente. Ascomponentes bidimensionais são representadas pelonúmero de colunas N e pelo número de linhas M . Otermo f MSE é de�nido como erro quadrático médioou MSE (Mean Square Error).A métrica SSIM baseia-se no fato de que o SVH éfortemente adaptado para extrair informações dascaracterísticas estruturais de um quadro ou imagem.Logo, uma medida de similaridade estrutural (oudistorção) pode prover boa aproximação para aqualidade perceptual de um vídeo [3, 7–9]. Sejam x ey dois sinais não-negativos, em que y é o sinaldegradado e x é o sinal original (sem perda dequalidade), a medida de similaridade é utilizada comoum índice quantitativo de qualidade do sinal distorcido,ou seja, x é tomado como a referência para medir aqualidade de y . A métrica SSIM possui diversasextensões, dentre as quais a versão MS-SSIM,proposta por Wang et al. [13] que assume umaabordagem multiescalar.2.2. Métricas RRAs métricas de referência reduzida retiram certaquantidade de características do vídeo original (fonte),baseadas em componentes espaciais, temporais, nodomínio da frequência ou no �uxo de bits (bitstream).Este tipo de métrica é amplamente utilizada nomonitoramento de transmissões em rede [17]. Nestetipo de cenário de aplicação, o vídeo é transmitidocom uma sequência de informação codi�cada(overhead) e no lado receptor ocorre a suadecodi�cação, seguido pelo cálculo do índice dequalidade, o qual é obtido por meio da comparaçãoentre a representação reduzida da informação nospares emissor e receptor [18]. Tipicamente, métricasRR são implementadas por meio de funções, divididasem duas etapas [19]: (i) cálculo do erro entre osvídeos original e distorcido, constituído pela diferençade suas características, a �m de compor arepresentação reduzida da informação; (ii) função queagrupa os erros ou diferenças para obter um índice dequalidade global. Algumas métricas RR explorampropriedades dos artefatos, por meio da extração decaracterísticas e um modelo de parametrização [20]com foco em tipos especí�cos de distorções(artefatos). Esta abordagem é encontrada em Silva etal. [17], cujo cálculo do escore de qualidade ébaseado na diferença de atividade dos coe�cientesDCT (Discrete Cosine Transform) em um macro blococom resolução de 16�16 pixels.2.3. Métricas NRAs métricas NR extraem característicasrelacionadas ao SVH do vídeo distorcido, i.e., narecepção do sinal de vídeo [14]. Tipicamente, há duasabordagens no desenvolvimento destas métricas: (i)extração dos parâmetros sobre o �uxo de bits, taiscomo a taxa de compressão, informaçõesrelacionadas ao GoP (Group of Pictures), estimaçãode movimento, per�l e nível de codi�cação, bem comoo parâmetro de quantização ou QP (QuantizationParameter) [21–25]. Métricas NR apresentam maiorcomplexidade quando são aplicadas em vídeo, devidoà variação temporal dos quadros, conteúdos dascenas e à di�culdade de compreensão dascaracterísticas do SVH [26]. Assim, algumas métricasdessa categoria exploram características espaciais etemporais na estimação de qualidade de vídeo [21].3. MÉTODO PROPOSTOO método proposto, denominado NRVQA-ELMtc(No-Reference Video Quality Assessment usingExtreme Learning Machine algorithm with terminationcriteria) [27] combina características espaciais etemporais, por meio de uma rede neural arti�cialSLFNs usando o algoritmo de treinamento ELM [28]com a implementação de um simples critério deparada.3.1. Características espaço-temporaisAs características espaciais incorporadas nométodo proposto são baseadas em medidas deartefatos em vídeo digital, i.e., distorções de blocageme borramento desenvolvidas por Wang et al. [20].Assim, a componente de luminância do quadro f érepresentada por y(f , i, j ) com i � ��1,M�� e j � ��1, N�� ,em que M e N são os números de linhas e colunas,respectivamente, de um quadro. Logo, as diferençasde luminância ao longo das linhas e colunas sãorepresentadas, respectivamente, pelas expressões aseguir.� � � � � � � �� � � � � � � �, , , , 1 , , , 1, 1 ,, , , 1, , , , 1, 1 .hvd f i j y f i j y f i j j Nd f i j y f i j y f i j i M� � � � �� � � � �(3)O efeito de blocagem pode ser estimado pelamédia das diferenças entre as bordas dos blocos daDCT (Discrete Cosine Transform) nas direçõeshorizontal e vertical para uma sequência F dequadros, conforme mostra a Equação (4), com ummacrobloco de dimensão � �� , cujo tamanho típico éde � � 8 [20].� � ��� � � �111 1 1111 1 11, , 1 ,111, 1 , .11NF Mh hf i jMF Nvi jvfB d f i jNF MB d f i jMF N��������� � ���� � �� �� �� � � �� � �� �� �� � � �� � �� � �� � �(4)A medida de blocagem em uma sequência devídeo com F quadros é determinada pela média entreh B e v B , caracterizando a medida B , conforme aexpressão a seguir..2h v B BB�� (5)Os efeitos de borramento são estimados pelocálculo da redução de atividade entre os blocos � �� ,em que é usada a medida de blocagem nas direçõeshorizontal e vertical, conforme as expressões� � � �� �� � � �� �11 1 111 1 1, , ,1 1, ,1.1F M Nh h hf i jF M Nv vfvi jA d f i j BF M NA d f i j BF N M������ � ��� � �� �� � �� �� � �� � �� � �(6)A medida de borramento, representada por A ,conforme a Equação (7), é determinada pela médiaentre h A e v A ..2h v A AA�� (7)O segundo fator que contribui para a detecção doartefato de borramento é baseado na taxa decruzamento por zero (Zero Crossing – ZC) nasdireções horizontal e vertical, conforme as expressõesa seguir.� �� �� �� �21 1 121 1 11, , ,21, , ,2F M Nh hf i jF M Nv vf i jZ z f i jF M NZ z f i jF N M�� � ��� � ��� ��� �� � �� � �(8)em que os termos h z e v z são determinados por� �� �1, na direção horizontal, , ,0, caso contrário1, na direção vertical, , .0, caso contráriohvz f i jz f i j�� �� �� ��(9)Assim, a medida de borramento Z é determinadapela média entre as componentes h Z e v Z ..2h v Z ZZ�� (10)O método proposto também incorpora trêscaracterísticas temporais no treinamento da redeneural SLFN com o algoritmo ELM.A primeira característica temporal é a diferença demovimento entre quadros adjacentes, representadapela variável TI (Temporal perceptual Information) [31]que considera os valores de luminância de pixelslocalizados em uma mesma região de um quadro,conforme a expressão a seguir.� �21, , ,1FfTI m f i jF��� �� �� �� (11)em que o número total de quadros é F e � �m�f ,i, j ��� �é o desvio padrão da diferença de movimento(diferença de luminância) entre o quadro atualy �f ,i, j � e o quadro anterior y �f �1,i, j � .A segunda característica temporal é a média dadiferença absoluta (Mean Absolute Di�erence – MAD)[31] entre quadros sucessivos, representada pelaEquação (12) que de�ne a medida global da MADpara todos os quadros de um vídeo.� �� � � �2 1 11, , 1, , .1F M Nf i jMAD y f i j y f i jM N F � � �� � �� �� � �(12)A terceira característica temporal é a média dadiferença absoluta ponderada (weighted MeanAbsolute Di�erence – MADw) [32], a qual mede o graude variação das cenas de um vídeo que considera acena atual de um quadro f e do quadro anterior f �1,conforme a expressão:2 11.1Fff fMADMADwF � MAD �� �� � �� � ��(13)Assim, o método proposto combina ascaracterísticas espaciais e temporais em uma matriz� , , , , , � f f f f f f f x � A B Z TI MAD MADw , em que f é onúmero de amostras de vídeo. A Figura 1 apresentaas características temporais � espaciais de dezessetebases de dados de vídeos (denominada superconjuntoS) usadas neste trabalho e reportadas em [27]. Arecomendação ITU-T P.910 [31] de�ne a medida SI(Spatial perceptual Information) como informaçãoespacial perceptual. A inspeção visual dessa �guramostra que as amostras de vídeo usadas nestetrabalho apresentam uma grande variação espaçotemporal.Fig. 1. Características espaciais e temporais do superconjuntoS com 216 amostras de referência3.2. Métrica NRVQA-ELMtcO algoritmo ELM [28] desenvolvido para otreinamento de uma rede SLFN atribui pesos epolarizações (biases) de maneira aleatória, segundouma distribuição uniforme. O treinamento compreendeN amostras distintas representadas pela variável�� , � , , 1, , � n mf f f f � � x t x � t � f � N , cujo cálculo éconforme a expressão� � � �1, 1, , ,KK i j j f j fff � g b f N�x � � w x � � o � (14)em que f o é a saída (escore objetivo), g(x) é afunção de ativação e j � é o peso que conecta o jésimoneurônio da camada oculta ao neurônio desaída. De acordo com [28], uma rede SLFN com Knós na camada oculta e uma função de ativação g(x)pode apresentar um erro médio próximo de zero, i.e.,10Kf ff �� o � t � . Logo, há parâmetros j � , j w e j b talque� �1, 1, , ,Kj j f j ff� g b f N�� w x � � t � (15)em que f t é o vetor alvo (escores subjetivos),T1, , j j jn � �w w � � � w é o vetor de peso que conecta o jésimoneurônio da camada oculta ao neurônio dacamada de entrada, j b denota a polarização (bias) doj-ésimo neurônio da camada oculta, � � j f w x é oproduto interno de j w e f x . A Figura 2 ilustra oalgoritmo ELM empregado em uma arquitetura derede neural SLFN.xi1βjN1jKtibjN input neuron K hidden neuron output neuronβ1βKwjFig. 2. Arquitetura de uma rede neural SLFN usando algoritmode treinamento ELMO sistema linear da Equação (16) resume o métododo algoritmo ELM.Hβ � T, (16)em que a matriz da camada oculta é representada por� � � 1, , and 1, , � � H � h f � N j � K com a primeiralinha da matriz de características f x igual aT1 2 , , , f f f fn x � ��x x x �� , i.e., a primeira linha é igual a� � 1 1 1 1 1 1 1 , , , , , f f f f f f f x � A B Z TI MAD MADw . A matriz desaída e o vetor alvo (target) são de�nidos comoT1 , K β � ��β β �� eT1, , N T � ��t t �� , respectivamente. Otermo � �T1 , 1, , j jm j � � � j � K � � β β β denota o vetor depeso que conecta o j-ésimo neurônio da camadaoculta e os neurônios de saída. Hung et al. [28]propuseram a atribuição aleatória de pesos aosparâmetros j w e j b , a �m de seja obtido um pequenoerro não-nulo durante o treinamento. Considerando osistema linear da Equação (17), os pesos da camadade saída podem ser aproximados por† β � H T (17)em que † H é de�nida como matriz inversageneralizada de Moore-Penrose (MP) [33] da matrizde saída da camada oculta �H� . Além disso, oconjunto de treinamento � , nó oculta K e umafunção de ativação g �x � , e.g., função de base radial(Radial Basis Function – RBF), hard-limiting (hardlim),sigmoidal (sig) e seno (sin). Em resumo, o algoritmoELM compreende três etapas [28]:i) Atribuição aleatória dos pesos de entrada j w epolarizações j b ;ii) Cálculo da matriz da camada de saída H ;iii) Cálculo dos pesos de saída † β: β� H T .O método NRVQA-ELMtc [27] implementa umsimples critério de parada no treinamento da redeneural SLFN, quanto à atribuição aleatória dos pesosj w e j b . Embora este critério não seja direcionado,busca os pesos relacionados com o menor RMSE(Root-Mean-Square Error) entre a saída desejada(escore subjetivo) e o escore objetivo na fase detreinamento com k iterações (tipicamente, k � 100 ) eN neurônios na camada oculta. Além disso, conformeestudo realizado em [27], caso o RMSE seja menor doque 0,5 o algoritmo cessa a busca pelos parâmetrosj w e j b .4. RESULTADOS EXPERIMENTAISEsta seção apresenta os resultados de acurácia,i.e., os coe�cientes de correlação linear de Pearson(Pearson Linear Correlation Coe�cient – PLCC) [34],[35], entre os escores objetivos e subjetivos de 2627amostras de vídeo estudadas em [27].A Figura 3 compara a acurácia (PLCC) entre asmétricas de referência completa (FR) PSNR e MSSSIMcom o método proposto (NRVQA-ELMtc) paraas 2627 amostras de vídeo, pertencentes a 17 basesde dados de vídeo disponibilizadas por diversasinstituições e laboratórios [27]. A função de ativaçãousada na rede neural SLFN foi o seno (sin) com onúmero de amostras de teste igual ao número deneurônios na camada oculta ( N ). O método devalidação cruzada múltipla (K-fold) foi usado com oobjetivo de gerar uma distribuição de acurácia, a qualfoi analisada por meio do diagrama de caixa (box-plot)[36], em que o traço, o círculo e o quadrado, ambosem vermelho, representam a mediana, a média e odesvio padrão, respectivamente. Destaca-se queneste trabalho foi empregada uma validação cruzadacom um grande número de amostras de treinamentotestecom K � 100 , i.e., cada caixa do box-plotcomporta 100 experimentos distintos. Tipicamente, aliteratura apresenta trabalhos no campo da avaliaçãoFig. 3. Box-plot da predição da acurácia (PLCC) entre as métricas PSNR, MS-SSIM e o método proposto NRVQA-ELMtcde qualidade de vídeo com K entre 5 e 10 [37], [38].Pela inspeção visual da Figura 3 observa-se que odesempenho do método proposto é superior àsmétricas FR, em quaisquer condições de teste, i.e.,para qualquer quantidade de amostras de teste(número de neurônios na camada oculta) entre 25 e500. Em especial, para N � 50 , o método propostoapresenta valores de PLCC, em termos da média emediana, acima de 0,8, denotando uma forteassociação entre os escores objetivos e subjetivos, natarefa de predição de qualidade de vídeo. Isto ocorredevido à grande quantidade de amostras de vídeousadas no treinamento, e.g., para N � 300 foramusadas 2327 amostras de treinamento, ou seja,mesmo usando pares de treinamento-teste disjuntos,o método proposto mostra uma acurácia superior àsmétricas de referência completa. A assimetria positiva,i.e., a maior concentração da acurácia entre osegundo quartil (mediana) e o terceiro quartil, nadistribuição do box-plot nos testes com 300 e 500neurônios na camada oculta, indica que o métodoproposto apresenta um desempenho expressivo emcomparação com as métricas FR.Entretanto, mesmo para N entre 25 e 50, ométodo proposto apresentou uma acurácia maior doque as métricas FR, cujo melhor resultado foi paraN � 25 com o desvio-quartil (amplitude interquartílica)con�nado entre 0,65 e 0,8. Além disso, este resultadotambém apresentou assimetria positiva com a médiado PLCC em torno de 0,75.5. CONCLUSÃOEste trabalho apresentou uma métrica NR baseadaem uma rede neural arti�cial SLFN, cujo treinamento édeterminado pelo algoritmo ELM, o qual consideracaracterísticas espaço-temporais e os escoressubjetivos (alvos) extraídos de 2627 amostrastreinamento. Além disso, este trabalho propõe umaextensão do algoritmo ELM por meio de um simplescritério de parada, a �m de que sejam obtidosparâmetros da rede neural arti�cial relacionados como menor RMSE. Tipicamente, a comparação entremétricas FR e NR é injusta, devido à ausência dovídeo de referência na obtenção do escore dequalidade em métricas NR. Entretanto, os resultadosexperimentais mostram que o método propostoapresentou desempenho superior às métricas dereferência completa PSNR e MS-SSIM, sobretudo,quando o número de amostras de teste e de neurôniosna camada oculta da rede SLFN é maior do que 250.Logo, a métrica NRVQA-ELMtc pode ser empregadano monitoramento de qualidade em sistemas detransmissão e recepção de vídeo digital, tais comoIPTV (Internet Protocol Television), TV digital ou emdispositivos móveis, tais como ultrabooks,smartphones, tablets e em aparelhos WiDi (WirelessDisplay).REFERÊNCIAS[1] S. Winkler, “Issues in vision modeling for perceptualvideo quality assessment,” Signal Processing, vol. 78,no. 2, pp. 231–252, 1999.[2] Z. Wang and A. C. Bovik, Modern image qualityassessment. San Rafael, CA: Morgan & Claypool,2006.[3] W. Lin and C.-C. Jay Kuo, “Perceptual visual qualitymetrics: A survey,” Journal of Visual Communicationand Image Representation, vol. 22, no. 4, pp. 297–312,May 2011.[4] S. S. Hemami and A. R. Reibman, “No-reference imageand video quality estimation: Applications and humanmotivateddesign,” Signal Processing: ImageCommunication, vol. 25, no. 7, pp. 469–481, 2010.[5] Z. Wang and A. Bovik, “Reduced- and No-ReferenceImage Quality Assessment,” IEEE Signal ProcessingMagazine, vol. 28, no. 6, pp. 29–40, Nov. 2011.[6] R. V. Babu, S. Suresh, and A. Perkis, “No-referenceJPEG-image quality assessment using GAP-RBF,”Signal Processing, vol. 87, no. 6, pp. 1493–1503, 2007.[7] X. Jiang, F. Meng, J. Xu, and W. Zhou, “No-ReferencePerceptual Video Quality Measurement for HighDe�nition Videos Based on an Arti�cial NeuralNetwork,” in Computer and Electrical Engineering,2008. ICCEE 2008. International Conference on, 2008,pp. 424–427.[8] J. Choe, K. Lee, C. Lee, and S. Korea, “No-referencevideo quality measurement using neural networks,” in2009 16th International Conference on Digital SignalProcessing, 2009, pp. 1–4.[9] S. Suresh, R. Venkatesh Babu, and H. J. Kim, “Noreferenceimage quality assessment using modi�edextreme learning machine classi�er,” Applied SoftComputing, vol. 9, no. 2, pp. 541–552, Mar. 2009.[10] A. M. Eskicioglu and P. S. Fisher, “Image qualitymeasures and their performance,” IEEE Transactionson Communications, vol. 43, no. 12, pp. 2959–2965,1995.[11] U. Engelke and H.-J. Zepernick, “Perceptual-basedQuality Metrics for Image and Video Services: ASurvey,” in Proceedings EuroNGI Conf. NextGeneration Internet Networks, 2007, pp. 190–197.[12] Z. Wang, A. C. Bovik, H. R. Sheikh, and E. PSimoncelli, “Image quality assessment: from errorvisibility to structural similarity.,” IEEE Transactions onImage Processing, vol. 13, no. 4, pp. 600–612, 2004.[13] Z. Wang, E. P. Simoncelli, and A. C. Bovik, “Multiscalestructural similarity for image quality assessment,” inThe Thrity-Seventh Asilomar Conference on Signals,Systems & Computers, 2003, 2003, vol. 2, no. 1, pp.1398–1402.[14] H. R. Wu, K. R. Rao, and A. A. Kassim, “Digital VideoImage Quality and Perceptual Coding,” Journal ofElectronic Imaging, vol. 16, no. 3, 2007.[15] Z. Wang and A. C. Bovik, “A universal image qualityindex,” IEEE Signal Processing Letters, vol. 9, no. 3,pp. 81–84, Mar. 2002.[16] Y. Shi, Y. Ding, R. Zhang, and J. Li, “Structure and HueSimilarity for Color Image Quality Assessment,” in 2009International Conference on Electronic ComputerTechnology, 2009, pp. 329–333.[17] W. B. Silva, A. A. P. Pohl, and K. V. O. Fonseca, “AReduced-Reference Video Quality Assessment Methodbased on the Activity-Di�erence of DCT Coe�cients,”IEICE Transactions on Information and Systems, vol. E96-D, no. 3, 2013.[18] P. Le Callet, C. Viard-Gaudin, and D. Barba, “A Convolutional Neural Network Approach for Objective Video Quality Assessment,” IEEE Transactions on Neural Networks, vol. 17, no. 5, pp. 1316–1327, 2006.[19] P. Le Callet and D. Barba, “Image Quality Assessment: From Sites Errors to a Global Appreciation of Quality,” in Proceedings of the Picture Coding Sympsium, 2001, pp. 105–108.[20] M. Miyahara, K. Kotani, and V. R. Algazi, “Objective picture quality scale (PQS) for image coding,” IEEE Transactions on Communications, vol. 46, no. 9, pp. 1215–1226, 1998.[21] M. Slanina, V. Ricny, and R. Forchheimer, “A Novel Metric for H.264/AVC No-Reference Quality Assessment,” in 14th International Workshop on Systems, Signals and Image Processing and 6th EURASIP Conference focused on Speech and Image Processing, Multimedia Communications and Services, 2007, pp. 114–117.[22] O. Sugimoto, S. Naito, S. Sakazawa, and A. Koike, “Objective perceptual video quality measurement method based on hybrid no reference framework,” in 16th IEEE International Conference on Image Processing (ICIP’09), 2009, pp. 2237–2240.[23] T. Oelbaum, C. Keimel, and K. Diepold, “Rule-Based No-Reference Video Quality Evaluation Using Additionally Coded Videos,” IEEE Journal of Selected Topics in Signal Processing, vol. 3, no. 2, pp. 294–303, 2009.[24] N. Staelens, N. Vercammen, Y. Dhondt, B. Vermeulen, P. Lambert, R. de Walle, and P. Demeester, “ViQID: A No-Reference bit stream-based visual quality impairment detector,” in Proceedings of the Second Int Quality of Multimedia Experience (QoMEX) Workshop, 2010, pp. 206–211.[25] F. Yang, S. Wan, Q. Xie, and H. R. Wu, “No-Reference Quality Assessment for Networked Video via Primary Analysis of Bit Stream,” IEEE Transactions on Circuits and Systems for Video Technology, vol. 20, no. 11, pp. 1544–1554, Nov. 2010.[26] Z. Wang, H. R. Sheikh, and A. C. Bovik, “Objective Video Quality Assessment,” in The Handbook of Video Databases: Design and Applications, B. Furht and O. Marques, Eds. Boca Raton, FL, USA: CRC Press, 2003, pp. 1041–1078.[27] W. B. da Silva and A. de A. P. Pohl, “Métodos Sem Referência Baseados em Características Espaço-Temporais para Avaliação Objetiva de Qualidade de Vídeo Digital,” Universidade Tecnológica Federal do Paraná (UTFPR), 2013.[28] G.-B. Huang, Q.-Y. Zhu, and C.-K. Siew, “Extreme learning machine: Theory and applications,” Neurocomputing, vol. 70, no. 1–3, pp. 489–501, Dec. 2006.[29] Z. Wang, H. R. Sheikh, and A. C. Bovik, “No-reference perceptual quality assessment of JPEG compressed images,” in Image Processing. 2002. Proceedings. IEEE International Conference on Image Processing, 2002, vol. 1, pp. vol.1 I–477 – I–480.[30] W. B. Silva and A. A. P. Pohl, “No-Reference Video Quality Assessment Method based on the Levenberg-Marquardt Minimization,” in XXX Brazilian Symposium on Telecommunications (SBrT’12), 2012.[31] ITU-T P.910, “Subjective video quality assessment methods for multimedia applications,” Standardization Sector of ITU, 1999.[32] W. Ding, Y. Tong, Q. Zhang, and D. Yang, “Image and Video Quality Assessment Using Neural Network and SVM,” Tsinghua Science &amp; Technology, vol. 13, no. 1, pp. 112–116, 2008.[33] K. S. Banerjee, C. R. Rao, and S. K. Mitra, “Generalized Inverse of Matrices and Its Applications,” Technometrics, vol. 15, no. 1, p. 197, Feb. 1973.[34] VQEG, “Final report from the video quality experts group on the validation of reduced-reference and no-reference objective models for standard de�nition television, Phase I,” 2009.[35] VQEG, “Report on the validation of video quality models for high de�nition video content,” 2010.[36] J. W. Tukey, Exploratory Data Analysis. New York: Addison-Wesley Publishing Company, 1977.[37] P. Gastaldo and R. Zunino, “Neural networks for the no-reference assessment of perceived quality,” J. Electronic Imaging, vol. 14, no. 3, p. 033004, 2005.[38] R. Herzog, M. Čadík, T. O. Aydın, K. I. Kim, K. Myszkowski, and H.-P. Seidel, “NoRM: No-Reference Image Quality Metric for Realistic Image Synthesis,” Comp. Graph. Forum, vol. 31, no. 2pt4, pp. 545–554, 2012.

MÉTRICA SEM REFERÊNCIA BASEADA EM REDES NEURAISPARA AVALIAÇÃO OBJETIVA DE QUALIDADE DE VÍDEO DIGITALWyllian Bezerra da Silva, Alexandre de Almeida Prado PohlPrograma de Pós-Graduação em Engenharia Elétrica e Informática Industrial (CPGEI) – UTFPR, Curitiba, [email protected], [email protected]: Este trabalho apresenta uma métrica sem referência para avaliação de qualidade de vídeo digital baseada em uma rede neural arti�cial que usa uma versão estendida do algoritmo de aprendizado ELM (Extreme Learning Machine). O método proposto realiza o treinamento da rede neural a partir de seis características espaço-temporais. Os resultados experimentais mostram que o método proposto apresenta desempenho superior às métricas de referência completa PSNR e MS-SSIM na tarefa de predição de qualidade de vídeo. Logo, o método proposto pode ser usado no monitoramento de qualidade em sistemas de transmissão e recepção de vídeo digital, tais como IPTV e TV digital.Palavras chave: algoritmo ELM, avaliação objetiva de vídeo, métrica sem referência, rede neural arti�cial.1. INTRODUÇÃODurante os últimos anos, a literatura tem apresentado um número crescente publicações acerca de métricas objetivas para avaliação de qualidade de vídeo para diversas aplicações em radiodifusão ou no processamento de vídeo digital, seja na aquisição do sinal, codi�cação e decodi�cação, compressão, transmissão, restauração, armazenamento, segmentação e exibição de sinais de vídeo digital [1–4]. A avaliação de qualidade de vídeo digital pode ser realizada por meio de métricas subjetiva e objetiva. A primeira requer uma grande quantidade de recursos humanos e apresenta elevado custo em sua implementação [1–3]. Porém, as métricas objetivas são vantajosas quando apresentam um determinado grau de correlação com as métricas subjetivas. Logo, o desenvolvimento destas é um desa�o no campo de avaliação de qualidade de vídeo e imagem. Além disso, as métricas objetivas, devido à natureza de seu critério objetivo, independem de interação humana e são facilmente reprodutíveis [3]. Dentre as métricas objetivas destacam-se as métricas sem referência (No-Reference – NR), pois não necessitam do vídeo de referência no cálculo de sua medida. Entretanto, estas requerem um conhecimento a priori sobre as distorções em vídeo digital para que seja estabelecida uma correlação com os resultados subjetivos [3].A maioria das métricas NR encontradas na literatura são baseadas na avaliação de qualidade de imagens e em características relacionadas ao Sistema Visual Humano (SVH). Assim, o desenvolvimento de métricas NR é difícil, devido à necessidade de emular a percepção do SVH que envolve aspectos cognitivos, emocionais e estéticos relacionados ao conteúdo do vídeo e que são altamente dependentes do observador [4], [5].A literatura reporta diversos esforços no desenvolvimento de métricas para avaliação de qualidade de vídeo baseadas em redes neurais e em algoritmos de aprendizado. Babu et al. [6] apresentam uma métrica para avaliar a qualidade de imagens comprimidas em JPEG (Joint Photographic Experts Group) por meio de um algoritmo de aprendizado de crescimento e propõem o uso de uma rede neural GAP-RBF (Growing and Pruning Radial Basis Function) que usa características relacionadas ao SVH. Jiang et al. [7] desenvolveram uma métrica NR para avaliação de qualidade de vídeo em HD (High De�nition) baseada em uma rede neural treinada pelo algoritmo BP (Back-Propagation) que usa seis características espaço-temporais e a RoI (Region of Interest). Choe et al. [8] desenvolveram uma métrica NR baseada no �uxo de bits para avaliação de qualidade de vídeo codi�cado em H.264. Esta métrica extrai características quadro a quadro e usa uma rede neural alimentada adiante (feedforward) com três camadas. Suresh et al. [9] apresentaram uma extensão do algoritmo ELM na tarefa de avaliar a qualidade de imagens comprimidas em JPEG com base no esquema de seleção múltipla KS-ELM (K-fold selection Scheme using ELM) e no algoritmo RCGA-ELM (Real-Coded Genetic Algorithm using ELM) para seleção dos pesos de entrada e polarizações.Este trabalho apresenta uma versão estendida do algoritmo ELM para redes neurais SLFN (Single-hidden-Layer Feedforward Neural Networks) que implementa um simples critério de parada na fase de treinamento. Além disso, esse método usa seis características espaço-temporais de vídeos submetidos a diversas condições de distorção.Este artigo está dividido da seguinte maneira: a Seção 2 descreve as métricas para avaliação de qualidade de vídeo. A Seção 3 descreve o método NR proposto para avalição de qualidade de vídeo digital. A Seção 4 apresenta os resultados experimentais, em que são comparados o método NR proposto e duas métricas FR. Finalmente, a Seção 5 apresenta a conclusão do artigo.2. AVALIAÇÃO DE QUALIDADE DE VÍDEOO processo de avaliação de qualidade de vídeopode ser realizado com a aplicação de métricassubjetivas ou objetivas. As métricas subjetivasestimam a qualidade do vídeo por meio de avaliadoreshumanos. Logo, exigem um alto custo, poisnecessitam de uma grande quantidade de recursoshumanos e apresentam problemas quanto aosrequisitos de imparcialidade e reprodutibilidade,tornando-se inapropriadas em sistemas deradiodifusão ou em provedores de conteúdo [10], [11].Por outro lado, as métricas objetivas são baseadas emmodelos matemáticos, cujo objetivo é produzir umescore de qualidade que emule a percepção do SVH.Além disso, as métricas objetivas requerem baixocusto de implementação (quando comparadas com asmétricas subjetivas) e não apresentam problemasquanto à reprodutibilidade e imparcialidade.As métricas objetivas para avaliação de qualidadede vídeo podem ser classi�cadas em três categorias:(i) métricas de referência completa (Full-Reference –FR); (ii) métricas de referência reduzida (Reduced-Reference – RR); (iii) métricas sem referência (NR).2.1. Métricas FRAs métricas FR requerem o vídeo de referência(fonte) no cálculo do escore de qualidade. Estasmétricas são amplamente utilizadas no processo devalidação de métricas RR ou NR, por meio dacomparação de desempenho de�nida pelasrecomendações do Grupo de Especialistas emQualidade de Vídeo (VQEG – Video Quality ExpertsGroup) que é um órgão de padronização internacionalde métricas subjetivas e objetivas de qualidade devídeo. Dentre as métricas FR, destacam-se o PSNR(Peak Signal-to-Noise Ratio), SSIM (StructuralSIMilarity index) [12] e MS-SSIM (Multi-ScaleStructural SIMilarity index) [13].O PSNR é uma métrica FR baseada no erro pixel apixel de fácil implementação. Entretanto, apresentabaixa correlação com o SVH [14]. A sua medida éprocessada sobre o erro quadro a quadro, i.e., entre oquadro original x e o quadro y . A expressão a seguirde�ne o PSNR para um conjunto de quadros F .2011PSNR 20log ,Fff fvF � MSE� �� � �� �� ��(1)com� � � �20 01MSE , , , , ,N Mfi jx f i j y f i jNM � �� ���� � ��(2)em que o termo f v é igual a (2 1) k � , cujo k é onúmero de bits por pixel, i.e., é a componente deluminância do quadro f . Os termos x �f ,i, j � ey �f ,i, j � são os valores de luminância do quadro deorigem e degradado, respectivamente. Ascomponentes bidimensionais são representadas pelonúmero de colunas N e pelo número de linhas M . Otermo f MSE é de�nido como erro quadrático médioou MSE (Mean Square Error).A métrica SSIM baseia-se no fato de que o SVH éfortemente adaptado para extrair informações dascaracterísticas estruturais de um quadro ou imagem.Logo, uma medida de similaridade estrutural (oudistorção) pode prover boa aproximação para aqualidade perceptual de um vídeo [3, 7–9]. Sejam x ey dois sinais não-negativos, em que y é o sinaldegradado e x é o sinal original (sem perda dequalidade), a medida de similaridade é utilizada comoum índice quantitativo de qualidade do sinal distorcido,ou seja, x é tomado como a referência para medir aqualidade de y . A métrica SSIM possui diversasextensões, dentre as quais a versão MS-SSIM,proposta por Wang et al. [13] que assume umaabordagem multiescalar.2.2. Métricas RRAs métricas de referência reduzida retiram certaquantidade de características do vídeo original (fonte),baseadas em componentes espaciais, temporais, nodomínio da frequência ou no �uxo de bits (bitstream).Este tipo de métrica é amplamente utilizada nomonitoramento de transmissões em rede [17]. Nestetipo de cenário de aplicação, o vídeo é transmitidocom uma sequência de informação codi�cada(overhead) e no lado receptor ocorre a suadecodi�cação, seguido pelo cálculo do índice dequalidade, o qual é obtido por meio da comparaçãoentre a representação reduzida da informação nospares emissor e receptor [18]. Tipicamente, métricasRR são implementadas por meio de funções, divididasem duas etapas [19]: (i) cálculo do erro entre osvídeos original e distorcido, constituído pela diferençade suas características, a �m de compor arepresentação reduzida da informação; (ii) função queagrupa os erros ou diferenças para obter um índice dequalidade global. Algumas métricas RR explorampropriedades dos artefatos, por meio da extração decaracterísticas e um modelo de parametrização [20]com foco em tipos especí�cos de distorções(artefatos). Esta abordagem é encontrada em Silva etal. [17], cujo cálculo do escore de qualidade ébaseado na diferença de atividade dos coe�cientesDCT (Discrete Cosine Transform) em um macro blococom resolução de 16�16 pixels.2.3. Métricas NRAs métricas NR extraem característicasrelacionadas ao SVH do vídeo distorcido, i.e., narecepção do sinal de vídeo [14]. Tipicamente, há duasabordagens no desenvolvimento destas métricas: (i)extração dos parâmetros sobre o �uxo de bits, taiscomo a taxa de compressão, informaçõesrelacionadas ao GoP (Group of Pictures), estimaçãode movimento, per�l e nível de codi�cação, bem comoo parâmetro de quantização ou QP (QuantizationParameter) [21–25]. Métricas NR apresentam maiorcomplexidade quando são aplicadas em vídeo, devidoà variação temporal dos quadros, conteúdos dascenas e à di�culdade de compreensão dascaracterísticas do SVH [26]. Assim, algumas métricasdessa categoria exploram características espaciais etemporais na estimação de qualidade de vídeo [21].3. MÉTODO PROPOSTOO método proposto, denominado NRVQA-ELMtc(No-Reference Video Quality Assessment usingExtreme Learning Machine algorithm with terminationcriteria) [27] combina características espaciais etemporais, por meio de uma rede neural arti�cialSLFNs usando o algoritmo de treinamento ELM [28]com a implementação de um simples critério deparada.3.1. Características espaço-temporaisAs características espaciais incorporadas nométodo proposto são baseadas em medidas deartefatos em vídeo digital, i.e., distorções de blocageme borramento desenvolvidas por Wang et al. [20].Assim, a componente de luminância do quadro f érepresentada por y(f , i, j ) com i � ��1,M�� e j � ��1, N�� ,em que M e N são os números de linhas e colunas,respectivamente, de um quadro. Logo, as diferençasde luminância ao longo das linhas e colunas sãorepresentadas, respectivamente, pelas expressões aseguir.� � � � � � � �� � � � � � � �, , , , 1 , , , 1, 1 ,, , , 1, , , , 1, 1 .hvd f i j y f i j y f i j j Nd f i j y f i j y f i j i M� � � � �� � � � �(3)O efeito de blocagem pode ser estimado pelamédia das diferenças entre as bordas dos blocos daDCT (Discrete Cosine Transform) nas direçõeshorizontal e vertical para uma sequência F dequadros, conforme mostra a Equação (4), com ummacrobloco de dimensão � �� , cujo tamanho típico éde � � 8 [20].� � ��� � � �111 1 1111 1 11, , 1 ,111, 1 , .11NF Mh hf i jMF Nvi jvfB d f i jNF MB d f i jMF N��������� � ���� � �� �� �� � � �� � �� �� �� � � �� � �� � �� � �(4)A medida de blocagem em uma sequência devídeo com F quadros é determinada pela média entreh B e v B , caracterizando a medida B , conforme aexpressão a seguir..2h v B BB�� (5)Os efeitos de borramento são estimados pelocálculo da redução de atividade entre os blocos � �� ,em que é usada a medida de blocagem nas direçõeshorizontal e vertical, conforme as expressões� � � �� �� � � �� �11 1 111 1 1, , ,1 1, ,1.1F M Nh h hf i jF M Nv vfvi jA d f i j BF M NA d f i j BF N M������ � ��� � �� �� � �� �� � �� � �� � �(6)A medida de borramento, representada por A ,conforme a Equação (7), é determinada pela médiaentre h A e v A ..2h v A AA�� (7)O segundo fator que contribui para a detecção doartefato de borramento é baseado na taxa decruzamento por zero (Zero Crossing – ZC) nasdireções horizontal e vertical, conforme as expressõesa seguir.� �� �� �� �21 1 121 1 11, , ,21, , ,2F M Nh hf i jF M Nv vf i jZ z f i jF M NZ z f i jF N M�� � ��� � ��� ��� �� � �� � �(8)em que os termos h z e v z são determinados por� �� �1, na direção horizontal, , ,0, caso contrário1, na direção vertical, , .0, caso contráriohvz f i jz f i j�� �� �� ��(9)Assim, a medida de borramento Z é determinadapela média entre as componentes h Z e v Z ..2h v Z ZZ�� (10)O método proposto também incorpora trêscaracterísticas temporais no treinamento da redeneural SLFN com o algoritmo ELM.A primeira característica temporal é a diferença demovimento entre quadros adjacentes, representadapela variável TI (Temporal perceptual Information) [31]que considera os valores de luminância de pixelslocalizados em uma mesma região de um quadro,conforme a expressão a seguir.� �21, , ,1FfTI m f i jF��� �� �� �� (11)em que o número total de quadros é F e � �m�f ,i, j ��� �é o desvio padrão da diferença de movimento(diferença de luminância) entre o quadro atualy �f ,i, j � e o quadro anterior y �f �1,i, j � .A segunda característica temporal é a média dadiferença absoluta (Mean Absolute Di�erence – MAD)[31] entre quadros sucessivos, representada pelaEquação (12) que de�ne a medida global da MADpara todos os quadros de um vídeo.� �� � � �2 1 11, , 1, , .1F M Nf i jMAD y f i j y f i jM N F � � �� � �� �� � �(12)A terceira característica temporal é a média dadiferença absoluta ponderada (weighted MeanAbsolute Di�erence – MADw) [32], a qual mede o graude variação das cenas de um vídeo que considera acena atual de um quadro f e do quadro anterior f �1,conforme a expressão:2 11.1Fff fMADMADwF � MAD �� �� � �� � ��(13)Assim, o método proposto combina ascaracterísticas espaciais e temporais em uma matriz� , , , , , � f f f f f f f x � A B Z TI MAD MADw , em que f é onúmero de amostras de vídeo. A Figura 1 apresentaas características temporais � espaciais de dezessetebases de dados de vídeos (denominada superconjuntoS) usadas neste trabalho e reportadas em [27]. Arecomendação ITU-T P.910 [31] de�ne a medida SI(Spatial perceptual Information) como informaçãoespacial perceptual. A inspeção visual dessa �guramostra que as amostras de vídeo usadas nestetrabalho apresentam uma grande variação espaçotemporal.Fig. 1. Características espaciais e temporais do superconjuntoS com 216 amostras de referência3.2. Métrica NRVQA-ELMtcO algoritmo ELM [28] desenvolvido para otreinamento de uma rede SLFN atribui pesos epolarizações (biases) de maneira aleatória, segundouma distribuição uniforme. O treinamento compreendeN amostras distintas representadas pela variável�� , � , , 1, , � n mf f f f � � x t x � t � f � N , cujo cálculo éconforme a expressão� � � �1, 1, , ,KK i j j f j fff � g b f N�x � � w x � � o � (14)em que f o é a saída (escore objetivo), g(x) é afunção de ativação e j � é o peso que conecta o jésimoneurônio da camada oculta ao neurônio desaída. De acordo com [28], uma rede SLFN com Knós na camada oculta e uma função de ativação g(x)pode apresentar um erro médio próximo de zero, i.e.,10Kf ff �� o � t � . Logo, há parâmetros j � , j w e j b talque� �1, 1, , ,Kj j f j ff� g b f N�� w x � � t � (15)em que f t é o vetor alvo (escores subjetivos),T1, , j j jn � �w w � � � w é o vetor de peso que conecta o jésimoneurônio da camada oculta ao neurônio dacamada de entrada, j b denota a polarização (bias) doj-ésimo neurônio da camada oculta, � � j f w x é oproduto interno de j w e f x . A Figura 2 ilustra oalgoritmo ELM empregado em uma arquitetura derede neural SLFN.xi1βjN1jKtibjN input neuron K hidden neuron output neuronβ1βKwjFig. 2. Arquitetura de uma rede neural SLFN usando algoritmode treinamento ELMO sistema linear da Equação (16) resume o métododo algoritmo ELM.Hβ � T, (16)em que a matriz da camada oculta é representada por� � � 1, , and 1, , � � H � h f � N j � K com a primeiralinha da matriz de características f x igual aT1 2 , , , f f f fn x � ��x x x �� , i.e., a primeira linha é igual a� � 1 1 1 1 1 1 1 , , , , , f f f f f f f x � A B Z TI MAD MADw . A matriz desaída e o vetor alvo (target) são de�nidos comoT1 , K β � ��β β �� eT1, , N T � ��t t �� , respectivamente. Otermo � �T1 , 1, , j jm j � � � j � K � � β β β denota o vetor depeso que conecta o j-ésimo neurônio da camadaoculta e os neurônios de saída. Hung et al. [28]propuseram a atribuição aleatória de pesos aosparâmetros j w e j b , a �m de seja obtido um pequenoerro não-nulo durante o treinamento. Considerando osistema linear da Equação (17), os pesos da camadade saída podem ser aproximados por† β � H T (17)em que † H é de�nida como matriz inversageneralizada de Moore-Penrose (MP) [33] da matrizde saída da camada oculta �H� . Além disso, oconjunto de treinamento � , nó oculta K e umafunção de ativação g �x � , e.g., função de base radial(Radial Basis Function – RBF), hard-limiting (hardlim),sigmoidal (sig) e seno (sin). Em resumo, o algoritmoELM compreende três etapas [28]:i) Atribuição aleatória dos pesos de entrada j w epolarizações j b ;ii) Cálculo da matriz da camada de saída H ;iii) Cálculo dos pesos de saída † β: β� H T .O método NRVQA-ELMtc [27] implementa umsimples critério de parada no treinamento da redeneural SLFN, quanto à atribuição aleatória dos pesosj w e j b . Embora este critério não seja direcionado,busca os pesos relacionados com o menor RMSE(Root-Mean-Square Error) entre a saída desejada(escore subjetivo) e o escore objetivo na fase detreinamento com k iterações (tipicamente, k � 100 ) eN neurônios na camada oculta. Além disso, conformeestudo realizado em [27], caso o RMSE seja menor doque 0,5 o algoritmo cessa a busca pelos parâmetrosj w e j b .4. RESULTADOS EXPERIMENTAISEsta seção apresenta os resultados de acurácia,i.e., os coe�cientes de correlação linear de Pearson(Pearson Linear Correlation Coe�cient – PLCC) [34],[35], entre os escores objetivos e subjetivos de 2627amostras de vídeo estudadas em [27].A Figura 3 compara a acurácia (PLCC) entre asmétricas de referência completa (FR) PSNR e MSSSIMcom o método proposto (NRVQA-ELMtc) paraas 2627 amostras de vídeo, pertencentes a 17 basesde dados de vídeo disponibilizadas por diversasinstituições e laboratórios [27]. A função de ativaçãousada na rede neural SLFN foi o seno (sin) com onúmero de amostras de teste igual ao número deneurônios na camada oculta ( N ). O método devalidação cruzada múltipla (K-fold) foi usado com oobjetivo de gerar uma distribuição de acurácia, a qualfoi analisada por meio do diagrama de caixa (box-plot)[36], em que o traço, o círculo e o quadrado, ambosem vermelho, representam a mediana, a média e odesvio padrão, respectivamente. Destaca-se queneste trabalho foi empregada uma validação cruzadacom um grande número de amostras de treinamentotestecom K � 100 , i.e., cada caixa do box-plotcomporta 100 experimentos distintos. Tipicamente, aliteratura apresenta trabalhos no campo da avaliaçãoFig. 3. Box-plot da predição da acurácia (PLCC) entre as métricas PSNR, MS-SSIM e o método proposto NRVQA-ELMtcde qualidade de vídeo com K entre 5 e 10 [37], [38].Pela inspeção visual da Figura 3 observa-se que odesempenho do método proposto é superior àsmétricas FR, em quaisquer condições de teste, i.e.,para qualquer quantidade de amostras de teste(número de neurônios na camada oculta) entre 25 e500. Em especial, para N � 50 , o método propostoapresenta valores de PLCC, em termos da média emediana, acima de 0,8, denotando uma forteassociação entre os escores objetivos e subjetivos, natarefa de predição de qualidade de vídeo. Isto ocorredevido à grande quantidade de amostras de vídeousadas no treinamento, e.g., para N � 300 foramusadas 2327 amostras de treinamento, ou seja,mesmo usando pares de treinamento-teste disjuntos,o método proposto mostra uma acurácia superior àsmétricas de referência completa. A assimetria positiva,i.e., a maior concentração da acurácia entre osegundo quartil (mediana) e o terceiro quartil, nadistribuição do box-plot nos testes com 300 e 500neurônios na camada oculta, indica que o métodoproposto apresenta um desempenho expressivo emcomparação com as métricas FR.Entretanto, mesmo para N entre 25 e 50, ométodo proposto apresentou uma acurácia maior doque as métricas FR, cujo melhor resultado foi paraN � 25 com o desvio-quartil (amplitude interquartílica)con�nado entre 0,65 e 0,8. Além disso, este resultadotambém apresentou assimetria positiva com a médiado PLCC em torno de 0,75.5. CONCLUSÃOEste trabalho apresentou uma métrica NR baseadaem uma rede neural arti�cial SLFN, cujo treinamento édeterminado pelo algoritmo ELM, o qual consideracaracterísticas espaço-temporais e os escoressubjetivos (alvos) extraídos de 2627 amostrastreinamento. Além disso, este trabalho propõe umaextensão do algoritmo ELM por meio de um simplescritério de parada, a �m de que sejam obtidosparâmetros da rede neural arti�cial relacionados como menor RMSE. Tipicamente, a comparação entremétricas FR e NR é injusta, devido à ausência dovídeo de referência na obtenção do escore dequalidade em métricas NR. Entretanto, os resultadosexperimentais mostram que o método propostoapresentou desempenho superior às métricas dereferência completa PSNR e MS-SSIM, sobretudo,quando o número de amostras de teste e de neurôniosna camada oculta da rede SLFN é maior do que 250.Logo, a métrica NRVQA-ELMtc pode ser empregadano monitoramento de qualidade em sistemas detransmissão e recepção de vídeo digital, tais comoIPTV (Internet Protocol Television), TV digital ou emdispositivos móveis, tais como ultrabooks,smartphones, tablets e em aparelhos WiDi (WirelessDisplay).REFERÊNCIAS[1] S. Winkler, “Issues in vision modeling for perceptualvideo quality assessment,” Signal Processing, vol. 78,no. 2, pp. 231–252, 1999.[2] Z. Wang and A. C. Bovik, Modern image qualityassessment. San Rafael, CA: Morgan & Claypool,2006.[3] W. Lin and C.-C. Jay Kuo, “Perceptual visual qualitymetrics: A survey,” Journal of Visual Communicationand Image Representation, vol. 22, no. 4, pp. 297–312,May 2011.[4] S. S. Hemami and A. R. Reibman, “No-reference imageand video quality estimation: Applications and humanmotivateddesign,” Signal Processing: ImageCommunication, vol. 25, no. 7, pp. 469–481, 2010.[5] Z. Wang and A. Bovik, “Reduced- and No-ReferenceImage Quality Assessment,” IEEE Signal ProcessingMagazine, vol. 28, no. 6, pp. 29–40, Nov. 2011.[6] R. V. Babu, S. Suresh, and A. Perkis, “No-referenceJPEG-image quality assessment using GAP-RBF,”Signal Processing, vol. 87, no. 6, pp. 1493–1503, 2007.[7] X. Jiang, F. Meng, J. Xu, and W. Zhou, “No-ReferencePerceptual Video Quality Measurement for HighDe�nition Videos Based on an Arti�cial NeuralNetwork,” in Computer and Electrical Engineering,2008. ICCEE 2008. International Conference on, 2008,pp. 424–427.[8] J. Choe, K. Lee, C. Lee, and S. Korea, “No-referencevideo quality measurement using neural networks,” in2009 16th International Conference on Digital SignalProcessing, 2009, pp. 1–4.[9] S. Suresh, R. Venkatesh Babu, and H. J. Kim, “Noreferenceimage quality assessment using modi�edextreme learning machine classi�er,” Applied SoftComputing, vol. 9, no. 2, pp. 541–552, Mar. 2009.[10] A. M. Eskicioglu and P. S. Fisher, “Image qualitymeasures and their performance,” IEEE Transactionson Communications, vol. 43, no. 12, pp. 2959–2965,1995.[11] U. Engelke and H.-J. Zepernick, “Perceptual-basedQuality Metrics for Image and Video Services: ASurvey,” in Proceedings EuroNGI Conf. NextGeneration Internet Networks, 2007, pp. 190–197.[12] Z. Wang, A. C. Bovik, H. R. Sheikh, and E. PSimoncelli, “Image quality assessment: from errorvisibility to structural similarity.,” IEEE Transactions onImage Processing, vol. 13, no. 4, pp. 600–612, 2004.[13] Z. Wang, E. P. Simoncelli, and A. C. Bovik, “Multiscalestructural similarity for image quality assessment,” inThe Thrity-Seventh Asilomar Conference on Signals,Systems & Computers, 2003, 2003, vol. 2, no. 1, pp.1398–1402.[14] H. R. Wu, K. R. Rao, and A. A. Kassim, “Digital VideoImage Quality and Perceptual Coding,” Journal ofElectronic Imaging, vol. 16, no. 3, 2007.[15] Z. Wang and A. C. Bovik, “A universal image qualityindex,” IEEE Signal Processing Letters, vol. 9, no. 3,pp. 81–84, Mar. 2002.[16] Y. Shi, Y. Ding, R. Zhang, and J. Li, “Structure and HueSimilarity for Color Image Quality Assessment,” in 2009International Conference on Electronic ComputerTechnology, 2009, pp. 329–333.[17] W. B. Silva, A. A. P. Pohl, and K. V. O. Fonseca, “AReduced-Reference Video Quality Assessment Methodbased on the Activity-Di�erence of DCT Coe�cients,”IEICE Transactions on Information and Systems, vol. E96-D, no. 3, 2013.[18] P. Le Callet, C. Viard-Gaudin, and D. Barba, “A Convolutional Neural Network Approach for Objective Video Quality Assessment,” IEEE Transactions on Neural Networks, vol. 17, no. 5, pp. 1316–1327, 2006.[19] P. Le Callet and D. Barba, “Image Quality Assessment: From Sites Errors to a Global Appreciation of Quality,” in Proceedings of the Picture Coding Sympsium, 2001, pp. 105–108.[20] M. Miyahara, K. Kotani, and V. R. Algazi, “Objective picture quality scale (PQS) for image coding,” IEEE Transactions on Communications, vol. 46, no. 9, pp. 1215–1226, 1998.[21] M. Slanina, V. Ricny, and R. Forchheimer, “A Novel Metric for H.264/AVC No-Reference Quality Assessment,” in 14th International Workshop on Systems, Signals and Image Processing and 6th EURASIP Conference focused on Speech and Image Processing, Multimedia Communications and Services, 2007, pp. 114–117.[22] O. Sugimoto, S. Naito, S. Sakazawa, and A. Koike, “Objective perceptual video quality measurement method based on hybrid no reference framework,” in 16th IEEE International Conference on Image Processing (ICIP’09), 2009, pp. 2237–2240.[23] T. Oelbaum, C. Keimel, and K. Diepold, “Rule-Based No-Reference Video Quality Evaluation Using Additionally Coded Videos,” IEEE Journal of Selected Topics in Signal Processing, vol. 3, no. 2, pp. 294–303, 2009.[24] N. Staelens, N. Vercammen, Y. Dhondt, B. Vermeulen, P. Lambert, R. de Walle, and P. Demeester, “ViQID: A No-Reference bit stream-based visual quality impairment detector,” in Proceedings of the Second Int Quality of Multimedia Experience (QoMEX) Workshop, 2010, pp. 206–211.[25] F. Yang, S. Wan, Q. Xie, and H. R. Wu, “No-Reference Quality Assessment for Networked Video via Primary Analysis of Bit Stream,” IEEE Transactions on Circuits and Systems for Video Technology, vol. 20, no. 11, pp. 1544–1554, Nov. 2010.[26] Z. Wang, H. R. Sheikh, and A. C. Bovik, “Objective Video Quality Assessment,” in The Handbook of Video Databases: Design and Applications, B. Furht and O. Marques, Eds. Boca Raton, FL, USA: CRC Press, 2003, pp. 1041–1078.[27] W. B. da Silva and A. de A. P. Pohl, “Métodos Sem Referência Baseados em Características Espaço-Temporais para Avaliação Objetiva de Qualidade de Vídeo Digital,” Universidade Tecnológica Federal do Paraná (UTFPR), 2013.[28] G.-B. Huang, Q.-Y. Zhu, and C.-K. Siew, “Extreme learning machine: Theory and applications,” Neurocomputing, vol. 70, no. 1–3, pp. 489–501, Dec. 2006.[29] Z. Wang, H. R. Sheikh, and A. C. Bovik, “No-reference perceptual quality assessment of JPEG compressed images,” in Image Processing. 2002. Proceedings. IEEE International Conference on Image Processing, 2002, vol. 1, pp. vol.1 I–477 – I–480.[30] W. B. Silva and A. A. P. Pohl, “No-Reference Video Quality Assessment Method based on the Levenberg-Marquardt Minimization,” in XXX Brazilian Symposium on Telecommunications (SBrT’12), 2012.[31] ITU-T P.910, “Subjective video quality assessment methods for multimedia applications,” Standardization Sector of ITU, 1999.[32] W. Ding, Y. Tong, Q. Zhang, and D. Yang, “Image and Video Quality Assessment Using Neural Network and SVM,” Tsinghua Science &amp; Technology, vol. 13, no. 1, pp. 112–116, 2008.[33] K. S. Banerjee, C. R. Rao, and S. K. Mitra, “Generalized Inverse of Matrices and Its Applications,” Technometrics, vol. 15, no. 1, p. 197, Feb. 1973.[34] VQEG, “Final report from the video quality experts group on the validation of reduced-reference and no-reference objective models for standard de�nition television, Phase I,” 2009.[35] VQEG, “Report on the validation of video quality models for high de�nition video content,” 2010.[36] J. W. Tukey, Exploratory Data Analysis. New York: Addison-Wesley Publishing Company, 1977.[37] P. Gastaldo and R. Zunino, “Neural networks for the no-reference assessment of perceived quality,” J. Electronic Imaging, vol. 14, no. 3, p. 033004, 2005.[38] R. Herzog, M. Čadík, T. O. Aydın, K. I. Kim, K. Myszkowski, and H.-P. Seidel, “NoRM: No-Reference Image Quality Metric for Realistic Image Synthesis,” Comp. Graph. Forum, vol. 31, no. 2pt4, pp. 545–554, 2012.

Revista de Radiodifusão • v. 08 • n. 09 • 201434

REDE SFN HÍBRIDA – DIFICULDADES DE IMPLANTAÇÃO

Kusunoki, Marcel 1, Pellegrini, Lucas Valmir 2, Rehme, Jose Frederico 3

1 Curitiba, Brasil, [email protected] 2 Curitiba, Brasil, [email protected] 3 Curitiba, Brasil, [email protected]

Resumo: Este artigo tem como finalidade explicar o conceito de uma rede SFN Distribuída Híbrida, mostrar o funcionamento desta com um exemplo prático de aplicação, apresentar medidas de multipercurso obtidas durante a instalação do sistema e dificuldades de implantação encontradas. Este experimento permitiu a expansão do sinal digital da RPC TV Curitiba na Região Metropolitana da capital paranaense. Palavras chave: SFN Híbrida. Rede de Frequência Única. 1PPS. ISDB-Tb. RPC TV.

1. REDE SFN ISDB-Tb

A rede SFN (Single Frequency Network – Rede de Frequência Única) visa à utilização de um único canal, banda de frequência de largura definida, para aumentar a cobertura de um sinal numa determinada região, de forma que se evite a utilização de várias porções do espectro a fim de satisfazer a necessidade de cobertura [1]. O padrão brasileiro ISDB-Tb (Integrated Services Digital Broadcasting – Terrestrial Brazilian Version – Serviço Integrado de Transmissão Digital Terrestre Versão Brasileira) apresenta robustez necessária para permitir o uso de redes de frequência única como forma de ampliar a cobertura das emissoras e retransmissoras de TV Digital. Os transmissores da rede SFN inserem ao meio sinais semelhantes aos multipercursos, porém de forma controlada e configurável [2].

Há dois tipos de rede SFN para o padrão ISDB-Tb: rede de repetição e distribuída. A primeira é conhecida pelo uso de Gap Fillers, equipamentos reforçadores de sinal, que recebem o sinal do ar e retransmitem a mesma informação bit a bit. A sua principal função é melhorar a recepção de pequenas áreas que o sinal da emissora não consegue atingir. Uma dificuldade encontrada é a realimentação do sinal retransmitido na entrada do equipamento, fazendo-se necessária a utilização de um cancelador de eco. A segunda rede apresenta algumas necessidades como ter o mesmo BTS (Broadcast Transport Stream) e referência de 10 MHz e 1PPS (Um pulso por segundo) alimentando todos os transmissores da rede, e sincronização dos equipamentos com auxílio das informações providas pelo SFN Adapter [3].

As redes SFN também podem ser divididas em puras e híbridas [4]. A primeira utiliza equipamentos de um único fabricante. A integração dos mesmos é

mais simples pelo fato deles apresentarem comportamentos semelhantes. A segunda tem como característica a utilização de equipamentos de diferentes fabricantes e é o principal estudo deste artigo. Foram realizados testes em bancada para permitir a análise da compatibilidade destes equipamentos dentro de uma rede SFN.

2. METODOLOGIA

Equipamentos utilizados: Excitador HKL MOD GV4746 Serial: 0032 Excitador R&S SX801 Serial: 105373 Excitador R&S SX801 Serial: 105489 Excitador NEC DTVM-21A Serial: G1419 TV Analyzer ETL R&S Serial: 101586

Inicialmente o experimento começou com a

simulação da rede SFN com apenas dois transmissores, a fim de se verificar o sincronismo dos equipamentos, e estabilidade e qualidade do sinal transmitido. O primeiro transmissor foi um NEC, já que ele fornece sinal ISDB-Tb para a cidade de Curitiba e o segundo um R&S, cuja finalidade era aumentar a área de cobertura na região metropolitana da capital paranaense. O instrumento de medida utilizado para caracterizar o sinal ISDB-Tb foi o TV Analyzer ETL da R&S.

Como a ideia era criar uma rede SFN Híbrida Distribuída, fez-se necessário alimentar todo transmissor/excitador com sinais de referência 10 MHz e 1PPS. O BTS utilizado foi gerado por um único MUX (Multiplex - Multiplexador) NEC. A figura 1 visa explicitar o sistema montado para análise.

Figura 1 - Giga de teste 1 - SFN Híbrida com EXC R&S e NEC

Após análise dos resultados obtidos no primeiro

experimento, deu-se a ideia de incluir um terceiro equipamento, de diferente fabricante a fim de se verificar o comportamento do sinal gerado por este transmissor dentro de uma rede SFN sincronizada.

MUX1NEC DDA

EXCR&S

10 MHz

1 PPS

ASI BTS

ETL

EXC NEC

ASI BTS

Page 35: Revista de RADIODIFUSÃO - SET PORTAL · Sinais de TV Digital ISDB-Tb via VHF e UHF na Cidade do Gama – DF – Brasil Akamine, Cristiano Bedicks Jr, Gunnar ... cujas frequências

MÉTRICA SEM REFERÊNCIA BASEADA EM REDES NEURAISPARA AVALIAÇÃO OBJETIVA DE QUALIDADE DE VÍDEO DIGITALWyllian Bezerra da Silva, Alexandre de Almeida Prado PohlPrograma de Pós-Graduação em Engenharia Elétrica e Informática Industrial (CPGEI) – UTFPR, Curitiba, [email protected], [email protected]: Este trabalho apresenta uma métrica sem referência para avaliação de qualidade de vídeo digital baseada em uma rede neural arti�cial que usa uma versão estendida do algoritmo de aprendizado ELM (Extreme Learning Machine). O método proposto realiza o treinamento da rede neural a partir de seis características espaço-temporais. Os resultados experimentais mostram que o método proposto apresenta desempenho superior às métricas de referência completa PSNR e MS-SSIM na tarefa de predição de qualidade de vídeo. Logo, o método proposto pode ser usado no monitoramento de qualidade em sistemas de transmissão e recepção de vídeo digital, tais como IPTV e TV digital.Palavras chave: algoritmo ELM, avaliação objetiva de vídeo, métrica sem referência, rede neural arti�cial.1. INTRODUÇÃODurante os últimos anos, a literatura tem apresentado um número crescente publicações acerca de métricas objetivas para avaliação de qualidade de vídeo para diversas aplicações em radiodifusão ou no processamento de vídeo digital, seja na aquisição do sinal, codi�cação e decodi�cação, compressão, transmissão, restauração, armazenamento, segmentação e exibição de sinais de vídeo digital [1–4]. A avaliação de qualidade de vídeo digital pode ser realizada por meio de métricas subjetiva e objetiva. A primeira requer uma grande quantidade de recursos humanos e apresenta elevado custo em sua implementação [1–3]. Porém, as métricas objetivas são vantajosas quando apresentam um determinado grau de correlação com as métricas subjetivas. Logo, o desenvolvimento destas é um desa�o no campo de avaliação de qualidade de vídeo e imagem. Além disso, as métricas objetivas, devido à natureza de seu critério objetivo, independem de interação humana e são facilmente reprodutíveis [3]. Dentre as métricas objetivas destacam-se as métricas sem referência (No-Reference – NR), pois não necessitam do vídeo de referência no cálculo de sua medida. Entretanto, estas requerem um conhecimento a priori sobre as distorções em vídeo digital para que seja estabelecida uma correlação com os resultados subjetivos [3].A maioria das métricas NR encontradas na literatura são baseadas na avaliação de qualidade de imagens e em características relacionadas ao Sistema Visual Humano (SVH). Assim, o desenvolvimento de métricas NR é difícil, devido à necessidade de emular a percepção do SVH que envolve aspectos cognitivos, emocionais e estéticos relacionados ao conteúdo do vídeo e que são altamente dependentes do observador [4], [5].A literatura reporta diversos esforços no desenvolvimento de métricas para avaliação de qualidade de vídeo baseadas em redes neurais e em algoritmos de aprendizado. Babu et al. [6] apresentam uma métrica para avaliar a qualidade de imagens comprimidas em JPEG (Joint Photographic Experts Group) por meio de um algoritmo de aprendizado de crescimento e propõem o uso de uma rede neural GAP-RBF (Growing and Pruning Radial Basis Function) que usa características relacionadas ao SVH. Jiang et al. [7] desenvolveram uma métrica NR para avaliação de qualidade de vídeo em HD (High De�nition) baseada em uma rede neural treinada pelo algoritmo BP (Back-Propagation) que usa seis características espaço-temporais e a RoI (Region of Interest). Choe et al. [8] desenvolveram uma métrica NR baseada no �uxo de bits para avaliação de qualidade de vídeo codi�cado em H.264. Esta métrica extrai características quadro a quadro e usa uma rede neural alimentada adiante (feedforward) com três camadas. Suresh et al. [9] apresentaram uma extensão do algoritmo ELM na tarefa de avaliar a qualidade de imagens comprimidas em JPEG com base no esquema de seleção múltipla KS-ELM (K-fold selection Scheme using ELM) e no algoritmo RCGA-ELM (Real-Coded Genetic Algorithm using ELM) para seleção dos pesos de entrada e polarizações.Este trabalho apresenta uma versão estendida do algoritmo ELM para redes neurais SLFN (Single-hidden-Layer Feedforward Neural Networks) que implementa um simples critério de parada na fase de treinamento. Além disso, esse método usa seis características espaço-temporais de vídeos submetidos a diversas condições de distorção.Este artigo está dividido da seguinte maneira: a Seção 2 descreve as métricas para avaliação de qualidade de vídeo. A Seção 3 descreve o método NR proposto para avalição de qualidade de vídeo digital. A Seção 4 apresenta os resultados experimentais, em que são comparados o método NR proposto e duas métricas FR. Finalmente, a Seção 5 apresenta a conclusão do artigo.2. AVALIAÇÃO DE QUALIDADE DE VÍDEOO processo de avaliação de qualidade de vídeopode ser realizado com a aplicação de métricassubjetivas ou objetivas. As métricas subjetivasestimam a qualidade do vídeo por meio de avaliadoreshumanos. Logo, exigem um alto custo, poisnecessitam de uma grande quantidade de recursoshumanos e apresentam problemas quanto aosrequisitos de imparcialidade e reprodutibilidade,tornando-se inapropriadas em sistemas deradiodifusão ou em provedores de conteúdo [10], [11].Por outro lado, as métricas objetivas são baseadas emmodelos matemáticos, cujo objetivo é produzir umescore de qualidade que emule a percepção do SVH.Além disso, as métricas objetivas requerem baixocusto de implementação (quando comparadas com asmétricas subjetivas) e não apresentam problemasquanto à reprodutibilidade e imparcialidade.As métricas objetivas para avaliação de qualidadede vídeo podem ser classi�cadas em três categorias:(i) métricas de referência completa (Full-Reference –FR); (ii) métricas de referência reduzida (Reduced-Reference – RR); (iii) métricas sem referência (NR).2.1. Métricas FRAs métricas FR requerem o vídeo de referência(fonte) no cálculo do escore de qualidade. Estasmétricas são amplamente utilizadas no processo devalidação de métricas RR ou NR, por meio dacomparação de desempenho de�nida pelasrecomendações do Grupo de Especialistas emQualidade de Vídeo (VQEG – Video Quality ExpertsGroup) que é um órgão de padronização internacionalde métricas subjetivas e objetivas de qualidade devídeo. Dentre as métricas FR, destacam-se o PSNR(Peak Signal-to-Noise Ratio), SSIM (StructuralSIMilarity index) [12] e MS-SSIM (Multi-ScaleStructural SIMilarity index) [13].O PSNR é uma métrica FR baseada no erro pixel apixel de fácil implementação. Entretanto, apresentabaixa correlação com o SVH [14]. A sua medida éprocessada sobre o erro quadro a quadro, i.e., entre oquadro original x e o quadro y . A expressão a seguirde�ne o PSNR para um conjunto de quadros F .2011PSNR 20log ,Fff fvF � MSE� �� � �� �� ��(1)com� � � �20 01MSE , , , , ,N Mfi jx f i j y f i jNM � �� ���� � ��(2)em que o termo f v é igual a (2 1) k � , cujo k é onúmero de bits por pixel, i.e., é a componente deluminância do quadro f . Os termos x �f ,i, j � ey �f ,i, j � são os valores de luminância do quadro deorigem e degradado, respectivamente. Ascomponentes bidimensionais são representadas pelonúmero de colunas N e pelo número de linhas M . Otermo f MSE é de�nido como erro quadrático médioou MSE (Mean Square Error).A métrica SSIM baseia-se no fato de que o SVH éfortemente adaptado para extrair informações dascaracterísticas estruturais de um quadro ou imagem.Logo, uma medida de similaridade estrutural (oudistorção) pode prover boa aproximação para aqualidade perceptual de um vídeo [3, 7–9]. Sejam x ey dois sinais não-negativos, em que y é o sinaldegradado e x é o sinal original (sem perda dequalidade), a medida de similaridade é utilizada comoum índice quantitativo de qualidade do sinal distorcido,ou seja, x é tomado como a referência para medir aqualidade de y . A métrica SSIM possui diversasextensões, dentre as quais a versão MS-SSIM,proposta por Wang et al. [13] que assume umaabordagem multiescalar.2.2. Métricas RRAs métricas de referência reduzida retiram certaquantidade de características do vídeo original (fonte),baseadas em componentes espaciais, temporais, nodomínio da frequência ou no �uxo de bits (bitstream).Este tipo de métrica é amplamente utilizada nomonitoramento de transmissões em rede [17]. Nestetipo de cenário de aplicação, o vídeo é transmitidocom uma sequência de informação codi�cada(overhead) e no lado receptor ocorre a suadecodi�cação, seguido pelo cálculo do índice dequalidade, o qual é obtido por meio da comparaçãoentre a representação reduzida da informação nospares emissor e receptor [18]. Tipicamente, métricasRR são implementadas por meio de funções, divididasem duas etapas [19]: (i) cálculo do erro entre osvídeos original e distorcido, constituído pela diferençade suas características, a �m de compor arepresentação reduzida da informação; (ii) função queagrupa os erros ou diferenças para obter um índice dequalidade global. Algumas métricas RR explorampropriedades dos artefatos, por meio da extração decaracterísticas e um modelo de parametrização [20]com foco em tipos especí�cos de distorções(artefatos). Esta abordagem é encontrada em Silva etal. [17], cujo cálculo do escore de qualidade ébaseado na diferença de atividade dos coe�cientesDCT (Discrete Cosine Transform) em um macro blococom resolução de 16�16 pixels.2.3. Métricas NRAs métricas NR extraem característicasrelacionadas ao SVH do vídeo distorcido, i.e., narecepção do sinal de vídeo [14]. Tipicamente, há duasabordagens no desenvolvimento destas métricas: (i)extração dos parâmetros sobre o �uxo de bits, taiscomo a taxa de compressão, informaçõesrelacionadas ao GoP (Group of Pictures), estimaçãode movimento, per�l e nível de codi�cação, bem comoo parâmetro de quantização ou QP (QuantizationParameter) [21–25]. Métricas NR apresentam maiorcomplexidade quando são aplicadas em vídeo, devidoà variação temporal dos quadros, conteúdos dascenas e à di�culdade de compreensão dascaracterísticas do SVH [26]. Assim, algumas métricasdessa categoria exploram características espaciais etemporais na estimação de qualidade de vídeo [21].3. MÉTODO PROPOSTOO método proposto, denominado NRVQA-ELMtc(No-Reference Video Quality Assessment usingExtreme Learning Machine algorithm with terminationcriteria) [27] combina características espaciais etemporais, por meio de uma rede neural arti�cialSLFNs usando o algoritmo de treinamento ELM [28]com a implementação de um simples critério deparada.3.1. Características espaço-temporaisAs características espaciais incorporadas nométodo proposto são baseadas em medidas deartefatos em vídeo digital, i.e., distorções de blocageme borramento desenvolvidas por Wang et al. [20].Assim, a componente de luminância do quadro f érepresentada por y(f , i, j ) com i � ��1,M�� e j � ��1, N�� ,em que M e N são os números de linhas e colunas,respectivamente, de um quadro. Logo, as diferençasde luminância ao longo das linhas e colunas sãorepresentadas, respectivamente, pelas expressões aseguir.� � � � � � � �� � � � � � � �, , , , 1 , , , 1, 1 ,, , , 1, , , , 1, 1 .hvd f i j y f i j y f i j j Nd f i j y f i j y f i j i M� � � � �� � � � �(3)O efeito de blocagem pode ser estimado pelamédia das diferenças entre as bordas dos blocos daDCT (Discrete Cosine Transform) nas direçõeshorizontal e vertical para uma sequência F dequadros, conforme mostra a Equação (4), com ummacrobloco de dimensão � �� , cujo tamanho típico éde � � 8 [20].� � ��� � � �111 1 1111 1 11, , 1 ,111, 1 , .11NF Mh hf i jMF Nvi jvfB d f i jNF MB d f i jMF N��������� � ���� � �� �� �� � � �� � �� �� �� � � �� � �� � �� � �(4)A medida de blocagem em uma sequência devídeo com F quadros é determinada pela média entreh B e v B , caracterizando a medida B , conforme aexpressão a seguir..2h v B BB�� (5)Os efeitos de borramento são estimados pelocálculo da redução de atividade entre os blocos � �� ,em que é usada a medida de blocagem nas direçõeshorizontal e vertical, conforme as expressões� � � �� �� � � �� �11 1 111 1 1, , ,1 1, ,1.1F M Nh h hf i jF M Nv vfvi jA d f i j BF M NA d f i j BF N M������ � ��� � �� �� � �� �� � �� � �� � �(6)A medida de borramento, representada por A ,conforme a Equação (7), é determinada pela médiaentre h A e v A ..2h v A AA�� (7)O segundo fator que contribui para a detecção doartefato de borramento é baseado na taxa decruzamento por zero (Zero Crossing – ZC) nasdireções horizontal e vertical, conforme as expressõesa seguir.� �� �� �� �21 1 121 1 11, , ,21, , ,2F M Nh hf i jF M Nv vf i jZ z f i jF M NZ z f i jF N M�� � ��� � ��� ��� �� � �� � �(8)em que os termos h z e v z são determinados por� �� �1, na direção horizontal, , ,0, caso contrário1, na direção vertical, , .0, caso contráriohvz f i jz f i j�� �� �� ��(9)Assim, a medida de borramento Z é determinadapela média entre as componentes h Z e v Z ..2h v Z ZZ�� (10)O método proposto também incorpora trêscaracterísticas temporais no treinamento da redeneural SLFN com o algoritmo ELM.A primeira característica temporal é a diferença demovimento entre quadros adjacentes, representadapela variável TI (Temporal perceptual Information) [31]que considera os valores de luminância de pixelslocalizados em uma mesma região de um quadro,conforme a expressão a seguir.� �21, , ,1FfTI m f i jF��� �� �� �� (11)em que o número total de quadros é F e � �m�f ,i, j ��� �é o desvio padrão da diferença de movimento(diferença de luminância) entre o quadro atualy �f ,i, j � e o quadro anterior y �f �1,i, j � .A segunda característica temporal é a média dadiferença absoluta (Mean Absolute Di�erence – MAD)[31] entre quadros sucessivos, representada pelaEquação (12) que de�ne a medida global da MADpara todos os quadros de um vídeo.� �� � � �2 1 11, , 1, , .1F M Nf i jMAD y f i j y f i jM N F � � �� � �� �� � �(12)A terceira característica temporal é a média dadiferença absoluta ponderada (weighted MeanAbsolute Di�erence – MADw) [32], a qual mede o graude variação das cenas de um vídeo que considera acena atual de um quadro f e do quadro anterior f �1,conforme a expressão:2 11.1Fff fMADMADwF � MAD �� �� � �� � ��(13)Assim, o método proposto combina ascaracterísticas espaciais e temporais em uma matriz� , , , , , � f f f f f f f x � A B Z TI MAD MADw , em que f é onúmero de amostras de vídeo. A Figura 1 apresentaas características temporais � espaciais de dezessetebases de dados de vídeos (denominada superconjuntoS) usadas neste trabalho e reportadas em [27]. Arecomendação ITU-T P.910 [31] de�ne a medida SI(Spatial perceptual Information) como informaçãoespacial perceptual. A inspeção visual dessa �guramostra que as amostras de vídeo usadas nestetrabalho apresentam uma grande variação espaçotemporal.Fig. 1. Características espaciais e temporais do superconjuntoS com 216 amostras de referência3.2. Métrica NRVQA-ELMtcO algoritmo ELM [28] desenvolvido para otreinamento de uma rede SLFN atribui pesos epolarizações (biases) de maneira aleatória, segundouma distribuição uniforme. O treinamento compreendeN amostras distintas representadas pela variável�� , � , , 1, , � n mf f f f � � x t x � t � f � N , cujo cálculo éconforme a expressão� � � �1, 1, , ,KK i j j f j fff � g b f N�x � � w x � � o � (14)em que f o é a saída (escore objetivo), g(x) é afunção de ativação e j � é o peso que conecta o jésimoneurônio da camada oculta ao neurônio desaída. De acordo com [28], uma rede SLFN com Knós na camada oculta e uma função de ativação g(x)pode apresentar um erro médio próximo de zero, i.e.,10Kf ff �� o � t � . Logo, há parâmetros j � , j w e j b talque� �1, 1, , ,Kj j f j ff� g b f N�� w x � � t � (15)em que f t é o vetor alvo (escores subjetivos),T1, , j j jn � �w w � � � w é o vetor de peso que conecta o jésimoneurônio da camada oculta ao neurônio dacamada de entrada, j b denota a polarização (bias) doj-ésimo neurônio da camada oculta, � � j f w x é oproduto interno de j w e f x . A Figura 2 ilustra oalgoritmo ELM empregado em uma arquitetura derede neural SLFN.xi1βjN1jKtibjN input neuron K hidden neuron output neuronβ1βKwjFig. 2. Arquitetura de uma rede neural SLFN usando algoritmode treinamento ELMO sistema linear da Equação (16) resume o métododo algoritmo ELM.Hβ � T, (16)em que a matriz da camada oculta é representada por� � � 1, , and 1, , � � H � h f � N j � K com a primeiralinha da matriz de características f x igual aT1 2 , , , f f f fn x � ��x x x �� , i.e., a primeira linha é igual a� � 1 1 1 1 1 1 1 , , , , , f f f f f f f x � A B Z TI MAD MADw . A matriz desaída e o vetor alvo (target) são de�nidos comoT1 , K β � ��β β �� eT1, , N T � ��t t �� , respectivamente. Otermo � �T1 , 1, , j jm j � � � j � K � � β β β denota o vetor depeso que conecta o j-ésimo neurônio da camadaoculta e os neurônios de saída. Hung et al. [28]propuseram a atribuição aleatória de pesos aosparâmetros j w e j b , a �m de seja obtido um pequenoerro não-nulo durante o treinamento. Considerando osistema linear da Equação (17), os pesos da camadade saída podem ser aproximados por† β � H T (17)em que † H é de�nida como matriz inversageneralizada de Moore-Penrose (MP) [33] da matrizde saída da camada oculta �H� . Além disso, oconjunto de treinamento � , nó oculta K e umafunção de ativação g �x � , e.g., função de base radial(Radial Basis Function – RBF), hard-limiting (hardlim),sigmoidal (sig) e seno (sin). Em resumo, o algoritmoELM compreende três etapas [28]:i) Atribuição aleatória dos pesos de entrada j w epolarizações j b ;ii) Cálculo da matriz da camada de saída H ;iii) Cálculo dos pesos de saída † β: β� H T .O método NRVQA-ELMtc [27] implementa umsimples critério de parada no treinamento da redeneural SLFN, quanto à atribuição aleatória dos pesosj w e j b . Embora este critério não seja direcionado,busca os pesos relacionados com o menor RMSE(Root-Mean-Square Error) entre a saída desejada(escore subjetivo) e o escore objetivo na fase detreinamento com k iterações (tipicamente, k � 100 ) eN neurônios na camada oculta. Além disso, conformeestudo realizado em [27], caso o RMSE seja menor doque 0,5 o algoritmo cessa a busca pelos parâmetrosj w e j b .4. RESULTADOS EXPERIMENTAISEsta seção apresenta os resultados de acurácia,i.e., os coe�cientes de correlação linear de Pearson(Pearson Linear Correlation Coe�cient – PLCC) [34],[35], entre os escores objetivos e subjetivos de 2627amostras de vídeo estudadas em [27].A Figura 3 compara a acurácia (PLCC) entre asmétricas de referência completa (FR) PSNR e MSSSIMcom o método proposto (NRVQA-ELMtc) paraas 2627 amostras de vídeo, pertencentes a 17 basesde dados de vídeo disponibilizadas por diversasinstituições e laboratórios [27]. A função de ativaçãousada na rede neural SLFN foi o seno (sin) com onúmero de amostras de teste igual ao número deneurônios na camada oculta ( N ). O método devalidação cruzada múltipla (K-fold) foi usado com oobjetivo de gerar uma distribuição de acurácia, a qualfoi analisada por meio do diagrama de caixa (box-plot)[36], em que o traço, o círculo e o quadrado, ambosem vermelho, representam a mediana, a média e odesvio padrão, respectivamente. Destaca-se queneste trabalho foi empregada uma validação cruzadacom um grande número de amostras de treinamentotestecom K � 100 , i.e., cada caixa do box-plotcomporta 100 experimentos distintos. Tipicamente, aliteratura apresenta trabalhos no campo da avaliaçãoFig. 3. Box-plot da predição da acurácia (PLCC) entre as métricas PSNR, MS-SSIM e o método proposto NRVQA-ELMtcde qualidade de vídeo com K entre 5 e 10 [37], [38].Pela inspeção visual da Figura 3 observa-se que odesempenho do método proposto é superior àsmétricas FR, em quaisquer condições de teste, i.e.,para qualquer quantidade de amostras de teste(número de neurônios na camada oculta) entre 25 e500. Em especial, para N � 50 , o método propostoapresenta valores de PLCC, em termos da média emediana, acima de 0,8, denotando uma forteassociação entre os escores objetivos e subjetivos, natarefa de predição de qualidade de vídeo. Isto ocorredevido à grande quantidade de amostras de vídeousadas no treinamento, e.g., para N � 300 foramusadas 2327 amostras de treinamento, ou seja,mesmo usando pares de treinamento-teste disjuntos,o método proposto mostra uma acurácia superior àsmétricas de referência completa. A assimetria positiva,i.e., a maior concentração da acurácia entre osegundo quartil (mediana) e o terceiro quartil, nadistribuição do box-plot nos testes com 300 e 500neurônios na camada oculta, indica que o métodoproposto apresenta um desempenho expressivo emcomparação com as métricas FR.Entretanto, mesmo para N entre 25 e 50, ométodo proposto apresentou uma acurácia maior doque as métricas FR, cujo melhor resultado foi paraN � 25 com o desvio-quartil (amplitude interquartílica)con�nado entre 0,65 e 0,8. Além disso, este resultadotambém apresentou assimetria positiva com a médiado PLCC em torno de 0,75.5. CONCLUSÃOEste trabalho apresentou uma métrica NR baseadaem uma rede neural arti�cial SLFN, cujo treinamento édeterminado pelo algoritmo ELM, o qual consideracaracterísticas espaço-temporais e os escoressubjetivos (alvos) extraídos de 2627 amostrastreinamento. Além disso, este trabalho propõe umaextensão do algoritmo ELM por meio de um simplescritério de parada, a �m de que sejam obtidosparâmetros da rede neural arti�cial relacionados como menor RMSE. Tipicamente, a comparação entremétricas FR e NR é injusta, devido à ausência dovídeo de referência na obtenção do escore dequalidade em métricas NR. Entretanto, os resultadosexperimentais mostram que o método propostoapresentou desempenho superior às métricas dereferência completa PSNR e MS-SSIM, sobretudo,quando o número de amostras de teste e de neurôniosna camada oculta da rede SLFN é maior do que 250.Logo, a métrica NRVQA-ELMtc pode ser empregadano monitoramento de qualidade em sistemas detransmissão e recepção de vídeo digital, tais comoIPTV (Internet Protocol Television), TV digital ou emdispositivos móveis, tais como ultrabooks,smartphones, tablets e em aparelhos WiDi (WirelessDisplay).REFERÊNCIAS[1] S. Winkler, “Issues in vision modeling for perceptualvideo quality assessment,” Signal Processing, vol. 78,no. 2, pp. 231–252, 1999.[2] Z. Wang and A. C. Bovik, Modern image qualityassessment. San Rafael, CA: Morgan & Claypool,2006.[3] W. Lin and C.-C. Jay Kuo, “Perceptual visual qualitymetrics: A survey,” Journal of Visual Communicationand Image Representation, vol. 22, no. 4, pp. 297–312,May 2011.[4] S. S. Hemami and A. R. Reibman, “No-reference imageand video quality estimation: Applications and humanmotivateddesign,” Signal Processing: ImageCommunication, vol. 25, no. 7, pp. 469–481, 2010.[5] Z. Wang and A. Bovik, “Reduced- and No-ReferenceImage Quality Assessment,” IEEE Signal ProcessingMagazine, vol. 28, no. 6, pp. 29–40, Nov. 2011.[6] R. V. Babu, S. Suresh, and A. Perkis, “No-referenceJPEG-image quality assessment using GAP-RBF,”Signal Processing, vol. 87, no. 6, pp. 1493–1503, 2007.[7] X. Jiang, F. Meng, J. Xu, and W. Zhou, “No-ReferencePerceptual Video Quality Measurement for HighDe�nition Videos Based on an Arti�cial NeuralNetwork,” in Computer and Electrical Engineering,2008. ICCEE 2008. International Conference on, 2008,pp. 424–427.[8] J. Choe, K. Lee, C. Lee, and S. Korea, “No-referencevideo quality measurement using neural networks,” in2009 16th International Conference on Digital SignalProcessing, 2009, pp. 1–4.[9] S. Suresh, R. Venkatesh Babu, and H. J. Kim, “Noreferenceimage quality assessment using modi�edextreme learning machine classi�er,” Applied SoftComputing, vol. 9, no. 2, pp. 541–552, Mar. 2009.[10] A. M. Eskicioglu and P. S. Fisher, “Image qualitymeasures and their performance,” IEEE Transactionson Communications, vol. 43, no. 12, pp. 2959–2965,1995.[11] U. Engelke and H.-J. Zepernick, “Perceptual-basedQuality Metrics for Image and Video Services: ASurvey,” in Proceedings EuroNGI Conf. NextGeneration Internet Networks, 2007, pp. 190–197.[12] Z. Wang, A. C. Bovik, H. R. Sheikh, and E. PSimoncelli, “Image quality assessment: from errorvisibility to structural similarity.,” IEEE Transactions onImage Processing, vol. 13, no. 4, pp. 600–612, 2004.[13] Z. Wang, E. P. Simoncelli, and A. C. Bovik, “Multiscalestructural similarity for image quality assessment,” inThe Thrity-Seventh Asilomar Conference on Signals,Systems & Computers, 2003, 2003, vol. 2, no. 1, pp.1398–1402.[14] H. R. Wu, K. R. Rao, and A. A. Kassim, “Digital VideoImage Quality and Perceptual Coding,” Journal ofElectronic Imaging, vol. 16, no. 3, 2007.[15] Z. Wang and A. C. Bovik, “A universal image qualityindex,” IEEE Signal Processing Letters, vol. 9, no. 3,pp. 81–84, Mar. 2002.[16] Y. Shi, Y. Ding, R. Zhang, and J. Li, “Structure and HueSimilarity for Color Image Quality Assessment,” in 2009International Conference on Electronic ComputerTechnology, 2009, pp. 329–333.[17] W. B. Silva, A. A. P. Pohl, and K. V. O. Fonseca, “AReduced-Reference Video Quality Assessment Methodbased on the Activity-Di�erence of DCT Coe�cients,”IEICE Transactions on Information and Systems, vol. E96-D, no. 3, 2013.[18] P. Le Callet, C. Viard-Gaudin, and D. Barba, “A Convolutional Neural Network Approach for Objective Video Quality Assessment,” IEEE Transactions on Neural Networks, vol. 17, no. 5, pp. 1316–1327, 2006.[19] P. Le Callet and D. Barba, “Image Quality Assessment: From Sites Errors to a Global Appreciation of Quality,” in Proceedings of the Picture Coding Sympsium, 2001, pp. 105–108.[20] M. Miyahara, K. Kotani, and V. R. Algazi, “Objective picture quality scale (PQS) for image coding,” IEEE Transactions on Communications, vol. 46, no. 9, pp. 1215–1226, 1998.[21] M. Slanina, V. Ricny, and R. Forchheimer, “A Novel Metric for H.264/AVC No-Reference Quality Assessment,” in 14th International Workshop on Systems, Signals and Image Processing and 6th EURASIP Conference focused on Speech and Image Processing, Multimedia Communications and Services, 2007, pp. 114–117.[22] O. Sugimoto, S. Naito, S. Sakazawa, and A. Koike, “Objective perceptual video quality measurement method based on hybrid no reference framework,” in 16th IEEE International Conference on Image Processing (ICIP’09), 2009, pp. 2237–2240.[23] T. Oelbaum, C. Keimel, and K. Diepold, “Rule-Based No-Reference Video Quality Evaluation Using Additionally Coded Videos,” IEEE Journal of Selected Topics in Signal Processing, vol. 3, no. 2, pp. 294–303, 2009.[24] N. Staelens, N. Vercammen, Y. Dhondt, B. Vermeulen, P. Lambert, R. de Walle, and P. Demeester, “ViQID: A No-Reference bit stream-based visual quality impairment detector,” in Proceedings of the Second Int Quality of Multimedia Experience (QoMEX) Workshop, 2010, pp. 206–211.[25] F. Yang, S. Wan, Q. Xie, and H. R. Wu, “No-Reference Quality Assessment for Networked Video via Primary Analysis of Bit Stream,” IEEE Transactions on Circuits and Systems for Video Technology, vol. 20, no. 11, pp. 1544–1554, Nov. 2010.[26] Z. Wang, H. R. Sheikh, and A. C. Bovik, “Objective Video Quality Assessment,” in The Handbook of Video Databases: Design and Applications, B. Furht and O. Marques, Eds. Boca Raton, FL, USA: CRC Press, 2003, pp. 1041–1078.[27] W. B. da Silva and A. de A. P. Pohl, “Métodos Sem Referência Baseados em Características Espaço-Temporais para Avaliação Objetiva de Qualidade de Vídeo Digital,” Universidade Tecnológica Federal do Paraná (UTFPR), 2013.[28] G.-B. Huang, Q.-Y. Zhu, and C.-K. Siew, “Extreme learning machine: Theory and applications,” Neurocomputing, vol. 70, no. 1–3, pp. 489–501, Dec. 2006.[29] Z. Wang, H. R. Sheikh, and A. C. Bovik, “No-reference perceptual quality assessment of JPEG compressed images,” in Image Processing. 2002. Proceedings. IEEE International Conference on Image Processing, 2002, vol. 1, pp. vol.1 I–477 – I–480.[30] W. B. Silva and A. A. P. Pohl, “No-Reference Video Quality Assessment Method based on the Levenberg-Marquardt Minimization,” in XXX Brazilian Symposium on Telecommunications (SBrT’12), 2012.[31] ITU-T P.910, “Subjective video quality assessment methods for multimedia applications,” Standardization Sector of ITU, 1999.[32] W. Ding, Y. Tong, Q. Zhang, and D. Yang, “Image and Video Quality Assessment Using Neural Network and SVM,” Tsinghua Science &amp; Technology, vol. 13, no. 1, pp. 112–116, 2008.[33] K. S. Banerjee, C. R. Rao, and S. K. Mitra, “Generalized Inverse of Matrices and Its Applications,” Technometrics, vol. 15, no. 1, p. 197, Feb. 1973.[34] VQEG, “Final report from the video quality experts group on the validation of reduced-reference and no-reference objective models for standard de�nition television, Phase I,” 2009.[35] VQEG, “Report on the validation of video quality models for high de�nition video content,” 2010.[36] J. W. Tukey, Exploratory Data Analysis. New York: Addison-Wesley Publishing Company, 1977.[37] P. Gastaldo and R. Zunino, “Neural networks for the no-reference assessment of perceived quality,” J. Electronic Imaging, vol. 14, no. 3, p. 033004, 2005.[38] R. Herzog, M. Čadík, T. O. Aydın, K. I. Kim, K. Myszkowski, and H.-P. Seidel, “NoRM: No-Reference Image Quality Metric for Realistic Image Synthesis,” Comp. Graph. Forum, vol. 31, no. 2pt4, pp. 545–554, 2012.

Revista de Radiodifusão • v. 08 • n. 09 • 2014 35

Marcel Kusunoki, Lucas Valmir Pellegrini , Jose Frederico Rehme

O segundo sistema montado contou, portanto, com excitadores de três fabricantes: NEC, HKL e R&S. A fim de mensurar o sinal gerado pelos excitadores foi utilizado o instrumento de medição TV Analyzer ETL da R&S. Os sinais de referência 10 MHz e 1PPS, e o BTS utilizados foram os mesmos do primeiro experimento. A figura 2 caracteriza o sistema montado.

Figura 2 - Giga de teste 2 - SFN Híbrida com EXC HKL, R&S e

NEC

Em seguida, montou-se um terceiro sistema de

teste, com a retirada dos excitadores NEC e HKL e inserido um segundo excitador R&S. Nesta terceira etapa visou-se analisar o comportamento de excitadores de mesmo fornecedor e modelo. A figura 3 caracteriza a disposição dos equipamentos dentro do sistema.

Figura 3 - Giga de teste 3 - SFN Pura com dois EXC R&S

Em todos os casos, a fim de se verificar o

funcionamento da rede sincronizada, estabeleceu-se que todos os excitadores iriam trabalhar com diferentes IDs, mas com valores de offset iguais (0 µs), ou seja, todos deveriam iniciar a transmissão do sinal ISDB-Tb exatamente no mesmo instante.

3. RESULTADOS

O experimento 1 trouxe um resultado

inesperado: com os dois transmissores configurados para iniciar a transmissão num mesmo instante de tempo o gráfico de Echo Pattern do ETL mostrou que há uma diferença de 110,952 µs entre eles. A figura 4 comprova esta afirmação. Outra medida capturada foi a constelação e valores de MER para ambas as camadas. Essa medida é mostrada com a figura 5.

Figura 4 - Teste 1 - Echo Pattern

Figura 5 - Teste 1 - Constelação

O sinal que está à esquerda da figura 4 é

gerado pelo excitador R&S e o segundo sinal pelo excitador NEC. Devido a RPC TV Curitiba trabalhar com intervalo de guarda 1/8, a distância em tempo dos dois sinais ainda está caracterizado como dentro da região de tolerância (região entre as linhas verdes verticais) para recebimento dos sinais. Portanto, mesmo com esta grande diferença de tempo entre eles, pode-se afirmar que a rede SFN Híbrida está sincronizada.

Analisando qualitativamente o sinal resultante do primeiro experimento percebe-se que a MER está boa, 37,8 dB, propiciando ao telespectador um sinal de boa qualidade e fácil demodulação.

A diferença de tempo entre os sinais dos transmissores da rede SFN Híbrida instigou a incluir um terceiro fornecedor de equipamentos de transmissão de TV Digital no padrão ISDB-Tb: HKL. O segundo experimento é caracterizado com as

MUX1NEC DDA EXC

R&S

EXCHKL

ASI BTS

10 MHz

1 PPS

ASI BTS

ETL

EXC NEC

ASI BTS

MUX1NEC DDA

EXCR&S

10 MHz

1 PPS

ASI BTS

ETL

EXC R&S

ASI BTS

Page 36: Revista de RADIODIFUSÃO - SET PORTAL · Sinais de TV Digital ISDB-Tb via VHF e UHF na Cidade do Gama – DF – Brasil Akamine, Cristiano Bedicks Jr, Gunnar ... cujas frequências

MÉTRICA SEM REFERÊNCIA BASEADA EM REDES NEURAISPARA AVALIAÇÃO OBJETIVA DE QUALIDADE DE VÍDEO DIGITALWyllian Bezerra da Silva, Alexandre de Almeida Prado PohlPrograma de Pós-Graduação em Engenharia Elétrica e Informática Industrial (CPGEI) – UTFPR, Curitiba, [email protected], [email protected]: Este trabalho apresenta uma métrica sem referência para avaliação de qualidade de vídeo digital baseada em uma rede neural arti�cial que usa uma versão estendida do algoritmo de aprendizado ELM (Extreme Learning Machine). O método proposto realiza o treinamento da rede neural a partir de seis características espaço-temporais. Os resultados experimentais mostram que o método proposto apresenta desempenho superior às métricas de referência completa PSNR e MS-SSIM na tarefa de predição de qualidade de vídeo. Logo, o método proposto pode ser usado no monitoramento de qualidade em sistemas de transmissão e recepção de vídeo digital, tais como IPTV e TV digital.Palavras chave: algoritmo ELM, avaliação objetiva de vídeo, métrica sem referência, rede neural arti�cial.1. INTRODUÇÃODurante os últimos anos, a literatura tem apresentado um número crescente publicações acerca de métricas objetivas para avaliação de qualidade de vídeo para diversas aplicações em radiodifusão ou no processamento de vídeo digital, seja na aquisição do sinal, codi�cação e decodi�cação, compressão, transmissão, restauração, armazenamento, segmentação e exibição de sinais de vídeo digital [1–4]. A avaliação de qualidade de vídeo digital pode ser realizada por meio de métricas subjetiva e objetiva. A primeira requer uma grande quantidade de recursos humanos e apresenta elevado custo em sua implementação [1–3]. Porém, as métricas objetivas são vantajosas quando apresentam um determinado grau de correlação com as métricas subjetivas. Logo, o desenvolvimento destas é um desa�o no campo de avaliação de qualidade de vídeo e imagem. Além disso, as métricas objetivas, devido à natureza de seu critério objetivo, independem de interação humana e são facilmente reprodutíveis [3]. Dentre as métricas objetivas destacam-se as métricas sem referência (No-Reference – NR), pois não necessitam do vídeo de referência no cálculo de sua medida. Entretanto, estas requerem um conhecimento a priori sobre as distorções em vídeo digital para que seja estabelecida uma correlação com os resultados subjetivos [3].A maioria das métricas NR encontradas na literatura são baseadas na avaliação de qualidade de imagens e em características relacionadas ao Sistema Visual Humano (SVH). Assim, o desenvolvimento de métricas NR é difícil, devido à necessidade de emular a percepção do SVH que envolve aspectos cognitivos, emocionais e estéticos relacionados ao conteúdo do vídeo e que são altamente dependentes do observador [4], [5].A literatura reporta diversos esforços no desenvolvimento de métricas para avaliação de qualidade de vídeo baseadas em redes neurais e em algoritmos de aprendizado. Babu et al. [6] apresentam uma métrica para avaliar a qualidade de imagens comprimidas em JPEG (Joint Photographic Experts Group) por meio de um algoritmo de aprendizado de crescimento e propõem o uso de uma rede neural GAP-RBF (Growing and Pruning Radial Basis Function) que usa características relacionadas ao SVH. Jiang et al. [7] desenvolveram uma métrica NR para avaliação de qualidade de vídeo em HD (High De�nition) baseada em uma rede neural treinada pelo algoritmo BP (Back-Propagation) que usa seis características espaço-temporais e a RoI (Region of Interest). Choe et al. [8] desenvolveram uma métrica NR baseada no �uxo de bits para avaliação de qualidade de vídeo codi�cado em H.264. Esta métrica extrai características quadro a quadro e usa uma rede neural alimentada adiante (feedforward) com três camadas. Suresh et al. [9] apresentaram uma extensão do algoritmo ELM na tarefa de avaliar a qualidade de imagens comprimidas em JPEG com base no esquema de seleção múltipla KS-ELM (K-fold selection Scheme using ELM) e no algoritmo RCGA-ELM (Real-Coded Genetic Algorithm using ELM) para seleção dos pesos de entrada e polarizações.Este trabalho apresenta uma versão estendida do algoritmo ELM para redes neurais SLFN (Single-hidden-Layer Feedforward Neural Networks) que implementa um simples critério de parada na fase de treinamento. Além disso, esse método usa seis características espaço-temporais de vídeos submetidos a diversas condições de distorção.Este artigo está dividido da seguinte maneira: a Seção 2 descreve as métricas para avaliação de qualidade de vídeo. A Seção 3 descreve o método NR proposto para avalição de qualidade de vídeo digital. A Seção 4 apresenta os resultados experimentais, em que são comparados o método NR proposto e duas métricas FR. Finalmente, a Seção 5 apresenta a conclusão do artigo.2. AVALIAÇÃO DE QUALIDADE DE VÍDEOO processo de avaliação de qualidade de vídeopode ser realizado com a aplicação de métricassubjetivas ou objetivas. As métricas subjetivasestimam a qualidade do vídeo por meio de avaliadoreshumanos. Logo, exigem um alto custo, poisnecessitam de uma grande quantidade de recursoshumanos e apresentam problemas quanto aosrequisitos de imparcialidade e reprodutibilidade,tornando-se inapropriadas em sistemas deradiodifusão ou em provedores de conteúdo [10], [11].Por outro lado, as métricas objetivas são baseadas emmodelos matemáticos, cujo objetivo é produzir umescore de qualidade que emule a percepção do SVH.Além disso, as métricas objetivas requerem baixocusto de implementação (quando comparadas com asmétricas subjetivas) e não apresentam problemasquanto à reprodutibilidade e imparcialidade.As métricas objetivas para avaliação de qualidadede vídeo podem ser classi�cadas em três categorias:(i) métricas de referência completa (Full-Reference –FR); (ii) métricas de referência reduzida (Reduced-Reference – RR); (iii) métricas sem referência (NR).2.1. Métricas FRAs métricas FR requerem o vídeo de referência(fonte) no cálculo do escore de qualidade. Estasmétricas são amplamente utilizadas no processo devalidação de métricas RR ou NR, por meio dacomparação de desempenho de�nida pelasrecomendações do Grupo de Especialistas emQualidade de Vídeo (VQEG – Video Quality ExpertsGroup) que é um órgão de padronização internacionalde métricas subjetivas e objetivas de qualidade devídeo. Dentre as métricas FR, destacam-se o PSNR(Peak Signal-to-Noise Ratio), SSIM (StructuralSIMilarity index) [12] e MS-SSIM (Multi-ScaleStructural SIMilarity index) [13].O PSNR é uma métrica FR baseada no erro pixel apixel de fácil implementação. Entretanto, apresentabaixa correlação com o SVH [14]. A sua medida éprocessada sobre o erro quadro a quadro, i.e., entre oquadro original x e o quadro y . A expressão a seguirde�ne o PSNR para um conjunto de quadros F .2011PSNR 20log ,Fff fvF � MSE� �� � �� �� ��(1)com� � � �20 01MSE , , , , ,N Mfi jx f i j y f i jNM � �� ���� � ��(2)em que o termo f v é igual a (2 1) k � , cujo k é onúmero de bits por pixel, i.e., é a componente deluminância do quadro f . Os termos x �f ,i, j � ey �f ,i, j � são os valores de luminância do quadro deorigem e degradado, respectivamente. Ascomponentes bidimensionais são representadas pelonúmero de colunas N e pelo número de linhas M . Otermo f MSE é de�nido como erro quadrático médioou MSE (Mean Square Error).A métrica SSIM baseia-se no fato de que o SVH éfortemente adaptado para extrair informações dascaracterísticas estruturais de um quadro ou imagem.Logo, uma medida de similaridade estrutural (oudistorção) pode prover boa aproximação para aqualidade perceptual de um vídeo [3, 7–9]. Sejam x ey dois sinais não-negativos, em que y é o sinaldegradado e x é o sinal original (sem perda dequalidade), a medida de similaridade é utilizada comoum índice quantitativo de qualidade do sinal distorcido,ou seja, x é tomado como a referência para medir aqualidade de y . A métrica SSIM possui diversasextensões, dentre as quais a versão MS-SSIM,proposta por Wang et al. [13] que assume umaabordagem multiescalar.2.2. Métricas RRAs métricas de referência reduzida retiram certaquantidade de características do vídeo original (fonte),baseadas em componentes espaciais, temporais, nodomínio da frequência ou no �uxo de bits (bitstream).Este tipo de métrica é amplamente utilizada nomonitoramento de transmissões em rede [17]. Nestetipo de cenário de aplicação, o vídeo é transmitidocom uma sequência de informação codi�cada(overhead) e no lado receptor ocorre a suadecodi�cação, seguido pelo cálculo do índice dequalidade, o qual é obtido por meio da comparaçãoentre a representação reduzida da informação nospares emissor e receptor [18]. Tipicamente, métricasRR são implementadas por meio de funções, divididasem duas etapas [19]: (i) cálculo do erro entre osvídeos original e distorcido, constituído pela diferençade suas características, a �m de compor arepresentação reduzida da informação; (ii) função queagrupa os erros ou diferenças para obter um índice dequalidade global. Algumas métricas RR explorampropriedades dos artefatos, por meio da extração decaracterísticas e um modelo de parametrização [20]com foco em tipos especí�cos de distorções(artefatos). Esta abordagem é encontrada em Silva etal. [17], cujo cálculo do escore de qualidade ébaseado na diferença de atividade dos coe�cientesDCT (Discrete Cosine Transform) em um macro blococom resolução de 16�16 pixels.2.3. Métricas NRAs métricas NR extraem característicasrelacionadas ao SVH do vídeo distorcido, i.e., narecepção do sinal de vídeo [14]. Tipicamente, há duasabordagens no desenvolvimento destas métricas: (i)extração dos parâmetros sobre o �uxo de bits, taiscomo a taxa de compressão, informaçõesrelacionadas ao GoP (Group of Pictures), estimaçãode movimento, per�l e nível de codi�cação, bem comoo parâmetro de quantização ou QP (QuantizationParameter) [21–25]. Métricas NR apresentam maiorcomplexidade quando são aplicadas em vídeo, devidoà variação temporal dos quadros, conteúdos dascenas e à di�culdade de compreensão dascaracterísticas do SVH [26]. Assim, algumas métricasdessa categoria exploram características espaciais etemporais na estimação de qualidade de vídeo [21].3. MÉTODO PROPOSTOO método proposto, denominado NRVQA-ELMtc(No-Reference Video Quality Assessment usingExtreme Learning Machine algorithm with terminationcriteria) [27] combina características espaciais etemporais, por meio de uma rede neural arti�cialSLFNs usando o algoritmo de treinamento ELM [28]com a implementação de um simples critério deparada.3.1. Características espaço-temporaisAs características espaciais incorporadas nométodo proposto são baseadas em medidas deartefatos em vídeo digital, i.e., distorções de blocageme borramento desenvolvidas por Wang et al. [20].Assim, a componente de luminância do quadro f érepresentada por y(f , i, j ) com i � ��1,M�� e j � ��1, N�� ,em que M e N são os números de linhas e colunas,respectivamente, de um quadro. Logo, as diferençasde luminância ao longo das linhas e colunas sãorepresentadas, respectivamente, pelas expressões aseguir.� � � � � � � �� � � � � � � �, , , , 1 , , , 1, 1 ,, , , 1, , , , 1, 1 .hvd f i j y f i j y f i j j Nd f i j y f i j y f i j i M� � � � �� � � � �(3)O efeito de blocagem pode ser estimado pelamédia das diferenças entre as bordas dos blocos daDCT (Discrete Cosine Transform) nas direçõeshorizontal e vertical para uma sequência F dequadros, conforme mostra a Equação (4), com ummacrobloco de dimensão � �� , cujo tamanho típico éde � � 8 [20].� � ��� � � �111 1 1111 1 11, , 1 ,111, 1 , .11NF Mh hf i jMF Nvi jvfB d f i jNF MB d f i jMF N��������� � ���� � �� �� �� � � �� � �� �� �� � � �� � �� � �� � �(4)A medida de blocagem em uma sequência devídeo com F quadros é determinada pela média entreh B e v B , caracterizando a medida B , conforme aexpressão a seguir..2h v B BB�� (5)Os efeitos de borramento são estimados pelocálculo da redução de atividade entre os blocos � �� ,em que é usada a medida de blocagem nas direçõeshorizontal e vertical, conforme as expressões� � � �� �� � � �� �11 1 111 1 1, , ,1 1, ,1.1F M Nh h hf i jF M Nv vfvi jA d f i j BF M NA d f i j BF N M������ � ��� � �� �� � �� �� � �� � �� � �(6)A medida de borramento, representada por A ,conforme a Equação (7), é determinada pela médiaentre h A e v A ..2h v A AA�� (7)O segundo fator que contribui para a detecção doartefato de borramento é baseado na taxa decruzamento por zero (Zero Crossing – ZC) nasdireções horizontal e vertical, conforme as expressõesa seguir.� �� �� �� �21 1 121 1 11, , ,21, , ,2F M Nh hf i jF M Nv vf i jZ z f i jF M NZ z f i jF N M�� � ��� � ��� ��� �� � �� � �(8)em que os termos h z e v z são determinados por� �� �1, na direção horizontal, , ,0, caso contrário1, na direção vertical, , .0, caso contráriohvz f i jz f i j�� �� �� ��(9)Assim, a medida de borramento Z é determinadapela média entre as componentes h Z e v Z ..2h v Z ZZ�� (10)O método proposto também incorpora trêscaracterísticas temporais no treinamento da redeneural SLFN com o algoritmo ELM.A primeira característica temporal é a diferença demovimento entre quadros adjacentes, representadapela variável TI (Temporal perceptual Information) [31]que considera os valores de luminância de pixelslocalizados em uma mesma região de um quadro,conforme a expressão a seguir.� �21, , ,1FfTI m f i jF��� �� �� �� (11)em que o número total de quadros é F e � �m�f ,i, j ��� �é o desvio padrão da diferença de movimento(diferença de luminância) entre o quadro atualy �f ,i, j � e o quadro anterior y �f �1,i, j � .A segunda característica temporal é a média dadiferença absoluta (Mean Absolute Di�erence – MAD)[31] entre quadros sucessivos, representada pelaEquação (12) que de�ne a medida global da MADpara todos os quadros de um vídeo.� �� � � �2 1 11, , 1, , .1F M Nf i jMAD y f i j y f i jM N F � � �� � �� �� � �(12)A terceira característica temporal é a média dadiferença absoluta ponderada (weighted MeanAbsolute Di�erence – MADw) [32], a qual mede o graude variação das cenas de um vídeo que considera acena atual de um quadro f e do quadro anterior f �1,conforme a expressão:2 11.1Fff fMADMADwF � MAD �� �� � �� � ��(13)Assim, o método proposto combina ascaracterísticas espaciais e temporais em uma matriz� , , , , , � f f f f f f f x � A B Z TI MAD MADw , em que f é onúmero de amostras de vídeo. A Figura 1 apresentaas características temporais � espaciais de dezessetebases de dados de vídeos (denominada superconjuntoS) usadas neste trabalho e reportadas em [27]. Arecomendação ITU-T P.910 [31] de�ne a medida SI(Spatial perceptual Information) como informaçãoespacial perceptual. A inspeção visual dessa �guramostra que as amostras de vídeo usadas nestetrabalho apresentam uma grande variação espaçotemporal.Fig. 1. Características espaciais e temporais do superconjuntoS com 216 amostras de referência3.2. Métrica NRVQA-ELMtcO algoritmo ELM [28] desenvolvido para otreinamento de uma rede SLFN atribui pesos epolarizações (biases) de maneira aleatória, segundouma distribuição uniforme. O treinamento compreendeN amostras distintas representadas pela variável�� , � , , 1, , � n mf f f f � � x t x � t � f � N , cujo cálculo éconforme a expressão� � � �1, 1, , ,KK i j j f j fff � g b f N�x � � w x � � o � (14)em que f o é a saída (escore objetivo), g(x) é afunção de ativação e j � é o peso que conecta o jésimoneurônio da camada oculta ao neurônio desaída. De acordo com [28], uma rede SLFN com Knós na camada oculta e uma função de ativação g(x)pode apresentar um erro médio próximo de zero, i.e.,10Kf ff �� o � t � . Logo, há parâmetros j � , j w e j b talque� �1, 1, , ,Kj j f j ff� g b f N�� w x � � t � (15)em que f t é o vetor alvo (escores subjetivos),T1, , j j jn � �w w � � � w é o vetor de peso que conecta o jésimoneurônio da camada oculta ao neurônio dacamada de entrada, j b denota a polarização (bias) doj-ésimo neurônio da camada oculta, � � j f w x é oproduto interno de j w e f x . A Figura 2 ilustra oalgoritmo ELM empregado em uma arquitetura derede neural SLFN.xi1βjN1jKtibjN input neuron K hidden neuron output neuronβ1βKwjFig. 2. Arquitetura de uma rede neural SLFN usando algoritmode treinamento ELMO sistema linear da Equação (16) resume o métododo algoritmo ELM.Hβ � T, (16)em que a matriz da camada oculta é representada por� � � 1, , and 1, , � � H � h f � N j � K com a primeiralinha da matriz de características f x igual aT1 2 , , , f f f fn x � ��x x x �� , i.e., a primeira linha é igual a� � 1 1 1 1 1 1 1 , , , , , f f f f f f f x � A B Z TI MAD MADw . A matriz desaída e o vetor alvo (target) são de�nidos comoT1 , K β � ��β β �� eT1, , N T � ��t t �� , respectivamente. Otermo � �T1 , 1, , j jm j � � � j � K � � β β β denota o vetor depeso que conecta o j-ésimo neurônio da camadaoculta e os neurônios de saída. Hung et al. [28]propuseram a atribuição aleatória de pesos aosparâmetros j w e j b , a �m de seja obtido um pequenoerro não-nulo durante o treinamento. Considerando osistema linear da Equação (17), os pesos da camadade saída podem ser aproximados por† β � H T (17)em que † H é de�nida como matriz inversageneralizada de Moore-Penrose (MP) [33] da matrizde saída da camada oculta �H� . Além disso, oconjunto de treinamento � , nó oculta K e umafunção de ativação g �x � , e.g., função de base radial(Radial Basis Function – RBF), hard-limiting (hardlim),sigmoidal (sig) e seno (sin). Em resumo, o algoritmoELM compreende três etapas [28]:i) Atribuição aleatória dos pesos de entrada j w epolarizações j b ;ii) Cálculo da matriz da camada de saída H ;iii) Cálculo dos pesos de saída † β: β� H T .O método NRVQA-ELMtc [27] implementa umsimples critério de parada no treinamento da redeneural SLFN, quanto à atribuição aleatória dos pesosj w e j b . Embora este critério não seja direcionado,busca os pesos relacionados com o menor RMSE(Root-Mean-Square Error) entre a saída desejada(escore subjetivo) e o escore objetivo na fase detreinamento com k iterações (tipicamente, k � 100 ) eN neurônios na camada oculta. Além disso, conformeestudo realizado em [27], caso o RMSE seja menor doque 0,5 o algoritmo cessa a busca pelos parâmetrosj w e j b .4. RESULTADOS EXPERIMENTAISEsta seção apresenta os resultados de acurácia,i.e., os coe�cientes de correlação linear de Pearson(Pearson Linear Correlation Coe�cient – PLCC) [34],[35], entre os escores objetivos e subjetivos de 2627amostras de vídeo estudadas em [27].A Figura 3 compara a acurácia (PLCC) entre asmétricas de referência completa (FR) PSNR e MSSSIMcom o método proposto (NRVQA-ELMtc) paraas 2627 amostras de vídeo, pertencentes a 17 basesde dados de vídeo disponibilizadas por diversasinstituições e laboratórios [27]. A função de ativaçãousada na rede neural SLFN foi o seno (sin) com onúmero de amostras de teste igual ao número deneurônios na camada oculta ( N ). O método devalidação cruzada múltipla (K-fold) foi usado com oobjetivo de gerar uma distribuição de acurácia, a qualfoi analisada por meio do diagrama de caixa (box-plot)[36], em que o traço, o círculo e o quadrado, ambosem vermelho, representam a mediana, a média e odesvio padrão, respectivamente. Destaca-se queneste trabalho foi empregada uma validação cruzadacom um grande número de amostras de treinamentotestecom K � 100 , i.e., cada caixa do box-plotcomporta 100 experimentos distintos. Tipicamente, aliteratura apresenta trabalhos no campo da avaliaçãoFig. 3. Box-plot da predição da acurácia (PLCC) entre as métricas PSNR, MS-SSIM e o método proposto NRVQA-ELMtcde qualidade de vídeo com K entre 5 e 10 [37], [38].Pela inspeção visual da Figura 3 observa-se que odesempenho do método proposto é superior àsmétricas FR, em quaisquer condições de teste, i.e.,para qualquer quantidade de amostras de teste(número de neurônios na camada oculta) entre 25 e500. Em especial, para N � 50 , o método propostoapresenta valores de PLCC, em termos da média emediana, acima de 0,8, denotando uma forteassociação entre os escores objetivos e subjetivos, natarefa de predição de qualidade de vídeo. Isto ocorredevido à grande quantidade de amostras de vídeousadas no treinamento, e.g., para N � 300 foramusadas 2327 amostras de treinamento, ou seja,mesmo usando pares de treinamento-teste disjuntos,o método proposto mostra uma acurácia superior àsmétricas de referência completa. A assimetria positiva,i.e., a maior concentração da acurácia entre osegundo quartil (mediana) e o terceiro quartil, nadistribuição do box-plot nos testes com 300 e 500neurônios na camada oculta, indica que o métodoproposto apresenta um desempenho expressivo emcomparação com as métricas FR.Entretanto, mesmo para N entre 25 e 50, ométodo proposto apresentou uma acurácia maior doque as métricas FR, cujo melhor resultado foi paraN � 25 com o desvio-quartil (amplitude interquartílica)con�nado entre 0,65 e 0,8. Além disso, este resultadotambém apresentou assimetria positiva com a médiado PLCC em torno de 0,75.5. CONCLUSÃOEste trabalho apresentou uma métrica NR baseadaem uma rede neural arti�cial SLFN, cujo treinamento édeterminado pelo algoritmo ELM, o qual consideracaracterísticas espaço-temporais e os escoressubjetivos (alvos) extraídos de 2627 amostrastreinamento. Além disso, este trabalho propõe umaextensão do algoritmo ELM por meio de um simplescritério de parada, a �m de que sejam obtidosparâmetros da rede neural arti�cial relacionados como menor RMSE. Tipicamente, a comparação entremétricas FR e NR é injusta, devido à ausência dovídeo de referência na obtenção do escore dequalidade em métricas NR. Entretanto, os resultadosexperimentais mostram que o método propostoapresentou desempenho superior às métricas dereferência completa PSNR e MS-SSIM, sobretudo,quando o número de amostras de teste e de neurôniosna camada oculta da rede SLFN é maior do que 250.Logo, a métrica NRVQA-ELMtc pode ser empregadano monitoramento de qualidade em sistemas detransmissão e recepção de vídeo digital, tais comoIPTV (Internet Protocol Television), TV digital ou emdispositivos móveis, tais como ultrabooks,smartphones, tablets e em aparelhos WiDi (WirelessDisplay).REFERÊNCIAS[1] S. Winkler, “Issues in vision modeling for perceptualvideo quality assessment,” Signal Processing, vol. 78,no. 2, pp. 231–252, 1999.[2] Z. Wang and A. C. Bovik, Modern image qualityassessment. San Rafael, CA: Morgan & Claypool,2006.[3] W. Lin and C.-C. Jay Kuo, “Perceptual visual qualitymetrics: A survey,” Journal of Visual Communicationand Image Representation, vol. 22, no. 4, pp. 297–312,May 2011.[4] S. S. Hemami and A. R. Reibman, “No-reference imageand video quality estimation: Applications and humanmotivateddesign,” Signal Processing: ImageCommunication, vol. 25, no. 7, pp. 469–481, 2010.[5] Z. Wang and A. Bovik, “Reduced- and No-ReferenceImage Quality Assessment,” IEEE Signal ProcessingMagazine, vol. 28, no. 6, pp. 29–40, Nov. 2011.[6] R. V. Babu, S. Suresh, and A. Perkis, “No-referenceJPEG-image quality assessment using GAP-RBF,”Signal Processing, vol. 87, no. 6, pp. 1493–1503, 2007.[7] X. Jiang, F. Meng, J. Xu, and W. Zhou, “No-ReferencePerceptual Video Quality Measurement for HighDe�nition Videos Based on an Arti�cial NeuralNetwork,” in Computer and Electrical Engineering,2008. ICCEE 2008. International Conference on, 2008,pp. 424–427.[8] J. Choe, K. Lee, C. Lee, and S. Korea, “No-referencevideo quality measurement using neural networks,” in2009 16th International Conference on Digital SignalProcessing, 2009, pp. 1–4.[9] S. Suresh, R. Venkatesh Babu, and H. J. Kim, “Noreferenceimage quality assessment using modi�edextreme learning machine classi�er,” Applied SoftComputing, vol. 9, no. 2, pp. 541–552, Mar. 2009.[10] A. M. Eskicioglu and P. S. Fisher, “Image qualitymeasures and their performance,” IEEE Transactionson Communications, vol. 43, no. 12, pp. 2959–2965,1995.[11] U. Engelke and H.-J. Zepernick, “Perceptual-basedQuality Metrics for Image and Video Services: ASurvey,” in Proceedings EuroNGI Conf. NextGeneration Internet Networks, 2007, pp. 190–197.[12] Z. Wang, A. C. Bovik, H. R. Sheikh, and E. PSimoncelli, “Image quality assessment: from errorvisibility to structural similarity.,” IEEE Transactions onImage Processing, vol. 13, no. 4, pp. 600–612, 2004.[13] Z. Wang, E. P. Simoncelli, and A. C. Bovik, “Multiscalestructural similarity for image quality assessment,” inThe Thrity-Seventh Asilomar Conference on Signals,Systems & Computers, 2003, 2003, vol. 2, no. 1, pp.1398–1402.[14] H. R. Wu, K. R. Rao, and A. A. Kassim, “Digital VideoImage Quality and Perceptual Coding,” Journal ofElectronic Imaging, vol. 16, no. 3, 2007.[15] Z. Wang and A. C. Bovik, “A universal image qualityindex,” IEEE Signal Processing Letters, vol. 9, no. 3,pp. 81–84, Mar. 2002.[16] Y. Shi, Y. Ding, R. Zhang, and J. Li, “Structure and HueSimilarity for Color Image Quality Assessment,” in 2009International Conference on Electronic ComputerTechnology, 2009, pp. 329–333.[17] W. B. Silva, A. A. P. Pohl, and K. V. O. Fonseca, “AReduced-Reference Video Quality Assessment Methodbased on the Activity-Di�erence of DCT Coe�cients,”IEICE Transactions on Information and Systems, vol. E96-D, no. 3, 2013.[18] P. Le Callet, C. Viard-Gaudin, and D. Barba, “A Convolutional Neural Network Approach for Objective Video Quality Assessment,” IEEE Transactions on Neural Networks, vol. 17, no. 5, pp. 1316–1327, 2006.[19] P. Le Callet and D. Barba, “Image Quality Assessment: From Sites Errors to a Global Appreciation of Quality,” in Proceedings of the Picture Coding Sympsium, 2001, pp. 105–108.[20] M. Miyahara, K. Kotani, and V. R. Algazi, “Objective picture quality scale (PQS) for image coding,” IEEE Transactions on Communications, vol. 46, no. 9, pp. 1215–1226, 1998.[21] M. Slanina, V. Ricny, and R. Forchheimer, “A Novel Metric for H.264/AVC No-Reference Quality Assessment,” in 14th International Workshop on Systems, Signals and Image Processing and 6th EURASIP Conference focused on Speech and Image Processing, Multimedia Communications and Services, 2007, pp. 114–117.[22] O. Sugimoto, S. Naito, S. Sakazawa, and A. Koike, “Objective perceptual video quality measurement method based on hybrid no reference framework,” in 16th IEEE International Conference on Image Processing (ICIP’09), 2009, pp. 2237–2240.[23] T. Oelbaum, C. Keimel, and K. Diepold, “Rule-Based No-Reference Video Quality Evaluation Using Additionally Coded Videos,” IEEE Journal of Selected Topics in Signal Processing, vol. 3, no. 2, pp. 294–303, 2009.[24] N. Staelens, N. Vercammen, Y. Dhondt, B. Vermeulen, P. Lambert, R. de Walle, and P. Demeester, “ViQID: A No-Reference bit stream-based visual quality impairment detector,” in Proceedings of the Second Int Quality of Multimedia Experience (QoMEX) Workshop, 2010, pp. 206–211.[25] F. Yang, S. Wan, Q. Xie, and H. R. Wu, “No-Reference Quality Assessment for Networked Video via Primary Analysis of Bit Stream,” IEEE Transactions on Circuits and Systems for Video Technology, vol. 20, no. 11, pp. 1544–1554, Nov. 2010.[26] Z. Wang, H. R. Sheikh, and A. C. Bovik, “Objective Video Quality Assessment,” in The Handbook of Video Databases: Design and Applications, B. Furht and O. Marques, Eds. Boca Raton, FL, USA: CRC Press, 2003, pp. 1041–1078.[27] W. B. da Silva and A. de A. P. Pohl, “Métodos Sem Referência Baseados em Características Espaço-Temporais para Avaliação Objetiva de Qualidade de Vídeo Digital,” Universidade Tecnológica Federal do Paraná (UTFPR), 2013.[28] G.-B. Huang, Q.-Y. Zhu, and C.-K. Siew, “Extreme learning machine: Theory and applications,” Neurocomputing, vol. 70, no. 1–3, pp. 489–501, Dec. 2006.[29] Z. Wang, H. R. Sheikh, and A. C. Bovik, “No-reference perceptual quality assessment of JPEG compressed images,” in Image Processing. 2002. Proceedings. IEEE International Conference on Image Processing, 2002, vol. 1, pp. vol.1 I–477 – I–480.[30] W. B. Silva and A. A. P. Pohl, “No-Reference Video Quality Assessment Method based on the Levenberg-Marquardt Minimization,” in XXX Brazilian Symposium on Telecommunications (SBrT’12), 2012.[31] ITU-T P.910, “Subjective video quality assessment methods for multimedia applications,” Standardization Sector of ITU, 1999.[32] W. Ding, Y. Tong, Q. Zhang, and D. Yang, “Image and Video Quality Assessment Using Neural Network and SVM,” Tsinghua Science &amp; Technology, vol. 13, no. 1, pp. 112–116, 2008.[33] K. S. Banerjee, C. R. Rao, and S. K. Mitra, “Generalized Inverse of Matrices and Its Applications,” Technometrics, vol. 15, no. 1, p. 197, Feb. 1973.[34] VQEG, “Final report from the video quality experts group on the validation of reduced-reference and no-reference objective models for standard de�nition television, Phase I,” 2009.[35] VQEG, “Report on the validation of video quality models for high de�nition video content,” 2010.[36] J. W. Tukey, Exploratory Data Analysis. New York: Addison-Wesley Publishing Company, 1977.[37] P. Gastaldo and R. Zunino, “Neural networks for the no-reference assessment of perceived quality,” J. Electronic Imaging, vol. 14, no. 3, p. 033004, 2005.[38] R. Herzog, M. Čadík, T. O. Aydın, K. I. Kim, K. Myszkowski, and H.-P. Seidel, “NoRM: No-Reference Image Quality Metric for Realistic Image Synthesis,” Comp. Graph. Forum, vol. 31, no. 2pt4, pp. 545–554, 2012.

Revista de Radiodifusão • v. 08 • n. 09 • 2014

Rede SFN Híbrida – Dificuldades de Implantação

36

medidas de Echo Pattern e Constelação nas figuras 6 e 7, respectivamente.

Figura 6 - Teste 2 - Echo Pattern

Figura 7 - Teste 2 - Constelação

Analisando as medidas obtidas com o ETL

pode-se perceber que o excitador HKL possui um comportamento diferente dos demais excitadores. Ele inicia a transmissão do mesmo símbolo OFDM do excitador R&S depois de aproximadamente 3,6 µs. A constelação sofreu uma pequena degradação, reduzindo o valor que antes era 37,8 dB para 33,9 dB, mas mesmo assim ainda fácil de ser demodulado pelo receptor.

Por fim, o terceiro teste também foi registrado e as figuras 8 e 9 mensuram o Echo Pattern e Constelação colhidos com o ETL.

Figura 8 - Teste 3 - Echo Pattern

Figura 9 - Teste 3 - Constelação

A partir da análise deste último teste percebe-

se que há dois sinais do lado esquerdo da figura 8, um no instante 0 µs e outro em 1,177 µs. Como o teste foi realizado dentro da emissora e no mesmo canal do sinal do ar, o ETL acaba recebendo sinal emitido pela antena presente na torre da emissora, e é mostrado mais à direita da imagem.

4. CONCLUSÕES

Os dois primeiros experimentos trouxeram à tona a grande dificuldade que as emissoras poderão sofrer com os diferentes comportamentos entre os transmissores de fornecedores existentes no mercado. Mesmo referenciados pelos sinais 10 MHz e 1PPS de mesma origem, descobriu-se que há diferenças no inicio de transmissão do mesmo símbolo. Caso a emissora não detenha de instrumentação para medir com confiança o Echo

Page 37: Revista de RADIODIFUSÃO - SET PORTAL · Sinais de TV Digital ISDB-Tb via VHF e UHF na Cidade do Gama – DF – Brasil Akamine, Cristiano Bedicks Jr, Gunnar ... cujas frequências

MÉTRICA SEM REFERÊNCIA BASEADA EM REDES NEURAISPARA AVALIAÇÃO OBJETIVA DE QUALIDADE DE VÍDEO DIGITALWyllian Bezerra da Silva, Alexandre de Almeida Prado PohlPrograma de Pós-Graduação em Engenharia Elétrica e Informática Industrial (CPGEI) – UTFPR, Curitiba, [email protected], [email protected]: Este trabalho apresenta uma métrica sem referência para avaliação de qualidade de vídeo digital baseada em uma rede neural arti�cial que usa uma versão estendida do algoritmo de aprendizado ELM (Extreme Learning Machine). O método proposto realiza o treinamento da rede neural a partir de seis características espaço-temporais. Os resultados experimentais mostram que o método proposto apresenta desempenho superior às métricas de referência completa PSNR e MS-SSIM na tarefa de predição de qualidade de vídeo. Logo, o método proposto pode ser usado no monitoramento de qualidade em sistemas de transmissão e recepção de vídeo digital, tais como IPTV e TV digital.Palavras chave: algoritmo ELM, avaliação objetiva de vídeo, métrica sem referência, rede neural arti�cial.1. INTRODUÇÃODurante os últimos anos, a literatura tem apresentado um número crescente publicações acerca de métricas objetivas para avaliação de qualidade de vídeo para diversas aplicações em radiodifusão ou no processamento de vídeo digital, seja na aquisição do sinal, codi�cação e decodi�cação, compressão, transmissão, restauração, armazenamento, segmentação e exibição de sinais de vídeo digital [1–4]. A avaliação de qualidade de vídeo digital pode ser realizada por meio de métricas subjetiva e objetiva. A primeira requer uma grande quantidade de recursos humanos e apresenta elevado custo em sua implementação [1–3]. Porém, as métricas objetivas são vantajosas quando apresentam um determinado grau de correlação com as métricas subjetivas. Logo, o desenvolvimento destas é um desa�o no campo de avaliação de qualidade de vídeo e imagem. Além disso, as métricas objetivas, devido à natureza de seu critério objetivo, independem de interação humana e são facilmente reprodutíveis [3]. Dentre as métricas objetivas destacam-se as métricas sem referência (No-Reference – NR), pois não necessitam do vídeo de referência no cálculo de sua medida. Entretanto, estas requerem um conhecimento a priori sobre as distorções em vídeo digital para que seja estabelecida uma correlação com os resultados subjetivos [3].A maioria das métricas NR encontradas na literatura são baseadas na avaliação de qualidade de imagens e em características relacionadas ao Sistema Visual Humano (SVH). Assim, o desenvolvimento de métricas NR é difícil, devido à necessidade de emular a percepção do SVH que envolve aspectos cognitivos, emocionais e estéticos relacionados ao conteúdo do vídeo e que são altamente dependentes do observador [4], [5].A literatura reporta diversos esforços no desenvolvimento de métricas para avaliação de qualidade de vídeo baseadas em redes neurais e em algoritmos de aprendizado. Babu et al. [6] apresentam uma métrica para avaliar a qualidade de imagens comprimidas em JPEG (Joint Photographic Experts Group) por meio de um algoritmo de aprendizado de crescimento e propõem o uso de uma rede neural GAP-RBF (Growing and Pruning Radial Basis Function) que usa características relacionadas ao SVH. Jiang et al. [7] desenvolveram uma métrica NR para avaliação de qualidade de vídeo em HD (High De�nition) baseada em uma rede neural treinada pelo algoritmo BP (Back-Propagation) que usa seis características espaço-temporais e a RoI (Region of Interest). Choe et al. [8] desenvolveram uma métrica NR baseada no �uxo de bits para avaliação de qualidade de vídeo codi�cado em H.264. Esta métrica extrai características quadro a quadro e usa uma rede neural alimentada adiante (feedforward) com três camadas. Suresh et al. [9] apresentaram uma extensão do algoritmo ELM na tarefa de avaliar a qualidade de imagens comprimidas em JPEG com base no esquema de seleção múltipla KS-ELM (K-fold selection Scheme using ELM) e no algoritmo RCGA-ELM (Real-Coded Genetic Algorithm using ELM) para seleção dos pesos de entrada e polarizações.Este trabalho apresenta uma versão estendida do algoritmo ELM para redes neurais SLFN (Single-hidden-Layer Feedforward Neural Networks) que implementa um simples critério de parada na fase de treinamento. Além disso, esse método usa seis características espaço-temporais de vídeos submetidos a diversas condições de distorção.Este artigo está dividido da seguinte maneira: a Seção 2 descreve as métricas para avaliação de qualidade de vídeo. A Seção 3 descreve o método NR proposto para avalição de qualidade de vídeo digital. A Seção 4 apresenta os resultados experimentais, em que são comparados o método NR proposto e duas métricas FR. Finalmente, a Seção 5 apresenta a conclusão do artigo.2. AVALIAÇÃO DE QUALIDADE DE VÍDEOO processo de avaliação de qualidade de vídeopode ser realizado com a aplicação de métricassubjetivas ou objetivas. As métricas subjetivasestimam a qualidade do vídeo por meio de avaliadoreshumanos. Logo, exigem um alto custo, poisnecessitam de uma grande quantidade de recursoshumanos e apresentam problemas quanto aosrequisitos de imparcialidade e reprodutibilidade,tornando-se inapropriadas em sistemas deradiodifusão ou em provedores de conteúdo [10], [11].Por outro lado, as métricas objetivas são baseadas emmodelos matemáticos, cujo objetivo é produzir umescore de qualidade que emule a percepção do SVH.Além disso, as métricas objetivas requerem baixocusto de implementação (quando comparadas com asmétricas subjetivas) e não apresentam problemasquanto à reprodutibilidade e imparcialidade.As métricas objetivas para avaliação de qualidadede vídeo podem ser classi�cadas em três categorias:(i) métricas de referência completa (Full-Reference –FR); (ii) métricas de referência reduzida (Reduced-Reference – RR); (iii) métricas sem referência (NR).2.1. Métricas FRAs métricas FR requerem o vídeo de referência(fonte) no cálculo do escore de qualidade. Estasmétricas são amplamente utilizadas no processo devalidação de métricas RR ou NR, por meio dacomparação de desempenho de�nida pelasrecomendações do Grupo de Especialistas emQualidade de Vídeo (VQEG – Video Quality ExpertsGroup) que é um órgão de padronização internacionalde métricas subjetivas e objetivas de qualidade devídeo. Dentre as métricas FR, destacam-se o PSNR(Peak Signal-to-Noise Ratio), SSIM (StructuralSIMilarity index) [12] e MS-SSIM (Multi-ScaleStructural SIMilarity index) [13].O PSNR é uma métrica FR baseada no erro pixel apixel de fácil implementação. Entretanto, apresentabaixa correlação com o SVH [14]. A sua medida éprocessada sobre o erro quadro a quadro, i.e., entre oquadro original x e o quadro y . A expressão a seguirde�ne o PSNR para um conjunto de quadros F .2011PSNR 20log ,Fff fvF � MSE� �� � �� �� ��(1)com� � � �20 01MSE , , , , ,N Mfi jx f i j y f i jNM � �� ���� � ��(2)em que o termo f v é igual a (2 1) k � , cujo k é onúmero de bits por pixel, i.e., é a componente deluminância do quadro f . Os termos x �f ,i, j � ey �f ,i, j � são os valores de luminância do quadro deorigem e degradado, respectivamente. Ascomponentes bidimensionais são representadas pelonúmero de colunas N e pelo número de linhas M . Otermo f MSE é de�nido como erro quadrático médioou MSE (Mean Square Error).A métrica SSIM baseia-se no fato de que o SVH éfortemente adaptado para extrair informações dascaracterísticas estruturais de um quadro ou imagem.Logo, uma medida de similaridade estrutural (oudistorção) pode prover boa aproximação para aqualidade perceptual de um vídeo [3, 7–9]. Sejam x ey dois sinais não-negativos, em que y é o sinaldegradado e x é o sinal original (sem perda dequalidade), a medida de similaridade é utilizada comoum índice quantitativo de qualidade do sinal distorcido,ou seja, x é tomado como a referência para medir aqualidade de y . A métrica SSIM possui diversasextensões, dentre as quais a versão MS-SSIM,proposta por Wang et al. [13] que assume umaabordagem multiescalar.2.2. Métricas RRAs métricas de referência reduzida retiram certaquantidade de características do vídeo original (fonte),baseadas em componentes espaciais, temporais, nodomínio da frequência ou no �uxo de bits (bitstream).Este tipo de métrica é amplamente utilizada nomonitoramento de transmissões em rede [17]. Nestetipo de cenário de aplicação, o vídeo é transmitidocom uma sequência de informação codi�cada(overhead) e no lado receptor ocorre a suadecodi�cação, seguido pelo cálculo do índice dequalidade, o qual é obtido por meio da comparaçãoentre a representação reduzida da informação nospares emissor e receptor [18]. Tipicamente, métricasRR são implementadas por meio de funções, divididasem duas etapas [19]: (i) cálculo do erro entre osvídeos original e distorcido, constituído pela diferençade suas características, a �m de compor arepresentação reduzida da informação; (ii) função queagrupa os erros ou diferenças para obter um índice dequalidade global. Algumas métricas RR explorampropriedades dos artefatos, por meio da extração decaracterísticas e um modelo de parametrização [20]com foco em tipos especí�cos de distorções(artefatos). Esta abordagem é encontrada em Silva etal. [17], cujo cálculo do escore de qualidade ébaseado na diferença de atividade dos coe�cientesDCT (Discrete Cosine Transform) em um macro blococom resolução de 16�16 pixels.2.3. Métricas NRAs métricas NR extraem característicasrelacionadas ao SVH do vídeo distorcido, i.e., narecepção do sinal de vídeo [14]. Tipicamente, há duasabordagens no desenvolvimento destas métricas: (i)extração dos parâmetros sobre o �uxo de bits, taiscomo a taxa de compressão, informaçõesrelacionadas ao GoP (Group of Pictures), estimaçãode movimento, per�l e nível de codi�cação, bem comoo parâmetro de quantização ou QP (QuantizationParameter) [21–25]. Métricas NR apresentam maiorcomplexidade quando são aplicadas em vídeo, devidoà variação temporal dos quadros, conteúdos dascenas e à di�culdade de compreensão dascaracterísticas do SVH [26]. Assim, algumas métricasdessa categoria exploram características espaciais etemporais na estimação de qualidade de vídeo [21].3. MÉTODO PROPOSTOO método proposto, denominado NRVQA-ELMtc(No-Reference Video Quality Assessment usingExtreme Learning Machine algorithm with terminationcriteria) [27] combina características espaciais etemporais, por meio de uma rede neural arti�cialSLFNs usando o algoritmo de treinamento ELM [28]com a implementação de um simples critério deparada.3.1. Características espaço-temporaisAs características espaciais incorporadas nométodo proposto são baseadas em medidas deartefatos em vídeo digital, i.e., distorções de blocageme borramento desenvolvidas por Wang et al. [20].Assim, a componente de luminância do quadro f érepresentada por y(f , i, j ) com i � ��1,M�� e j � ��1, N�� ,em que M e N são os números de linhas e colunas,respectivamente, de um quadro. Logo, as diferençasde luminância ao longo das linhas e colunas sãorepresentadas, respectivamente, pelas expressões aseguir.� � � � � � � �� � � � � � � �, , , , 1 , , , 1, 1 ,, , , 1, , , , 1, 1 .hvd f i j y f i j y f i j j Nd f i j y f i j y f i j i M� � � � �� � � � �(3)O efeito de blocagem pode ser estimado pelamédia das diferenças entre as bordas dos blocos daDCT (Discrete Cosine Transform) nas direçõeshorizontal e vertical para uma sequência F dequadros, conforme mostra a Equação (4), com ummacrobloco de dimensão � �� , cujo tamanho típico éde � � 8 [20].� � ��� � � �111 1 1111 1 11, , 1 ,111, 1 , .11NF Mh hf i jMF Nvi jvfB d f i jNF MB d f i jMF N��������� � ���� � �� �� �� � � �� � �� �� �� � � �� � �� � �� � �(4)A medida de blocagem em uma sequência devídeo com F quadros é determinada pela média entreh B e v B , caracterizando a medida B , conforme aexpressão a seguir..2h v B BB�� (5)Os efeitos de borramento são estimados pelocálculo da redução de atividade entre os blocos � �� ,em que é usada a medida de blocagem nas direçõeshorizontal e vertical, conforme as expressões� � � �� �� � � �� �11 1 111 1 1, , ,1 1, ,1.1F M Nh h hf i jF M Nv vfvi jA d f i j BF M NA d f i j BF N M������ � ��� � �� �� � �� �� � �� � �� � �(6)A medida de borramento, representada por A ,conforme a Equação (7), é determinada pela médiaentre h A e v A ..2h v A AA�� (7)O segundo fator que contribui para a detecção doartefato de borramento é baseado na taxa decruzamento por zero (Zero Crossing – ZC) nasdireções horizontal e vertical, conforme as expressõesa seguir.� �� �� �� �21 1 121 1 11, , ,21, , ,2F M Nh hf i jF M Nv vf i jZ z f i jF M NZ z f i jF N M�� � ��� � ��� ��� �� � �� � �(8)em que os termos h z e v z são determinados por� �� �1, na direção horizontal, , ,0, caso contrário1, na direção vertical, , .0, caso contráriohvz f i jz f i j�� �� �� ��(9)Assim, a medida de borramento Z é determinadapela média entre as componentes h Z e v Z ..2h v Z ZZ�� (10)O método proposto também incorpora trêscaracterísticas temporais no treinamento da redeneural SLFN com o algoritmo ELM.A primeira característica temporal é a diferença demovimento entre quadros adjacentes, representadapela variável TI (Temporal perceptual Information) [31]que considera os valores de luminância de pixelslocalizados em uma mesma região de um quadro,conforme a expressão a seguir.� �21, , ,1FfTI m f i jF��� �� �� �� (11)em que o número total de quadros é F e � �m�f ,i, j ��� �é o desvio padrão da diferença de movimento(diferença de luminância) entre o quadro atualy �f ,i, j � e o quadro anterior y �f �1,i, j � .A segunda característica temporal é a média dadiferença absoluta (Mean Absolute Di�erence – MAD)[31] entre quadros sucessivos, representada pelaEquação (12) que de�ne a medida global da MADpara todos os quadros de um vídeo.� �� � � �2 1 11, , 1, , .1F M Nf i jMAD y f i j y f i jM N F � � �� � �� �� � �(12)A terceira característica temporal é a média dadiferença absoluta ponderada (weighted MeanAbsolute Di�erence – MADw) [32], a qual mede o graude variação das cenas de um vídeo que considera acena atual de um quadro f e do quadro anterior f �1,conforme a expressão:2 11.1Fff fMADMADwF � MAD �� �� � �� � ��(13)Assim, o método proposto combina ascaracterísticas espaciais e temporais em uma matriz� , , , , , � f f f f f f f x � A B Z TI MAD MADw , em que f é onúmero de amostras de vídeo. A Figura 1 apresentaas características temporais � espaciais de dezessetebases de dados de vídeos (denominada superconjuntoS) usadas neste trabalho e reportadas em [27]. Arecomendação ITU-T P.910 [31] de�ne a medida SI(Spatial perceptual Information) como informaçãoespacial perceptual. A inspeção visual dessa �guramostra que as amostras de vídeo usadas nestetrabalho apresentam uma grande variação espaçotemporal.Fig. 1. Características espaciais e temporais do superconjuntoS com 216 amostras de referência3.2. Métrica NRVQA-ELMtcO algoritmo ELM [28] desenvolvido para otreinamento de uma rede SLFN atribui pesos epolarizações (biases) de maneira aleatória, segundouma distribuição uniforme. O treinamento compreendeN amostras distintas representadas pela variável�� , � , , 1, , � n mf f f f � � x t x � t � f � N , cujo cálculo éconforme a expressão� � � �1, 1, , ,KK i j j f j fff � g b f N�x � � w x � � o � (14)em que f o é a saída (escore objetivo), g(x) é afunção de ativação e j � é o peso que conecta o jésimoneurônio da camada oculta ao neurônio desaída. De acordo com [28], uma rede SLFN com Knós na camada oculta e uma função de ativação g(x)pode apresentar um erro médio próximo de zero, i.e.,10Kf ff �� o � t � . Logo, há parâmetros j � , j w e j b talque� �1, 1, , ,Kj j f j ff� g b f N�� w x � � t � (15)em que f t é o vetor alvo (escores subjetivos),T1, , j j jn � �w w � � � w é o vetor de peso que conecta o jésimoneurônio da camada oculta ao neurônio dacamada de entrada, j b denota a polarização (bias) doj-ésimo neurônio da camada oculta, � � j f w x é oproduto interno de j w e f x . A Figura 2 ilustra oalgoritmo ELM empregado em uma arquitetura derede neural SLFN.xi1βjN1jKtibjN input neuron K hidden neuron output neuronβ1βKwjFig. 2. Arquitetura de uma rede neural SLFN usando algoritmode treinamento ELMO sistema linear da Equação (16) resume o métododo algoritmo ELM.Hβ � T, (16)em que a matriz da camada oculta é representada por� � � 1, , and 1, , � � H � h f � N j � K com a primeiralinha da matriz de características f x igual aT1 2 , , , f f f fn x � ��x x x �� , i.e., a primeira linha é igual a� � 1 1 1 1 1 1 1 , , , , , f f f f f f f x � A B Z TI MAD MADw . A matriz desaída e o vetor alvo (target) são de�nidos comoT1 , K β � ��β β �� eT1, , N T � ��t t �� , respectivamente. Otermo � �T1 , 1, , j jm j � � � j � K � � β β β denota o vetor depeso que conecta o j-ésimo neurônio da camadaoculta e os neurônios de saída. Hung et al. [28]propuseram a atribuição aleatória de pesos aosparâmetros j w e j b , a �m de seja obtido um pequenoerro não-nulo durante o treinamento. Considerando osistema linear da Equação (17), os pesos da camadade saída podem ser aproximados por† β � H T (17)em que † H é de�nida como matriz inversageneralizada de Moore-Penrose (MP) [33] da matrizde saída da camada oculta �H� . Além disso, oconjunto de treinamento � , nó oculta K e umafunção de ativação g �x � , e.g., função de base radial(Radial Basis Function – RBF), hard-limiting (hardlim),sigmoidal (sig) e seno (sin). Em resumo, o algoritmoELM compreende três etapas [28]:i) Atribuição aleatória dos pesos de entrada j w epolarizações j b ;ii) Cálculo da matriz da camada de saída H ;iii) Cálculo dos pesos de saída † β: β� H T .O método NRVQA-ELMtc [27] implementa umsimples critério de parada no treinamento da redeneural SLFN, quanto à atribuição aleatória dos pesosj w e j b . Embora este critério não seja direcionado,busca os pesos relacionados com o menor RMSE(Root-Mean-Square Error) entre a saída desejada(escore subjetivo) e o escore objetivo na fase detreinamento com k iterações (tipicamente, k � 100 ) eN neurônios na camada oculta. Além disso, conformeestudo realizado em [27], caso o RMSE seja menor doque 0,5 o algoritmo cessa a busca pelos parâmetrosj w e j b .4. RESULTADOS EXPERIMENTAISEsta seção apresenta os resultados de acurácia,i.e., os coe�cientes de correlação linear de Pearson(Pearson Linear Correlation Coe�cient – PLCC) [34],[35], entre os escores objetivos e subjetivos de 2627amostras de vídeo estudadas em [27].A Figura 3 compara a acurácia (PLCC) entre asmétricas de referência completa (FR) PSNR e MSSSIMcom o método proposto (NRVQA-ELMtc) paraas 2627 amostras de vídeo, pertencentes a 17 basesde dados de vídeo disponibilizadas por diversasinstituições e laboratórios [27]. A função de ativaçãousada na rede neural SLFN foi o seno (sin) com onúmero de amostras de teste igual ao número deneurônios na camada oculta ( N ). O método devalidação cruzada múltipla (K-fold) foi usado com oobjetivo de gerar uma distribuição de acurácia, a qualfoi analisada por meio do diagrama de caixa (box-plot)[36], em que o traço, o círculo e o quadrado, ambosem vermelho, representam a mediana, a média e odesvio padrão, respectivamente. Destaca-se queneste trabalho foi empregada uma validação cruzadacom um grande número de amostras de treinamentotestecom K � 100 , i.e., cada caixa do box-plotcomporta 100 experimentos distintos. Tipicamente, aliteratura apresenta trabalhos no campo da avaliaçãoFig. 3. Box-plot da predição da acurácia (PLCC) entre as métricas PSNR, MS-SSIM e o método proposto NRVQA-ELMtcde qualidade de vídeo com K entre 5 e 10 [37], [38].Pela inspeção visual da Figura 3 observa-se que odesempenho do método proposto é superior àsmétricas FR, em quaisquer condições de teste, i.e.,para qualquer quantidade de amostras de teste(número de neurônios na camada oculta) entre 25 e500. Em especial, para N � 50 , o método propostoapresenta valores de PLCC, em termos da média emediana, acima de 0,8, denotando uma forteassociação entre os escores objetivos e subjetivos, natarefa de predição de qualidade de vídeo. Isto ocorredevido à grande quantidade de amostras de vídeousadas no treinamento, e.g., para N � 300 foramusadas 2327 amostras de treinamento, ou seja,mesmo usando pares de treinamento-teste disjuntos,o método proposto mostra uma acurácia superior àsmétricas de referência completa. A assimetria positiva,i.e., a maior concentração da acurácia entre osegundo quartil (mediana) e o terceiro quartil, nadistribuição do box-plot nos testes com 300 e 500neurônios na camada oculta, indica que o métodoproposto apresenta um desempenho expressivo emcomparação com as métricas FR.Entretanto, mesmo para N entre 25 e 50, ométodo proposto apresentou uma acurácia maior doque as métricas FR, cujo melhor resultado foi paraN � 25 com o desvio-quartil (amplitude interquartílica)con�nado entre 0,65 e 0,8. Além disso, este resultadotambém apresentou assimetria positiva com a médiado PLCC em torno de 0,75.5. CONCLUSÃOEste trabalho apresentou uma métrica NR baseadaem uma rede neural arti�cial SLFN, cujo treinamento édeterminado pelo algoritmo ELM, o qual consideracaracterísticas espaço-temporais e os escoressubjetivos (alvos) extraídos de 2627 amostrastreinamento. Além disso, este trabalho propõe umaextensão do algoritmo ELM por meio de um simplescritério de parada, a �m de que sejam obtidosparâmetros da rede neural arti�cial relacionados como menor RMSE. Tipicamente, a comparação entremétricas FR e NR é injusta, devido à ausência dovídeo de referência na obtenção do escore dequalidade em métricas NR. Entretanto, os resultadosexperimentais mostram que o método propostoapresentou desempenho superior às métricas dereferência completa PSNR e MS-SSIM, sobretudo,quando o número de amostras de teste e de neurôniosna camada oculta da rede SLFN é maior do que 250.Logo, a métrica NRVQA-ELMtc pode ser empregadano monitoramento de qualidade em sistemas detransmissão e recepção de vídeo digital, tais comoIPTV (Internet Protocol Television), TV digital ou emdispositivos móveis, tais como ultrabooks,smartphones, tablets e em aparelhos WiDi (WirelessDisplay).REFERÊNCIAS[1] S. Winkler, “Issues in vision modeling for perceptualvideo quality assessment,” Signal Processing, vol. 78,no. 2, pp. 231–252, 1999.[2] Z. Wang and A. C. Bovik, Modern image qualityassessment. San Rafael, CA: Morgan & Claypool,2006.[3] W. Lin and C.-C. Jay Kuo, “Perceptual visual qualitymetrics: A survey,” Journal of Visual Communicationand Image Representation, vol. 22, no. 4, pp. 297–312,May 2011.[4] S. S. Hemami and A. R. Reibman, “No-reference imageand video quality estimation: Applications and humanmotivateddesign,” Signal Processing: ImageCommunication, vol. 25, no. 7, pp. 469–481, 2010.[5] Z. Wang and A. Bovik, “Reduced- and No-ReferenceImage Quality Assessment,” IEEE Signal ProcessingMagazine, vol. 28, no. 6, pp. 29–40, Nov. 2011.[6] R. V. Babu, S. Suresh, and A. Perkis, “No-referenceJPEG-image quality assessment using GAP-RBF,”Signal Processing, vol. 87, no. 6, pp. 1493–1503, 2007.[7] X. Jiang, F. Meng, J. Xu, and W. Zhou, “No-ReferencePerceptual Video Quality Measurement for HighDe�nition Videos Based on an Arti�cial NeuralNetwork,” in Computer and Electrical Engineering,2008. ICCEE 2008. International Conference on, 2008,pp. 424–427.[8] J. Choe, K. Lee, C. Lee, and S. Korea, “No-referencevideo quality measurement using neural networks,” in2009 16th International Conference on Digital SignalProcessing, 2009, pp. 1–4.[9] S. Suresh, R. Venkatesh Babu, and H. J. Kim, “Noreferenceimage quality assessment using modi�edextreme learning machine classi�er,” Applied SoftComputing, vol. 9, no. 2, pp. 541–552, Mar. 2009.[10] A. M. Eskicioglu and P. S. Fisher, “Image qualitymeasures and their performance,” IEEE Transactionson Communications, vol. 43, no. 12, pp. 2959–2965,1995.[11] U. Engelke and H.-J. Zepernick, “Perceptual-basedQuality Metrics for Image and Video Services: ASurvey,” in Proceedings EuroNGI Conf. NextGeneration Internet Networks, 2007, pp. 190–197.[12] Z. Wang, A. C. Bovik, H. R. Sheikh, and E. PSimoncelli, “Image quality assessment: from errorvisibility to structural similarity.,” IEEE Transactions onImage Processing, vol. 13, no. 4, pp. 600–612, 2004.[13] Z. Wang, E. P. Simoncelli, and A. C. Bovik, “Multiscalestructural similarity for image quality assessment,” inThe Thrity-Seventh Asilomar Conference on Signals,Systems & Computers, 2003, 2003, vol. 2, no. 1, pp.1398–1402.[14] H. R. Wu, K. R. Rao, and A. A. Kassim, “Digital VideoImage Quality and Perceptual Coding,” Journal ofElectronic Imaging, vol. 16, no. 3, 2007.[15] Z. Wang and A. C. Bovik, “A universal image qualityindex,” IEEE Signal Processing Letters, vol. 9, no. 3,pp. 81–84, Mar. 2002.[16] Y. Shi, Y. Ding, R. Zhang, and J. Li, “Structure and HueSimilarity for Color Image Quality Assessment,” in 2009International Conference on Electronic ComputerTechnology, 2009, pp. 329–333.[17] W. B. Silva, A. A. P. Pohl, and K. V. O. Fonseca, “AReduced-Reference Video Quality Assessment Methodbased on the Activity-Di�erence of DCT Coe�cients,”IEICE Transactions on Information and Systems, vol. E96-D, no. 3, 2013.[18] P. Le Callet, C. Viard-Gaudin, and D. Barba, “A Convolutional Neural Network Approach for Objective Video Quality Assessment,” IEEE Transactions on Neural Networks, vol. 17, no. 5, pp. 1316–1327, 2006.[19] P. Le Callet and D. Barba, “Image Quality Assessment: From Sites Errors to a Global Appreciation of Quality,” in Proceedings of the Picture Coding Sympsium, 2001, pp. 105–108.[20] M. Miyahara, K. Kotani, and V. R. Algazi, “Objective picture quality scale (PQS) for image coding,” IEEE Transactions on Communications, vol. 46, no. 9, pp. 1215–1226, 1998.[21] M. Slanina, V. Ricny, and R. Forchheimer, “A Novel Metric for H.264/AVC No-Reference Quality Assessment,” in 14th International Workshop on Systems, Signals and Image Processing and 6th EURASIP Conference focused on Speech and Image Processing, Multimedia Communications and Services, 2007, pp. 114–117.[22] O. Sugimoto, S. Naito, S. Sakazawa, and A. Koike, “Objective perceptual video quality measurement method based on hybrid no reference framework,” in 16th IEEE International Conference on Image Processing (ICIP’09), 2009, pp. 2237–2240.[23] T. Oelbaum, C. Keimel, and K. Diepold, “Rule-Based No-Reference Video Quality Evaluation Using Additionally Coded Videos,” IEEE Journal of Selected Topics in Signal Processing, vol. 3, no. 2, pp. 294–303, 2009.[24] N. Staelens, N. Vercammen, Y. Dhondt, B. Vermeulen, P. Lambert, R. de Walle, and P. Demeester, “ViQID: A No-Reference bit stream-based visual quality impairment detector,” in Proceedings of the Second Int Quality of Multimedia Experience (QoMEX) Workshop, 2010, pp. 206–211.[25] F. Yang, S. Wan, Q. Xie, and H. R. Wu, “No-Reference Quality Assessment for Networked Video via Primary Analysis of Bit Stream,” IEEE Transactions on Circuits and Systems for Video Technology, vol. 20, no. 11, pp. 1544–1554, Nov. 2010.[26] Z. Wang, H. R. Sheikh, and A. C. Bovik, “Objective Video Quality Assessment,” in The Handbook of Video Databases: Design and Applications, B. Furht and O. Marques, Eds. Boca Raton, FL, USA: CRC Press, 2003, pp. 1041–1078.[27] W. B. da Silva and A. de A. P. Pohl, “Métodos Sem Referência Baseados em Características Espaço-Temporais para Avaliação Objetiva de Qualidade de Vídeo Digital,” Universidade Tecnológica Federal do Paraná (UTFPR), 2013.[28] G.-B. Huang, Q.-Y. Zhu, and C.-K. Siew, “Extreme learning machine: Theory and applications,” Neurocomputing, vol. 70, no. 1–3, pp. 489–501, Dec. 2006.[29] Z. Wang, H. R. Sheikh, and A. C. Bovik, “No-reference perceptual quality assessment of JPEG compressed images,” in Image Processing. 2002. Proceedings. IEEE International Conference on Image Processing, 2002, vol. 1, pp. vol.1 I–477 – I–480.[30] W. B. Silva and A. A. P. Pohl, “No-Reference Video Quality Assessment Method based on the Levenberg-Marquardt Minimization,” in XXX Brazilian Symposium on Telecommunications (SBrT’12), 2012.[31] ITU-T P.910, “Subjective video quality assessment methods for multimedia applications,” Standardization Sector of ITU, 1999.[32] W. Ding, Y. Tong, Q. Zhang, and D. Yang, “Image and Video Quality Assessment Using Neural Network and SVM,” Tsinghua Science &amp; Technology, vol. 13, no. 1, pp. 112–116, 2008.[33] K. S. Banerjee, C. R. Rao, and S. K. Mitra, “Generalized Inverse of Matrices and Its Applications,” Technometrics, vol. 15, no. 1, p. 197, Feb. 1973.[34] VQEG, “Final report from the video quality experts group on the validation of reduced-reference and no-reference objective models for standard de�nition television, Phase I,” 2009.[35] VQEG, “Report on the validation of video quality models for high de�nition video content,” 2010.[36] J. W. Tukey, Exploratory Data Analysis. New York: Addison-Wesley Publishing Company, 1977.[37] P. Gastaldo and R. Zunino, “Neural networks for the no-reference assessment of perceived quality,” J. Electronic Imaging, vol. 14, no. 3, p. 033004, 2005.[38] R. Herzog, M. Čadík, T. O. Aydın, K. I. Kim, K. Myszkowski, and H.-P. Seidel, “NoRM: No-Reference Image Quality Metric for Realistic Image Synthesis,” Comp. Graph. Forum, vol. 31, no. 2pt4, pp. 545–554, 2012.

Revista de Radiodifusão • v. 08 • n. 09 • 2014 37

Marcel Kusunoki, Lucas Valmir Pellegrini , Jose Frederico Rehme

Pattern ou Delay Profile, a equipe técnica terá grande dificuldade em sincronizar a rede SFN Híbrida instalada.

Outro fato observado durante os testes foi o diferente comportamento entre dois excitadores de mesmo fabricante. O valor foi pequeno comparado com os testes anteriores, mas a diferença acaba preocupando também.

A realização dos testes em bancada trouxe capacitação técnica e conhecimento para finalmente colocar em prática a ativação de uma rede SFN Híbrida com transmissores R&S (RMC – Região Metropolitana de Curitiba) e o já existente NEC da emissora localizada na capital paranaense. Houve a necessidade de ajustes de tempo de início das transmissões dos equipamentos, também conhecidos como offsets configurados no SFN Adapter do MUX NEC.

Por fim, ratificou-se que montar uma rede SFN, seja ela híbrida ou pura, demanda conhecimento técnico avançado e que não é tão simples como pode parecer na teoria. REFERÊNCIAS [1] CARVALHO, Silvio Renato Messias De.

Utilização da Rede SFN para Expansão Regional da TV Digital Aberta Terrestre. 2006. 146 f. Dissertação (Mestre em Engenharia Elétrica) – Universidade Estadual de Campinas, Campinas, 2006.

[2] GASPAR, Ivan Simões; LIMA, Vanessa.

Resultados de uma rede SFN no padrão ISDB-Tb: Um caso prático implantado no Brasil. Revista de Radiodifusão, São Paulo, volume 03, nº 03, p. 285-296, 2008/2009.

[3] FALLER, Raul I. Planejamento de Cobertura – As

Opções Para a TV Digital Terrestre. Disponível em: <http://www.kathrein.com.br/novidades_planj_cbert.php> Acesso em: 13 de Março, 2013.

[4] LIMA, Vanessa. SFN – Single Frequency

Network Conceitos & Dicas de Aplicação. CURSO HITACHI KOKUSAI LINEAR, 2012.

Page 38: Revista de RADIODIFUSÃO - SET PORTAL · Sinais de TV Digital ISDB-Tb via VHF e UHF na Cidade do Gama – DF – Brasil Akamine, Cristiano Bedicks Jr, Gunnar ... cujas frequências

Ensaios de Interferência do Sinal LTE (4G, em 700 MHz) sobre o Sinal de

TV Digital Terrestre (ISDB-Tb)

Lucas Valmir [email protected]

Marcel Kusunoki [email protected]

Jose Frederico [email protected]

Revista de Radiodifusão • v. 08 • n. 09 • 201438

Page 39: Revista de RADIODIFUSÃO - SET PORTAL · Sinais de TV Digital ISDB-Tb via VHF e UHF na Cidade do Gama – DF – Brasil Akamine, Cristiano Bedicks Jr, Gunnar ... cujas frequências

MÉTRICA SEM REFERÊNCIA BASEADA EM REDES NEURAISPARA AVALIAÇÃO OBJETIVA DE QUALIDADE DE VÍDEO DIGITALWyllian Bezerra da Silva, Alexandre de Almeida Prado PohlPrograma de Pós-Graduação em Engenharia Elétrica e Informática Industrial (CPGEI) – UTFPR, Curitiba, [email protected], [email protected]: Este trabalho apresenta uma métrica sem referência para avaliação de qualidade de vídeo digital baseada em uma rede neural arti�cial que usa uma versão estendida do algoritmo de aprendizado ELM (Extreme Learning Machine). O método proposto realiza o treinamento da rede neural a partir de seis características espaço-temporais. Os resultados experimentais mostram que o método proposto apresenta desempenho superior às métricas de referência completa PSNR e MS-SSIM na tarefa de predição de qualidade de vídeo. Logo, o método proposto pode ser usado no monitoramento de qualidade em sistemas de transmissão e recepção de vídeo digital, tais como IPTV e TV digital.Palavras chave: algoritmo ELM, avaliação objetiva de vídeo, métrica sem referência, rede neural arti�cial.1. INTRODUÇÃODurante os últimos anos, a literatura tem apresentado um número crescente publicações acerca de métricas objetivas para avaliação de qualidade de vídeo para diversas aplicações em radiodifusão ou no processamento de vídeo digital, seja na aquisição do sinal, codi�cação e decodi�cação, compressão, transmissão, restauração, armazenamento, segmentação e exibição de sinais de vídeo digital [1–4]. A avaliação de qualidade de vídeo digital pode ser realizada por meio de métricas subjetiva e objetiva. A primeira requer uma grande quantidade de recursos humanos e apresenta elevado custo em sua implementação [1–3]. Porém, as métricas objetivas são vantajosas quando apresentam um determinado grau de correlação com as métricas subjetivas. Logo, o desenvolvimento destas é um desa�o no campo de avaliação de qualidade de vídeo e imagem. Além disso, as métricas objetivas, devido à natureza de seu critério objetivo, independem de interação humana e são facilmente reprodutíveis [3]. Dentre as métricas objetivas destacam-se as métricas sem referência (No-Reference – NR), pois não necessitam do vídeo de referência no cálculo de sua medida. Entretanto, estas requerem um conhecimento a priori sobre as distorções em vídeo digital para que seja estabelecida uma correlação com os resultados subjetivos [3].A maioria das métricas NR encontradas na literatura são baseadas na avaliação de qualidade de imagens e em características relacionadas ao Sistema Visual Humano (SVH). Assim, o desenvolvimento de métricas NR é difícil, devido à necessidade de emular a percepção do SVH que envolve aspectos cognitivos, emocionais e estéticos relacionados ao conteúdo do vídeo e que são altamente dependentes do observador [4], [5].A literatura reporta diversos esforços no desenvolvimento de métricas para avaliação de qualidade de vídeo baseadas em redes neurais e em algoritmos de aprendizado. Babu et al. [6] apresentam uma métrica para avaliar a qualidade de imagens comprimidas em JPEG (Joint Photographic Experts Group) por meio de um algoritmo de aprendizado de crescimento e propõem o uso de uma rede neural GAP-RBF (Growing and Pruning Radial Basis Function) que usa características relacionadas ao SVH. Jiang et al. [7] desenvolveram uma métrica NR para avaliação de qualidade de vídeo em HD (High De�nition) baseada em uma rede neural treinada pelo algoritmo BP (Back-Propagation) que usa seis características espaço-temporais e a RoI (Region of Interest). Choe et al. [8] desenvolveram uma métrica NR baseada no �uxo de bits para avaliação de qualidade de vídeo codi�cado em H.264. Esta métrica extrai características quadro a quadro e usa uma rede neural alimentada adiante (feedforward) com três camadas. Suresh et al. [9] apresentaram uma extensão do algoritmo ELM na tarefa de avaliar a qualidade de imagens comprimidas em JPEG com base no esquema de seleção múltipla KS-ELM (K-fold selection Scheme using ELM) e no algoritmo RCGA-ELM (Real-Coded Genetic Algorithm using ELM) para seleção dos pesos de entrada e polarizações.Este trabalho apresenta uma versão estendida do algoritmo ELM para redes neurais SLFN (Single-hidden-Layer Feedforward Neural Networks) que implementa um simples critério de parada na fase de treinamento. Além disso, esse método usa seis características espaço-temporais de vídeos submetidos a diversas condições de distorção.Este artigo está dividido da seguinte maneira: a Seção 2 descreve as métricas para avaliação de qualidade de vídeo. A Seção 3 descreve o método NR proposto para avalição de qualidade de vídeo digital. A Seção 4 apresenta os resultados experimentais, em que são comparados o método NR proposto e duas métricas FR. Finalmente, a Seção 5 apresenta a conclusão do artigo.2. AVALIAÇÃO DE QUALIDADE DE VÍDEOO processo de avaliação de qualidade de vídeopode ser realizado com a aplicação de métricassubjetivas ou objetivas. As métricas subjetivasestimam a qualidade do vídeo por meio de avaliadoreshumanos. Logo, exigem um alto custo, poisnecessitam de uma grande quantidade de recursoshumanos e apresentam problemas quanto aosrequisitos de imparcialidade e reprodutibilidade,tornando-se inapropriadas em sistemas deradiodifusão ou em provedores de conteúdo [10], [11].Por outro lado, as métricas objetivas são baseadas emmodelos matemáticos, cujo objetivo é produzir umescore de qualidade que emule a percepção do SVH.Além disso, as métricas objetivas requerem baixocusto de implementação (quando comparadas com asmétricas subjetivas) e não apresentam problemasquanto à reprodutibilidade e imparcialidade.As métricas objetivas para avaliação de qualidadede vídeo podem ser classi�cadas em três categorias:(i) métricas de referência completa (Full-Reference –FR); (ii) métricas de referência reduzida (Reduced-Reference – RR); (iii) métricas sem referência (NR).2.1. Métricas FRAs métricas FR requerem o vídeo de referência(fonte) no cálculo do escore de qualidade. Estasmétricas são amplamente utilizadas no processo devalidação de métricas RR ou NR, por meio dacomparação de desempenho de�nida pelasrecomendações do Grupo de Especialistas emQualidade de Vídeo (VQEG – Video Quality ExpertsGroup) que é um órgão de padronização internacionalde métricas subjetivas e objetivas de qualidade devídeo. Dentre as métricas FR, destacam-se o PSNR(Peak Signal-to-Noise Ratio), SSIM (StructuralSIMilarity index) [12] e MS-SSIM (Multi-ScaleStructural SIMilarity index) [13].O PSNR é uma métrica FR baseada no erro pixel apixel de fácil implementação. Entretanto, apresentabaixa correlação com o SVH [14]. A sua medida éprocessada sobre o erro quadro a quadro, i.e., entre oquadro original x e o quadro y . A expressão a seguirde�ne o PSNR para um conjunto de quadros F .2011PSNR 20log ,Fff fvF � MSE� �� � �� �� ��(1)com� � � �20 01MSE , , , , ,N Mfi jx f i j y f i jNM � �� ���� � ��(2)em que o termo f v é igual a (2 1) k � , cujo k é onúmero de bits por pixel, i.e., é a componente deluminância do quadro f . Os termos x �f ,i, j � ey �f ,i, j � são os valores de luminância do quadro deorigem e degradado, respectivamente. Ascomponentes bidimensionais são representadas pelonúmero de colunas N e pelo número de linhas M . Otermo f MSE é de�nido como erro quadrático médioou MSE (Mean Square Error).A métrica SSIM baseia-se no fato de que o SVH éfortemente adaptado para extrair informações dascaracterísticas estruturais de um quadro ou imagem.Logo, uma medida de similaridade estrutural (oudistorção) pode prover boa aproximação para aqualidade perceptual de um vídeo [3, 7–9]. Sejam x ey dois sinais não-negativos, em que y é o sinaldegradado e x é o sinal original (sem perda dequalidade), a medida de similaridade é utilizada comoum índice quantitativo de qualidade do sinal distorcido,ou seja, x é tomado como a referência para medir aqualidade de y . A métrica SSIM possui diversasextensões, dentre as quais a versão MS-SSIM,proposta por Wang et al. [13] que assume umaabordagem multiescalar.2.2. Métricas RRAs métricas de referência reduzida retiram certaquantidade de características do vídeo original (fonte),baseadas em componentes espaciais, temporais, nodomínio da frequência ou no �uxo de bits (bitstream).Este tipo de métrica é amplamente utilizada nomonitoramento de transmissões em rede [17]. Nestetipo de cenário de aplicação, o vídeo é transmitidocom uma sequência de informação codi�cada(overhead) e no lado receptor ocorre a suadecodi�cação, seguido pelo cálculo do índice dequalidade, o qual é obtido por meio da comparaçãoentre a representação reduzida da informação nospares emissor e receptor [18]. Tipicamente, métricasRR são implementadas por meio de funções, divididasem duas etapas [19]: (i) cálculo do erro entre osvídeos original e distorcido, constituído pela diferençade suas características, a �m de compor arepresentação reduzida da informação; (ii) função queagrupa os erros ou diferenças para obter um índice dequalidade global. Algumas métricas RR explorampropriedades dos artefatos, por meio da extração decaracterísticas e um modelo de parametrização [20]com foco em tipos especí�cos de distorções(artefatos). Esta abordagem é encontrada em Silva etal. [17], cujo cálculo do escore de qualidade ébaseado na diferença de atividade dos coe�cientesDCT (Discrete Cosine Transform) em um macro blococom resolução de 16�16 pixels.2.3. Métricas NRAs métricas NR extraem característicasrelacionadas ao SVH do vídeo distorcido, i.e., narecepção do sinal de vídeo [14]. Tipicamente, há duasabordagens no desenvolvimento destas métricas: (i)extração dos parâmetros sobre o �uxo de bits, taiscomo a taxa de compressão, informaçõesrelacionadas ao GoP (Group of Pictures), estimaçãode movimento, per�l e nível de codi�cação, bem comoo parâmetro de quantização ou QP (QuantizationParameter) [21–25]. Métricas NR apresentam maiorcomplexidade quando são aplicadas em vídeo, devidoà variação temporal dos quadros, conteúdos dascenas e à di�culdade de compreensão dascaracterísticas do SVH [26]. Assim, algumas métricasdessa categoria exploram características espaciais etemporais na estimação de qualidade de vídeo [21].3. MÉTODO PROPOSTOO método proposto, denominado NRVQA-ELMtc(No-Reference Video Quality Assessment usingExtreme Learning Machine algorithm with terminationcriteria) [27] combina características espaciais etemporais, por meio de uma rede neural arti�cialSLFNs usando o algoritmo de treinamento ELM [28]com a implementação de um simples critério deparada.3.1. Características espaço-temporaisAs características espaciais incorporadas nométodo proposto são baseadas em medidas deartefatos em vídeo digital, i.e., distorções de blocageme borramento desenvolvidas por Wang et al. [20].Assim, a componente de luminância do quadro f érepresentada por y(f , i, j ) com i � ��1,M�� e j � ��1, N�� ,em que M e N são os números de linhas e colunas,respectivamente, de um quadro. Logo, as diferençasde luminância ao longo das linhas e colunas sãorepresentadas, respectivamente, pelas expressões aseguir.� � � � � � � �� � � � � � � �, , , , 1 , , , 1, 1 ,, , , 1, , , , 1, 1 .hvd f i j y f i j y f i j j Nd f i j y f i j y f i j i M� � � � �� � � � �(3)O efeito de blocagem pode ser estimado pelamédia das diferenças entre as bordas dos blocos daDCT (Discrete Cosine Transform) nas direçõeshorizontal e vertical para uma sequência F dequadros, conforme mostra a Equação (4), com ummacrobloco de dimensão � �� , cujo tamanho típico éde � � 8 [20].� � ��� � � �111 1 1111 1 11, , 1 ,111, 1 , .11NF Mh hf i jMF Nvi jvfB d f i jNF MB d f i jMF N��������� � ���� � �� �� �� � � �� � �� �� �� � � �� � �� � �� � �(4)A medida de blocagem em uma sequência devídeo com F quadros é determinada pela média entreh B e v B , caracterizando a medida B , conforme aexpressão a seguir..2h v B BB�� (5)Os efeitos de borramento são estimados pelocálculo da redução de atividade entre os blocos � �� ,em que é usada a medida de blocagem nas direçõeshorizontal e vertical, conforme as expressões� � � �� �� � � �� �11 1 111 1 1, , ,1 1, ,1.1F M Nh h hf i jF M Nv vfvi jA d f i j BF M NA d f i j BF N M������ � ��� � �� �� � �� �� � �� � �� � �(6)A medida de borramento, representada por A ,conforme a Equação (7), é determinada pela médiaentre h A e v A ..2h v A AA�� (7)O segundo fator que contribui para a detecção doartefato de borramento é baseado na taxa decruzamento por zero (Zero Crossing – ZC) nasdireções horizontal e vertical, conforme as expressõesa seguir.� �� �� �� �21 1 121 1 11, , ,21, , ,2F M Nh hf i jF M Nv vf i jZ z f i jF M NZ z f i jF N M�� � ��� � ��� ��� �� � �� � �(8)em que os termos h z e v z são determinados por� �� �1, na direção horizontal, , ,0, caso contrário1, na direção vertical, , .0, caso contráriohvz f i jz f i j�� �� �� ��(9)Assim, a medida de borramento Z é determinadapela média entre as componentes h Z e v Z ..2h v Z ZZ�� (10)O método proposto também incorpora trêscaracterísticas temporais no treinamento da redeneural SLFN com o algoritmo ELM.A primeira característica temporal é a diferença demovimento entre quadros adjacentes, representadapela variável TI (Temporal perceptual Information) [31]que considera os valores de luminância de pixelslocalizados em uma mesma região de um quadro,conforme a expressão a seguir.� �21, , ,1FfTI m f i jF��� �� �� �� (11)em que o número total de quadros é F e � �m�f ,i, j ��� �é o desvio padrão da diferença de movimento(diferença de luminância) entre o quadro atualy �f ,i, j � e o quadro anterior y �f �1,i, j � .A segunda característica temporal é a média dadiferença absoluta (Mean Absolute Di�erence – MAD)[31] entre quadros sucessivos, representada pelaEquação (12) que de�ne a medida global da MADpara todos os quadros de um vídeo.� �� � � �2 1 11, , 1, , .1F M Nf i jMAD y f i j y f i jM N F � � �� � �� �� � �(12)A terceira característica temporal é a média dadiferença absoluta ponderada (weighted MeanAbsolute Di�erence – MADw) [32], a qual mede o graude variação das cenas de um vídeo que considera acena atual de um quadro f e do quadro anterior f �1,conforme a expressão:2 11.1Fff fMADMADwF � MAD �� �� � �� � ��(13)Assim, o método proposto combina ascaracterísticas espaciais e temporais em uma matriz� , , , , , � f f f f f f f x � A B Z TI MAD MADw , em que f é onúmero de amostras de vídeo. A Figura 1 apresentaas características temporais � espaciais de dezessetebases de dados de vídeos (denominada superconjuntoS) usadas neste trabalho e reportadas em [27]. Arecomendação ITU-T P.910 [31] de�ne a medida SI(Spatial perceptual Information) como informaçãoespacial perceptual. A inspeção visual dessa �guramostra que as amostras de vídeo usadas nestetrabalho apresentam uma grande variação espaçotemporal.Fig. 1. Características espaciais e temporais do superconjuntoS com 216 amostras de referência3.2. Métrica NRVQA-ELMtcO algoritmo ELM [28] desenvolvido para otreinamento de uma rede SLFN atribui pesos epolarizações (biases) de maneira aleatória, segundouma distribuição uniforme. O treinamento compreendeN amostras distintas representadas pela variável�� , � , , 1, , � n mf f f f � � x t x � t � f � N , cujo cálculo éconforme a expressão� � � �1, 1, , ,KK i j j f j fff � g b f N�x � � w x � � o � (14)em que f o é a saída (escore objetivo), g(x) é afunção de ativação e j � é o peso que conecta o jésimoneurônio da camada oculta ao neurônio desaída. De acordo com [28], uma rede SLFN com Knós na camada oculta e uma função de ativação g(x)pode apresentar um erro médio próximo de zero, i.e.,10Kf ff �� o � t � . Logo, há parâmetros j � , j w e j b talque� �1, 1, , ,Kj j f j ff� g b f N�� w x � � t � (15)em que f t é o vetor alvo (escores subjetivos),T1, , j j jn � �w w � � � w é o vetor de peso que conecta o jésimoneurônio da camada oculta ao neurônio dacamada de entrada, j b denota a polarização (bias) doj-ésimo neurônio da camada oculta, � � j f w x é oproduto interno de j w e f x . A Figura 2 ilustra oalgoritmo ELM empregado em uma arquitetura derede neural SLFN.xi1βjN1jKtibjN input neuron K hidden neuron output neuronβ1βKwjFig. 2. Arquitetura de uma rede neural SLFN usando algoritmode treinamento ELMO sistema linear da Equação (16) resume o métododo algoritmo ELM.Hβ � T, (16)em que a matriz da camada oculta é representada por� � � 1, , and 1, , � � H � h f � N j � K com a primeiralinha da matriz de características f x igual aT1 2 , , , f f f fn x � ��x x x �� , i.e., a primeira linha é igual a� � 1 1 1 1 1 1 1 , , , , , f f f f f f f x � A B Z TI MAD MADw . A matriz desaída e o vetor alvo (target) são de�nidos comoT1 , K β � ��β β �� eT1, , N T � ��t t �� , respectivamente. Otermo � �T1 , 1, , j jm j � � � j � K � � β β β denota o vetor depeso que conecta o j-ésimo neurônio da camadaoculta e os neurônios de saída. Hung et al. [28]propuseram a atribuição aleatória de pesos aosparâmetros j w e j b , a �m de seja obtido um pequenoerro não-nulo durante o treinamento. Considerando osistema linear da Equação (17), os pesos da camadade saída podem ser aproximados por† β � H T (17)em que † H é de�nida como matriz inversageneralizada de Moore-Penrose (MP) [33] da matrizde saída da camada oculta �H� . Além disso, oconjunto de treinamento � , nó oculta K e umafunção de ativação g �x � , e.g., função de base radial(Radial Basis Function – RBF), hard-limiting (hardlim),sigmoidal (sig) e seno (sin). Em resumo, o algoritmoELM compreende três etapas [28]:i) Atribuição aleatória dos pesos de entrada j w epolarizações j b ;ii) Cálculo da matriz da camada de saída H ;iii) Cálculo dos pesos de saída † β: β� H T .O método NRVQA-ELMtc [27] implementa umsimples critério de parada no treinamento da redeneural SLFN, quanto à atribuição aleatória dos pesosj w e j b . Embora este critério não seja direcionado,busca os pesos relacionados com o menor RMSE(Root-Mean-Square Error) entre a saída desejada(escore subjetivo) e o escore objetivo na fase detreinamento com k iterações (tipicamente, k � 100 ) eN neurônios na camada oculta. Além disso, conformeestudo realizado em [27], caso o RMSE seja menor doque 0,5 o algoritmo cessa a busca pelos parâmetrosj w e j b .4. RESULTADOS EXPERIMENTAISEsta seção apresenta os resultados de acurácia,i.e., os coe�cientes de correlação linear de Pearson(Pearson Linear Correlation Coe�cient – PLCC) [34],[35], entre os escores objetivos e subjetivos de 2627amostras de vídeo estudadas em [27].A Figura 3 compara a acurácia (PLCC) entre asmétricas de referência completa (FR) PSNR e MSSSIMcom o método proposto (NRVQA-ELMtc) paraas 2627 amostras de vídeo, pertencentes a 17 basesde dados de vídeo disponibilizadas por diversasinstituições e laboratórios [27]. A função de ativaçãousada na rede neural SLFN foi o seno (sin) com onúmero de amostras de teste igual ao número deneurônios na camada oculta ( N ). O método devalidação cruzada múltipla (K-fold) foi usado com oobjetivo de gerar uma distribuição de acurácia, a qualfoi analisada por meio do diagrama de caixa (box-plot)[36], em que o traço, o círculo e o quadrado, ambosem vermelho, representam a mediana, a média e odesvio padrão, respectivamente. Destaca-se queneste trabalho foi empregada uma validação cruzadacom um grande número de amostras de treinamentotestecom K � 100 , i.e., cada caixa do box-plotcomporta 100 experimentos distintos. Tipicamente, aliteratura apresenta trabalhos no campo da avaliaçãoFig. 3. Box-plot da predição da acurácia (PLCC) entre as métricas PSNR, MS-SSIM e o método proposto NRVQA-ELMtcde qualidade de vídeo com K entre 5 e 10 [37], [38].Pela inspeção visual da Figura 3 observa-se que odesempenho do método proposto é superior àsmétricas FR, em quaisquer condições de teste, i.e.,para qualquer quantidade de amostras de teste(número de neurônios na camada oculta) entre 25 e500. Em especial, para N � 50 , o método propostoapresenta valores de PLCC, em termos da média emediana, acima de 0,8, denotando uma forteassociação entre os escores objetivos e subjetivos, natarefa de predição de qualidade de vídeo. Isto ocorredevido à grande quantidade de amostras de vídeousadas no treinamento, e.g., para N � 300 foramusadas 2327 amostras de treinamento, ou seja,mesmo usando pares de treinamento-teste disjuntos,o método proposto mostra uma acurácia superior àsmétricas de referência completa. A assimetria positiva,i.e., a maior concentração da acurácia entre osegundo quartil (mediana) e o terceiro quartil, nadistribuição do box-plot nos testes com 300 e 500neurônios na camada oculta, indica que o métodoproposto apresenta um desempenho expressivo emcomparação com as métricas FR.Entretanto, mesmo para N entre 25 e 50, ométodo proposto apresentou uma acurácia maior doque as métricas FR, cujo melhor resultado foi paraN � 25 com o desvio-quartil (amplitude interquartílica)con�nado entre 0,65 e 0,8. Além disso, este resultadotambém apresentou assimetria positiva com a médiado PLCC em torno de 0,75.5. CONCLUSÃOEste trabalho apresentou uma métrica NR baseadaem uma rede neural arti�cial SLFN, cujo treinamento édeterminado pelo algoritmo ELM, o qual consideracaracterísticas espaço-temporais e os escoressubjetivos (alvos) extraídos de 2627 amostrastreinamento. Além disso, este trabalho propõe umaextensão do algoritmo ELM por meio de um simplescritério de parada, a �m de que sejam obtidosparâmetros da rede neural arti�cial relacionados como menor RMSE. Tipicamente, a comparação entremétricas FR e NR é injusta, devido à ausência dovídeo de referência na obtenção do escore dequalidade em métricas NR. Entretanto, os resultadosexperimentais mostram que o método propostoapresentou desempenho superior às métricas dereferência completa PSNR e MS-SSIM, sobretudo,quando o número de amostras de teste e de neurôniosna camada oculta da rede SLFN é maior do que 250.Logo, a métrica NRVQA-ELMtc pode ser empregadano monitoramento de qualidade em sistemas detransmissão e recepção de vídeo digital, tais comoIPTV (Internet Protocol Television), TV digital ou emdispositivos móveis, tais como ultrabooks,smartphones, tablets e em aparelhos WiDi (WirelessDisplay).REFERÊNCIAS[1] S. Winkler, “Issues in vision modeling for perceptualvideo quality assessment,” Signal Processing, vol. 78,no. 2, pp. 231–252, 1999.[2] Z. Wang and A. C. Bovik, Modern image qualityassessment. San Rafael, CA: Morgan & Claypool,2006.[3] W. Lin and C.-C. Jay Kuo, “Perceptual visual qualitymetrics: A survey,” Journal of Visual Communicationand Image Representation, vol. 22, no. 4, pp. 297–312,May 2011.[4] S. S. Hemami and A. R. Reibman, “No-reference imageand video quality estimation: Applications and humanmotivateddesign,” Signal Processing: ImageCommunication, vol. 25, no. 7, pp. 469–481, 2010.[5] Z. Wang and A. Bovik, “Reduced- and No-ReferenceImage Quality Assessment,” IEEE Signal ProcessingMagazine, vol. 28, no. 6, pp. 29–40, Nov. 2011.[6] R. V. Babu, S. Suresh, and A. Perkis, “No-referenceJPEG-image quality assessment using GAP-RBF,”Signal Processing, vol. 87, no. 6, pp. 1493–1503, 2007.[7] X. Jiang, F. Meng, J. Xu, and W. Zhou, “No-ReferencePerceptual Video Quality Measurement for HighDe�nition Videos Based on an Arti�cial NeuralNetwork,” in Computer and Electrical Engineering,2008. ICCEE 2008. International Conference on, 2008,pp. 424–427.[8] J. Choe, K. Lee, C. Lee, and S. Korea, “No-referencevideo quality measurement using neural networks,” in2009 16th International Conference on Digital SignalProcessing, 2009, pp. 1–4.[9] S. Suresh, R. Venkatesh Babu, and H. J. Kim, “Noreferenceimage quality assessment using modi�edextreme learning machine classi�er,” Applied SoftComputing, vol. 9, no. 2, pp. 541–552, Mar. 2009.[10] A. M. Eskicioglu and P. S. Fisher, “Image qualitymeasures and their performance,” IEEE Transactionson Communications, vol. 43, no. 12, pp. 2959–2965,1995.[11] U. Engelke and H.-J. Zepernick, “Perceptual-basedQuality Metrics for Image and Video Services: ASurvey,” in Proceedings EuroNGI Conf. NextGeneration Internet Networks, 2007, pp. 190–197.[12] Z. Wang, A. C. Bovik, H. R. Sheikh, and E. PSimoncelli, “Image quality assessment: from errorvisibility to structural similarity.,” IEEE Transactions onImage Processing, vol. 13, no. 4, pp. 600–612, 2004.[13] Z. Wang, E. P. Simoncelli, and A. C. Bovik, “Multiscalestructural similarity for image quality assessment,” inThe Thrity-Seventh Asilomar Conference on Signals,Systems & Computers, 2003, 2003, vol. 2, no. 1, pp.1398–1402.[14] H. R. Wu, K. R. Rao, and A. A. Kassim, “Digital VideoImage Quality and Perceptual Coding,” Journal ofElectronic Imaging, vol. 16, no. 3, 2007.[15] Z. Wang and A. C. Bovik, “A universal image qualityindex,” IEEE Signal Processing Letters, vol. 9, no. 3,pp. 81–84, Mar. 2002.[16] Y. Shi, Y. Ding, R. Zhang, and J. Li, “Structure and HueSimilarity for Color Image Quality Assessment,” in 2009International Conference on Electronic ComputerTechnology, 2009, pp. 329–333.[17] W. B. Silva, A. A. P. Pohl, and K. V. O. Fonseca, “AReduced-Reference Video Quality Assessment Methodbased on the Activity-Di�erence of DCT Coe�cients,”IEICE Transactions on Information and Systems, vol. E96-D, no. 3, 2013.[18] P. Le Callet, C. Viard-Gaudin, and D. Barba, “A Convolutional Neural Network Approach for Objective Video Quality Assessment,” IEEE Transactions on Neural Networks, vol. 17, no. 5, pp. 1316–1327, 2006.[19] P. Le Callet and D. Barba, “Image Quality Assessment: From Sites Errors to a Global Appreciation of Quality,” in Proceedings of the Picture Coding Sympsium, 2001, pp. 105–108.[20] M. Miyahara, K. Kotani, and V. R. Algazi, “Objective picture quality scale (PQS) for image coding,” IEEE Transactions on Communications, vol. 46, no. 9, pp. 1215–1226, 1998.[21] M. Slanina, V. Ricny, and R. Forchheimer, “A Novel Metric for H.264/AVC No-Reference Quality Assessment,” in 14th International Workshop on Systems, Signals and Image Processing and 6th EURASIP Conference focused on Speech and Image Processing, Multimedia Communications and Services, 2007, pp. 114–117.[22] O. Sugimoto, S. Naito, S. Sakazawa, and A. Koike, “Objective perceptual video quality measurement method based on hybrid no reference framework,” in 16th IEEE International Conference on Image Processing (ICIP’09), 2009, pp. 2237–2240.[23] T. Oelbaum, C. Keimel, and K. Diepold, “Rule-Based No-Reference Video Quality Evaluation Using Additionally Coded Videos,” IEEE Journal of Selected Topics in Signal Processing, vol. 3, no. 2, pp. 294–303, 2009.[24] N. Staelens, N. Vercammen, Y. Dhondt, B. Vermeulen, P. Lambert, R. de Walle, and P. Demeester, “ViQID: A No-Reference bit stream-based visual quality impairment detector,” in Proceedings of the Second Int Quality of Multimedia Experience (QoMEX) Workshop, 2010, pp. 206–211.[25] F. Yang, S. Wan, Q. Xie, and H. R. Wu, “No-Reference Quality Assessment for Networked Video via Primary Analysis of Bit Stream,” IEEE Transactions on Circuits and Systems for Video Technology, vol. 20, no. 11, pp. 1544–1554, Nov. 2010.[26] Z. Wang, H. R. Sheikh, and A. C. Bovik, “Objective Video Quality Assessment,” in The Handbook of Video Databases: Design and Applications, B. Furht and O. Marques, Eds. Boca Raton, FL, USA: CRC Press, 2003, pp. 1041–1078.[27] W. B. da Silva and A. de A. P. Pohl, “Métodos Sem Referência Baseados em Características Espaço-Temporais para Avaliação Objetiva de Qualidade de Vídeo Digital,” Universidade Tecnológica Federal do Paraná (UTFPR), 2013.[28] G.-B. Huang, Q.-Y. Zhu, and C.-K. Siew, “Extreme learning machine: Theory and applications,” Neurocomputing, vol. 70, no. 1–3, pp. 489–501, Dec. 2006.[29] Z. Wang, H. R. Sheikh, and A. C. Bovik, “No-reference perceptual quality assessment of JPEG compressed images,” in Image Processing. 2002. Proceedings. IEEE International Conference on Image Processing, 2002, vol. 1, pp. vol.1 I–477 – I–480.[30] W. B. Silva and A. A. P. Pohl, “No-Reference Video Quality Assessment Method based on the Levenberg-Marquardt Minimization,” in XXX Brazilian Symposium on Telecommunications (SBrT’12), 2012.[31] ITU-T P.910, “Subjective video quality assessment methods for multimedia applications,” Standardization Sector of ITU, 1999.[32] W. Ding, Y. Tong, Q. Zhang, and D. Yang, “Image and Video Quality Assessment Using Neural Network and SVM,” Tsinghua Science &amp; Technology, vol. 13, no. 1, pp. 112–116, 2008.[33] K. S. Banerjee, C. R. Rao, and S. K. Mitra, “Generalized Inverse of Matrices and Its Applications,” Technometrics, vol. 15, no. 1, p. 197, Feb. 1973.[34] VQEG, “Final report from the video quality experts group on the validation of reduced-reference and no-reference objective models for standard de�nition television, Phase I,” 2009.[35] VQEG, “Report on the validation of video quality models for high de�nition video content,” 2010.[36] J. W. Tukey, Exploratory Data Analysis. New York: Addison-Wesley Publishing Company, 1977.[37] P. Gastaldo and R. Zunino, “Neural networks for the no-reference assessment of perceived quality,” J. Electronic Imaging, vol. 14, no. 3, p. 033004, 2005.[38] R. Herzog, M. Čadík, T. O. Aydın, K. I. Kim, K. Myszkowski, and H.-P. Seidel, “NoRM: No-Reference Image Quality Metric for Realistic Image Synthesis,” Comp. Graph. Forum, vol. 31, no. 2pt4, pp. 545–554, 2012.

MÉTRICA SEM REFERÊNCIA BASEADA EM REDES NEURAISPARA AVALIAÇÃO OBJETIVA DE QUALIDADE DE VÍDEO DIGITALWyllian Bezerra da Silva, Alexandre de Almeida Prado PohlPrograma de Pós-Graduação em Engenharia Elétrica e Informática Industrial (CPGEI) – UTFPR, Curitiba, [email protected], [email protected]: Este trabalho apresenta uma métrica sem referência para avaliação de qualidade de vídeo digital baseada em uma rede neural arti�cial que usa uma versão estendida do algoritmo de aprendizado ELM (Extreme Learning Machine). O método proposto realiza o treinamento da rede neural a partir de seis características espaço-temporais. Os resultados experimentais mostram que o método proposto apresenta desempenho superior às métricas de referência completa PSNR e MS-SSIM na tarefa de predição de qualidade de vídeo. Logo, o método proposto pode ser usado no monitoramento de qualidade em sistemas de transmissão e recepção de vídeo digital, tais como IPTV e TV digital.Palavras chave: algoritmo ELM, avaliação objetiva de vídeo, métrica sem referência, rede neural arti�cial.1. INTRODUÇÃODurante os últimos anos, a literatura tem apresentado um número crescente publicações acerca de métricas objetivas para avaliação de qualidade de vídeo para diversas aplicações em radiodifusão ou no processamento de vídeo digital, seja na aquisição do sinal, codi�cação e decodi�cação, compressão, transmissão, restauração, armazenamento, segmentação e exibição de sinais de vídeo digital [1–4]. A avaliação de qualidade de vídeo digital pode ser realizada por meio de métricas subjetiva e objetiva. A primeira requer uma grande quantidade de recursos humanos e apresenta elevado custo em sua implementação [1–3]. Porém, as métricas objetivas são vantajosas quando apresentam um determinado grau de correlação com as métricas subjetivas. Logo, o desenvolvimento destas é um desa�o no campo de avaliação de qualidade de vídeo e imagem. Além disso, as métricas objetivas, devido à natureza de seu critério objetivo, independem de interação humana e são facilmente reprodutíveis [3]. Dentre as métricas objetivas destacam-se as métricas sem referência (No-Reference – NR), pois não necessitam do vídeo de referência no cálculo de sua medida. Entretanto, estas requerem um conhecimento a priori sobre as distorções em vídeo digital para que seja estabelecida uma correlação com os resultados subjetivos [3].A maioria das métricas NR encontradas na literatura são baseadas na avaliação de qualidade de imagens e em características relacionadas ao Sistema Visual Humano (SVH). Assim, o desenvolvimento de métricas NR é difícil, devido à necessidade de emular a percepção do SVH que envolve aspectos cognitivos, emocionais e estéticos relacionados ao conteúdo do vídeo e que são altamente dependentes do observador [4], [5].A literatura reporta diversos esforços no desenvolvimento de métricas para avaliação de qualidade de vídeo baseadas em redes neurais e em algoritmos de aprendizado. Babu et al. [6] apresentam uma métrica para avaliar a qualidade de imagens comprimidas em JPEG (Joint Photographic Experts Group) por meio de um algoritmo de aprendizado de crescimento e propõem o uso de uma rede neural GAP-RBF (Growing and Pruning Radial Basis Function) que usa características relacionadas ao SVH. Jiang et al. [7] desenvolveram uma métrica NR para avaliação de qualidade de vídeo em HD (High De�nition) baseada em uma rede neural treinada pelo algoritmo BP (Back-Propagation) que usa seis características espaço-temporais e a RoI (Region of Interest). Choe et al. [8] desenvolveram uma métrica NR baseada no �uxo de bits para avaliação de qualidade de vídeo codi�cado em H.264. Esta métrica extrai características quadro a quadro e usa uma rede neural alimentada adiante (feedforward) com três camadas. Suresh et al. [9] apresentaram uma extensão do algoritmo ELM na tarefa de avaliar a qualidade de imagens comprimidas em JPEG com base no esquema de seleção múltipla KS-ELM (K-fold selection Scheme using ELM) e no algoritmo RCGA-ELM (Real-Coded Genetic Algorithm using ELM) para seleção dos pesos de entrada e polarizações.Este trabalho apresenta uma versão estendida do algoritmo ELM para redes neurais SLFN (Single-hidden-Layer Feedforward Neural Networks) que implementa um simples critério de parada na fase de treinamento. Além disso, esse método usa seis características espaço-temporais de vídeos submetidos a diversas condições de distorção.Este artigo está dividido da seguinte maneira: a Seção 2 descreve as métricas para avaliação de qualidade de vídeo. A Seção 3 descreve o método NR proposto para avalição de qualidade de vídeo digital. A Seção 4 apresenta os resultados experimentais, em que são comparados o método NR proposto e duas métricas FR. Finalmente, a Seção 5 apresenta a conclusão do artigo.2. AVALIAÇÃO DE QUALIDADE DE VÍDEOO processo de avaliação de qualidade de vídeopode ser realizado com a aplicação de métricassubjetivas ou objetivas. As métricas subjetivasestimam a qualidade do vídeo por meio de avaliadoreshumanos. Logo, exigem um alto custo, poisnecessitam de uma grande quantidade de recursoshumanos e apresentam problemas quanto aosrequisitos de imparcialidade e reprodutibilidade,tornando-se inapropriadas em sistemas deradiodifusão ou em provedores de conteúdo [10], [11].Por outro lado, as métricas objetivas são baseadas emmodelos matemáticos, cujo objetivo é produzir umescore de qualidade que emule a percepção do SVH.Além disso, as métricas objetivas requerem baixocusto de implementação (quando comparadas com asmétricas subjetivas) e não apresentam problemasquanto à reprodutibilidade e imparcialidade.As métricas objetivas para avaliação de qualidadede vídeo podem ser classi�cadas em três categorias:(i) métricas de referência completa (Full-Reference –FR); (ii) métricas de referência reduzida (Reduced-Reference – RR); (iii) métricas sem referência (NR).2.1. Métricas FRAs métricas FR requerem o vídeo de referência(fonte) no cálculo do escore de qualidade. Estasmétricas são amplamente utilizadas no processo devalidação de métricas RR ou NR, por meio dacomparação de desempenho de�nida pelasrecomendações do Grupo de Especialistas emQualidade de Vídeo (VQEG – Video Quality ExpertsGroup) que é um órgão de padronização internacionalde métricas subjetivas e objetivas de qualidade devídeo. Dentre as métricas FR, destacam-se o PSNR(Peak Signal-to-Noise Ratio), SSIM (StructuralSIMilarity index) [12] e MS-SSIM (Multi-ScaleStructural SIMilarity index) [13].O PSNR é uma métrica FR baseada no erro pixel apixel de fácil implementação. Entretanto, apresentabaixa correlação com o SVH [14]. A sua medida éprocessada sobre o erro quadro a quadro, i.e., entre oquadro original x e o quadro y . A expressão a seguirde�ne o PSNR para um conjunto de quadros F .2011PSNR 20log ,Fff fvF � MSE� �� � �� �� ��(1)com� � � �20 01MSE , , , , ,N Mfi jx f i j y f i jNM � �� ���� � ��(2)em que o termo f v é igual a (2 1) k � , cujo k é onúmero de bits por pixel, i.e., é a componente deluminância do quadro f . Os termos x �f ,i, j � ey �f ,i, j � são os valores de luminância do quadro deorigem e degradado, respectivamente. Ascomponentes bidimensionais são representadas pelonúmero de colunas N e pelo número de linhas M . Otermo f MSE é de�nido como erro quadrático médioou MSE (Mean Square Error).A métrica SSIM baseia-se no fato de que o SVH éfortemente adaptado para extrair informações dascaracterísticas estruturais de um quadro ou imagem.Logo, uma medida de similaridade estrutural (oudistorção) pode prover boa aproximação para aqualidade perceptual de um vídeo [3, 7–9]. Sejam x ey dois sinais não-negativos, em que y é o sinaldegradado e x é o sinal original (sem perda dequalidade), a medida de similaridade é utilizada comoum índice quantitativo de qualidade do sinal distorcido,ou seja, x é tomado como a referência para medir aqualidade de y . A métrica SSIM possui diversasextensões, dentre as quais a versão MS-SSIM,proposta por Wang et al. [13] que assume umaabordagem multiescalar.2.2. Métricas RRAs métricas de referência reduzida retiram certaquantidade de características do vídeo original (fonte),baseadas em componentes espaciais, temporais, nodomínio da frequência ou no �uxo de bits (bitstream).Este tipo de métrica é amplamente utilizada nomonitoramento de transmissões em rede [17]. Nestetipo de cenário de aplicação, o vídeo é transmitidocom uma sequência de informação codi�cada(overhead) e no lado receptor ocorre a suadecodi�cação, seguido pelo cálculo do índice dequalidade, o qual é obtido por meio da comparaçãoentre a representação reduzida da informação nospares emissor e receptor [18]. Tipicamente, métricasRR são implementadas por meio de funções, divididasem duas etapas [19]: (i) cálculo do erro entre osvídeos original e distorcido, constituído pela diferençade suas características, a �m de compor arepresentação reduzida da informação; (ii) função queagrupa os erros ou diferenças para obter um índice dequalidade global. Algumas métricas RR explorampropriedades dos artefatos, por meio da extração decaracterísticas e um modelo de parametrização [20]com foco em tipos especí�cos de distorções(artefatos). Esta abordagem é encontrada em Silva etal. [17], cujo cálculo do escore de qualidade ébaseado na diferença de atividade dos coe�cientesDCT (Discrete Cosine Transform) em um macro blococom resolução de 16�16 pixels.2.3. Métricas NRAs métricas NR extraem característicasrelacionadas ao SVH do vídeo distorcido, i.e., narecepção do sinal de vídeo [14]. Tipicamente, há duasabordagens no desenvolvimento destas métricas: (i)extração dos parâmetros sobre o �uxo de bits, taiscomo a taxa de compressão, informaçõesrelacionadas ao GoP (Group of Pictures), estimaçãode movimento, per�l e nível de codi�cação, bem comoo parâmetro de quantização ou QP (QuantizationParameter) [21–25]. Métricas NR apresentam maiorcomplexidade quando são aplicadas em vídeo, devidoà variação temporal dos quadros, conteúdos dascenas e à di�culdade de compreensão dascaracterísticas do SVH [26]. Assim, algumas métricasdessa categoria exploram características espaciais etemporais na estimação de qualidade de vídeo [21].3. MÉTODO PROPOSTOO método proposto, denominado NRVQA-ELMtc(No-Reference Video Quality Assessment usingExtreme Learning Machine algorithm with terminationcriteria) [27] combina características espaciais etemporais, por meio de uma rede neural arti�cialSLFNs usando o algoritmo de treinamento ELM [28]com a implementação de um simples critério deparada.3.1. Características espaço-temporaisAs características espaciais incorporadas nométodo proposto são baseadas em medidas deartefatos em vídeo digital, i.e., distorções de blocageme borramento desenvolvidas por Wang et al. [20].Assim, a componente de luminância do quadro f érepresentada por y(f , i, j ) com i � ��1,M�� e j � ��1, N�� ,em que M e N são os números de linhas e colunas,respectivamente, de um quadro. Logo, as diferençasde luminância ao longo das linhas e colunas sãorepresentadas, respectivamente, pelas expressões aseguir.� � � � � � � �� � � � � � � �, , , , 1 , , , 1, 1 ,, , , 1, , , , 1, 1 .hvd f i j y f i j y f i j j Nd f i j y f i j y f i j i M� � � � �� � � � �(3)O efeito de blocagem pode ser estimado pelamédia das diferenças entre as bordas dos blocos daDCT (Discrete Cosine Transform) nas direçõeshorizontal e vertical para uma sequência F dequadros, conforme mostra a Equação (4), com ummacrobloco de dimensão � �� , cujo tamanho típico éde � � 8 [20].� � ��� � � �111 1 1111 1 11, , 1 ,111, 1 , .11NF Mh hf i jMF Nvi jvfB d f i jNF MB d f i jMF N��������� � ���� � �� �� �� � � �� � �� �� �� � � �� � �� � �� � �(4)A medida de blocagem em uma sequência devídeo com F quadros é determinada pela média entreh B e v B , caracterizando a medida B , conforme aexpressão a seguir..2h v B BB�� (5)Os efeitos de borramento são estimados pelocálculo da redução de atividade entre os blocos � �� ,em que é usada a medida de blocagem nas direçõeshorizontal e vertical, conforme as expressões� � � �� �� � � �� �11 1 111 1 1, , ,1 1, ,1.1F M Nh h hf i jF M Nv vfvi jA d f i j BF M NA d f i j BF N M������ � ��� � �� �� � �� �� � �� � �� � �(6)A medida de borramento, representada por A ,conforme a Equação (7), é determinada pela médiaentre h A e v A ..2h v A AA�� (7)O segundo fator que contribui para a detecção doartefato de borramento é baseado na taxa decruzamento por zero (Zero Crossing – ZC) nasdireções horizontal e vertical, conforme as expressõesa seguir.� �� �� �� �21 1 121 1 11, , ,21, , ,2F M Nh hf i jF M Nv vf i jZ z f i jF M NZ z f i jF N M�� � ��� � ��� ��� �� � �� � �(8)em que os termos h z e v z são determinados por� �� �1, na direção horizontal, , ,0, caso contrário1, na direção vertical, , .0, caso contráriohvz f i jz f i j�� �� �� ��(9)Assim, a medida de borramento Z é determinadapela média entre as componentes h Z e v Z ..2h v Z ZZ�� (10)O método proposto também incorpora trêscaracterísticas temporais no treinamento da redeneural SLFN com o algoritmo ELM.A primeira característica temporal é a diferença demovimento entre quadros adjacentes, representadapela variável TI (Temporal perceptual Information) [31]que considera os valores de luminância de pixelslocalizados em uma mesma região de um quadro,conforme a expressão a seguir.� �21, , ,1FfTI m f i jF��� �� �� �� (11)em que o número total de quadros é F e � �m�f ,i, j ��� �é o desvio padrão da diferença de movimento(diferença de luminância) entre o quadro atualy �f ,i, j � e o quadro anterior y �f �1,i, j � .A segunda característica temporal é a média dadiferença absoluta (Mean Absolute Di�erence – MAD)[31] entre quadros sucessivos, representada pelaEquação (12) que de�ne a medida global da MADpara todos os quadros de um vídeo.� �� � � �2 1 11, , 1, , .1F M Nf i jMAD y f i j y f i jM N F � � �� � �� �� � �(12)A terceira característica temporal é a média dadiferença absoluta ponderada (weighted MeanAbsolute Di�erence – MADw) [32], a qual mede o graude variação das cenas de um vídeo que considera acena atual de um quadro f e do quadro anterior f �1,conforme a expressão:2 11.1Fff fMADMADwF � MAD �� �� � �� � ��(13)Assim, o método proposto combina ascaracterísticas espaciais e temporais em uma matriz� , , , , , � f f f f f f f x � A B Z TI MAD MADw , em que f é onúmero de amostras de vídeo. A Figura 1 apresentaas características temporais � espaciais de dezessetebases de dados de vídeos (denominada superconjuntoS) usadas neste trabalho e reportadas em [27]. Arecomendação ITU-T P.910 [31] de�ne a medida SI(Spatial perceptual Information) como informaçãoespacial perceptual. A inspeção visual dessa �guramostra que as amostras de vídeo usadas nestetrabalho apresentam uma grande variação espaçotemporal.Fig. 1. Características espaciais e temporais do superconjuntoS com 216 amostras de referência3.2. Métrica NRVQA-ELMtcO algoritmo ELM [28] desenvolvido para otreinamento de uma rede SLFN atribui pesos epolarizações (biases) de maneira aleatória, segundouma distribuição uniforme. O treinamento compreendeN amostras distintas representadas pela variável�� , � , , 1, , � n mf f f f � � x t x � t � f � N , cujo cálculo éconforme a expressão� � � �1, 1, , ,KK i j j f j fff � g b f N�x � � w x � � o � (14)em que f o é a saída (escore objetivo), g(x) é afunção de ativação e j � é o peso que conecta o jésimoneurônio da camada oculta ao neurônio desaída. De acordo com [28], uma rede SLFN com Knós na camada oculta e uma função de ativação g(x)pode apresentar um erro médio próximo de zero, i.e.,10Kf ff �� o � t � . Logo, há parâmetros j � , j w e j b talque� �1, 1, , ,Kj j f j ff� g b f N�� w x � � t � (15)em que f t é o vetor alvo (escores subjetivos),T1, , j j jn � �w w � � � w é o vetor de peso que conecta o jésimoneurônio da camada oculta ao neurônio dacamada de entrada, j b denota a polarização (bias) doj-ésimo neurônio da camada oculta, � � j f w x é oproduto interno de j w e f x . A Figura 2 ilustra oalgoritmo ELM empregado em uma arquitetura derede neural SLFN.xi1βjN1jKtibjN input neuron K hidden neuron output neuronβ1βKwjFig. 2. Arquitetura de uma rede neural SLFN usando algoritmode treinamento ELMO sistema linear da Equação (16) resume o métododo algoritmo ELM.Hβ � T, (16)em que a matriz da camada oculta é representada por� � � 1, , and 1, , � � H � h f � N j � K com a primeiralinha da matriz de características f x igual aT1 2 , , , f f f fn x � ��x x x �� , i.e., a primeira linha é igual a� � 1 1 1 1 1 1 1 , , , , , f f f f f f f x � A B Z TI MAD MADw . A matriz desaída e o vetor alvo (target) são de�nidos comoT1 , K β � ��β β �� eT1, , N T � ��t t �� , respectivamente. Otermo � �T1 , 1, , j jm j � � � j � K � � β β β denota o vetor depeso que conecta o j-ésimo neurônio da camadaoculta e os neurônios de saída. Hung et al. [28]propuseram a atribuição aleatória de pesos aosparâmetros j w e j b , a �m de seja obtido um pequenoerro não-nulo durante o treinamento. Considerando osistema linear da Equação (17), os pesos da camadade saída podem ser aproximados por† β � H T (17)em que † H é de�nida como matriz inversageneralizada de Moore-Penrose (MP) [33] da matrizde saída da camada oculta �H� . Além disso, oconjunto de treinamento � , nó oculta K e umafunção de ativação g �x � , e.g., função de base radial(Radial Basis Function – RBF), hard-limiting (hardlim),sigmoidal (sig) e seno (sin). Em resumo, o algoritmoELM compreende três etapas [28]:i) Atribuição aleatória dos pesos de entrada j w epolarizações j b ;ii) Cálculo da matriz da camada de saída H ;iii) Cálculo dos pesos de saída † β: β� H T .O método NRVQA-ELMtc [27] implementa umsimples critério de parada no treinamento da redeneural SLFN, quanto à atribuição aleatória dos pesosj w e j b . Embora este critério não seja direcionado,busca os pesos relacionados com o menor RMSE(Root-Mean-Square Error) entre a saída desejada(escore subjetivo) e o escore objetivo na fase detreinamento com k iterações (tipicamente, k � 100 ) eN neurônios na camada oculta. Além disso, conformeestudo realizado em [27], caso o RMSE seja menor doque 0,5 o algoritmo cessa a busca pelos parâmetrosj w e j b .4. RESULTADOS EXPERIMENTAISEsta seção apresenta os resultados de acurácia,i.e., os coe�cientes de correlação linear de Pearson(Pearson Linear Correlation Coe�cient – PLCC) [34],[35], entre os escores objetivos e subjetivos de 2627amostras de vídeo estudadas em [27].A Figura 3 compara a acurácia (PLCC) entre asmétricas de referência completa (FR) PSNR e MSSSIMcom o método proposto (NRVQA-ELMtc) paraas 2627 amostras de vídeo, pertencentes a 17 basesde dados de vídeo disponibilizadas por diversasinstituições e laboratórios [27]. A função de ativaçãousada na rede neural SLFN foi o seno (sin) com onúmero de amostras de teste igual ao número deneurônios na camada oculta ( N ). O método devalidação cruzada múltipla (K-fold) foi usado com oobjetivo de gerar uma distribuição de acurácia, a qualfoi analisada por meio do diagrama de caixa (box-plot)[36], em que o traço, o círculo e o quadrado, ambosem vermelho, representam a mediana, a média e odesvio padrão, respectivamente. Destaca-se queneste trabalho foi empregada uma validação cruzadacom um grande número de amostras de treinamentotestecom K � 100 , i.e., cada caixa do box-plotcomporta 100 experimentos distintos. Tipicamente, aliteratura apresenta trabalhos no campo da avaliaçãoFig. 3. Box-plot da predição da acurácia (PLCC) entre as métricas PSNR, MS-SSIM e o método proposto NRVQA-ELMtcde qualidade de vídeo com K entre 5 e 10 [37], [38].Pela inspeção visual da Figura 3 observa-se que odesempenho do método proposto é superior àsmétricas FR, em quaisquer condições de teste, i.e.,para qualquer quantidade de amostras de teste(número de neurônios na camada oculta) entre 25 e500. Em especial, para N � 50 , o método propostoapresenta valores de PLCC, em termos da média emediana, acima de 0,8, denotando uma forteassociação entre os escores objetivos e subjetivos, natarefa de predição de qualidade de vídeo. Isto ocorredevido à grande quantidade de amostras de vídeousadas no treinamento, e.g., para N � 300 foramusadas 2327 amostras de treinamento, ou seja,mesmo usando pares de treinamento-teste disjuntos,o método proposto mostra uma acurácia superior àsmétricas de referência completa. A assimetria positiva,i.e., a maior concentração da acurácia entre osegundo quartil (mediana) e o terceiro quartil, nadistribuição do box-plot nos testes com 300 e 500neurônios na camada oculta, indica que o métodoproposto apresenta um desempenho expressivo emcomparação com as métricas FR.Entretanto, mesmo para N entre 25 e 50, ométodo proposto apresentou uma acurácia maior doque as métricas FR, cujo melhor resultado foi paraN � 25 com o desvio-quartil (amplitude interquartílica)con�nado entre 0,65 e 0,8. Além disso, este resultadotambém apresentou assimetria positiva com a médiado PLCC em torno de 0,75.5. CONCLUSÃOEste trabalho apresentou uma métrica NR baseadaem uma rede neural arti�cial SLFN, cujo treinamento édeterminado pelo algoritmo ELM, o qual consideracaracterísticas espaço-temporais e os escoressubjetivos (alvos) extraídos de 2627 amostrastreinamento. Além disso, este trabalho propõe umaextensão do algoritmo ELM por meio de um simplescritério de parada, a �m de que sejam obtidosparâmetros da rede neural arti�cial relacionados como menor RMSE. Tipicamente, a comparação entremétricas FR e NR é injusta, devido à ausência dovídeo de referência na obtenção do escore dequalidade em métricas NR. Entretanto, os resultadosexperimentais mostram que o método propostoapresentou desempenho superior às métricas dereferência completa PSNR e MS-SSIM, sobretudo,quando o número de amostras de teste e de neurôniosna camada oculta da rede SLFN é maior do que 250.Logo, a métrica NRVQA-ELMtc pode ser empregadano monitoramento de qualidade em sistemas detransmissão e recepção de vídeo digital, tais comoIPTV (Internet Protocol Television), TV digital ou emdispositivos móveis, tais como ultrabooks,smartphones, tablets e em aparelhos WiDi (WirelessDisplay).REFERÊNCIAS[1] S. Winkler, “Issues in vision modeling for perceptualvideo quality assessment,” Signal Processing, vol. 78,no. 2, pp. 231–252, 1999.[2] Z. Wang and A. C. Bovik, Modern image qualityassessment. San Rafael, CA: Morgan & Claypool,2006.[3] W. Lin and C.-C. Jay Kuo, “Perceptual visual qualitymetrics: A survey,” Journal of Visual Communicationand Image Representation, vol. 22, no. 4, pp. 297–312,May 2011.[4] S. S. Hemami and A. R. Reibman, “No-reference imageand video quality estimation: Applications and humanmotivateddesign,” Signal Processing: ImageCommunication, vol. 25, no. 7, pp. 469–481, 2010.[5] Z. Wang and A. Bovik, “Reduced- and No-ReferenceImage Quality Assessment,” IEEE Signal ProcessingMagazine, vol. 28, no. 6, pp. 29–40, Nov. 2011.[6] R. V. Babu, S. Suresh, and A. Perkis, “No-referenceJPEG-image quality assessment using GAP-RBF,”Signal Processing, vol. 87, no. 6, pp. 1493–1503, 2007.[7] X. Jiang, F. Meng, J. Xu, and W. Zhou, “No-ReferencePerceptual Video Quality Measurement for HighDe�nition Videos Based on an Arti�cial NeuralNetwork,” in Computer and Electrical Engineering,2008. ICCEE 2008. International Conference on, 2008,pp. 424–427.[8] J. Choe, K. Lee, C. Lee, and S. Korea, “No-referencevideo quality measurement using neural networks,” in2009 16th International Conference on Digital SignalProcessing, 2009, pp. 1–4.[9] S. Suresh, R. Venkatesh Babu, and H. J. Kim, “Noreferenceimage quality assessment using modi�edextreme learning machine classi�er,” Applied SoftComputing, vol. 9, no. 2, pp. 541–552, Mar. 2009.[10] A. M. Eskicioglu and P. S. Fisher, “Image qualitymeasures and their performance,” IEEE Transactionson Communications, vol. 43, no. 12, pp. 2959–2965,1995.[11] U. Engelke and H.-J. Zepernick, “Perceptual-basedQuality Metrics for Image and Video Services: ASurvey,” in Proceedings EuroNGI Conf. NextGeneration Internet Networks, 2007, pp. 190–197.[12] Z. Wang, A. C. Bovik, H. R. Sheikh, and E. PSimoncelli, “Image quality assessment: from errorvisibility to structural similarity.,” IEEE Transactions onImage Processing, vol. 13, no. 4, pp. 600–612, 2004.[13] Z. Wang, E. P. Simoncelli, and A. C. Bovik, “Multiscalestructural similarity for image quality assessment,” inThe Thrity-Seventh Asilomar Conference on Signals,Systems & Computers, 2003, 2003, vol. 2, no. 1, pp.1398–1402.[14] H. R. Wu, K. R. Rao, and A. A. Kassim, “Digital VideoImage Quality and Perceptual Coding,” Journal ofElectronic Imaging, vol. 16, no. 3, 2007.[15] Z. Wang and A. C. Bovik, “A universal image qualityindex,” IEEE Signal Processing Letters, vol. 9, no. 3,pp. 81–84, Mar. 2002.[16] Y. Shi, Y. Ding, R. Zhang, and J. Li, “Structure and HueSimilarity for Color Image Quality Assessment,” in 2009International Conference on Electronic ComputerTechnology, 2009, pp. 329–333.[17] W. B. Silva, A. A. P. Pohl, and K. V. O. Fonseca, “AReduced-Reference Video Quality Assessment Methodbased on the Activity-Di�erence of DCT Coe�cients,”IEICE Transactions on Information and Systems, vol. E96-D, no. 3, 2013.[18] P. Le Callet, C. Viard-Gaudin, and D. Barba, “A Convolutional Neural Network Approach for Objective Video Quality Assessment,” IEEE Transactions on Neural Networks, vol. 17, no. 5, pp. 1316–1327, 2006.[19] P. Le Callet and D. Barba, “Image Quality Assessment: From Sites Errors to a Global Appreciation of Quality,” in Proceedings of the Picture Coding Sympsium, 2001, pp. 105–108.[20] M. Miyahara, K. Kotani, and V. R. Algazi, “Objective picture quality scale (PQS) for image coding,” IEEE Transactions on Communications, vol. 46, no. 9, pp. 1215–1226, 1998.[21] M. Slanina, V. Ricny, and R. Forchheimer, “A Novel Metric for H.264/AVC No-Reference Quality Assessment,” in 14th International Workshop on Systems, Signals and Image Processing and 6th EURASIP Conference focused on Speech and Image Processing, Multimedia Communications and Services, 2007, pp. 114–117.[22] O. Sugimoto, S. Naito, S. Sakazawa, and A. Koike, “Objective perceptual video quality measurement method based on hybrid no reference framework,” in 16th IEEE International Conference on Image Processing (ICIP’09), 2009, pp. 2237–2240.[23] T. Oelbaum, C. Keimel, and K. Diepold, “Rule-Based No-Reference Video Quality Evaluation Using Additionally Coded Videos,” IEEE Journal of Selected Topics in Signal Processing, vol. 3, no. 2, pp. 294–303, 2009.[24] N. Staelens, N. Vercammen, Y. Dhondt, B. Vermeulen, P. Lambert, R. de Walle, and P. Demeester, “ViQID: A No-Reference bit stream-based visual quality impairment detector,” in Proceedings of the Second Int Quality of Multimedia Experience (QoMEX) Workshop, 2010, pp. 206–211.[25] F. Yang, S. Wan, Q. Xie, and H. R. Wu, “No-Reference Quality Assessment for Networked Video via Primary Analysis of Bit Stream,” IEEE Transactions on Circuits and Systems for Video Technology, vol. 20, no. 11, pp. 1544–1554, Nov. 2010.[26] Z. Wang, H. R. Sheikh, and A. C. Bovik, “Objective Video Quality Assessment,” in The Handbook of Video Databases: Design and Applications, B. Furht and O. Marques, Eds. Boca Raton, FL, USA: CRC Press, 2003, pp. 1041–1078.[27] W. B. da Silva and A. de A. P. Pohl, “Métodos Sem Referência Baseados em Características Espaço-Temporais para Avaliação Objetiva de Qualidade de Vídeo Digital,” Universidade Tecnológica Federal do Paraná (UTFPR), 2013.[28] G.-B. Huang, Q.-Y. Zhu, and C.-K. Siew, “Extreme learning machine: Theory and applications,” Neurocomputing, vol. 70, no. 1–3, pp. 489–501, Dec. 2006.[29] Z. Wang, H. R. Sheikh, and A. C. Bovik, “No-reference perceptual quality assessment of JPEG compressed images,” in Image Processing. 2002. Proceedings. IEEE International Conference on Image Processing, 2002, vol. 1, pp. vol.1 I–477 – I–480.[30] W. B. Silva and A. A. P. Pohl, “No-Reference Video Quality Assessment Method based on the Levenberg-Marquardt Minimization,” in XXX Brazilian Symposium on Telecommunications (SBrT’12), 2012.[31] ITU-T P.910, “Subjective video quality assessment methods for multimedia applications,” Standardization Sector of ITU, 1999.[32] W. Ding, Y. Tong, Q. Zhang, and D. Yang, “Image and Video Quality Assessment Using Neural Network and SVM,” Tsinghua Science &amp; Technology, vol. 13, no. 1, pp. 112–116, 2008.[33] K. S. Banerjee, C. R. Rao, and S. K. Mitra, “Generalized Inverse of Matrices and Its Applications,” Technometrics, vol. 15, no. 1, p. 197, Feb. 1973.[34] VQEG, “Final report from the video quality experts group on the validation of reduced-reference and no-reference objective models for standard de�nition television, Phase I,” 2009.[35] VQEG, “Report on the validation of video quality models for high de�nition video content,” 2010.[36] J. W. Tukey, Exploratory Data Analysis. New York: Addison-Wesley Publishing Company, 1977.[37] P. Gastaldo and R. Zunino, “Neural networks for the no-reference assessment of perceived quality,” J. Electronic Imaging, vol. 14, no. 3, p. 033004, 2005.[38] R. Herzog, M. Čadík, T. O. Aydın, K. I. Kim, K. Myszkowski, and H.-P. Seidel, “NoRM: No-Reference Image Quality Metric for Realistic Image Synthesis,” Comp. Graph. Forum, vol. 31, no. 2pt4, pp. 545–554, 2012.

Revista de Radiodifusão • v. 08 • n. 09 • 2014 39

ENSAIOS DE INTERFERÊNCIA DO SINAL LTE (4G, em 700 MHz) SOBRE O SINAL DE TV DIGITAL TERRESTRE (ISDB-Tb)

Pellegrini, Lucas Valmir 1, Kusunoki, Marcel 2, Rehme, Jose Frederico 3

1 Curitiba, Brasil, [email protected] 2 Curitiba, Brasil, [email protected] 3 Curitiba, Brasil, [email protected]

Resumo: Este artigo tem por finalidade descrever os resultados obtidos em testes em bancada das possíveis interferências que o LTE, na faixa de 700 a 800 MHz, pode causar na recepção de sinal de televisão digital terrestre brasileiro (ISDB-Tb) nos canais 14 ao 51, cujas frequências centrais constam na Norma da ABNT NBR 15604 [1]. O objetivo principal deste ensaio é simular a presença de aparelhos de telefone celular, dentro do mesmo ambiente onde se capta, com uso de uma antena interna, os sinais de TV digital da região. Com esta simulação, pretende-se estimar os níveis de sinais de TV e de telefonia, onde este último aqui é chamado de interferente ou ruído, e a relação entre eles, que habilita ou que impossibilita a recepção de TV. Observa-se, portanto, o efeito no televisor, buscando o limiar do não comprometimento da qualidade de sinal percebida na casa do telespectador. Ao final do teste conclui-se que em uma recepção doméstica o sinal recebido pela TV sofre interferência prejudicial em todos os canais, porém com maior intensidade nos canais mais próximos do sinal interferente. Palavras-chave: 4G, LTE, interferências, ISDB-Tb, TV digital. 1. INTRODUÇÃO

A faixa de 700 a 800 MHz, utilizada por sinais de televisão digital, será utilizada como uma das opções para a transmissão do sinal 4G, também conhecida como tecnologia LTE [2], com suas características técnicas estabelecidas pela Resolução n° 625/2013 [3].

Quando um sistema de recepção estiver sujeito a sinais ondulatórios de fontes distintas, ou de mesma fonte mas por caminhos distintos, ele pode apresentar dificuldades no entendimento da mensagem. A esse fenômeno chama-se interferência, ou seja, ela ocorre na recepção, e não no meio. A interferência de sinais eletromagnéticos pode ser definida como um fenômeno físico, ocasionado pelo uso de faixas espectrais iguais ou adjacentes, ocupadas por serviços de fontes distintas. De acordo com [4], elas podem ser divididas em três categorias: permitida, na qual possui valores definidos em normas e regulamentações; aceitável, fora dos valores regulamentados, porém de comum acordo entre as partes envolvidas; e prejudicial, que gera degradação

e interrupção de serviço de telecomunicações. Esta última, sendo utilizada como referência nos ensaios aqui apresentados. 2. EQUIPAMENTOS UTILIZADOS a. Excitador Rohde & Schwarz SX 801 – S/N: 105373; b. TV Analyzer – ETL Rohde & Schwarz – S/N: 101586; c. Gerador Sweep Network Analyzer Agilent E5071B – S/N: ATO-29973-MY42403341; d. Televisor LCD Samsung 32” – Modelo: LN32B530P2MXZD - S/N: A1733XES600536R; e. Atenuador variável até 70dB HP 6495B; f. Atenuador variável até 110dB HP 8496B; g. Atenuador variável até 11dB HP 8494B; h. Somador passivo 2 X 1. 3. DESENVOLVIMENTO

Os testes foram realizados em bancada no LARF (laboratório de radiofrequência) da RPC TV em Curitiba-PR, com ambiente restrito e controlado, como mostra a figura 1.

Figura 1 - Setup de testes LTE X TVD - LARF RPC TV.

Diagrama em Blocos

A figura 2 demonstra o diagrama em blocos dos ensaios realizados em bancada.

39

Page 40: Revista de RADIODIFUSÃO - SET PORTAL · Sinais de TV Digital ISDB-Tb via VHF e UHF na Cidade do Gama – DF – Brasil Akamine, Cristiano Bedicks Jr, Gunnar ... cujas frequências

MÉTRICA SEM REFERÊNCIA BASEADA EM REDES NEURAISPARA AVALIAÇÃO OBJETIVA DE QUALIDADE DE VÍDEO DIGITALWyllian Bezerra da Silva, Alexandre de Almeida Prado PohlPrograma de Pós-Graduação em Engenharia Elétrica e Informática Industrial (CPGEI) – UTFPR, Curitiba, [email protected], [email protected]: Este trabalho apresenta uma métrica sem referência para avaliação de qualidade de vídeo digital baseada em uma rede neural arti�cial que usa uma versão estendida do algoritmo de aprendizado ELM (Extreme Learning Machine). O método proposto realiza o treinamento da rede neural a partir de seis características espaço-temporais. Os resultados experimentais mostram que o método proposto apresenta desempenho superior às métricas de referência completa PSNR e MS-SSIM na tarefa de predição de qualidade de vídeo. Logo, o método proposto pode ser usado no monitoramento de qualidade em sistemas de transmissão e recepção de vídeo digital, tais como IPTV e TV digital.Palavras chave: algoritmo ELM, avaliação objetiva de vídeo, métrica sem referência, rede neural arti�cial.1. INTRODUÇÃODurante os últimos anos, a literatura tem apresentado um número crescente publicações acerca de métricas objetivas para avaliação de qualidade de vídeo para diversas aplicações em radiodifusão ou no processamento de vídeo digital, seja na aquisição do sinal, codi�cação e decodi�cação, compressão, transmissão, restauração, armazenamento, segmentação e exibição de sinais de vídeo digital [1–4]. A avaliação de qualidade de vídeo digital pode ser realizada por meio de métricas subjetiva e objetiva. A primeira requer uma grande quantidade de recursos humanos e apresenta elevado custo em sua implementação [1–3]. Porém, as métricas objetivas são vantajosas quando apresentam um determinado grau de correlação com as métricas subjetivas. Logo, o desenvolvimento destas é um desa�o no campo de avaliação de qualidade de vídeo e imagem. Além disso, as métricas objetivas, devido à natureza de seu critério objetivo, independem de interação humana e são facilmente reprodutíveis [3]. Dentre as métricas objetivas destacam-se as métricas sem referência (No-Reference – NR), pois não necessitam do vídeo de referência no cálculo de sua medida. Entretanto, estas requerem um conhecimento a priori sobre as distorções em vídeo digital para que seja estabelecida uma correlação com os resultados subjetivos [3].A maioria das métricas NR encontradas na literatura são baseadas na avaliação de qualidade de imagens e em características relacionadas ao Sistema Visual Humano (SVH). Assim, o desenvolvimento de métricas NR é difícil, devido à necessidade de emular a percepção do SVH que envolve aspectos cognitivos, emocionais e estéticos relacionados ao conteúdo do vídeo e que são altamente dependentes do observador [4], [5].A literatura reporta diversos esforços no desenvolvimento de métricas para avaliação de qualidade de vídeo baseadas em redes neurais e em algoritmos de aprendizado. Babu et al. [6] apresentam uma métrica para avaliar a qualidade de imagens comprimidas em JPEG (Joint Photographic Experts Group) por meio de um algoritmo de aprendizado de crescimento e propõem o uso de uma rede neural GAP-RBF (Growing and Pruning Radial Basis Function) que usa características relacionadas ao SVH. Jiang et al. [7] desenvolveram uma métrica NR para avaliação de qualidade de vídeo em HD (High De�nition) baseada em uma rede neural treinada pelo algoritmo BP (Back-Propagation) que usa seis características espaço-temporais e a RoI (Region of Interest). Choe et al. [8] desenvolveram uma métrica NR baseada no �uxo de bits para avaliação de qualidade de vídeo codi�cado em H.264. Esta métrica extrai características quadro a quadro e usa uma rede neural alimentada adiante (feedforward) com três camadas. Suresh et al. [9] apresentaram uma extensão do algoritmo ELM na tarefa de avaliar a qualidade de imagens comprimidas em JPEG com base no esquema de seleção múltipla KS-ELM (K-fold selection Scheme using ELM) e no algoritmo RCGA-ELM (Real-Coded Genetic Algorithm using ELM) para seleção dos pesos de entrada e polarizações.Este trabalho apresenta uma versão estendida do algoritmo ELM para redes neurais SLFN (Single-hidden-Layer Feedforward Neural Networks) que implementa um simples critério de parada na fase de treinamento. Além disso, esse método usa seis características espaço-temporais de vídeos submetidos a diversas condições de distorção.Este artigo está dividido da seguinte maneira: a Seção 2 descreve as métricas para avaliação de qualidade de vídeo. A Seção 3 descreve o método NR proposto para avalição de qualidade de vídeo digital. A Seção 4 apresenta os resultados experimentais, em que são comparados o método NR proposto e duas métricas FR. Finalmente, a Seção 5 apresenta a conclusão do artigo.2. AVALIAÇÃO DE QUALIDADE DE VÍDEOO processo de avaliação de qualidade de vídeopode ser realizado com a aplicação de métricassubjetivas ou objetivas. As métricas subjetivasestimam a qualidade do vídeo por meio de avaliadoreshumanos. Logo, exigem um alto custo, poisnecessitam de uma grande quantidade de recursoshumanos e apresentam problemas quanto aosrequisitos de imparcialidade e reprodutibilidade,tornando-se inapropriadas em sistemas deradiodifusão ou em provedores de conteúdo [10], [11].Por outro lado, as métricas objetivas são baseadas emmodelos matemáticos, cujo objetivo é produzir umescore de qualidade que emule a percepção do SVH.Além disso, as métricas objetivas requerem baixocusto de implementação (quando comparadas com asmétricas subjetivas) e não apresentam problemasquanto à reprodutibilidade e imparcialidade.As métricas objetivas para avaliação de qualidadede vídeo podem ser classi�cadas em três categorias:(i) métricas de referência completa (Full-Reference –FR); (ii) métricas de referência reduzida (Reduced-Reference – RR); (iii) métricas sem referência (NR).2.1. Métricas FRAs métricas FR requerem o vídeo de referência(fonte) no cálculo do escore de qualidade. Estasmétricas são amplamente utilizadas no processo devalidação de métricas RR ou NR, por meio dacomparação de desempenho de�nida pelasrecomendações do Grupo de Especialistas emQualidade de Vídeo (VQEG – Video Quality ExpertsGroup) que é um órgão de padronização internacionalde métricas subjetivas e objetivas de qualidade devídeo. Dentre as métricas FR, destacam-se o PSNR(Peak Signal-to-Noise Ratio), SSIM (StructuralSIMilarity index) [12] e MS-SSIM (Multi-ScaleStructural SIMilarity index) [13].O PSNR é uma métrica FR baseada no erro pixel apixel de fácil implementação. Entretanto, apresentabaixa correlação com o SVH [14]. A sua medida éprocessada sobre o erro quadro a quadro, i.e., entre oquadro original x e o quadro y . A expressão a seguirde�ne o PSNR para um conjunto de quadros F .2011PSNR 20log ,Fff fvF � MSE� �� � �� �� ��(1)com� � � �20 01MSE , , , , ,N Mfi jx f i j y f i jNM � �� ���� � ��(2)em que o termo f v é igual a (2 1) k � , cujo k é onúmero de bits por pixel, i.e., é a componente deluminância do quadro f . Os termos x �f ,i, j � ey �f ,i, j � são os valores de luminância do quadro deorigem e degradado, respectivamente. Ascomponentes bidimensionais são representadas pelonúmero de colunas N e pelo número de linhas M . Otermo f MSE é de�nido como erro quadrático médioou MSE (Mean Square Error).A métrica SSIM baseia-se no fato de que o SVH éfortemente adaptado para extrair informações dascaracterísticas estruturais de um quadro ou imagem.Logo, uma medida de similaridade estrutural (oudistorção) pode prover boa aproximação para aqualidade perceptual de um vídeo [3, 7–9]. Sejam x ey dois sinais não-negativos, em que y é o sinaldegradado e x é o sinal original (sem perda dequalidade), a medida de similaridade é utilizada comoum índice quantitativo de qualidade do sinal distorcido,ou seja, x é tomado como a referência para medir aqualidade de y . A métrica SSIM possui diversasextensões, dentre as quais a versão MS-SSIM,proposta por Wang et al. [13] que assume umaabordagem multiescalar.2.2. Métricas RRAs métricas de referência reduzida retiram certaquantidade de características do vídeo original (fonte),baseadas em componentes espaciais, temporais, nodomínio da frequência ou no �uxo de bits (bitstream).Este tipo de métrica é amplamente utilizada nomonitoramento de transmissões em rede [17]. Nestetipo de cenário de aplicação, o vídeo é transmitidocom uma sequência de informação codi�cada(overhead) e no lado receptor ocorre a suadecodi�cação, seguido pelo cálculo do índice dequalidade, o qual é obtido por meio da comparaçãoentre a representação reduzida da informação nospares emissor e receptor [18]. Tipicamente, métricasRR são implementadas por meio de funções, divididasem duas etapas [19]: (i) cálculo do erro entre osvídeos original e distorcido, constituído pela diferençade suas características, a �m de compor arepresentação reduzida da informação; (ii) função queagrupa os erros ou diferenças para obter um índice dequalidade global. Algumas métricas RR explorampropriedades dos artefatos, por meio da extração decaracterísticas e um modelo de parametrização [20]com foco em tipos especí�cos de distorções(artefatos). Esta abordagem é encontrada em Silva etal. [17], cujo cálculo do escore de qualidade ébaseado na diferença de atividade dos coe�cientesDCT (Discrete Cosine Transform) em um macro blococom resolução de 16�16 pixels.2.3. Métricas NRAs métricas NR extraem característicasrelacionadas ao SVH do vídeo distorcido, i.e., narecepção do sinal de vídeo [14]. Tipicamente, há duasabordagens no desenvolvimento destas métricas: (i)extração dos parâmetros sobre o �uxo de bits, taiscomo a taxa de compressão, informaçõesrelacionadas ao GoP (Group of Pictures), estimaçãode movimento, per�l e nível de codi�cação, bem comoo parâmetro de quantização ou QP (QuantizationParameter) [21–25]. Métricas NR apresentam maiorcomplexidade quando são aplicadas em vídeo, devidoà variação temporal dos quadros, conteúdos dascenas e à di�culdade de compreensão dascaracterísticas do SVH [26]. Assim, algumas métricasdessa categoria exploram características espaciais etemporais na estimação de qualidade de vídeo [21].3. MÉTODO PROPOSTOO método proposto, denominado NRVQA-ELMtc(No-Reference Video Quality Assessment usingExtreme Learning Machine algorithm with terminationcriteria) [27] combina características espaciais etemporais, por meio de uma rede neural arti�cialSLFNs usando o algoritmo de treinamento ELM [28]com a implementação de um simples critério deparada.3.1. Características espaço-temporaisAs características espaciais incorporadas nométodo proposto são baseadas em medidas deartefatos em vídeo digital, i.e., distorções de blocageme borramento desenvolvidas por Wang et al. [20].Assim, a componente de luminância do quadro f érepresentada por y(f , i, j ) com i � ��1,M�� e j � ��1, N�� ,em que M e N são os números de linhas e colunas,respectivamente, de um quadro. Logo, as diferençasde luminância ao longo das linhas e colunas sãorepresentadas, respectivamente, pelas expressões aseguir.� � � � � � � �� � � � � � � �, , , , 1 , , , 1, 1 ,, , , 1, , , , 1, 1 .hvd f i j y f i j y f i j j Nd f i j y f i j y f i j i M� � � � �� � � � �(3)O efeito de blocagem pode ser estimado pelamédia das diferenças entre as bordas dos blocos daDCT (Discrete Cosine Transform) nas direçõeshorizontal e vertical para uma sequência F dequadros, conforme mostra a Equação (4), com ummacrobloco de dimensão � �� , cujo tamanho típico éde � � 8 [20].� � ��� � � �111 1 1111 1 11, , 1 ,111, 1 , .11NF Mh hf i jMF Nvi jvfB d f i jNF MB d f i jMF N��������� � ���� � �� �� �� � � �� � �� �� �� � � �� � �� � �� � �(4)A medida de blocagem em uma sequência devídeo com F quadros é determinada pela média entreh B e v B , caracterizando a medida B , conforme aexpressão a seguir..2h v B BB�� (5)Os efeitos de borramento são estimados pelocálculo da redução de atividade entre os blocos � �� ,em que é usada a medida de blocagem nas direçõeshorizontal e vertical, conforme as expressões� � � �� �� � � �� �11 1 111 1 1, , ,1 1, ,1.1F M Nh h hf i jF M Nv vfvi jA d f i j BF M NA d f i j BF N M������ � ��� � �� �� � �� �� � �� � �� � �(6)A medida de borramento, representada por A ,conforme a Equação (7), é determinada pela médiaentre h A e v A ..2h v A AA�� (7)O segundo fator que contribui para a detecção doartefato de borramento é baseado na taxa decruzamento por zero (Zero Crossing – ZC) nasdireções horizontal e vertical, conforme as expressõesa seguir.� �� �� �� �21 1 121 1 11, , ,21, , ,2F M Nh hf i jF M Nv vf i jZ z f i jF M NZ z f i jF N M�� � ��� � ��� ��� �� � �� � �(8)em que os termos h z e v z são determinados por� �� �1, na direção horizontal, , ,0, caso contrário1, na direção vertical, , .0, caso contráriohvz f i jz f i j�� �� �� ��(9)Assim, a medida de borramento Z é determinadapela média entre as componentes h Z e v Z ..2h v Z ZZ�� (10)O método proposto também incorpora trêscaracterísticas temporais no treinamento da redeneural SLFN com o algoritmo ELM.A primeira característica temporal é a diferença demovimento entre quadros adjacentes, representadapela variável TI (Temporal perceptual Information) [31]que considera os valores de luminância de pixelslocalizados em uma mesma região de um quadro,conforme a expressão a seguir.� �21, , ,1FfTI m f i jF��� �� �� �� (11)em que o número total de quadros é F e � �m�f ,i, j ��� �é o desvio padrão da diferença de movimento(diferença de luminância) entre o quadro atualy �f ,i, j � e o quadro anterior y �f �1,i, j � .A segunda característica temporal é a média dadiferença absoluta (Mean Absolute Di�erence – MAD)[31] entre quadros sucessivos, representada pelaEquação (12) que de�ne a medida global da MADpara todos os quadros de um vídeo.� �� � � �2 1 11, , 1, , .1F M Nf i jMAD y f i j y f i jM N F � � �� � �� �� � �(12)A terceira característica temporal é a média dadiferença absoluta ponderada (weighted MeanAbsolute Di�erence – MADw) [32], a qual mede o graude variação das cenas de um vídeo que considera acena atual de um quadro f e do quadro anterior f �1,conforme a expressão:2 11.1Fff fMADMADwF � MAD �� �� � �� � ��(13)Assim, o método proposto combina ascaracterísticas espaciais e temporais em uma matriz� , , , , , � f f f f f f f x � A B Z TI MAD MADw , em que f é onúmero de amostras de vídeo. A Figura 1 apresentaas características temporais � espaciais de dezessetebases de dados de vídeos (denominada superconjuntoS) usadas neste trabalho e reportadas em [27]. Arecomendação ITU-T P.910 [31] de�ne a medida SI(Spatial perceptual Information) como informaçãoespacial perceptual. A inspeção visual dessa �guramostra que as amostras de vídeo usadas nestetrabalho apresentam uma grande variação espaçotemporal.Fig. 1. Características espaciais e temporais do superconjuntoS com 216 amostras de referência3.2. Métrica NRVQA-ELMtcO algoritmo ELM [28] desenvolvido para otreinamento de uma rede SLFN atribui pesos epolarizações (biases) de maneira aleatória, segundouma distribuição uniforme. O treinamento compreendeN amostras distintas representadas pela variável�� , � , , 1, , � n mf f f f � � x t x � t � f � N , cujo cálculo éconforme a expressão� � � �1, 1, , ,KK i j j f j fff � g b f N�x � � w x � � o � (14)em que f o é a saída (escore objetivo), g(x) é afunção de ativação e j � é o peso que conecta o jésimoneurônio da camada oculta ao neurônio desaída. De acordo com [28], uma rede SLFN com Knós na camada oculta e uma função de ativação g(x)pode apresentar um erro médio próximo de zero, i.e.,10Kf ff �� o � t � . Logo, há parâmetros j � , j w e j b talque� �1, 1, , ,Kj j f j ff� g b f N�� w x � � t � (15)em que f t é o vetor alvo (escores subjetivos),T1, , j j jn � �w w � � � w é o vetor de peso que conecta o jésimoneurônio da camada oculta ao neurônio dacamada de entrada, j b denota a polarização (bias) doj-ésimo neurônio da camada oculta, � � j f w x é oproduto interno de j w e f x . A Figura 2 ilustra oalgoritmo ELM empregado em uma arquitetura derede neural SLFN.xi1βjN1jKtibjN input neuron K hidden neuron output neuronβ1βKwjFig. 2. Arquitetura de uma rede neural SLFN usando algoritmode treinamento ELMO sistema linear da Equação (16) resume o métododo algoritmo ELM.Hβ � T, (16)em que a matriz da camada oculta é representada por� � � 1, , and 1, , � � H � h f � N j � K com a primeiralinha da matriz de características f x igual aT1 2 , , , f f f fn x � ��x x x �� , i.e., a primeira linha é igual a� � 1 1 1 1 1 1 1 , , , , , f f f f f f f x � A B Z TI MAD MADw . A matriz desaída e o vetor alvo (target) são de�nidos comoT1 , K β � ��β β �� eT1, , N T � ��t t �� , respectivamente. Otermo � �T1 , 1, , j jm j � � � j � K � � β β β denota o vetor depeso que conecta o j-ésimo neurônio da camadaoculta e os neurônios de saída. Hung et al. [28]propuseram a atribuição aleatória de pesos aosparâmetros j w e j b , a �m de seja obtido um pequenoerro não-nulo durante o treinamento. Considerando osistema linear da Equação (17), os pesos da camadade saída podem ser aproximados por† β � H T (17)em que † H é de�nida como matriz inversageneralizada de Moore-Penrose (MP) [33] da matrizde saída da camada oculta �H� . Além disso, oconjunto de treinamento � , nó oculta K e umafunção de ativação g �x � , e.g., função de base radial(Radial Basis Function – RBF), hard-limiting (hardlim),sigmoidal (sig) e seno (sin). Em resumo, o algoritmoELM compreende três etapas [28]:i) Atribuição aleatória dos pesos de entrada j w epolarizações j b ;ii) Cálculo da matriz da camada de saída H ;iii) Cálculo dos pesos de saída † β: β� H T .O método NRVQA-ELMtc [27] implementa umsimples critério de parada no treinamento da redeneural SLFN, quanto à atribuição aleatória dos pesosj w e j b . Embora este critério não seja direcionado,busca os pesos relacionados com o menor RMSE(Root-Mean-Square Error) entre a saída desejada(escore subjetivo) e o escore objetivo na fase detreinamento com k iterações (tipicamente, k � 100 ) eN neurônios na camada oculta. Além disso, conformeestudo realizado em [27], caso o RMSE seja menor doque 0,5 o algoritmo cessa a busca pelos parâmetrosj w e j b .4. RESULTADOS EXPERIMENTAISEsta seção apresenta os resultados de acurácia,i.e., os coe�cientes de correlação linear de Pearson(Pearson Linear Correlation Coe�cient – PLCC) [34],[35], entre os escores objetivos e subjetivos de 2627amostras de vídeo estudadas em [27].A Figura 3 compara a acurácia (PLCC) entre asmétricas de referência completa (FR) PSNR e MSSSIMcom o método proposto (NRVQA-ELMtc) paraas 2627 amostras de vídeo, pertencentes a 17 basesde dados de vídeo disponibilizadas por diversasinstituições e laboratórios [27]. A função de ativaçãousada na rede neural SLFN foi o seno (sin) com onúmero de amostras de teste igual ao número deneurônios na camada oculta ( N ). O método devalidação cruzada múltipla (K-fold) foi usado com oobjetivo de gerar uma distribuição de acurácia, a qualfoi analisada por meio do diagrama de caixa (box-plot)[36], em que o traço, o círculo e o quadrado, ambosem vermelho, representam a mediana, a média e odesvio padrão, respectivamente. Destaca-se queneste trabalho foi empregada uma validação cruzadacom um grande número de amostras de treinamentotestecom K � 100 , i.e., cada caixa do box-plotcomporta 100 experimentos distintos. Tipicamente, aliteratura apresenta trabalhos no campo da avaliaçãoFig. 3. Box-plot da predição da acurácia (PLCC) entre as métricas PSNR, MS-SSIM e o método proposto NRVQA-ELMtcde qualidade de vídeo com K entre 5 e 10 [37], [38].Pela inspeção visual da Figura 3 observa-se que odesempenho do método proposto é superior àsmétricas FR, em quaisquer condições de teste, i.e.,para qualquer quantidade de amostras de teste(número de neurônios na camada oculta) entre 25 e500. Em especial, para N � 50 , o método propostoapresenta valores de PLCC, em termos da média emediana, acima de 0,8, denotando uma forteassociação entre os escores objetivos e subjetivos, natarefa de predição de qualidade de vídeo. Isto ocorredevido à grande quantidade de amostras de vídeousadas no treinamento, e.g., para N � 300 foramusadas 2327 amostras de treinamento, ou seja,mesmo usando pares de treinamento-teste disjuntos,o método proposto mostra uma acurácia superior àsmétricas de referência completa. A assimetria positiva,i.e., a maior concentração da acurácia entre osegundo quartil (mediana) e o terceiro quartil, nadistribuição do box-plot nos testes com 300 e 500neurônios na camada oculta, indica que o métodoproposto apresenta um desempenho expressivo emcomparação com as métricas FR.Entretanto, mesmo para N entre 25 e 50, ométodo proposto apresentou uma acurácia maior doque as métricas FR, cujo melhor resultado foi paraN � 25 com o desvio-quartil (amplitude interquartílica)con�nado entre 0,65 e 0,8. Além disso, este resultadotambém apresentou assimetria positiva com a médiado PLCC em torno de 0,75.5. CONCLUSÃOEste trabalho apresentou uma métrica NR baseadaem uma rede neural arti�cial SLFN, cujo treinamento édeterminado pelo algoritmo ELM, o qual consideracaracterísticas espaço-temporais e os escoressubjetivos (alvos) extraídos de 2627 amostrastreinamento. Além disso, este trabalho propõe umaextensão do algoritmo ELM por meio de um simplescritério de parada, a �m de que sejam obtidosparâmetros da rede neural arti�cial relacionados como menor RMSE. Tipicamente, a comparação entremétricas FR e NR é injusta, devido à ausência dovídeo de referência na obtenção do escore dequalidade em métricas NR. Entretanto, os resultadosexperimentais mostram que o método propostoapresentou desempenho superior às métricas dereferência completa PSNR e MS-SSIM, sobretudo,quando o número de amostras de teste e de neurôniosna camada oculta da rede SLFN é maior do que 250.Logo, a métrica NRVQA-ELMtc pode ser empregadano monitoramento de qualidade em sistemas detransmissão e recepção de vídeo digital, tais comoIPTV (Internet Protocol Television), TV digital ou emdispositivos móveis, tais como ultrabooks,smartphones, tablets e em aparelhos WiDi (WirelessDisplay).REFERÊNCIAS[1] S. Winkler, “Issues in vision modeling for perceptualvideo quality assessment,” Signal Processing, vol. 78,no. 2, pp. 231–252, 1999.[2] Z. Wang and A. C. Bovik, Modern image qualityassessment. San Rafael, CA: Morgan & Claypool,2006.[3] W. Lin and C.-C. Jay Kuo, “Perceptual visual qualitymetrics: A survey,” Journal of Visual Communicationand Image Representation, vol. 22, no. 4, pp. 297–312,May 2011.[4] S. S. Hemami and A. R. Reibman, “No-reference imageand video quality estimation: Applications and humanmotivateddesign,” Signal Processing: ImageCommunication, vol. 25, no. 7, pp. 469–481, 2010.[5] Z. Wang and A. Bovik, “Reduced- and No-ReferenceImage Quality Assessment,” IEEE Signal ProcessingMagazine, vol. 28, no. 6, pp. 29–40, Nov. 2011.[6] R. V. Babu, S. Suresh, and A. Perkis, “No-referenceJPEG-image quality assessment using GAP-RBF,”Signal Processing, vol. 87, no. 6, pp. 1493–1503, 2007.[7] X. Jiang, F. Meng, J. Xu, and W. Zhou, “No-ReferencePerceptual Video Quality Measurement for HighDe�nition Videos Based on an Arti�cial NeuralNetwork,” in Computer and Electrical Engineering,2008. ICCEE 2008. International Conference on, 2008,pp. 424–427.[8] J. Choe, K. Lee, C. Lee, and S. Korea, “No-referencevideo quality measurement using neural networks,” in2009 16th International Conference on Digital SignalProcessing, 2009, pp. 1–4.[9] S. Suresh, R. Venkatesh Babu, and H. J. Kim, “Noreferenceimage quality assessment using modi�edextreme learning machine classi�er,” Applied SoftComputing, vol. 9, no. 2, pp. 541–552, Mar. 2009.[10] A. M. Eskicioglu and P. S. Fisher, “Image qualitymeasures and their performance,” IEEE Transactionson Communications, vol. 43, no. 12, pp. 2959–2965,1995.[11] U. Engelke and H.-J. Zepernick, “Perceptual-basedQuality Metrics for Image and Video Services: ASurvey,” in Proceedings EuroNGI Conf. NextGeneration Internet Networks, 2007, pp. 190–197.[12] Z. Wang, A. C. Bovik, H. R. Sheikh, and E. PSimoncelli, “Image quality assessment: from errorvisibility to structural similarity.,” IEEE Transactions onImage Processing, vol. 13, no. 4, pp. 600–612, 2004.[13] Z. Wang, E. P. Simoncelli, and A. C. Bovik, “Multiscalestructural similarity for image quality assessment,” inThe Thrity-Seventh Asilomar Conference on Signals,Systems & Computers, 2003, 2003, vol. 2, no. 1, pp.1398–1402.[14] H. R. Wu, K. R. Rao, and A. A. Kassim, “Digital VideoImage Quality and Perceptual Coding,” Journal ofElectronic Imaging, vol. 16, no. 3, 2007.[15] Z. Wang and A. C. Bovik, “A universal image qualityindex,” IEEE Signal Processing Letters, vol. 9, no. 3,pp. 81–84, Mar. 2002.[16] Y. Shi, Y. Ding, R. Zhang, and J. Li, “Structure and HueSimilarity for Color Image Quality Assessment,” in 2009International Conference on Electronic ComputerTechnology, 2009, pp. 329–333.[17] W. B. Silva, A. A. P. Pohl, and K. V. O. Fonseca, “AReduced-Reference Video Quality Assessment Methodbased on the Activity-Di�erence of DCT Coe�cients,”IEICE Transactions on Information and Systems, vol. E96-D, no. 3, 2013.[18] P. Le Callet, C. Viard-Gaudin, and D. Barba, “A Convolutional Neural Network Approach for Objective Video Quality Assessment,” IEEE Transactions on Neural Networks, vol. 17, no. 5, pp. 1316–1327, 2006.[19] P. Le Callet and D. Barba, “Image Quality Assessment: From Sites Errors to a Global Appreciation of Quality,” in Proceedings of the Picture Coding Sympsium, 2001, pp. 105–108.[20] M. Miyahara, K. Kotani, and V. R. Algazi, “Objective picture quality scale (PQS) for image coding,” IEEE Transactions on Communications, vol. 46, no. 9, pp. 1215–1226, 1998.[21] M. Slanina, V. Ricny, and R. Forchheimer, “A Novel Metric for H.264/AVC No-Reference Quality Assessment,” in 14th International Workshop on Systems, Signals and Image Processing and 6th EURASIP Conference focused on Speech and Image Processing, Multimedia Communications and Services, 2007, pp. 114–117.[22] O. Sugimoto, S. Naito, S. Sakazawa, and A. Koike, “Objective perceptual video quality measurement method based on hybrid no reference framework,” in 16th IEEE International Conference on Image Processing (ICIP’09), 2009, pp. 2237–2240.[23] T. Oelbaum, C. Keimel, and K. Diepold, “Rule-Based No-Reference Video Quality Evaluation Using Additionally Coded Videos,” IEEE Journal of Selected Topics in Signal Processing, vol. 3, no. 2, pp. 294–303, 2009.[24] N. Staelens, N. Vercammen, Y. Dhondt, B. Vermeulen, P. Lambert, R. de Walle, and P. Demeester, “ViQID: A No-Reference bit stream-based visual quality impairment detector,” in Proceedings of the Second Int Quality of Multimedia Experience (QoMEX) Workshop, 2010, pp. 206–211.[25] F. Yang, S. Wan, Q. Xie, and H. R. Wu, “No-Reference Quality Assessment for Networked Video via Primary Analysis of Bit Stream,” IEEE Transactions on Circuits and Systems for Video Technology, vol. 20, no. 11, pp. 1544–1554, Nov. 2010.[26] Z. Wang, H. R. Sheikh, and A. C. Bovik, “Objective Video Quality Assessment,” in The Handbook of Video Databases: Design and Applications, B. Furht and O. Marques, Eds. Boca Raton, FL, USA: CRC Press, 2003, pp. 1041–1078.[27] W. B. da Silva and A. de A. P. Pohl, “Métodos Sem Referência Baseados em Características Espaço-Temporais para Avaliação Objetiva de Qualidade de Vídeo Digital,” Universidade Tecnológica Federal do Paraná (UTFPR), 2013.[28] G.-B. Huang, Q.-Y. Zhu, and C.-K. Siew, “Extreme learning machine: Theory and applications,” Neurocomputing, vol. 70, no. 1–3, pp. 489–501, Dec. 2006.[29] Z. Wang, H. R. Sheikh, and A. C. Bovik, “No-reference perceptual quality assessment of JPEG compressed images,” in Image Processing. 2002. Proceedings. IEEE International Conference on Image Processing, 2002, vol. 1, pp. vol.1 I–477 – I–480.[30] W. B. Silva and A. A. P. Pohl, “No-Reference Video Quality Assessment Method based on the Levenberg-Marquardt Minimization,” in XXX Brazilian Symposium on Telecommunications (SBrT’12), 2012.[31] ITU-T P.910, “Subjective video quality assessment methods for multimedia applications,” Standardization Sector of ITU, 1999.[32] W. Ding, Y. Tong, Q. Zhang, and D. Yang, “Image and Video Quality Assessment Using Neural Network and SVM,” Tsinghua Science &amp; Technology, vol. 13, no. 1, pp. 112–116, 2008.[33] K. S. Banerjee, C. R. Rao, and S. K. Mitra, “Generalized Inverse of Matrices and Its Applications,” Technometrics, vol. 15, no. 1, p. 197, Feb. 1973.[34] VQEG, “Final report from the video quality experts group on the validation of reduced-reference and no-reference objective models for standard de�nition television, Phase I,” 2009.[35] VQEG, “Report on the validation of video quality models for high de�nition video content,” 2010.[36] J. W. Tukey, Exploratory Data Analysis. New York: Addison-Wesley Publishing Company, 1977.[37] P. Gastaldo and R. Zunino, “Neural networks for the no-reference assessment of perceived quality,” J. Electronic Imaging, vol. 14, no. 3, p. 033004, 2005.[38] R. Herzog, M. Čadík, T. O. Aydın, K. I. Kim, K. Myszkowski, and H.-P. Seidel, “NoRM: No-Reference Image Quality Metric for Realistic Image Synthesis,” Comp. Graph. Forum, vol. 31, no. 2pt4, pp. 545–554, 2012.

Revista de Radiodifusão • v. 08 • n. 09 • 201440 39

Lucas Valmir Pellegrini , Marcel Kusunoki, Jose Frederico Rehme

Figura 2 - Diagrama em blocos dos ensaios TVD X LTE.

Utilizou-se a função sweep gerada pelo Network Analyzer Agilent com largura de 50 MHz, na faixa de frequência de 700 a 750 MHz. A varredura é gerada com 1600 pontos e potência de saída de 0 dBm. Somando-se as perdas nos cabos, conectores e divisões, entrega-se ao ETL e TV Samsung o nível de entrada interferente de -11 dBm.

É importante observar que esse ensaio é bastante conservador, e possivelmente os fenômenos serão, na prática, mais acentuados do que os aqui descritos. Entende-se assim, pelo fato de se gerar a cada instante uma única frequência, que corre por toda banda acima descrita, mas não gera uma ocupação espectral instantânea larga, e que deve resultar em uma quantidade e intensidade de produtos de intermodulação significativamente maiores, resultando também em redução de desempenho dos televisores. Segue na figura 3 a ilustração do aqui exposto, onde a curva azul é a resposta acumulada do analisador de espectro (max hold), enquanto que em amarelo é a resposta instantânea do espectro.

Figura 3 - Sweep de 50 MHz na frequência de 700 a 750 MHz.

O televisor utilizado apresenta a informação de intensidade de sinal em seu menu em formato de gráfico de barras. Esta funcionalidade é demonstrada na figura 4.

Figura 4 - Intensidade do Sinal na TV Samsung 32".

3.1 Teste 01

No primeiro teste foi fixado o nível de canal de TV na saída do divisor 1:2 em -74 dBm, simulando uma recepção de pequena intensidade com uma antena interna. O nível de sinal interferente “LTE 700 MHz”, começando em -11 dBm, é atenuado para se encontrar, para cada canal tabelado abaixo, o valor limiar interferente que ainda mantem o funcionamento adequado do televisor. A tabela 1 descreve os resultados obtidos. As colunas 4 e 6 (Nível sinal interferente e MER) referem-se a medidas efetuadas no analisador de espectro, e assume-se que o receptor de televisão observa o sinal com essas mesmas características.

Tabela 1 - Fixando canal de TVD em -74 dBm e descobrindo limiar de nível LTE que interfere na TV.

Canal

TVD Frequência

Nível

Canal

TVD

Nível “LTE

700 MHz”

quando TV

blocou

Nível

Televisão MER

14 473,142857 MHz -74 dBm -20 dBm 1 barra 19 dB

20 509,142857 MHz -74 dBm -20 dBm 1 barra 19 dB

30 569,142857 MHz -74 dBm -18 dBm 1 barra 19 dB

40 629,142857 MHz -74 dBm -25 dBm 1 barra 21 dB

48 677,142857 MHz -74 dBm -24 dBm 1 barra 20 dB

49 683,142857 MHz -74 dBm -26 dBm 1 barra 20 dB

50 689,142857 MHz -74 dBm -30 dBm 1 barra 21 dB

51 695,142857 MHz -74 dBm -34 dBm 1 barra 22 dB

3.2 Teste 02

A tabela 2 mostra situação semelhante, porém considerando uma recepção de TV melhor, ou seja, o nível recebido é mais intenso, estipulado em -55 dBm. A coluna 4 mostra a MER observada pelo instrumento de análise sem a presença do ruído, enquanto que a coluna 5 apresenta o resultado com o interferente sendo somado ao sinal de TV gerado no excitador. De forma semelhante, as colunas 6 e 7 apresentam o

EXC R&SSX801

BTSRPC TV

ANTENAGPS

ATENUADORAJUSTÁVEL

SWEEP“LTE”

ATENUADORAJUSTÁVEL

ETL R&STV ANALYZER

1:2

TV SAMSUNG 32"

Page 41: Revista de RADIODIFUSÃO - SET PORTAL · Sinais de TV Digital ISDB-Tb via VHF e UHF na Cidade do Gama – DF – Brasil Akamine, Cristiano Bedicks Jr, Gunnar ... cujas frequências

MÉTRICA SEM REFERÊNCIA BASEADA EM REDES NEURAISPARA AVALIAÇÃO OBJETIVA DE QUALIDADE DE VÍDEO DIGITALWyllian Bezerra da Silva, Alexandre de Almeida Prado PohlPrograma de Pós-Graduação em Engenharia Elétrica e Informática Industrial (CPGEI) – UTFPR, Curitiba, [email protected], [email protected]: Este trabalho apresenta uma métrica sem referência para avaliação de qualidade de vídeo digital baseada em uma rede neural arti�cial que usa uma versão estendida do algoritmo de aprendizado ELM (Extreme Learning Machine). O método proposto realiza o treinamento da rede neural a partir de seis características espaço-temporais. Os resultados experimentais mostram que o método proposto apresenta desempenho superior às métricas de referência completa PSNR e MS-SSIM na tarefa de predição de qualidade de vídeo. Logo, o método proposto pode ser usado no monitoramento de qualidade em sistemas de transmissão e recepção de vídeo digital, tais como IPTV e TV digital.Palavras chave: algoritmo ELM, avaliação objetiva de vídeo, métrica sem referência, rede neural arti�cial.1. INTRODUÇÃODurante os últimos anos, a literatura tem apresentado um número crescente publicações acerca de métricas objetivas para avaliação de qualidade de vídeo para diversas aplicações em radiodifusão ou no processamento de vídeo digital, seja na aquisição do sinal, codi�cação e decodi�cação, compressão, transmissão, restauração, armazenamento, segmentação e exibição de sinais de vídeo digital [1–4]. A avaliação de qualidade de vídeo digital pode ser realizada por meio de métricas subjetiva e objetiva. A primeira requer uma grande quantidade de recursos humanos e apresenta elevado custo em sua implementação [1–3]. Porém, as métricas objetivas são vantajosas quando apresentam um determinado grau de correlação com as métricas subjetivas. Logo, o desenvolvimento destas é um desa�o no campo de avaliação de qualidade de vídeo e imagem. Além disso, as métricas objetivas, devido à natureza de seu critério objetivo, independem de interação humana e são facilmente reprodutíveis [3]. Dentre as métricas objetivas destacam-se as métricas sem referência (No-Reference – NR), pois não necessitam do vídeo de referência no cálculo de sua medida. Entretanto, estas requerem um conhecimento a priori sobre as distorções em vídeo digital para que seja estabelecida uma correlação com os resultados subjetivos [3].A maioria das métricas NR encontradas na literatura são baseadas na avaliação de qualidade de imagens e em características relacionadas ao Sistema Visual Humano (SVH). Assim, o desenvolvimento de métricas NR é difícil, devido à necessidade de emular a percepção do SVH que envolve aspectos cognitivos, emocionais e estéticos relacionados ao conteúdo do vídeo e que são altamente dependentes do observador [4], [5].A literatura reporta diversos esforços no desenvolvimento de métricas para avaliação de qualidade de vídeo baseadas em redes neurais e em algoritmos de aprendizado. Babu et al. [6] apresentam uma métrica para avaliar a qualidade de imagens comprimidas em JPEG (Joint Photographic Experts Group) por meio de um algoritmo de aprendizado de crescimento e propõem o uso de uma rede neural GAP-RBF (Growing and Pruning Radial Basis Function) que usa características relacionadas ao SVH. Jiang et al. [7] desenvolveram uma métrica NR para avaliação de qualidade de vídeo em HD (High De�nition) baseada em uma rede neural treinada pelo algoritmo BP (Back-Propagation) que usa seis características espaço-temporais e a RoI (Region of Interest). Choe et al. [8] desenvolveram uma métrica NR baseada no �uxo de bits para avaliação de qualidade de vídeo codi�cado em H.264. Esta métrica extrai características quadro a quadro e usa uma rede neural alimentada adiante (feedforward) com três camadas. Suresh et al. [9] apresentaram uma extensão do algoritmo ELM na tarefa de avaliar a qualidade de imagens comprimidas em JPEG com base no esquema de seleção múltipla KS-ELM (K-fold selection Scheme using ELM) e no algoritmo RCGA-ELM (Real-Coded Genetic Algorithm using ELM) para seleção dos pesos de entrada e polarizações.Este trabalho apresenta uma versão estendida do algoritmo ELM para redes neurais SLFN (Single-hidden-Layer Feedforward Neural Networks) que implementa um simples critério de parada na fase de treinamento. Além disso, esse método usa seis características espaço-temporais de vídeos submetidos a diversas condições de distorção.Este artigo está dividido da seguinte maneira: a Seção 2 descreve as métricas para avaliação de qualidade de vídeo. A Seção 3 descreve o método NR proposto para avalição de qualidade de vídeo digital. A Seção 4 apresenta os resultados experimentais, em que são comparados o método NR proposto e duas métricas FR. Finalmente, a Seção 5 apresenta a conclusão do artigo.2. AVALIAÇÃO DE QUALIDADE DE VÍDEOO processo de avaliação de qualidade de vídeopode ser realizado com a aplicação de métricassubjetivas ou objetivas. As métricas subjetivasestimam a qualidade do vídeo por meio de avaliadoreshumanos. Logo, exigem um alto custo, poisnecessitam de uma grande quantidade de recursoshumanos e apresentam problemas quanto aosrequisitos de imparcialidade e reprodutibilidade,tornando-se inapropriadas em sistemas deradiodifusão ou em provedores de conteúdo [10], [11].Por outro lado, as métricas objetivas são baseadas emmodelos matemáticos, cujo objetivo é produzir umescore de qualidade que emule a percepção do SVH.Além disso, as métricas objetivas requerem baixocusto de implementação (quando comparadas com asmétricas subjetivas) e não apresentam problemasquanto à reprodutibilidade e imparcialidade.As métricas objetivas para avaliação de qualidadede vídeo podem ser classi�cadas em três categorias:(i) métricas de referência completa (Full-Reference –FR); (ii) métricas de referência reduzida (Reduced-Reference – RR); (iii) métricas sem referência (NR).2.1. Métricas FRAs métricas FR requerem o vídeo de referência(fonte) no cálculo do escore de qualidade. Estasmétricas são amplamente utilizadas no processo devalidação de métricas RR ou NR, por meio dacomparação de desempenho de�nida pelasrecomendações do Grupo de Especialistas emQualidade de Vídeo (VQEG – Video Quality ExpertsGroup) que é um órgão de padronização internacionalde métricas subjetivas e objetivas de qualidade devídeo. Dentre as métricas FR, destacam-se o PSNR(Peak Signal-to-Noise Ratio), SSIM (StructuralSIMilarity index) [12] e MS-SSIM (Multi-ScaleStructural SIMilarity index) [13].O PSNR é uma métrica FR baseada no erro pixel apixel de fácil implementação. Entretanto, apresentabaixa correlação com o SVH [14]. A sua medida éprocessada sobre o erro quadro a quadro, i.e., entre oquadro original x e o quadro y . A expressão a seguirde�ne o PSNR para um conjunto de quadros F .2011PSNR 20log ,Fff fvF � MSE� �� � �� �� ��(1)com� � � �20 01MSE , , , , ,N Mfi jx f i j y f i jNM � �� ���� � ��(2)em que o termo f v é igual a (2 1) k � , cujo k é onúmero de bits por pixel, i.e., é a componente deluminância do quadro f . Os termos x �f ,i, j � ey �f ,i, j � são os valores de luminância do quadro deorigem e degradado, respectivamente. Ascomponentes bidimensionais são representadas pelonúmero de colunas N e pelo número de linhas M . Otermo f MSE é de�nido como erro quadrático médioou MSE (Mean Square Error).A métrica SSIM baseia-se no fato de que o SVH éfortemente adaptado para extrair informações dascaracterísticas estruturais de um quadro ou imagem.Logo, uma medida de similaridade estrutural (oudistorção) pode prover boa aproximação para aqualidade perceptual de um vídeo [3, 7–9]. Sejam x ey dois sinais não-negativos, em que y é o sinaldegradado e x é o sinal original (sem perda dequalidade), a medida de similaridade é utilizada comoum índice quantitativo de qualidade do sinal distorcido,ou seja, x é tomado como a referência para medir aqualidade de y . A métrica SSIM possui diversasextensões, dentre as quais a versão MS-SSIM,proposta por Wang et al. [13] que assume umaabordagem multiescalar.2.2. Métricas RRAs métricas de referência reduzida retiram certaquantidade de características do vídeo original (fonte),baseadas em componentes espaciais, temporais, nodomínio da frequência ou no �uxo de bits (bitstream).Este tipo de métrica é amplamente utilizada nomonitoramento de transmissões em rede [17]. Nestetipo de cenário de aplicação, o vídeo é transmitidocom uma sequência de informação codi�cada(overhead) e no lado receptor ocorre a suadecodi�cação, seguido pelo cálculo do índice dequalidade, o qual é obtido por meio da comparaçãoentre a representação reduzida da informação nospares emissor e receptor [18]. Tipicamente, métricasRR são implementadas por meio de funções, divididasem duas etapas [19]: (i) cálculo do erro entre osvídeos original e distorcido, constituído pela diferençade suas características, a �m de compor arepresentação reduzida da informação; (ii) função queagrupa os erros ou diferenças para obter um índice dequalidade global. Algumas métricas RR explorampropriedades dos artefatos, por meio da extração decaracterísticas e um modelo de parametrização [20]com foco em tipos especí�cos de distorções(artefatos). Esta abordagem é encontrada em Silva etal. [17], cujo cálculo do escore de qualidade ébaseado na diferença de atividade dos coe�cientesDCT (Discrete Cosine Transform) em um macro blococom resolução de 16�16 pixels.2.3. Métricas NRAs métricas NR extraem característicasrelacionadas ao SVH do vídeo distorcido, i.e., narecepção do sinal de vídeo [14]. Tipicamente, há duasabordagens no desenvolvimento destas métricas: (i)extração dos parâmetros sobre o �uxo de bits, taiscomo a taxa de compressão, informaçõesrelacionadas ao GoP (Group of Pictures), estimaçãode movimento, per�l e nível de codi�cação, bem comoo parâmetro de quantização ou QP (QuantizationParameter) [21–25]. Métricas NR apresentam maiorcomplexidade quando são aplicadas em vídeo, devidoà variação temporal dos quadros, conteúdos dascenas e à di�culdade de compreensão dascaracterísticas do SVH [26]. Assim, algumas métricasdessa categoria exploram características espaciais etemporais na estimação de qualidade de vídeo [21].3. MÉTODO PROPOSTOO método proposto, denominado NRVQA-ELMtc(No-Reference Video Quality Assessment usingExtreme Learning Machine algorithm with terminationcriteria) [27] combina características espaciais etemporais, por meio de uma rede neural arti�cialSLFNs usando o algoritmo de treinamento ELM [28]com a implementação de um simples critério deparada.3.1. Características espaço-temporaisAs características espaciais incorporadas nométodo proposto são baseadas em medidas deartefatos em vídeo digital, i.e., distorções de blocageme borramento desenvolvidas por Wang et al. [20].Assim, a componente de luminância do quadro f érepresentada por y(f , i, j ) com i � ��1,M�� e j � ��1, N�� ,em que M e N são os números de linhas e colunas,respectivamente, de um quadro. Logo, as diferençasde luminância ao longo das linhas e colunas sãorepresentadas, respectivamente, pelas expressões aseguir.� � � � � � � �� � � � � � � �, , , , 1 , , , 1, 1 ,, , , 1, , , , 1, 1 .hvd f i j y f i j y f i j j Nd f i j y f i j y f i j i M� � � � �� � � � �(3)O efeito de blocagem pode ser estimado pelamédia das diferenças entre as bordas dos blocos daDCT (Discrete Cosine Transform) nas direçõeshorizontal e vertical para uma sequência F dequadros, conforme mostra a Equação (4), com ummacrobloco de dimensão � �� , cujo tamanho típico éde � � 8 [20].� � ��� � � �111 1 1111 1 11, , 1 ,111, 1 , .11NF Mh hf i jMF Nvi jvfB d f i jNF MB d f i jMF N��������� � ���� � �� �� �� � � �� � �� �� �� � � �� � �� � �� � �(4)A medida de blocagem em uma sequência devídeo com F quadros é determinada pela média entreh B e v B , caracterizando a medida B , conforme aexpressão a seguir..2h v B BB�� (5)Os efeitos de borramento são estimados pelocálculo da redução de atividade entre os blocos � �� ,em que é usada a medida de blocagem nas direçõeshorizontal e vertical, conforme as expressões� � � �� �� � � �� �11 1 111 1 1, , ,1 1, ,1.1F M Nh h hf i jF M Nv vfvi jA d f i j BF M NA d f i j BF N M������ � ��� � �� �� � �� �� � �� � �� � �(6)A medida de borramento, representada por A ,conforme a Equação (7), é determinada pela médiaentre h A e v A ..2h v A AA�� (7)O segundo fator que contribui para a detecção doartefato de borramento é baseado na taxa decruzamento por zero (Zero Crossing – ZC) nasdireções horizontal e vertical, conforme as expressõesa seguir.� �� �� �� �21 1 121 1 11, , ,21, , ,2F M Nh hf i jF M Nv vf i jZ z f i jF M NZ z f i jF N M�� � ��� � ��� ��� �� � �� � �(8)em que os termos h z e v z são determinados por� �� �1, na direção horizontal, , ,0, caso contrário1, na direção vertical, , .0, caso contráriohvz f i jz f i j�� �� �� ��(9)Assim, a medida de borramento Z é determinadapela média entre as componentes h Z e v Z ..2h v Z ZZ�� (10)O método proposto também incorpora trêscaracterísticas temporais no treinamento da redeneural SLFN com o algoritmo ELM.A primeira característica temporal é a diferença demovimento entre quadros adjacentes, representadapela variável TI (Temporal perceptual Information) [31]que considera os valores de luminância de pixelslocalizados em uma mesma região de um quadro,conforme a expressão a seguir.� �21, , ,1FfTI m f i jF��� �� �� �� (11)em que o número total de quadros é F e � �m�f ,i, j ��� �é o desvio padrão da diferença de movimento(diferença de luminância) entre o quadro atualy �f ,i, j � e o quadro anterior y �f �1,i, j � .A segunda característica temporal é a média dadiferença absoluta (Mean Absolute Di�erence – MAD)[31] entre quadros sucessivos, representada pelaEquação (12) que de�ne a medida global da MADpara todos os quadros de um vídeo.� �� � � �2 1 11, , 1, , .1F M Nf i jMAD y f i j y f i jM N F � � �� � �� �� � �(12)A terceira característica temporal é a média dadiferença absoluta ponderada (weighted MeanAbsolute Di�erence – MADw) [32], a qual mede o graude variação das cenas de um vídeo que considera acena atual de um quadro f e do quadro anterior f �1,conforme a expressão:2 11.1Fff fMADMADwF � MAD �� �� � �� � ��(13)Assim, o método proposto combina ascaracterísticas espaciais e temporais em uma matriz� , , , , , � f f f f f f f x � A B Z TI MAD MADw , em que f é onúmero de amostras de vídeo. A Figura 1 apresentaas características temporais � espaciais de dezessetebases de dados de vídeos (denominada superconjuntoS) usadas neste trabalho e reportadas em [27]. Arecomendação ITU-T P.910 [31] de�ne a medida SI(Spatial perceptual Information) como informaçãoespacial perceptual. A inspeção visual dessa �guramostra que as amostras de vídeo usadas nestetrabalho apresentam uma grande variação espaçotemporal.Fig. 1. Características espaciais e temporais do superconjuntoS com 216 amostras de referência3.2. Métrica NRVQA-ELMtcO algoritmo ELM [28] desenvolvido para otreinamento de uma rede SLFN atribui pesos epolarizações (biases) de maneira aleatória, segundouma distribuição uniforme. O treinamento compreendeN amostras distintas representadas pela variável�� , � , , 1, , � n mf f f f � � x t x � t � f � N , cujo cálculo éconforme a expressão� � � �1, 1, , ,KK i j j f j fff � g b f N�x � � w x � � o � (14)em que f o é a saída (escore objetivo), g(x) é afunção de ativação e j � é o peso que conecta o jésimoneurônio da camada oculta ao neurônio desaída. De acordo com [28], uma rede SLFN com Knós na camada oculta e uma função de ativação g(x)pode apresentar um erro médio próximo de zero, i.e.,10Kf ff �� o � t � . Logo, há parâmetros j � , j w e j b talque� �1, 1, , ,Kj j f j ff� g b f N�� w x � � t � (15)em que f t é o vetor alvo (escores subjetivos),T1, , j j jn � �w w � � � w é o vetor de peso que conecta o jésimoneurônio da camada oculta ao neurônio dacamada de entrada, j b denota a polarização (bias) doj-ésimo neurônio da camada oculta, � � j f w x é oproduto interno de j w e f x . A Figura 2 ilustra oalgoritmo ELM empregado em uma arquitetura derede neural SLFN.xi1βjN1jKtibjN input neuron K hidden neuron output neuronβ1βKwjFig. 2. Arquitetura de uma rede neural SLFN usando algoritmode treinamento ELMO sistema linear da Equação (16) resume o métododo algoritmo ELM.Hβ � T, (16)em que a matriz da camada oculta é representada por� � � 1, , and 1, , � � H � h f � N j � K com a primeiralinha da matriz de características f x igual aT1 2 , , , f f f fn x � ��x x x �� , i.e., a primeira linha é igual a� � 1 1 1 1 1 1 1 , , , , , f f f f f f f x � A B Z TI MAD MADw . A matriz desaída e o vetor alvo (target) são de�nidos comoT1 , K β � ��β β �� eT1, , N T � ��t t �� , respectivamente. Otermo � �T1 , 1, , j jm j � � � j � K � � β β β denota o vetor depeso que conecta o j-ésimo neurônio da camadaoculta e os neurônios de saída. Hung et al. [28]propuseram a atribuição aleatória de pesos aosparâmetros j w e j b , a �m de seja obtido um pequenoerro não-nulo durante o treinamento. Considerando osistema linear da Equação (17), os pesos da camadade saída podem ser aproximados por† β � H T (17)em que † H é de�nida como matriz inversageneralizada de Moore-Penrose (MP) [33] da matrizde saída da camada oculta �H� . Além disso, oconjunto de treinamento � , nó oculta K e umafunção de ativação g �x � , e.g., função de base radial(Radial Basis Function – RBF), hard-limiting (hardlim),sigmoidal (sig) e seno (sin). Em resumo, o algoritmoELM compreende três etapas [28]:i) Atribuição aleatória dos pesos de entrada j w epolarizações j b ;ii) Cálculo da matriz da camada de saída H ;iii) Cálculo dos pesos de saída † β: β� H T .O método NRVQA-ELMtc [27] implementa umsimples critério de parada no treinamento da redeneural SLFN, quanto à atribuição aleatória dos pesosj w e j b . Embora este critério não seja direcionado,busca os pesos relacionados com o menor RMSE(Root-Mean-Square Error) entre a saída desejada(escore subjetivo) e o escore objetivo na fase detreinamento com k iterações (tipicamente, k � 100 ) eN neurônios na camada oculta. Além disso, conformeestudo realizado em [27], caso o RMSE seja menor doque 0,5 o algoritmo cessa a busca pelos parâmetrosj w e j b .4. RESULTADOS EXPERIMENTAISEsta seção apresenta os resultados de acurácia,i.e., os coe�cientes de correlação linear de Pearson(Pearson Linear Correlation Coe�cient – PLCC) [34],[35], entre os escores objetivos e subjetivos de 2627amostras de vídeo estudadas em [27].A Figura 3 compara a acurácia (PLCC) entre asmétricas de referência completa (FR) PSNR e MSSSIMcom o método proposto (NRVQA-ELMtc) paraas 2627 amostras de vídeo, pertencentes a 17 basesde dados de vídeo disponibilizadas por diversasinstituições e laboratórios [27]. A função de ativaçãousada na rede neural SLFN foi o seno (sin) com onúmero de amostras de teste igual ao número deneurônios na camada oculta ( N ). O método devalidação cruzada múltipla (K-fold) foi usado com oobjetivo de gerar uma distribuição de acurácia, a qualfoi analisada por meio do diagrama de caixa (box-plot)[36], em que o traço, o círculo e o quadrado, ambosem vermelho, representam a mediana, a média e odesvio padrão, respectivamente. Destaca-se queneste trabalho foi empregada uma validação cruzadacom um grande número de amostras de treinamentotestecom K � 100 , i.e., cada caixa do box-plotcomporta 100 experimentos distintos. Tipicamente, aliteratura apresenta trabalhos no campo da avaliaçãoFig. 3. Box-plot da predição da acurácia (PLCC) entre as métricas PSNR, MS-SSIM e o método proposto NRVQA-ELMtcde qualidade de vídeo com K entre 5 e 10 [37], [38].Pela inspeção visual da Figura 3 observa-se que odesempenho do método proposto é superior àsmétricas FR, em quaisquer condições de teste, i.e.,para qualquer quantidade de amostras de teste(número de neurônios na camada oculta) entre 25 e500. Em especial, para N � 50 , o método propostoapresenta valores de PLCC, em termos da média emediana, acima de 0,8, denotando uma forteassociação entre os escores objetivos e subjetivos, natarefa de predição de qualidade de vídeo. Isto ocorredevido à grande quantidade de amostras de vídeousadas no treinamento, e.g., para N � 300 foramusadas 2327 amostras de treinamento, ou seja,mesmo usando pares de treinamento-teste disjuntos,o método proposto mostra uma acurácia superior àsmétricas de referência completa. A assimetria positiva,i.e., a maior concentração da acurácia entre osegundo quartil (mediana) e o terceiro quartil, nadistribuição do box-plot nos testes com 300 e 500neurônios na camada oculta, indica que o métodoproposto apresenta um desempenho expressivo emcomparação com as métricas FR.Entretanto, mesmo para N entre 25 e 50, ométodo proposto apresentou uma acurácia maior doque as métricas FR, cujo melhor resultado foi paraN � 25 com o desvio-quartil (amplitude interquartílica)con�nado entre 0,65 e 0,8. Além disso, este resultadotambém apresentou assimetria positiva com a médiado PLCC em torno de 0,75.5. CONCLUSÃOEste trabalho apresentou uma métrica NR baseadaem uma rede neural arti�cial SLFN, cujo treinamento édeterminado pelo algoritmo ELM, o qual consideracaracterísticas espaço-temporais e os escoressubjetivos (alvos) extraídos de 2627 amostrastreinamento. Além disso, este trabalho propõe umaextensão do algoritmo ELM por meio de um simplescritério de parada, a �m de que sejam obtidosparâmetros da rede neural arti�cial relacionados como menor RMSE. Tipicamente, a comparação entremétricas FR e NR é injusta, devido à ausência dovídeo de referência na obtenção do escore dequalidade em métricas NR. Entretanto, os resultadosexperimentais mostram que o método propostoapresentou desempenho superior às métricas dereferência completa PSNR e MS-SSIM, sobretudo,quando o número de amostras de teste e de neurôniosna camada oculta da rede SLFN é maior do que 250.Logo, a métrica NRVQA-ELMtc pode ser empregadano monitoramento de qualidade em sistemas detransmissão e recepção de vídeo digital, tais comoIPTV (Internet Protocol Television), TV digital ou emdispositivos móveis, tais como ultrabooks,smartphones, tablets e em aparelhos WiDi (WirelessDisplay).REFERÊNCIAS[1] S. Winkler, “Issues in vision modeling for perceptualvideo quality assessment,” Signal Processing, vol. 78,no. 2, pp. 231–252, 1999.[2] Z. Wang and A. C. Bovik, Modern image qualityassessment. San Rafael, CA: Morgan & Claypool,2006.[3] W. Lin and C.-C. Jay Kuo, “Perceptual visual qualitymetrics: A survey,” Journal of Visual Communicationand Image Representation, vol. 22, no. 4, pp. 297–312,May 2011.[4] S. S. Hemami and A. R. Reibman, “No-reference imageand video quality estimation: Applications and humanmotivateddesign,” Signal Processing: ImageCommunication, vol. 25, no. 7, pp. 469–481, 2010.[5] Z. Wang and A. Bovik, “Reduced- and No-ReferenceImage Quality Assessment,” IEEE Signal ProcessingMagazine, vol. 28, no. 6, pp. 29–40, Nov. 2011.[6] R. V. Babu, S. Suresh, and A. Perkis, “No-referenceJPEG-image quality assessment using GAP-RBF,”Signal Processing, vol. 87, no. 6, pp. 1493–1503, 2007.[7] X. Jiang, F. Meng, J. Xu, and W. Zhou, “No-ReferencePerceptual Video Quality Measurement for HighDe�nition Videos Based on an Arti�cial NeuralNetwork,” in Computer and Electrical Engineering,2008. ICCEE 2008. International Conference on, 2008,pp. 424–427.[8] J. Choe, K. Lee, C. Lee, and S. Korea, “No-referencevideo quality measurement using neural networks,” in2009 16th International Conference on Digital SignalProcessing, 2009, pp. 1–4.[9] S. Suresh, R. Venkatesh Babu, and H. J. Kim, “Noreferenceimage quality assessment using modi�edextreme learning machine classi�er,” Applied SoftComputing, vol. 9, no. 2, pp. 541–552, Mar. 2009.[10] A. M. Eskicioglu and P. S. Fisher, “Image qualitymeasures and their performance,” IEEE Transactionson Communications, vol. 43, no. 12, pp. 2959–2965,1995.[11] U. Engelke and H.-J. Zepernick, “Perceptual-basedQuality Metrics for Image and Video Services: ASurvey,” in Proceedings EuroNGI Conf. NextGeneration Internet Networks, 2007, pp. 190–197.[12] Z. Wang, A. C. Bovik, H. R. Sheikh, and E. PSimoncelli, “Image quality assessment: from errorvisibility to structural similarity.,” IEEE Transactions onImage Processing, vol. 13, no. 4, pp. 600–612, 2004.[13] Z. Wang, E. P. Simoncelli, and A. C. Bovik, “Multiscalestructural similarity for image quality assessment,” inThe Thrity-Seventh Asilomar Conference on Signals,Systems & Computers, 2003, 2003, vol. 2, no. 1, pp.1398–1402.[14] H. R. Wu, K. R. Rao, and A. A. Kassim, “Digital VideoImage Quality and Perceptual Coding,” Journal ofElectronic Imaging, vol. 16, no. 3, 2007.[15] Z. Wang and A. C. Bovik, “A universal image qualityindex,” IEEE Signal Processing Letters, vol. 9, no. 3,pp. 81–84, Mar. 2002.[16] Y. Shi, Y. Ding, R. Zhang, and J. Li, “Structure and HueSimilarity for Color Image Quality Assessment,” in 2009International Conference on Electronic ComputerTechnology, 2009, pp. 329–333.[17] W. B. Silva, A. A. P. Pohl, and K. V. O. Fonseca, “AReduced-Reference Video Quality Assessment Methodbased on the Activity-Di�erence of DCT Coe�cients,”IEICE Transactions on Information and Systems, vol. E96-D, no. 3, 2013.[18] P. Le Callet, C. Viard-Gaudin, and D. Barba, “A Convolutional Neural Network Approach for Objective Video Quality Assessment,” IEEE Transactions on Neural Networks, vol. 17, no. 5, pp. 1316–1327, 2006.[19] P. Le Callet and D. Barba, “Image Quality Assessment: From Sites Errors to a Global Appreciation of Quality,” in Proceedings of the Picture Coding Sympsium, 2001, pp. 105–108.[20] M. Miyahara, K. Kotani, and V. R. Algazi, “Objective picture quality scale (PQS) for image coding,” IEEE Transactions on Communications, vol. 46, no. 9, pp. 1215–1226, 1998.[21] M. Slanina, V. Ricny, and R. Forchheimer, “A Novel Metric for H.264/AVC No-Reference Quality Assessment,” in 14th International Workshop on Systems, Signals and Image Processing and 6th EURASIP Conference focused on Speech and Image Processing, Multimedia Communications and Services, 2007, pp. 114–117.[22] O. Sugimoto, S. Naito, S. Sakazawa, and A. Koike, “Objective perceptual video quality measurement method based on hybrid no reference framework,” in 16th IEEE International Conference on Image Processing (ICIP’09), 2009, pp. 2237–2240.[23] T. Oelbaum, C. Keimel, and K. Diepold, “Rule-Based No-Reference Video Quality Evaluation Using Additionally Coded Videos,” IEEE Journal of Selected Topics in Signal Processing, vol. 3, no. 2, pp. 294–303, 2009.[24] N. Staelens, N. Vercammen, Y. Dhondt, B. Vermeulen, P. Lambert, R. de Walle, and P. Demeester, “ViQID: A No-Reference bit stream-based visual quality impairment detector,” in Proceedings of the Second Int Quality of Multimedia Experience (QoMEX) Workshop, 2010, pp. 206–211.[25] F. Yang, S. Wan, Q. Xie, and H. R. Wu, “No-Reference Quality Assessment for Networked Video via Primary Analysis of Bit Stream,” IEEE Transactions on Circuits and Systems for Video Technology, vol. 20, no. 11, pp. 1544–1554, Nov. 2010.[26] Z. Wang, H. R. Sheikh, and A. C. Bovik, “Objective Video Quality Assessment,” in The Handbook of Video Databases: Design and Applications, B. Furht and O. Marques, Eds. Boca Raton, FL, USA: CRC Press, 2003, pp. 1041–1078.[27] W. B. da Silva and A. de A. P. Pohl, “Métodos Sem Referência Baseados em Características Espaço-Temporais para Avaliação Objetiva de Qualidade de Vídeo Digital,” Universidade Tecnológica Federal do Paraná (UTFPR), 2013.[28] G.-B. Huang, Q.-Y. Zhu, and C.-K. Siew, “Extreme learning machine: Theory and applications,” Neurocomputing, vol. 70, no. 1–3, pp. 489–501, Dec. 2006.[29] Z. Wang, H. R. Sheikh, and A. C. Bovik, “No-reference perceptual quality assessment of JPEG compressed images,” in Image Processing. 2002. Proceedings. IEEE International Conference on Image Processing, 2002, vol. 1, pp. vol.1 I–477 – I–480.[30] W. B. Silva and A. A. P. Pohl, “No-Reference Video Quality Assessment Method based on the Levenberg-Marquardt Minimization,” in XXX Brazilian Symposium on Telecommunications (SBrT’12), 2012.[31] ITU-T P.910, “Subjective video quality assessment methods for multimedia applications,” Standardization Sector of ITU, 1999.[32] W. Ding, Y. Tong, Q. Zhang, and D. Yang, “Image and Video Quality Assessment Using Neural Network and SVM,” Tsinghua Science &amp; Technology, vol. 13, no. 1, pp. 112–116, 2008.[33] K. S. Banerjee, C. R. Rao, and S. K. Mitra, “Generalized Inverse of Matrices and Its Applications,” Technometrics, vol. 15, no. 1, p. 197, Feb. 1973.[34] VQEG, “Final report from the video quality experts group on the validation of reduced-reference and no-reference objective models for standard de�nition television, Phase I,” 2009.[35] VQEG, “Report on the validation of video quality models for high de�nition video content,” 2010.[36] J. W. Tukey, Exploratory Data Analysis. New York: Addison-Wesley Publishing Company, 1977.[37] P. Gastaldo and R. Zunino, “Neural networks for the no-reference assessment of perceived quality,” J. Electronic Imaging, vol. 14, no. 3, p. 033004, 2005.[38] R. Herzog, M. Čadík, T. O. Aydın, K. I. Kim, K. Myszkowski, and H.-P. Seidel, “NoRM: No-Reference Image Quality Metric for Realistic Image Synthesis,” Comp. Graph. Forum, vol. 31, no. 2pt4, pp. 545–554, 2012.

Revista de Radiodifusão • v. 08 • n. 09 • 2014

Ensaios de Interferência do Sinal LTE (4G, em 700 MHz) sobre o Sinal de TV Digital Terrestre (ISDB-Tb)

4140

gráfico de barras da TV com nível de sinal do canal sintonizado, na ausência e na presença do sinal interferente, respectivamente. As figuras 5 a 8 são imagens da tela do analisador ETL para o canal 50 e que compõem a tabela 2.

Tabela 2 - Canal de TVD em -55 dBm e buscando nível LTE interferente.

Canal

TVD

Nível

Canal

TVD

Nível

LTE 700

MHz

MER

Sweep

OFF

MER

Sweep

ON

Nível TV

Sweep

OFF

Nível TV

Sweep ON

14 -55 dBm -11 dBm 30,7 dB 26,7 dB 7 barras 4 barras

20 -55 dBm -11 dBm 28,7 dB 25,3 dB 6 barras 3 barras

30 -55 dBm -11 dBm 31,4 dB 27,0 dB 6 barras 4 barras

40 -55 dBm -11 dBm 29,8 dB 25,5 dB 4 barras 3 barras

48 -55 dBm -17 dBm 29,3 dB 27,2 dB 4 barras 1 a 4 barras

49 -55 dBm -20 dBm 28,9 dB 28,0 dB 4 barras 1 a 4 barras

50 -55 dBm -14 dBm 28,9 dB 26,0 dB 4 barras 1 a 5 barras

51 -55 dBm -18 dBm 29,9 dB 27,8 dB 4 barras 1 a 6 barras

Figura 5 - Espectro digital canal 50 - Sweep OFF.

Figura 6 - Espectro digital canal 50 - Sweep ON.

Figura 7 - Constelação canal 50 - Sweep OFF.

Figura 8 - Constelação canal 50 - Sweep ON. 3.3 Teste 03

Neste terceiro ensaio, foi mantido constante o nível de sinal interferente em -15 dBm, para descobrir o nível de DTV que habilita a correta demodulação e decodificação pelo receptor de TV. Este valor de -15 dBm foi escolhido, pelo cálculo de intensidade oferecida por um terminal de telefone a aproximadamente um metro de distância da antena de TV, e está de acordo com o relatório da SET realizado pelo Instituto Presbiteriano Mackenzie [4]. As figuras 9 e 10 mostram o resultado do canal 50 com o ruído interferente, e fazem parte dos dados da tabela 3. Tabela 3 – Sweep em -15 dBm e nível de sinal de TVD até limiar.

Canal

TVD

Nível

Sweep

Nível limiar

TV MER

Nível TV

Sweep ON

14 -15 dBm -66,6 dBm 19,4 dB 1 barra

20 -15 dBm - 66,7 dBm 19,4 dB 1 barra

30 -15 dBm - 66,3 dBm 19,7 dB 1 barra

40 -15 dBm -62 dBm 23,3 dB 1 a 2 barras

48 -15 dBm -52 dBm 27,4 dB 1 a 2 barras

49 -15 dBm -49,6 dBm 27,7 dB 1 a 4 barras

50 -15 dBm -61,6 dBm 22,1 dB 1 a 5 barras

51 -15 dBm -38,4 dBm 29,8 dB 1 a 5 barras

Page 42: Revista de RADIODIFUSÃO - SET PORTAL · Sinais de TV Digital ISDB-Tb via VHF e UHF na Cidade do Gama – DF – Brasil Akamine, Cristiano Bedicks Jr, Gunnar ... cujas frequências

MÉTRICA SEM REFERÊNCIA BASEADA EM REDES NEURAISPARA AVALIAÇÃO OBJETIVA DE QUALIDADE DE VÍDEO DIGITALWyllian Bezerra da Silva, Alexandre de Almeida Prado PohlPrograma de Pós-Graduação em Engenharia Elétrica e Informática Industrial (CPGEI) – UTFPR, Curitiba, [email protected], [email protected]: Este trabalho apresenta uma métrica sem referência para avaliação de qualidade de vídeo digital baseada em uma rede neural arti�cial que usa uma versão estendida do algoritmo de aprendizado ELM (Extreme Learning Machine). O método proposto realiza o treinamento da rede neural a partir de seis características espaço-temporais. Os resultados experimentais mostram que o método proposto apresenta desempenho superior às métricas de referência completa PSNR e MS-SSIM na tarefa de predição de qualidade de vídeo. Logo, o método proposto pode ser usado no monitoramento de qualidade em sistemas de transmissão e recepção de vídeo digital, tais como IPTV e TV digital.Palavras chave: algoritmo ELM, avaliação objetiva de vídeo, métrica sem referência, rede neural arti�cial.1. INTRODUÇÃODurante os últimos anos, a literatura tem apresentado um número crescente publicações acerca de métricas objetivas para avaliação de qualidade de vídeo para diversas aplicações em radiodifusão ou no processamento de vídeo digital, seja na aquisição do sinal, codi�cação e decodi�cação, compressão, transmissão, restauração, armazenamento, segmentação e exibição de sinais de vídeo digital [1–4]. A avaliação de qualidade de vídeo digital pode ser realizada por meio de métricas subjetiva e objetiva. A primeira requer uma grande quantidade de recursos humanos e apresenta elevado custo em sua implementação [1–3]. Porém, as métricas objetivas são vantajosas quando apresentam um determinado grau de correlação com as métricas subjetivas. Logo, o desenvolvimento destas é um desa�o no campo de avaliação de qualidade de vídeo e imagem. Além disso, as métricas objetivas, devido à natureza de seu critério objetivo, independem de interação humana e são facilmente reprodutíveis [3]. Dentre as métricas objetivas destacam-se as métricas sem referência (No-Reference – NR), pois não necessitam do vídeo de referência no cálculo de sua medida. Entretanto, estas requerem um conhecimento a priori sobre as distorções em vídeo digital para que seja estabelecida uma correlação com os resultados subjetivos [3].A maioria das métricas NR encontradas na literatura são baseadas na avaliação de qualidade de imagens e em características relacionadas ao Sistema Visual Humano (SVH). Assim, o desenvolvimento de métricas NR é difícil, devido à necessidade de emular a percepção do SVH que envolve aspectos cognitivos, emocionais e estéticos relacionados ao conteúdo do vídeo e que são altamente dependentes do observador [4], [5].A literatura reporta diversos esforços no desenvolvimento de métricas para avaliação de qualidade de vídeo baseadas em redes neurais e em algoritmos de aprendizado. Babu et al. [6] apresentam uma métrica para avaliar a qualidade de imagens comprimidas em JPEG (Joint Photographic Experts Group) por meio de um algoritmo de aprendizado de crescimento e propõem o uso de uma rede neural GAP-RBF (Growing and Pruning Radial Basis Function) que usa características relacionadas ao SVH. Jiang et al. [7] desenvolveram uma métrica NR para avaliação de qualidade de vídeo em HD (High De�nition) baseada em uma rede neural treinada pelo algoritmo BP (Back-Propagation) que usa seis características espaço-temporais e a RoI (Region of Interest). Choe et al. [8] desenvolveram uma métrica NR baseada no �uxo de bits para avaliação de qualidade de vídeo codi�cado em H.264. Esta métrica extrai características quadro a quadro e usa uma rede neural alimentada adiante (feedforward) com três camadas. Suresh et al. [9] apresentaram uma extensão do algoritmo ELM na tarefa de avaliar a qualidade de imagens comprimidas em JPEG com base no esquema de seleção múltipla KS-ELM (K-fold selection Scheme using ELM) e no algoritmo RCGA-ELM (Real-Coded Genetic Algorithm using ELM) para seleção dos pesos de entrada e polarizações.Este trabalho apresenta uma versão estendida do algoritmo ELM para redes neurais SLFN (Single-hidden-Layer Feedforward Neural Networks) que implementa um simples critério de parada na fase de treinamento. Além disso, esse método usa seis características espaço-temporais de vídeos submetidos a diversas condições de distorção.Este artigo está dividido da seguinte maneira: a Seção 2 descreve as métricas para avaliação de qualidade de vídeo. A Seção 3 descreve o método NR proposto para avalição de qualidade de vídeo digital. A Seção 4 apresenta os resultados experimentais, em que são comparados o método NR proposto e duas métricas FR. Finalmente, a Seção 5 apresenta a conclusão do artigo.2. AVALIAÇÃO DE QUALIDADE DE VÍDEOO processo de avaliação de qualidade de vídeopode ser realizado com a aplicação de métricassubjetivas ou objetivas. As métricas subjetivasestimam a qualidade do vídeo por meio de avaliadoreshumanos. Logo, exigem um alto custo, poisnecessitam de uma grande quantidade de recursoshumanos e apresentam problemas quanto aosrequisitos de imparcialidade e reprodutibilidade,tornando-se inapropriadas em sistemas deradiodifusão ou em provedores de conteúdo [10], [11].Por outro lado, as métricas objetivas são baseadas emmodelos matemáticos, cujo objetivo é produzir umescore de qualidade que emule a percepção do SVH.Além disso, as métricas objetivas requerem baixocusto de implementação (quando comparadas com asmétricas subjetivas) e não apresentam problemasquanto à reprodutibilidade e imparcialidade.As métricas objetivas para avaliação de qualidadede vídeo podem ser classi�cadas em três categorias:(i) métricas de referência completa (Full-Reference –FR); (ii) métricas de referência reduzida (Reduced-Reference – RR); (iii) métricas sem referência (NR).2.1. Métricas FRAs métricas FR requerem o vídeo de referência(fonte) no cálculo do escore de qualidade. Estasmétricas são amplamente utilizadas no processo devalidação de métricas RR ou NR, por meio dacomparação de desempenho de�nida pelasrecomendações do Grupo de Especialistas emQualidade de Vídeo (VQEG – Video Quality ExpertsGroup) que é um órgão de padronização internacionalde métricas subjetivas e objetivas de qualidade devídeo. Dentre as métricas FR, destacam-se o PSNR(Peak Signal-to-Noise Ratio), SSIM (StructuralSIMilarity index) [12] e MS-SSIM (Multi-ScaleStructural SIMilarity index) [13].O PSNR é uma métrica FR baseada no erro pixel apixel de fácil implementação. Entretanto, apresentabaixa correlação com o SVH [14]. A sua medida éprocessada sobre o erro quadro a quadro, i.e., entre oquadro original x e o quadro y . A expressão a seguirde�ne o PSNR para um conjunto de quadros F .2011PSNR 20log ,Fff fvF � MSE� �� � �� �� ��(1)com� � � �20 01MSE , , , , ,N Mfi jx f i j y f i jNM � �� ���� � ��(2)em que o termo f v é igual a (2 1) k � , cujo k é onúmero de bits por pixel, i.e., é a componente deluminância do quadro f . Os termos x �f ,i, j � ey �f ,i, j � são os valores de luminância do quadro deorigem e degradado, respectivamente. Ascomponentes bidimensionais são representadas pelonúmero de colunas N e pelo número de linhas M . Otermo f MSE é de�nido como erro quadrático médioou MSE (Mean Square Error).A métrica SSIM baseia-se no fato de que o SVH éfortemente adaptado para extrair informações dascaracterísticas estruturais de um quadro ou imagem.Logo, uma medida de similaridade estrutural (oudistorção) pode prover boa aproximação para aqualidade perceptual de um vídeo [3, 7–9]. Sejam x ey dois sinais não-negativos, em que y é o sinaldegradado e x é o sinal original (sem perda dequalidade), a medida de similaridade é utilizada comoum índice quantitativo de qualidade do sinal distorcido,ou seja, x é tomado como a referência para medir aqualidade de y . A métrica SSIM possui diversasextensões, dentre as quais a versão MS-SSIM,proposta por Wang et al. [13] que assume umaabordagem multiescalar.2.2. Métricas RRAs métricas de referência reduzida retiram certaquantidade de características do vídeo original (fonte),baseadas em componentes espaciais, temporais, nodomínio da frequência ou no �uxo de bits (bitstream).Este tipo de métrica é amplamente utilizada nomonitoramento de transmissões em rede [17]. Nestetipo de cenário de aplicação, o vídeo é transmitidocom uma sequência de informação codi�cada(overhead) e no lado receptor ocorre a suadecodi�cação, seguido pelo cálculo do índice dequalidade, o qual é obtido por meio da comparaçãoentre a representação reduzida da informação nospares emissor e receptor [18]. Tipicamente, métricasRR são implementadas por meio de funções, divididasem duas etapas [19]: (i) cálculo do erro entre osvídeos original e distorcido, constituído pela diferençade suas características, a �m de compor arepresentação reduzida da informação; (ii) função queagrupa os erros ou diferenças para obter um índice dequalidade global. Algumas métricas RR explorampropriedades dos artefatos, por meio da extração decaracterísticas e um modelo de parametrização [20]com foco em tipos especí�cos de distorções(artefatos). Esta abordagem é encontrada em Silva etal. [17], cujo cálculo do escore de qualidade ébaseado na diferença de atividade dos coe�cientesDCT (Discrete Cosine Transform) em um macro blococom resolução de 16�16 pixels.2.3. Métricas NRAs métricas NR extraem característicasrelacionadas ao SVH do vídeo distorcido, i.e., narecepção do sinal de vídeo [14]. Tipicamente, há duasabordagens no desenvolvimento destas métricas: (i)extração dos parâmetros sobre o �uxo de bits, taiscomo a taxa de compressão, informaçõesrelacionadas ao GoP (Group of Pictures), estimaçãode movimento, per�l e nível de codi�cação, bem comoo parâmetro de quantização ou QP (QuantizationParameter) [21–25]. Métricas NR apresentam maiorcomplexidade quando são aplicadas em vídeo, devidoà variação temporal dos quadros, conteúdos dascenas e à di�culdade de compreensão dascaracterísticas do SVH [26]. Assim, algumas métricasdessa categoria exploram características espaciais etemporais na estimação de qualidade de vídeo [21].3. MÉTODO PROPOSTOO método proposto, denominado NRVQA-ELMtc(No-Reference Video Quality Assessment usingExtreme Learning Machine algorithm with terminationcriteria) [27] combina características espaciais etemporais, por meio de uma rede neural arti�cialSLFNs usando o algoritmo de treinamento ELM [28]com a implementação de um simples critério deparada.3.1. Características espaço-temporaisAs características espaciais incorporadas nométodo proposto são baseadas em medidas deartefatos em vídeo digital, i.e., distorções de blocageme borramento desenvolvidas por Wang et al. [20].Assim, a componente de luminância do quadro f érepresentada por y(f , i, j ) com i � ��1,M�� e j � ��1, N�� ,em que M e N são os números de linhas e colunas,respectivamente, de um quadro. Logo, as diferençasde luminância ao longo das linhas e colunas sãorepresentadas, respectivamente, pelas expressões aseguir.� � � � � � � �� � � � � � � �, , , , 1 , , , 1, 1 ,, , , 1, , , , 1, 1 .hvd f i j y f i j y f i j j Nd f i j y f i j y f i j i M� � � � �� � � � �(3)O efeito de blocagem pode ser estimado pelamédia das diferenças entre as bordas dos blocos daDCT (Discrete Cosine Transform) nas direçõeshorizontal e vertical para uma sequência F dequadros, conforme mostra a Equação (4), com ummacrobloco de dimensão � �� , cujo tamanho típico éde � � 8 [20].� � ��� � � �111 1 1111 1 11, , 1 ,111, 1 , .11NF Mh hf i jMF Nvi jvfB d f i jNF MB d f i jMF N��������� � ���� � �� �� �� � � �� � �� �� �� � � �� � �� � �� � �(4)A medida de blocagem em uma sequência devídeo com F quadros é determinada pela média entreh B e v B , caracterizando a medida B , conforme aexpressão a seguir..2h v B BB�� (5)Os efeitos de borramento são estimados pelocálculo da redução de atividade entre os blocos � �� ,em que é usada a medida de blocagem nas direçõeshorizontal e vertical, conforme as expressões� � � �� �� � � �� �11 1 111 1 1, , ,1 1, ,1.1F M Nh h hf i jF M Nv vfvi jA d f i j BF M NA d f i j BF N M������ � ��� � �� �� � �� �� � �� � �� � �(6)A medida de borramento, representada por A ,conforme a Equação (7), é determinada pela médiaentre h A e v A ..2h v A AA�� (7)O segundo fator que contribui para a detecção doartefato de borramento é baseado na taxa decruzamento por zero (Zero Crossing – ZC) nasdireções horizontal e vertical, conforme as expressõesa seguir.� �� �� �� �21 1 121 1 11, , ,21, , ,2F M Nh hf i jF M Nv vf i jZ z f i jF M NZ z f i jF N M�� � ��� � ��� ��� �� � �� � �(8)em que os termos h z e v z são determinados por� �� �1, na direção horizontal, , ,0, caso contrário1, na direção vertical, , .0, caso contráriohvz f i jz f i j�� �� �� ��(9)Assim, a medida de borramento Z é determinadapela média entre as componentes h Z e v Z ..2h v Z ZZ�� (10)O método proposto também incorpora trêscaracterísticas temporais no treinamento da redeneural SLFN com o algoritmo ELM.A primeira característica temporal é a diferença demovimento entre quadros adjacentes, representadapela variável TI (Temporal perceptual Information) [31]que considera os valores de luminância de pixelslocalizados em uma mesma região de um quadro,conforme a expressão a seguir.� �21, , ,1FfTI m f i jF��� �� �� �� (11)em que o número total de quadros é F e � �m�f ,i, j ��� �é o desvio padrão da diferença de movimento(diferença de luminância) entre o quadro atualy �f ,i, j � e o quadro anterior y �f �1,i, j � .A segunda característica temporal é a média dadiferença absoluta (Mean Absolute Di�erence – MAD)[31] entre quadros sucessivos, representada pelaEquação (12) que de�ne a medida global da MADpara todos os quadros de um vídeo.� �� � � �2 1 11, , 1, , .1F M Nf i jMAD y f i j y f i jM N F � � �� � �� �� � �(12)A terceira característica temporal é a média dadiferença absoluta ponderada (weighted MeanAbsolute Di�erence – MADw) [32], a qual mede o graude variação das cenas de um vídeo que considera acena atual de um quadro f e do quadro anterior f �1,conforme a expressão:2 11.1Fff fMADMADwF � MAD �� �� � �� � ��(13)Assim, o método proposto combina ascaracterísticas espaciais e temporais em uma matriz� , , , , , � f f f f f f f x � A B Z TI MAD MADw , em que f é onúmero de amostras de vídeo. A Figura 1 apresentaas características temporais � espaciais de dezessetebases de dados de vídeos (denominada superconjuntoS) usadas neste trabalho e reportadas em [27]. Arecomendação ITU-T P.910 [31] de�ne a medida SI(Spatial perceptual Information) como informaçãoespacial perceptual. A inspeção visual dessa �guramostra que as amostras de vídeo usadas nestetrabalho apresentam uma grande variação espaçotemporal.Fig. 1. Características espaciais e temporais do superconjuntoS com 216 amostras de referência3.2. Métrica NRVQA-ELMtcO algoritmo ELM [28] desenvolvido para otreinamento de uma rede SLFN atribui pesos epolarizações (biases) de maneira aleatória, segundouma distribuição uniforme. O treinamento compreendeN amostras distintas representadas pela variável�� , � , , 1, , � n mf f f f � � x t x � t � f � N , cujo cálculo éconforme a expressão� � � �1, 1, , ,KK i j j f j fff � g b f N�x � � w x � � o � (14)em que f o é a saída (escore objetivo), g(x) é afunção de ativação e j � é o peso que conecta o jésimoneurônio da camada oculta ao neurônio desaída. De acordo com [28], uma rede SLFN com Knós na camada oculta e uma função de ativação g(x)pode apresentar um erro médio próximo de zero, i.e.,10Kf ff �� o � t � . Logo, há parâmetros j � , j w e j b talque� �1, 1, , ,Kj j f j ff� g b f N�� w x � � t � (15)em que f t é o vetor alvo (escores subjetivos),T1, , j j jn � �w w � � � w é o vetor de peso que conecta o jésimoneurônio da camada oculta ao neurônio dacamada de entrada, j b denota a polarização (bias) doj-ésimo neurônio da camada oculta, � � j f w x é oproduto interno de j w e f x . A Figura 2 ilustra oalgoritmo ELM empregado em uma arquitetura derede neural SLFN.xi1βjN1jKtibjN input neuron K hidden neuron output neuronβ1βKwjFig. 2. Arquitetura de uma rede neural SLFN usando algoritmode treinamento ELMO sistema linear da Equação (16) resume o métododo algoritmo ELM.Hβ � T, (16)em que a matriz da camada oculta é representada por� � � 1, , and 1, , � � H � h f � N j � K com a primeiralinha da matriz de características f x igual aT1 2 , , , f f f fn x � ��x x x �� , i.e., a primeira linha é igual a� � 1 1 1 1 1 1 1 , , , , , f f f f f f f x � A B Z TI MAD MADw . A matriz desaída e o vetor alvo (target) são de�nidos comoT1 , K β � ��β β �� eT1, , N T � ��t t �� , respectivamente. Otermo � �T1 , 1, , j jm j � � � j � K � � β β β denota o vetor depeso que conecta o j-ésimo neurônio da camadaoculta e os neurônios de saída. Hung et al. [28]propuseram a atribuição aleatória de pesos aosparâmetros j w e j b , a �m de seja obtido um pequenoerro não-nulo durante o treinamento. Considerando osistema linear da Equação (17), os pesos da camadade saída podem ser aproximados por† β � H T (17)em que † H é de�nida como matriz inversageneralizada de Moore-Penrose (MP) [33] da matrizde saída da camada oculta �H� . Além disso, oconjunto de treinamento � , nó oculta K e umafunção de ativação g �x � , e.g., função de base radial(Radial Basis Function – RBF), hard-limiting (hardlim),sigmoidal (sig) e seno (sin). Em resumo, o algoritmoELM compreende três etapas [28]:i) Atribuição aleatória dos pesos de entrada j w epolarizações j b ;ii) Cálculo da matriz da camada de saída H ;iii) Cálculo dos pesos de saída † β: β� H T .O método NRVQA-ELMtc [27] implementa umsimples critério de parada no treinamento da redeneural SLFN, quanto à atribuição aleatória dos pesosj w e j b . Embora este critério não seja direcionado,busca os pesos relacionados com o menor RMSE(Root-Mean-Square Error) entre a saída desejada(escore subjetivo) e o escore objetivo na fase detreinamento com k iterações (tipicamente, k � 100 ) eN neurônios na camada oculta. Além disso, conformeestudo realizado em [27], caso o RMSE seja menor doque 0,5 o algoritmo cessa a busca pelos parâmetrosj w e j b .4. RESULTADOS EXPERIMENTAISEsta seção apresenta os resultados de acurácia,i.e., os coe�cientes de correlação linear de Pearson(Pearson Linear Correlation Coe�cient – PLCC) [34],[35], entre os escores objetivos e subjetivos de 2627amostras de vídeo estudadas em [27].A Figura 3 compara a acurácia (PLCC) entre asmétricas de referência completa (FR) PSNR e MSSSIMcom o método proposto (NRVQA-ELMtc) paraas 2627 amostras de vídeo, pertencentes a 17 basesde dados de vídeo disponibilizadas por diversasinstituições e laboratórios [27]. A função de ativaçãousada na rede neural SLFN foi o seno (sin) com onúmero de amostras de teste igual ao número deneurônios na camada oculta ( N ). O método devalidação cruzada múltipla (K-fold) foi usado com oobjetivo de gerar uma distribuição de acurácia, a qualfoi analisada por meio do diagrama de caixa (box-plot)[36], em que o traço, o círculo e o quadrado, ambosem vermelho, representam a mediana, a média e odesvio padrão, respectivamente. Destaca-se queneste trabalho foi empregada uma validação cruzadacom um grande número de amostras de treinamentotestecom K � 100 , i.e., cada caixa do box-plotcomporta 100 experimentos distintos. Tipicamente, aliteratura apresenta trabalhos no campo da avaliaçãoFig. 3. Box-plot da predição da acurácia (PLCC) entre as métricas PSNR, MS-SSIM e o método proposto NRVQA-ELMtcde qualidade de vídeo com K entre 5 e 10 [37], [38].Pela inspeção visual da Figura 3 observa-se que odesempenho do método proposto é superior àsmétricas FR, em quaisquer condições de teste, i.e.,para qualquer quantidade de amostras de teste(número de neurônios na camada oculta) entre 25 e500. Em especial, para N � 50 , o método propostoapresenta valores de PLCC, em termos da média emediana, acima de 0,8, denotando uma forteassociação entre os escores objetivos e subjetivos, natarefa de predição de qualidade de vídeo. Isto ocorredevido à grande quantidade de amostras de vídeousadas no treinamento, e.g., para N � 300 foramusadas 2327 amostras de treinamento, ou seja,mesmo usando pares de treinamento-teste disjuntos,o método proposto mostra uma acurácia superior àsmétricas de referência completa. A assimetria positiva,i.e., a maior concentração da acurácia entre osegundo quartil (mediana) e o terceiro quartil, nadistribuição do box-plot nos testes com 300 e 500neurônios na camada oculta, indica que o métodoproposto apresenta um desempenho expressivo emcomparação com as métricas FR.Entretanto, mesmo para N entre 25 e 50, ométodo proposto apresentou uma acurácia maior doque as métricas FR, cujo melhor resultado foi paraN � 25 com o desvio-quartil (amplitude interquartílica)con�nado entre 0,65 e 0,8. Além disso, este resultadotambém apresentou assimetria positiva com a médiado PLCC em torno de 0,75.5. CONCLUSÃOEste trabalho apresentou uma métrica NR baseadaem uma rede neural arti�cial SLFN, cujo treinamento édeterminado pelo algoritmo ELM, o qual consideracaracterísticas espaço-temporais e os escoressubjetivos (alvos) extraídos de 2627 amostrastreinamento. Além disso, este trabalho propõe umaextensão do algoritmo ELM por meio de um simplescritério de parada, a �m de que sejam obtidosparâmetros da rede neural arti�cial relacionados como menor RMSE. Tipicamente, a comparação entremétricas FR e NR é injusta, devido à ausência dovídeo de referência na obtenção do escore dequalidade em métricas NR. Entretanto, os resultadosexperimentais mostram que o método propostoapresentou desempenho superior às métricas dereferência completa PSNR e MS-SSIM, sobretudo,quando o número de amostras de teste e de neurôniosna camada oculta da rede SLFN é maior do que 250.Logo, a métrica NRVQA-ELMtc pode ser empregadano monitoramento de qualidade em sistemas detransmissão e recepção de vídeo digital, tais comoIPTV (Internet Protocol Television), TV digital ou emdispositivos móveis, tais como ultrabooks,smartphones, tablets e em aparelhos WiDi (WirelessDisplay).REFERÊNCIAS[1] S. Winkler, “Issues in vision modeling for perceptualvideo quality assessment,” Signal Processing, vol. 78,no. 2, pp. 231–252, 1999.[2] Z. Wang and A. C. Bovik, Modern image qualityassessment. San Rafael, CA: Morgan & Claypool,2006.[3] W. Lin and C.-C. Jay Kuo, “Perceptual visual qualitymetrics: A survey,” Journal of Visual Communicationand Image Representation, vol. 22, no. 4, pp. 297–312,May 2011.[4] S. S. Hemami and A. R. Reibman, “No-reference imageand video quality estimation: Applications and humanmotivateddesign,” Signal Processing: ImageCommunication, vol. 25, no. 7, pp. 469–481, 2010.[5] Z. Wang and A. Bovik, “Reduced- and No-ReferenceImage Quality Assessment,” IEEE Signal ProcessingMagazine, vol. 28, no. 6, pp. 29–40, Nov. 2011.[6] R. V. Babu, S. Suresh, and A. Perkis, “No-referenceJPEG-image quality assessment using GAP-RBF,”Signal Processing, vol. 87, no. 6, pp. 1493–1503, 2007.[7] X. Jiang, F. Meng, J. Xu, and W. Zhou, “No-ReferencePerceptual Video Quality Measurement for HighDe�nition Videos Based on an Arti�cial NeuralNetwork,” in Computer and Electrical Engineering,2008. ICCEE 2008. International Conference on, 2008,pp. 424–427.[8] J. Choe, K. Lee, C. Lee, and S. Korea, “No-referencevideo quality measurement using neural networks,” in2009 16th International Conference on Digital SignalProcessing, 2009, pp. 1–4.[9] S. Suresh, R. Venkatesh Babu, and H. J. Kim, “Noreferenceimage quality assessment using modi�edextreme learning machine classi�er,” Applied SoftComputing, vol. 9, no. 2, pp. 541–552, Mar. 2009.[10] A. M. Eskicioglu and P. S. Fisher, “Image qualitymeasures and their performance,” IEEE Transactionson Communications, vol. 43, no. 12, pp. 2959–2965,1995.[11] U. Engelke and H.-J. Zepernick, “Perceptual-basedQuality Metrics for Image and Video Services: ASurvey,” in Proceedings EuroNGI Conf. NextGeneration Internet Networks, 2007, pp. 190–197.[12] Z. Wang, A. C. Bovik, H. R. Sheikh, and E. PSimoncelli, “Image quality assessment: from errorvisibility to structural similarity.,” IEEE Transactions onImage Processing, vol. 13, no. 4, pp. 600–612, 2004.[13] Z. Wang, E. P. Simoncelli, and A. C. Bovik, “Multiscalestructural similarity for image quality assessment,” inThe Thrity-Seventh Asilomar Conference on Signals,Systems & Computers, 2003, 2003, vol. 2, no. 1, pp.1398–1402.[14] H. R. Wu, K. R. Rao, and A. A. Kassim, “Digital VideoImage Quality and Perceptual Coding,” Journal ofElectronic Imaging, vol. 16, no. 3, 2007.[15] Z. Wang and A. C. Bovik, “A universal image qualityindex,” IEEE Signal Processing Letters, vol. 9, no. 3,pp. 81–84, Mar. 2002.[16] Y. Shi, Y. Ding, R. Zhang, and J. Li, “Structure and HueSimilarity for Color Image Quality Assessment,” in 2009International Conference on Electronic ComputerTechnology, 2009, pp. 329–333.[17] W. B. Silva, A. A. P. Pohl, and K. V. O. Fonseca, “AReduced-Reference Video Quality Assessment Methodbased on the Activity-Di�erence of DCT Coe�cients,”IEICE Transactions on Information and Systems, vol. E96-D, no. 3, 2013.[18] P. Le Callet, C. Viard-Gaudin, and D. Barba, “A Convolutional Neural Network Approach for Objective Video Quality Assessment,” IEEE Transactions on Neural Networks, vol. 17, no. 5, pp. 1316–1327, 2006.[19] P. Le Callet and D. Barba, “Image Quality Assessment: From Sites Errors to a Global Appreciation of Quality,” in Proceedings of the Picture Coding Sympsium, 2001, pp. 105–108.[20] M. Miyahara, K. Kotani, and V. R. Algazi, “Objective picture quality scale (PQS) for image coding,” IEEE Transactions on Communications, vol. 46, no. 9, pp. 1215–1226, 1998.[21] M. Slanina, V. Ricny, and R. Forchheimer, “A Novel Metric for H.264/AVC No-Reference Quality Assessment,” in 14th International Workshop on Systems, Signals and Image Processing and 6th EURASIP Conference focused on Speech and Image Processing, Multimedia Communications and Services, 2007, pp. 114–117.[22] O. Sugimoto, S. Naito, S. Sakazawa, and A. Koike, “Objective perceptual video quality measurement method based on hybrid no reference framework,” in 16th IEEE International Conference on Image Processing (ICIP’09), 2009, pp. 2237–2240.[23] T. Oelbaum, C. Keimel, and K. Diepold, “Rule-Based No-Reference Video Quality Evaluation Using Additionally Coded Videos,” IEEE Journal of Selected Topics in Signal Processing, vol. 3, no. 2, pp. 294–303, 2009.[24] N. Staelens, N. Vercammen, Y. Dhondt, B. Vermeulen, P. Lambert, R. de Walle, and P. Demeester, “ViQID: A No-Reference bit stream-based visual quality impairment detector,” in Proceedings of the Second Int Quality of Multimedia Experience (QoMEX) Workshop, 2010, pp. 206–211.[25] F. Yang, S. Wan, Q. Xie, and H. R. Wu, “No-Reference Quality Assessment for Networked Video via Primary Analysis of Bit Stream,” IEEE Transactions on Circuits and Systems for Video Technology, vol. 20, no. 11, pp. 1544–1554, Nov. 2010.[26] Z. Wang, H. R. Sheikh, and A. C. Bovik, “Objective Video Quality Assessment,” in The Handbook of Video Databases: Design and Applications, B. Furht and O. Marques, Eds. Boca Raton, FL, USA: CRC Press, 2003, pp. 1041–1078.[27] W. B. da Silva and A. de A. P. Pohl, “Métodos Sem Referência Baseados em Características Espaço-Temporais para Avaliação Objetiva de Qualidade de Vídeo Digital,” Universidade Tecnológica Federal do Paraná (UTFPR), 2013.[28] G.-B. Huang, Q.-Y. Zhu, and C.-K. Siew, “Extreme learning machine: Theory and applications,” Neurocomputing, vol. 70, no. 1–3, pp. 489–501, Dec. 2006.[29] Z. Wang, H. R. Sheikh, and A. C. Bovik, “No-reference perceptual quality assessment of JPEG compressed images,” in Image Processing. 2002. Proceedings. IEEE International Conference on Image Processing, 2002, vol. 1, pp. vol.1 I–477 – I–480.[30] W. B. Silva and A. A. P. Pohl, “No-Reference Video Quality Assessment Method based on the Levenberg-Marquardt Minimization,” in XXX Brazilian Symposium on Telecommunications (SBrT’12), 2012.[31] ITU-T P.910, “Subjective video quality assessment methods for multimedia applications,” Standardization Sector of ITU, 1999.[32] W. Ding, Y. Tong, Q. Zhang, and D. Yang, “Image and Video Quality Assessment Using Neural Network and SVM,” Tsinghua Science &amp; Technology, vol. 13, no. 1, pp. 112–116, 2008.[33] K. S. Banerjee, C. R. Rao, and S. K. Mitra, “Generalized Inverse of Matrices and Its Applications,” Technometrics, vol. 15, no. 1, p. 197, Feb. 1973.[34] VQEG, “Final report from the video quality experts group on the validation of reduced-reference and no-reference objective models for standard de�nition television, Phase I,” 2009.[35] VQEG, “Report on the validation of video quality models for high de�nition video content,” 2010.[36] J. W. Tukey, Exploratory Data Analysis. New York: Addison-Wesley Publishing Company, 1977.[37] P. Gastaldo and R. Zunino, “Neural networks for the no-reference assessment of perceived quality,” J. Electronic Imaging, vol. 14, no. 3, p. 033004, 2005.[38] R. Herzog, M. Čadík, T. O. Aydın, K. I. Kim, K. Myszkowski, and H.-P. Seidel, “NoRM: No-Reference Image Quality Metric for Realistic Image Synthesis,” Comp. Graph. Forum, vol. 31, no. 2pt4, pp. 545–554, 2012.

Revista de Radiodifusão • v. 08 • n. 09 • 201442 41

Lucas Valmir Pellegrini , Marcel Kusunoki, Jose Frederico Rehme

Figura 9 - Espectro digital canal 50 - Sweep ON.

Figura 10 - Constelação canal 50 - Sweep ON. 3.4 Teste 04

Repetiu-se aqui o ensaio anterior, apenas mantendo uma banda de guarda, iniciando então a varredura interferente em 705 MHz como mostra a figura 11.

Figura 11 - Espectro do sweep gerador de interferência 705 - 750 MHz.

As figuras 12 e 13 abaixo demonstram o

resultado com sinal interferente sweep de 45 MHz na faixa de 705 a 750 MHz para o canal 50, bem como demonstra a tabela 4.

Figura 12 - Espectro digital canal 50 - Sweep ON.

Figura 13 - Constelação canal 50 - Sweep ON. Tabela 4 - Fixando o sweep em -15 dBm para atenuar o canal de

TVD até limiar - Deslocado em + 5 MHz.

Canal

TVD

Nível

Sweep

Nível

limiar TV MER

Nível TV

Sweep

ON

14 -15 dBm -52,9 dBm 28,6 dB 1 barra

20 -15 dBm -54,1 dBm 27 dB 1 barra

30 -15 dBm -57,5 dBm 27 dB 1 barra

40 -15 dBm -59,1 dBm 26 dB 1 barra

48 -15 dBm -58,4 dBm 25,8 dB 1 barra

49 -15 dBm -59,4 dBm 24,4 dB 1 barra

50 -15 dBm -60,4 dBm 23,4 dB 1 barra

51 -15 dBm -58,4 dBm 24,9 dB 1 barra

4. CONCLUSÃO

Como condições de teste, limitou-se o valor máximo para o sinal interferente em -11 dBm, para não saturar o televisor e também porque, mesmo que o terminal de telefone celular tivesse 2 W, não resultaria nesse nível a um metro da antena de recepção de TV.

Entende-se que estes ensaios e os valores obtidos, no entanto, são conservadores. Justifica-se

Page 43: Revista de RADIODIFUSÃO - SET PORTAL · Sinais de TV Digital ISDB-Tb via VHF e UHF na Cidade do Gama – DF – Brasil Akamine, Cristiano Bedicks Jr, Gunnar ... cujas frequências

Ensaios de Interferência do Sinal LTE (4G, em 700 MHz) sobre o Sinal de TV Digital Terrestre (ISDB-Tb)

Revista de Radiodifusão • v. 08 • n. 09 • 2014

essa compreensão, pelo fato de se gerar a cada instante uma única frequência, cw, que corre por toda a banda descrita, mas não gera uma ocupação espectral instantânea larga, e que deve resultar em uma quantidade e intensidade de produtos de intermodulação significativamente maiores, resultando também em redução de desempenho dos televisores.

O analisador de espectro, com este nível de -11 dBm, já apresenta características de saturação ou “endurecimento”, entre outros a criação de produtos de intermodulação, e estima-se que o mesmo deve ocorrer nos televisores.

O teste 01 demonstrou que em uma fraca recepção de TV e próxima do limiar (-74 dBm) os canais mais altos são mais afetados, situação em que uma pequena intensidade de sinais interferentes é suficiente para causar sintomas no televisor, com fenômenos de blocagem e/ou congelamento da imagem. Já para canais mais baixos, o sinal interferente precisa de maior nível, perto de -20 dBm para causar os mesmos efeitos. Caso não ocorresse a alteração de níveis que resultam na interferência de acordo com o canal, poderíamos concluir que o resultado seria decorrente da redução de nível, ou seja, pela atuação do AGC; o resultado obtido, no entanto, não nos leva à afirmação em contrário.

No teste 02 foi feito o mesmo procedimento, porém deixando o sinal do canal de TV fixado em -55 dBm, onde neste caso a recepção se dá com um sinal bastante intenso chegando na casa do telespectador. Nesta, também é visível a maior vulnerabilidade dos canais altos de UHF, como demonstra a tabela 2.

No teste 03, manteve-se o ruído fixo em -15 dBm, o que é bastante provável, pelos cálculos feitos pela equipe e também está de acordo com os ensaios efetuados para a SET pelo Mackenzie. Foi, então, verificado qual o nível mínimo de sinal de TV, para cada canal, que permitiu a correta demodulação e decodificação. Na tabela 3, pode-se ver que, se antes em qualquer canal um nível próximo de -75 dBm era suficiente para a demodulação, com a fonte de ruído estes valores mudaram bastante, deixando os receptores de TV muito mais vulneráveis.

No teste 04, mostram-se os resultados de ensaio similar, porém mantendo-se uma banda de guarda, ou seja, começando a geração de sinal interferente em 705 MHz. Observa-se que há uma melhora significativa para o canal adjacente (51) como demonstra a tabela 4; nos demais canais, a percepção é de poucas mudanças e não coerentes em relação à tabela 3.

Importa observar duas situações, especialmente para estas duas últimas tabelas: a) a criação do sinal interferente através do gerador de varredura (sweep) pode ocasionar produtos de intermodulação em diferentes frequências quando se introduz essa banda de guarda; a banda interferente modulada deve produzir diferentes resultados; b) os gráficos e números informados pelo analisador ETL precisam ser melhor estudados: em diversas

situações medidas, observa-se uma cintilação da constelação, com melhora e piora cíclicas (dependendo da velocidade de sweep de ruído) da dispersão dos símbolos, mas essa cintilação não é acompanhada pela leitura numérica de MER do mesmo equipamento.

Para se determinar exatamente quais fenômenos são originados por ação de filtros e quais se dão devido à saturação e atuação do AGC dos receptores, é preciso fazer ensaios semelhantes, buscando-se pontos de medição dentro do televisor, antes e depois do módulo AGC. Acredita-se que isso seja possível em um fabricante de receptores.

Como conclusão geral, demonstram-se com estes ensaios que canais altos são facilmente afetados pelo sinal interferente; sinais de TV de pequena intensidade não realizam a correta demodulação mesmo com ruídos da ordem de -35 dBm, o que provavelmente será realidade pela presença do terminal celular no mesmo ambiente do televisor. Mesmo sinais intensos de TV são afetados quando há a presença de interferentes com valores da ordem de -18 dBm, o que também é perfeitamente plausível existir com o aparelho celular próximo à antena interna de recepção de TV. 5. REFERÊNCIAS

[1] ABNT NBR 15604:2007Vc2008.

[2] Relatório de Teste Laboratorial de Interferência do LTE na faixa de 700 MHz no ISDB-T do Anatel, de abril de 2014.

[3] Anexo à Resolução n° 625, de 11 de

novembro de 2013 – Aprova a Atribuição, a Destinação e o Regulamento sobre Condições de Uso de Radiofrequências na Faixa de 698 MHz a 806 MHz.

[4] Relatório de Teste para Determinação da

Relação de Proteção e Limiar de Bloqueio dos Receptores de Televisão Digital Terrestre ISDB-TB com a Introdução do Serviço Móvel na Faixa de 700 MHz. Laboratório de Pesquisas em TV Digital da Escola de Engenharia da Universidade Presbiteriana Mackenzie, de 04 de novembro de 2013.

43

Page 44: Revista de RADIODIFUSÃO - SET PORTAL · Sinais de TV Digital ISDB-Tb via VHF e UHF na Cidade do Gama – DF – Brasil Akamine, Cristiano Bedicks Jr, Gunnar ... cujas frequências

A TV Digital Interativa na População de Baixa Renda: Análise do Projeto

Brasil 4D no Distrito Federal

Paulo [email protected]

Cristiana [email protected]

Benny Ricciardi [email protected]

Aldo von [email protected]

Revista de Radiodifusão • v. 08 • n. 09 • 201444

Page 45: Revista de RADIODIFUSÃO - SET PORTAL · Sinais de TV Digital ISDB-Tb via VHF e UHF na Cidade do Gama – DF – Brasil Akamine, Cristiano Bedicks Jr, Gunnar ... cujas frequências

MÉTRICA SEM REFERÊNCIA BASEADA EM REDES NEURAISPARA AVALIAÇÃO OBJETIVA DE QUALIDADE DE VÍDEO DIGITALWyllian Bezerra da Silva, Alexandre de Almeida Prado PohlPrograma de Pós-Graduação em Engenharia Elétrica e Informática Industrial (CPGEI) – UTFPR, Curitiba, [email protected], [email protected]: Este trabalho apresenta uma métrica sem referência para avaliação de qualidade de vídeo digital baseada em uma rede neural arti�cial que usa uma versão estendida do algoritmo de aprendizado ELM (Extreme Learning Machine). O método proposto realiza o treinamento da rede neural a partir de seis características espaço-temporais. Os resultados experimentais mostram que o método proposto apresenta desempenho superior às métricas de referência completa PSNR e MS-SSIM na tarefa de predição de qualidade de vídeo. Logo, o método proposto pode ser usado no monitoramento de qualidade em sistemas de transmissão e recepção de vídeo digital, tais como IPTV e TV digital.Palavras chave: algoritmo ELM, avaliação objetiva de vídeo, métrica sem referência, rede neural arti�cial.1. INTRODUÇÃODurante os últimos anos, a literatura tem apresentado um número crescente publicações acerca de métricas objetivas para avaliação de qualidade de vídeo para diversas aplicações em radiodifusão ou no processamento de vídeo digital, seja na aquisição do sinal, codi�cação e decodi�cação, compressão, transmissão, restauração, armazenamento, segmentação e exibição de sinais de vídeo digital [1–4]. A avaliação de qualidade de vídeo digital pode ser realizada por meio de métricas subjetiva e objetiva. A primeira requer uma grande quantidade de recursos humanos e apresenta elevado custo em sua implementação [1–3]. Porém, as métricas objetivas são vantajosas quando apresentam um determinado grau de correlação com as métricas subjetivas. Logo, o desenvolvimento destas é um desa�o no campo de avaliação de qualidade de vídeo e imagem. Além disso, as métricas objetivas, devido à natureza de seu critério objetivo, independem de interação humana e são facilmente reprodutíveis [3]. Dentre as métricas objetivas destacam-se as métricas sem referência (No-Reference – NR), pois não necessitam do vídeo de referência no cálculo de sua medida. Entretanto, estas requerem um conhecimento a priori sobre as distorções em vídeo digital para que seja estabelecida uma correlação com os resultados subjetivos [3].A maioria das métricas NR encontradas na literatura são baseadas na avaliação de qualidade de imagens e em características relacionadas ao Sistema Visual Humano (SVH). Assim, o desenvolvimento de métricas NR é difícil, devido à necessidade de emular a percepção do SVH que envolve aspectos cognitivos, emocionais e estéticos relacionados ao conteúdo do vídeo e que são altamente dependentes do observador [4], [5].A literatura reporta diversos esforços no desenvolvimento de métricas para avaliação de qualidade de vídeo baseadas em redes neurais e em algoritmos de aprendizado. Babu et al. [6] apresentam uma métrica para avaliar a qualidade de imagens comprimidas em JPEG (Joint Photographic Experts Group) por meio de um algoritmo de aprendizado de crescimento e propõem o uso de uma rede neural GAP-RBF (Growing and Pruning Radial Basis Function) que usa características relacionadas ao SVH. Jiang et al. [7] desenvolveram uma métrica NR para avaliação de qualidade de vídeo em HD (High De�nition) baseada em uma rede neural treinada pelo algoritmo BP (Back-Propagation) que usa seis características espaço-temporais e a RoI (Region of Interest). Choe et al. [8] desenvolveram uma métrica NR baseada no �uxo de bits para avaliação de qualidade de vídeo codi�cado em H.264. Esta métrica extrai características quadro a quadro e usa uma rede neural alimentada adiante (feedforward) com três camadas. Suresh et al. [9] apresentaram uma extensão do algoritmo ELM na tarefa de avaliar a qualidade de imagens comprimidas em JPEG com base no esquema de seleção múltipla KS-ELM (K-fold selection Scheme using ELM) e no algoritmo RCGA-ELM (Real-Coded Genetic Algorithm using ELM) para seleção dos pesos de entrada e polarizações.Este trabalho apresenta uma versão estendida do algoritmo ELM para redes neurais SLFN (Single-hidden-Layer Feedforward Neural Networks) que implementa um simples critério de parada na fase de treinamento. Além disso, esse método usa seis características espaço-temporais de vídeos submetidos a diversas condições de distorção.Este artigo está dividido da seguinte maneira: a Seção 2 descreve as métricas para avaliação de qualidade de vídeo. A Seção 3 descreve o método NR proposto para avalição de qualidade de vídeo digital. A Seção 4 apresenta os resultados experimentais, em que são comparados o método NR proposto e duas métricas FR. Finalmente, a Seção 5 apresenta a conclusão do artigo.2. AVALIAÇÃO DE QUALIDADE DE VÍDEOO processo de avaliação de qualidade de vídeopode ser realizado com a aplicação de métricassubjetivas ou objetivas. As métricas subjetivasestimam a qualidade do vídeo por meio de avaliadoreshumanos. Logo, exigem um alto custo, poisnecessitam de uma grande quantidade de recursoshumanos e apresentam problemas quanto aosrequisitos de imparcialidade e reprodutibilidade,tornando-se inapropriadas em sistemas deradiodifusão ou em provedores de conteúdo [10], [11].Por outro lado, as métricas objetivas são baseadas emmodelos matemáticos, cujo objetivo é produzir umescore de qualidade que emule a percepção do SVH.Além disso, as métricas objetivas requerem baixocusto de implementação (quando comparadas com asmétricas subjetivas) e não apresentam problemasquanto à reprodutibilidade e imparcialidade.As métricas objetivas para avaliação de qualidadede vídeo podem ser classi�cadas em três categorias:(i) métricas de referência completa (Full-Reference –FR); (ii) métricas de referência reduzida (Reduced-Reference – RR); (iii) métricas sem referência (NR).2.1. Métricas FRAs métricas FR requerem o vídeo de referência(fonte) no cálculo do escore de qualidade. Estasmétricas são amplamente utilizadas no processo devalidação de métricas RR ou NR, por meio dacomparação de desempenho de�nida pelasrecomendações do Grupo de Especialistas emQualidade de Vídeo (VQEG – Video Quality ExpertsGroup) que é um órgão de padronização internacionalde métricas subjetivas e objetivas de qualidade devídeo. Dentre as métricas FR, destacam-se o PSNR(Peak Signal-to-Noise Ratio), SSIM (StructuralSIMilarity index) [12] e MS-SSIM (Multi-ScaleStructural SIMilarity index) [13].O PSNR é uma métrica FR baseada no erro pixel apixel de fácil implementação. Entretanto, apresentabaixa correlação com o SVH [14]. A sua medida éprocessada sobre o erro quadro a quadro, i.e., entre oquadro original x e o quadro y . A expressão a seguirde�ne o PSNR para um conjunto de quadros F .2011PSNR 20log ,Fff fvF � MSE� �� � �� �� ��(1)com� � � �20 01MSE , , , , ,N Mfi jx f i j y f i jNM � �� ���� � ��(2)em que o termo f v é igual a (2 1) k � , cujo k é onúmero de bits por pixel, i.e., é a componente deluminância do quadro f . Os termos x �f ,i, j � ey �f ,i, j � são os valores de luminância do quadro deorigem e degradado, respectivamente. Ascomponentes bidimensionais são representadas pelonúmero de colunas N e pelo número de linhas M . Otermo f MSE é de�nido como erro quadrático médioou MSE (Mean Square Error).A métrica SSIM baseia-se no fato de que o SVH éfortemente adaptado para extrair informações dascaracterísticas estruturais de um quadro ou imagem.Logo, uma medida de similaridade estrutural (oudistorção) pode prover boa aproximação para aqualidade perceptual de um vídeo [3, 7–9]. Sejam x ey dois sinais não-negativos, em que y é o sinaldegradado e x é o sinal original (sem perda dequalidade), a medida de similaridade é utilizada comoum índice quantitativo de qualidade do sinal distorcido,ou seja, x é tomado como a referência para medir aqualidade de y . A métrica SSIM possui diversasextensões, dentre as quais a versão MS-SSIM,proposta por Wang et al. [13] que assume umaabordagem multiescalar.2.2. Métricas RRAs métricas de referência reduzida retiram certaquantidade de características do vídeo original (fonte),baseadas em componentes espaciais, temporais, nodomínio da frequência ou no �uxo de bits (bitstream).Este tipo de métrica é amplamente utilizada nomonitoramento de transmissões em rede [17]. Nestetipo de cenário de aplicação, o vídeo é transmitidocom uma sequência de informação codi�cada(overhead) e no lado receptor ocorre a suadecodi�cação, seguido pelo cálculo do índice dequalidade, o qual é obtido por meio da comparaçãoentre a representação reduzida da informação nospares emissor e receptor [18]. Tipicamente, métricasRR são implementadas por meio de funções, divididasem duas etapas [19]: (i) cálculo do erro entre osvídeos original e distorcido, constituído pela diferençade suas características, a �m de compor arepresentação reduzida da informação; (ii) função queagrupa os erros ou diferenças para obter um índice dequalidade global. Algumas métricas RR explorampropriedades dos artefatos, por meio da extração decaracterísticas e um modelo de parametrização [20]com foco em tipos especí�cos de distorções(artefatos). Esta abordagem é encontrada em Silva etal. [17], cujo cálculo do escore de qualidade ébaseado na diferença de atividade dos coe�cientesDCT (Discrete Cosine Transform) em um macro blococom resolução de 16�16 pixels.2.3. Métricas NRAs métricas NR extraem característicasrelacionadas ao SVH do vídeo distorcido, i.e., narecepção do sinal de vídeo [14]. Tipicamente, há duasabordagens no desenvolvimento destas métricas: (i)extração dos parâmetros sobre o �uxo de bits, taiscomo a taxa de compressão, informaçõesrelacionadas ao GoP (Group of Pictures), estimaçãode movimento, per�l e nível de codi�cação, bem comoo parâmetro de quantização ou QP (QuantizationParameter) [21–25]. Métricas NR apresentam maiorcomplexidade quando são aplicadas em vídeo, devidoà variação temporal dos quadros, conteúdos dascenas e à di�culdade de compreensão dascaracterísticas do SVH [26]. Assim, algumas métricasdessa categoria exploram características espaciais etemporais na estimação de qualidade de vídeo [21].3. MÉTODO PROPOSTOO método proposto, denominado NRVQA-ELMtc(No-Reference Video Quality Assessment usingExtreme Learning Machine algorithm with terminationcriteria) [27] combina características espaciais etemporais, por meio de uma rede neural arti�cialSLFNs usando o algoritmo de treinamento ELM [28]com a implementação de um simples critério deparada.3.1. Características espaço-temporaisAs características espaciais incorporadas nométodo proposto são baseadas em medidas deartefatos em vídeo digital, i.e., distorções de blocageme borramento desenvolvidas por Wang et al. [20].Assim, a componente de luminância do quadro f érepresentada por y(f , i, j ) com i � ��1,M�� e j � ��1, N�� ,em que M e N são os números de linhas e colunas,respectivamente, de um quadro. Logo, as diferençasde luminância ao longo das linhas e colunas sãorepresentadas, respectivamente, pelas expressões aseguir.� � � � � � � �� � � � � � � �, , , , 1 , , , 1, 1 ,, , , 1, , , , 1, 1 .hvd f i j y f i j y f i j j Nd f i j y f i j y f i j i M� � � � �� � � � �(3)O efeito de blocagem pode ser estimado pelamédia das diferenças entre as bordas dos blocos daDCT (Discrete Cosine Transform) nas direçõeshorizontal e vertical para uma sequência F dequadros, conforme mostra a Equação (4), com ummacrobloco de dimensão � �� , cujo tamanho típico éde � � 8 [20].� � ��� � � �111 1 1111 1 11, , 1 ,111, 1 , .11NF Mh hf i jMF Nvi jvfB d f i jNF MB d f i jMF N��������� � ���� � �� �� �� � � �� � �� �� �� � � �� � �� � �� � �(4)A medida de blocagem em uma sequência devídeo com F quadros é determinada pela média entreh B e v B , caracterizando a medida B , conforme aexpressão a seguir..2h v B BB�� (5)Os efeitos de borramento são estimados pelocálculo da redução de atividade entre os blocos � �� ,em que é usada a medida de blocagem nas direçõeshorizontal e vertical, conforme as expressões� � � �� �� � � �� �11 1 111 1 1, , ,1 1, ,1.1F M Nh h hf i jF M Nv vfvi jA d f i j BF M NA d f i j BF N M������ � ��� � �� �� � �� �� � �� � �� � �(6)A medida de borramento, representada por A ,conforme a Equação (7), é determinada pela médiaentre h A e v A ..2h v A AA�� (7)O segundo fator que contribui para a detecção doartefato de borramento é baseado na taxa decruzamento por zero (Zero Crossing – ZC) nasdireções horizontal e vertical, conforme as expressõesa seguir.� �� �� �� �21 1 121 1 11, , ,21, , ,2F M Nh hf i jF M Nv vf i jZ z f i jF M NZ z f i jF N M�� � ��� � ��� ��� �� � �� � �(8)em que os termos h z e v z são determinados por� �� �1, na direção horizontal, , ,0, caso contrário1, na direção vertical, , .0, caso contráriohvz f i jz f i j�� �� �� ��(9)Assim, a medida de borramento Z é determinadapela média entre as componentes h Z e v Z ..2h v Z ZZ�� (10)O método proposto também incorpora trêscaracterísticas temporais no treinamento da redeneural SLFN com o algoritmo ELM.A primeira característica temporal é a diferença demovimento entre quadros adjacentes, representadapela variável TI (Temporal perceptual Information) [31]que considera os valores de luminância de pixelslocalizados em uma mesma região de um quadro,conforme a expressão a seguir.� �21, , ,1FfTI m f i jF��� �� �� �� (11)em que o número total de quadros é F e � �m�f ,i, j ��� �é o desvio padrão da diferença de movimento(diferença de luminância) entre o quadro atualy �f ,i, j � e o quadro anterior y �f �1,i, j � .A segunda característica temporal é a média dadiferença absoluta (Mean Absolute Di�erence – MAD)[31] entre quadros sucessivos, representada pelaEquação (12) que de�ne a medida global da MADpara todos os quadros de um vídeo.� �� � � �2 1 11, , 1, , .1F M Nf i jMAD y f i j y f i jM N F � � �� � �� �� � �(12)A terceira característica temporal é a média dadiferença absoluta ponderada (weighted MeanAbsolute Di�erence – MADw) [32], a qual mede o graude variação das cenas de um vídeo que considera acena atual de um quadro f e do quadro anterior f �1,conforme a expressão:2 11.1Fff fMADMADwF � MAD �� �� � �� � ��(13)Assim, o método proposto combina ascaracterísticas espaciais e temporais em uma matriz� , , , , , � f f f f f f f x � A B Z TI MAD MADw , em que f é onúmero de amostras de vídeo. A Figura 1 apresentaas características temporais � espaciais de dezessetebases de dados de vídeos (denominada superconjuntoS) usadas neste trabalho e reportadas em [27]. Arecomendação ITU-T P.910 [31] de�ne a medida SI(Spatial perceptual Information) como informaçãoespacial perceptual. A inspeção visual dessa �guramostra que as amostras de vídeo usadas nestetrabalho apresentam uma grande variação espaçotemporal.Fig. 1. Características espaciais e temporais do superconjuntoS com 216 amostras de referência3.2. Métrica NRVQA-ELMtcO algoritmo ELM [28] desenvolvido para otreinamento de uma rede SLFN atribui pesos epolarizações (biases) de maneira aleatória, segundouma distribuição uniforme. O treinamento compreendeN amostras distintas representadas pela variável�� , � , , 1, , � n mf f f f � � x t x � t � f � N , cujo cálculo éconforme a expressão� � � �1, 1, , ,KK i j j f j fff � g b f N�x � � w x � � o � (14)em que f o é a saída (escore objetivo), g(x) é afunção de ativação e j � é o peso que conecta o jésimoneurônio da camada oculta ao neurônio desaída. De acordo com [28], uma rede SLFN com Knós na camada oculta e uma função de ativação g(x)pode apresentar um erro médio próximo de zero, i.e.,10Kf ff �� o � t � . Logo, há parâmetros j � , j w e j b talque� �1, 1, , ,Kj j f j ff� g b f N�� w x � � t � (15)em que f t é o vetor alvo (escores subjetivos),T1, , j j jn � �w w � � � w é o vetor de peso que conecta o jésimoneurônio da camada oculta ao neurônio dacamada de entrada, j b denota a polarização (bias) doj-ésimo neurônio da camada oculta, � � j f w x é oproduto interno de j w e f x . A Figura 2 ilustra oalgoritmo ELM empregado em uma arquitetura derede neural SLFN.xi1βjN1jKtibjN input neuron K hidden neuron output neuronβ1βKwjFig. 2. Arquitetura de uma rede neural SLFN usando algoritmode treinamento ELMO sistema linear da Equação (16) resume o métododo algoritmo ELM.Hβ � T, (16)em que a matriz da camada oculta é representada por� � � 1, , and 1, , � � H � h f � N j � K com a primeiralinha da matriz de características f x igual aT1 2 , , , f f f fn x � ��x x x �� , i.e., a primeira linha é igual a� � 1 1 1 1 1 1 1 , , , , , f f f f f f f x � A B Z TI MAD MADw . A matriz desaída e o vetor alvo (target) são de�nidos comoT1 , K β � ��β β �� eT1, , N T � ��t t �� , respectivamente. Otermo � �T1 , 1, , j jm j � � � j � K � � β β β denota o vetor depeso que conecta o j-ésimo neurônio da camadaoculta e os neurônios de saída. Hung et al. [28]propuseram a atribuição aleatória de pesos aosparâmetros j w e j b , a �m de seja obtido um pequenoerro não-nulo durante o treinamento. Considerando osistema linear da Equação (17), os pesos da camadade saída podem ser aproximados por† β � H T (17)em que † H é de�nida como matriz inversageneralizada de Moore-Penrose (MP) [33] da matrizde saída da camada oculta �H� . Além disso, oconjunto de treinamento � , nó oculta K e umafunção de ativação g �x � , e.g., função de base radial(Radial Basis Function – RBF), hard-limiting (hardlim),sigmoidal (sig) e seno (sin). Em resumo, o algoritmoELM compreende três etapas [28]:i) Atribuição aleatória dos pesos de entrada j w epolarizações j b ;ii) Cálculo da matriz da camada de saída H ;iii) Cálculo dos pesos de saída † β: β� H T .O método NRVQA-ELMtc [27] implementa umsimples critério de parada no treinamento da redeneural SLFN, quanto à atribuição aleatória dos pesosj w e j b . Embora este critério não seja direcionado,busca os pesos relacionados com o menor RMSE(Root-Mean-Square Error) entre a saída desejada(escore subjetivo) e o escore objetivo na fase detreinamento com k iterações (tipicamente, k � 100 ) eN neurônios na camada oculta. Além disso, conformeestudo realizado em [27], caso o RMSE seja menor doque 0,5 o algoritmo cessa a busca pelos parâmetrosj w e j b .4. RESULTADOS EXPERIMENTAISEsta seção apresenta os resultados de acurácia,i.e., os coe�cientes de correlação linear de Pearson(Pearson Linear Correlation Coe�cient – PLCC) [34],[35], entre os escores objetivos e subjetivos de 2627amostras de vídeo estudadas em [27].A Figura 3 compara a acurácia (PLCC) entre asmétricas de referência completa (FR) PSNR e MSSSIMcom o método proposto (NRVQA-ELMtc) paraas 2627 amostras de vídeo, pertencentes a 17 basesde dados de vídeo disponibilizadas por diversasinstituições e laboratórios [27]. A função de ativaçãousada na rede neural SLFN foi o seno (sin) com onúmero de amostras de teste igual ao número deneurônios na camada oculta ( N ). O método devalidação cruzada múltipla (K-fold) foi usado com oobjetivo de gerar uma distribuição de acurácia, a qualfoi analisada por meio do diagrama de caixa (box-plot)[36], em que o traço, o círculo e o quadrado, ambosem vermelho, representam a mediana, a média e odesvio padrão, respectivamente. Destaca-se queneste trabalho foi empregada uma validação cruzadacom um grande número de amostras de treinamentotestecom K � 100 , i.e., cada caixa do box-plotcomporta 100 experimentos distintos. Tipicamente, aliteratura apresenta trabalhos no campo da avaliaçãoFig. 3. Box-plot da predição da acurácia (PLCC) entre as métricas PSNR, MS-SSIM e o método proposto NRVQA-ELMtcde qualidade de vídeo com K entre 5 e 10 [37], [38].Pela inspeção visual da Figura 3 observa-se que odesempenho do método proposto é superior àsmétricas FR, em quaisquer condições de teste, i.e.,para qualquer quantidade de amostras de teste(número de neurônios na camada oculta) entre 25 e500. Em especial, para N � 50 , o método propostoapresenta valores de PLCC, em termos da média emediana, acima de 0,8, denotando uma forteassociação entre os escores objetivos e subjetivos, natarefa de predição de qualidade de vídeo. Isto ocorredevido à grande quantidade de amostras de vídeousadas no treinamento, e.g., para N � 300 foramusadas 2327 amostras de treinamento, ou seja,mesmo usando pares de treinamento-teste disjuntos,o método proposto mostra uma acurácia superior àsmétricas de referência completa. A assimetria positiva,i.e., a maior concentração da acurácia entre osegundo quartil (mediana) e o terceiro quartil, nadistribuição do box-plot nos testes com 300 e 500neurônios na camada oculta, indica que o métodoproposto apresenta um desempenho expressivo emcomparação com as métricas FR.Entretanto, mesmo para N entre 25 e 50, ométodo proposto apresentou uma acurácia maior doque as métricas FR, cujo melhor resultado foi paraN � 25 com o desvio-quartil (amplitude interquartílica)con�nado entre 0,65 e 0,8. Além disso, este resultadotambém apresentou assimetria positiva com a médiado PLCC em torno de 0,75.5. CONCLUSÃOEste trabalho apresentou uma métrica NR baseadaem uma rede neural arti�cial SLFN, cujo treinamento édeterminado pelo algoritmo ELM, o qual consideracaracterísticas espaço-temporais e os escoressubjetivos (alvos) extraídos de 2627 amostrastreinamento. Além disso, este trabalho propõe umaextensão do algoritmo ELM por meio de um simplescritério de parada, a �m de que sejam obtidosparâmetros da rede neural arti�cial relacionados como menor RMSE. Tipicamente, a comparação entremétricas FR e NR é injusta, devido à ausência dovídeo de referência na obtenção do escore dequalidade em métricas NR. Entretanto, os resultadosexperimentais mostram que o método propostoapresentou desempenho superior às métricas dereferência completa PSNR e MS-SSIM, sobretudo,quando o número de amostras de teste e de neurôniosna camada oculta da rede SLFN é maior do que 250.Logo, a métrica NRVQA-ELMtc pode ser empregadano monitoramento de qualidade em sistemas detransmissão e recepção de vídeo digital, tais comoIPTV (Internet Protocol Television), TV digital ou emdispositivos móveis, tais como ultrabooks,smartphones, tablets e em aparelhos WiDi (WirelessDisplay).REFERÊNCIAS[1] S. Winkler, “Issues in vision modeling for perceptualvideo quality assessment,” Signal Processing, vol. 78,no. 2, pp. 231–252, 1999.[2] Z. Wang and A. C. Bovik, Modern image qualityassessment. San Rafael, CA: Morgan & Claypool,2006.[3] W. Lin and C.-C. Jay Kuo, “Perceptual visual qualitymetrics: A survey,” Journal of Visual Communicationand Image Representation, vol. 22, no. 4, pp. 297–312,May 2011.[4] S. S. Hemami and A. R. Reibman, “No-reference imageand video quality estimation: Applications and humanmotivateddesign,” Signal Processing: ImageCommunication, vol. 25, no. 7, pp. 469–481, 2010.[5] Z. Wang and A. Bovik, “Reduced- and No-ReferenceImage Quality Assessment,” IEEE Signal ProcessingMagazine, vol. 28, no. 6, pp. 29–40, Nov. 2011.[6] R. V. Babu, S. Suresh, and A. Perkis, “No-referenceJPEG-image quality assessment using GAP-RBF,”Signal Processing, vol. 87, no. 6, pp. 1493–1503, 2007.[7] X. Jiang, F. Meng, J. Xu, and W. Zhou, “No-ReferencePerceptual Video Quality Measurement for HighDe�nition Videos Based on an Arti�cial NeuralNetwork,” in Computer and Electrical Engineering,2008. ICCEE 2008. International Conference on, 2008,pp. 424–427.[8] J. Choe, K. Lee, C. Lee, and S. Korea, “No-referencevideo quality measurement using neural networks,” in2009 16th International Conference on Digital SignalProcessing, 2009, pp. 1–4.[9] S. Suresh, R. Venkatesh Babu, and H. J. Kim, “Noreferenceimage quality assessment using modi�edextreme learning machine classi�er,” Applied SoftComputing, vol. 9, no. 2, pp. 541–552, Mar. 2009.[10] A. M. Eskicioglu and P. S. Fisher, “Image qualitymeasures and their performance,” IEEE Transactionson Communications, vol. 43, no. 12, pp. 2959–2965,1995.[11] U. Engelke and H.-J. Zepernick, “Perceptual-basedQuality Metrics for Image and Video Services: ASurvey,” in Proceedings EuroNGI Conf. NextGeneration Internet Networks, 2007, pp. 190–197.[12] Z. Wang, A. C. Bovik, H. R. Sheikh, and E. PSimoncelli, “Image quality assessment: from errorvisibility to structural similarity.,” IEEE Transactions onImage Processing, vol. 13, no. 4, pp. 600–612, 2004.[13] Z. Wang, E. P. Simoncelli, and A. C. Bovik, “Multiscalestructural similarity for image quality assessment,” inThe Thrity-Seventh Asilomar Conference on Signals,Systems & Computers, 2003, 2003, vol. 2, no. 1, pp.1398–1402.[14] H. R. Wu, K. R. Rao, and A. A. Kassim, “Digital VideoImage Quality and Perceptual Coding,” Journal ofElectronic Imaging, vol. 16, no. 3, 2007.[15] Z. Wang and A. C. Bovik, “A universal image qualityindex,” IEEE Signal Processing Letters, vol. 9, no. 3,pp. 81–84, Mar. 2002.[16] Y. Shi, Y. Ding, R. Zhang, and J. Li, “Structure and HueSimilarity for Color Image Quality Assessment,” in 2009International Conference on Electronic ComputerTechnology, 2009, pp. 329–333.[17] W. B. Silva, A. A. P. Pohl, and K. V. O. Fonseca, “AReduced-Reference Video Quality Assessment Methodbased on the Activity-Di�erence of DCT Coe�cients,”IEICE Transactions on Information and Systems, vol. E96-D, no. 3, 2013.[18] P. Le Callet, C. Viard-Gaudin, and D. Barba, “A Convolutional Neural Network Approach for Objective Video Quality Assessment,” IEEE Transactions on Neural Networks, vol. 17, no. 5, pp. 1316–1327, 2006.[19] P. Le Callet and D. Barba, “Image Quality Assessment: From Sites Errors to a Global Appreciation of Quality,” in Proceedings of the Picture Coding Sympsium, 2001, pp. 105–108.[20] M. Miyahara, K. Kotani, and V. R. Algazi, “Objective picture quality scale (PQS) for image coding,” IEEE Transactions on Communications, vol. 46, no. 9, pp. 1215–1226, 1998.[21] M. Slanina, V. Ricny, and R. Forchheimer, “A Novel Metric for H.264/AVC No-Reference Quality Assessment,” in 14th International Workshop on Systems, Signals and Image Processing and 6th EURASIP Conference focused on Speech and Image Processing, Multimedia Communications and Services, 2007, pp. 114–117.[22] O. Sugimoto, S. Naito, S. Sakazawa, and A. Koike, “Objective perceptual video quality measurement method based on hybrid no reference framework,” in 16th IEEE International Conference on Image Processing (ICIP’09), 2009, pp. 2237–2240.[23] T. Oelbaum, C. Keimel, and K. Diepold, “Rule-Based No-Reference Video Quality Evaluation Using Additionally Coded Videos,” IEEE Journal of Selected Topics in Signal Processing, vol. 3, no. 2, pp. 294–303, 2009.[24] N. Staelens, N. Vercammen, Y. Dhondt, B. Vermeulen, P. Lambert, R. de Walle, and P. Demeester, “ViQID: A No-Reference bit stream-based visual quality impairment detector,” in Proceedings of the Second Int Quality of Multimedia Experience (QoMEX) Workshop, 2010, pp. 206–211.[25] F. Yang, S. Wan, Q. Xie, and H. R. Wu, “No-Reference Quality Assessment for Networked Video via Primary Analysis of Bit Stream,” IEEE Transactions on Circuits and Systems for Video Technology, vol. 20, no. 11, pp. 1544–1554, Nov. 2010.[26] Z. Wang, H. R. Sheikh, and A. C. Bovik, “Objective Video Quality Assessment,” in The Handbook of Video Databases: Design and Applications, B. Furht and O. Marques, Eds. Boca Raton, FL, USA: CRC Press, 2003, pp. 1041–1078.[27] W. B. da Silva and A. de A. P. Pohl, “Métodos Sem Referência Baseados em Características Espaço-Temporais para Avaliação Objetiva de Qualidade de Vídeo Digital,” Universidade Tecnológica Federal do Paraná (UTFPR), 2013.[28] G.-B. Huang, Q.-Y. Zhu, and C.-K. Siew, “Extreme learning machine: Theory and applications,” Neurocomputing, vol. 70, no. 1–3, pp. 489–501, Dec. 2006.[29] Z. Wang, H. R. Sheikh, and A. C. Bovik, “No-reference perceptual quality assessment of JPEG compressed images,” in Image Processing. 2002. Proceedings. IEEE International Conference on Image Processing, 2002, vol. 1, pp. vol.1 I–477 – I–480.[30] W. B. Silva and A. A. P. Pohl, “No-Reference Video Quality Assessment Method based on the Levenberg-Marquardt Minimization,” in XXX Brazilian Symposium on Telecommunications (SBrT’12), 2012.[31] ITU-T P.910, “Subjective video quality assessment methods for multimedia applications,” Standardization Sector of ITU, 1999.[32] W. Ding, Y. Tong, Q. Zhang, and D. Yang, “Image and Video Quality Assessment Using Neural Network and SVM,” Tsinghua Science &amp; Technology, vol. 13, no. 1, pp. 112–116, 2008.[33] K. S. Banerjee, C. R. Rao, and S. K. Mitra, “Generalized Inverse of Matrices and Its Applications,” Technometrics, vol. 15, no. 1, p. 197, Feb. 1973.[34] VQEG, “Final report from the video quality experts group on the validation of reduced-reference and no-reference objective models for standard de�nition television, Phase I,” 2009.[35] VQEG, “Report on the validation of video quality models for high de�nition video content,” 2010.[36] J. W. Tukey, Exploratory Data Analysis. New York: Addison-Wesley Publishing Company, 1977.[37] P. Gastaldo and R. Zunino, “Neural networks for the no-reference assessment of perceived quality,” J. Electronic Imaging, vol. 14, no. 3, p. 033004, 2005.[38] R. Herzog, M. Čadík, T. O. Aydın, K. I. Kim, K. Myszkowski, and H.-P. Seidel, “NoRM: No-Reference Image Quality Metric for Realistic Image Synthesis,” Comp. Graph. Forum, vol. 31, no. 2pt4, pp. 545–554, 2012.

MÉTRICA SEM REFERÊNCIA BASEADA EM REDES NEURAISPARA AVALIAÇÃO OBJETIVA DE QUALIDADE DE VÍDEO DIGITALWyllian Bezerra da Silva, Alexandre de Almeida Prado PohlPrograma de Pós-Graduação em Engenharia Elétrica e Informática Industrial (CPGEI) – UTFPR, Curitiba, [email protected], [email protected]: Este trabalho apresenta uma métrica sem referência para avaliação de qualidade de vídeo digital baseada em uma rede neural arti�cial que usa uma versão estendida do algoritmo de aprendizado ELM (Extreme Learning Machine). O método proposto realiza o treinamento da rede neural a partir de seis características espaço-temporais. Os resultados experimentais mostram que o método proposto apresenta desempenho superior às métricas de referência completa PSNR e MS-SSIM na tarefa de predição de qualidade de vídeo. Logo, o método proposto pode ser usado no monitoramento de qualidade em sistemas de transmissão e recepção de vídeo digital, tais como IPTV e TV digital.Palavras chave: algoritmo ELM, avaliação objetiva de vídeo, métrica sem referência, rede neural arti�cial.1. INTRODUÇÃODurante os últimos anos, a literatura tem apresentado um número crescente publicações acerca de métricas objetivas para avaliação de qualidade de vídeo para diversas aplicações em radiodifusão ou no processamento de vídeo digital, seja na aquisição do sinal, codi�cação e decodi�cação, compressão, transmissão, restauração, armazenamento, segmentação e exibição de sinais de vídeo digital [1–4]. A avaliação de qualidade de vídeo digital pode ser realizada por meio de métricas subjetiva e objetiva. A primeira requer uma grande quantidade de recursos humanos e apresenta elevado custo em sua implementação [1–3]. Porém, as métricas objetivas são vantajosas quando apresentam um determinado grau de correlação com as métricas subjetivas. Logo, o desenvolvimento destas é um desa�o no campo de avaliação de qualidade de vídeo e imagem. Além disso, as métricas objetivas, devido à natureza de seu critério objetivo, independem de interação humana e são facilmente reprodutíveis [3]. Dentre as métricas objetivas destacam-se as métricas sem referência (No-Reference – NR), pois não necessitam do vídeo de referência no cálculo de sua medida. Entretanto, estas requerem um conhecimento a priori sobre as distorções em vídeo digital para que seja estabelecida uma correlação com os resultados subjetivos [3].A maioria das métricas NR encontradas na literatura são baseadas na avaliação de qualidade de imagens e em características relacionadas ao Sistema Visual Humano (SVH). Assim, o desenvolvimento de métricas NR é difícil, devido à necessidade de emular a percepção do SVH que envolve aspectos cognitivos, emocionais e estéticos relacionados ao conteúdo do vídeo e que são altamente dependentes do observador [4], [5].A literatura reporta diversos esforços no desenvolvimento de métricas para avaliação de qualidade de vídeo baseadas em redes neurais e em algoritmos de aprendizado. Babu et al. [6] apresentam uma métrica para avaliar a qualidade de imagens comprimidas em JPEG (Joint Photographic Experts Group) por meio de um algoritmo de aprendizado de crescimento e propõem o uso de uma rede neural GAP-RBF (Growing and Pruning Radial Basis Function) que usa características relacionadas ao SVH. Jiang et al. [7] desenvolveram uma métrica NR para avaliação de qualidade de vídeo em HD (High De�nition) baseada em uma rede neural treinada pelo algoritmo BP (Back-Propagation) que usa seis características espaço-temporais e a RoI (Region of Interest). Choe et al. [8] desenvolveram uma métrica NR baseada no �uxo de bits para avaliação de qualidade de vídeo codi�cado em H.264. Esta métrica extrai características quadro a quadro e usa uma rede neural alimentada adiante (feedforward) com três camadas. Suresh et al. [9] apresentaram uma extensão do algoritmo ELM na tarefa de avaliar a qualidade de imagens comprimidas em JPEG com base no esquema de seleção múltipla KS-ELM (K-fold selection Scheme using ELM) e no algoritmo RCGA-ELM (Real-Coded Genetic Algorithm using ELM) para seleção dos pesos de entrada e polarizações.Este trabalho apresenta uma versão estendida do algoritmo ELM para redes neurais SLFN (Single-hidden-Layer Feedforward Neural Networks) que implementa um simples critério de parada na fase de treinamento. Além disso, esse método usa seis características espaço-temporais de vídeos submetidos a diversas condições de distorção.Este artigo está dividido da seguinte maneira: a Seção 2 descreve as métricas para avaliação de qualidade de vídeo. A Seção 3 descreve o método NR proposto para avalição de qualidade de vídeo digital. A Seção 4 apresenta os resultados experimentais, em que são comparados o método NR proposto e duas métricas FR. Finalmente, a Seção 5 apresenta a conclusão do artigo.2. AVALIAÇÃO DE QUALIDADE DE VÍDEOO processo de avaliação de qualidade de vídeopode ser realizado com a aplicação de métricassubjetivas ou objetivas. As métricas subjetivasestimam a qualidade do vídeo por meio de avaliadoreshumanos. Logo, exigem um alto custo, poisnecessitam de uma grande quantidade de recursoshumanos e apresentam problemas quanto aosrequisitos de imparcialidade e reprodutibilidade,tornando-se inapropriadas em sistemas deradiodifusão ou em provedores de conteúdo [10], [11].Por outro lado, as métricas objetivas são baseadas emmodelos matemáticos, cujo objetivo é produzir umescore de qualidade que emule a percepção do SVH.Além disso, as métricas objetivas requerem baixocusto de implementação (quando comparadas com asmétricas subjetivas) e não apresentam problemasquanto à reprodutibilidade e imparcialidade.As métricas objetivas para avaliação de qualidadede vídeo podem ser classi�cadas em três categorias:(i) métricas de referência completa (Full-Reference –FR); (ii) métricas de referência reduzida (Reduced-Reference – RR); (iii) métricas sem referência (NR).2.1. Métricas FRAs métricas FR requerem o vídeo de referência(fonte) no cálculo do escore de qualidade. Estasmétricas são amplamente utilizadas no processo devalidação de métricas RR ou NR, por meio dacomparação de desempenho de�nida pelasrecomendações do Grupo de Especialistas emQualidade de Vídeo (VQEG – Video Quality ExpertsGroup) que é um órgão de padronização internacionalde métricas subjetivas e objetivas de qualidade devídeo. Dentre as métricas FR, destacam-se o PSNR(Peak Signal-to-Noise Ratio), SSIM (StructuralSIMilarity index) [12] e MS-SSIM (Multi-ScaleStructural SIMilarity index) [13].O PSNR é uma métrica FR baseada no erro pixel apixel de fácil implementação. Entretanto, apresentabaixa correlação com o SVH [14]. A sua medida éprocessada sobre o erro quadro a quadro, i.e., entre oquadro original x e o quadro y . A expressão a seguirde�ne o PSNR para um conjunto de quadros F .2011PSNR 20log ,Fff fvF � MSE� �� � �� �� ��(1)com� � � �20 01MSE , , , , ,N Mfi jx f i j y f i jNM � �� ���� � ��(2)em que o termo f v é igual a (2 1) k � , cujo k é onúmero de bits por pixel, i.e., é a componente deluminância do quadro f . Os termos x �f ,i, j � ey �f ,i, j � são os valores de luminância do quadro deorigem e degradado, respectivamente. Ascomponentes bidimensionais são representadas pelonúmero de colunas N e pelo número de linhas M . Otermo f MSE é de�nido como erro quadrático médioou MSE (Mean Square Error).A métrica SSIM baseia-se no fato de que o SVH éfortemente adaptado para extrair informações dascaracterísticas estruturais de um quadro ou imagem.Logo, uma medida de similaridade estrutural (oudistorção) pode prover boa aproximação para aqualidade perceptual de um vídeo [3, 7–9]. Sejam x ey dois sinais não-negativos, em que y é o sinaldegradado e x é o sinal original (sem perda dequalidade), a medida de similaridade é utilizada comoum índice quantitativo de qualidade do sinal distorcido,ou seja, x é tomado como a referência para medir aqualidade de y . A métrica SSIM possui diversasextensões, dentre as quais a versão MS-SSIM,proposta por Wang et al. [13] que assume umaabordagem multiescalar.2.2. Métricas RRAs métricas de referência reduzida retiram certaquantidade de características do vídeo original (fonte),baseadas em componentes espaciais, temporais, nodomínio da frequência ou no �uxo de bits (bitstream).Este tipo de métrica é amplamente utilizada nomonitoramento de transmissões em rede [17]. Nestetipo de cenário de aplicação, o vídeo é transmitidocom uma sequência de informação codi�cada(overhead) e no lado receptor ocorre a suadecodi�cação, seguido pelo cálculo do índice dequalidade, o qual é obtido por meio da comparaçãoentre a representação reduzida da informação nospares emissor e receptor [18]. Tipicamente, métricasRR são implementadas por meio de funções, divididasem duas etapas [19]: (i) cálculo do erro entre osvídeos original e distorcido, constituído pela diferençade suas características, a �m de compor arepresentação reduzida da informação; (ii) função queagrupa os erros ou diferenças para obter um índice dequalidade global. Algumas métricas RR explorampropriedades dos artefatos, por meio da extração decaracterísticas e um modelo de parametrização [20]com foco em tipos especí�cos de distorções(artefatos). Esta abordagem é encontrada em Silva etal. [17], cujo cálculo do escore de qualidade ébaseado na diferença de atividade dos coe�cientesDCT (Discrete Cosine Transform) em um macro blococom resolução de 16�16 pixels.2.3. Métricas NRAs métricas NR extraem característicasrelacionadas ao SVH do vídeo distorcido, i.e., narecepção do sinal de vídeo [14]. Tipicamente, há duasabordagens no desenvolvimento destas métricas: (i)extração dos parâmetros sobre o �uxo de bits, taiscomo a taxa de compressão, informaçõesrelacionadas ao GoP (Group of Pictures), estimaçãode movimento, per�l e nível de codi�cação, bem comoo parâmetro de quantização ou QP (QuantizationParameter) [21–25]. Métricas NR apresentam maiorcomplexidade quando são aplicadas em vídeo, devidoà variação temporal dos quadros, conteúdos dascenas e à di�culdade de compreensão dascaracterísticas do SVH [26]. Assim, algumas métricasdessa categoria exploram características espaciais etemporais na estimação de qualidade de vídeo [21].3. MÉTODO PROPOSTOO método proposto, denominado NRVQA-ELMtc(No-Reference Video Quality Assessment usingExtreme Learning Machine algorithm with terminationcriteria) [27] combina características espaciais etemporais, por meio de uma rede neural arti�cialSLFNs usando o algoritmo de treinamento ELM [28]com a implementação de um simples critério deparada.3.1. Características espaço-temporaisAs características espaciais incorporadas nométodo proposto são baseadas em medidas deartefatos em vídeo digital, i.e., distorções de blocageme borramento desenvolvidas por Wang et al. [20].Assim, a componente de luminância do quadro f érepresentada por y(f , i, j ) com i � ��1,M�� e j � ��1, N�� ,em que M e N são os números de linhas e colunas,respectivamente, de um quadro. Logo, as diferençasde luminância ao longo das linhas e colunas sãorepresentadas, respectivamente, pelas expressões aseguir.� � � � � � � �� � � � � � � �, , , , 1 , , , 1, 1 ,, , , 1, , , , 1, 1 .hvd f i j y f i j y f i j j Nd f i j y f i j y f i j i M� � � � �� � � � �(3)O efeito de blocagem pode ser estimado pelamédia das diferenças entre as bordas dos blocos daDCT (Discrete Cosine Transform) nas direçõeshorizontal e vertical para uma sequência F dequadros, conforme mostra a Equação (4), com ummacrobloco de dimensão � �� , cujo tamanho típico éde � � 8 [20].� � ��� � � �111 1 1111 1 11, , 1 ,111, 1 , .11NF Mh hf i jMF Nvi jvfB d f i jNF MB d f i jMF N��������� � ���� � �� �� �� � � �� � �� �� �� � � �� � �� � �� � �(4)A medida de blocagem em uma sequência devídeo com F quadros é determinada pela média entreh B e v B , caracterizando a medida B , conforme aexpressão a seguir..2h v B BB�� (5)Os efeitos de borramento são estimados pelocálculo da redução de atividade entre os blocos � �� ,em que é usada a medida de blocagem nas direçõeshorizontal e vertical, conforme as expressões� � � �� �� � � �� �11 1 111 1 1, , ,1 1, ,1.1F M Nh h hf i jF M Nv vfvi jA d f i j BF M NA d f i j BF N M������ � ��� � �� �� � �� �� � �� � �� � �(6)A medida de borramento, representada por A ,conforme a Equação (7), é determinada pela médiaentre h A e v A ..2h v A AA�� (7)O segundo fator que contribui para a detecção doartefato de borramento é baseado na taxa decruzamento por zero (Zero Crossing – ZC) nasdireções horizontal e vertical, conforme as expressõesa seguir.� �� �� �� �21 1 121 1 11, , ,21, , ,2F M Nh hf i jF M Nv vf i jZ z f i jF M NZ z f i jF N M�� � ��� � ��� ��� �� � �� � �(8)em que os termos h z e v z são determinados por� �� �1, na direção horizontal, , ,0, caso contrário1, na direção vertical, , .0, caso contráriohvz f i jz f i j�� �� �� ��(9)Assim, a medida de borramento Z é determinadapela média entre as componentes h Z e v Z ..2h v Z ZZ�� (10)O método proposto também incorpora trêscaracterísticas temporais no treinamento da redeneural SLFN com o algoritmo ELM.A primeira característica temporal é a diferença demovimento entre quadros adjacentes, representadapela variável TI (Temporal perceptual Information) [31]que considera os valores de luminância de pixelslocalizados em uma mesma região de um quadro,conforme a expressão a seguir.� �21, , ,1FfTI m f i jF��� �� �� �� (11)em que o número total de quadros é F e � �m�f ,i, j ��� �é o desvio padrão da diferença de movimento(diferença de luminância) entre o quadro atualy �f ,i, j � e o quadro anterior y �f �1,i, j � .A segunda característica temporal é a média dadiferença absoluta (Mean Absolute Di�erence – MAD)[31] entre quadros sucessivos, representada pelaEquação (12) que de�ne a medida global da MADpara todos os quadros de um vídeo.� �� � � �2 1 11, , 1, , .1F M Nf i jMAD y f i j y f i jM N F � � �� � �� �� � �(12)A terceira característica temporal é a média dadiferença absoluta ponderada (weighted MeanAbsolute Di�erence – MADw) [32], a qual mede o graude variação das cenas de um vídeo que considera acena atual de um quadro f e do quadro anterior f �1,conforme a expressão:2 11.1Fff fMADMADwF � MAD �� �� � �� � ��(13)Assim, o método proposto combina ascaracterísticas espaciais e temporais em uma matriz� , , , , , � f f f f f f f x � A B Z TI MAD MADw , em que f é onúmero de amostras de vídeo. A Figura 1 apresentaas características temporais � espaciais de dezessetebases de dados de vídeos (denominada superconjuntoS) usadas neste trabalho e reportadas em [27]. Arecomendação ITU-T P.910 [31] de�ne a medida SI(Spatial perceptual Information) como informaçãoespacial perceptual. A inspeção visual dessa �guramostra que as amostras de vídeo usadas nestetrabalho apresentam uma grande variação espaçotemporal.Fig. 1. Características espaciais e temporais do superconjuntoS com 216 amostras de referência3.2. Métrica NRVQA-ELMtcO algoritmo ELM [28] desenvolvido para otreinamento de uma rede SLFN atribui pesos epolarizações (biases) de maneira aleatória, segundouma distribuição uniforme. O treinamento compreendeN amostras distintas representadas pela variável�� , � , , 1, , � n mf f f f � � x t x � t � f � N , cujo cálculo éconforme a expressão� � � �1, 1, , ,KK i j j f j fff � g b f N�x � � w x � � o � (14)em que f o é a saída (escore objetivo), g(x) é afunção de ativação e j � é o peso que conecta o jésimoneurônio da camada oculta ao neurônio desaída. De acordo com [28], uma rede SLFN com Knós na camada oculta e uma função de ativação g(x)pode apresentar um erro médio próximo de zero, i.e.,10Kf ff �� o � t � . Logo, há parâmetros j � , j w e j b talque� �1, 1, , ,Kj j f j ff� g b f N�� w x � � t � (15)em que f t é o vetor alvo (escores subjetivos),T1, , j j jn � �w w � � � w é o vetor de peso que conecta o jésimoneurônio da camada oculta ao neurônio dacamada de entrada, j b denota a polarização (bias) doj-ésimo neurônio da camada oculta, � � j f w x é oproduto interno de j w e f x . A Figura 2 ilustra oalgoritmo ELM empregado em uma arquitetura derede neural SLFN.xi1βjN1jKtibjN input neuron K hidden neuron output neuronβ1βKwjFig. 2. Arquitetura de uma rede neural SLFN usando algoritmode treinamento ELMO sistema linear da Equação (16) resume o métododo algoritmo ELM.Hβ � T, (16)em que a matriz da camada oculta é representada por� � � 1, , and 1, , � � H � h f � N j � K com a primeiralinha da matriz de características f x igual aT1 2 , , , f f f fn x � ��x x x �� , i.e., a primeira linha é igual a� � 1 1 1 1 1 1 1 , , , , , f f f f f f f x � A B Z TI MAD MADw . A matriz desaída e o vetor alvo (target) são de�nidos comoT1 , K β � ��β β �� eT1, , N T � ��t t �� , respectivamente. Otermo � �T1 , 1, , j jm j � � � j � K � � β β β denota o vetor depeso que conecta o j-ésimo neurônio da camadaoculta e os neurônios de saída. Hung et al. [28]propuseram a atribuição aleatória de pesos aosparâmetros j w e j b , a �m de seja obtido um pequenoerro não-nulo durante o treinamento. Considerando osistema linear da Equação (17), os pesos da camadade saída podem ser aproximados por† β � H T (17)em que † H é de�nida como matriz inversageneralizada de Moore-Penrose (MP) [33] da matrizde saída da camada oculta �H� . Além disso, oconjunto de treinamento � , nó oculta K e umafunção de ativação g �x � , e.g., função de base radial(Radial Basis Function – RBF), hard-limiting (hardlim),sigmoidal (sig) e seno (sin). Em resumo, o algoritmoELM compreende três etapas [28]:i) Atribuição aleatória dos pesos de entrada j w epolarizações j b ;ii) Cálculo da matriz da camada de saída H ;iii) Cálculo dos pesos de saída † β: β� H T .O método NRVQA-ELMtc [27] implementa umsimples critério de parada no treinamento da redeneural SLFN, quanto à atribuição aleatória dos pesosj w e j b . Embora este critério não seja direcionado,busca os pesos relacionados com o menor RMSE(Root-Mean-Square Error) entre a saída desejada(escore subjetivo) e o escore objetivo na fase detreinamento com k iterações (tipicamente, k � 100 ) eN neurônios na camada oculta. Além disso, conformeestudo realizado em [27], caso o RMSE seja menor doque 0,5 o algoritmo cessa a busca pelos parâmetrosj w e j b .4. RESULTADOS EXPERIMENTAISEsta seção apresenta os resultados de acurácia,i.e., os coe�cientes de correlação linear de Pearson(Pearson Linear Correlation Coe�cient – PLCC) [34],[35], entre os escores objetivos e subjetivos de 2627amostras de vídeo estudadas em [27].A Figura 3 compara a acurácia (PLCC) entre asmétricas de referência completa (FR) PSNR e MSSSIMcom o método proposto (NRVQA-ELMtc) paraas 2627 amostras de vídeo, pertencentes a 17 basesde dados de vídeo disponibilizadas por diversasinstituições e laboratórios [27]. A função de ativaçãousada na rede neural SLFN foi o seno (sin) com onúmero de amostras de teste igual ao número deneurônios na camada oculta ( N ). O método devalidação cruzada múltipla (K-fold) foi usado com oobjetivo de gerar uma distribuição de acurácia, a qualfoi analisada por meio do diagrama de caixa (box-plot)[36], em que o traço, o círculo e o quadrado, ambosem vermelho, representam a mediana, a média e odesvio padrão, respectivamente. Destaca-se queneste trabalho foi empregada uma validação cruzadacom um grande número de amostras de treinamentotestecom K � 100 , i.e., cada caixa do box-plotcomporta 100 experimentos distintos. Tipicamente, aliteratura apresenta trabalhos no campo da avaliaçãoFig. 3. Box-plot da predição da acurácia (PLCC) entre as métricas PSNR, MS-SSIM e o método proposto NRVQA-ELMtcde qualidade de vídeo com K entre 5 e 10 [37], [38].Pela inspeção visual da Figura 3 observa-se que odesempenho do método proposto é superior àsmétricas FR, em quaisquer condições de teste, i.e.,para qualquer quantidade de amostras de teste(número de neurônios na camada oculta) entre 25 e500. Em especial, para N � 50 , o método propostoapresenta valores de PLCC, em termos da média emediana, acima de 0,8, denotando uma forteassociação entre os escores objetivos e subjetivos, natarefa de predição de qualidade de vídeo. Isto ocorredevido à grande quantidade de amostras de vídeousadas no treinamento, e.g., para N � 300 foramusadas 2327 amostras de treinamento, ou seja,mesmo usando pares de treinamento-teste disjuntos,o método proposto mostra uma acurácia superior àsmétricas de referência completa. A assimetria positiva,i.e., a maior concentração da acurácia entre osegundo quartil (mediana) e o terceiro quartil, nadistribuição do box-plot nos testes com 300 e 500neurônios na camada oculta, indica que o métodoproposto apresenta um desempenho expressivo emcomparação com as métricas FR.Entretanto, mesmo para N entre 25 e 50, ométodo proposto apresentou uma acurácia maior doque as métricas FR, cujo melhor resultado foi paraN � 25 com o desvio-quartil (amplitude interquartílica)con�nado entre 0,65 e 0,8. Além disso, este resultadotambém apresentou assimetria positiva com a médiado PLCC em torno de 0,75.5. CONCLUSÃOEste trabalho apresentou uma métrica NR baseadaem uma rede neural arti�cial SLFN, cujo treinamento édeterminado pelo algoritmo ELM, o qual consideracaracterísticas espaço-temporais e os escoressubjetivos (alvos) extraídos de 2627 amostrastreinamento. Além disso, este trabalho propõe umaextensão do algoritmo ELM por meio de um simplescritério de parada, a �m de que sejam obtidosparâmetros da rede neural arti�cial relacionados como menor RMSE. Tipicamente, a comparação entremétricas FR e NR é injusta, devido à ausência dovídeo de referência na obtenção do escore dequalidade em métricas NR. Entretanto, os resultadosexperimentais mostram que o método propostoapresentou desempenho superior às métricas dereferência completa PSNR e MS-SSIM, sobretudo,quando o número de amostras de teste e de neurôniosna camada oculta da rede SLFN é maior do que 250.Logo, a métrica NRVQA-ELMtc pode ser empregadano monitoramento de qualidade em sistemas detransmissão e recepção de vídeo digital, tais comoIPTV (Internet Protocol Television), TV digital ou emdispositivos móveis, tais como ultrabooks,smartphones, tablets e em aparelhos WiDi (WirelessDisplay).REFERÊNCIAS[1] S. Winkler, “Issues in vision modeling for perceptualvideo quality assessment,” Signal Processing, vol. 78,no. 2, pp. 231–252, 1999.[2] Z. Wang and A. C. Bovik, Modern image qualityassessment. San Rafael, CA: Morgan & Claypool,2006.[3] W. Lin and C.-C. Jay Kuo, “Perceptual visual qualitymetrics: A survey,” Journal of Visual Communicationand Image Representation, vol. 22, no. 4, pp. 297–312,May 2011.[4] S. S. Hemami and A. R. Reibman, “No-reference imageand video quality estimation: Applications and humanmotivateddesign,” Signal Processing: ImageCommunication, vol. 25, no. 7, pp. 469–481, 2010.[5] Z. Wang and A. Bovik, “Reduced- and No-ReferenceImage Quality Assessment,” IEEE Signal ProcessingMagazine, vol. 28, no. 6, pp. 29–40, Nov. 2011.[6] R. V. Babu, S. Suresh, and A. Perkis, “No-referenceJPEG-image quality assessment using GAP-RBF,”Signal Processing, vol. 87, no. 6, pp. 1493–1503, 2007.[7] X. Jiang, F. Meng, J. Xu, and W. Zhou, “No-ReferencePerceptual Video Quality Measurement for HighDe�nition Videos Based on an Arti�cial NeuralNetwork,” in Computer and Electrical Engineering,2008. ICCEE 2008. International Conference on, 2008,pp. 424–427.[8] J. Choe, K. Lee, C. Lee, and S. Korea, “No-referencevideo quality measurement using neural networks,” in2009 16th International Conference on Digital SignalProcessing, 2009, pp. 1–4.[9] S. Suresh, R. Venkatesh Babu, and H. J. Kim, “Noreferenceimage quality assessment using modi�edextreme learning machine classi�er,” Applied SoftComputing, vol. 9, no. 2, pp. 541–552, Mar. 2009.[10] A. M. Eskicioglu and P. S. Fisher, “Image qualitymeasures and their performance,” IEEE Transactionson Communications, vol. 43, no. 12, pp. 2959–2965,1995.[11] U. Engelke and H.-J. Zepernick, “Perceptual-basedQuality Metrics for Image and Video Services: ASurvey,” in Proceedings EuroNGI Conf. NextGeneration Internet Networks, 2007, pp. 190–197.[12] Z. Wang, A. C. Bovik, H. R. Sheikh, and E. PSimoncelli, “Image quality assessment: from errorvisibility to structural similarity.,” IEEE Transactions onImage Processing, vol. 13, no. 4, pp. 600–612, 2004.[13] Z. Wang, E. P. Simoncelli, and A. C. Bovik, “Multiscalestructural similarity for image quality assessment,” inThe Thrity-Seventh Asilomar Conference on Signals,Systems & Computers, 2003, 2003, vol. 2, no. 1, pp.1398–1402.[14] H. R. Wu, K. R. Rao, and A. A. Kassim, “Digital VideoImage Quality and Perceptual Coding,” Journal ofElectronic Imaging, vol. 16, no. 3, 2007.[15] Z. Wang and A. C. Bovik, “A universal image qualityindex,” IEEE Signal Processing Letters, vol. 9, no. 3,pp. 81–84, Mar. 2002.[16] Y. Shi, Y. Ding, R. Zhang, and J. Li, “Structure and HueSimilarity for Color Image Quality Assessment,” in 2009International Conference on Electronic ComputerTechnology, 2009, pp. 329–333.[17] W. B. Silva, A. A. P. Pohl, and K. V. O. Fonseca, “AReduced-Reference Video Quality Assessment Methodbased on the Activity-Di�erence of DCT Coe�cients,”IEICE Transactions on Information and Systems, vol. E96-D, no. 3, 2013.[18] P. Le Callet, C. Viard-Gaudin, and D. Barba, “A Convolutional Neural Network Approach for Objective Video Quality Assessment,” IEEE Transactions on Neural Networks, vol. 17, no. 5, pp. 1316–1327, 2006.[19] P. Le Callet and D. Barba, “Image Quality Assessment: From Sites Errors to a Global Appreciation of Quality,” in Proceedings of the Picture Coding Sympsium, 2001, pp. 105–108.[20] M. Miyahara, K. Kotani, and V. R. Algazi, “Objective picture quality scale (PQS) for image coding,” IEEE Transactions on Communications, vol. 46, no. 9, pp. 1215–1226, 1998.[21] M. Slanina, V. Ricny, and R. Forchheimer, “A Novel Metric for H.264/AVC No-Reference Quality Assessment,” in 14th International Workshop on Systems, Signals and Image Processing and 6th EURASIP Conference focused on Speech and Image Processing, Multimedia Communications and Services, 2007, pp. 114–117.[22] O. Sugimoto, S. Naito, S. Sakazawa, and A. Koike, “Objective perceptual video quality measurement method based on hybrid no reference framework,” in 16th IEEE International Conference on Image Processing (ICIP’09), 2009, pp. 2237–2240.[23] T. Oelbaum, C. Keimel, and K. Diepold, “Rule-Based No-Reference Video Quality Evaluation Using Additionally Coded Videos,” IEEE Journal of Selected Topics in Signal Processing, vol. 3, no. 2, pp. 294–303, 2009.[24] N. Staelens, N. Vercammen, Y. Dhondt, B. Vermeulen, P. Lambert, R. de Walle, and P. Demeester, “ViQID: A No-Reference bit stream-based visual quality impairment detector,” in Proceedings of the Second Int Quality of Multimedia Experience (QoMEX) Workshop, 2010, pp. 206–211.[25] F. Yang, S. Wan, Q. Xie, and H. R. Wu, “No-Reference Quality Assessment for Networked Video via Primary Analysis of Bit Stream,” IEEE Transactions on Circuits and Systems for Video Technology, vol. 20, no. 11, pp. 1544–1554, Nov. 2010.[26] Z. Wang, H. R. Sheikh, and A. C. Bovik, “Objective Video Quality Assessment,” in The Handbook of Video Databases: Design and Applications, B. Furht and O. Marques, Eds. Boca Raton, FL, USA: CRC Press, 2003, pp. 1041–1078.[27] W. B. da Silva and A. de A. P. Pohl, “Métodos Sem Referência Baseados em Características Espaço-Temporais para Avaliação Objetiva de Qualidade de Vídeo Digital,” Universidade Tecnológica Federal do Paraná (UTFPR), 2013.[28] G.-B. Huang, Q.-Y. Zhu, and C.-K. Siew, “Extreme learning machine: Theory and applications,” Neurocomputing, vol. 70, no. 1–3, pp. 489–501, Dec. 2006.[29] Z. Wang, H. R. Sheikh, and A. C. Bovik, “No-reference perceptual quality assessment of JPEG compressed images,” in Image Processing. 2002. Proceedings. IEEE International Conference on Image Processing, 2002, vol. 1, pp. vol.1 I–477 – I–480.[30] W. B. Silva and A. A. P. Pohl, “No-Reference Video Quality Assessment Method based on the Levenberg-Marquardt Minimization,” in XXX Brazilian Symposium on Telecommunications (SBrT’12), 2012.[31] ITU-T P.910, “Subjective video quality assessment methods for multimedia applications,” Standardization Sector of ITU, 1999.[32] W. Ding, Y. Tong, Q. Zhang, and D. Yang, “Image and Video Quality Assessment Using Neural Network and SVM,” Tsinghua Science &amp; Technology, vol. 13, no. 1, pp. 112–116, 2008.[33] K. S. Banerjee, C. R. Rao, and S. K. Mitra, “Generalized Inverse of Matrices and Its Applications,” Technometrics, vol. 15, no. 1, p. 197, Feb. 1973.[34] VQEG, “Final report from the video quality experts group on the validation of reduced-reference and no-reference objective models for standard de�nition television, Phase I,” 2009.[35] VQEG, “Report on the validation of video quality models for high de�nition video content,” 2010.[36] J. W. Tukey, Exploratory Data Analysis. New York: Addison-Wesley Publishing Company, 1977.[37] P. Gastaldo and R. Zunino, “Neural networks for the no-reference assessment of perceived quality,” J. Electronic Imaging, vol. 14, no. 3, p. 033004, 2005.[38] R. Herzog, M. Čadík, T. O. Aydın, K. I. Kim, K. Myszkowski, and H.-P. Seidel, “NoRM: No-Reference Image Quality Metric for Realistic Image Synthesis,” Comp. Graph. Forum, vol. 31, no. 2pt4, pp. 545–554, 2012.

Revista de Radiodifusão • v. 08 • n. 09 • 2014 45

39

A TV DIGITAL INTERATIVA NA POPULAÇÃO DE BAIXA RENDA: ANÁLISE DO PROJETO BRASIL 4D NO DISTRITO FEDERAL

Paulo A.B.Iasbech¹, Cristiana Freitas², Benny Ricciardi Jorge³, Aldo von Wangenheim

¹ Universidade Federal de Santa Catarina, Florianópolis, Brasil, [email protected]

² Empresa Brasil de Comunicação, Brasilia, Brasil, [email protected] ³ Universidade Federal de Santa Catarina, Florianópolis, Brasil, [email protected] 4Universidade Federal de Santa Catarina, Florianópolis, Brasil, [email protected]

Resumo: Este artigo visa apresentar os avanços tecnológicos e de aspectos da linguagem audiovisual, do design de interface e de usabilidade presentes no projeto Brasil 4D realizado no Distrito Federal. Experiência pioneira de oferta de informações e serviços interativos por meio da TV digital para a população de baixa renda. Coordenado pela Empresa Brasil de Comunicação (EBC), em parceria com o Governo do Distrito Federal (GDF), o PNUD, instituições como o Banco do Brasil e a Caixa Econômica Federal, o Instituto Nacional para Convergência Digital (INCoD) e empresas privadas do ramo de tecnologia da informação e comunicação como a Totvs, Oi e EiTV. Em parceria com o IPEA, foram selecionadas 300 famílias integrantes dos programas Bolsa Família e do DF Sem Miséria, que receberam em seu domicílio kits com equipamentos digitais e treinamento para utilizarem a TV Digital interativa (TVDi). Utilizando linguagem televisiva para apresentar o novo sistema e motivar o acesso da audiência às aplicações interativos, foi desenvolvida uma arquitetura de informações que disponibilizasse os conteúdos de serviços oferecidos da maneira mais eficiente possível, com base em estudos sobre o perfil da audiência, suas necessidades e hábitos de uso das novas TICs, de usabilidade e design interativo para TV Digital.

Palavras chave: TV digital pública interativa, Brasil 4D, interface e conteúdos interativa, Ginga-NCL.

1. INTRODUÇÃO

O Projeto Brasil 4D é uma iniciativa pioneira criada, planejada, articulada e desenvolvida pela Empresa Brasil de Comunicação (EBC), em parceria com universidades, empresas, instituições do governo federal, municipal, distrital, e com a

sociedade civil. Possui o objetivo de facilitar o acesso da população de baixa renda à informação e serviços públicos, por meio da televisão digital pública interativa, e assim contribuir para a inclusão social e digital das pessoas sem acesso às tecnologias da informação e comunicação (TICs).

Em 14 de dezembro de 2012 foi lançada a primeira versão do projeto, que contou com a participação de 100 famílias beneficiárias do programa Brasil Sem Miséria, moradoras de bairros da periferia de João Pessoa/PB. Esse projeto piloto, finalizado em junho de 2013,foi objeto de pesquisa do Banco Mundial, entre fevereiro e março de 2013. Os resultados, consolidados na publicação “Brasil 4D – Estudo de Impacto socioeconômicos sobre a TV digital pública interativa.”, demonstraram os benefícios da TVDi para esse extrato da população de baixa renda, composta por 31% de analfabetos funcionais, que obtiveram economia média de 10% no primeiro mês de uso do Brasil 4D, 2% teve aumento real de renda onde a facilidade de uso da TVDi por uma população, e 72% tiveram facilidade de uso do sistema

O êxito do projeto piloto e os benefícios gerados às famílias selecionadas, aliado à evolução da tecnologia, impulsionaram a realização do projeto Brasil 4D no Distrito Federal. Apoiado pelo Governo do Distrito Federal (GDF), o Programa das Nações Unidas (PNUD), instituições como o Instituto Nacional para Convergência Digital (INCoD) e empresas privadas do ramo de tecnologia da informação e comunicação como a Totvs, Oi e EiTV, o Brasil 4D-DF apresenta diversos avanços em relação ao projeto piloto realizado na Paraíba, tanto na questão tecnológica como na modelagem conceitual dos conteúdos audiovisuais e da aplicação, na usabilidade e no design do sistema.

Por meio da transmissão da TV Brasil digital no DF, o público alvo pode acessar o canal 2.1 do Brasil 4D, onde encontra informações e dados atualizados diariamente , além da atualização periódica de vídeos, os quais se encontram armazenados no cartão de memória integrado ao set

Page 46: Revista de RADIODIFUSÃO - SET PORTAL · Sinais de TV Digital ISDB-Tb via VHF e UHF na Cidade do Gama – DF – Brasil Akamine, Cristiano Bedicks Jr, Gunnar ... cujas frequências

MÉTRICA SEM REFERÊNCIA BASEADA EM REDES NEURAISPARA AVALIAÇÃO OBJETIVA DE QUALIDADE DE VÍDEO DIGITALWyllian Bezerra da Silva, Alexandre de Almeida Prado PohlPrograma de Pós-Graduação em Engenharia Elétrica e Informática Industrial (CPGEI) – UTFPR, Curitiba, [email protected], [email protected]: Este trabalho apresenta uma métrica sem referência para avaliação de qualidade de vídeo digital baseada em uma rede neural arti�cial que usa uma versão estendida do algoritmo de aprendizado ELM (Extreme Learning Machine). O método proposto realiza o treinamento da rede neural a partir de seis características espaço-temporais. Os resultados experimentais mostram que o método proposto apresenta desempenho superior às métricas de referência completa PSNR e MS-SSIM na tarefa de predição de qualidade de vídeo. Logo, o método proposto pode ser usado no monitoramento de qualidade em sistemas de transmissão e recepção de vídeo digital, tais como IPTV e TV digital.Palavras chave: algoritmo ELM, avaliação objetiva de vídeo, métrica sem referência, rede neural arti�cial.1. INTRODUÇÃODurante os últimos anos, a literatura tem apresentado um número crescente publicações acerca de métricas objetivas para avaliação de qualidade de vídeo para diversas aplicações em radiodifusão ou no processamento de vídeo digital, seja na aquisição do sinal, codi�cação e decodi�cação, compressão, transmissão, restauração, armazenamento, segmentação e exibição de sinais de vídeo digital [1–4]. A avaliação de qualidade de vídeo digital pode ser realizada por meio de métricas subjetiva e objetiva. A primeira requer uma grande quantidade de recursos humanos e apresenta elevado custo em sua implementação [1–3]. Porém, as métricas objetivas são vantajosas quando apresentam um determinado grau de correlação com as métricas subjetivas. Logo, o desenvolvimento destas é um desa�o no campo de avaliação de qualidade de vídeo e imagem. Além disso, as métricas objetivas, devido à natureza de seu critério objetivo, independem de interação humana e são facilmente reprodutíveis [3]. Dentre as métricas objetivas destacam-se as métricas sem referência (No-Reference – NR), pois não necessitam do vídeo de referência no cálculo de sua medida. Entretanto, estas requerem um conhecimento a priori sobre as distorções em vídeo digital para que seja estabelecida uma correlação com os resultados subjetivos [3].A maioria das métricas NR encontradas na literatura são baseadas na avaliação de qualidade de imagens e em características relacionadas ao Sistema Visual Humano (SVH). Assim, o desenvolvimento de métricas NR é difícil, devido à necessidade de emular a percepção do SVH que envolve aspectos cognitivos, emocionais e estéticos relacionados ao conteúdo do vídeo e que são altamente dependentes do observador [4], [5].A literatura reporta diversos esforços no desenvolvimento de métricas para avaliação de qualidade de vídeo baseadas em redes neurais e em algoritmos de aprendizado. Babu et al. [6] apresentam uma métrica para avaliar a qualidade de imagens comprimidas em JPEG (Joint Photographic Experts Group) por meio de um algoritmo de aprendizado de crescimento e propõem o uso de uma rede neural GAP-RBF (Growing and Pruning Radial Basis Function) que usa características relacionadas ao SVH. Jiang et al. [7] desenvolveram uma métrica NR para avaliação de qualidade de vídeo em HD (High De�nition) baseada em uma rede neural treinada pelo algoritmo BP (Back-Propagation) que usa seis características espaço-temporais e a RoI (Region of Interest). Choe et al. [8] desenvolveram uma métrica NR baseada no �uxo de bits para avaliação de qualidade de vídeo codi�cado em H.264. Esta métrica extrai características quadro a quadro e usa uma rede neural alimentada adiante (feedforward) com três camadas. Suresh et al. [9] apresentaram uma extensão do algoritmo ELM na tarefa de avaliar a qualidade de imagens comprimidas em JPEG com base no esquema de seleção múltipla KS-ELM (K-fold selection Scheme using ELM) e no algoritmo RCGA-ELM (Real-Coded Genetic Algorithm using ELM) para seleção dos pesos de entrada e polarizações.Este trabalho apresenta uma versão estendida do algoritmo ELM para redes neurais SLFN (Single-hidden-Layer Feedforward Neural Networks) que implementa um simples critério de parada na fase de treinamento. Além disso, esse método usa seis características espaço-temporais de vídeos submetidos a diversas condições de distorção.Este artigo está dividido da seguinte maneira: a Seção 2 descreve as métricas para avaliação de qualidade de vídeo. A Seção 3 descreve o método NR proposto para avalição de qualidade de vídeo digital. A Seção 4 apresenta os resultados experimentais, em que são comparados o método NR proposto e duas métricas FR. Finalmente, a Seção 5 apresenta a conclusão do artigo.2. AVALIAÇÃO DE QUALIDADE DE VÍDEOO processo de avaliação de qualidade de vídeopode ser realizado com a aplicação de métricassubjetivas ou objetivas. As métricas subjetivasestimam a qualidade do vídeo por meio de avaliadoreshumanos. Logo, exigem um alto custo, poisnecessitam de uma grande quantidade de recursoshumanos e apresentam problemas quanto aosrequisitos de imparcialidade e reprodutibilidade,tornando-se inapropriadas em sistemas deradiodifusão ou em provedores de conteúdo [10], [11].Por outro lado, as métricas objetivas são baseadas emmodelos matemáticos, cujo objetivo é produzir umescore de qualidade que emule a percepção do SVH.Além disso, as métricas objetivas requerem baixocusto de implementação (quando comparadas com asmétricas subjetivas) e não apresentam problemasquanto à reprodutibilidade e imparcialidade.As métricas objetivas para avaliação de qualidadede vídeo podem ser classi�cadas em três categorias:(i) métricas de referência completa (Full-Reference –FR); (ii) métricas de referência reduzida (Reduced-Reference – RR); (iii) métricas sem referência (NR).2.1. Métricas FRAs métricas FR requerem o vídeo de referência(fonte) no cálculo do escore de qualidade. Estasmétricas são amplamente utilizadas no processo devalidação de métricas RR ou NR, por meio dacomparação de desempenho de�nida pelasrecomendações do Grupo de Especialistas emQualidade de Vídeo (VQEG – Video Quality ExpertsGroup) que é um órgão de padronização internacionalde métricas subjetivas e objetivas de qualidade devídeo. Dentre as métricas FR, destacam-se o PSNR(Peak Signal-to-Noise Ratio), SSIM (StructuralSIMilarity index) [12] e MS-SSIM (Multi-ScaleStructural SIMilarity index) [13].O PSNR é uma métrica FR baseada no erro pixel apixel de fácil implementação. Entretanto, apresentabaixa correlação com o SVH [14]. A sua medida éprocessada sobre o erro quadro a quadro, i.e., entre oquadro original x e o quadro y . A expressão a seguirde�ne o PSNR para um conjunto de quadros F .2011PSNR 20log ,Fff fvF � MSE� �� � �� �� ��(1)com� � � �20 01MSE , , , , ,N Mfi jx f i j y f i jNM � �� ���� � ��(2)em que o termo f v é igual a (2 1) k � , cujo k é onúmero de bits por pixel, i.e., é a componente deluminância do quadro f . Os termos x �f ,i, j � ey �f ,i, j � são os valores de luminância do quadro deorigem e degradado, respectivamente. Ascomponentes bidimensionais são representadas pelonúmero de colunas N e pelo número de linhas M . Otermo f MSE é de�nido como erro quadrático médioou MSE (Mean Square Error).A métrica SSIM baseia-se no fato de que o SVH éfortemente adaptado para extrair informações dascaracterísticas estruturais de um quadro ou imagem.Logo, uma medida de similaridade estrutural (oudistorção) pode prover boa aproximação para aqualidade perceptual de um vídeo [3, 7–9]. Sejam x ey dois sinais não-negativos, em que y é o sinaldegradado e x é o sinal original (sem perda dequalidade), a medida de similaridade é utilizada comoum índice quantitativo de qualidade do sinal distorcido,ou seja, x é tomado como a referência para medir aqualidade de y . A métrica SSIM possui diversasextensões, dentre as quais a versão MS-SSIM,proposta por Wang et al. [13] que assume umaabordagem multiescalar.2.2. Métricas RRAs métricas de referência reduzida retiram certaquantidade de características do vídeo original (fonte),baseadas em componentes espaciais, temporais, nodomínio da frequência ou no �uxo de bits (bitstream).Este tipo de métrica é amplamente utilizada nomonitoramento de transmissões em rede [17]. Nestetipo de cenário de aplicação, o vídeo é transmitidocom uma sequência de informação codi�cada(overhead) e no lado receptor ocorre a suadecodi�cação, seguido pelo cálculo do índice dequalidade, o qual é obtido por meio da comparaçãoentre a representação reduzida da informação nospares emissor e receptor [18]. Tipicamente, métricasRR são implementadas por meio de funções, divididasem duas etapas [19]: (i) cálculo do erro entre osvídeos original e distorcido, constituído pela diferençade suas características, a �m de compor arepresentação reduzida da informação; (ii) função queagrupa os erros ou diferenças para obter um índice dequalidade global. Algumas métricas RR explorampropriedades dos artefatos, por meio da extração decaracterísticas e um modelo de parametrização [20]com foco em tipos especí�cos de distorções(artefatos). Esta abordagem é encontrada em Silva etal. [17], cujo cálculo do escore de qualidade ébaseado na diferença de atividade dos coe�cientesDCT (Discrete Cosine Transform) em um macro blococom resolução de 16�16 pixels.2.3. Métricas NRAs métricas NR extraem característicasrelacionadas ao SVH do vídeo distorcido, i.e., narecepção do sinal de vídeo [14]. Tipicamente, há duasabordagens no desenvolvimento destas métricas: (i)extração dos parâmetros sobre o �uxo de bits, taiscomo a taxa de compressão, informaçõesrelacionadas ao GoP (Group of Pictures), estimaçãode movimento, per�l e nível de codi�cação, bem comoo parâmetro de quantização ou QP (QuantizationParameter) [21–25]. Métricas NR apresentam maiorcomplexidade quando são aplicadas em vídeo, devidoà variação temporal dos quadros, conteúdos dascenas e à di�culdade de compreensão dascaracterísticas do SVH [26]. Assim, algumas métricasdessa categoria exploram características espaciais etemporais na estimação de qualidade de vídeo [21].3. MÉTODO PROPOSTOO método proposto, denominado NRVQA-ELMtc(No-Reference Video Quality Assessment usingExtreme Learning Machine algorithm with terminationcriteria) [27] combina características espaciais etemporais, por meio de uma rede neural arti�cialSLFNs usando o algoritmo de treinamento ELM [28]com a implementação de um simples critério deparada.3.1. Características espaço-temporaisAs características espaciais incorporadas nométodo proposto são baseadas em medidas deartefatos em vídeo digital, i.e., distorções de blocageme borramento desenvolvidas por Wang et al. [20].Assim, a componente de luminância do quadro f érepresentada por y(f , i, j ) com i � ��1,M�� e j � ��1, N�� ,em que M e N são os números de linhas e colunas,respectivamente, de um quadro. Logo, as diferençasde luminância ao longo das linhas e colunas sãorepresentadas, respectivamente, pelas expressões aseguir.� � � � � � � �� � � � � � � �, , , , 1 , , , 1, 1 ,, , , 1, , , , 1, 1 .hvd f i j y f i j y f i j j Nd f i j y f i j y f i j i M� � � � �� � � � �(3)O efeito de blocagem pode ser estimado pelamédia das diferenças entre as bordas dos blocos daDCT (Discrete Cosine Transform) nas direçõeshorizontal e vertical para uma sequência F dequadros, conforme mostra a Equação (4), com ummacrobloco de dimensão � �� , cujo tamanho típico éde � � 8 [20].� � ��� � � �111 1 1111 1 11, , 1 ,111, 1 , .11NF Mh hf i jMF Nvi jvfB d f i jNF MB d f i jMF N��������� � ���� � �� �� �� � � �� � �� �� �� � � �� � �� � �� � �(4)A medida de blocagem em uma sequência devídeo com F quadros é determinada pela média entreh B e v B , caracterizando a medida B , conforme aexpressão a seguir..2h v B BB�� (5)Os efeitos de borramento são estimados pelocálculo da redução de atividade entre os blocos � �� ,em que é usada a medida de blocagem nas direçõeshorizontal e vertical, conforme as expressões� � � �� �� � � �� �11 1 111 1 1, , ,1 1, ,1.1F M Nh h hf i jF M Nv vfvi jA d f i j BF M NA d f i j BF N M������ � ��� � �� �� � �� �� � �� � �� � �(6)A medida de borramento, representada por A ,conforme a Equação (7), é determinada pela médiaentre h A e v A ..2h v A AA�� (7)O segundo fator que contribui para a detecção doartefato de borramento é baseado na taxa decruzamento por zero (Zero Crossing – ZC) nasdireções horizontal e vertical, conforme as expressõesa seguir.� �� �� �� �21 1 121 1 11, , ,21, , ,2F M Nh hf i jF M Nv vf i jZ z f i jF M NZ z f i jF N M�� � ��� � ��� ��� �� � �� � �(8)em que os termos h z e v z são determinados por� �� �1, na direção horizontal, , ,0, caso contrário1, na direção vertical, , .0, caso contráriohvz f i jz f i j�� �� �� ��(9)Assim, a medida de borramento Z é determinadapela média entre as componentes h Z e v Z ..2h v Z ZZ�� (10)O método proposto também incorpora trêscaracterísticas temporais no treinamento da redeneural SLFN com o algoritmo ELM.A primeira característica temporal é a diferença demovimento entre quadros adjacentes, representadapela variável TI (Temporal perceptual Information) [31]que considera os valores de luminância de pixelslocalizados em uma mesma região de um quadro,conforme a expressão a seguir.� �21, , ,1FfTI m f i jF��� �� �� �� (11)em que o número total de quadros é F e � �m�f ,i, j ��� �é o desvio padrão da diferença de movimento(diferença de luminância) entre o quadro atualy �f ,i, j � e o quadro anterior y �f �1,i, j � .A segunda característica temporal é a média dadiferença absoluta (Mean Absolute Di�erence – MAD)[31] entre quadros sucessivos, representada pelaEquação (12) que de�ne a medida global da MADpara todos os quadros de um vídeo.� �� � � �2 1 11, , 1, , .1F M Nf i jMAD y f i j y f i jM N F � � �� � �� �� � �(12)A terceira característica temporal é a média dadiferença absoluta ponderada (weighted MeanAbsolute Di�erence – MADw) [32], a qual mede o graude variação das cenas de um vídeo que considera acena atual de um quadro f e do quadro anterior f �1,conforme a expressão:2 11.1Fff fMADMADwF � MAD �� �� � �� � ��(13)Assim, o método proposto combina ascaracterísticas espaciais e temporais em uma matriz� , , , , , � f f f f f f f x � A B Z TI MAD MADw , em que f é onúmero de amostras de vídeo. A Figura 1 apresentaas características temporais � espaciais de dezessetebases de dados de vídeos (denominada superconjuntoS) usadas neste trabalho e reportadas em [27]. Arecomendação ITU-T P.910 [31] de�ne a medida SI(Spatial perceptual Information) como informaçãoespacial perceptual. A inspeção visual dessa �guramostra que as amostras de vídeo usadas nestetrabalho apresentam uma grande variação espaçotemporal.Fig. 1. Características espaciais e temporais do superconjuntoS com 216 amostras de referência3.2. Métrica NRVQA-ELMtcO algoritmo ELM [28] desenvolvido para otreinamento de uma rede SLFN atribui pesos epolarizações (biases) de maneira aleatória, segundouma distribuição uniforme. O treinamento compreendeN amostras distintas representadas pela variável�� , � , , 1, , � n mf f f f � � x t x � t � f � N , cujo cálculo éconforme a expressão� � � �1, 1, , ,KK i j j f j fff � g b f N�x � � w x � � o � (14)em que f o é a saída (escore objetivo), g(x) é afunção de ativação e j � é o peso que conecta o jésimoneurônio da camada oculta ao neurônio desaída. De acordo com [28], uma rede SLFN com Knós na camada oculta e uma função de ativação g(x)pode apresentar um erro médio próximo de zero, i.e.,10Kf ff �� o � t � . Logo, há parâmetros j � , j w e j b talque� �1, 1, , ,Kj j f j ff� g b f N�� w x � � t � (15)em que f t é o vetor alvo (escores subjetivos),T1, , j j jn � �w w � � � w é o vetor de peso que conecta o jésimoneurônio da camada oculta ao neurônio dacamada de entrada, j b denota a polarização (bias) doj-ésimo neurônio da camada oculta, � � j f w x é oproduto interno de j w e f x . A Figura 2 ilustra oalgoritmo ELM empregado em uma arquitetura derede neural SLFN.xi1βjN1jKtibjN input neuron K hidden neuron output neuronβ1βKwjFig. 2. Arquitetura de uma rede neural SLFN usando algoritmode treinamento ELMO sistema linear da Equação (16) resume o métododo algoritmo ELM.Hβ � T, (16)em que a matriz da camada oculta é representada por� � � 1, , and 1, , � � H � h f � N j � K com a primeiralinha da matriz de características f x igual aT1 2 , , , f f f fn x � ��x x x �� , i.e., a primeira linha é igual a� � 1 1 1 1 1 1 1 , , , , , f f f f f f f x � A B Z TI MAD MADw . A matriz desaída e o vetor alvo (target) são de�nidos comoT1 , K β � ��β β �� eT1, , N T � ��t t �� , respectivamente. Otermo � �T1 , 1, , j jm j � � � j � K � � β β β denota o vetor depeso que conecta o j-ésimo neurônio da camadaoculta e os neurônios de saída. Hung et al. [28]propuseram a atribuição aleatória de pesos aosparâmetros j w e j b , a �m de seja obtido um pequenoerro não-nulo durante o treinamento. Considerando osistema linear da Equação (17), os pesos da camadade saída podem ser aproximados por† β � H T (17)em que † H é de�nida como matriz inversageneralizada de Moore-Penrose (MP) [33] da matrizde saída da camada oculta �H� . Além disso, oconjunto de treinamento � , nó oculta K e umafunção de ativação g �x � , e.g., função de base radial(Radial Basis Function – RBF), hard-limiting (hardlim),sigmoidal (sig) e seno (sin). Em resumo, o algoritmoELM compreende três etapas [28]:i) Atribuição aleatória dos pesos de entrada j w epolarizações j b ;ii) Cálculo da matriz da camada de saída H ;iii) Cálculo dos pesos de saída † β: β� H T .O método NRVQA-ELMtc [27] implementa umsimples critério de parada no treinamento da redeneural SLFN, quanto à atribuição aleatória dos pesosj w e j b . Embora este critério não seja direcionado,busca os pesos relacionados com o menor RMSE(Root-Mean-Square Error) entre a saída desejada(escore subjetivo) e o escore objetivo na fase detreinamento com k iterações (tipicamente, k � 100 ) eN neurônios na camada oculta. Além disso, conformeestudo realizado em [27], caso o RMSE seja menor doque 0,5 o algoritmo cessa a busca pelos parâmetrosj w e j b .4. RESULTADOS EXPERIMENTAISEsta seção apresenta os resultados de acurácia,i.e., os coe�cientes de correlação linear de Pearson(Pearson Linear Correlation Coe�cient – PLCC) [34],[35], entre os escores objetivos e subjetivos de 2627amostras de vídeo estudadas em [27].A Figura 3 compara a acurácia (PLCC) entre asmétricas de referência completa (FR) PSNR e MSSSIMcom o método proposto (NRVQA-ELMtc) paraas 2627 amostras de vídeo, pertencentes a 17 basesde dados de vídeo disponibilizadas por diversasinstituições e laboratórios [27]. A função de ativaçãousada na rede neural SLFN foi o seno (sin) com onúmero de amostras de teste igual ao número deneurônios na camada oculta ( N ). O método devalidação cruzada múltipla (K-fold) foi usado com oobjetivo de gerar uma distribuição de acurácia, a qualfoi analisada por meio do diagrama de caixa (box-plot)[36], em que o traço, o círculo e o quadrado, ambosem vermelho, representam a mediana, a média e odesvio padrão, respectivamente. Destaca-se queneste trabalho foi empregada uma validação cruzadacom um grande número de amostras de treinamentotestecom K � 100 , i.e., cada caixa do box-plotcomporta 100 experimentos distintos. Tipicamente, aliteratura apresenta trabalhos no campo da avaliaçãoFig. 3. Box-plot da predição da acurácia (PLCC) entre as métricas PSNR, MS-SSIM e o método proposto NRVQA-ELMtcde qualidade de vídeo com K entre 5 e 10 [37], [38].Pela inspeção visual da Figura 3 observa-se que odesempenho do método proposto é superior àsmétricas FR, em quaisquer condições de teste, i.e.,para qualquer quantidade de amostras de teste(número de neurônios na camada oculta) entre 25 e500. Em especial, para N � 50 , o método propostoapresenta valores de PLCC, em termos da média emediana, acima de 0,8, denotando uma forteassociação entre os escores objetivos e subjetivos, natarefa de predição de qualidade de vídeo. Isto ocorredevido à grande quantidade de amostras de vídeousadas no treinamento, e.g., para N � 300 foramusadas 2327 amostras de treinamento, ou seja,mesmo usando pares de treinamento-teste disjuntos,o método proposto mostra uma acurácia superior àsmétricas de referência completa. A assimetria positiva,i.e., a maior concentração da acurácia entre osegundo quartil (mediana) e o terceiro quartil, nadistribuição do box-plot nos testes com 300 e 500neurônios na camada oculta, indica que o métodoproposto apresenta um desempenho expressivo emcomparação com as métricas FR.Entretanto, mesmo para N entre 25 e 50, ométodo proposto apresentou uma acurácia maior doque as métricas FR, cujo melhor resultado foi paraN � 25 com o desvio-quartil (amplitude interquartílica)con�nado entre 0,65 e 0,8. Além disso, este resultadotambém apresentou assimetria positiva com a médiado PLCC em torno de 0,75.5. CONCLUSÃOEste trabalho apresentou uma métrica NR baseadaem uma rede neural arti�cial SLFN, cujo treinamento édeterminado pelo algoritmo ELM, o qual consideracaracterísticas espaço-temporais e os escoressubjetivos (alvos) extraídos de 2627 amostrastreinamento. Além disso, este trabalho propõe umaextensão do algoritmo ELM por meio de um simplescritério de parada, a �m de que sejam obtidosparâmetros da rede neural arti�cial relacionados como menor RMSE. Tipicamente, a comparação entremétricas FR e NR é injusta, devido à ausência dovídeo de referência na obtenção do escore dequalidade em métricas NR. Entretanto, os resultadosexperimentais mostram que o método propostoapresentou desempenho superior às métricas dereferência completa PSNR e MS-SSIM, sobretudo,quando o número de amostras de teste e de neurôniosna camada oculta da rede SLFN é maior do que 250.Logo, a métrica NRVQA-ELMtc pode ser empregadano monitoramento de qualidade em sistemas detransmissão e recepção de vídeo digital, tais comoIPTV (Internet Protocol Television), TV digital ou emdispositivos móveis, tais como ultrabooks,smartphones, tablets e em aparelhos WiDi (WirelessDisplay).REFERÊNCIAS[1] S. Winkler, “Issues in vision modeling for perceptualvideo quality assessment,” Signal Processing, vol. 78,no. 2, pp. 231–252, 1999.[2] Z. Wang and A. C. Bovik, Modern image qualityassessment. San Rafael, CA: Morgan & Claypool,2006.[3] W. Lin and C.-C. Jay Kuo, “Perceptual visual qualitymetrics: A survey,” Journal of Visual Communicationand Image Representation, vol. 22, no. 4, pp. 297–312,May 2011.[4] S. S. Hemami and A. R. Reibman, “No-reference imageand video quality estimation: Applications and humanmotivateddesign,” Signal Processing: ImageCommunication, vol. 25, no. 7, pp. 469–481, 2010.[5] Z. Wang and A. Bovik, “Reduced- and No-ReferenceImage Quality Assessment,” IEEE Signal ProcessingMagazine, vol. 28, no. 6, pp. 29–40, Nov. 2011.[6] R. V. Babu, S. Suresh, and A. Perkis, “No-referenceJPEG-image quality assessment using GAP-RBF,”Signal Processing, vol. 87, no. 6, pp. 1493–1503, 2007.[7] X. Jiang, F. Meng, J. Xu, and W. Zhou, “No-ReferencePerceptual Video Quality Measurement for HighDe�nition Videos Based on an Arti�cial NeuralNetwork,” in Computer and Electrical Engineering,2008. ICCEE 2008. International Conference on, 2008,pp. 424–427.[8] J. Choe, K. Lee, C. Lee, and S. Korea, “No-referencevideo quality measurement using neural networks,” in2009 16th International Conference on Digital SignalProcessing, 2009, pp. 1–4.[9] S. Suresh, R. Venkatesh Babu, and H. J. Kim, “Noreferenceimage quality assessment using modi�edextreme learning machine classi�er,” Applied SoftComputing, vol. 9, no. 2, pp. 541–552, Mar. 2009.[10] A. M. Eskicioglu and P. S. Fisher, “Image qualitymeasures and their performance,” IEEE Transactionson Communications, vol. 43, no. 12, pp. 2959–2965,1995.[11] U. Engelke and H.-J. Zepernick, “Perceptual-basedQuality Metrics for Image and Video Services: ASurvey,” in Proceedings EuroNGI Conf. NextGeneration Internet Networks, 2007, pp. 190–197.[12] Z. Wang, A. C. Bovik, H. R. Sheikh, and E. PSimoncelli, “Image quality assessment: from errorvisibility to structural similarity.,” IEEE Transactions onImage Processing, vol. 13, no. 4, pp. 600–612, 2004.[13] Z. Wang, E. P. Simoncelli, and A. C. Bovik, “Multiscalestructural similarity for image quality assessment,” inThe Thrity-Seventh Asilomar Conference on Signals,Systems & Computers, 2003, 2003, vol. 2, no. 1, pp.1398–1402.[14] H. R. Wu, K. R. Rao, and A. A. Kassim, “Digital VideoImage Quality and Perceptual Coding,” Journal ofElectronic Imaging, vol. 16, no. 3, 2007.[15] Z. Wang and A. C. Bovik, “A universal image qualityindex,” IEEE Signal Processing Letters, vol. 9, no. 3,pp. 81–84, Mar. 2002.[16] Y. Shi, Y. Ding, R. Zhang, and J. Li, “Structure and HueSimilarity for Color Image Quality Assessment,” in 2009International Conference on Electronic ComputerTechnology, 2009, pp. 329–333.[17] W. B. Silva, A. A. P. Pohl, and K. V. O. Fonseca, “AReduced-Reference Video Quality Assessment Methodbased on the Activity-Di�erence of DCT Coe�cients,”IEICE Transactions on Information and Systems, vol. E96-D, no. 3, 2013.[18] P. Le Callet, C. Viard-Gaudin, and D. Barba, “A Convolutional Neural Network Approach for Objective Video Quality Assessment,” IEEE Transactions on Neural Networks, vol. 17, no. 5, pp. 1316–1327, 2006.[19] P. Le Callet and D. Barba, “Image Quality Assessment: From Sites Errors to a Global Appreciation of Quality,” in Proceedings of the Picture Coding Sympsium, 2001, pp. 105–108.[20] M. Miyahara, K. Kotani, and V. R. Algazi, “Objective picture quality scale (PQS) for image coding,” IEEE Transactions on Communications, vol. 46, no. 9, pp. 1215–1226, 1998.[21] M. Slanina, V. Ricny, and R. Forchheimer, “A Novel Metric for H.264/AVC No-Reference Quality Assessment,” in 14th International Workshop on Systems, Signals and Image Processing and 6th EURASIP Conference focused on Speech and Image Processing, Multimedia Communications and Services, 2007, pp. 114–117.[22] O. Sugimoto, S. Naito, S. Sakazawa, and A. Koike, “Objective perceptual video quality measurement method based on hybrid no reference framework,” in 16th IEEE International Conference on Image Processing (ICIP’09), 2009, pp. 2237–2240.[23] T. Oelbaum, C. Keimel, and K. Diepold, “Rule-Based No-Reference Video Quality Evaluation Using Additionally Coded Videos,” IEEE Journal of Selected Topics in Signal Processing, vol. 3, no. 2, pp. 294–303, 2009.[24] N. Staelens, N. Vercammen, Y. Dhondt, B. Vermeulen, P. Lambert, R. de Walle, and P. Demeester, “ViQID: A No-Reference bit stream-based visual quality impairment detector,” in Proceedings of the Second Int Quality of Multimedia Experience (QoMEX) Workshop, 2010, pp. 206–211.[25] F. Yang, S. Wan, Q. Xie, and H. R. Wu, “No-Reference Quality Assessment for Networked Video via Primary Analysis of Bit Stream,” IEEE Transactions on Circuits and Systems for Video Technology, vol. 20, no. 11, pp. 1544–1554, Nov. 2010.[26] Z. Wang, H. R. Sheikh, and A. C. Bovik, “Objective Video Quality Assessment,” in The Handbook of Video Databases: Design and Applications, B. Furht and O. Marques, Eds. Boca Raton, FL, USA: CRC Press, 2003, pp. 1041–1078.[27] W. B. da Silva and A. de A. P. Pohl, “Métodos Sem Referência Baseados em Características Espaço-Temporais para Avaliação Objetiva de Qualidade de Vídeo Digital,” Universidade Tecnológica Federal do Paraná (UTFPR), 2013.[28] G.-B. Huang, Q.-Y. Zhu, and C.-K. Siew, “Extreme learning machine: Theory and applications,” Neurocomputing, vol. 70, no. 1–3, pp. 489–501, Dec. 2006.[29] Z. Wang, H. R. Sheikh, and A. C. Bovik, “No-reference perceptual quality assessment of JPEG compressed images,” in Image Processing. 2002. Proceedings. IEEE International Conference on Image Processing, 2002, vol. 1, pp. vol.1 I–477 – I–480.[30] W. B. Silva and A. A. P. Pohl, “No-Reference Video Quality Assessment Method based on the Levenberg-Marquardt Minimization,” in XXX Brazilian Symposium on Telecommunications (SBrT’12), 2012.[31] ITU-T P.910, “Subjective video quality assessment methods for multimedia applications,” Standardization Sector of ITU, 1999.[32] W. Ding, Y. Tong, Q. Zhang, and D. Yang, “Image and Video Quality Assessment Using Neural Network and SVM,” Tsinghua Science &amp; Technology, vol. 13, no. 1, pp. 112–116, 2008.[33] K. S. Banerjee, C. R. Rao, and S. K. Mitra, “Generalized Inverse of Matrices and Its Applications,” Technometrics, vol. 15, no. 1, p. 197, Feb. 1973.[34] VQEG, “Final report from the video quality experts group on the validation of reduced-reference and no-reference objective models for standard de�nition television, Phase I,” 2009.[35] VQEG, “Report on the validation of video quality models for high de�nition video content,” 2010.[36] J. W. Tukey, Exploratory Data Analysis. New York: Addison-Wesley Publishing Company, 1977.[37] P. Gastaldo and R. Zunino, “Neural networks for the no-reference assessment of perceived quality,” J. Electronic Imaging, vol. 14, no. 3, p. 033004, 2005.[38] R. Herzog, M. Čadík, T. O. Aydın, K. I. Kim, K. Myszkowski, and H.-P. Seidel, “NoRM: No-Reference Image Quality Metric for Realistic Image Synthesis,” Comp. Graph. Forum, vol. 31, no. 2pt4, pp. 545–554, 2012.

Revista de Radiodifusão • v. 08 • n. 09 • 201446 39

Paulo A.B.Iasbech, Cristiana Freitas, Benny Ricciardi Jorge, Aldo von Wangenheim

top box. A integração da conexão 3G permite a comunicação bidirecional, com a troca de dados criptografados. O canal de retorno proporcionado pela telecomunicação intensifica a interação da audiência junto à aplicação e amplia as possibilidades de diálogo gama de serviços públicos possíveis de serem ofertados.

O estudo ora apresentado objetiva apresentar o Brasil 4D/DF, sua tecnologia, modelagem conceitual, definições de linguagem audiovisual, do design e usabilidade das interfaces e suas perspectivas, como ferramenta de comunicação eficaz para a inclusão social, ampliando o acesso e uso de informações e serviços públicos pela população de baixa renda, permitindo a inclusão social e digital por meio da televisão digital pública interativa.

2. CENÁRIO E OBJETIVOS

O Brasil 4D busca aproximar os serviços públicos da população de baixa renda e incluí-los no novo ambiente de comunicação, digital, convergente e bidirecional. De acordo com a pesquisa TIC Domicílios 2013 (Cetic.br, 2014), a banda larga domiciliar atinge cerca de 43% da população brasileira, entretanto, apenas 8% dos domicílios, ou 17% da população, das classes D e E têm acesso à internet. Além disso, 49,9 milhões de pessoas com renda familiar de até dois salários mínimos não são usuárias de Internet. Por outro lado, a televisão esta presente em mais de 98% dos lares brasileiros, favorecendo o uso da plataforma para estreitar a comunicação com a população de baixa renda.

O projeto Brasil 4D/DF foi planejado para atender, inicialmente, 300 famílias de baixa renda integrantes dos programas Bolsa Família e DF Sem Miséria, residentes em duas regiões do Distrito Federal: Ceilândia e Samambaia.

Cada uma das famílias sorteadas para participar do projeto recebeu em sua casa uma antena digital externa, um conversor digital (set top box) com controle remoto, e treinamento para utilização do sistema.

No DF, o Brasil 4D aprofundou a associação da linguagem televisiva - a qual o público alvo esta habituado, para apresentar as aplicações com oferta de serviços interativos.

3. CONTEXTO TECNOLÓGICO

O projeto Brasil 4D explora todas as possibilidades da convergência tecnológica proporcionada pelo ISDB-Tb. Pela primeira vez no Brasil, a radiodifusão e a telecomunicação integraram esforços para uso do canal de retorno 3G na programação da TVDi. Isto foi possível graças a tecnologia nipo-brasileira que configurou o padrão brasileiro de TV digital (ISDB-Tb), público e

gratuito, e pela exploração das possibilidades interativas da versão completa do middleware Ginga.

Desenvolvido em plataforma “opensource”, o Ginga é subdividido em dois subsistemas, Ginga-NCL e o Ginga-J, e possui código aberto. . . Aliado a sua eficiência, tal motivo o fez ser o software recomendado pela União Internacional de Telecomunicações (ITU) para sistemas de TVDi (ITU-T, 2011).

Junto com o Ginga, utilizou-se da tecnologia conhecida como “Push VoD” (video on demand). Baseado em multicast e download direto de um conteúdo para o set-top box (BESSLER, 2008), foi possível viabilizar a atualização de vídeos pelo ar e adoção de uma grade de programação de conteúdos audiovisuais ao longo do projeto.

4. CONTEXTO SOCIOCULTURAL

A definição e estudo do perfil de um público-alvo é um aspecto essencial para o sucesso de um produto. Por isso, além da observação direta dos hábitos e uso das TICs pela audiência, foi utilizada a Pesquisa Distrital por Amostra de Domicílios (PDAD) realizada pela Companhia de Planejamento do Distrito Federal (CODEPLAN), nos municípios de Ceilândia e Samambaia em 2013.

De acordo com a pesquisa, ambos os municípios apresentam famílias com residências predominantes de dois dormitórios, 42,54% na Ceilândia e 49,12% em Samambaia, e três ou mais dormitórios, 42,21% na Ceilândia e 37,81% em Samambaia.

O nível de instrução da população de ambos os municípios é alarmantemente baixo, onde 3,41% dos moradores de Ceilândia são analfabetos, 38,11% possuem o ensino fundamental incompleto e somente 21,98% possuem ensino médio completo. O cenário em Samambaia não possui divergências significativas, apresentando 2,22% dos moradores analfabetos, 32% com ensino fundamental incompleto e 23,20% possuem ensino médio completo. O hábito de leitura também é muito pouco presente em tais regiões, onde somente 11,41% dos moradores leem 1 a 2 livros por ano em Samambaia e 11,18% em Ceilândia.

A tecnologia é um fator muito presente entre os domicílios de ambas as regiões administrativas. Ceilândia apresenta a presença um microcomputador em 48,67% dos domicílios e 12,61% possui ao menos um notebook. Samambaia apresenta a presença de um microcomputador em 52,39% dos domicílios e 10,59% possui ao menos um notebook. A televisão esta presente em 91,1% dos lares de Ceilândia e 86,8% de Samambaia. Mais de 30% têm mais de um aparelho de TV em casa, e, ainda, 12,10% das TVs de Ceilândia e 14,41% de Samambaia são LCD ou plasma.

Page 47: Revista de RADIODIFUSÃO - SET PORTAL · Sinais de TV Digital ISDB-Tb via VHF e UHF na Cidade do Gama – DF – Brasil Akamine, Cristiano Bedicks Jr, Gunnar ... cujas frequências

MÉTRICA SEM REFERÊNCIA BASEADA EM REDES NEURAISPARA AVALIAÇÃO OBJETIVA DE QUALIDADE DE VÍDEO DIGITALWyllian Bezerra da Silva, Alexandre de Almeida Prado PohlPrograma de Pós-Graduação em Engenharia Elétrica e Informática Industrial (CPGEI) – UTFPR, Curitiba, [email protected], [email protected]: Este trabalho apresenta uma métrica sem referência para avaliação de qualidade de vídeo digital baseada em uma rede neural arti�cial que usa uma versão estendida do algoritmo de aprendizado ELM (Extreme Learning Machine). O método proposto realiza o treinamento da rede neural a partir de seis características espaço-temporais. Os resultados experimentais mostram que o método proposto apresenta desempenho superior às métricas de referência completa PSNR e MS-SSIM na tarefa de predição de qualidade de vídeo. Logo, o método proposto pode ser usado no monitoramento de qualidade em sistemas de transmissão e recepção de vídeo digital, tais como IPTV e TV digital.Palavras chave: algoritmo ELM, avaliação objetiva de vídeo, métrica sem referência, rede neural arti�cial.1. INTRODUÇÃODurante os últimos anos, a literatura tem apresentado um número crescente publicações acerca de métricas objetivas para avaliação de qualidade de vídeo para diversas aplicações em radiodifusão ou no processamento de vídeo digital, seja na aquisição do sinal, codi�cação e decodi�cação, compressão, transmissão, restauração, armazenamento, segmentação e exibição de sinais de vídeo digital [1–4]. A avaliação de qualidade de vídeo digital pode ser realizada por meio de métricas subjetiva e objetiva. A primeira requer uma grande quantidade de recursos humanos e apresenta elevado custo em sua implementação [1–3]. Porém, as métricas objetivas são vantajosas quando apresentam um determinado grau de correlação com as métricas subjetivas. Logo, o desenvolvimento destas é um desa�o no campo de avaliação de qualidade de vídeo e imagem. Além disso, as métricas objetivas, devido à natureza de seu critério objetivo, independem de interação humana e são facilmente reprodutíveis [3]. Dentre as métricas objetivas destacam-se as métricas sem referência (No-Reference – NR), pois não necessitam do vídeo de referência no cálculo de sua medida. Entretanto, estas requerem um conhecimento a priori sobre as distorções em vídeo digital para que seja estabelecida uma correlação com os resultados subjetivos [3].A maioria das métricas NR encontradas na literatura são baseadas na avaliação de qualidade de imagens e em características relacionadas ao Sistema Visual Humano (SVH). Assim, o desenvolvimento de métricas NR é difícil, devido à necessidade de emular a percepção do SVH que envolve aspectos cognitivos, emocionais e estéticos relacionados ao conteúdo do vídeo e que são altamente dependentes do observador [4], [5].A literatura reporta diversos esforços no desenvolvimento de métricas para avaliação de qualidade de vídeo baseadas em redes neurais e em algoritmos de aprendizado. Babu et al. [6] apresentam uma métrica para avaliar a qualidade de imagens comprimidas em JPEG (Joint Photographic Experts Group) por meio de um algoritmo de aprendizado de crescimento e propõem o uso de uma rede neural GAP-RBF (Growing and Pruning Radial Basis Function) que usa características relacionadas ao SVH. Jiang et al. [7] desenvolveram uma métrica NR para avaliação de qualidade de vídeo em HD (High De�nition) baseada em uma rede neural treinada pelo algoritmo BP (Back-Propagation) que usa seis características espaço-temporais e a RoI (Region of Interest). Choe et al. [8] desenvolveram uma métrica NR baseada no �uxo de bits para avaliação de qualidade de vídeo codi�cado em H.264. Esta métrica extrai características quadro a quadro e usa uma rede neural alimentada adiante (feedforward) com três camadas. Suresh et al. [9] apresentaram uma extensão do algoritmo ELM na tarefa de avaliar a qualidade de imagens comprimidas em JPEG com base no esquema de seleção múltipla KS-ELM (K-fold selection Scheme using ELM) e no algoritmo RCGA-ELM (Real-Coded Genetic Algorithm using ELM) para seleção dos pesos de entrada e polarizações.Este trabalho apresenta uma versão estendida do algoritmo ELM para redes neurais SLFN (Single-hidden-Layer Feedforward Neural Networks) que implementa um simples critério de parada na fase de treinamento. Além disso, esse método usa seis características espaço-temporais de vídeos submetidos a diversas condições de distorção.Este artigo está dividido da seguinte maneira: a Seção 2 descreve as métricas para avaliação de qualidade de vídeo. A Seção 3 descreve o método NR proposto para avalição de qualidade de vídeo digital. A Seção 4 apresenta os resultados experimentais, em que são comparados o método NR proposto e duas métricas FR. Finalmente, a Seção 5 apresenta a conclusão do artigo.2. AVALIAÇÃO DE QUALIDADE DE VÍDEOO processo de avaliação de qualidade de vídeopode ser realizado com a aplicação de métricassubjetivas ou objetivas. As métricas subjetivasestimam a qualidade do vídeo por meio de avaliadoreshumanos. Logo, exigem um alto custo, poisnecessitam de uma grande quantidade de recursoshumanos e apresentam problemas quanto aosrequisitos de imparcialidade e reprodutibilidade,tornando-se inapropriadas em sistemas deradiodifusão ou em provedores de conteúdo [10], [11].Por outro lado, as métricas objetivas são baseadas emmodelos matemáticos, cujo objetivo é produzir umescore de qualidade que emule a percepção do SVH.Além disso, as métricas objetivas requerem baixocusto de implementação (quando comparadas com asmétricas subjetivas) e não apresentam problemasquanto à reprodutibilidade e imparcialidade.As métricas objetivas para avaliação de qualidadede vídeo podem ser classi�cadas em três categorias:(i) métricas de referência completa (Full-Reference –FR); (ii) métricas de referência reduzida (Reduced-Reference – RR); (iii) métricas sem referência (NR).2.1. Métricas FRAs métricas FR requerem o vídeo de referência(fonte) no cálculo do escore de qualidade. Estasmétricas são amplamente utilizadas no processo devalidação de métricas RR ou NR, por meio dacomparação de desempenho de�nida pelasrecomendações do Grupo de Especialistas emQualidade de Vídeo (VQEG – Video Quality ExpertsGroup) que é um órgão de padronização internacionalde métricas subjetivas e objetivas de qualidade devídeo. Dentre as métricas FR, destacam-se o PSNR(Peak Signal-to-Noise Ratio), SSIM (StructuralSIMilarity index) [12] e MS-SSIM (Multi-ScaleStructural SIMilarity index) [13].O PSNR é uma métrica FR baseada no erro pixel apixel de fácil implementação. Entretanto, apresentabaixa correlação com o SVH [14]. A sua medida éprocessada sobre o erro quadro a quadro, i.e., entre oquadro original x e o quadro y . A expressão a seguirde�ne o PSNR para um conjunto de quadros F .2011PSNR 20log ,Fff fvF � MSE� �� � �� �� ��(1)com� � � �20 01MSE , , , , ,N Mfi jx f i j y f i jNM � �� ���� � ��(2)em que o termo f v é igual a (2 1) k � , cujo k é onúmero de bits por pixel, i.e., é a componente deluminância do quadro f . Os termos x �f ,i, j � ey �f ,i, j � são os valores de luminância do quadro deorigem e degradado, respectivamente. Ascomponentes bidimensionais são representadas pelonúmero de colunas N e pelo número de linhas M . Otermo f MSE é de�nido como erro quadrático médioou MSE (Mean Square Error).A métrica SSIM baseia-se no fato de que o SVH éfortemente adaptado para extrair informações dascaracterísticas estruturais de um quadro ou imagem.Logo, uma medida de similaridade estrutural (oudistorção) pode prover boa aproximação para aqualidade perceptual de um vídeo [3, 7–9]. Sejam x ey dois sinais não-negativos, em que y é o sinaldegradado e x é o sinal original (sem perda dequalidade), a medida de similaridade é utilizada comoum índice quantitativo de qualidade do sinal distorcido,ou seja, x é tomado como a referência para medir aqualidade de y . A métrica SSIM possui diversasextensões, dentre as quais a versão MS-SSIM,proposta por Wang et al. [13] que assume umaabordagem multiescalar.2.2. Métricas RRAs métricas de referência reduzida retiram certaquantidade de características do vídeo original (fonte),baseadas em componentes espaciais, temporais, nodomínio da frequência ou no �uxo de bits (bitstream).Este tipo de métrica é amplamente utilizada nomonitoramento de transmissões em rede [17]. Nestetipo de cenário de aplicação, o vídeo é transmitidocom uma sequência de informação codi�cada(overhead) e no lado receptor ocorre a suadecodi�cação, seguido pelo cálculo do índice dequalidade, o qual é obtido por meio da comparaçãoentre a representação reduzida da informação nospares emissor e receptor [18]. Tipicamente, métricasRR são implementadas por meio de funções, divididasem duas etapas [19]: (i) cálculo do erro entre osvídeos original e distorcido, constituído pela diferençade suas características, a �m de compor arepresentação reduzida da informação; (ii) função queagrupa os erros ou diferenças para obter um índice dequalidade global. Algumas métricas RR explorampropriedades dos artefatos, por meio da extração decaracterísticas e um modelo de parametrização [20]com foco em tipos especí�cos de distorções(artefatos). Esta abordagem é encontrada em Silva etal. [17], cujo cálculo do escore de qualidade ébaseado na diferença de atividade dos coe�cientesDCT (Discrete Cosine Transform) em um macro blococom resolução de 16�16 pixels.2.3. Métricas NRAs métricas NR extraem característicasrelacionadas ao SVH do vídeo distorcido, i.e., narecepção do sinal de vídeo [14]. Tipicamente, há duasabordagens no desenvolvimento destas métricas: (i)extração dos parâmetros sobre o �uxo de bits, taiscomo a taxa de compressão, informaçõesrelacionadas ao GoP (Group of Pictures), estimaçãode movimento, per�l e nível de codi�cação, bem comoo parâmetro de quantização ou QP (QuantizationParameter) [21–25]. Métricas NR apresentam maiorcomplexidade quando são aplicadas em vídeo, devidoà variação temporal dos quadros, conteúdos dascenas e à di�culdade de compreensão dascaracterísticas do SVH [26]. Assim, algumas métricasdessa categoria exploram características espaciais etemporais na estimação de qualidade de vídeo [21].3. MÉTODO PROPOSTOO método proposto, denominado NRVQA-ELMtc(No-Reference Video Quality Assessment usingExtreme Learning Machine algorithm with terminationcriteria) [27] combina características espaciais etemporais, por meio de uma rede neural arti�cialSLFNs usando o algoritmo de treinamento ELM [28]com a implementação de um simples critério deparada.3.1. Características espaço-temporaisAs características espaciais incorporadas nométodo proposto são baseadas em medidas deartefatos em vídeo digital, i.e., distorções de blocageme borramento desenvolvidas por Wang et al. [20].Assim, a componente de luminância do quadro f érepresentada por y(f , i, j ) com i � ��1,M�� e j � ��1, N�� ,em que M e N são os números de linhas e colunas,respectivamente, de um quadro. Logo, as diferençasde luminância ao longo das linhas e colunas sãorepresentadas, respectivamente, pelas expressões aseguir.� � � � � � � �� � � � � � � �, , , , 1 , , , 1, 1 ,, , , 1, , , , 1, 1 .hvd f i j y f i j y f i j j Nd f i j y f i j y f i j i M� � � � �� � � � �(3)O efeito de blocagem pode ser estimado pelamédia das diferenças entre as bordas dos blocos daDCT (Discrete Cosine Transform) nas direçõeshorizontal e vertical para uma sequência F dequadros, conforme mostra a Equação (4), com ummacrobloco de dimensão � �� , cujo tamanho típico éde � � 8 [20].� � ��� � � �111 1 1111 1 11, , 1 ,111, 1 , .11NF Mh hf i jMF Nvi jvfB d f i jNF MB d f i jMF N��������� � ���� � �� �� �� � � �� � �� �� �� � � �� � �� � �� � �(4)A medida de blocagem em uma sequência devídeo com F quadros é determinada pela média entreh B e v B , caracterizando a medida B , conforme aexpressão a seguir..2h v B BB�� (5)Os efeitos de borramento são estimados pelocálculo da redução de atividade entre os blocos � �� ,em que é usada a medida de blocagem nas direçõeshorizontal e vertical, conforme as expressões� � � �� �� � � �� �11 1 111 1 1, , ,1 1, ,1.1F M Nh h hf i jF M Nv vfvi jA d f i j BF M NA d f i j BF N M������ � ��� � �� �� � �� �� � �� � �� � �(6)A medida de borramento, representada por A ,conforme a Equação (7), é determinada pela médiaentre h A e v A ..2h v A AA�� (7)O segundo fator que contribui para a detecção doartefato de borramento é baseado na taxa decruzamento por zero (Zero Crossing – ZC) nasdireções horizontal e vertical, conforme as expressõesa seguir.� �� �� �� �21 1 121 1 11, , ,21, , ,2F M Nh hf i jF M Nv vf i jZ z f i jF M NZ z f i jF N M�� � ��� � ��� ��� �� � �� � �(8)em que os termos h z e v z são determinados por� �� �1, na direção horizontal, , ,0, caso contrário1, na direção vertical, , .0, caso contráriohvz f i jz f i j�� �� �� ��(9)Assim, a medida de borramento Z é determinadapela média entre as componentes h Z e v Z ..2h v Z ZZ�� (10)O método proposto também incorpora trêscaracterísticas temporais no treinamento da redeneural SLFN com o algoritmo ELM.A primeira característica temporal é a diferença demovimento entre quadros adjacentes, representadapela variável TI (Temporal perceptual Information) [31]que considera os valores de luminância de pixelslocalizados em uma mesma região de um quadro,conforme a expressão a seguir.� �21, , ,1FfTI m f i jF��� �� �� �� (11)em que o número total de quadros é F e � �m�f ,i, j ��� �é o desvio padrão da diferença de movimento(diferença de luminância) entre o quadro atualy �f ,i, j � e o quadro anterior y �f �1,i, j � .A segunda característica temporal é a média dadiferença absoluta (Mean Absolute Di�erence – MAD)[31] entre quadros sucessivos, representada pelaEquação (12) que de�ne a medida global da MADpara todos os quadros de um vídeo.� �� � � �2 1 11, , 1, , .1F M Nf i jMAD y f i j y f i jM N F � � �� � �� �� � �(12)A terceira característica temporal é a média dadiferença absoluta ponderada (weighted MeanAbsolute Di�erence – MADw) [32], a qual mede o graude variação das cenas de um vídeo que considera acena atual de um quadro f e do quadro anterior f �1,conforme a expressão:2 11.1Fff fMADMADwF � MAD �� �� � �� � ��(13)Assim, o método proposto combina ascaracterísticas espaciais e temporais em uma matriz� , , , , , � f f f f f f f x � A B Z TI MAD MADw , em que f é onúmero de amostras de vídeo. A Figura 1 apresentaas características temporais � espaciais de dezessetebases de dados de vídeos (denominada superconjuntoS) usadas neste trabalho e reportadas em [27]. Arecomendação ITU-T P.910 [31] de�ne a medida SI(Spatial perceptual Information) como informaçãoespacial perceptual. A inspeção visual dessa �guramostra que as amostras de vídeo usadas nestetrabalho apresentam uma grande variação espaçotemporal.Fig. 1. Características espaciais e temporais do superconjuntoS com 216 amostras de referência3.2. Métrica NRVQA-ELMtcO algoritmo ELM [28] desenvolvido para otreinamento de uma rede SLFN atribui pesos epolarizações (biases) de maneira aleatória, segundouma distribuição uniforme. O treinamento compreendeN amostras distintas representadas pela variável�� , � , , 1, , � n mf f f f � � x t x � t � f � N , cujo cálculo éconforme a expressão� � � �1, 1, , ,KK i j j f j fff � g b f N�x � � w x � � o � (14)em que f o é a saída (escore objetivo), g(x) é afunção de ativação e j � é o peso que conecta o jésimoneurônio da camada oculta ao neurônio desaída. De acordo com [28], uma rede SLFN com Knós na camada oculta e uma função de ativação g(x)pode apresentar um erro médio próximo de zero, i.e.,10Kf ff �� o � t � . Logo, há parâmetros j � , j w e j b talque� �1, 1, , ,Kj j f j ff� g b f N�� w x � � t � (15)em que f t é o vetor alvo (escores subjetivos),T1, , j j jn � �w w � � � w é o vetor de peso que conecta o jésimoneurônio da camada oculta ao neurônio dacamada de entrada, j b denota a polarização (bias) doj-ésimo neurônio da camada oculta, � � j f w x é oproduto interno de j w e f x . A Figura 2 ilustra oalgoritmo ELM empregado em uma arquitetura derede neural SLFN.xi1βjN1jKtibjN input neuron K hidden neuron output neuronβ1βKwjFig. 2. Arquitetura de uma rede neural SLFN usando algoritmode treinamento ELMO sistema linear da Equação (16) resume o métododo algoritmo ELM.Hβ � T, (16)em que a matriz da camada oculta é representada por� � � 1, , and 1, , � � H � h f � N j � K com a primeiralinha da matriz de características f x igual aT1 2 , , , f f f fn x � ��x x x �� , i.e., a primeira linha é igual a� � 1 1 1 1 1 1 1 , , , , , f f f f f f f x � A B Z TI MAD MADw . A matriz desaída e o vetor alvo (target) são de�nidos comoT1 , K β � ��β β �� eT1, , N T � ��t t �� , respectivamente. Otermo � �T1 , 1, , j jm j � � � j � K � � β β β denota o vetor depeso que conecta o j-ésimo neurônio da camadaoculta e os neurônios de saída. Hung et al. [28]propuseram a atribuição aleatória de pesos aosparâmetros j w e j b , a �m de seja obtido um pequenoerro não-nulo durante o treinamento. Considerando osistema linear da Equação (17), os pesos da camadade saída podem ser aproximados por† β � H T (17)em que † H é de�nida como matriz inversageneralizada de Moore-Penrose (MP) [33] da matrizde saída da camada oculta �H� . Além disso, oconjunto de treinamento � , nó oculta K e umafunção de ativação g �x � , e.g., função de base radial(Radial Basis Function – RBF), hard-limiting (hardlim),sigmoidal (sig) e seno (sin). Em resumo, o algoritmoELM compreende três etapas [28]:i) Atribuição aleatória dos pesos de entrada j w epolarizações j b ;ii) Cálculo da matriz da camada de saída H ;iii) Cálculo dos pesos de saída † β: β� H T .O método NRVQA-ELMtc [27] implementa umsimples critério de parada no treinamento da redeneural SLFN, quanto à atribuição aleatória dos pesosj w e j b . Embora este critério não seja direcionado,busca os pesos relacionados com o menor RMSE(Root-Mean-Square Error) entre a saída desejada(escore subjetivo) e o escore objetivo na fase detreinamento com k iterações (tipicamente, k � 100 ) eN neurônios na camada oculta. Além disso, conformeestudo realizado em [27], caso o RMSE seja menor doque 0,5 o algoritmo cessa a busca pelos parâmetrosj w e j b .4. RESULTADOS EXPERIMENTAISEsta seção apresenta os resultados de acurácia,i.e., os coe�cientes de correlação linear de Pearson(Pearson Linear Correlation Coe�cient – PLCC) [34],[35], entre os escores objetivos e subjetivos de 2627amostras de vídeo estudadas em [27].A Figura 3 compara a acurácia (PLCC) entre asmétricas de referência completa (FR) PSNR e MSSSIMcom o método proposto (NRVQA-ELMtc) paraas 2627 amostras de vídeo, pertencentes a 17 basesde dados de vídeo disponibilizadas por diversasinstituições e laboratórios [27]. A função de ativaçãousada na rede neural SLFN foi o seno (sin) com onúmero de amostras de teste igual ao número deneurônios na camada oculta ( N ). O método devalidação cruzada múltipla (K-fold) foi usado com oobjetivo de gerar uma distribuição de acurácia, a qualfoi analisada por meio do diagrama de caixa (box-plot)[36], em que o traço, o círculo e o quadrado, ambosem vermelho, representam a mediana, a média e odesvio padrão, respectivamente. Destaca-se queneste trabalho foi empregada uma validação cruzadacom um grande número de amostras de treinamentotestecom K � 100 , i.e., cada caixa do box-plotcomporta 100 experimentos distintos. Tipicamente, aliteratura apresenta trabalhos no campo da avaliaçãoFig. 3. Box-plot da predição da acurácia (PLCC) entre as métricas PSNR, MS-SSIM e o método proposto NRVQA-ELMtcde qualidade de vídeo com K entre 5 e 10 [37], [38].Pela inspeção visual da Figura 3 observa-se que odesempenho do método proposto é superior àsmétricas FR, em quaisquer condições de teste, i.e.,para qualquer quantidade de amostras de teste(número de neurônios na camada oculta) entre 25 e500. Em especial, para N � 50 , o método propostoapresenta valores de PLCC, em termos da média emediana, acima de 0,8, denotando uma forteassociação entre os escores objetivos e subjetivos, natarefa de predição de qualidade de vídeo. Isto ocorredevido à grande quantidade de amostras de vídeousadas no treinamento, e.g., para N � 300 foramusadas 2327 amostras de treinamento, ou seja,mesmo usando pares de treinamento-teste disjuntos,o método proposto mostra uma acurácia superior àsmétricas de referência completa. A assimetria positiva,i.e., a maior concentração da acurácia entre osegundo quartil (mediana) e o terceiro quartil, nadistribuição do box-plot nos testes com 300 e 500neurônios na camada oculta, indica que o métodoproposto apresenta um desempenho expressivo emcomparação com as métricas FR.Entretanto, mesmo para N entre 25 e 50, ométodo proposto apresentou uma acurácia maior doque as métricas FR, cujo melhor resultado foi paraN � 25 com o desvio-quartil (amplitude interquartílica)con�nado entre 0,65 e 0,8. Além disso, este resultadotambém apresentou assimetria positiva com a médiado PLCC em torno de 0,75.5. CONCLUSÃOEste trabalho apresentou uma métrica NR baseadaem uma rede neural arti�cial SLFN, cujo treinamento édeterminado pelo algoritmo ELM, o qual consideracaracterísticas espaço-temporais e os escoressubjetivos (alvos) extraídos de 2627 amostrastreinamento. Além disso, este trabalho propõe umaextensão do algoritmo ELM por meio de um simplescritério de parada, a �m de que sejam obtidosparâmetros da rede neural arti�cial relacionados como menor RMSE. Tipicamente, a comparação entremétricas FR e NR é injusta, devido à ausência dovídeo de referência na obtenção do escore dequalidade em métricas NR. Entretanto, os resultadosexperimentais mostram que o método propostoapresentou desempenho superior às métricas dereferência completa PSNR e MS-SSIM, sobretudo,quando o número de amostras de teste e de neurôniosna camada oculta da rede SLFN é maior do que 250.Logo, a métrica NRVQA-ELMtc pode ser empregadano monitoramento de qualidade em sistemas detransmissão e recepção de vídeo digital, tais comoIPTV (Internet Protocol Television), TV digital ou emdispositivos móveis, tais como ultrabooks,smartphones, tablets e em aparelhos WiDi (WirelessDisplay).REFERÊNCIAS[1] S. Winkler, “Issues in vision modeling for perceptualvideo quality assessment,” Signal Processing, vol. 78,no. 2, pp. 231–252, 1999.[2] Z. Wang and A. C. Bovik, Modern image qualityassessment. San Rafael, CA: Morgan & Claypool,2006.[3] W. Lin and C.-C. Jay Kuo, “Perceptual visual qualitymetrics: A survey,” Journal of Visual Communicationand Image Representation, vol. 22, no. 4, pp. 297–312,May 2011.[4] S. S. Hemami and A. R. Reibman, “No-reference imageand video quality estimation: Applications and humanmotivateddesign,” Signal Processing: ImageCommunication, vol. 25, no. 7, pp. 469–481, 2010.[5] Z. Wang and A. Bovik, “Reduced- and No-ReferenceImage Quality Assessment,” IEEE Signal ProcessingMagazine, vol. 28, no. 6, pp. 29–40, Nov. 2011.[6] R. V. Babu, S. Suresh, and A. Perkis, “No-referenceJPEG-image quality assessment using GAP-RBF,”Signal Processing, vol. 87, no. 6, pp. 1493–1503, 2007.[7] X. Jiang, F. Meng, J. Xu, and W. Zhou, “No-ReferencePerceptual Video Quality Measurement for HighDe�nition Videos Based on an Arti�cial NeuralNetwork,” in Computer and Electrical Engineering,2008. ICCEE 2008. International Conference on, 2008,pp. 424–427.[8] J. Choe, K. Lee, C. Lee, and S. Korea, “No-referencevideo quality measurement using neural networks,” in2009 16th International Conference on Digital SignalProcessing, 2009, pp. 1–4.[9] S. Suresh, R. Venkatesh Babu, and H. J. Kim, “Noreferenceimage quality assessment using modi�edextreme learning machine classi�er,” Applied SoftComputing, vol. 9, no. 2, pp. 541–552, Mar. 2009.[10] A. M. Eskicioglu and P. S. Fisher, “Image qualitymeasures and their performance,” IEEE Transactionson Communications, vol. 43, no. 12, pp. 2959–2965,1995.[11] U. Engelke and H.-J. Zepernick, “Perceptual-basedQuality Metrics for Image and Video Services: ASurvey,” in Proceedings EuroNGI Conf. NextGeneration Internet Networks, 2007, pp. 190–197.[12] Z. Wang, A. C. Bovik, H. R. Sheikh, and E. PSimoncelli, “Image quality assessment: from errorvisibility to structural similarity.,” IEEE Transactions onImage Processing, vol. 13, no. 4, pp. 600–612, 2004.[13] Z. Wang, E. P. Simoncelli, and A. C. Bovik, “Multiscalestructural similarity for image quality assessment,” inThe Thrity-Seventh Asilomar Conference on Signals,Systems & Computers, 2003, 2003, vol. 2, no. 1, pp.1398–1402.[14] H. R. Wu, K. R. Rao, and A. A. Kassim, “Digital VideoImage Quality and Perceptual Coding,” Journal ofElectronic Imaging, vol. 16, no. 3, 2007.[15] Z. Wang and A. C. Bovik, “A universal image qualityindex,” IEEE Signal Processing Letters, vol. 9, no. 3,pp. 81–84, Mar. 2002.[16] Y. Shi, Y. Ding, R. Zhang, and J. Li, “Structure and HueSimilarity for Color Image Quality Assessment,” in 2009International Conference on Electronic ComputerTechnology, 2009, pp. 329–333.[17] W. B. Silva, A. A. P. Pohl, and K. V. O. Fonseca, “AReduced-Reference Video Quality Assessment Methodbased on the Activity-Di�erence of DCT Coe�cients,”IEICE Transactions on Information and Systems, vol. E96-D, no. 3, 2013.[18] P. Le Callet, C. Viard-Gaudin, and D. Barba, “A Convolutional Neural Network Approach for Objective Video Quality Assessment,” IEEE Transactions on Neural Networks, vol. 17, no. 5, pp. 1316–1327, 2006.[19] P. Le Callet and D. Barba, “Image Quality Assessment: From Sites Errors to a Global Appreciation of Quality,” in Proceedings of the Picture Coding Sympsium, 2001, pp. 105–108.[20] M. Miyahara, K. Kotani, and V. R. Algazi, “Objective picture quality scale (PQS) for image coding,” IEEE Transactions on Communications, vol. 46, no. 9, pp. 1215–1226, 1998.[21] M. Slanina, V. Ricny, and R. Forchheimer, “A Novel Metric for H.264/AVC No-Reference Quality Assessment,” in 14th International Workshop on Systems, Signals and Image Processing and 6th EURASIP Conference focused on Speech and Image Processing, Multimedia Communications and Services, 2007, pp. 114–117.[22] O. Sugimoto, S. Naito, S. Sakazawa, and A. Koike, “Objective perceptual video quality measurement method based on hybrid no reference framework,” in 16th IEEE International Conference on Image Processing (ICIP’09), 2009, pp. 2237–2240.[23] T. Oelbaum, C. Keimel, and K. Diepold, “Rule-Based No-Reference Video Quality Evaluation Using Additionally Coded Videos,” IEEE Journal of Selected Topics in Signal Processing, vol. 3, no. 2, pp. 294–303, 2009.[24] N. Staelens, N. Vercammen, Y. Dhondt, B. Vermeulen, P. Lambert, R. de Walle, and P. Demeester, “ViQID: A No-Reference bit stream-based visual quality impairment detector,” in Proceedings of the Second Int Quality of Multimedia Experience (QoMEX) Workshop, 2010, pp. 206–211.[25] F. Yang, S. Wan, Q. Xie, and H. R. Wu, “No-Reference Quality Assessment for Networked Video via Primary Analysis of Bit Stream,” IEEE Transactions on Circuits and Systems for Video Technology, vol. 20, no. 11, pp. 1544–1554, Nov. 2010.[26] Z. Wang, H. R. Sheikh, and A. C. Bovik, “Objective Video Quality Assessment,” in The Handbook of Video Databases: Design and Applications, B. Furht and O. Marques, Eds. Boca Raton, FL, USA: CRC Press, 2003, pp. 1041–1078.[27] W. B. da Silva and A. de A. P. Pohl, “Métodos Sem Referência Baseados em Características Espaço-Temporais para Avaliação Objetiva de Qualidade de Vídeo Digital,” Universidade Tecnológica Federal do Paraná (UTFPR), 2013.[28] G.-B. Huang, Q.-Y. Zhu, and C.-K. Siew, “Extreme learning machine: Theory and applications,” Neurocomputing, vol. 70, no. 1–3, pp. 489–501, Dec. 2006.[29] Z. Wang, H. R. Sheikh, and A. C. Bovik, “No-reference perceptual quality assessment of JPEG compressed images,” in Image Processing. 2002. Proceedings. IEEE International Conference on Image Processing, 2002, vol. 1, pp. vol.1 I–477 – I–480.[30] W. B. Silva and A. A. P. Pohl, “No-Reference Video Quality Assessment Method based on the Levenberg-Marquardt Minimization,” in XXX Brazilian Symposium on Telecommunications (SBrT’12), 2012.[31] ITU-T P.910, “Subjective video quality assessment methods for multimedia applications,” Standardization Sector of ITU, 1999.[32] W. Ding, Y. Tong, Q. Zhang, and D. Yang, “Image and Video Quality Assessment Using Neural Network and SVM,” Tsinghua Science &amp; Technology, vol. 13, no. 1, pp. 112–116, 2008.[33] K. S. Banerjee, C. R. Rao, and S. K. Mitra, “Generalized Inverse of Matrices and Its Applications,” Technometrics, vol. 15, no. 1, p. 197, Feb. 1973.[34] VQEG, “Final report from the video quality experts group on the validation of reduced-reference and no-reference objective models for standard de�nition television, Phase I,” 2009.[35] VQEG, “Report on the validation of video quality models for high de�nition video content,” 2010.[36] J. W. Tukey, Exploratory Data Analysis. New York: Addison-Wesley Publishing Company, 1977.[37] P. Gastaldo and R. Zunino, “Neural networks for the no-reference assessment of perceived quality,” J. Electronic Imaging, vol. 14, no. 3, p. 033004, 2005.[38] R. Herzog, M. Čadík, T. O. Aydın, K. I. Kim, K. Myszkowski, and H.-P. Seidel, “NoRM: No-Reference Image Quality Metric for Realistic Image Synthesis,” Comp. Graph. Forum, vol. 31, no. 2pt4, pp. 545–554, 2012.

Revista de Radiodifusão • v. 08 • n. 09 • 2014

A TV Digital Interativa na População de Baixa Renda: Análise do Projeto Brasil 4D no Distrito Federal

4740

A disseminação de celulares entre essa população, com 90,20% do lares com telefone celular pré-pago, 8,17% pós-pago, e cerca de 30% dos domicílios com até três aparelhos.

Esses fatores foram determinantes na configuração dos conteúdos e configuração da interface interativa do projeto no DF.

5. MODELAGEM CONCEITUAL, DESIGN E USABILIDADE

A linguagem interativa do Brasil 4D-DF foi construída a partir da observação das características, desejos e necessidades do público alvo, dos conteúdos definidos pelas Secretarias do GDF e demais órgãos participantes do projeto, das necessidades de informar e oferecer serviços públicos para a população de baixa renda, e dos resultados da pesquisa do Banco Mundial, que identificou aquelas que apresentaram maior acessibilidade e usabilidade pelo público alvo.

O projeto realizado no Distrito Federal contou com uma divisão dos conteúdos focados em duas abordagens, serviços prestados pelo GDF e serviços prestados pelas instituições parceiras (Banco do Brasil, Caixa Econômica Federal e INSS, inicialmente). Os conteúdos gerados pelo GDF seguiram a sistemática e padrão de produção previsto no projeto e realizado de forma sistêmica entre GDF, EBC, INCoD e Totvs. Já as instituições parceiras, foram responsáveis pela produção e desenvolvimento de seus conteúdos e aplicação, obedecendo aos padrões mínimos definidos para o projeto Brasil 4D. Fator esse que gerou divergências entre as interfaces.

Devido ao volume de conteúdos abordados pelo GDF, houve a necessidade de realizar uma subdivisão em quatro temáticas, sendo elas: Assistência Social, Mulher, Saúde e Trabalho. Além disso, foi criado um módulo para armazenamento de vídeos, créditos e outros assuntos gerais denominado “Outros”. Tais conteúdos, definidos pelo GDF, foram construídos de maneira colaborativa entre as Secretarias de Estado do Distrito Federal, a EBC, o INCoD, e representantes da ONG Ruas da Ceilândia.

A produção de conteúdos interativos para a TVDi implica na combinação de três elementos essenciais: 1. Conteúdo e respectivo tratamento audiovisual; 2. Design Interativo e 3. Software/Aplicação. É necessário que os três elementos estejam integrados de forma coesa e eficiente para que a mensagem seja transmitida de maneira eficaz, permitindo que a comunicação bidirecional ocorra com sucesso. Isto só é atingindo quando cada um dos elementos acima é desenvolvimento de maneira conjunta, com tratamento transdisciplinar desde o início do projeto.

5.1. Modelagem Conceitual

A partir da definição dos conteúdos pelos parceiros, as áreas de tecnologia de sistemas e de design interativo avaliaram, junto com os produtores de conteúdos, a abordagem e formatos mais adequados para uma comunicação eficaz com o público alvo. Neste sentido, foi desenvolvida uma interface interativa única para todos os conteúdos do Brasil 4D-DF, assim como a definição de modelos de roteiro de navegação, estrutura dos aplicativos de serviços e conteúdos audovisuais, que proporcionassem maior consistência e unidade ao projeto, facilitando, por um lado, a usabilidade e, por outro, a produção de novos conteúdos de serviços.

Para orientar e estimular o acesso e uso da aplicação, estas foram associadas à conteúdos audiovisuais em linguagem televisiva, estruturados em três gêneros e formatos distintos: episódios dramatúrgicos ficcionais ancorados por um típico núcleo familiar que expressa a composição do público alvo, denominada “família 4D”; vídeos tutoriais ancorados por dois apresentadores; e depoimentos.

O memory card acoplado ao conversor digital do Brasil 4D permite abrigar 4G de conteúdos residentes, somados os vídeos e outros arquivos de dados. Contudo, a capacidade de processamento do sistema ficava reduzida quando do tráfego de mais de 2G de dados, o que demandou a montagem de uma grade de programação mais dinâmica, que permitisse a alternância de vídeos.

Com base nos resultados obtidos pelo projeto piloto realizado na Paraíba (Freitas, 2013), quando 55% do público alvo achou fácil o uso das setas do controle remoto, e com o intuito de facilitar a navegação no sistema e , optou-se por explorar a associação entre a interface interativa e o controle remoto da TV, utilizando as setas deste para selecionar e interagir com os conteúdos e serviços da aplicação. Os botões coloridos foram destinados a ações permanentes ao longo de toda a aplicação: o Vermelho correspondendo ao retorno imediato ao “Menu Principal”; Verde ao retorno ao nível/tela anterior; Amarelo à ativação da locução e outros recursos de acessibilidade e o Azul à ajuda.

Gráfico 1 – Uso das Setas do Controle Remoto

Fonte: Publicação “Brasil 4D – Estudo de Impacto socioeconômicos sobre a TV digital pública interativa.”

Page 48: Revista de RADIODIFUSÃO - SET PORTAL · Sinais de TV Digital ISDB-Tb via VHF e UHF na Cidade do Gama – DF – Brasil Akamine, Cristiano Bedicks Jr, Gunnar ... cujas frequências

MÉTRICA SEM REFERÊNCIA BASEADA EM REDES NEURAISPARA AVALIAÇÃO OBJETIVA DE QUALIDADE DE VÍDEO DIGITALWyllian Bezerra da Silva, Alexandre de Almeida Prado PohlPrograma de Pós-Graduação em Engenharia Elétrica e Informática Industrial (CPGEI) – UTFPR, Curitiba, [email protected], [email protected]: Este trabalho apresenta uma métrica sem referência para avaliação de qualidade de vídeo digital baseada em uma rede neural arti�cial que usa uma versão estendida do algoritmo de aprendizado ELM (Extreme Learning Machine). O método proposto realiza o treinamento da rede neural a partir de seis características espaço-temporais. Os resultados experimentais mostram que o método proposto apresenta desempenho superior às métricas de referência completa PSNR e MS-SSIM na tarefa de predição de qualidade de vídeo. Logo, o método proposto pode ser usado no monitoramento de qualidade em sistemas de transmissão e recepção de vídeo digital, tais como IPTV e TV digital.Palavras chave: algoritmo ELM, avaliação objetiva de vídeo, métrica sem referência, rede neural arti�cial.1. INTRODUÇÃODurante os últimos anos, a literatura tem apresentado um número crescente publicações acerca de métricas objetivas para avaliação de qualidade de vídeo para diversas aplicações em radiodifusão ou no processamento de vídeo digital, seja na aquisição do sinal, codi�cação e decodi�cação, compressão, transmissão, restauração, armazenamento, segmentação e exibição de sinais de vídeo digital [1–4]. A avaliação de qualidade de vídeo digital pode ser realizada por meio de métricas subjetiva e objetiva. A primeira requer uma grande quantidade de recursos humanos e apresenta elevado custo em sua implementação [1–3]. Porém, as métricas objetivas são vantajosas quando apresentam um determinado grau de correlação com as métricas subjetivas. Logo, o desenvolvimento destas é um desa�o no campo de avaliação de qualidade de vídeo e imagem. Além disso, as métricas objetivas, devido à natureza de seu critério objetivo, independem de interação humana e são facilmente reprodutíveis [3]. Dentre as métricas objetivas destacam-se as métricas sem referência (No-Reference – NR), pois não necessitam do vídeo de referência no cálculo de sua medida. Entretanto, estas requerem um conhecimento a priori sobre as distorções em vídeo digital para que seja estabelecida uma correlação com os resultados subjetivos [3].A maioria das métricas NR encontradas na literatura são baseadas na avaliação de qualidade de imagens e em características relacionadas ao Sistema Visual Humano (SVH). Assim, o desenvolvimento de métricas NR é difícil, devido à necessidade de emular a percepção do SVH que envolve aspectos cognitivos, emocionais e estéticos relacionados ao conteúdo do vídeo e que são altamente dependentes do observador [4], [5].A literatura reporta diversos esforços no desenvolvimento de métricas para avaliação de qualidade de vídeo baseadas em redes neurais e em algoritmos de aprendizado. Babu et al. [6] apresentam uma métrica para avaliar a qualidade de imagens comprimidas em JPEG (Joint Photographic Experts Group) por meio de um algoritmo de aprendizado de crescimento e propõem o uso de uma rede neural GAP-RBF (Growing and Pruning Radial Basis Function) que usa características relacionadas ao SVH. Jiang et al. [7] desenvolveram uma métrica NR para avaliação de qualidade de vídeo em HD (High De�nition) baseada em uma rede neural treinada pelo algoritmo BP (Back-Propagation) que usa seis características espaço-temporais e a RoI (Region of Interest). Choe et al. [8] desenvolveram uma métrica NR baseada no �uxo de bits para avaliação de qualidade de vídeo codi�cado em H.264. Esta métrica extrai características quadro a quadro e usa uma rede neural alimentada adiante (feedforward) com três camadas. Suresh et al. [9] apresentaram uma extensão do algoritmo ELM na tarefa de avaliar a qualidade de imagens comprimidas em JPEG com base no esquema de seleção múltipla KS-ELM (K-fold selection Scheme using ELM) e no algoritmo RCGA-ELM (Real-Coded Genetic Algorithm using ELM) para seleção dos pesos de entrada e polarizações.Este trabalho apresenta uma versão estendida do algoritmo ELM para redes neurais SLFN (Single-hidden-Layer Feedforward Neural Networks) que implementa um simples critério de parada na fase de treinamento. Além disso, esse método usa seis características espaço-temporais de vídeos submetidos a diversas condições de distorção.Este artigo está dividido da seguinte maneira: a Seção 2 descreve as métricas para avaliação de qualidade de vídeo. A Seção 3 descreve o método NR proposto para avalição de qualidade de vídeo digital. A Seção 4 apresenta os resultados experimentais, em que são comparados o método NR proposto e duas métricas FR. Finalmente, a Seção 5 apresenta a conclusão do artigo.2. AVALIAÇÃO DE QUALIDADE DE VÍDEOO processo de avaliação de qualidade de vídeopode ser realizado com a aplicação de métricassubjetivas ou objetivas. As métricas subjetivasestimam a qualidade do vídeo por meio de avaliadoreshumanos. Logo, exigem um alto custo, poisnecessitam de uma grande quantidade de recursoshumanos e apresentam problemas quanto aosrequisitos de imparcialidade e reprodutibilidade,tornando-se inapropriadas em sistemas deradiodifusão ou em provedores de conteúdo [10], [11].Por outro lado, as métricas objetivas são baseadas emmodelos matemáticos, cujo objetivo é produzir umescore de qualidade que emule a percepção do SVH.Além disso, as métricas objetivas requerem baixocusto de implementação (quando comparadas com asmétricas subjetivas) e não apresentam problemasquanto à reprodutibilidade e imparcialidade.As métricas objetivas para avaliação de qualidadede vídeo podem ser classi�cadas em três categorias:(i) métricas de referência completa (Full-Reference –FR); (ii) métricas de referência reduzida (Reduced-Reference – RR); (iii) métricas sem referência (NR).2.1. Métricas FRAs métricas FR requerem o vídeo de referência(fonte) no cálculo do escore de qualidade. Estasmétricas são amplamente utilizadas no processo devalidação de métricas RR ou NR, por meio dacomparação de desempenho de�nida pelasrecomendações do Grupo de Especialistas emQualidade de Vídeo (VQEG – Video Quality ExpertsGroup) que é um órgão de padronização internacionalde métricas subjetivas e objetivas de qualidade devídeo. Dentre as métricas FR, destacam-se o PSNR(Peak Signal-to-Noise Ratio), SSIM (StructuralSIMilarity index) [12] e MS-SSIM (Multi-ScaleStructural SIMilarity index) [13].O PSNR é uma métrica FR baseada no erro pixel apixel de fácil implementação. Entretanto, apresentabaixa correlação com o SVH [14]. A sua medida éprocessada sobre o erro quadro a quadro, i.e., entre oquadro original x e o quadro y . A expressão a seguirde�ne o PSNR para um conjunto de quadros F .2011PSNR 20log ,Fff fvF � MSE� �� � �� �� ��(1)com� � � �20 01MSE , , , , ,N Mfi jx f i j y f i jNM � �� ���� � ��(2)em que o termo f v é igual a (2 1) k � , cujo k é onúmero de bits por pixel, i.e., é a componente deluminância do quadro f . Os termos x �f ,i, j � ey �f ,i, j � são os valores de luminância do quadro deorigem e degradado, respectivamente. Ascomponentes bidimensionais são representadas pelonúmero de colunas N e pelo número de linhas M . Otermo f MSE é de�nido como erro quadrático médioou MSE (Mean Square Error).A métrica SSIM baseia-se no fato de que o SVH éfortemente adaptado para extrair informações dascaracterísticas estruturais de um quadro ou imagem.Logo, uma medida de similaridade estrutural (oudistorção) pode prover boa aproximação para aqualidade perceptual de um vídeo [3, 7–9]. Sejam x ey dois sinais não-negativos, em que y é o sinaldegradado e x é o sinal original (sem perda dequalidade), a medida de similaridade é utilizada comoum índice quantitativo de qualidade do sinal distorcido,ou seja, x é tomado como a referência para medir aqualidade de y . A métrica SSIM possui diversasextensões, dentre as quais a versão MS-SSIM,proposta por Wang et al. [13] que assume umaabordagem multiescalar.2.2. Métricas RRAs métricas de referência reduzida retiram certaquantidade de características do vídeo original (fonte),baseadas em componentes espaciais, temporais, nodomínio da frequência ou no �uxo de bits (bitstream).Este tipo de métrica é amplamente utilizada nomonitoramento de transmissões em rede [17]. Nestetipo de cenário de aplicação, o vídeo é transmitidocom uma sequência de informação codi�cada(overhead) e no lado receptor ocorre a suadecodi�cação, seguido pelo cálculo do índice dequalidade, o qual é obtido por meio da comparaçãoentre a representação reduzida da informação nospares emissor e receptor [18]. Tipicamente, métricasRR são implementadas por meio de funções, divididasem duas etapas [19]: (i) cálculo do erro entre osvídeos original e distorcido, constituído pela diferençade suas características, a �m de compor arepresentação reduzida da informação; (ii) função queagrupa os erros ou diferenças para obter um índice dequalidade global. Algumas métricas RR explorampropriedades dos artefatos, por meio da extração decaracterísticas e um modelo de parametrização [20]com foco em tipos especí�cos de distorções(artefatos). Esta abordagem é encontrada em Silva etal. [17], cujo cálculo do escore de qualidade ébaseado na diferença de atividade dos coe�cientesDCT (Discrete Cosine Transform) em um macro blococom resolução de 16�16 pixels.2.3. Métricas NRAs métricas NR extraem característicasrelacionadas ao SVH do vídeo distorcido, i.e., narecepção do sinal de vídeo [14]. Tipicamente, há duasabordagens no desenvolvimento destas métricas: (i)extração dos parâmetros sobre o �uxo de bits, taiscomo a taxa de compressão, informaçõesrelacionadas ao GoP (Group of Pictures), estimaçãode movimento, per�l e nível de codi�cação, bem comoo parâmetro de quantização ou QP (QuantizationParameter) [21–25]. Métricas NR apresentam maiorcomplexidade quando são aplicadas em vídeo, devidoà variação temporal dos quadros, conteúdos dascenas e à di�culdade de compreensão dascaracterísticas do SVH [26]. Assim, algumas métricasdessa categoria exploram características espaciais etemporais na estimação de qualidade de vídeo [21].3. MÉTODO PROPOSTOO método proposto, denominado NRVQA-ELMtc(No-Reference Video Quality Assessment usingExtreme Learning Machine algorithm with terminationcriteria) [27] combina características espaciais etemporais, por meio de uma rede neural arti�cialSLFNs usando o algoritmo de treinamento ELM [28]com a implementação de um simples critério deparada.3.1. Características espaço-temporaisAs características espaciais incorporadas nométodo proposto são baseadas em medidas deartefatos em vídeo digital, i.e., distorções de blocageme borramento desenvolvidas por Wang et al. [20].Assim, a componente de luminância do quadro f érepresentada por y(f , i, j ) com i � ��1,M�� e j � ��1, N�� ,em que M e N são os números de linhas e colunas,respectivamente, de um quadro. Logo, as diferençasde luminância ao longo das linhas e colunas sãorepresentadas, respectivamente, pelas expressões aseguir.� � � � � � � �� � � � � � � �, , , , 1 , , , 1, 1 ,, , , 1, , , , 1, 1 .hvd f i j y f i j y f i j j Nd f i j y f i j y f i j i M� � � � �� � � � �(3)O efeito de blocagem pode ser estimado pelamédia das diferenças entre as bordas dos blocos daDCT (Discrete Cosine Transform) nas direçõeshorizontal e vertical para uma sequência F dequadros, conforme mostra a Equação (4), com ummacrobloco de dimensão � �� , cujo tamanho típico éde � � 8 [20].� � ��� � � �111 1 1111 1 11, , 1 ,111, 1 , .11NF Mh hf i jMF Nvi jvfB d f i jNF MB d f i jMF N��������� � ���� � �� �� �� � � �� � �� �� �� � � �� � �� � �� � �(4)A medida de blocagem em uma sequência devídeo com F quadros é determinada pela média entreh B e v B , caracterizando a medida B , conforme aexpressão a seguir..2h v B BB�� (5)Os efeitos de borramento são estimados pelocálculo da redução de atividade entre os blocos � �� ,em que é usada a medida de blocagem nas direçõeshorizontal e vertical, conforme as expressões� � � �� �� � � �� �11 1 111 1 1, , ,1 1, ,1.1F M Nh h hf i jF M Nv vfvi jA d f i j BF M NA d f i j BF N M������ � ��� � �� �� � �� �� � �� � �� � �(6)A medida de borramento, representada por A ,conforme a Equação (7), é determinada pela médiaentre h A e v A ..2h v A AA�� (7)O segundo fator que contribui para a detecção doartefato de borramento é baseado na taxa decruzamento por zero (Zero Crossing – ZC) nasdireções horizontal e vertical, conforme as expressõesa seguir.� �� �� �� �21 1 121 1 11, , ,21, , ,2F M Nh hf i jF M Nv vf i jZ z f i jF M NZ z f i jF N M�� � ��� � ��� ��� �� � �� � �(8)em que os termos h z e v z são determinados por� �� �1, na direção horizontal, , ,0, caso contrário1, na direção vertical, , .0, caso contráriohvz f i jz f i j�� �� �� ��(9)Assim, a medida de borramento Z é determinadapela média entre as componentes h Z e v Z ..2h v Z ZZ�� (10)O método proposto também incorpora trêscaracterísticas temporais no treinamento da redeneural SLFN com o algoritmo ELM.A primeira característica temporal é a diferença demovimento entre quadros adjacentes, representadapela variável TI (Temporal perceptual Information) [31]que considera os valores de luminância de pixelslocalizados em uma mesma região de um quadro,conforme a expressão a seguir.� �21, , ,1FfTI m f i jF��� �� �� �� (11)em que o número total de quadros é F e � �m�f ,i, j ��� �é o desvio padrão da diferença de movimento(diferença de luminância) entre o quadro atualy �f ,i, j � e o quadro anterior y �f �1,i, j � .A segunda característica temporal é a média dadiferença absoluta (Mean Absolute Di�erence – MAD)[31] entre quadros sucessivos, representada pelaEquação (12) que de�ne a medida global da MADpara todos os quadros de um vídeo.� �� � � �2 1 11, , 1, , .1F M Nf i jMAD y f i j y f i jM N F � � �� � �� �� � �(12)A terceira característica temporal é a média dadiferença absoluta ponderada (weighted MeanAbsolute Di�erence – MADw) [32], a qual mede o graude variação das cenas de um vídeo que considera acena atual de um quadro f e do quadro anterior f �1,conforme a expressão:2 11.1Fff fMADMADwF � MAD �� �� � �� � ��(13)Assim, o método proposto combina ascaracterísticas espaciais e temporais em uma matriz� , , , , , � f f f f f f f x � A B Z TI MAD MADw , em que f é onúmero de amostras de vídeo. A Figura 1 apresentaas características temporais � espaciais de dezessetebases de dados de vídeos (denominada superconjuntoS) usadas neste trabalho e reportadas em [27]. Arecomendação ITU-T P.910 [31] de�ne a medida SI(Spatial perceptual Information) como informaçãoespacial perceptual. A inspeção visual dessa �guramostra que as amostras de vídeo usadas nestetrabalho apresentam uma grande variação espaçotemporal.Fig. 1. Características espaciais e temporais do superconjuntoS com 216 amostras de referência3.2. Métrica NRVQA-ELMtcO algoritmo ELM [28] desenvolvido para otreinamento de uma rede SLFN atribui pesos epolarizações (biases) de maneira aleatória, segundouma distribuição uniforme. O treinamento compreendeN amostras distintas representadas pela variável�� , � , , 1, , � n mf f f f � � x t x � t � f � N , cujo cálculo éconforme a expressão� � � �1, 1, , ,KK i j j f j fff � g b f N�x � � w x � � o � (14)em que f o é a saída (escore objetivo), g(x) é afunção de ativação e j � é o peso que conecta o jésimoneurônio da camada oculta ao neurônio desaída. De acordo com [28], uma rede SLFN com Knós na camada oculta e uma função de ativação g(x)pode apresentar um erro médio próximo de zero, i.e.,10Kf ff �� o � t � . Logo, há parâmetros j � , j w e j b talque� �1, 1, , ,Kj j f j ff� g b f N�� w x � � t � (15)em que f t é o vetor alvo (escores subjetivos),T1, , j j jn � �w w � � � w é o vetor de peso que conecta o jésimoneurônio da camada oculta ao neurônio dacamada de entrada, j b denota a polarização (bias) doj-ésimo neurônio da camada oculta, � � j f w x é oproduto interno de j w e f x . A Figura 2 ilustra oalgoritmo ELM empregado em uma arquitetura derede neural SLFN.xi1βjN1jKtibjN input neuron K hidden neuron output neuronβ1βKwjFig. 2. Arquitetura de uma rede neural SLFN usando algoritmode treinamento ELMO sistema linear da Equação (16) resume o métododo algoritmo ELM.Hβ � T, (16)em que a matriz da camada oculta é representada por� � � 1, , and 1, , � � H � h f � N j � K com a primeiralinha da matriz de características f x igual aT1 2 , , , f f f fn x � ��x x x �� , i.e., a primeira linha é igual a� � 1 1 1 1 1 1 1 , , , , , f f f f f f f x � A B Z TI MAD MADw . A matriz desaída e o vetor alvo (target) são de�nidos comoT1 , K β � ��β β �� eT1, , N T � ��t t �� , respectivamente. Otermo � �T1 , 1, , j jm j � � � j � K � � β β β denota o vetor depeso que conecta o j-ésimo neurônio da camadaoculta e os neurônios de saída. Hung et al. [28]propuseram a atribuição aleatória de pesos aosparâmetros j w e j b , a �m de seja obtido um pequenoerro não-nulo durante o treinamento. Considerando osistema linear da Equação (17), os pesos da camadade saída podem ser aproximados por† β � H T (17)em que † H é de�nida como matriz inversageneralizada de Moore-Penrose (MP) [33] da matrizde saída da camada oculta �H� . Além disso, oconjunto de treinamento � , nó oculta K e umafunção de ativação g �x � , e.g., função de base radial(Radial Basis Function – RBF), hard-limiting (hardlim),sigmoidal (sig) e seno (sin). Em resumo, o algoritmoELM compreende três etapas [28]:i) Atribuição aleatória dos pesos de entrada j w epolarizações j b ;ii) Cálculo da matriz da camada de saída H ;iii) Cálculo dos pesos de saída † β: β� H T .O método NRVQA-ELMtc [27] implementa umsimples critério de parada no treinamento da redeneural SLFN, quanto à atribuição aleatória dos pesosj w e j b . Embora este critério não seja direcionado,busca os pesos relacionados com o menor RMSE(Root-Mean-Square Error) entre a saída desejada(escore subjetivo) e o escore objetivo na fase detreinamento com k iterações (tipicamente, k � 100 ) eN neurônios na camada oculta. Além disso, conformeestudo realizado em [27], caso o RMSE seja menor doque 0,5 o algoritmo cessa a busca pelos parâmetrosj w e j b .4. RESULTADOS EXPERIMENTAISEsta seção apresenta os resultados de acurácia,i.e., os coe�cientes de correlação linear de Pearson(Pearson Linear Correlation Coe�cient – PLCC) [34],[35], entre os escores objetivos e subjetivos de 2627amostras de vídeo estudadas em [27].A Figura 3 compara a acurácia (PLCC) entre asmétricas de referência completa (FR) PSNR e MSSSIMcom o método proposto (NRVQA-ELMtc) paraas 2627 amostras de vídeo, pertencentes a 17 basesde dados de vídeo disponibilizadas por diversasinstituições e laboratórios [27]. A função de ativaçãousada na rede neural SLFN foi o seno (sin) com onúmero de amostras de teste igual ao número deneurônios na camada oculta ( N ). O método devalidação cruzada múltipla (K-fold) foi usado com oobjetivo de gerar uma distribuição de acurácia, a qualfoi analisada por meio do diagrama de caixa (box-plot)[36], em que o traço, o círculo e o quadrado, ambosem vermelho, representam a mediana, a média e odesvio padrão, respectivamente. Destaca-se queneste trabalho foi empregada uma validação cruzadacom um grande número de amostras de treinamentotestecom K � 100 , i.e., cada caixa do box-plotcomporta 100 experimentos distintos. Tipicamente, aliteratura apresenta trabalhos no campo da avaliaçãoFig. 3. Box-plot da predição da acurácia (PLCC) entre as métricas PSNR, MS-SSIM e o método proposto NRVQA-ELMtcde qualidade de vídeo com K entre 5 e 10 [37], [38].Pela inspeção visual da Figura 3 observa-se que odesempenho do método proposto é superior àsmétricas FR, em quaisquer condições de teste, i.e.,para qualquer quantidade de amostras de teste(número de neurônios na camada oculta) entre 25 e500. Em especial, para N � 50 , o método propostoapresenta valores de PLCC, em termos da média emediana, acima de 0,8, denotando uma forteassociação entre os escores objetivos e subjetivos, natarefa de predição de qualidade de vídeo. Isto ocorredevido à grande quantidade de amostras de vídeousadas no treinamento, e.g., para N � 300 foramusadas 2327 amostras de treinamento, ou seja,mesmo usando pares de treinamento-teste disjuntos,o método proposto mostra uma acurácia superior àsmétricas de referência completa. A assimetria positiva,i.e., a maior concentração da acurácia entre osegundo quartil (mediana) e o terceiro quartil, nadistribuição do box-plot nos testes com 300 e 500neurônios na camada oculta, indica que o métodoproposto apresenta um desempenho expressivo emcomparação com as métricas FR.Entretanto, mesmo para N entre 25 e 50, ométodo proposto apresentou uma acurácia maior doque as métricas FR, cujo melhor resultado foi paraN � 25 com o desvio-quartil (amplitude interquartílica)con�nado entre 0,65 e 0,8. Além disso, este resultadotambém apresentou assimetria positiva com a médiado PLCC em torno de 0,75.5. CONCLUSÃOEste trabalho apresentou uma métrica NR baseadaem uma rede neural arti�cial SLFN, cujo treinamento édeterminado pelo algoritmo ELM, o qual consideracaracterísticas espaço-temporais e os escoressubjetivos (alvos) extraídos de 2627 amostrastreinamento. Além disso, este trabalho propõe umaextensão do algoritmo ELM por meio de um simplescritério de parada, a �m de que sejam obtidosparâmetros da rede neural arti�cial relacionados como menor RMSE. Tipicamente, a comparação entremétricas FR e NR é injusta, devido à ausência dovídeo de referência na obtenção do escore dequalidade em métricas NR. Entretanto, os resultadosexperimentais mostram que o método propostoapresentou desempenho superior às métricas dereferência completa PSNR e MS-SSIM, sobretudo,quando o número de amostras de teste e de neurôniosna camada oculta da rede SLFN é maior do que 250.Logo, a métrica NRVQA-ELMtc pode ser empregadano monitoramento de qualidade em sistemas detransmissão e recepção de vídeo digital, tais comoIPTV (Internet Protocol Television), TV digital ou emdispositivos móveis, tais como ultrabooks,smartphones, tablets e em aparelhos WiDi (WirelessDisplay).REFERÊNCIAS[1] S. Winkler, “Issues in vision modeling for perceptualvideo quality assessment,” Signal Processing, vol. 78,no. 2, pp. 231–252, 1999.[2] Z. Wang and A. C. Bovik, Modern image qualityassessment. San Rafael, CA: Morgan & Claypool,2006.[3] W. Lin and C.-C. Jay Kuo, “Perceptual visual qualitymetrics: A survey,” Journal of Visual Communicationand Image Representation, vol. 22, no. 4, pp. 297–312,May 2011.[4] S. S. Hemami and A. R. Reibman, “No-reference imageand video quality estimation: Applications and humanmotivateddesign,” Signal Processing: ImageCommunication, vol. 25, no. 7, pp. 469–481, 2010.[5] Z. Wang and A. Bovik, “Reduced- and No-ReferenceImage Quality Assessment,” IEEE Signal ProcessingMagazine, vol. 28, no. 6, pp. 29–40, Nov. 2011.[6] R. V. Babu, S. Suresh, and A. Perkis, “No-referenceJPEG-image quality assessment using GAP-RBF,”Signal Processing, vol. 87, no. 6, pp. 1493–1503, 2007.[7] X. Jiang, F. Meng, J. Xu, and W. Zhou, “No-ReferencePerceptual Video Quality Measurement for HighDe�nition Videos Based on an Arti�cial NeuralNetwork,” in Computer and Electrical Engineering,2008. ICCEE 2008. International Conference on, 2008,pp. 424–427.[8] J. Choe, K. Lee, C. Lee, and S. Korea, “No-referencevideo quality measurement using neural networks,” in2009 16th International Conference on Digital SignalProcessing, 2009, pp. 1–4.[9] S. Suresh, R. Venkatesh Babu, and H. J. Kim, “Noreferenceimage quality assessment using modi�edextreme learning machine classi�er,” Applied SoftComputing, vol. 9, no. 2, pp. 541–552, Mar. 2009.[10] A. M. Eskicioglu and P. S. Fisher, “Image qualitymeasures and their performance,” IEEE Transactionson Communications, vol. 43, no. 12, pp. 2959–2965,1995.[11] U. Engelke and H.-J. Zepernick, “Perceptual-basedQuality Metrics for Image and Video Services: ASurvey,” in Proceedings EuroNGI Conf. NextGeneration Internet Networks, 2007, pp. 190–197.[12] Z. Wang, A. C. Bovik, H. R. Sheikh, and E. PSimoncelli, “Image quality assessment: from errorvisibility to structural similarity.,” IEEE Transactions onImage Processing, vol. 13, no. 4, pp. 600–612, 2004.[13] Z. Wang, E. P. Simoncelli, and A. C. Bovik, “Multiscalestructural similarity for image quality assessment,” inThe Thrity-Seventh Asilomar Conference on Signals,Systems & Computers, 2003, 2003, vol. 2, no. 1, pp.1398–1402.[14] H. R. Wu, K. R. Rao, and A. A. Kassim, “Digital VideoImage Quality and Perceptual Coding,” Journal ofElectronic Imaging, vol. 16, no. 3, 2007.[15] Z. Wang and A. C. Bovik, “A universal image qualityindex,” IEEE Signal Processing Letters, vol. 9, no. 3,pp. 81–84, Mar. 2002.[16] Y. Shi, Y. Ding, R. Zhang, and J. Li, “Structure and HueSimilarity for Color Image Quality Assessment,” in 2009International Conference on Electronic ComputerTechnology, 2009, pp. 329–333.[17] W. B. Silva, A. A. P. Pohl, and K. V. O. Fonseca, “AReduced-Reference Video Quality Assessment Methodbased on the Activity-Di�erence of DCT Coe�cients,”IEICE Transactions on Information and Systems, vol. E96-D, no. 3, 2013.[18] P. Le Callet, C. Viard-Gaudin, and D. Barba, “A Convolutional Neural Network Approach for Objective Video Quality Assessment,” IEEE Transactions on Neural Networks, vol. 17, no. 5, pp. 1316–1327, 2006.[19] P. Le Callet and D. Barba, “Image Quality Assessment: From Sites Errors to a Global Appreciation of Quality,” in Proceedings of the Picture Coding Sympsium, 2001, pp. 105–108.[20] M. Miyahara, K. Kotani, and V. R. Algazi, “Objective picture quality scale (PQS) for image coding,” IEEE Transactions on Communications, vol. 46, no. 9, pp. 1215–1226, 1998.[21] M. Slanina, V. Ricny, and R. Forchheimer, “A Novel Metric for H.264/AVC No-Reference Quality Assessment,” in 14th International Workshop on Systems, Signals and Image Processing and 6th EURASIP Conference focused on Speech and Image Processing, Multimedia Communications and Services, 2007, pp. 114–117.[22] O. Sugimoto, S. Naito, S. Sakazawa, and A. Koike, “Objective perceptual video quality measurement method based on hybrid no reference framework,” in 16th IEEE International Conference on Image Processing (ICIP’09), 2009, pp. 2237–2240.[23] T. Oelbaum, C. Keimel, and K. Diepold, “Rule-Based No-Reference Video Quality Evaluation Using Additionally Coded Videos,” IEEE Journal of Selected Topics in Signal Processing, vol. 3, no. 2, pp. 294–303, 2009.[24] N. Staelens, N. Vercammen, Y. Dhondt, B. Vermeulen, P. Lambert, R. de Walle, and P. Demeester, “ViQID: A No-Reference bit stream-based visual quality impairment detector,” in Proceedings of the Second Int Quality of Multimedia Experience (QoMEX) Workshop, 2010, pp. 206–211.[25] F. Yang, S. Wan, Q. Xie, and H. R. Wu, “No-Reference Quality Assessment for Networked Video via Primary Analysis of Bit Stream,” IEEE Transactions on Circuits and Systems for Video Technology, vol. 20, no. 11, pp. 1544–1554, Nov. 2010.[26] Z. Wang, H. R. Sheikh, and A. C. Bovik, “Objective Video Quality Assessment,” in The Handbook of Video Databases: Design and Applications, B. Furht and O. Marques, Eds. Boca Raton, FL, USA: CRC Press, 2003, pp. 1041–1078.[27] W. B. da Silva and A. de A. P. Pohl, “Métodos Sem Referência Baseados em Características Espaço-Temporais para Avaliação Objetiva de Qualidade de Vídeo Digital,” Universidade Tecnológica Federal do Paraná (UTFPR), 2013.[28] G.-B. Huang, Q.-Y. Zhu, and C.-K. Siew, “Extreme learning machine: Theory and applications,” Neurocomputing, vol. 70, no. 1–3, pp. 489–501, Dec. 2006.[29] Z. Wang, H. R. Sheikh, and A. C. Bovik, “No-reference perceptual quality assessment of JPEG compressed images,” in Image Processing. 2002. Proceedings. IEEE International Conference on Image Processing, 2002, vol. 1, pp. vol.1 I–477 – I–480.[30] W. B. Silva and A. A. P. Pohl, “No-Reference Video Quality Assessment Method based on the Levenberg-Marquardt Minimization,” in XXX Brazilian Symposium on Telecommunications (SBrT’12), 2012.[31] ITU-T P.910, “Subjective video quality assessment methods for multimedia applications,” Standardization Sector of ITU, 1999.[32] W. Ding, Y. Tong, Q. Zhang, and D. Yang, “Image and Video Quality Assessment Using Neural Network and SVM,” Tsinghua Science &amp; Technology, vol. 13, no. 1, pp. 112–116, 2008.[33] K. S. Banerjee, C. R. Rao, and S. K. Mitra, “Generalized Inverse of Matrices and Its Applications,” Technometrics, vol. 15, no. 1, p. 197, Feb. 1973.[34] VQEG, “Final report from the video quality experts group on the validation of reduced-reference and no-reference objective models for standard de�nition television, Phase I,” 2009.[35] VQEG, “Report on the validation of video quality models for high de�nition video content,” 2010.[36] J. W. Tukey, Exploratory Data Analysis. New York: Addison-Wesley Publishing Company, 1977.[37] P. Gastaldo and R. Zunino, “Neural networks for the no-reference assessment of perceived quality,” J. Electronic Imaging, vol. 14, no. 3, p. 033004, 2005.[38] R. Herzog, M. Čadík, T. O. Aydın, K. I. Kim, K. Myszkowski, and H.-P. Seidel, “NoRM: No-Reference Image Quality Metric for Realistic Image Synthesis,” Comp. Graph. Forum, vol. 31, no. 2pt4, pp. 545–554, 2012.

Revista de Radiodifusão • v. 08 • n. 09 • 201448 41

Paulo A.B.Iasbech, Cristiana Freitas, Benny Ricciardi Jorge, Aldo von Wangenheim

Para viabilizar uma melhor orientação do usuário dentro da aplicação, a arquitetura de informação dos conteúdos foi estruturada em módulos, apresentados logo na primeira tela da aplicação, chamada de “Menu Principal”, conforme figura 1. Sete módulos de conteúdos distintos são apresentados na aplicação, sendo eles: Assistência Social, Mulher, Saúde, Trabalho, Banco do Brasil, Caixa e Outros. Ao entrar no Brasil 4D a audiência encontra um vídeo dramatúrgico motivador com 2 minutos, destacando algum dos temas de serviços.

Figura 1 - Interface interativa do menu principal Fonte: Aplicação Brasil 4D/DF

Dentro de cada módulo é apresentada a relação de serviços disponibilizados por cada assunto, apoiada num vídeo tutorial que apresenta todos os conteúdos ali abrigados e os mecanismo de interatividade, podendo usar atalhos para acessar diretamente a informação ou serviço interativo desejado,

Figura 2: “Menu de serviços” Assistência Social com episódio da Família 4D

Fonte: Aplicação Brasil 4D/DF

A figura 2 acima apresenta o “Menu de serviços” do módulo de Assistência Social, onde o usuário pode interagir até chegar ao último nível de granularidade, conforme figura 3 a seguir.

Figura 3: “Documentos Necessários” Assistência Social

Fonte: Aplicação Brasil 4D/DF

5.2. Design e Usabilidade

Ao criar uma interface interativa é necessário considerar dois aspectos fundamentais: o público-alvo e o dispositivo de exibição/interação. Geralmente essas duas variáveis estão relacionadas, no entanto não há uma regra. Ambas as variáveis impactarão, principalmente, na resolução e no formato da interface a ser criada.

Na casa das famílias brasileiras é possível encontrar tecnologias CRT (TV do tipo “tubo), LCD (cristal líquido), Plasma e LED. Cada tecnologia utiliza seu padrão específico de exibição, característicos da tecnologia aplicada, que podem variar quanto aos formatos 4:3 (1,33:1), 16:9 (1,77:1) e 21:9 (2,33:1) e influenciar até mesmo no aspecto do pixel. Em relação às resoluções e número de linhas que formam a imagem, temos televisores de 640x480, 720x480, 1280x720 e 1920x1080 pixels.

Aparelhos que utilizam a proporção 16:9 possuem maior resolução e exibem uma área maior que os aparelhos 4:3, conforme apresentado na figura 4. Tendo em vista que alguns telespectadores poderão visualizar parte da imagem e outros não, é importante que esta variação de área seja considerada pelo design gráfico e que nenhuma informação vital para a funcionalidade da aplicação seja apresentada em tal região.

Figura 4: Diferença de proporção 4:3 e 16:9 Fonte: Elaborado pelo autor

Page 49: Revista de RADIODIFUSÃO - SET PORTAL · Sinais de TV Digital ISDB-Tb via VHF e UHF na Cidade do Gama – DF – Brasil Akamine, Cristiano Bedicks Jr, Gunnar ... cujas frequências

A TV Digital Interativa na População de Baixa Renda: Análise do Projeto Brasil 4D no Distrito Federal

Revista de Radiodifusão • v. 08 • n. 09 • 2014 49

Além da diferença entre proporções dos

monitores, existe uma área de segurança a considerada, devido a perda de imagem por parte dos monitores CRT, pois os modelos mais antigos apresentam concavidades em suas extremidades, exceto modelos CRT Tela Plana.

A área de segurança é dividida em dois níveis (ITU-R, 2007), “Title safe area” e “Action safe area”. A primeira, representada pelo retângulo interno da figura 5 e região menor da área de exibição, é considerada a área segura para exibição de textos, onde á possível garantir que qualquer texto apresentado seja legível. Já segunda se refere a área segura para a exibição de conteúdo gráfico e por consequência possui uma abrangência maior.

Figura 5: “Title safe area” e “Action safe area”

Fonte: Elaborado pelo autor

A combinação de ambas as áreas resulta na área real de utilização a ser considerada no momento da concepção da interface.

Figura 6: Área de segurança do Brasil 4D/DF Fonte: Elaborado pelo autor

Para viabilizar uma interação adequada com o público-alvo, o projeto Brasil 4D/DF optou pela criação de gráficos simples, ícones para reforçar informações escritas, auxílio de ilustrações, acompanhamento constante de vídeos com um

apresentador indicando os passos a seguir e fontes adequadas para o conteúdo textual, de modo a aproximar o público alvo da nova tecnologia.

Baseado nas boas práticas de TVDi consagradas no Reino Unido (GAWLINSKI, 2003) e por já estar inserida no set-top box, optou-se por utilizar a fonte “Tiresias” para compor os textos e títulos da aplicação, com tamanho maior ou igual a 24 pontos. Desenvolvida pelo “The Royal National Institute of Blind”, na Inglaterra a fonte “Tiresias” foi criada para ser facilmente legível em monitores de TV, sobretudo por pessoas com deficiências na visão ou parcialmente cegas.

A diagramação da tela, apresentada na figura 2, foi inteiramente elaborada com base na proporção áurea, uma razão matemática baseada nos estudos de Fibonacci, encontrada na natureza e nas artes, e compreendida pelo nosso subconsciente como uma proporção bela e harmônica.

Figura 7: Diagramação das Interfaces

Fonte: Elaborado pelo autor

6. CONSIDERAÇÕES FINAIS

O uso prático da TVDi no Brasil é uma novidade técnica e social com potencial de proporcionar um aumento sem precedentes nos processos de inclusão social e digital.

A observação direta do comportamento da audiência nos primeiros contatos com o Brasil 4D-DF confirmam a facilidade de uso e acesso da população de baixa renda com a TVDi. Para Suelane Moreira, “no início a gente estranha, mas depois fica fácil”. Sua casa fica cheia nos finais de semana, com os vizinhos e parentes querendo conhecer o projeto e navegar em busca de emprego repetindo o fenômeno do televizinho digital ocorrido no projeto piloto da Paraíba.

A possibilidade de atualizar os vídeos por meio da radiodifusão apresentam um novo desafio aos produtores. Agora, a oferta de novas informações e serviços deve estar associada à programação da grade dos conteúdos audiovisuais, gerando novas e alternadas combinações de oferta de conteúdos, seja no formato de vídeos ou de dados.

Page 50: Revista de RADIODIFUSÃO - SET PORTAL · Sinais de TV Digital ISDB-Tb via VHF e UHF na Cidade do Gama – DF – Brasil Akamine, Cristiano Bedicks Jr, Gunnar ... cujas frequências

Revista de Radiodifusão • v. 08 • n. 09 • 201450

Paulo A.B.Iasbech, Cristiana Freitas, Benny Ricciardi Jorge, Aldo von Wangenheim

O Brasil 4D-DF vem comprovar a eficácia do sistema brasileiro de TVDi para redução das desigualdades sociais e econômicas, apresentando um novo modelo de negócio para as TVs públicas brasileiras e toda a cadeia produtiva da comunicação digital interativa. Outras cidades e estados manifestaram interesse em implantar o projeto. Da mesma forma, o governo tem manifestou interesse no desenvolvimento de um set top box a ser produzido no Brasil com a versão full do Ginga, adotada pelo Brasil 4D no DF, bem como a ampliação do projeto para as 13 milhões de famílias do Bolsa Família em todo o país.

Referências

ABNT - Associação Brasileira de Normas Técnicas “Televisão Digital Terrestre- Codificação de dados e especificações de transmissão para radiodifusão digital. Parte 2: Ginga-NCL para receptores fixos e móveis – Linguagem de aplicação XML para codificação de aplicações”, 2007.

AZEVEDO, R. G. A.; TEIXEIRA, M. M.; SOARES NETO, C. S. NCL Eclipse: Ambiente Integrado para o desenvolvimento de aplicações para a TV Digital Interativa em Nested Context Language. SBRC: Simpósio Brasileiro de Redes de Computadores, 2007.

ARONCHE DE SOUZA, J. C. Gêneros e formatos na televisão brasileira. SP: Summus, 2004.

BANCO MUNDIAL. Brasil 4D - Estudo do Impacto Socieconomico da TV Digital Púbica Interativa.

BARBOSA FILHO, A.; CASTRO, C.; TOME, T.. Mídias digitais: convergência técnológica e inclusão social. SP: Paulinas, 2005

CROCOMO, F. TV Digital e a Produção Interativa. Florianópolis: Ed UFSC, 2007.

BARBOSA FILHO, A.; CASTRO, C. Apontamentos para a implantação da TV pública digital no Brasil. IN: TELEVISÃO DIGITAL. Livro da Compós. – 2009 / Orgs. Sebastião Squirra e Yvana Fechine – Porto Alegre: Sulina, 2009.

Centro Regional de Estudos para o Desenvolvimento da Sociedade da Informação - Cetic.br. TIC Domicílios e usuários 2013, disponível em http://cetic.br/usuarios/tic/2013/

Companhia de Planejamento do Distrito Federal - CODEPLAN. Pesquisa Distrital por Amostra de Domicílios (PDAD) 2013.

FREITAS, CRISTIANA. SET, 2013

Fundação Telefônica, Vivo e USP. Gerações Interativas no Brasil - Crianças e adolescentes diante das telas. SP, Escola do Futuro, 2012

GAWLINSKI, MARK. Interactive Television Production. Oxford: Focal Press, 2003. 2003

GOSCIOLA, V. Roteiro para Novas Mídias – do game a TV interativa. São Paulo: SENAC, 2003.

JENKINS, H. A Cultura da Convergência. São Paulo: Aleph, 2008.

LEMOS, A. M. Anjos interativos e retribalização do mundo. Sobre interatividade e interfaces digitais. 1997. Acesso em junho de 2009. Disponível em

http://www.Facom.ufba.br/pesq/cyber/lemos/interac.html.

___________. Comunicação digital: educação, tecnologia e novos comportamentos. 1. ed. – SP: Paulinas, 2008.

MARTÍN-BARBERO, J. Dos Meios às mediações: comunicação, cultura e hegemonia. 2. ed. Rio de Janeiro: Editora UFRJ, 2003.

MELO, M. T. TV Digital: ferramenta de transformação social na era da informação. IN: TV Digital: qualidade e interatividade. Brasília: Confez/CNI, 2007, (pp. 139- 150).

SCOLARI, C. A . Ecología de la Hipertelevisión. Complejidad narrativa, simulación y transmedialidad em la televisión contemporánea. IN: TELEVISÃO DIGITAL. Livro da Compós. – 2009 / Orgs. Sebastião Squirra e Yvana Fechine – Porto Alegre: Sulina, 2009.

SOARES NETO, C. S. et al. Construindo Programas Audiovisuais Interativos utilizando a NCL 3.0 e a Ferramenta Composer. 2007.

SOARES NETO, C. S.; SOARES, L. F. G. Reuso e Importação em NCL. Webmedia 2009.

SOARES. L. F. G.; BARBOSA, S. D. J. Programando em NCL. Desenvolvimento de Aplicações para Middleware Ginga, TV Digital e Web. Campus, Rio de Janeiro, 2009.

VIZER, E. A. Trans-formaciones sociales y relaciones sociotécnicas en la cultura tecnológica. IN: BRITTOS, Valério Cruz e CABRAL, Adilson. Economia política da comunicação. Interfaces brasileiras. Rio de Janeiro: e-Papers, 2008.

VIZEU, A. Telejornalismo: das rotinas produtivas à audiência presumida. In: Alfredo Eurico Vizeu Pereira Junior; Flávio Antônio Carmargo Porcello; Célia Ladeira Mota. (Org.). Telejornalismo: a nova

Page 51: Revista de RADIODIFUSÃO - SET PORTAL · Sinais de TV Digital ISDB-Tb via VHF e UHF na Cidade do Gama – DF – Brasil Akamine, Cristiano Bedicks Jr, Gunnar ... cujas frequências

A TV Digital Interativa na População de Baixa Renda: Análise do Projeto Brasil 4D no Distrito Federal

Revista de Radiodifusão • v. 08 • n. 09 • 2014 51

praça pública. 01 ed. Florianópolis: Editora Insular/Pos-Jor UFSC, 2006, v. 01, p. 19-40.

(ZANCANARO; SANTOS; TODESCO, 2009)

Page 52: Revista de RADIODIFUSÃO - SET PORTAL · Sinais de TV Digital ISDB-Tb via VHF e UHF na Cidade do Gama – DF – Brasil Akamine, Cristiano Bedicks Jr, Gunnar ... cujas frequências

Reforçadores de Sinais para Melhoramento da Cobertura do Sinal de TV Digital na

Região Metropolitana na Cidade de Goiânia

Danilo Carlos de Oliveira [email protected]

Getúlio Antero de Deus Jú[email protected]

Revista de Radiodifusão • v. 08 • n. 09 • 201452

Page 53: Revista de RADIODIFUSÃO - SET PORTAL · Sinais de TV Digital ISDB-Tb via VHF e UHF na Cidade do Gama – DF – Brasil Akamine, Cristiano Bedicks Jr, Gunnar ... cujas frequências

Revista de Radiodifusão • v. 08 • n. 09 • 2014 53

REFORÇADORES DE SINAIS PARA MELHORAMENTO DA COBERTURA DO SINAL DE TV DIGITAL NA REGIÃO METROPOLITANA DA CIDADE DE GOIÂNIA

Danilo Carlos de Oliveira Rosa1, Getúlio Antero de Deus Júnior2

1Televisão Anhanguera S/A, Afiliada Rede Globo, Goiânia, Brasil, [email protected] 2Universidade Federal de Goiás, Goiânia, Brasil, [email protected]

Resumo: Fundamentado no conceito de Rede de Frequência Única (RFU) (do inglês: Single Frequency Network - SFN) aplicado à transmissão de TV digital terrestre, este artigo baseia-se em um tipo específico de rede SFN que são as compostas por estações reforçadoras de sinal (do inglês: gap filler) para o chamado preenchimento de lacunas, ou regiões de sombra, na área de cobertura de uma estação transmissora já existente em uma determinada cidade ou região.

Simulações, baseadas em um estudo de caso, mostram que estações gap filler utilizadas em regiões urbanas metropolitanas são ferramentas úteis e necessárias para a melhoria da cobertura de TV Digital, cobrindo algumas regiões que podem estar obstruídas por edificações, vegetações, relevo ou outro tipo qualquer de obstáculo. É esperado que simulações e análises detalhadas devam ser cuidadosamente consideradas antes da implementação do projeto para mitigar riscos de interferência em áreas que já estão cobertas e para assegurar que a estação gap filler planejada irá cobrir apropriadamente todas as lacunas. Palavras chave: SFN, COFDM, Cobertura digital, Gap filler, Intervalo de guarda.

1. INTRODUÇÃO

O Sistema Brasileiro de Televisão Digital Terrestre (SBTVD) (do inglês: Integrated Services Digital Broadcasting – Terrestrial, brasilian version – ISDB-Tb) foi implementado a partir da modificação de alguns aspectos do padrão japonês, o ISDB-T, porém conservou uma importante característica de transmissão do sinal digital que torna possível a utilização de SFN, que é o uso da modulação OFDM (do inglês: Orthogonal Frequency Division Multiplexing).

A utilização de SFN em TV Digital possibilita a existência de uma rede de estações transmissoras utilizando a mesma frequência para transmitir a mesma informação ou programação em áreas de cobertura próximas e com regiões de cobertura comuns sem que uma estação interfira em outra, propiciando uma grande economia de um bem escasso que é o espectro radioelétrico, já que para o sistema de transmissão de TV analógica neste tipo de situação seriam necessárias frequências distintas para cada estação.

Neste sentido, serão apresentadas as análises

necessárias para uma boa recepção em um sintonizador digital dentro deste tipo de rede SFN bem como as técnicas utilizadas para mitigar o efeito negativo das interferências que uma estação pode ocasionar à outra.

Por fim, será realizado um estudo de caso baseado em simulações com o uso do software de predição de cobertura GiraPlan® na região metropolitana da cidade de Goiânia, com o intuito de apresentar a utilização de estações gap fillers para promover o melhoramento da área de cobertura de TV digital de uma determinada região já coberta por um transmissor principal, desde que as estações reforçadoras sejam corretamente dimensionadas levando em consideração de forma criteriosa a análise de interferências.

2. CARACTERÍSTICAS DA MODULAÇÃO OFDM PARA REDES SFN

A técnica de modulação OFDM foi particularmente desenvolvida para prover confiabilidade na recepção de sinais que foram afetados pelo meio de propagação a partir de fortes distorções tais como a atenuação e os diversos tipos de desvanecimento, principalmente a ocasionada por multipercurso, como é o caso do canal de TV que é irradiado em uma topologia ponto-área sofrendo influência do relevo, edificações e vegetações [1].

Desta forma, o princípio básico da modulação OFDM é dividir a informação a ser transmitida em um grande número de portadoras de faixa estreita que são ortogonais entre si, ou seja, a integral do produto entre duas quaisquer dessas funções dentro do intervalo de um símbolo é nula, de forma a tornar o sinal mais imune às degradações do canal e também permitindo que o sinal caiba em um canal com largura de faixa de 6 MHz [2].

No caso do ISDB-Tb, existem três modos de sistema que determinam o espaçamento em frequência das portadoras OFDM, ou seja, 4 kHz, 2 kHz ou 1 kHz, que caracterizam os modos de sistema 1, 2 e 3, respectivamente [3]. Consequentemente, cada modo exige um número diferente de portadoras sendo que quanto menor o espaçamento, maior o número de portadoras já que a largura de banda do canal é fixa.

39

Page 54: Revista de RADIODIFUSÃO - SET PORTAL · Sinais de TV Digital ISDB-Tb via VHF e UHF na Cidade do Gama – DF – Brasil Akamine, Cristiano Bedicks Jr, Gunnar ... cujas frequências

Revista de Radiodifusão • v. 08 • n. 09 • 201454

Aliado a este espalhamento da informação em várias portadoras, para resolver o grande problema do desvanecimento causado pelos multipercursos na recepção do sinal que gera a chamada Interferência Intersimbólica (do inglês: Intersymbol Interference – ISI) no sinal digital, esta modulação utiliza a técnica de inserir um intervalo entre os símbolos OFDM transmitidos, denominado de Intervalo de Guarda (IG). A utilização do IG além de possibilitar a formação de redes SFN e a recepção móvel de TV digital, praticamente anula os efeitos dos multipercursos, que na recepção de TV analógica é percebida nos chamados “fantasmas” na imagem [4].

Desta forma, a cada símbolo OFDM gerado de duração útil Tu, é inserido antes do mesmo um IG de duração Δ que representa uma fração k de Tu, ou seja, Δ = k . Tu, formando um símbolo completo de duração total Ts, conforme pode ser ilustrado na Figura 1.

Fig. 1. Composição do símbolo OFDM.

No caso do ISDB-Tb, é especificado que Δ pode

ter valores cujas frações k poderá ser de 1/4, 1/8, 1/16 e 1/32 de Tu [3]. É importante ressaltar que quanto maior o valor de Δ, maior a robustez na recepção do sinal já que admite maiores atrasos dos sinais refletidos ou dos sinais provindos de outra estação transmissora, como um gap filler. Porém, como no processo de demodulação do sinal no receptor, o IG é desconsiderado, quanto maior a sua duração, maior a sua ocupação na largura de faixa do canal e desta forma, menor a taxa de dados úteis que pode ser utilizada. Portanto, existe uma relação de compromisso entre um maior valor de Δ e a taxa de dados disponível no canal [5].

3. ANÁLISE DA RECEPÇÃO EM SFN

De maneira geral, as emissoras de TV possuem uma única estação transmissora localizada em um dos pontos mais altos de uma determinada cidade irradiando uma alta potência para tentar cobrir toda a região proposta. Porém, com as limitações de relevo, edificações, vegetação ou qualquer outro obstáculo ao sinal transmitido, podem existir regiões que receberão o sinal de TV Digital com nível insuficiente para que os processos de demodulação e decodificação sejam possíveis no receptor, impossibilitando o telespectador de assistir o canal transmitido. As áreas que estão localizadas em regiões com esta característica descrita acima são chamadas regiões de sombra.

Desta forma, a possibilidade de se ter estações em SFN, é uma grande vantagem da tecnologia de TV Digital devido ao fato de viabilizar o aumento da área

de cobertura de uma determinada região com reforçadores de sinais, sem comprometer o espectro radioelétrico. Porém, um considerável problema que poderá ocorrer se estas estações não forem bem projetadas é a interferência que um gap filler pode ocasionar em uma área já coberta por uma estação existente e geradora do sinal principal, fazendo com que a nova estação se torne inviável por prejudicar uma região que já estava sendo atendida.

Em uma rede SFN, um receptor de TV Digital localizado em uma região de cobertura simultânea de duas ou mais estações transmissoras, recebe dois ou mais sinais com o mesmo conteúdo e frequência, porém, em tempos e amplitudes diferentes. Portanto, para se projetar e dimensionar de forma correta uma nova estação em SFN, mais especificamente um gap filler, é de extrema importância proceder estes dois tipos de análises pontuais na recepção do sinal que são a análise temporal e a análise em amplitude dos sinais recebidos com o intuito de verificar se o sinal da nova estação não interferirá em uma região já coberta.

Uma estação reforçadora de sinal tem como premissa de funcionamento receber o sinal do ar de uma estação ativa, geralmente a estação principal da cidade, demodular o sinal recebido, modular novamente o sinal e depois transmiti-lo para a região de sombra pretendida. Assim, percebe-se que nas regiões onde os dois sinais são recebidos, o sinal do gap filler sempre estará atrasado em relação ao sinal da estação transmissora principal já que existe o tempo de propagação do sinal da estação transmissora principal à estação reforçadora, o tempo de processamento no gap filler e o tempo de propagação da retransmissão ao ponto analisado [6].

No entanto, a proteção do IG na modulação OFDM garante que se a diferença de atraso entre dois ou mais sinais recebidos for menor que o valor do intervalo de guarda inserido, não ocorrerá a ISI e a demodulação e a decodificação do sinal poderá ser feita independente do nível de cada um dos sinais. A Figura 2 exemplifica a recepção de dois sinais de TV Digital ISDB-Tb transmitidos no modo de sistema 3 com IG configurado com k = 1/16. Como o sinal 2 está atrasado e chega ao ponto analisado 50 µs após a chegada do sinal 1, ou seja, com um atraso menor que o valor do IG de 63 µs, a recepção neste ponto é possível e sem ISI.

Fig. 2. Exemplificação de recepção de dois sinais OFDM de TV

Digital sem ISI.

Caso a diferença entre os atrasos dos símbolos recebidos supere o valor do IG, outro aspecto deve

Tempo útil do símbolo OFDM (Tu)IG (Δ)

Duração total do símbolo OFDM (Ts)

S1 S2IG

Tu=1008sTu=1008s s

IG

S1 S2IGIG

50s

Sinal 1

Sinal 2

39

Danilo Carlos de Oliveira Rosa, Getúlio Antero de Deus Júnior

Page 55: Revista de RADIODIFUSÃO - SET PORTAL · Sinais de TV Digital ISDB-Tb via VHF e UHF na Cidade do Gama – DF – Brasil Akamine, Cristiano Bedicks Jr, Gunnar ... cujas frequências

Revista de Radiodifusão • v. 08 • n. 09 • 2014

Reforçadores de Sinais para Melhoramento da Cobertura do Sinal de TV Digital na Região Metropolitana na Cidade de Goiânia

55

ser levado em consideração antes de se afirmar que ocorre ISI, que é a diferença de nível entre os sinais recebidos. Baseado em medições e análises práticas de sistemas já instalados e já considerando uma determinada margem, quando o sinal com maior intensidade estiver 20 dB acima dos demais sinais recebidos, mesmo se algum outro sinal estiver atrasado com um tempo maior que o IG não haverá ISI, pois o nível estará tão baixo que o receptor o desconsiderará e não representará interferência na recepção [7].

Portanto, somente existirá ISI em um ponto que recebe dois ou mais sinais em SFN se existir uma diferença de atraso entre o sinal principal e qualquer outro sinal recebido maior que o IG estabelecido na transmissão e se a diferença de nível entre estes dois sinais for maior que 20 dB.

4. ESTUDO DE CASO

Em qualquer estudo para implantação de uma nova estação gap filler, é necessário levar em consideração se o dimensionamento realizado irá atender a cobertura da região de sombra pretendida e não provocará interferência em outra região com cobertura já existente. Para realizar este estudo é necessário verificar os níveis de sinal e a diferença de atraso entre os sinais das estações em cada ponto da região de análise.

Como esta análise ponto a ponto exige um esforço de cálculo elevado, existem softwares de predição de cobertura que fazem as simulações baseadas em modelos de propagação existentes e que levam em consideração o relevo da região e até mesmo as edificações e vegetação.

Para este estudo foi utilizado o software de predição de cobertura GiraPlan®, da empresa Progira, que utiliza uma base de dados de relevo, mapas, população, edificações, vegetações e outras informações do software ArcGIS® da empresa ESRI.

Os softwares utilizados permitem que sejam inseridos todos os parâmetros essenciais de transmissão das estações para que os cálculos possam ser executados. Os parâmetros utilizados incluem localização por meio das coordenadas geográficas, altura da antena, canal e frequência de transmissão, potência do transmissor, perdas no sistema, ganho da antena, diagrama de irradiação horizontal e vertical da antena, além dos parâmetros do ISDB-Tb como modo de sistema, modulação, código convolucional e intervalo de guarda.

Para executar os cálculos e plotagem da mancha de cobertura e a análise dos atrasos deve-se escolher um dentre os diversos modelos de propagação existentes no software, sendo que para este estudo, foi adotado o modelo ITU-R P.526. A partir daí, a mancha de cobertura gerada pode então ser exportada para um arquivo georreferenciado no

formato KMZ para que a análise possa ser feita visualmente em cima de fotografias obtidas por satélite no software Google Earth®.

Dessa forma, o estudo será composto pela análise de interferência de quatro novas estações reforçadoras para melhoramento da área de cobertura da região metropolitana da cidade de Goiânia, onde a estação transmissora principal se encontra em uma das regiões mais alta da cidade denominada de morro do Mendanha, e irradia uma alta potência, cobrindo quase toda a região metropolitana. Entretanto, uma análise prévia da cobertura indica algumas macro-regiões de sombra devido ao relevo desfavorável e conjunto de edificações.

Assim, foram relacionados quatro pontos hipotéticos para a instalação de uma estação gap filler para cobrir estas regiões de sombra da região metropolitana da cidade enumerados por GF01, GF02, GF03 e GF04.

O estudo completo para dimensionamento das estações foi realizado de maneira sequencial e individual de forma que foram sendo dimensionadas as estações sequencialmente na ordem de numeração das mesmas, verificando a influência que cada estação adicionada realizava nas demais. Neste estudo serão apresentadas apenas as informações relevantes do ponto de vista da análise de interferências.

Para o início do estudo foram consideradas as mesmas características de transmissão ISDB-Tb existente no transmissor principal, ou seja, modo de sistema 3, modulação 64-QAM, código convolucional 3/4 e intervalo de guarda com k = 1/16.

Após adicionar a estação GF01 com as características de potência e diagrama de antena que atende de forma eficiente a região de sombra pretendida, nenhum ajuste adicional foi necessário por não ter surgido nenhuma região de interferência. Porém, ao adicionar a estação GF02 com as características desejadas, formou-se uma grande área de interferência que pode ser visualizada na Figura 3, representada pela mancha escura sobre o mapa da região metropolitana de Goiânia.

O software GiraPlan® permite que seja realizada uma análise pontual de atrasos e níveis dos sinais envolvidos. Recorrendo a este recurso, foi selecionado um ponto dentro da área urbana de interferência que evidencia que o sinal do reforçador GF01 está atrasado em 65,7 µs do sinal do transmissor principal, ou seja, maior que o IG que é de 63 µs neste caso, conforme pode ser observado na Figura 4. Como esse sinal está apenas 3,59 dB abaixo do sinal de maior potência, é evidenciada a ISI neste ponto.

40

Page 56: Revista de RADIODIFUSÃO - SET PORTAL · Sinais de TV Digital ISDB-Tb via VHF e UHF na Cidade do Gama – DF – Brasil Akamine, Cristiano Bedicks Jr, Gunnar ... cujas frequências

Revista de Radiodifusão • v. 08 • n. 09 • 201456

Fig. 3. Região de interferência ao adicionar o GF2.

Fig. 4. Análise pontual da ISI na utilização de

dois reforçadores de sinais.

Para mitigar ou anular esta grande região de interferência que a adição do GF02 gerou, pode-se alterar um dos dois fatores relacionados à análise de SFN, a saber: (a) aumentar na área interferida, a diferença do nível do sinal de maior intensidade em relação ao interferente até que esta seja maior que 20 dB; ou (b) aumentar o IG de todo o sistema de transmissão de forma que a diferença de atraso entre os sinais seja menor que o valor da duração do IG.

Em uma primeira análise, a primeira opção é a que causa menos impacto, pois não altera os parâmetros de transmissão da estação principal e as taxas úteis dos programas HD e 1-Seg podem ser mantidas. Porém, esta opção se torna atrativa e viável somente quando se tem uma pequena área interferida e a diferença entre os níveis de sinal nesta região está próximo a 20 dB.

Na tentativa de aumentar a diferença de nível entre os sinais na região interferida, pode-se alterar três características de transmissão da estação gap filler analisada com o intuito de reduzir ou eliminar a área de interferência, a saber:

(a) alterar o diagrama vertical e/ou o diagrama horizontal da antena de forma que se

condicione melhor o sinal transmitido na região pretendida;

(b) alterar o tilt elétrico e/ou mecânico da antena de maneira tal que diminua o sinal transmitido pelas “costas” da antena, que geralmente é o maior causador de ISI; e

(c) alterar a potência do transmissor reforçador.

Porém, no caso da inserção do GF02, percebe-se a partir da análise de vários pontos amostrados dentro da região de interferência que a diferença de nível é muito pequena fazendo com que a tentativa de se aumentar esta diferença para mais de 20 dB seria uma tarefa praticamente impossível. Desta forma, a única opção foi alterar o IG de k = 1/16 para k = 1/8, ou seja, de Δ = 63 µs para Δ = 126 µs.

Entretanto, como relatado anteriormente, aumentar o IG significa reduzir a taxa útil do programa HD, que contém 12 segmentos, de 17.842,80 kbps para 16.851,48 kbps e do programa 1-SEG, que contém 1 segmento, de 440,56 kbps para 416,08 kbps, ou seja, uma diferença de 991,32 kbps e 24,48 kbps, respectivamente.

A partir dessa constatação, foi realizada uma nova simulação com as mesmas condições anteriores, porém aumentando o IG de transmissão de k = 1/16 para k = 1/8. A Figura 5 apresenta o resultado encontrado com o novo IG de transmissão, evidenciando algumas pequenas manchas escuras próximas à cidade de Abadia de Goiás e na região norte de Goiânia.

Fig. 5. Regiões de interferência ao adicionar o GF2 com novo

Intervalo de Guarda (IG).

Nesta nova condição, a maior parte da região de interferência evidenciada na Figura 3 desapareceu, observando somente pequenas manchas de interferência em algumas regiões fora da área metropolitana urbana de Goiânia, confirmando que toda aquela região era provocada por diferenças de

41

Danilo Carlos de Oliveira Rosa, Getúlio Antero de Deus Júnior

Page 57: Revista de RADIODIFUSÃO - SET PORTAL · Sinais de TV Digital ISDB-Tb via VHF e UHF na Cidade do Gama – DF – Brasil Akamine, Cristiano Bedicks Jr, Gunnar ... cujas frequências

Reforçadores de Sinais para Melhoramento da Cobertura do Sinal de TV Digital na Região Metropolitana na Cidade de Goiânia

Revista de Radiodifusão • v. 08 • n. 09 • 2014

atraso maiores que 63 µs, porém menores que 126 µs.

Ao adicionar as outras duas estações gap filler, GF03 e GF04, evidenciou-se somente uma pequena área de interferência na região metropolitana de Goiânia que deverá ser analisada pontualmente. Outras áreas de interferência surgiram, porém, em áreas não urbanas e muito distantes da região de cobertura pretendida e por esse motivo, não foram pontuadas.

A Figura 6 apresenta a ampliação da pequena região de interferência detectada pelo software e evidenciada nas manchas escuras no mapa utilizando quatro gap fillers. Ao fazer a análise de algumas amostragens de pontos, percebe-se que todos os pontos apresentam que o GF04 é o único reforçador de sinal que está fora do IG e com nível próximo de 20 dB abaixo do maior nível de sinal.

Assim, considera-se que esta é uma região muito

pequena e que a diferença, na prática, será maior que os 20 dB evidenciado nas simulações que considera uma antena omnidirecional na recepção.

É digna de nota a utilização de uma antena

direcional apontada para a estação gap filler mais próxima que melhorará a relação da diferença encontrada na simulação.

Fig. 6. Região de ISI após adição de quatro gap fillers.

5. CONCLUSÃO

A possibilidade de utilização de estações reforçadoras de sinais (gap fillers) em regiões metropolitanas dos grandes centros é uma realidade muito útil e necessária para a melhoria de cobertura de TV Digital destas regiões.

O estudo de caso realizado por meio de simulações via software comprovou a necessidade de uma análise detalhada para um correto dimensionamento de estações reforçadoras de sinais.

Adicionalmente, pode-se dizer que se esta análise for negligenciada, o risco de se ter o efeito inverso é

aumentado, ou seja, ao invés de melhorar a cobertura existente, o uso de reforçadores de sinais irá afetar negativamente as regiões já cobertas.

Portanto, com uma análise criteriosa e com a utilização de técnicas de eliminação de interferências, foi possível projetar e dimensionar quatro estações reforçadoras de sinal digital na região metropolitana de Goiânia, fazendo com que as maiores regiões de sombra existentes fossem cobertas.

AGRADECIMENTOS

Os autores agradecem o apoio da TV Globo do Rio de Janeiro-RJ e ao Curso de Especialização em Telecomunicações da Escola de Engenharia Elétrica, Mecânica e de Computação (EMC) da Universidade Federal de Goiás nos resultados encontrados nesse trabalho.

REFERÊNCIAS

[1] B. LE FLOCH, M. ALARD, C. BERROU, “Coded Orthogonal Frequency Division Multiplex”, Proceedings of the IEEE, v. 83, n. 6, 1995.

[2] M. S. ALENCAR, “Televisão Digital”, São Paulo: Érica, 2007.

[3] ASSOCIAÇÃO BRASILEIRA DE NORMAS

TÉCNICAS, “NBR 15601: Televisão digital terrestre – sistema de transmissão”, Rio de Janeiro, 2008.

[4] R. M. MAROJA, “COFDM-Modulação Hierárquica

e Modulação Segmentada em TV Digital”, Revista de Radiodifusão - SET, São Paulo, v. 3, n. 3, 2009.

[5] E. L. REGE, G. A. D. JÚNIOR, “A utilização de

rede de frequência única (SFN) na televisão digital”, In: I SEMINÁRIO GOIANO EM TELECOMUNICAÇÕES, Goiânia, 2011.

[6] S. R. M. CARVALHO, “Utilização da Rede SFN

para Expansão da Rede de Retransmissão Regional da TV Digital Aberta Terrestre”, Dissertação (Mestrado em Engenharia Elétrica) – Faculdade de Engenharia Elétrica e de Computação, Universidade Estadual de Campinas, Campinas, 2006.

[7] F. PERES, “Single Frequency Network”, Notas de

aula, PUC-RJ, Rio de Janeiro, 2009.

57

Page 58: Revista de RADIODIFUSÃO - SET PORTAL · Sinais de TV Digital ISDB-Tb via VHF e UHF na Cidade do Gama – DF – Brasil Akamine, Cristiano Bedicks Jr, Gunnar ... cujas frequências

Análise do Desempenho Prático da Transmissão de Sinais de TV Digital ISDB-Tb via VHF e UHF na Cidade do Gama – DF – Brasil

Adriano Goetz da [email protected]

Marco Antonio Brasil [email protected]

Revista de Radiodifusão • v. 08 • n. 09 • 201458

Page 59: Revista de RADIODIFUSÃO - SET PORTAL · Sinais de TV Digital ISDB-Tb via VHF e UHF na Cidade do Gama – DF – Brasil Akamine, Cristiano Bedicks Jr, Gunnar ... cujas frequências

Revista de Radiodifusão • v. 08 • n. 09 • 2014 59

ANÁLISE DO DESEMPENHO PRÁTICO DA TRANSMISSÃO DE SINAIS DE TV DIGITAL ISDB-Tb VIA VHF E UHF NA CIDADE DO GAMA – DF – BRASIL.

Adriano Goetz da Silva , Marco Antonio Brasil Terada

Antenna Group, Electrical Engineering Dept., University of Brasilia, DF,Brazil. Zip Code 70.910-900 [email protected] and [email protected]

Resumo: Com o remanejamento da faixa de 700 MHz para uso pelo LTE, tornou-se necessário realizar testes que comprovem a eficiência do sistema ISDB-tb transmitido na faixa de VHF em canal alto, comparando seus rendimentos com o sistema UHF. O presente artigo descreve e analisa a transmissão experimental no canal 13 VHF, na cidade do Gama – DF, comparando os resultados práticos com os resultados previstos pelo modelo oficial de propagação ITU-R P.1546 ponderado pelo modelo Okomura-Hata. São realizadas medidas de intensidade de campo, sendo colhidas amostras do canal 13 e de outros canais ISDB-Tb em UHF, sendo medidas também a taxa de erro (BER) e a relação sinal ruído, realizada análise comparativa de eficiência de cobertura obtida através da transmissão ISDB-Tb nas faixas de VHF versus faixa de UHF. Palavras chave: ISDB-T, Digital TV, Broadcast, ITU-R P.1546, transmission.

1. INTRODUÇÃO

A adoção pelo Brasil do Padrão de TV digital ISDB-Tb, com melhorias nacionais, demandou a alocação de novos canais de tv, para operarem em simultâneo ao sistema analógico, por alguns anos. Para uma maior uniformidade entre as áreas de cobertura das várias emissoras que operam em uma única localidade, padronizou-se que todos os novos canais digitais operariam em UHF. A faixa compreendida entre os canais 60 a 69 (conhecida como fixa dos 700 Mhz), utilizada até então para enlace de tv entre cidades, passaria a ser utilizada preferencialmente pelas emissoras publicas e governamentais. Com a possível realocação da faixa de 700 MHZ para uso pelo LTE, tornou-se necessário medir e avaliar o desempenho real da transmissão de TV em VHF em canal alto (7 ao 13), comparando-o com o UHF, visando a futura ocupação do VHF pelas emissoras públicas ou emissoras privadas que necessitem de espaço no espectro . O presente artigo narra os testes feitos na cidade do GAMA-DF, comparando os resultados obtidos através de uma transmissão experimental em VHF com a transmissão em UHF existente. A modulação empregada foi a 64 QAM, testado apenas o full-seg.

O trabalho é dividido nas seções: 2) Objetivo das frentes de trabalho. 3) Condições de recepção. 4) Estações transmissoras. 5) Estações receptoras. 6) predição de cobertura. 7) Escolha dos pontos de medidas. 8) análise dos resultados.

2. OBJETIVO DAS FRENTES DE TRABALHO. Esta análise se baseia em duas frentes de trabalho, uma realizada pelas equipes do Ministério das Comunicações e do INMETRO, contando com instrumental e veículo customisado conhecido como Laboratório Móvel de TV Digital. A outra frente de trabalho contou com nossa participação, onde empregamos instrumentos portáteis de propriedade da EBC e veículo de passeio.

A frente de trabalho conduzida pelo MINICIOM em parceria com o INMETRO teve como objetivo medir e analisar o desempenho do canal 13 ISDB-T comparando-o às estimativas previstas no modelo de propagação ITU-R 1546, o qual é utilizado como ferramenta básica para os projetos legais de instalação de canais, perante a ANATEL e MINICOM. Ou seja, esta equipe verificou se realmente o canal 13 ISDB-T cobre as áreas esperadas com sinal eficiente, de acordo com a ferramenta ITU-R 1546.

A frente de trabalho por nós conduzida, teve objetivos diferenciados daquele da equipe anterior, o primeiro, de medir sinal e verificar o atendimento dos requisitos mínimos para recepção com antena interna em região urbana do sinal do canal 13 ISDB-Tb. O segundo objetivo fora medir o sinal, verificar a recepção com antena interna do canal 20 ISDB-Tb, o terceiro objetivo fora o de comparar os resultados da cobertura obtida com o canal 13 versus a cobertura obtida com o canal 20

3. CONDIÇÕES DE RECEPÇÃO. O critério da equipe MINICOM / INMETRO fora o

de verificar a viabilidade de recepção com antena externa, conforme definido na norma técnica ( portaria 386). Para este caso o veículo contou com mastro de 10 metros de altura, antena log-periódica de 4,36dBd de ganho e cabo de descida de 0,8 dB de perda. Já o critério dos autores deste trabalho fora o de verificar as condições de recepção com antena interna, para tanto empregou-se antena dipolo, mastro de 3,5 metros e analisador de sinais ISDB-Tb portátil.

39

Page 60: Revista de RADIODIFUSÃO - SET PORTAL · Sinais de TV Digital ISDB-Tb via VHF e UHF na Cidade do Gama – DF – Brasil Akamine, Cristiano Bedicks Jr, Gunnar ... cujas frequências

Revista de Radiodifusão • v. 08 • n. 09 • 201460

Segundo o estudo realizado pela Anatel, quando do planejamento dos novos canais para operarem em forma digital pelo sistema ISDB-Tb, os valores para recepção com antena externa e antena interna estão apontados na tabela I.

Na mesma tabela, encontramos os nível de sinal estipulado pelo estudo do CPqD, embasado na recomendação ITU RCC-06, o qual prevê a recepção com antena interna a uma altura de 1,5 metros do solo e atenuação por penetração em paredes de alvenaria, prevendo o uso mínimo dos corretores de erro do receptor (FEC , Red-Salomon).

VHF Alto UHF Referência

Recepção c/ Antena Externa 10 m de altura 43dBuV/m 51dBuV/m

contorno de serviço

70% do tempo e 90 % dos lugares

(norma ANATEL) Recepção c/ Antena Interna a 3 m de altura, 60dBuV/m 67dBuV/m

Contorno urbano

70% do tempo e 90 % dos lugares

(norma ANATEL) Recepção portátil outdoor (Rec. ITU RRC-06) 67dBuV/m 78dBuV/m

90% do tempo/ 95% dos lugares

Recomendação ITU RRC-06 Recepção portátil e indoor a 1,5 m de altura 74dBuV/m 84dBuV/m

Recepção assintótica

99% do Tempo e 95% dos lugares (ótima)

(Recomedação ITU RRC-06)

Obs: Valores de campo elétrico que iluminam o local a 10 metros de altura (Tabela I) Observações em campo constataram que a forma

com que a população brasileira de baixa renda recebe TV se dá com o uso de antena externa com ganho pobre (7dBd), acima do telhado da casa de um andar (3,5 metros do solo), com emprego de cabo coaxial longo e de muita perda, uso de divisor de sinal e receptores com sensibilidade abaixo do previsto pela norma da ANATEL. Estudo realizado pela ABINEE demonstra variações de sensibilidade entre o melhor e o pior receptor comercial, da ordem de 4,7dB. A norma da ITU-R que originou a norma 386 da Anatel, apresenta em seu escopo as fórmulas da Função Densidade de Probabilidade Cumulativa Inversa, a qual permite calcular percentuais de tempo e espaço diferentes dos apontados nos estudos já concluídos. A soma destes fatores demonstrou que para garantir recepção satisfatória (70% do tempo e 90% dos lugares), necessitamos obter os níveis mínimos de 60dBuV/m em VHF ou 67dBuV/m em UHF.

4. ESTAÇÕES TRANSMISSORAS.

A estação transmissora do canal 13, operou com um transmissor de 100 watts de potência RMS, o cabo

empregado é do tipo 1 e 5/8, com 45 metros de comprimento, dando uma atenuação de 0,43 dB. A antena transmissora é do tipo log-periódica e propicia um ganho de potência de 7,85 dBd. A antena está apontada na direção de 165 graus (sul), seu ângulo de meia potência é de 54 graus, e está instalada a 42 metros de altura do solo. Desta forma, a estação transmissora do canal 13 irradia uma potência de 0,5 kW ERP na direção de 165 graus.

A outra estação utilizada como referência neste trabalho, transmitindo no canal 20, pertence a uma emissora comercial, opera com um transmissor de 500 watts de potência RMS, o cabo empregado é do tipo 1 e 5/8, com 60 metros de comprimento, dando uma atenuação de 0,8dB. A antena transmissora é do tipo SLOT de 220 graus e propicia um ganho de potência de 8,2 dB na polarização horizontal. A antena está apontada na direção de 165 graus (sul), seu ângulo de meia potência é de 110 graus, e está instalada a 42 metros de altura. Sua potência ERP é de 2,5Kw na direção de 170 graus.

Ambas as estações estão instaladas no mesmo sítio de transmissão, localizado no endereço SCL CI 45/47, sob as coordenadas 15º59’43’’S e 48º03’07’’W.

A diferença de potência irradiada entre elas (7dB) é justamente a diferença apontada pelos modelos de propagação como compensação entre a faixa de VHF e UHF. Legalmente ambas as estações são classificadas como Classe Dada a semelhança entre ambas estações, é possível comparar o rendimento de uma, em detrimento da outra.

5. ESTAÇÕES RECEPTORAS. A estação receptora do MINICOM / INMETRO é

instalada no interior de um veículo do tipo VAN, dotado de mastro telescópico de 10 metros de altura, empregando na recepção uma antena do tipo log-periódica, de fabricação da Rhode & Schwarz, com 4,36 dBd de ganho. A atenuação do cabo é de 0,8 dB, sendo empregado um amplificador LNA fabricado pela Minicircuits, de 20 dB de ganho, para compensar as perdas inseridas pelos divisores de potência instalados na sequência do LNA. O sinal ampificado pelo LNA passa por um atenuador variável, passando pelo divisor e indo até um analisador de espectro marca ANRITSU. Do divisor também sai sinal para alimentar alguns receptores domésticos típicos e para alimentar um analisador de sinais ISDB-T marca RHODE & SCHWARZ.

A estação receptora empregada pelos autores deste trabalho usou instrumentos portáteis, transportáveis em veículo de passeio particular. Para suprir as condições de recepção interna, descritas acima, empregaram-se duas varas de PVC de 1,8 metros de comprimento cada, na ponta de uma delas está montado um dipolo dobrado cortado para a frequência central do canal 13, da mesma forma, na ponta da outra vara está montado outro dipolo dobrado, cortado para a frequência central do canal 20, também dotado de balum e cabo coaxial de baixa

39

Adriano Goetz da Silva , Marco Antonio Brasil Terada

Page 61: Revista de RADIODIFUSÃO - SET PORTAL · Sinais de TV Digital ISDB-Tb via VHF e UHF na Cidade do Gama – DF – Brasil Akamine, Cristiano Bedicks Jr, Gunnar ... cujas frequências

Revista de Radiodifusão • v. 08 • n. 09 • 2014

Análise do Desempenho Prático da Transmissão de Sinais de TV Digital ISDB-Tb via VHF e UHF na Cidade do Gama – DF – Brasil

61

perda. Ao efetuar a medição, o operador soma a altura da vara à altura de seu corpo, posicionando a antena aos 3,5 metros de altura.

Para a medida e análise dos sinais, empregou-se um analisador de sinais ISDB-Tb da marca DIGIAIR PRO, o qual mede a intensidade do sinal elétrico entregue à sua entrada, sobre uma impedância característica de 75 Ohms, dado a isso é efetuada a correção do fator K da antena. O instrumento tem capacidade de decodificação do sinal, medindo a taxa de erro (BER) obtida antes da atuação dos corretores de erro do sistema (FEC, Reed Salomon), medindo também a relação sinal/ruído sobre a constelação decodificada.

6. PREDIÇÃO DE COBERTURA.

Como ferramenta de predição de cobertura, foi empregado o software “Projeto Instalação TV FM “ cedido pela empresa GT Telecomunicações, em sua versão de demonstração. A ferramenta é dedicada, na verdade, à automação da confecção do projeto de instalação de estação geradora ou retransmissora de TV, seguindo os requisitos da norma técnica ANATEL n.º 386. Uma das tarefas do projetista de uma estação de transmissão de TV é justamente prever a área de cobertura para fins legais, definida pelo perímetro interno ao contorno de serviço ( 43dBuV/m para VHF alto ou 51dBuV/m para UHF), o software desempenha essa função, suprindo as exigências da norma técnica, que recomenda o emprego do modelo ITU-R P.1546 com algumas modificações, para o traçado dos contornos estipulados. O software permite também simular o contorno urbano, ou outro contorno de acordo com a intensidade de campo elétrico desejada. Tanto a equipe do MINICOM / INMETRO quanto os autores deste trabalho empregaram o mesmo software para determinar o contorno de serviço da estação do canal 13. 7. ESCOLHA DOS PONTOS DE MEDIDAS.

A equipe do MINICOM / INMETRO plotou 100 pontos no interior do perímetro do contorno de serviço. Nosso trabalho conseguiu aferir 53 pontos, sendo 45 deles diferentes dos pontos medidos pelo MINICOM. A escolha dos pontos de medida do presente trabalho voltou-se a medir o sinal e verificar a condição de recepção com antena interna preferencialmente na região urbana do Gama e de Santa Maria, além de medidas em região descampada, próxima à estação. Apenas 7 pontos foram medidos na região rural, na borda do contorno de serviço, nos mesmos locais em que o MINICOM efetuou medidas, com o objetivo de aferir os instrumentos utilizados pelos autores comparando-os aos instrumentos utilizados pelo MINICOM. A figura a seguir apresenta as curvas de nível previstas para o experimento.

As medidas realizadas pela equipe formada pelos

autores deste, evitou pontos de medidas próximos à obstáculos contundentes, segundo as recomendações do modelo Ikegami-Walfish

8. ANÁLISE DOS RESULTADOS. Os níveis de sinal encontrados nas 50 medidas

tanto do canal 13 quanto do canal 20, quando comparados aos níveis previstos pelo simulador, acrescidos das compensações pelo método Okomura-Hata, nas regiões de atenuação urbana e suburbana, supriram os valores previstos, seguindo uma distribuição log-normal com desvio padrão de 5,5dB, como esperado, salvo leves discrepâncias em pontos isolados. Esta análise foi feita para garantir a validade das amostras, e para verificar o tipo de antena recomendada para recepção, em ambos os casos (VHF e UHF). Dessa análise obtivemos o resultado abaixo:

0

20

40

60

C13 C20

Antena Recomendada

ant ext prof (70,90) ant ext comum (70,90)indoor (95,99)

Também foram realizadas medidas de taxa de erro

(BER), pré Viterbi, sendo divididos os pontos de medidas em três categorias, de acordo com o desempenho dos corretores de erro, quais sejam: sem erros, erros passiveis de correção e erro máximo (decodificação inviável, sem sinal). As condições extremas são mostradas na tabela:

40

Page 62: Revista de RADIODIFUSÃO - SET PORTAL · Sinais de TV Digital ISDB-Tb via VHF e UHF na Cidade do Gama – DF – Brasil Akamine, Cristiano Bedicks Jr, Gunnar ... cujas frequências

Revista de Radiodifusão • v. 08 • n. 09 • 201462

05

10152025303540

%

semerro

erromáx

semerro

erromáx

C 13 C 20

Erros

Em paralelo, foi medida a relação sinal-ruído, a qual, segundo a norma 386 da ANATEL, deve se manter igual ou melhor que 19 dB. A tabela abaixo mostra os resultados.

C 13 C 201617

18

19

20

21

dB

Relação Sinal Ruido Média

9. CONCLUSÃO Verificou-se que o sinal ISDB-T quando transmitido

em VHF tem maior capacidade de contorno de obstáculos, sofre menos com a atenuação em região urbana e é mais robusto que o sinal ISDB-T transmitido em UHF. Dessa forma, é perfeitamente viável a transmissão de sinais de TV broadcast pelo sistema ISDB-T em VHF.

Verificou-se que as condições hipotéticas de recepção com antena externa, empregadas para referenciar a norma 386 da ANATEL estão aquém das condições de recepção médias da população Brasileira. As condições de recepção indoor apontadas pela convenção da ITU RRC-06 são bem mais realistas.

Sugerimos como estudos futuros a possibilidade de emprego de esquema de modulação superior ao 64-AM, dividindo melhor a constelação e aumentando a taxa de dados a ser transmitida, viabilisando o emprego do ISDB-T VHF para transmissão SHDTV.

AGRADECIMENTOS Agradeço ao Prof. Hugo Dias, ao Engenheiro

Flávio Ferreira Lima (MINICOM) e ao Engenheiro Emanuel Zucarini (GT Telecomunicações), bem como aos colegas da EBC.

REFERÊNCIAS

[1] Agencia Nacional de Telecomunicações. Resolução n.o 386, available in www.anatel.gov.br/Portal/documentos/.../anexo_res_386_2004.pdf , Brasilia-DF, Brasil, 2004.

[2] International Telecomunications Union Recommendation. “Final Acts of the Regional Radiocommunication Conference for planning of the digital terrestrial broadcasting service in parts of Regions 1 and 3, in the frequency bands 174-230 MHz and 470-862 MHz (RRC-06)”. Available in http://www.itu.int/pub/R-ACT-RRC.14-2006. Geneva, Switzerland, 2013.

[3] International Telecomunications Union Recommendation P.1546, available in http://www.itu.int/rec/R-REC-P.1546-5-201309-I/en , Geneva, Switzerland, 2013.

[4] Wanderlei, P.H.S. “Análise de Radiação Não-ionisante Emitida por Estação Radio-base com Perdas Calculadas pelo Modelo Ikegami-Walfish”. UNB, Brasília, Brasil, Maio de 2009.

AUTORES:

Adriano Goetz da Silva é graduado em Tecnologia de Sistemas de Telecomunicações pela FACNET / ANHANGUERA de Taguatinga-DF (2011), atualmente é aluno do Programa de Pós Graduação em Engenharia Elétrica da Universidade de Brasília. Trabalhou com sistemas de RF na RBS-TV Porto Alegre, TVE-RS e RIC-SC. Trabalha atualmente na equipe de engenharia da EBC em Brasília.

Marco Antônio Brasil Terada: Possui graduação em Engenharia Elétrica pela Universidade de Brasília (1989), mestrado em Engenharia Elétrica pela Universidade de Brasília (1991) e doutorado em Engenharia Elétrica pela Virginia Tech (1995). EUA. Atualmente é professor da Universidade de Brasília - UnB. Trabalhou na INTELSAT - EUA. Tem experiência em antenas e eletromagnetismo, satélites, radares, telemetria, rádio-telescópios, métodos de síntese, métodos de otimização e software computacional.

41

Adriano Goetz da Silva , Marco Antonio Brasil Terada

Page 63: Revista de RADIODIFUSÃO - SET PORTAL · Sinais de TV Digital ISDB-Tb via VHF e UHF na Cidade do Gama – DF – Brasil Akamine, Cristiano Bedicks Jr, Gunnar ... cujas frequências
Page 64: Revista de RADIODIFUSÃO - SET PORTAL · Sinais de TV Digital ISDB-Tb via VHF e UHF na Cidade do Gama – DF – Brasil Akamine, Cristiano Bedicks Jr, Gunnar ... cujas frequências