anais do smsi 2016

303
SMSI 2016 V Simpósio Mineiro de Sistemas de Informação 30, 31 de agosto e 01 de setembro de 2016 Belo Horizonte-MG, Brasil ANAIS COORDENADOR DO COMITÊ CIENTÍFICO DE PROGRAMA (EDITOR) Rodrigo Baroni de Carvalho (PUC Minas) COORDENAÇÃO DO SMSI 2016 (ORGANIZADORES) Marcelo Werneck Barbosa (PUC Minas) Rodrigo Richard Gomes (PUC Minas) Lucila Ishitani (PUC Minas) REALIZAÇÃO Instituto de Informática e Ciências Exatas (ICEI) Pontifícia Universidade Católica de Minas Gerais (PUC Minas) APOIO Sociedade Brasileira de Computação (SBC) PATROCÍNIO Algar Tech, Avanti Negócios e Tecnologia, BHS, EMC, EY, Fumsoft, Henko, ITOne, iZap, Mobilus, Prime Systems, Rarolabs, RM Consultoria, UpdateSolution. ISBN 978-85-8239-045-0

Upload: vuongkhanh

Post on 10-Jan-2017

343 views

Category:

Documents


3 download

TRANSCRIPT

Page 1: Anais do SMSI 2016

SMSI 2016

V Simpósio Mineiro de Sistemas de Informação 30, 31 de agosto e 01 de setembro de 2016 Belo Horizonte-MG, Brasil

ANAIS COORDENADOR DO COMITÊ CIENTÍFICO DE PROGRAMA (EDITOR) Rodrigo Baroni de Carvalho (PUC Minas)

COORDENAÇÃO DO SMSI 2016 (ORGANIZADORES)

Marcelo Werneck Barbosa (PUC Minas) Rodrigo Richard Gomes (PUC Minas) Lucila Ishitani (PUC Minas)

REALIZAÇÃO

Instituto de Informática e Ciências Exatas (ICEI) Pontifícia Universidade Católica de Minas Gerais (PUC Minas)

APOIO

Sociedade Brasileira de Computação (SBC)

PATROCÍNIO

Algar Tech, Avanti Negócios e Tecnologia, BHS, EMC, EY, Fumsoft, Henko, ITOne, iZap, Mobilus, Prime Systems, Rarolabs, RM Consultoria, UpdateSolution.

ISBN

978-85-8239-045-0

Page 2: Anais do SMSI 2016

Autorizo a reprodução parcial ou total desta obra, para fins acadêmicos, desde que citada a fonte

APRESENTAÇÃO Com o tema “Integração de Sistemas Inteligentes”, o Simpósio Mineiro de Sistemas de Informação visa reunir pesquisadores, estudantes e profissionais de Minas Gerais e do Brasil para apresentarem e discutirem temas relacionados à área de Sistemas

de Informação. O SMSI está sendo organizado pelo Instituto de Ciências Exatas e Informática da PUC Minas.

Na história da humanidade, as evoluções tecnológicas sempre propulsionaram revoluções industriais. Desde o advento da máquina a vapor, passando pelas

tecnologias de comunicação baseadas em válvulas, transistores e circuitos integrados e o advento da Internet, a indústria promoveu grandes saltos de produtividade e inovações nos processos de trabalhos. A chamada indústria 4.0, conceito cunhado na

Alemanha em 2012, compreende a integração de sistemas inteligentes interconectados com elevada capacidade computacional. Tais sistemas se adaptam e evoluem com as interações e se conectam com sensores inteligentes, impressoras 3D

e dispositivos da Internet das Coisas. Tal contexto exigira dos teóricos e praticantes novas perspectivas para o desenvolvimento de sistemas de informação, sendo que o SMSI se constitui um evento em que esses novos olhares podem ser compartilhados

e ampliados. O SMSI é um evento apoiado pela SBC – Secretaria Regional de Minas Gerais e tem

como objetivos promover a área de Sistemas de Informação à sociedade e incentivar a criação de grupos de interesse, com a participação de profissionais da academia e da indústria envolvidos com essa linha de formação e pesquisa. Serão realizadas

sessões técnicas com apresentação de artigos completos, painéis de discussões, minicursos e palestras de profissionais da indústria e convidados de renome nacional.

Rodrigo Baroni de Carvalho, PUC Minas

Coordenador do Comitê Científico de Programa

Page 3: Anais do SMSI 2016

Comitês Técnicos SMSI COORDENAÇÃO GERAL

Marcelo Werneck Barbosa, PUC Minas Rodrigo Richard Gomes, PUC Minas

Lucila Ishitani, PUC Minas

SMSI COMITÊ DE ORGANIZAÇÃO

Eveline Alonso Veloso, PUC Minas

Juliana Amaral Baroni de Carvalho, PUC Minas Rommel Carneiro, PUC Minas

SMSI COORDENAÇÃO DO COMITÊ CIENTÍFICO DE PROGRAMA

Rodrigo Baroni de Carvalho, PUC Minas

SMSI COMITÊ CIENTÍFICO DE PROGRAMA

Ana Liddy Magalhães (UFMG, FUMEC, QualityFocus)

André Luiz Zambalde (UFLA) Carlos Alberto Marques Pietrobon (PUC Minas, UFOP) Daniela Cascini (CEFET-MG)

Eduardo Figueiredo (UFMG) Elder José Cirilo (UFSJ) Eveline Alonso (PUC Minas)

Fernando Silva Parreiras (FUMEC) Glívia Angélica Rodrigues Barbosa (CEFET-MG) Heitor Costa (UFLA) Kécia Ferreira (CEFET-MG)

Lucila Ishitani (PUC Minas) Luiz Claudio Gomes Maia (FUMEC) Manoel Palhares Moreira (PUC Minas)

Marcello Peixoto Bax (UFMG) Marcelo Werneck Barbosa (PUC Minas) Marco Antônio Pereira Araujo (IF Sudeste MG)

Mark Alan Song (PUC Minas) Maria Adriana Vidigal de Lima (UFU) Maria Augusta Vieira Nelson (PUC Minas)

Paulo Afonso Parreira Júnior (UFLA) Pedro Alves de Oliveira (PUC Minas) Ricardo Terra (UFLA)

Rodrigo Baroni de Carvalho (PUC Minas) Rodrigo Richard Gomes (PUC Minas) Saulo Augusto de Paula Pinto (PUC Minas)

Sidney Lino (PUC Minas) Tadeu Faria (PUC Minas)

Page 4: Anais do SMSI 2016

Palestras Convidadas Big Data, IOT,etc-Dados-O novo petróleo do século?

Carlos Barbieri (Fumsoft)

O objetivo da palestra é mostrar a visão crescente sobre a importância dos dados nas empresas e na sociedade, trazendo também uma reflexão sobre a nova forma de

gestão e governança sobre esses ativos.

Carlos Barbieri, engenheiro, formado em 1970-UFRRJ, MSc no INPE-SJCampos em 1974, especialização em Informática pelo INPE em 1976. Trabalhou na CEMIG de 1977 a 2002 onde foi responsável pelas áreas de Administração de Dados, de

Bancos de Dados, Business Intelligence, Apoio ao Desenvolvimento e novas tecnologias. Foi o coordenador geral do projeto Bug do Milênio da empresa e o coordenador executivo do Projeto de e-Business. Desenvolveu, nas áreas de dados e

correlatas , trabalhos de consultoria, treinamento e palestras em empresas em Portugal e no Brasil. Foi colunista do jornal COMPUTERWORLD, onde (de 1988-2002) escreveu mais de 200 artigos sobre tecnologia da Informação. É autor do

livro Modelagem de Dados (IBPI/PRESS-1994), do livro BI-Business Intelligence-Modelagem e Tecnologia( Axcel Books- 2001) e do BI2-Business Intelligence-

Modelagem e Qualidade(Elsevier-2011). Todos os livros foram adotados em cursos de graduação e pós-graduação no Brasil. É professor de cursos de Pós-Graduação na PUC-MG e FUMEC nas áreas de BI e Governança de Dados. Foi um

dos 2 primeiros brasileiros certificados em CDMP-DMBOK-DAMA e o único até 2014, em CDMP-DMBOK-DGS-Data Governance&Stewardship. Foi revisor convidado do Modelo DMM-Data Maturity Model do CMMI Institute e do DMBOK2-DAMA . É

atualmente coordenador da célula de Qualidade da Fumsoft-Sociedade Mineira de Software, responsável pelo Programa MPS.BR em MG, projetos de Qualidade de serviços e de Gestão e Qualidade de dados.

Governança de TI – uma visão do negócio

David Quites (EY Consultoria)

Nesta palestra será apresentada uma visão crítica da Governança de TI do ponto de

vista da visão do negócio. Mais de 15 anos de experiência em projetos de gestão estratégica empresarial com vasta experiência em projetos de desenho de processos (CSC, Financeiros,

Contábeis, BPMN) e melhoria contínua em diversos segmentos de mercado (mineração, indústria, bancário, construção civil e saúde). Com extenso background

em TI, liderou diversos projetos de desenho e implementação de inteligência estratégica, tática e operacional, cujas ferramentas são utilizadas para automatizar o processo e qualidade da informação para tomada de decisão executiva.

É formado em Administração de Empresas pela Universidade de Ciências Gerenciais

Page 5: Anais do SMSI 2016

(UNA – BH), pós-graduado em Finanças pela FDC – Fundação Dom Cabral e

especialista ERP SAP (FI/CO). Dentre seus principais clientes constam: Samarco, V&m Mineração, Usiminas, Cemig e Gasmig.

Métodos para Análise de Sentimentos em Mídias Sociais

Palestrante: Fabrício Benevenuto (UFMG)

Mais de 7.000 artigos foram escritos sobre análise de sentimento na última década e várias startups surgiram especificamente para propor soluções relacionadas a esse

tema. Parte desse enorme interesse tem se acentuado nos últimos anos devido ao enorme volume de sentimentos disponíveis a partir de dados de mídias sociais, incluindo Twitter, Facebook, fóruns, e blogs. Esses trechos de texto são uma mina de

ouro para as empresas e indivíduos que desejam monitorar e obter feedback sobre produtos e serviços. Nesse contexto, vários métodos e técnicas vêm sendo propostos de forma independente na literatura. Esta palestra oferece uma introdução ao

pesquisador ou aluno que pretende explorar esse tema. Inicialmente, apresentamos uma visão geral sobre análise de sentimentos e suas aplicações mais populares. Em seguida, discutimos os principais métodos e técnicas existentes na literatura, suas

características e formas de execução. Finalmente, comparamos estes métodos entre si e apresentamos as vantagens, desvantagens e possíveis limitações de cada um.

Fabrício Benevenuto é doutor (2010) em Ciência da Computação pela Universidade Federal de Minas Gerais (UFMG). Durante seu doutorado, Fabrício trabalhou na caracterização do comportamento de usuários em redes sociais

e na construção de soluções para a detecção de comportamento malicioso. Sua tese é vencedora do Prêmio CAPES de teses 2011, na área de Ciência da Computação.

Atualmente, Fabrício é professor adjunto do departamento de Ciência da Computação da Universidade Federal de Minas Gerais. Em temas relacionados a redes sociais e análise de sentimentos, Fabrício publicou vários artigos altamente

citados (mais de 4800 citações e h-index 25) e, recentemente, recebeu o título de Membro Afiliado da Academia Brasileira de Ciências.

Page 6: Anais do SMSI 2016

Artigos Completos Análise Comparativa de Abordagens para Análise de Sentimento Utilizando Tweets em Língua Portuguesa

Caio Souza (Pontifícia Universidade Católica de Minas Gerais - Brazil), Wladmir Brandão (UFMG - Brazil)

Previsão de existência de neblina com redes neurais

Amanda Karina Oliveira (PUC MINAS - Brazil), Anna Izabel Tostes (Pontifícia Universidade Católica de Minas Gerais - Brazil), Kleber Souza (PUC Minas Contagem - Brazil)

Reconhecimento Ótico de Dígitos Apresentados em Imagens de Medidores de Consumo de Gás Natural Julio Cesar Gonçalves (UTFPR - Brazil)

Uso de Mineração de Dados para Redução de Horas Extras: uma análise exploratória das bases de dados de uma empresa de construção civil Welliton V. Silva (Pontifícia Universidade Católica de Minas Gerais - Brazil),

Poliana A. C. Oliveira (Pontifícia Universidade Católica de Minas Gerais - Brazil, CEFET-MG, Brazil), Cíntia Avelar (Pontifícia Universidade Católica de Minas Gerais - Brazil)

Relações entre a gestão da informação e do conhecimento e o

gerenciamento de projetos um estudo de caso

Fabiana Bigão Silva (ECI / UFMG - Brazil), Marcello Bax (UFMG - Brazil)

Folksonomia: sugestão de Tags para noticias na Web

Úrsula Rosa Monteiro de Castro (Pontifícia Universidade Católica de Minas Gerais - Brazil), Manoel Palhares Moreira (Puc Minas - Brazil)

Abordagem para Descoberta de Conhecimento em Instrumentos Avaliativos de Organizações de Ensino Superior

Leandro Figueira Lessa (PUC MINAS - Brazil), Wladmir Brandão (Pontifícia Universidade Católica de Minas Gerais - Brazil)

Apreciação da Aplicabilidade de um Conjunto de Heurísticas para a Avaliação de Visualizações de Informação

Loraine Duarte (Centro Federal de Educação Tecnológica de Minas Gerais - Brazil),

Leonardo Dias (Centro Federal de Educação Tecnológica de Minas Gerais - Brazil), Ismael Santana (CEFET-MG - Brazil), Glívia Barbosa (Centro Federal de Educação Tecnológica de Minas Gerais - Brazil),

Flávio Coutinho (Centro Federal de Educação Tecnológica de Minas Gerais - Brazil),

Page 7: Anais do SMSI 2016

Fabio Silva (CEFET-MG - Brazil),

Diego Barros (Universidade Federal de Minas Gerais - Brazil)

Gestão da qualidade do código-fonte como medida de identificação e consequente prevenção à dívida técnica não-intencional em projetos de software

Vinícius Amaral (PUC Minas - Brazil), Maria Augusta Vieira Nelson (Pontifícia Universidade Católica de Minas Gerais -

Brazil)

Uma Ferramenta para Visualização de Indicadores de Dívida Técnica Durante a Evolução de Código

Bárbara Lopes (Pontifícia Universidade Católica de Minas Gerais - Brazil), Maria Augusta Vieira Nelson (Pontifícia Universidade Católica de Minas Gerais - Brazil)

Configuração de Produtos em Linha de Produtos de Software

Markos Almeida (Federal University of Minas Gerais - Brazil), Johnatan Oliveira (Universidade Federal de Minas Gerais - Brazil),

Eduardo Figueiredo (Federal University of Minas Gerais (UFMG) - Brazil)

Aderência a Padrões de Projeto: um mapeamento sobre ocorrências de Padrões de Projeto GOF em Softwares de Grande Porte

Moara Brito (IFBA - Brazil),

Luis Carvalho (IFBA - Brazil), Amanda Ferraz de O. Passos (IFBA - Brazil), Breno Andrade (Instituto Federal da Bahia - Brazil)

Uma Métrica de Manutenibilidade de Código CSS

Victor Salvador (Centro Federal de Ensino Tecnológico de Minas Gerais - Brazil), Flávio Coutinho (Centro Federal de Educação Tecnológica de Minas Gerais - Brazil),

Glívia Barbosa (Centro Federal de Educação Tecnológica de Minas Gerais - Brazil), Ismael Santana (CEFET-MG - Brazil)

Uma Caracterização da Pesquisa em Sistemas de Informação por meio de coautorias e Análise de Redes Sociais

Rodrigo Gomes (Pontifícia Universidade Católica de Minas Gerais - Brazil), Marcelo Barbosa (PUC Minas - Brazil)

Uma análise de mecanismos de Governança de Tecnologia da Informação

por meio de informações divulgadas por empresas

Sara Oliveira (PUC Minas - Brazil),

Marcelo Barbosa (PUC Minas - Brazil)

Automatic identification of keywords to generate links in patent documents

Thiago Reginaldo (Pontifical Catholic University of Minas Gerais - Brazil),

Page 8: Anais do SMSI 2016

Juan Carvalho (Pontifical Catholic University of Minas Gerais - Brazil),

Magali Meireles (Pontifical Catholic University of Minas Gerais - Brazil)

Utilizando entidades na criação de descritores para avaliar a qualidade de recomendações de novos itens no problema de Cold Start

Andrey de Paula (Pontifícia Universidade Católica de Minas Gerais - Brazil), Wladmir Brandão (Pontifícia Universidade Católica de Minas Gerais - Brazil), Rodrigo Gomes (Pontifícia Universidade Católica de Minas Gerais - Brazil)

Diretrizes de User Experience para Avaliação do Modelo de Interface e Interação de Aplicativos Móveis

Hian Neiva (Centro Federal de Educação Tecnológica de Minas Gerais - Brazil), Glívia Barbosa (Centro Federal de Educação Tecnológica de Minas Gerais - Brazil),

Ismael Santana (CEFET-MG - Brazil), Flávio Coutinho (Centro Federal de Educação Tecnológica de Minas Gerais - Brazil)

Heurísticas para Avaliar e Caracterizar a Usabilidade em Aplicativos Móveis

Educacionais Deborah D'Carlo (Centro Federal de Educação Tecnológica de Minas Gerais - Brazil), Glívia Barbosa (Centro Federal de Educação Tecnológica de Minas Gerais - Brazil),

Erica Oliveira (UFMG - Brazil)

Proposta de um framework para gestão de processos de software em organizações baseadas em projetos

Jansser Silva (Pontifícia Universidade Católica - Brazil), Pedro Oliveira (PUC Minas - Brazil)

Análise da Adequação do Processo de Desenvolvimento de Software em

Startups Jansser Silva (Pontifícia Universidade Católica - Brazil), Pasteur Junior (Pontificia Universidade Católica de Minas Gerais - Brazil)

Page 9: Anais do SMSI 2016

Artigos Curtos Usabilidade em Ambientes Virtuais para Ensino a Distância: Um Estudo de Caso no Moodle da PUC Minas Virtual

José Araújo (PUC Minas - Brazil), Geanderson Santos (Pontifícia Universidade Católica de Minas Gerais - Brazil), Glívia Barbosa (Centro Federal de Educação Tecnológica de Minas Gerais - Brazil)

Qualidade das Ferramentas para Gestão de Defeitos de Softwares sob a lente da Usabilidade: Um estudo de caso da ferramenta Bugzilla

Lara Souza (PUC Minas - Brazil),

Natália Santos (Universidade Federal de Minas Gerais - Brazil), Glívia Barbosa (Centro Federal de Educação Tecnológica de Minas Gerais - Brazil)

Usabilidade para Aplicativos Móveis de Comunicação Instantânea

Magnum Dutra (PUC Minas - Brazil),

Leonardo Dias (Centro Federal de Educação Tecnológica de Minas Gerais - Brazil), Loraine Duarte (Centro Federal de Educação Tecnológica de Minas Gerais - Brazil), Glívia Barbosa (Centro Federal de Educação Tecnológica de Minas Gerais - Brazil)

Abordagem baseada em SNA para monitoramento e acompanhamento do Programa Institucional de Bolsa de Iniciação à Docência em uma Instituição Federal de Ensino Superior

Alana Nogueira (Universidade Federal Rural da Amazônia - Brazil), Roniere Soares (Universidade Federal Rural da Amazônia - Brazil), Mariane Borges (Universidade Federal Rural da Amazonia - Brazil),

Aleksandra Silva (UFRA - Brazil), Silvana Brito (Universidade Federal Rural da Amazônia - Brazil)

ClikHelp: uma possibilidade para deficientes auditivos fazerem chamadas

urgentes

Diego Souza (Curso de Sistemas de Informação Instituto Politécnico - Centro Universitário UNA Belo Horizonte - Brazil),

Diogo Cunha (Curso de Sistemas de Informação Instituto Politécnico - Centro Universitário UNA Belo Horizonte - Brazil),

Igor Silva (Curso de Sistemas de Informação Instituto Politécnico - Centro Universitário UNA Belo Horizonte - Algeria), Jardiano Silva (Curso de Sistemas de Informação Instituto Politécnico - Centro

Universitário UNA Belo Horizonte - Brazil), Jose Cardeal (Curso de Sistemas de Informação Instituto Politécnico - Centro Universitário UNA Belo Horizonte - Algeria),

Rafael Tavares (Curso de Sistemas de Informação Instituto Politécnico - Centro Universitário UNA Belo Horizonte - Brazil), Victor Gonçalves (Curso de Sistemas de Informação Instituto Politécnico - Centro

Universitário UNA Belo Horizonte - Brazil), Ana Paula Ladeira (Centro Universitário UNA - Brazil)

Page 10: Anais do SMSI 2016

Uma investigação dos métodos de classificação da mineração de dados utilizados na gestão educacional

Anderson Dias (Centro Universitário Estácio Juiz de Fora - Brazil), Yago Ribeiro (Centro Universitário Estácio Juiz de Fora - Brazil), Tauller Augusto Matos (Centro Universitário Estácio - Juiz de Fora - Brazil)

Page 11: Anais do SMSI 2016

Analise Comparativa de Abordagens de Analise de SentimentoUtilizando Tweets em Lıngua Portuguesa

Caio H. P. de Souza, Wladmir C. Brandao1

1Pontifıcia Universidade Catolica de Minas GeraisBelo Horizonte – Minas Gerais – Brasil

[email protected], [email protected]

Abstract. Social networks are responsible for a massive amount of data, nowa-days highly valued by organizations for its potential to generate significant re-levant information for business. Thus, extract relevant information from datacirculating on social networks and analyze those information to generate va-lue becomes crucial for organizational survival. However, there are numerousapproaches to extraction and analysis of data from social networks, especiallyfor sentiment analysis. Thus, it becomes important for organizations to knowthe potential of application and limitations of these approaches to their busi-ness. This paper presents a comparative analysis of three different approachesof sentiment analysis widely used by organizations in general. Significant gainswere achieved for each context studied on this experiment, highlighting the mostrelevant approach.

Resumo. Redes sociais movimentam volumes massivos de dados, hoje muitovalorizados por organizacoes por terem o potencial de gerar informacao designificativa relevancia para os negocios. Dessa forma, extrair informacao rele-vante a partir de dados que circulam nas redes sociais e analisar tal informacaopara geracao de valor se torna crucial para a sobrevivencia organizacional.No entanto, existem inumeras abordagens para extracao e analise de dadosprovenientes de redes sociais, em especial para analise de sentimentos. Dessaforma, se torna fundamental para as organizacoes conhecerem os potenciais deaplicacao e as limitacoes dessas abordagens para seus negocios. O presentetrabalho apresenta uma analise comparativa entre tres diferentes abordagenspara analise de sentimento amplamente utilizadas pelas organizacoes em geral.Foram alcancados ganhos significativos para cada contexto trabalhado nestesexperimentos, ressaltando-se a abordagem com maior relevancia.

1. IntroducaoOs avancos recentes no campo das tecnologias de informacao e comunicacao (TICs) pos-sibilitaram que as pessoas expressassem suas opinioes por meio das redes sociais. Con-sumidores passaram a usar intensamente as redes sociais para declarar suas frustracoes esatisfacoes sobre suas experiencias de consumo. Consequentemente, as redes sociais seconsolidaram como fonte primaria de dados sobre experiencias pessoais extremamenteuteis para que organizacoes possam descobrir conhecimento relevante sobre seu mercadoconsumidor, a fim de melhorar seu desempenho nos negocios. No entanto, diante dovolume massivo de dados presentes nas redes sociais, a escolha de abordagens efetivas

Page 12: Anais do SMSI 2016

para mineracao de opinioes e analise de sentimentos de consumidores se torna um grandedesafio, mas fundamental para a melhoria do desempenho organizacional.

O presente artigo apresenta uma comparacao entre tres abordagens para analise desentimentos utilizadas por organizacoes, visando estabelecer um paralelo entre as aborda-gens em diferentes cenarios de uso. Para tanto, foram coletadas mensagens de diferentescontextos do Twitter1, tais como mensagens sobre organizacoes, locais e pessoas. Cadauma das abordagens foi utilizada para classificar as mensagens em positivas, expressandosentimentos positivos relacionados a satisfacao, negativas, expressando sentimentos ne-gativos relacionados a frustracao, e neutras, nao expressando sentimento algum. Em se-guida, metricas presentes na literatura foram utilizadas para comparacao da efetividadedas abordagens [Sokolova and Lapalme 2009].

A analise comparativa possibilitou demonstrar que cada abordagem se comportade maneira distinta nos diferentes contextos propostos no experimento, identificando quedeterminada abordagem alcancou maiores ganhos para determinado contexto. Visou-seoferecer insumos para organizacoes que desejam obter conhecimento sobre como seumercado consumidor reage ao seu produto, proporcionando as organizacoes a tomada dedecisao sobre qual abordagem utilizar. Foram identificadas as vantagens, desvantagense limitacoes das abordagens disponıveis, possibilitando maiores ganhos de acordo como contexto ao iniciar um processo de analise de sentimento dos dados referentes a suacompanhia.

O conteudo deste artigo esta estruturado da seguinte maneira: a Secao 2 apre-senta o referencial teorico, incluindo uma breve descricao das tecnicas de inteligenciade negocio e de analise de conteudo. A Secao 3 descreve os trabalhos relacionados, emespecial aqueles referenciados na literatura, que propoem abordagens para descoberta deconhecimento em textos. A Secao 4, apresenta o fluxo de operacao e os principais compo-nentes das abordagens propostas. A Secao 5 descreve os resultados oriundos da aplicacaoda abordagem proposta no contexto da PUC Minas. Finalmente, a Secao 6 apresenta aconclusao, bem como direcoes para trabalhos futuros.

2. Referencial TeoricoNesta secao sao apresentados conceitos e tecnicas referenciados na literatura tecnico-cientıfica, fundamentais para o entendimento do trabalho, incluindo coleta de dados naWeb, redes sociais e analise de sentimentos.

2.1. Redes SociaisSegundo [Wasserman and Faust 1994], por definicao, uma rede social e um conjunto deatores que pode possuir relacionamentos uns com os outros. Sao exemplos de redes so-ciais os grupos familiares, grupos de amigos de faculdade, de academia, de trabalho ouate mesmo encontros casuais, imprevistos. Eles podem ser vistos e caracterizados como acriacao de um relacionamento entre dois indivıduos (nos), ligando assim as redes ja exis-tentes de ambos. Tal relacionamento pode nunca mais ser nutrido ou, como em algunscasos, vir a se tornar algo mais forte do que todos os relacionamentos ja existentes.

Rede Social online e um tipo de mıdia online que permite que usuarios ao redor domundo se conectem, troquem experiencias e compartilhem conteudo de forma instantanea

1Twitter e uma rede social que permite aos usuarios enviar e ler mensagens curtas denominadas tweets.

Page 13: Anais do SMSI 2016

por meio da Internet. As redes sociais sao fruto do processo de socializacao da informacaonos ultimos anos representado pela extensao do dialogo e do modo como as informacoespassaram a ser organizadas atraves da Web [Franca et al. 2014].

2.2. Coleta de Dados de Redes Sociais

Atualmente, as principais redes sociais online (RSO) proveem interfaces ou servicos paraa captura parcial ou total de seus dados. Nesta secao, serao expostos os principais desafiose recursos para se trabalhar com as principais RSO existentes atualmente.

Existem formas diferentes de coleta de dados das redes sociais online. A primeiraforma consiste em determinar termos e coletar por citacoes destes termos no passado.Desta forma, existe a possibilidade de restricoes na obtencao de dados antigos, pois nor-malmente ha um perıodo de tempo viavel para a coleta dos dados. A segunda baseia-seem um conceito de streaming, onde a aplicacao criada funciona como um “ouvinte” darede e captura os dados a medida que estes surgem.

Algumas redes sociais disponibilizam uma API (Application Programming Inter-face) para que estudos ou coletas de dados sejam realizadas de maneira simplificada, oque garante que os dados que ali circulam e sao coletados estao vinculados a uma contade desenvolvedor e sob um conjunto de termos de responsabilidade da rede social.

2.3. Analise de Sentimentos

Segundo [Timmermann et al. 2013], a Analise de Sentimentos visa identificar o senti-mento que os usuarios apresentam a respeito de alguma entidade de interesse (um pro-duto especıfico, uma empresa, um lugar, uma pessoa, dentre outros) baseado no conteudodisponıvel na Web. O objetivo principal e permitir que um usuario obtenha um relatoriocontendo o que as pessoas andam dizendo sobre algum item selecionado sem precisarencontrar e ler todas as opinioes e notıcias a respeito. Cada vez mais pessoas e princi-palmente empresas estao interessadas em observar as opinioes de um grupo de pessoassobre temas que lhe interessam. Um caso comum e uma empresa que se interessa emmedir a aceitacao de um novo produto, monitorando as opinioes de um grupo em relacaoao produto. A analise de sentimento e um tipo de mineracao de dados que possibilita taldemanda.

Existem abordagens de analise de sentimento que interpretam os dados de dife-rentes maneiras. O dicionario lexico trata-se de um conjunto das palavras de que dispoede scores para mensurar os pesos para cada termo, chegando a um valor entre 0 e 1para a sentenca analisada. Existem basicamente duas abordagens para o aprendizado demaquina, que e a supervisionada e a nao supervisionada. A primeira e caracterizada pelofato de que existe a figura de um supervisor ou professor que ensina ao algoritmo o quecada registro significa.

3. Trabalhos Relacionados

Nesta secao sao apresentados trabalhos relacionados na literatura que propoem aborda-gens de analise de sentimento em textos, embasando a natureza deste experimento.

[Araujo et al. 2013] realizaram um estudo comparativo entre oito abordagens deanalise de sentimentos, cada qual com sua caracterıstica relevante, tornando capaz a

Page 14: Anais do SMSI 2016

analise do sentimento nos tweets. Os autores utilizaram duas bases de dados com carac-terısticas distintas, uma base historica e outra base rotulada da Web, definindo metricascomparativas entre as abordagens e observado suas vantagens e desvantagens. Adicional-mente, os autores propuseram uma nova abordagem que realiza a combinacao de carac-terısticas de varias abordagens de analise de sentimento buscando obter maior precisaonos resultados.

Parte das abordagens para analise de sentimentos em textos estao disponıveis ape-nas para o idioma ingles. Com o crescimento do conteudo da internet disponibilizado emoutros idiomas, alguns trabalhos tem sido propostos com o objetivo de explorar a analisede textos contendo opinioes ou sentimentos, independente do idioma no qual estao escri-tos, numa perspectiva multilıngue. Este experimento visou realizar um paralelo entre asabordagens com base em diferentes idiomas como alemao, portugues, espanhol. Como osresultados dos algoritmos de analise de sentimento sao limitados pela interpretacao ape-nas da lıngua inglesa, o estudo foi viabilizado por meio de uma aplicacao desenvolvidapara interagir com o Google Translate2 capacitando a conversao dos dados.

Conforme [Martins et al. 2015] ate onde foi investigado, constatou-se que se ca-rece de abordagens eficientes para analise de sentimento para o idioma portugues bra-sileiro. Alem disso, as abordagens existentes para o idioma ingles produzem resultadosinferiores quando aplicados a conteudos na lıngua portuguesa brasileira. Sendo assim, aabordagem aqui proposta visa trazer benefıcios com a utilizacao combinada de algumasabordagens e suas adaptacoes para conteudos em portugues brasileiro. Trata-se de experi-mentos voltados para interpretar qual o resultado obtido entre analises realizadas na lınguaportuguesa brasileira ou convertidas para a lıngua inglesa, possibilitando a utilizacao deferramentas com um dicionario vasto de termos.

Para a realizacao deste trabalho, foram realizadas varias pesquisas relacionadas aotema, principalmente quanto a necessidade de tratar estes dados na lıngua portuguesa bra-sileira e em diferentes contextos. Os estudos da academia que demonstram, pelo grandevolume de dados, a necessidade de entender melhor como as abordagens de analise desentimento funcionam embasaram este trabalho.

4. Analise Comparativa

4.1. Abordagens Comparadas

A primeira das abordagens comparadas e a denominada SentiWordNet3. Tal abordagemrealiza a mineracao de opiniao em textos a partir de um dicionario de palavras extraıdoda WordNet4, um banco de dados lexico contendo milhares de termos no idioma ingles[Esuli and Sebastiani 2006].

O WordNet agrupa adjetivos, verbos e outras classes gramaticais em conjuntoschamados synsets. A abordagem SentiWordNet associa a cada synset um peso que in-dica a intensidade do sentimento que aquele synset remete: positivo, negativo e neutro.

2Google Translate e um servico de traducao multilıngue de maquina fornecida pelo Google para traduziro textos.

3SentiWordNet e um recurso lexico para a mineracao de opiniao em texto em ingles. Atribuindo a cadasynset de WordNet tres contagens de sentimento: positividade, negatividade, objetividade.

4WordNet e um banco de dados lexico para o idioma Ingles

Page 15: Anais do SMSI 2016

Cada peso tem seus valores variando entre 0 e 1 e e obtido utilizando-se um metodo deaprendizagem de maquina semi-supervisionado. Para melhor entender o funcionamentoda abordagem, suponha que um dado synset s = [bad, wicked, terrible] tenha sido ex-traıdo de um tweet. O resultado obtido pela abordagem e 0,000 para positividade, 0,850para negatividade e 0,150 para objetividade. A avaliacao do SentiWordNet e feita uti-lizando um dicionario lexico rotulado, que apresenta informacoes relevantes. Segundo[Lucas Ventura de Souza 2011], a abordagem SentiWordNet apresenta desempenho posi-tivo em tarefas de mineracao de opiniao.

O Sentiment1405 e tambem um dicionario lexico de palavras associadas a sen-timentos positivos e negativos [Mohammad et al. 2013]. A abordagem foi criada comuma base de dados que consistia de cerca de 1,6 milhoes de tweets rotulados como po-sitivo ou negativo. Esta ferramenta possui um servico de requisicoes web com grandedicionario para as lınguas inglesa e espanhola mas para este experimento, foi implemen-tado uma aplicacao capaz de interagir com a plataforma do Google Translate viabilizandoa utilizacao desta abordagem que possui capacidade apenas de manipular dados em inglese espanhol.

Segundo [Chikersal et al. 2015] a ferramenta Sentiment140 utiliza um classifica-dor de aprendizagem de maquina baseada na presenca de textos em ingles e de emoticons.A ferramenta usa da palavra e parte do discurso acoplado com um maximo de aprendi-zagem automatica baseada em entropia do classificador ou pontuador da sentenca, sendoalgumas das ferramentas autonomas unica. Sentiment140 fornece um valor sentimentoem uma escala de 0 ( negativo ), 2 (neutro) a 4 ( positiva ). Para obter melhores valoresde comparacao sao convertidos em obter tres categorias de sentimento positivo, negativoe neutra.

O Tableau6 e uma ferramenta capaz de explorar informacoes de um grande con-junto de dados, definindo a maneira na qual estarao organizados e trazendo resultadosjunto com o experimento da analise. Em contrapartida a abordagem nao disponibiliza umdicionario lexico de termos para a analise de sentimento. Sendo assim, foram definidosum conjunto de termos capazes de expressar sentimento para os contextos dos termos queforam analisados no experimento. Assim, para obter maior ganho foram contempladoserros de grafia, conforme visualizados em recorrencia na base de dados.

Como a abordagem Tableau nao possui um dicionario lexico para a realizacaoda analise de sentimento, foi definido um dicionario de termos para demonstrar quais ostermos expressam sentimento positivo, negativo e neutro.

4.2. Configuracao Experimental

4.2.1. Fluxo de Atividades

Nesta secao sao apresentadas as configuracoes experimentais realizadas para a concepcaodeste estudo. A Figura 1 apresenta o fluxo de atividades experimentais.

Primeiramente, para este experimento, foram definidos os termos coletados e clas-sificados devidamente de acordo com cada contexto pertencente. A Tabela 1 apresenta os

5Ferramenta de analise de sentimento baseada no Twitter.6Tableau e um software de visualizacao de dados que lhe permite ver e compreender dados.

Page 16: Anais do SMSI 2016

Figura 1. Fluxo de Atividades Experimentais

[Fonte: Autoria Propria]

termos utilizados para coleta por categoria.

Tabela 1. Termos Coletados para o Experimento por Contexto.Organizacoes ”BNDES” ”FIFA”

Pessoas ”Faustao” ”Neymar”Eventos ”Dia das Maes” ”Campeonato Mineiro”Produtos ”Mobi” ”IPhone”

As abordagens submetidas a este experimento sao SentiWordNet, Sentiment140 eTableau. Destas, apenas a abordagem Tableau nao possui um dicionario lexico previa-mente definido para a realizacao da analise de sentimento. Visando viabilizar a utilizacaode uma abordagem capaz de interpretar textos no idioma portugues brasileiro, neste expe-rimento foi definido um dicionario proprio com mensagens positivas, expressando senti-mentos positivos relacionados a satisfacao, negativas, expressando sentimentos negativosrelacionados a frustracao, e neutras, nao expressando sentimento algum. A Tabela 2 apre-senta o conjunto de termos utilizados na abordagem Tableau como dicionario lexico.

Tabela 2. Dicionario de Termos Utilizados na Abordagem TableauPositivos Negativos Neutros Positivos Negativos

Feliz Chatiado Informativo Eu quero Nao queroAdorei Detestei Notıcia Te amo OdeioAmei Odiei Olhem Feliz PiorCurti Ruim Encontrei Bom Nao Gostei

Melhor Pessimo Achei Joga Muito Perna de Pauotimo Horrıvel Vemos Ainda Vou Nunca IreiMe da Feio Lance Bonito PecadoQuero Insuportavel Situacao Lindo Nao Curti

A coleta de dados foi realizada a partir de um Crawler que monitora todos osdados que circulam na rede social Twitter, por meio de uma API de streaming. Assim, foidesenvolvida uma ferramenta utilizando o framework da Microsoft7 .NET versao 4.5. Omesmo consiste em uma aplicacao console que foi parametrizada com termos da Tabela 1que monitorou a rede buscando citacoes para os termos descritos na Tabela 1, utilizadoscontextos que possuem grande volume de dados no Twitter.

7Microsoft e uma empresa transnacional americana de softwares de computador

Page 17: Anais do SMSI 2016

Foram coletados cerca de 2.000 tweets sobre cada termo da Tabela 1, que foramarmazenados em arquivos de texto (.txt). A partir dos dados coletados foi selecionadauma amostra aleatoria de 100 tweets. Apenas a abordagem Tableau e capaz de interpre-tar dados no idioma portugues brasileiro, assim foi desenvolvida uma segunda aplicacaoconsole, que interage junto ao Google Translate realizando a conversao de toda a basede dados para o idioma ingles. Foram realizados pequenos ajustes de palavras na basede dados pois as mesmas possuıam apostrofe que eram interpretadas em baixo nıvel deprogramacao.

Ao consolidar uma base de dados capaz de ser aplicada ao cenario de todas asabordagens, foram definidas amostras selecionadas aleatoriamente para a submissao aoexperimento. A partir de cada amostra de 100 tweets dividiu-se a amostra total de da-dos em k subconjuntos mutuamente exclusivos do mesmo tamanho e, a partir disto, umsubconjunto foi utilizado para o experimento. Perante as amostras definidas e submetidasa interpretacao das abordagens, aplicou-se um gabarito ou oraculo manualmente em to-das os subconjuntos para identificar a assertividade das ocorrencias. Com estes insumosforam realizadas comparacoes de acordo com as metricas definidas na secao 4.

4.2.2. Metricas de Avaliacao

Segundo [Ribeiro et al. 2015] um aspecto chave na avaliacao das abordagens para aanalise de sentimentos diz respeito as metricas utilizadas. Neste contexto, tres metricasprincipais sao comumente empregadas para validar a eficiencia de um metodo: acuracia,precisao e revocacao.

Cada letra na Tabela 3 representa o numero de instancias de texto cuja classecorreta e X e cuja predicao e a classe Y, onde X:Y positivo; neutro; negativo.

Tabela 3. Matriz ConfusaoPositiva Maquina Neutra Maquina Negativa Maquina

Positiva Humano A B CNeutra Humana D E F

Negativa Humana G H I

A revocacao (R) da classe X e a taxa de numero de elementos corretamente clas-sificados pelo total de elementos na classe X. Ja a precisao (P) de uma classe X e taxade numero de elementos classificados corretamente pelo total de elementos classificadoscomo sendo da X.

Considera-se igualmente importante a correta classificacao de cada sentenca, in-dependente da classe, ou seja, ela mede basicamente a capacidade da abordagem em pre-dizer uma entrada corretamente. Como forma de permitir uma comparacao global entreas abordagens foi utilizado um criterio de comparacao simples mas que permite ter umaideia interessante da performance. A metrica e basicamente o rank medio em que ummetodo ficou em cada conjunto. Por exemplo, se um metodo ficou em primeiro lugar, ouseja no rank 1, em todos os conjunto, seu rank medio sera, obviamente 1. Para realizareste calculo bastou somar o rank do conjunto em cada conjunto e dividir pela quantidadede conjuntos utilizados no experimento.

Page 18: Anais do SMSI 2016

A validacao cruzada dividiu o conjunto de dados em 5 partes de igual tamanho,sendo utilizadas para validacao da amostra, extraindo a media e posteriomente extraımoso valor de desvio-padrao dos dados. [PERISSINOTTO and DE MOURA 2007]

Segundo [Refaeilzadeh et al. 2009], a validacao cruzada e um analise estatısticacapaz de avaliar e comparar algoritmos de aprendizagem por dados dividindo-se em doissegmentos: um usado para aprender ou treinar um modelo e outro usado para validaro modelo. A forma basica de validacao cruzada e k-fold cross-validation, em K vezesde validacao cruzada , os dados sao primeiro divididos em K igual ( ou quase iguais )segmentos de tamanho ou dobras. Dentro do experimento a amostra foi dividido em 5amostras menores para aplicarmos a analise estatıstica da validacao cruzada.

Ao utilizarmos a validacao cruzada extraımos informacoes como desvio-padraodas amostras e media que posteriormente foram utilizados como insumo para o inter-valor de confianca obtendo um experimento com dados confiaveis. Alem disto, apos otratamento dos dados coletados no Twitter, traduzidos para ingles ou organizados em por-tugues, o experimento foi iniciado.

A partir dos dados extraıdos da validacao cruzada como media e desvio-padrao,utilizaremos para extrair a informacao relevante para analisarmos os resultados, o inter-valo de confianca T-Student, este sera calculado com 95% para demonstrar os ganhosobtidos. [Altman 1990]

5. Resultados das ComparacoesPara alcancar o objetivo de identificar vantagens, desvantagens e possıveis limitacoes dasabordagens na deteccao de polaridade, apresenta-se os resultados das comparacoes feitassobre eles. Os experimentos foram divididos por contexto, assim foi possıvel analisar demaneira especıfica cada conjunto de dados e seus respectivos resultados.

5.1. Analise para o Contexto de ProdutosOs valores obtidos para o experimento direcionado ao contexto de mercado de Produ-tos e descrito nesta subsessao. Na Figura 2(a) exploramos a Acuracia e na Figura 2(b)exploramos a Precisao obtidas para o termo IPhone destacado na Tabela 1.

Observamos na Figura 2(a) que a abordagem Sentiment140 obteve ganhos de0,44% em relacao a abordagem SentiWordNet, que posteriormente obteve ganhos de1,76% sobre a abordagem Tableau. Assim, podemos constatar que estatisticamente naohouveram ganhos significativos em relacao a acuracia das abordagens analisadas nestecontexto.

Quanto a precisao nota-se na Figura 2(b) que a abordagem Sentiment140 obteveganhos superiores nas tres classificacoes de dados presentes no experimento mas semvalores estatisticamente expressivos para constatarmos um destaque para alguma aborda-gem. Podemos observar que para a classificacao negativa a abordagem Sentiment140 esuperior a abordagem Tableau.

Na Figura 3(a) exploramos a Revocacao e na Figura 3(b) exploramos o F1-Scoreno experimento realizado para o termo IPhone.

Observamos nas Figura 3(a) e Figura 3(b) que as abordagens obtiveram ganhoscom valores aproximados em relacao a Revocacao para os classificadores negativos, posi-

Page 19: Anais do SMSI 2016

(a) Acuracia IPhone (b) Precisao IPhone

Figura 2. Analise dos Dados para Tweets Vinculados ao Termo IPhone

(a) Revocacao IPhone (b) F1-Score IPhone

Figura 3. Analise dos Dados para Tweets Vinculados ao Termo IPhone

tivos e neutros. Levamos em consideracao a abordagem Sentiment140 que obteve ganhossuperiores nos classificadores negativos, positivos e neutros mas estatisticamente nao ob-tivemos valores significativos.

5.2. Analise para o Contexto de PessoasOs valores obtidos para o experimento direcionado ao contexto de mercado de Produ-tos e descrito nesta subsecao. Na Figura 4(a) exploramos a Acuracia e na Figura 4(b)exploramos a Precisao obtidas para o termo Faustao na Tabela 1.

Na Figura 4(a) demonstramos os valores obtidos para o experimento com a pes-

Page 20: Anais do SMSI 2016

(a) Acuracia Faustao (b) Precisao Faustao

Figura 4. Analise dos Dados para Tweets Vinculados ao Termo Faustao

soa Faustao observamos que os ganhos para a Acuracia nao foram estatisticamente sig-nificativos pois ambas as abordagens chegaram a valores semelhantes sem um valor con-sideravel com o intervalo de confianca. Ao analisarmos a precisao que o experimentoalcancou perante ao termo Faustao, os ganhos alcancados foram semelhantes em ambasas classificacoes constatando valores estatisticamente insignificantes.

Na Figura 5(a) exploramos a Revocacao e na Figura 5(b) exploramos o F1-Scoreno experimento realizado para o termo Faustao.

(a) Revocacao Faustao (b) F1-Score Faustao

Figura 5. Analise dos Dados para Tweets Vinculados o Termo Faustao

Notamos observando a Figura 5(a) que os ganhos em relacao a Revocacao e na

Page 21: Anais do SMSI 2016

Figura 5(b) os ganhos relativos ao F1-Score obtidos foram semelhantes em todas asclassificacoes mas com uma pequena superioridade para a abordagem positiva e neutranos dados ja normalizados.

6. ConclusaoO experimento de coleta de dados e comparacao entre abordagens visou abranger um pro-cesso de uma abordagem de analise de sentimento realizada por instituicoes ou pessoas,desde a sua coleta de dados ate resultados graficos. Buscando interpretar vantagens, des-vantagens e possıveis limitacoes das tres abordagens utilizadas de analise de sentimentosendo Sentiment140, SentiWordNet e Tableau. A partir da divisao por contextos cadaabordagem reagiu a um contexto mercado de maneira diferente. Notamos que ao analisaros sentimentos relevantes, extraımos dados importantes para analisar a acuracia, predicao,revocacao e F1-Score das abordagens.

Destacando os valores alcancados quanto a Acuracia que em 98% dos casos noexperimento nao obtiveram ganhos estatisticamente significativos, observando tambemos valores de intervalo de confianca que acompanhavam a diferenca dos ganhos obti-dos. Vale ressaltar que este experimento define mais metricas para alcancarmos ganhosdiferenciados e estatisticamente significativos para a academia, alavancando os ganhosalcancados pela abordagem Sentiment140 para os contexto de Produtos e Pessoas que ex-pressam sentimentos fortes de extremidade entre as classificacoes de positiva ou negativa.Destacamos os ganhos obtidos para a abordagem Tableau referente sentimentos simplessem ocorrencias de ironia, que cruzem inumeras informacoes dos Tweets, tambem obser-vamos que para o contexto de Eventos a abordagem SentiWordNet obteve ganhos paracontextos de organizacoes no qual o grande volume da dos foi para neutralidade em man-chetes e notıcias relacionadas as organizacoes presentes no experimento.

Notamos que devido a divisao por contextos, as amostras por si so demonstraramque devemos analisar o grande conjunto de dados e seu maior numero de ocorrenciascomo um volume massivo de dados neutros ou um conjunto de dados que expressemfortes sentimentos. Observamos que abordagens se comportam de maneira diferente emum conjunto de dados diferente, no qual foram refletidos em cada contexto com sua de-vida particularidade.Este experimento tambem pode ser expandido para mais abordagensde analise de sentimento e consequentemente evoluirmos a quantidade de metricas paraalcancarmos sempre ganhos relevantes em estudos desta natureza.

ReferenciasAltman, D. G. (1990). Practical statistics for medical research. CRC press.

Araujo, M., Goncalves, P., Benevenuto, F., and Cha, M. (2013). Metodos para analise desentimentos no twitter. In Proceedings of the 19th Brazilian symposium on Multimediaand the Web (WebMedia’13).

Chikersal, P., Poria, S., and Cambria, E. (2015). Sentu: sentiment analysis of tweetsby combining a rule-based classifier with supervised learning. In Proceedings of theInternational Workshop on Semantic Evaluation, SemEval, pages 647–651.

Esuli, A. and Sebastiani, F. (2006). Sentiwordnet: A publicly available lexical resourcefor opinion mining. In Proceedings of LREC, volume 6, pages 417–422. Citeseer.

Page 22: Anais do SMSI 2016

Franca, T. C., de Faria, F. F., Rangel, F. M., de Farias, C. M., and Oliveira, J. (2014).Big social data: Princıpios sobre coleta, tratamento e analise de dados sociais. XXIXSimposio Brasileiro de Banco de Dados – SBBD ’14. Curitiba – PR.

Lucas Ventura de Souza, R. B. C. P. (2011). Analise de sentimentos no twitter utilizandosentiwordnet.

Martins, R., Pereira, A., and Benevenuto, F. (2015). Uma abordagem para analise desentimentos de aplicacoes da web em lıngua portuguesa. Brazilian Symposium onMultimedia and the Web.

Mohammad, S. M., Kiritchenko, S., and Zhu, X. (2013). Nrc-canada: Building the state-of-the-art in sentiment analysis of tweets. arXiv preprint arXiv:1308.6242.

PERISSINOTTO, M. and DE MOURA, D. J. (2007). Determinacao do conforto termicode vacas leiteiras utilizando a mineracao de dados/evaluation of thermal comfort indairy cattle using data mining. Revista Brasileira de Engenharia de Biossistemas,1(2):117–126.

Refaeilzadeh, P., Tang, L., and Liu, H. (2009). Cross-validation. In Encyclopedia ofdatabase systems, pages 532–538. Springer.

Ribeiro, F., Araujo, M., and Benevenuto, F. (2015). Metodos para analise de sentimentosem mıdias sociais. Brazilian Symposium on Multimedia and the Web. (Webmedia).

Sokolova, M. and Lapalme, G. (2009). A systematic analysis of performance measuresfor classification tasks. Information Processing & Management, 45(4):427–437.

Timmermann, N., Rodrigues, C. A. S., Vieira, L. L., and Malagoli, L. (2013). Mineracaode opiniao / analise de sentimentos.

Wasserman, S. and Faust, K. (1994). Social network analysis: Methods and applications,volume 8. Cambridge university press.

Page 23: Anais do SMSI 2016

Predicao de existencia de neblina com redes neuraisAmanda Karina Lopes de Oliveira1, Anna Izabel J. Tostes2, Kleber Jacques F. de Souza3

1Pontifıcia Universidade Catolica de Minas Gerais(PUCMINAS) - Unidade ContagemRua Rio Comprido 4580 Contagem – MG – CEP 32010-025 – Brazil

2Pontifıcia Universidade Catolica de Minas Gerais(PUCMINAS) - Unidade ContagemRua Rio Comprido 4580 Contagem – MG – CEP 32010-025 – Brazil

3Pontifıcia Universidade Catolica de Minas Gerais(PUCMINAS) - Unidade ContagemRua Rio Comprido 4580 Contagem – MG – CEP 32010-025 – Brazil

[email protected], [email protected],[email protected]

Abstract. There is a cloud forest in Campos do Jordao affected by climaticchanges. This forest is monitorated by several wireless sensors to identify howthe forest is affected. This paper propose predict fog in this forest using climaticvariables - rain, humidity - by artificial neural network (ANN). Several databa-ses from many forest plots were used, measured by humidity, temperature, rainand water soil sensors. For each forest plot, was applied an ANN algorithm,this way, it’s possible identify the algorithm behavior in diferent forest plots. So,these databases was combined in one to represent the forest and the algorithmwas re-applied, resulting 96.65% average accuracy.

Resumo. Em Campos do Jordao ha uma floresta nebulosa que esta sendo afe-tada por alteracoes climaticas. Essa floresta e monitorada por diversos sensoressem fio a fim de identificar como ela esta sendo afetada. Este trabalho propoea predicao de neblina dessa floresta utilizando variaveis climaticas - chuva eumidade - atraves de redes neurais artificiais (RNA). Foram utilizadas bases dedados de diversos pontos (plot) da floresta, coletados por sensores de umidade,temperatura, chuva, agua no solo. Para cada ponto da floresta, foi aplicado oalgoritmo de RNA, dessa forma, tornando possıvel identificar o comportamentodo algoritmo para as diferentes partes da floresta. Entao, as bases referentes acada plot foram combinadas em uma base, que representa a floresta, e o algo-ritmo foi re-aplicado, apresentando uma acuracia media de 96,65%.

Palavras-chave: redes neurais, neblina, sensores, rede sem fio, variaveisclimaticas

1. INTRODUCAO

O meio ambiente e diretamente impactado pela sociedade. E possıvel identificargrandes mudancas climaticas causadas por acoes humanas - desmatamentos, canalizacaode rios, impermeabilizacao do solo, queimadas, etc. Estas mudancas podem afetar, de di-ferentes formas, diversos ecossistemas mesmo que nao tenham sofrido acao direta. Nessecontexto, e possıvel citar as florestas nebulares, que podem ser ilustradas pela Figura 1,que sao extremamente sensıveis as alteracoes climaticas. Essas florestas tropicais saoencontradas em altitudes acima de 1800 metros onde grande parte da umidade e obtida

Page 24: Anais do SMSI 2016

atraves da neblina e detem especies exclusivas: anfıbios, orquıdeas, invertebrados, etc.Devido ao alto valor ecologico, e desejavel que se tenha um controle do ecossistema uti-lizando tecnologias atuais.

Uma solucao para identificar essas mudancas climaticas e utilizar as redes de sen-sores sem fio (RSSF) para monitorar diversos fenomenos nas florestas. As RSSFs sao am-plamente estudadas, possibilitando um grande avanco tecnologico e promovendo grandesmelhorias. Todavia, podem apresentar diversos desafios, sendo o maior deles, a restricaoem energia[Akyildiz et al. 2002]. Alem disso, e muito comum os sensores falharem eportanto, devem conter um mecanismo de contingencia. A RFFS tende a ser autonomae cooperativa, com seus sensores executando acoes com base em outros tipos de senso-res [Loureiro et al. 2003].

Hoje, ha em Campos do Jordao uma floresta, ilustrada pela Figura 2, que nao pos-sui interferencia humana direta e ainda sim, algumas arvores estao morrendo sem motivoaparente. Para entender melhor o que esta acontecendo na floresta, foi criado um projetoda FAPESP em conjunto com a Microsoft Research [FAP 2015], onde foram instaladosdiversos sensores sem fio pela floresta, entre eles: temperatura, umidade, chuva, visibili-dade, alem de 40 sensores de fluxo de seiva em 40 indivıduos (arvores). Esses sensoressem fio estao divididos por pontos na floresta, dentro e fora da floresta.

O objetivo desse trabalho e prever a existencia de neblina em uma determinadaparte da floresta em Campos do Jordao e em determinado horario. Dessa forma, seriapossıvel identificar possıveis alteracoes climaticas na floresta, ou se ha alguma anormali-dade em alguma parte da floresta.

Figura 1. Floresta Nebulosa [FAP 2015]

Figura 2. Base de monitoramento da floresta [FAP 2015]

Este artigo esta organizado em 6 secoes. A secao 2 apresenta o referencial teorico,dividido em Redes de Sensores Sem Fio, Mineracao de Dados e Redes Neurais Artifici-ais. A secao 3 apresenta os trabalhos relacionados a este tema. A secao 4 apresenta

Page 25: Anais do SMSI 2016

a metodologia seguida durante a experimentacao. A secao 5 descreve o processo daexperimentacao e seus resultados. A secao 6 apresenta as conclusoes obtidas e possıveiscontinuacoes deste trabalho.

2. REFERENCIAL TEORICO

2.1. Redes de Sensores sem Fio

As Redes de Sensores Sem Fio (RSSF) se diferem das redes tradicionais em di-versos aspectos, possuindo varios sensores distribuıdos se comunicando via radio. Essasredes tem carater colaborativo, onde os dados coletados sao processados e uma decisao etomada, podendo resultar em uma acao com o ambiente ou com outro sensor. Elas podemser utilizadas em diversas areas, como ambiente, trafego, seguranca, medicina, biologia,militar [Loureiro et al. 2003]. As RSSFs sofrem diretamente a acao do ambiente, em umafloresta, por exemplo, tera energia limitada, podera sofrer acoes de animais, chuva e ventoque podem levar a falhas dos sensores e ate danificarem o sensor permanentemente.

A Figura 3 ilustra alguns dos equipamentos utilizados na floresta em Camposdo Jordao. Estao representados: sensores de agua no solo (soil moisture), sensores deumidade, sensores de fluxo de seiva, e as torres, local onde sao colocados os sensoresclimaticos (umidade, temperatura e chuva) acima e abaixo da copa das arvores.

(a) Sensor de agua no solo (b) Sensor de umidade acima da copa (c) Sensor de fluxode seiva

(d) Torre de monitoramento

Figura 3. Tipos de Sensores [FAP 2015]

2.2. Mineracao de Dados

A mineracao de dados, segundo Navathe e Elmasri [Elmasri et al. 2005], se referea descoberta de novas informacoes em funcao de padroes em grandes quantidades dedados. Ela consiste em aplicar uma analise de dados e descobrir algoritmos que geremum padrao em particular.

Page 26: Anais do SMSI 2016

Ja segundo, Jeff Jonas e Jim Harper[Jonas and Harper 2006], Mineracao de Dadose o processo de busca por dados, por padroes anteriormente desconhecidos e uso frequentedesses padroes para predizer consequencias futuras.

A mineracao de dados tem por objetivos:

• Descobrir Padroes: encontrar propriedades, caracterısticas em comum, por exem-plo: homens que compram fraldas tambem costumam comprar cerveja;

• Descrever: explicar os resultados encontrados;• Prever: antecipar comportamentos futuros

A mineracao de dados faz parte do processo KDD, do ingles Knowledge-Discovery in Databases, que e o processo de descoberta de conhecimento em base daDados. O KDD tem por objetivo descobrir conhecimento util, valido e relevante atravesde algoritmos de mineracao de dados. Na pratica, se assemelha muito com o processo deMineracao de Dados pois Mineracao de Dados e uma das etapas do KDD. Esse processode descoberta de informacoes e composto por cinco etapas, ilustradas pela Figura 4, sendoelas:

1. Selecao: etapa em que sao selecionados conjuntos de dados que serao relevantespara que sejam obtidos resultados com informacoes uteis;

2. Pre-processamento: informacoes ausentes, erroneas ou inconsistentes nas bases dedados devem ser corrigidas de forma a nao comprometer a qualidade dos modelosde conhecimento a serem extraıdos ao final do processo;

3. Transformacao dos dados: analise dos dados obtidos da etapa anterior ereorganizacao especıfica para que possam ser interpretados na etapa seguinte;

4. Mineracao: etapa em que sao aplicadas tecnicas inteligentes a fim de se extrairpadroes de interesse;

5. Interpretacao de resultados: interpretacao e avaliacao das regras indicadas peloprocesso anterior. Apos a interpretacao poderao surgir padroes, relacionamentose descoberta de novos fatos, que podem ser utilizados para pesquisas, otimizacaoe outros;

Figura 4. Etapas do processo de KDD (Processo de descoberta de Conhecimentoem Base de dados)[Fayyad et al. 1996]

Page 27: Anais do SMSI 2016

2.3. Redes Neurais Artificiais

As redes neurais artificiais (RNAs) sao tecnicas computacionais que apresentamum modelo matematico inspirado na estrutura cerebral humana, imitando seu processo deaprendizagem.

Segundo Medeiros[Medeiros 1999], as RNAs se caracterizam por sua estruturasimples, contendo a capacidade natural de processar dados de maneira distribuıda e para-lela, alem de conseguir aprender e generalizar a partir de informacoes limitadas.

Segundo Bisi, Neto e Bonini[Bisi et al. 2015], pode-se classificar as redes neuraisem dois tipos: Redes recorrentes, que sao aquelas que contem lacos de realimentacao, ouseja, contem conexoes das saıdas de uma determinada camada para a camada de entradaou para camadas anteriores; e tambem Redes Nao Recorrentes, que sao aquelas que naopossuem lacos de realimentacao, caracteriza-se por estar em camadas dispostas.

As RNAs possuem a capacidade de aprender, atraves de uma fase chamada”Aprendizagem”, onde sao fornecidos dados na camada de entrada e os resultados saoa saıda do modelo. Segundo [Cortez and Neves 2000], o processo de aprendizagem podeser classificado em tres tipos:

• Aprendizado Supervisionado: o algoritmo e ensinado, as respostas sao avaliadaspelo usuario e as alteracoes dos pesos sao calculadas de forma que a respostaobtida tenda a coincidir com a resposta esperada.

• Aprendizado por Reforco: para cada entrada, e produzida uma indicacao (reforco)sobre as saıdas correspondentes.

• Aprendizado Nao Supervisionado: a rede atualiza seus pesos sem o uso de paresentrada-saıdas desejadas e sem indicacoes sobre a adequacao das saıdas produzi-das.

As RNAs possuem auto-organizacao, onde cada modelo cria seu proprio modelode representacao, isentando o usuario desse processo. Seu uso exige a definicao de to-lerancia de erro (acuracia), grande base para treinamento e nao deve esperar resultadosdiscretos (0 e 1, sim ou nao). Elas podem ser utilizadas em diversas areas, em especialquando a necessidade e a resolucao de problemas por aproximacao, mapeamento e/oureconhecimento de padroes [OSORIO et al. 2000].

A Figura 5 ilustra a arquitetura multi-camadas de uma RNA. Ela possui a primeiracamada, com as entradas da rede. Em seguida, vem a camada intermediaria, que pode tervarios nıveis. E na camada intermediaria que sao feitas as associacoes e descobertas depadroes. E a ultima camada que possui as saıdas da rede neural.

3. TRABALHOS RELACIONADOSA maioria dos trabalhos relacionados a predicao de neblina encontrados sao volta-

dos para a area de aviacao, sendo utilizados em sistemas de tomada de decisao para voos.Sao consideradas diversas variaveis climaticas para a predicao, utilizando redes neuraisartificiais multi-camadas e backpropagation que utiliza padroes na base para prever osproximos passos. O aprendizado e propagado para frente enquanto os erros voltam, ospesos e erros sao continuamente ajustados. E possıvel ver a comparacao dos trabalhos naTabela 1.

Page 28: Anais do SMSI 2016

Figura 5. Representacao das camadas de RNA[dev ]

Em 1999, [Hall et al. 1999] utilizou de 19 variaveis meteorologicas para criar ummodelo de predicao de neblina. A tecnica utilizada tambem foi de redes neurais multi-camadas, com 500.000 iteracoes. Foi alcancada uma acuracia de 95% neste modelo.

Em 2007, [Fabbian et al. 2007] criaram um modelo que tambem utiliza de redesneurais multi-camadas com oito variaveis de entrada. O treinamento da base foi supervi-sionado e para correcao de erro foi utilizado o algoritmo Backproppagation e foi possıvelobter 64% de acuracia.

Em 2015, [de Oliveira Colabone et al. 2015] utilizaram oito variaveis climaticaspara o treinamento do algoritmo de redes neurais multi-camadas, para a correcao de er-ros utilizaram o algorıtimo Backpropagation. Foi possıvel atingir 95% de acuracia, umresultado satisfatorio e foi possıvel concluir que o modelo e eficiente e com boa margemde seguranca.

Tabela 1. Comparacao de Trabalhos RelacionadosTrabalho Tecnica Acuracia VariaveisApplication of Artificial Neu-ral Networks for Fog Forecast[Fabbian et al. 2007]

Multi-layerNeuralNetwork eBackpropa-gation

95% Ano, mes, dia, hora, tem-peratura, umidade relativa,presaoe velocidade do vento

Application of ArtificialNeural Network Forecaststo Predict Fog at Can-berra International Airport[de Oliveira Colabone et al. 2015]

Multi-layerNeuralNetwork eBackpropa-gation

64% Bulbo seco e temperaturado ponto de orvalho (C), avelocidade do vento (m-1),pressao media do nıvel domar, a direcao do vento(graus true), o montantetotal em nuvem (octas),a visibilidade Superfıcie(km), precipitacao (mm nosultimos 3 h)

Precipitation ForecastingUsing a Neural Network[Hall et al. 1999]

Multi-layerNeuralNetwork

95% 19 variaveis meteorologicas

Page 29: Anais do SMSI 2016

Este trabalho propoe a utilizacao de um algoritmo de redes neurais multi-camadasem uma ferramenta em nuvem. Serao utilizadas apenas as seguintes variaveis: tempera-tura, umidade, chuva, data e hora.

4. METODOLOGIAPara realizar a predicao de neblina na floresta em Campos do Jordao, foram segui-

dos os passos ilustrados na Figura 6. Esse passos estao descritos nas sub-secoes.

Figura 6. Etapas da metodologia

4.1. Coleta de dadosOs dados utilizados foram coletados atraves de sensores sem fio dispostos na flo-

resta. Esses dados sao salvos em arquivos do tipo texto e os cientistas responsaveis pelomonitoramento devem ir a floresta coletar os dados, sensor por sensor. Essa coleta ocorre,normalmente, a cada duas semanas e entao os arquivos sao levados para o centro de pes-quisa.

Esses arquivos texto sao salvos por tipo de sensor, por exemplo, dados do sensorde temperatura da marca X a Y metros de altitude. Isso gera uma quantidade imensa dearquivos do mesmo perıodo e da mesma variavel. Os arquivos foram disponibilizadospara este trabalhos pelo centro de pesquisa.

4.2. Tratamento de dadosOs arquivos extraıdos dos sensores dispostos na floresta, que sao salvos por tipo

(temperatura, umidade, chuva, etc), local e marca do sensor, portanto, os dados estaoseparados e ate entao, sem conexao. A Figura 7 ilustra um exemplo de base de dados, otipo de sensor e dado pelo nome do arquivo, onde:

• p01: se refere ao plot 01• 15m: se refere a altura que o sensor se encontra• lib: se refere a marca do sensor• at: se refere ao tipo do sensor, nesse caso, de temperatura do ar (air temperature)

As informacoes sobre as siglas foram fornecidas pelos responsaveis pela extracaodos dados dos sensores.

Nesta fase, os arquivos serao mesclados por plot, considerando data e hora apenas,desconsiderando os minutos. Isso porque cada sensor pode apresentar horarios diferentese dessa forma, nao seria possıvel encontrar uma grande quantidade de dados a seremconsumidos. Para realizar a mescla por hora, sera considerada a media da variavel noperıodo.

Entao, para que se tenha uma base inicial de aprendizado, sera acrescentado umavariavel neblina, onde serao utilizadas as demais variaveis para gerar valor para a variavel

Page 30: Anais do SMSI 2016

"date","data"2014-11-12 12:29:19,"27.48"2014-11-12 12:59:19,"29.27"2014-11-12 13:29:18,"31.21"2014-11-12 13:59:18,"28.59"2014-11-12 14:29:18,"30.71"2014-11-12 14:59:18,"30.44"2014-11-12 15:29:17,"30.35"

Figura 7. Exemplo de arquivo: p01.15m.lib.at.csv

neblina. E importante salientar que apenas alguns registros terao a variavel neblina comvalor, tornando responsabilidade do algoritmo prever o restante.

Apos os passos acima, tambem foi gerada uma base com todos os plots tratadospara representar a floresta. Dessa forma, e possıvel identificar onde comeca a neblina ecomo se movimenta.

E nessa fase tambem que deve-se identificar possıveis erros na base, pois os sen-sores podem falhar. E possıvel que hajam dados discrepantes, por exemplo: a temperaturaas 8 horas seja de 19 ◦C e na hora seguinte apresenta −30 ◦C. E improvavel que tenhatido uma queda tao brusca de temperatura em tao pouco tempo, portanto, considera-seisso como um erro do sensor que devera ser tratado.

4.3. Mineracao

Apos o tratamento de dados, tem-se uma base por plot, pronta para aplicacao doalgoritmo de RNA. Para cada base, de cada plot, serao aplicados diversos algoritmos deRNA. Cada algoritmo pode apresentar diferentes resultados para cada base. Entao, aescolha do algoritmo que melhor se encaixa com o cenario devera ser feita manualmente,apos a visualizacao de seus resultados.

Cada algoritmo pode ser configurado com pesos diferentes e portanto, e um pro-cesso demorado. E necessario identificar qual configuracao apresenta melhor resultadopara as bases. Os resultados tambem podem depender da base utilizada cujo a qual podeser acertada, passando novamente pelo tratamento de dados.

4.4. Analise dos resultados

Apos a aplicacao dos algoritmos, os resultados obtidos devem ser analisados everificados a margem de erro. Essa verificacao pode ser feita manualmente ou atraves daferramenta em nuvem, comparando com outras bases prontas.

Nesse caso, foram feitos os dois processos, os resultados foram conferidos manu-almente e corrigidos. Tambem foram comparados os resultados entre bases para verificarse o algoritmo teve comportamento semelhante para cenarios semelhantes.

4.5. Visualizacao dos Resultados

Os resultados entao serao dispostos em uma tabela a fim de comparacao, mos-trando a base utilizada e sua acuracia.

Page 31: Anais do SMSI 2016

5. ExperimentoDado o modelo descrito na secao anterior, foram utilizadas 6 bases de dados, uma

para cada plot, que contem informacoes de data, hora, umidade relativa do ar, quantidadede agua no solo, temperatura na floresta, quantidade de chuva e se ha neblina (Y/N). Ospassos do experimento estao explicados nas proximas secoes.

5.1. Preparacao dos dadosOs dados coletados pelos sensores sao separados em arquivos por tipo de sensor.

Dessa forma, para cada plot tem-se diversos arquivos contendo apenas a hora e o dado dosensor.

A data e hora dos arquivos possuem dia, mes, ano, hora, minuto e segundo. Dessaforma, nao sera possıvel unir os dados, pois cada dado pode ter sido coletado com segun-dos de diferenca. Para resolver isso, foi calculada a media dos dados por hora conside-rando entao, apenas dia, mes, ano e hora. Dessa forma, e possıvel unir diferentes dadosque ocorreram no mesmo intervalo de tempo. O tratamento foi realizado utilizando a fer-ramenta do Azure Machine Learning que permite que arquivos texto sejam tratados viaSQL, ilustrado na Figura 8

Para gerar os dados iniciais para neblina, foram utilizadas as seguintes premissas:• Caso a umidade estivesse acima de 80%, a coluna neblina foi setada para Y;• Caso a coluna de chuva fosse Y, a neblina era setada para N;• Caso a umidade estivesse menor que 25% e nao fosse ≤ 0, neblina = N

Figura 8. Ferramenta no Azure que permite que bases de texto sejam tratadascom SQL

Essas premissas foram definidas atraves de um modelo previamente testado peloscientistas da FAPESP, onde foram consideradas alta umidade para existencia de neblina eexistencia de chuva como nao existencia de neblina. Acrescentou-se a premissa de baixaumidade para a nao existencia de neblina. Isso pode ser considerado verdade, uma vezque a neblina nada mais e que a condensacao de agua evaporada, neste caso, umidade doar.

Seguindo essas premissas, diversos registros de data/hora ficaram em branco,sendo de responsabilidade do algoritmo prever, como e possıvel ver na Figura 9. Todosos tratamentos citados acima foram realizados diretamente no Azure Machine Learningatraves da ferramenta de transformacao em SQL, onde e possıvel utilizar arquivos CSVcomo bases e trata-los utilizando comandos de SQLite. Dessa forma foi possıvel juntar 4bases diferentes por plot, alem de calcular a media e adicionar a coluna de neblina.

Page 32: Anais do SMSI 2016

Figura 9. Resultado do tratamento dos dados no Microsoft Azure Machine Lear-ning

5.2. Treinamento da base de dados

Apos os tratamentos acima, foi aplicado o algoritmo de classificacao Rede NeuralMulticlass disponıvel no Azure. Para cada plot, as configuracoes utilizadas foram: 150nodos, 500 iteracoes. O peso inicial foi de 0,2 e confianca de 0,5. A figura 10 ilustra aforma de configuracao do algoritmo.

Figura 10. Testes na parametrizacao do modelo

Inicialmente, foram considerados todos os dados da base tratada, porem, paraalguns plots, haviam temperaturas e/ou umidade com numeros negativos, impactandono resultado do treinamento. Esses dados foram removidos a fim de nao prejudicar oresultado final.

Para a validacao do modelo RNA, foi utilizado um modelo estatıstico feito juntocom os cientistas da FAPESP e validado meses antes desse modelo. Os resultados foramcomparados atraves do Azure, onde e possıvel comparar os resultados entre modelos. Epossıvel identificar que o plot 6 na Tabela 2 destoa dos demais resultados. Analisandomelhor, foi possıvel ver este plot continha uma base consideravelmente menor, em tornode 800 registros enquanto os demais plots continham cerca de 1800 registros.A base foirevista, de forma que a quantidade de registros ficasse proxima a media.

Page 33: Anais do SMSI 2016

Apos a correcao da base, e possıvel ver na Tabela 4 que a acuracia se aproximoudos demais plots.

Na Tabela 3 possıvel ver a acuracia utilizando todos os plots.

Tabela 2. Acuracia por plot - primeiro treinamentoPlot 2 Plot 3 Plot 6 Plot 7 Plot 9 Plot 10

Acuracia media 98,24% 97,91% 79,21% 96,79% 97,72% 97,95%Acuracia global 96,48% 95,81% 58,43% 93,59% 95,44% 95,91%

Tabela 3. Acuracia por plot - segundo treinamentoPlot 2 Plot 3 Plot 6 Plot 7 Plot 9 Plot 10

Acuracia media 97,65% 97,09% 94,93% 95,73% 96,96% 97,08%Acuracia global 96,48% 95,63% 92,40% 93,59% 95,44% 95,62%

Tabela 4. Acuracia da florestaAcuracia media 96,65%Acuracia global 94,98%

6. Conclusao

As florestas nebulares tem sofrido bastante com as alteracoes climaticas e emCampos do Jordao, uma floresta nebular esta morrendo aos poucos sem a intervencaohumana direta. Esse floresta em Campos do Jordao vem sendo monitorada por diversossensores sem fio a fim de medir como as mudancas climaticas interferem na saude dasarvores. Foi proposto um modelo de predicao de neblina com redes neurais com base emvariaveis climaticas medidas pelos sensores a fim de auxiliar os cientistas da FAPESP emidentificar como os indivıduos se comportam.

Neste modelo, foi possıvel identificar que o algoritmo utilizado depende de umaquantidade mınima de registros para que tenha um resultado satisfatorio. Tambem foipossıvel identificar em quais casos o modelo nao consegue prever se ha ou nao neblina,como e o caso de temperatura ou umidade com valores negativos. Nesses casos, percebe-se que sempre que a temperatura e negativa, a umidade tambem sera. A temperaturanegativa nao chega a ser um erro no sensor necessariamente, mas no caso da umidade, epossıvel perceber que o sensor nao se comporta bem em temperaturas negativas, trazendoerros de medicao.

De forma geral, o algoritmo conseguiu prever a neblina com uma acuracia muitosatisfatoria, com 96,65% de acuracia media, considerando principalmente a temperaturae umidade da floresta. Como trabalhos futuros propoe-se o aperfeicoamento do modelocom a inclusao de outras variaveis, por exemplo: visibilidade, pressao, vento, etc. afim de verificar se e como estas variaveis influenciam a existencia da neblina na floresta.Tambem seria interessante o tratamento de temperaturas negativas, uma vez que o modeloproposto nao consegue prever a neblina para estes casos.

Page 34: Anais do SMSI 2016

ReferenciasCan the future of application delivery networks be found in neural network

theory? http://www.knitmeshtechnologies.com/research-and-development/neural-networks.html.

(2015). FAPESP. http://www.fapesp.br/2820. [Online; accessed 03-Maio-2016].

Akyildiz, I. F., Su, W., Sankarasubramaniam, Y., and Cayirci, E. (2002). Wireless sensornetworks: a survey. Computer networks, 38(4):393–422.

Bisi, B. S., Neto, A. B., and dos Santos Batista Bonini, C. (2015). Redes neurais arti-ficiais: UtilizaCAo do algoritmo retropropagaCAo para classificaCAo de grupos embiossistemas, parte 1: IntroduCAo teOrica. Periodico Eletronico Forum Ambiental daAlta Paulista, 11(2).

Cortez, P. and Neves, J. (2000). Redes neuronais artificiais. Universidade do Minho,Braga, Portugal.

de Oliveira Colabone, R., Ferrari, A. L., Tech, A. R. B., and da Sila Vecchia, F. A. (2015).Application of artificial neural networks for fog forecast. Journal of Aerospace Tech-nology and Management, 7(2):240–246.

Elmasri, R., Navathe, S. B., Pinheiro, M. G., Canhette, C. C., Melo, G. C. V., Amadeu,C. V., and de Oliveira Morais, R. (2005). Sistemas de banco de dados. pages 624–645.

Fabbian, D., de Dear, R., and Lellyett, S. (2007). Application of artificial neural networkforecasts to predict fog at canberra international airport. Weather and forecasting,22(2):372–381.

Fayyad, U., Piatetsky-Shapiro, G., and Smyth, P. (1996). From data mining to knowledgediscovery in databases. AI magazine, 17(3):37.

Hall, T., Brooks, H. E., and Doswell III, C. A. (1999). Precipitation forecasting using aneural network. Weather and forecasting, 14(3):338–345.

Jonas, J. and Harper, J. (2006). Effective counterterrorism and the limited role of predic-tive data mining. Cato Institute.

Loureiro, A. A., Nogueira, J. M. S., Ruiz, L. B., Mini, R. A. D. F., Nakamura, E. F., andFigueiredo, C. M. S. (2003). Redes de sensores sem fio. Simposio Brasileiro de Redesde Computadores (SBRC), pages 179–226.

Medeiros, J. S. d. (1999). Bancos de dados geograficos e redes neurais artificiais: tecno-logias de apoio a gestao do territorio. PhD thesis, Universidade de Sao Paulo.

OSORIO, F. S., Bittencourt, J. R., and Osorio, F. S. (2000). Sistemas inteligentes baseadosem redes neurais artificiais aplicados ao processamento de imagens. In Workshop deInteligencia Artificial, volume 1.

Page 35: Anais do SMSI 2016

Reconhecimento Ótico de Dígitos Apresentados em

Imagens de Medidores de Consumo de Gás Natural

Julio Cesar Gonçalves, Tania Mezzadri Centeno

Programa de Pós-Graduação em Computação Aplicada (PPGCA)

Universidade Tecnológica Federal do Paraná (UTFPR), Curitiba, Brasil

[email protected]

Abstract. Image processing techniques have found various applications in

problems that require optical character recognition in everyday objects in

their natural scenario. This paper proposes a method which employs image

processing techniques and pattern recognition to the recognition of digits

displayed in the counter of consumption of natural gas meters. The analysis

reveals that the methodology is promising and shows technical feasibility in

this scenario, reaching 95% success rate in recognition of digits.

Resumo. Técnicas de processamento de imagem têm encontrado variadas

aplicações em problemas relacionados ao reconhecimento ótico de caracteres

em imagens de objetos do cotidiano no seu cenário natural. Este trabalho

propõe um método que emprega técnicas de processamento de imagens e

reconhecimento de padrões para o reconhecimento de dígitos apresentados no

contador de consumo de medidores de gás natural. As análises revelam que a

metodologia é promissora e mostra viabilidade técnica neste cenário,

chegando a alcançar 95% de taxa de acerto no reconhecimento dos dígitos.

1. Introdução

O crescimento avançado da tecnologia digital, em conjunto com o desenvolvimento de

novos algoritmos, tem permitido um número cada vez maior de aplicações que

envolvem processamento digital de imagens (PDI). Paralelo a este crescimento tem se tornado cada vez mais comum o uso no cotidiano de dispositivos móveis de captura de

imagens. Sendo cada vez maior o interesse na extração de informações textuais de

imagens do cotidiano capturadas via dispositivos [Obinata e Dutta, 2007].

A extração de texto em imagens capturadas em seu cenário natural apresenta

questões desafiadoras. Vários fatores influenciam a captura da imagem como: o ângulo

de captura e iluminação excessiva, bem como características do próprio texto

apresentado como o tamanho e tipo da fonte [Zhang et al. 2002]. Sistemas de PDI têm

um campo vasto em aplicações que analisam imagens do cotidiano. Extrair informações

de imagens contendo um medidor de consumo de gás enquadra-se neste contexto.

Uma das tarefas do processo de faturamento em empresas distribuidoras de gás

natural é a coleta do volume de consumo. Aplicações voltadas para execução desta

tarefa se tornam relevantes, uma vez que podem contribuir com a melhoria deste

processo em distribuidoras que ainda recorrem à utilização de anotação manuscrita para

coletar o valor consumido pelos clientes. Embora existam atualmente no mercado

dispositivos medidores considerados “inteligentes”, que possuem recursos para envio do

consumo por telemetria ou que utilizam sistemas de cartões pré-pagos, a forma

manuscrita de coleta das informações pode perdurar em concessionárias que não

Page 36: Anais do SMSI 2016

conseguem arcar com o custo da substituição ou adaptação de um parque de milhares de

medidores. Por outro lado, persistir neste modo de operação leva à necessidade da

transcrição de forma manual de milhares de dados de coleta para o sistema de

faturamento. Esse tipo de abordagem pode gerar, entre outros problemas, atrasos e

incorreções no faturamento, e até mesmo fraudes durante o transcorrer do processo.

A identificação deste problema motivou esta pesquisa, cujo objeto de estudo foi

a extração e reconhecimento de dígitos apresentados em imagens de equipamentos

medidores de consumo de gás natural. Seu propósito é o de buscar uma abordagem

robusta e de baixo custo computacional, capaz de ser reproduzida em aplicações

voltadas para dispositivos móveis, permitindo que a tarefa de leitura e reconhecimento

dos dígitos contidos no contador de consumo de gás seja executada de forma eficaz.

Disponibilizando ao profissional leiturista uma forma alternativa de coleta de dados, ou

mesmo proporcionando aos clientes que possuam o medidor de gás instalado no interior

de sua residência ou estabelecimento, um meio de informar à empresa distribuidora o

valor consumido sem a necessidade de agendar a visita de um profissional leiturista para

efetuar a coleta. A possibilidade de a imagem ficar pública poderia ainda passar ao

cliente a sensação que está pagando apenas pelo que consumiu. Busca-se assim uma

melhoria no processo de coleta de dados, bem como o oferecimento de uma alternativa

ao custo de substituição ou adaptação do parque de medidores existente nas

distribuidoras. Outro contexto de aplicação seria na utilização em laboratórios montados

pelas distribuidoras para a realização da calibração de medidores.

O objetivo deste trabalho é o de contribuir com o desenvolvimento de um

algoritmo que efetue a segmentação baseada no espaço de cores da imagem,

diferentemente da maioria das abordagens da literatura que se baseiam em imagens em

tons de cinza. Bem como, obter o reconhecimento dos dígitos através de três algoritmos

distintos de reconhecimento de padrões, comparar seus resultados e contribuir para o

avanço do estado-da-arte de detecção e reconhecimento de dígitos. Espera-se contribuir

também com a construção de um banco de imagens a ser disponibilizado para que

outros pesquisadores possam elaborar novas abordagens para a resolução do problema.

A sequência deste artigo apresenta na seção 2 as pesquisas envolvendo o

problema do reconhecimento ótico de caracteres (OCR) em instrumentos de medição. A

seção 3 apresenta a metodologia e técnicas propostas neste trabalho para atacar o

problema identificado. A seção 4 apresenta os experimentos e resultados obtidos,

seguindo a metodologia proposta na seção anterior. Concluindo, a seção 5 apresenta as

considerações finais e sugestões de trabalhos futuros.

2. Trabalhos Relacionados

Apesar de se apresentar como uma atividade de OCR tradicional, a identificação de

texto em objetos, como no caso de medidores, pode apresentar peculiaridades

decorrentes de ruídos adquiridos na aquisição da imagem. Estes ruídos podem ser

resultantes de diversas fontes, como a falta ou excesso de iluminação do ambiente, tipo

e resolução do sensor da câmera, sombras, oclusões, entre outras interferências. A

apresentação destas peculiaridades pode atrapalhar a interpretação e reconhecimento de

informações dispostas na imagem, inviabilizando a utilização de soluções tradicionais

de OCR, como pode ser observado na pesquisa de [Nodari et al. 2011], que utilizou uma

biblioteca padrão de OCR denominada Tesseract [Smith 2007] obtendo uma taxa de

Page 37: Anais do SMSI 2016

58% de acerto para o reconhecimento dos dígitos. O resultado, segundo o autor,

ressaltou a complexidade da tarefa de OCR neste domínio de aplicação.

Trabalhos encontrados na literatura relatam aplicações para o reconhecimento de

placas de automóveis [Gazcón et al. 2012] e [Wen et al. 2011], bem como aplicações

para reconhecer textos em objetos específicos como no caso de rótulos apresentados em

garrafas de bebidas [Arrighi et al. 2012]. Além disso, a literatura apresenta trabalhos

que abordam o reconhecimento de dígitos apresentados em medidores de consumo de

água, gás e energia elétrica. Com respeito ao processamento das imagens de medidores,

os trabalhos apresentam o emprego de variadas técnicas, dentre as quais a

transformação da imagem em tons de cinza [Edward 2013], segmentação por

limiarização [Alexandria et al. 2004], [ Zhao et al. 2009], morfologia matemática [Lei

et al. 2010] e rotulagem de componentes conexos [Oliveira et al. 2009]. Para o

reconhecimento dos dígitos, técnicas como redes neurais artificiais (RNA) [Zhao et al.

2013], [Vanetti et al. 2012], classificação baseada na distância mínima [Nava-Ortiz et

al. 2011], correlação cruzada [Belan et al. 2013], entre outras, são utilizadas. Tomando

como base diversas características das imagens dos dígitos tais como: histograma de

projeções de pixels [Castells-Rufas et al. 2006], tipo de traços reto ou curvo no dígito

[Shu et al. 2007], momentos invariantes [Bai et al. 2010], dentre outras.

3. Metodologia

A metodologia apresentada neste trabalho tem como propósito a obtenção de um

algoritmo que processe imagens de medidores, localize o contador do volume de gás

consumido, identifique os dígitos significativos e faça o reconhecimento destes em

formato texto. O algoritmo foi projetado para trabalhar com imagens de medidores que

possuam as seguintes características: apresentem 4, 5, 6 ou 7 dígitos significativos no

contador (dígitos de 0 a 9), bem como apresentem dígitos significativos em cor clara

sobre fundo escuro e dígitos descartáveis em cor clara sobre fundo vermelho.

As imagens devem ser capturadas do cotidiano conforme mostra a Figura 1, em

situações reais encontradas por profissionais que efetuam regularmente a leitura, porém

sem apresentar obstruções ou ruídos que impossibilitem o seu reconhecimento. Nesta

mesma figura é exibido um padrão encontrado na região de interesse (ROI) que

representa a área do contador, formada por dígitos brancos aplicados sobre uma área

preta conectada a uma área vermelha. Isto motivou a opção pela segmentação da ROI

com base na imagem colorida, diferentemente da maioria dos trabalhos correlatos

encontrados na literatura que iniciam o trabalho utilizando imagens em tons de cinza.

Figura 1. Imagens de medidores com destaque para a característica de apresentação da cor vermelha na área na qual são apresentados os dígitos.

Nos itens subsequentes são descritos os passos que compõem o método proposto

para a construção do algoritmo e obtenção dos resultados desejados.

Page 38: Anais do SMSI 2016

3.1. Segmentação da Região de Interesse

A abordagem proposta trata do uso do espaço de cor. Com a conversão da distribuição

de valores RGB da imagem para a distribuição de valores HSL busca-se gerar uma

imagem binária (limiarizada), na qual sejam observadas porções que indiquem a

presença de pixels vermelhos (ou próximos de vermelho). A análise é feita no canal H

que pode possuir tanto um valor consideravelmente baixo quanto um valor

consideravelmente alto, bem como nos canais S e L que não poderão conter um valor

consideravelmente baixo. Baseado em experimentos aplicados à base de imagens foram

definidos os seguintes limiares para a filtragem do espaço HSL: H < 15 ou H > 330, S >

30 e L > 10. A Figura 2 mostra o resultado da aplicação da limiarização.

Figura 2. Imagens identificando ocorrências de pixels vermelhos.

(a) Original; (b) Limiarizada com identificação de pixels vermelhos.

Baseado na imagem resultante da limiarização gera-se um vetor com a sua

projeção horizontal de pixels, no qual cada elemento recebe à quantidade de pixels

vermelhos identificados em cada linha da imagem limiarizada. Para atenuar as variações

que ocorrem entre os valores contidos em cada elemento do vetor, aplica-se um filtro de

suavização. O filtro consiste em atribuir um novo valor a cada elemento do vetor, com

base no cálculo da média dos valores de seus vizinhos. Sendo a vizinhança de dez

elementos à esquerda e dez elementos à direita em relação a cada elemento em análise

no vetor. O objetivo do filtro é facilitar o processo de identificação de picos e vales

presentes na projeção horizontal de pixels. Para localização dos picos e vales aplica-se

um cálculo levando-se em conta uma vizinhança de três elementos à direita e três à

esquerda do valor analisado no vetor de projeções agora suavizado. O novo valor do

elemento é obtido através da subtração do valor encontrado no seu terceiro vizinho mais

à direita pelo valor do seu terceiro vizinho mais à esquerda. Os valores que resultam

positivos identificam os picos no vetor de projeções, e os negativos identificam os vales.

As dimensões das vizinhanças, tanto para a suavização quanto para a obtenção dos picos

e vales, foram obtidas com base em experimentos aplicados à base de imagens.

A Figura 3 exibe os gráficos resultantes da projeção horizontal, projeção

suavizada e identificação de picos e vales relativos à imagem exibida na Figura 2b.

Figura 3. Projeção horizontal e identificação de picos e vales. (a) Projeção horizontal; (b) Projeção suavizada; (c) Identificação de picos e vales.

Page 39: Anais do SMSI 2016

A combinação da identificação do pico mais alto com o vale mais profundo

encontrado a sua frente, irá delimitar a altura da ROI (o pico identifica a linha inicial e o

vale a linha final). Se a altura encontrada for menor que uma altura mínima, busca-se a

combinação com o próximo vale mais profundo até que a altura mínima da ROI seja

atingida. Baseado em experimentos o limiar de altura mínima foi definido em 25 pixels.

Na sequência, segmenta-se a imagem resultante do processo de limiarização

com base nos limites de altura encontrados para a ROI. Percorre-se a imagem da direta

para a esquerda analisando-se a projeção vertical (quantidade de pixels vermelhos

identificados em cada coluna) até encontrar o limite inicial da região vermelha, o que irá

delimitar o limite direito da ROI (final da região que contem o contador de consumo).

Com os limites superior, inferior e direito definido, aplica-se uma tolerância de pixels

acima e abaixo dos limites de altura, procurando evitar a segmentação abrupta ou o

corte da ROI em imagens que apresentem captura com leve inclinação. Feito este ajuste,

segmenta-se a imagem colorida com base nos três limites obtidos e transforma-se o

resultado desta segmentação em tons de cinza. Toma-se o resultado e realiza-se a

limiarização da imagem pelo método de Otsu (1979), executando-se análise semelhante

à anterior (projeção vertical) para encontrar o limite esquerdo e segmentar a ROI em sua

largura. A Figura 4 apresenta a segmentação da ROI utilizando o procedimento descrito.

Figura 4. Segmentação da ROI. (a) Limite direito da ROI; (b) Limite esquerdo da ROI; (c) ROI segmentada.

A fim de auxiliar a segmentação individual dos dígitos, aplica-se no resultado

um operador morfológico de erosão através de um elemento estruturante retangular de

uma linha e quatro colunas. A aplicação tem o objetivo de eliminar ruídos e separar os

dígitos que estejam conectados as linhas que pertencem ao retângulo englobante que

contêm o contador de consumo.

3.2. Segmentação individual dos dígitos

A segmentação individual dos dígitos parte da imagem resultante do passo anterior, e

nela aplica-se a técnica de Análise de Componentes Conexos (ACC). Tendo como base

a premissa de que parte dos pixels que pertencem aos dígitos compõe a linha central da

ROI, analisa-se a área de um segmento central composto de duas linhas abaixo e acima

a partir da metade da altura da ROI. Desta forma são considerados para análise apenas

os rótulos resultantes da ACC que possuam pixels pertencentes a este segmento central,

descartando-se os demais rótulos.

A partir dos rótulos selecionados, consideram-se como candidatos a dígitos

apenas os rótulos que estiverem dentro de um determinado limite mínimo e máximo de

pixels. Baseado em experimentos aplicados à base de imagens, o limiar para o mínimo

foi definido em 10 pixels e para o máximo em 70 pixels, a Figura 5 mostra o resultado

do procedimento descrito acima.

Page 40: Anais do SMSI 2016

Figura 5. Segmentação dos dígitos. (a) Resultado limiarização; (b) Resultado da rotulagem e linha central de análise;

(c) Rótulos selecionados; (d) Dígitos selecionados.

3.3. Reconhecimento dos dígitos

Para a fase de reconhecimento dos dígitos segmentados, foi criada uma base de dados

de dígitos rotulados (BDR). Esta base é composta de dígitos padronizados no tamanho

de 40x40 pixels, que são resultantes do método de segmentação individual de dígitos

apresentado neste trabalho. A base é composta de 1220 amostras de dígitos rotulados,

sendo 122 amostras de cada dígito (0 a 9), cada qual apresentando 1722 características.

As amostras compõem uma matriz constituída de uma amostra por linha, tendo a

primeira coluna de cada linha identificada com o rótulo do dígito correspondente, e as

colunas restantes compostas por valores que correspondem à aplicação das seguintes

técnicas: mapeamento do nível de cinza de cada pixel (mapa de pixels), Vetor de

Comportamento [Rudek 1999], Zoning [Pitas 2000], projeção horizontal e projeção

vertical de pixels dos dígitos. A duas primeiras técnicas são aplicadas sobre a imagem

do dígito em tons de cinza, sendo as restantes aplicadas na imagem limiarizada do

dígito. A quantidade de características extraída por cada técnica, bem como o

posicionamento dos valores no vetor de características são apresentados na Tabela 1.

Tabela 1. Mapeamento de características extraídas dos dígitos.

Técnica Características Posição inicial

no vetor

Posição final

no vetor

Mapa de pixels 1600 0001 1600

Vetor de Comportamento 16 1601 1616

Zoning 4x4 16 1617 1632

Zoning linhas 4 1633 1636

Zoning colunas 4 1637 1640

Zoning diagonal 2 1641 1642

Projeção horizontal 40 1643 1682

Projeção vertical 40 1683 1722

As imagens de medidores utilizadas para obtenção das 1220 amostras de dígitos

foram obtidas com base em dois grupos de imagens. O primeiro grupo (G1) originado

de imagens fornecidas pela Companhia Paranaense de Gás (COMPAGAS). O segundo

grupo (G2) oriundo de imagens disponibilizadas pelo laboratório de pesquisas italiano

Page 41: Anais do SMSI 2016

Arte-Lab1, mesma base utilizada no trabalho de [Nodari et al. 2011]. Vale ressaltar que

no trabalho de Nodari a segmentação da ROI parte de uma imagem em tons de cinza,

sendo que em alguns casos o grupo G2 apresenta imagens que são capturadas sem

destacar de forma suficiente a parte vermelha do contador de consumo, fato que

inviabiliza o método de segmentação da ROI aqui proposto. Sendo assim, foram

utilizadas 640 imagens de medidores do grupo G1 originando 930 dígitos individuais, e

153 imagens de medidores do grupo G2 originando 290 dígitos individuais. O número

relativamente baixo de dígitos, se comparado ao número de imagens de medidores, se

deve ao fato de que a segmentação individual gerou quantidades diferentes para cada

dígito (0 a 9). Por exemplo, o dígito zero apresentou 1790 ocorrências enquanto que o

dígito nove apresentou 122 ocorrências. Desta forma, para evitar disparidade foram

selecionadas aleatoriamente 122 ocorrências para cada dígito de 0 a 9, totalizando as

1220 amostras que integram a base. Todas as imagens que compõem a base, tanto de

medidores quanto a BDR, foram disponibilizadas em repositório online2, a fim de que

outros pesquisadores possam fazer uso em pesquisas futuras envolvendo o tema.

O reconhecimento ficou a cargo de três classificadores: K-Nearest Neighbours

(KNN), Support Vector Machine (SVM) e Extreme Learning Machine (ELM).

O método para classificação via KNN consiste resumidamente em atribuir uma

classe a um elemento desconhecido usando a classe da maioria de seus k vizinhos mais

próximos, segundo uma determinada distância (no espaço de atributos). Dada

determinada amostra de uma classe desconhecida, calcula-se a sua distância perante

todas as amostras da base de conhecimento, selecionando-se as k amostras mais

próximas. Dentre estas amostras escolhe-se a classe que seja maioria entre elas. Se

houver empate, utiliza-se a classe mais próxima das maiorias empatadas. Esta técnica

apresenta um custo computacional elevado para bases de conhecimento com um grande

número de amostras, isto devido à necessidade do cálculo da função de distância da

amostra desconhecida para com todas as amostras contidas na base de conhecimento.

SVM é um método de aprendizagem de máquina desenvolvido por [Vapnik

1999], o qual propõe a criação de um hiperplano como superfície de decisão. Este

hiperplano deve apresentar a separação ideal entre duas classes, maximizando a

distância entre os pontos mais próximos da classe e o hiperplano. Estes pontos são

denominados elementos de borda, e os vetores de suporte são as distâncias entre os

elementos de borda e o hiperplano. Baseia-se na Teoria de Aprendizagem Estatística

como estratégia de treinamento e na Teoria de Otimização para encontrar o hiperplano

[Dos Santos 2002]. Possui a vantagem de ser capaz de trabalhar com um grande volume

de amostras e rapidez na classificação. Embora o tempo de treinamento possa apresentar

custo computacional considerável para bases com elevado número de amostras.

O método ELM proposto por [Huang et al, 2007] é derivado da visão atual de

redes neurais artificiais (RNAs) como aproximadores universais. Utiliza redes SLFN

(Single-hidden Layer Feedforward Network), consideradas um caso especial das redes

neurais MLP por apresentarem uma única camada oculta [Silvestre 2015]. Destaca-se

devido ao baixo custo computacional para treinamento da rede, sendo que sua essência

1 Banco de imagens disponível em: http://artelab.dicom.uninsubria.it/downloads.html, ver item "Gas-

meter reading" (acessado em 01/06/2016).

2 Banco de imagens disponível em: https://github.com/jcgcwb/gas-meter-ocr (acessado em 01/06/2016).

Page 42: Anais do SMSI 2016

está no uso de pesos sinápticos aleatórios na camada oculta. Deste tipo de configuração

origina-se um modelo linear para os pesos sinápticos da camada de saída da rede. Estes

pesos são calculados de forma analítica por meio de uma solução de mínimos quadrados

[Huang et al, 2011]. O método não exige parametrizações que são características de

controle de RNAs como o ajuste manual da taxa de aprendizagem e número de

iterações, bem como o ajuste do desempenho de critérios de parada. A aplicação da

ELM também resolve o problema dos mínimos locais em relação ao algoritmo back-

propagation, já que o método ELM não é baseado nas teorias de gradiente descendente.

Para avaliação do desempenho dos algoritmos utilizou-se o método de validação

K-fold. O método consiste em aplicar partições no conjunto de amostras, combinando-as

entre treino e teste [Stone 1974]. As amostras são divididas em k partes de igual

tamanho, fazendo com que uma das k partes seja selecionada como conjunto de teste e

estabelecendo as k-1 partes restantes como conjunto de treinamento. O conjunto de teste

é alternado em cada passo do processo que será executado k vezes. A taxa de avaliação

é calculada com base na média das taxas de erro e/ou acerto obtido em cada iteração.

4. Experimentos e resultados obtidos

Os algoritmos elaborados para o experimento foram desenvolvidos em linguagem de

programação Python 2.7, utilizando as bibliotecas PIL e Scikit-Image para o

processamento de imagens e a biblioteca Scikit-Learn para os classificadores KNN e

SVM, todas disponíveis através da instalação do pacote de distribuição Anaconda3. Para

o classificador ELM foi utilizada a biblioteca HP-ELM Toolbox4. Os algoritmos foram

testados com o apoio de um notebook configurado com sistema operacional Windows 7,

32bits, 4GB de memória RAM e CPU Intel Core2Duo T6600 de 2.20GHz.

4.1 Experimentos com a localização da ROI

O experimento do método proposto para localização da ROI, com base no espaço de

cores da imagem, foi executado nos grupos de imagem G1 e G2. A Tabela 2 apresenta

as taxas de acerto relacionadas ao método de localização da ROI.

Tabela 2. Taxas de acerto na localização da ROI.

Grupo Nº de imagens ROI Localizada ROI Não Localizada Acerto

G1 640 615 25 96,09%

G2 153 135 18 88,24%

4.2 Experimentos com o reconhecimento dos dígitos

Para o reconhecimento dos dígitos foram utilizados os grupos de imagem G1 e G2 de

forma individual e em conjunto. A validação cruzada com k=10 foi utilizada para medir

o desempenho de cada classificador. Para o classificador ELM foi escolhida uma

3 Pacote de distribuição Anaconda disponível em: https://www.continuum.io/downloads (acessado em

01/06/2016).

4 Repositório Github da biblioteca HP-ELM disponível em: https://github.com/akusok/hpelm (acessado

em 01/06/2016).

Page 43: Anais do SMSI 2016

arquitetura de 1722 unidades de entrada (representando o vetor de características), 80

neurônios na camada oculta e 10 saídas (representando os dígitos de 0 a 9), a função de

ativação utilizada foi a sigmoide. O número de neurônios na camada oculta e a função

de ativação foram selecionados empiricamente com base na avaliação da taxa de acerto

no momento do treinamento. Para o classificador SVM foi escolhido o kernel linear

com parâmetro de penalidade C=1, também escolhido empiricamente com base em

análise do acerto no treinamento. Para o classificador KNN foi escolhido k=3 após

avaliação da taxa de acerto em experimentos com k variando de 1 a 18 (em intervalos de

2). Para o cálculo da distância foi utilizada a distância Euclidiana.

A Tabela 3 apresenta as taxas de acerto relacionadas ao reconhecimento dos

dígitos em cada grupo de imagem, bem como o tempo médio decorrido em segundos, de

acordo com cada etapa da validação cruzada.

Tabela 3. Taxas de reconhecimento obtidas com o experimento.

Validação

Cruzada

Classificador

ELM

Classificador

SVM

Classificador

KNN

G1 G2 G1+G2 G1 G2 G1+G2 G1 G2 G1+G2

Fold-1 94% 94% 94% 96% 90% 96% 94% 87% 91%

Fold-2 94% 93% 92% 98% 87% 99% 89% 80% 93%

Fold-3 94% 93% 94% 95% 97% 97% 81% 97% 89%

Fold-4 94% 94% 94% 94% 97% 94% 93% 83% 86%

Fold-5 94% 93% 94% 91% 97% 94% 91% 83% 93%

Fold-6 95% 93% 94% 97% 90% 94% 94% 87% 95%

Fold-7 94% 93% 94% 94% 93% 97% 88% 90% 92%

Fold-8 95% 93% 94% 98% 99% 98% 93% 90% 90%

Fold-9 95% 94% 95% 98% 90% 95% 86% 97% 92%

Fold-10 95% 93% 94% 98% 95% 95% 90% 90% 93%

Acerto

Médio 94,4% 93,3% 93,9% 95,9% 93,5% 95,9% 89,9% 88,4% 91,4%

Tempo

Médio 0,11 s 0,11 s 0,17 s 1,20 s 0,23 s 1,96 s 4,97 s 0,63 s 8,74 s

Os resultados revelam classificadores com taxas de acerto muito próximas, com

o KNN apresentando desempenho ligeiramente inferior em comparação aos métodos

ELM e SVM, porém com um alto custo computacional em relação a estes dois últimos.

Já a classificação por ELM se destaca com um custo computacional bem menor

comparado aos demais classificadores.

Com as taxas de acerto obtidas no experimento foi possível confrontar os

resultados com alguns casos apresentados na literatura nos quais os autores destacaram

as taxas de acertos relacionadas ao processo de reconhecimento dos dígitos. A Tabela 4

Page 44: Anais do SMSI 2016

destaca, de acordo com o trabalho de cada autor, as seguintes informações: a taxa de

acerto e o tipo de classificação utilizada para o reconhecimento dos dígitos, a presença

de controle na captura das imagens (câmera ou outro dispositivo de captura acoplado ao

medidor) e o número de imagens de medidores utilizadas no experimento.

Tabela 4. Taxas de reconhecimento obtidas nos trabalhos relacionados.

Autor Controle Classificado por Acerto Imagens

[Castells-Rufas et al. 2006] Sim Programação Dinâmica 99% 396

[Zhao et al. 2009] Sim RNA 95% 500

[Bai et al. 2010] Sim Momentos de Hu 94% 50

[Lei et al. 2010] Sem relato Análise de esqueleto 99% 850

[Nava-Ortiz et al. 2011] Sim Distância mínima 93% 217

[Nodari et al. 2011] Não OCR Tesseract 58% Sem relato

[Zhao et al. 2013] Sem relato RNA 99% 50

Analisando-se os resultados apresentados na literatura, foi possível concluir que

o resultado obtido neste trabalho de 95,9% de taxa de acerto pode ser considerado

promissor. Vale ressaltar que em boa parte dos casos relacionados na literatura as

imagens de medidores são capturadas em ambientes controlados ou em ambiente de

laboratório. Outra comparação pertinente seria com a pesquisa de [Nodari et al. 2011] a

qual obteve resultado de 58% e que, assim como neste trabalho, utiliza imagens

capturadas em campo e que apresentam maior conformidade com a situação encontrada

pelos profissionais de leitura no seu dia a dia.

5. Conclusão

Este trabalho teve como objetivo apresentar a metodologia adotada para a construção de

um algoritmo envolvendo técnicas de PDI e reconhecimento de padrões. Este algoritmo

visa obter em imagens de medidores de gás natural, o reconhecimento dos dígitos

apresentados no contador de consumo de gás.

A melhor taxa de acerto foi de 95,9%, obtida com um classificador SVM. No

entanto, vale ressaltar que a taxa obtida pelo método de classificação ELM apresenta-se

muito próxima da melhor taxa obtida, porém com um custo computacional

consideravelmente menor. O que é um fator preponderante para a utilização de uma

aplicação desta natureza em dispositivos móveis, num ambiente real que envolva o

processo de faturamento em uma empresa distribuidora de gás natural.

O estudo e sua aplicação se mostraram com potencial promissor. Adequações ao

processo de segmentação utilizando métodos como o detector de bordas de Sobel em

conjunto com a transformada de Hough para a correção de imagens que apresentem

inclinação, bem como a utilização de outros descritores como os momentos invariantes

de Hu a fim de lidar com a variação de escala, ou mesmo a presença de concavidades,

furos e traços para tratamento de dígitos em transição, podem ser caminhos para que se

alcance melhores taxas de acerto no reconhecimento dos dígitos. Ademais, a aplicação

de um razoável nível de controle na captura das imagens, como por exemplo, fazer com

Page 45: Anais do SMSI 2016

que o contador de consumo esteja posicionado no interior de um aparente retângulo

englobante presente na tela do dispositivo no momento da captura, pode também ser

uma forma de elevar a taxa de reconhecimento. Seria interessante experimentar o

algoritmo com um hardware de baixo custo como um celular, possibilitando assim o

levantamento da quantidade de leituras em campo obtidas de forma acertada. Sendo

assim consideradas como atividades futuras para continuidade desta pesquisa.

Referências Bibliográficas

Alexandria, R. A. et al. (2004). “Sistema de Reconhecimento de Algarismos em Medidores

de Energia Convencionais Visando Implementação de Sistema de Fornecimento de

Energia Pré-Paga – Seppra”.

Arrighi, T. et al. (2012). “Recognition and classification of numerical labels using digital

image processing techniques”. Image, Signal Processing, and Artificial Vision

(STSIVA-2012), XVII Symposium of. IEEE. pp. 252-260.

Bai, Q. et al. (2010). “Research of Automatic Recognition of Digital Meter Reading Based

On Intelligent Image Processing”. 2nd International Conference on Computer

Engineering and Technology (ICCET), pp. 619-623.

Belan, P.A.; Araujo, S. A.; Librantz, A. F. H., (2013). “Segmentation-free approaches of

computer vision for automatic calibration of digital and analog instruments”.

Measurement, vol. 46, pp. 177-184.

Edward, C.P., (2013). “Support Vector Machine Based Automatic Electric Meter Reading

System”. Computational Intelligence and Computing Research (ICCIC), 2013 IEEE

International Conference on. IEEE, p. 1-5.

Castells-Rufas, D.; Carrabina J., (2006). “Camera-based Digit Recognition System”. 13th

IEEE International Conference on Electronics, Circuits and Systems (ICECS), pp.

756-759.

Dos Santos, Eulanda M., (2002). Teoria e Aplicação de Support Vector Machines à

Aprendizagem e Reconhecimento de Objetos Baseado na Aparência. 2002. Tese de

Doutorado. Universidade Federal da Paraíba.

Gazcón, N. F.; Chesñevar, C. I.; Castro, S. M., (2012). “Automatic vehicle identification for

Argentinean license plates using intelligent template matching”. Pattern Recognition

Letters, vol. 33, no. 9, pp. 1066-1074.

Huang, G-B.; Wang, D. H.; Lan, Y., (2011). Extreme learning machines: a survey.

International Journal of Machine Learning and Cybernetics, v. 2, n. 2, p. 107-122, 2011.

Huang, G.-B., & Chen, L. (2007). Convex incremental extreme learning machine.

Neurocomputing, 70(16), 3056–3062.

Lei, Haijun et al. (2010). “Numeral recognition of power meter on a handheld terminal”. In:

Proceedings of the Third International Symposium on Electronic Commerce and

Security Workshops. p. 76-79.

Nava-Ortiz, M.; Gomez, W.; Diaz-Perez, A., (2011). Digit recognition system for camera

mobile phones. In: Electrical Engineering Computing Science and Automatic Control

(CCE), 8th International Conference on. IEEE. p. 1-5.

Page 46: Anais do SMSI 2016

Nodari, A.; Gallo, I., (2011). “A Multi-Neural Network Approach to Image Detection and

Segmentation of Gas Meter Counter”. IAPR Conference on Machine Vision

Applications MVA2011. Nara Centennial Hall, Nara, Japan.

Obinata, G.; Dutta, A., (2007). Vision Systems: Segmentation and Pattern Recognition. I-

Tech.

Oliveira, D. M.; Dos Santos Cruz, R.; Bensebaa, K., (2009) "Automatic numeric characters

recognition of kilowatt-hour meter". In: Signal-Image Technology & Internet-Based

Systems (SITIS), 2009 Fifth International Conference on. IEEE, p. 107-111.

Otsu, N. (1979), “A Threshold Selection Method from Gray-Level Histograms”, IEEE

Transactions on Systems, Man and Cybernetics 9 , p. 62-66 .Pratt, William K., (1991),

Digital image processing. New York: Wiley.

Pitas, I, (2000). Digital Image Processing Algorithms and Applications. EUA: John Wiley

and Sons, 2000. 432p.

Rudek, M. (1999). “Uma proposta para indexação e recuperação automática de imagens e

reconhecimento de cheques bancários baseadas no vetor de comportamento.”

Dissertação de Mestrado. CEFET – Centro Federal de Educação Tecnológica do Paraná.

Curso de Pós-Graduação em Engenharia Elétrica e Informática Industrial.

Silvestre, L. J. (2015). Regularização de Extreme Learning Machines : uma abordagem com

matrizes de afinidade, Tese de Doutorado, UFMG, Belo Horizonte.

Smith, R. (2007). An Overview of the Tesseract OCR Engine. In proceedings of Document

analysis and Recognition. ICDAR 2007. In: IEEE Ninth International Conference.

Stone, M. (1974). Cross-validatory choice and assessment of statistical predictions. Journal

of the Royal Statistical Society 36, pp. 111-147.

Shu, D.; Ma, S.; Jing, C., (2007). “Study of the automatic reading of watt meter based on

image processing technology”. In: Industrial Electronics and Applications, 2007. ICIEA

2007. 2nd IEEE Conference on. IEEE. p. 2214-2217.

Vanetti, M.; Gallo, I.; Nodari, A., (2012). “GAS Meter Reading from Real World Images

using a Multi-net System”. Pattern Recognition Letters.

Vapnik, V. N. (1999). The Nature of Statistical Learning Theory. Springer Verlag, New

York, 2nd edition.

Wen, Y. et al. (2011). "An algorithm for license plate recognition applied to intelligent

transportation system". IEEE Trans. Intelligent Transportation Systems, vol. 12, no. 3,

pp. 830-845.

Zhang, J.; Chen, X.; Hanneman, A.; Yang, J.; Waibel, A., (2002). “A Robust Approach for

Recognition of Text Embedded in Natural Scenes”. Proceedings of International

Conference on Pattern Recognition ICPR.

Zhao, L. et al. (2009). "Research of digital meter identifier based on DSP and neural

network". In: Imaging Systems and Techniques, 2009. IST'09. IEEE International

Workshop on. IEEE, p. 402-406.

Zhao, W.; Gao, M.; He, Z. W., (2013). “Character Recognition Based on Improved BP

Neural Network”. In: Instrumentation, Measurement, Computer, Communication and

Control (IMCCC), 2013 Third International Conference on. IEEE. p. 754-757.

Page 47: Anais do SMSI 2016

Uso de Mineração de Dados para Redução de Horas Extras:

uma análise exploratória das bases de dados de uma empresa

de construção civil

Welliton V. Silva1, Poliana A. C. Oliveira

1,2, Cíntia P. Avelar

1

1Instituto de Ciências Exatas e de Informática – Pontifícia Universidade Católica de

Minas Gerais (PUC Minas) – Belo Horizonte – MG – Brasil

2Departamento de Computação – Centro Federal de Educação Tecnológica de Minas

Gerais (CEFET-MG) – Belo Horizonte – MG – Brasil

[email protected], [email protected],

[email protected]

Abstract. Construction of knowledge from the raw data transformation has

become a great competitive advantage to assist companies in decision making.

One of the main problems in the construction industry is the cost of overtime

performed by employees in the works, because it has impact on the budget,

increasing the labor cost, and consequently, the final value of the property.

This study presents a data mining application into databases from a company

of this branch, in view of, the search for patterns related to costs of overtime,

and from the findings, support the corporate governance as the decisions

about cost reduction. The results showed employee's profile with more

overtime and possible relationships with the evolution of the work.

Resumo. A construção do conhecimento a partir da transformação dos dados

brutos tornou-se uma vantagem competitiva para empresas ao auxiliar na

tomada de decisão. Um dos principais problemas na área de construção civil

são os custos com horas extras, pois impacta no orçamento, elevando os

gastos com mão de obra, e consequentemente, o valor final do imóvel. Este

trabalho apresenta uma aplicação de mineração de dados em bases de uma

empresa desse ramo, tendo em vista, a busca por padrões relacionados com

hora extra a fim de apoiar a governança corporativa quanto a decisões de

redução de custos. Os resultados apontaram o perfil do colaborador que mais

faz horas extras e possíveis relações com a evolução da obra.

1. Introdução

Para conseguir sobreviver ao mercado, as grandes empresas estão sempre buscando

novas estratégias. Um fator muito importante que precisa ser levado em conta são os

dados obtidos diariamente em suas operações. Para [Amorim 2006] com a concorrência

cada vez mais forte, os empreendedores que não adotarem estratégias, não só para

manter a qualidade dos dados como também para a geração de conhecimento a partir

deles, estarão reduzindo cada vez mais suas chances no mercado em que atuam.

Page 48: Anais do SMSI 2016

Essas organizações têm buscado por métodos para trabalhar seus imensos

bancos de dados na tentativa de encontrar informações novas, válidas e não triviais que

auxiliem em suas decisões, de maneira a aumentar lucros e diminuir gastos. Porém, o

processamento desses dados para análise deve ser realizado com todo cuidado para que

os mesmos sejam tratados de maneira adequada [Santos 2002]. No caso das empresas

de construção civil, a incessante busca por melhoria contínua dos seus processos a fim

de alcançar vantagem competitiva, tem se deparado com um ofensor que impacta nos

custos, as horas extras realizadas por colaboradores nos canteiros de obras.

A descoberta de padrões através das técnicas de mineração de dados têm se

revelado fundamentais para as instituições, pois possibilitam ações inteligentes dentro

do ambiente corporativo, proporcionando aos empresários enxergar novas tendências,

além de construir estratégias para aperfeiçoar processos, aumentar a qualidade dos seus

produtos e serviços, reduzir custos e garantir vantagem competitiva [Batista 2009].

Segundo [Fayyad e Stolorz 1996] mineração de dados é “... o processo não

trivial de identificar, em dados, padrões válidos, novos, potencialmente úteis e

ultimamente compreensíveis”. Com essa técnica é possível transformar grandes

volumes de dados brutos em conhecimento, que mais tarde serão utilizados pela

governança corporativa para que sejam realizadas as melhores escolhas no que diz

respeito à redução dos custos.

Atualmente um dos grandes problemas na área de construção civil são os altos

valores com horas extras realizadas por colaboradores em obras. O objetivo deste

trabalho consiste em aplicar técnicas de mineração de dados para encontrar padrões e

descobrir informações relevantes das bases de dados que propiciem um apoio à tomada

de decisão a fim de reduzir o número de horas extras, reduzindo o custo produtivo. Para

tanto, será feito um estudo de caso em uma empresa do ramo da construção civil.

As horas extras têm grande relevância para a empresa, pois impactam

diretamente no orçamento da obra, aumentando os valores gastos com mão de obra, e

consequentemente, o valor final do imóvel. Além disso, um número elevado de horas

extras pode gerar situações de causas trabalhistas movidas por funcionários contra a

construtora. Nesse sentido, um dos grandes desafios das empresas de construção civil

reside em explorar as suas bases de dados a fim de identificar suas causas e encontrar

maneiras de reduzi-las.

Este trabalho está organizado da seguinte forma. A seção 2 apresenta os

conceitos necessários para a compreensão desse estudo. A seção 3 mostra a descrição da

metodologia adotada neste trabalho. A seção 4 mostra os resultados encontrados após a

aplicação de técnicas de mineração de dados. Enquanto a seção 5 ressalta as conclusões

e trabalhos futuros.

2. Fundamentação Teórica

O avanço da tecnologia de informação possibilitou que enormes volumes de

dados pudessem ser armazenados e processados rapidamente com precisão. Diante disso

surgem técnicas que oferecem, de forma rápida, uma alternativa para a construção de

informação e geração de conhecimento. Para tanto são necessárias análises sobre

grandes bases de dados, com o intuito de descobrir padrões, comportamentos e

tendências, para que a partir daí tais informações possam ser usadas nas tomadas

Page 49: Anais do SMSI 2016

decisões. Nesse sentido, a mineração de dados é uma técnica que tem se mostrado

muito eficaz [Elmasri e Navathe 2011].

A Mineração de Dados (do inglês, Data Mining) pertence a uma área de

sistemas de informação que visa oferecer estratégias automatizadas para a análise de

grandes repositórios de dados. O foco desta ferramenta está na extração de informações

implícitas e que sejam potencialmente utilizáveis. Segundo [Larose e Larose 2014], essa

técnica surgiu no início dos anos 90, a partir de um conjunto de abstrações derivadas de

diferentes áreas como Banco de Dados, Inteligência Artificial e Estatística.

Além do conhecimento empírico extraído, a mineração de dados permite coletar

e identificar as informações mais "profundas" nas bases de dados. Os analistas de

negócio possuem um papel muito importante para a excelência das pesquisas em

mineração de dados, garantindo a eficácia no momento de determinar as associações e

padrões nos dados analisados [Queiroga 2005].

O ganho com o uso dessa técnica é a obtenção de ideias que são expressas na

forma de padrões e regras. Portanto, a mineração de dados deve ser parte de um longo

processo de análise de bases de dados em que se objetiva alcançar a descoberta de

conhecimento [Santos 2002].

2.1 Descoberta de Conhecimento em Base de Dados

A descoberta de conhecimento em bases de dados, do inglês Knowledge

Discovery in Databases (KDD), é designada para descrever várias etapas de um

processo de extração de conhecimento dos dados. Além disso, é dinâmico e evolutivo, e

se relaciona com diversas áreas, entre elas, banco de dados, estatística, inteligência

artificial e reconhecimento de padrões [Vasconcelos e Carvalho 2004].

De acordo com [Prass 2012] pode-se dizer de maneira simplificada que o KDD

compreende todo o ciclo que o dado percorre até se transformar em informação,

conforme pode ser visto na Figura 1, e tem início na análise do domínio da aplicação e

dos objetivos a serem realizados, sendo este processo dividido nas cinco etapas descritas

a seguir.

Figura 1. Processo de descoberta do conhecimento (KDD).

Fonte: [Fayyad e Stolorz 1996]

Etapa 1: Seleção → Essa etapa compreende a seleção de quais dados são relevantes

para a análise e aplicação das técnicas de mineração de dados. Como os dados podem

ser oriundos de repositórios de dados distintos, pode ser necessário integrar e

compatibilizar tais bases de dados [Elmasri e Navathe 2011].

Etapa 2: Pré-processamento → É nessa etapa que ocorre a limpeza dos dados, dessa

forma os atributos considerados desnecessários são removidos da base de dados. Para

tanto, são adotadas estratégias para manusear dados faltantes ou inconsistentes [Refaat

Page 50: Anais do SMSI 2016

2006]. A fase de pré-processamento tem como intuito consolidar apenas informações

relevantes ao problema proposto, buscando reduzir a complexidade do problema. De

acordo com [Batista 2009] a motivação dessa etapa é otimizar o desempenho do

algoritmo, visto que ele atuará sobre um subconjunto de dados menor, o que contribui

para reduzir o universo de busca e melhorar a performance do mesmo.

Etapa 3: Transformação → Ainda que já tenham sido submetidos à fase de pré-

processamento, de acordo com [Machado e Becker 2002], os dados considerados

relevantes em um banco de dados nem sempre estão no formato adequado para a

utilização pelos algoritmos de mineração de dados. Sendo assim, torna-se necessário

que estes dados sejam transformados.

Etapa 4: Mineração de dados → Considerada a principal etapa do processo de KDD,

onde é realizada a extração e a descoberta de padrões, essa técnica possibilita prever

tendências e comportamentos futuros. É realizada através de algoritmos específicos que

permitem explorar os dados, com o intuito de descobrir padrões significativos e

associações que possam auxiliar na análise e descoberta de informações contidas nas

bases de dados [Cardoso e Machado 2008]. A mineração de dados é apoiada por vários

algoritmos e técnicas, dentre elas destacam-se:

Classificação dos dados → Consiste na construção de um modelo objetivando a

criação de classes. Uma das vantagens da classificação está na facilidade de

entendimento e eficiência a partir de grandes repositórios [Amo 2004]. O

algoritmo J48 é o que apresenta o melhor resultado na montagem de árvores de

decisão a partir de um conjunto de dados de treinamento usando a abordagem de

divisão e conquista [Witten e Frank 2005]. São exemplos de classificação de

dados: atribuir pedidos de créditos como de baixo, médio e alto risco, esclarecer

pedidos de seguros fraudulentos, identificar a forma de tratamento na qual um

paciente está mais propício a responder, baseando-se em classes de pacientes

que respondem bem a determinado tipo de tratamento médico [Goebel e

Gruenwald 1999, Amo 2004].

Regras de associação → Visa determinar padrões associativos que indiquem o

relacionamento entre conjuntos de itens. Elas podem ser consideradas tarefas

simples, que não envolvem predição da mesma forma que as tarefas de

classificação [Agrawal et. al 1993]. As regras permitem, por exemplo, descobrir

quais produtos costumam ser comprados juntos. As cadeias de varejo usam essas

informações para planejar a disposição dos produtos nas prateleiras das lojas, de

modo que os itens geralmente adquiridos na mesma compra sejam vistos

próximos entre si. O algoritmo Apriori é muito utilizado para criação de regras

de associação, por meio dele é possível estabelecer relações e associações entre

os dados [Amo 2004].

Clusterização → Também conhecida por segmentação pode ser considerada um

processo de partição de uma população heterogênea em vários subgrupos ou

grupos mais homogêneos. Na clusterização não há classes pré-definidas, os

registros são agrupados de acordo com a semelhança, o que a diferencia das

tarefas de classificação. Nessa técnica dividem-se os elementos em grupos, onde

a quantidade de grupos é determinada durante o processo de mineração e os

mesmos são baseados em alguma métrica de proximidade. Pode ser

exemplificado pela segmentação de clientes por região do país, segmentar os

Page 51: Anais do SMSI 2016

clientes baseado na similaridade de comportamento entre eles, agrupar seções de

usuários Web para prever comportamentos futuros de usuário. O algoritmo

Kmeans, é utilizado para criação de agrupamentos, e através da técnica de

clusterização divide os elementos em grupos baseados na sua proximidade em

relação a um centroide [Amo 2004, Braga 2005, Mendes 2011].

Etapa 5: Interpretação e avaliação → A última etapa consiste em interpretar e avaliar

os resultados obtidos pela mineração de dados já que esses podem apresentar uma

infinidade de interpretações e análises distintas. Isso envolve vários ramos, como

Estatística, Inteligência Artificial e Banco de dados, a fim de interpretar os resultados

obtidos com a mineração dos dados para alcançar o propósito principal do KDD: a

descoberta de conhecimento.

3. Trabalhos Relacionados

O trabalho realizado por [Cordeiro e Machado 2002] buscou identificar através

de técnicas de mineração de dados o perfil do operário da indústria da construção civil a

fim de contribuir para a melhoria da qualidade no setor. Foram levantados aspectos que

podem ser usados para encontrar estratégias de desenvolvimento de recursos humanos e

de qualidade de vida no trabalho, ressaltando possíveis benefícios advindos dessa

iniciativa, como por exemplo, a criação de cursos de alfabetização e profissionalizantes

dentro do canteiro de obras.

O trabalho realizado por [Panzer 2004] tratou de correlacionar horas extras e

acidentes de trabalho, absenteísmo e produtividade de funcionários em uma empresa

metalúrgica por meio do uso de mineração de dados. A busca se deu por influências

entre a ocorrência desses fatores, sendo possível evidenciar que a realização de horas

extras não gerou um aumento de produção, enquanto que o contrário aumentou a

produção. Também foi possível identificar os locais das queixas osteomusculares mais

frequentes, e assim, apoiar as decisões de negócio da empresa.

Os trabalhos mencionados apresentam casos de aplicação da mineração de dados

como ferramenta a fim de auxiliar na elaboração de estratégias e nos processos

decisórios das organizações. De forma análoga, esse trabalho apresenta a aplicação de

técnicas de mineração de dados com a finalidade de encontrar relações, padrões e

conhecimento sobre a prática de execução de horas extras em uma empresa do ramo da

construção civil a fim de apontar aspectos que possam contribuir para a redução do

custo associado a essa prática.

4. Metodologia

A Figura 2 apresenta as etapas necessárias para aplicação da mineração de dados

em uma empresa do ramo da construção civil. A primeira etapa foi baseada na definição

das hipóteses sobre a prática de horas extras. A segunda etapa consistiu em selecionar

os dados para análise, realizar um pré-processamento, limpeza e transformação dos

dados. Em seguida, foi escolhida a ferramenta para mineração de dados, algoritmos e

técnicas adotadas. Na quarta etapa, foi aplicada a mineração de dados propriamente dita,

juntamente com a coleta dos resultados. Por fim, foi feita a análise dos resultados e a

geração de conhecimento obtido pela mineração de dados.

Page 52: Anais do SMSI 2016

Figura 2. Etapas da metodologia

Fonte: Elaborado pelos autores

4.1. Definição de Hipóteses

A primeira etapa desse trabalho consistiu em criar hipóteses a respeito do

assunto a ser explorado como sendo ponto de partida para configurar e aplicar as

técnicas de descoberta de novos padrões. Neste contexto, algumas hipóteses foram

levantadas considerando a prática de horas extras em obras da empresa do ramo da

construção civil avaliada por esse trabalho.

Hipótese 1: A hora extra pode ser justificada se for produtiva. Nesse sentido, a ideia é

descobrir se a hora extra é produtiva ou improdutiva. Os colaboradores possuem metas

diárias de produção, nesse cenário foi estabelecido que se um funcionário que realizou

hora extra, conseguiu atingir a meta, então a hora extra realizada foi produtiva, caso

contrário será considerada hora extra improdutiva.

Hipótese 2: Colaboradores de determinadas funções podem fazer mais horas extras do

que outras. O objetivo é identificar a função que realiza mais horas extras com o intuito

de permitir uma associação entre funções e atividades da obra para que a causa da hora

extra seja tratada. Uma das informações das bases de dados é a função do colaborador,

dessa forma será possível agrupar as funções com maior frequência de horas extras.

Hipótese 3: O andamento da obra pode estar relacionado com a ocorrência de horas

extras. Ou seja, a ocorrência de horas extras pode ser associada ao momento da obra que

estão sendo executadas. Uma obra é descrita em termos de percentuais de execução.

Para isso, a ideia é descobrir em que momento estão sendo feitas mais horas extras.

Hipótese 4: Regionais específicas podem executar mais horas extras do que outras.

Como a empresa construtora atua em diversos locais do país, há uma distribuição de

obras por regional. O objetivo é identificar as regiões que apresentam os principais

ofensores a fim de indicar para a administração em quais lugares devem agir.

Hipótese 5: Os colaboradores alojados na obra apresentam uma tendência maior de

fazer horas extras do que aqueles que voltam para casa todos os dias. A ideia é buscar

por padrões de horas extras associadas ao alojamento (ou não) do colaborador na obra.

Hipótese 6: O perfil do profissional pode influenciar na prática de horas extras, por

exemplo, faixa etária, salarial, etc. A finalidade será buscar por padrões de perfil de

1 •Definição de hipóteses

2 •Seleção, pré-processamento e transformação de dados

3 •Escolha de ferramentas, algoritmos e técnicas de mineração de dados

4 •Mineração de dados e coleta de resultados

5 •Análise de resultados e geração de conhecimento

Page 53: Anais do SMSI 2016

funcionário que realiza maior quantidade de horas extras a fim de entender as causas, e

no futuro amenizar o problema.

4.2. Seleção, Pré-Processamento e Transformação de Dados

Muitas pesquisas mostram que mais de 75% do tempo gasto em um processo

completo de mineração de dados vem sendo usado em seleção, pré-processamento e

transformação de dados e que esta etapa tem uma significativa influência no resultado

final do processo [Engels e Theusinger 1998]. Os repositórios de dados utilizados neste

trabalho foram coletados de uma empresa atuante na área de construção civil contendo

informações de funcionários de obras, tais como horários de batidas de ponto e serviços

realizados pelos mesmos. O período coletado e tratado para ser minerado foi de agosto

de 2015 a março de 2016.

Para tanto foram unificadas bases de dados de diferentes fontes, tais como

departamento de pessoal, financeiro, controle e planejamento de obras. Todos os dados

de produção dos colaboradores são originados de um apontamento diário realizado nas

obras e também foram utilizadas informações adicionais, como dados referentes aos

projetos. A conversão dos dados foi realizada para um formato padrão arff, que é usado

na submissão para o software usado na mineração, se refere a um arquivo de texto

ASCII que descreve uma lista de instâncias que compartilham um conjunto de atributos.

Durante esta etapa dados considerados irrelevantes foram excluídos para reduzir o

tamanho da base e melhorar o desempenho dos algoritmos.

4.4. Ambiente de Implementação

Para a mineração das bases de dados foram utilizados os arquivos de entrada no formato

arff, gerados na etapa anterior, e uma ferramenta específica para mineração de dados

chamada Weka. Trata-se de um software livre desenvolvido em Java e constituído de

um conjunto de algoritmos. Atualmente pode ser utilizado nas plataformas Windows,

Mac OS X e Linux [Weka 2015]. O Weka contém ferramentas para pré-processamento

de dados, classificação, regressão, clusterização, regras de associação e visualização.

4.5. Mineração de Dados

A partir das hipóteses definidas na seção 4.1, a Weka foi configurada de modo a

executar algoritmos de classificação, agrupamento e associação a fim de melhor

entender o contexto em que as horas extras são praticadas.

Os algoritmos de classificação, usados para criar modelos de mineração

necessitam de conteúdo específico para trabalhar corretamente. Além disso, alguns

atributos podem conter dados não reconhecidos pelo algoritmo para a criação do

modelo. Uma solução para este problema foi a discretização dos dados, que é baseada

na criação de grupos de maneira que haja um número limitado de classificações

possíveis. Dessa forma os atributos de regionais e horários de registro de ponto foram

discretizados de modo a facilitar a criação de modelos de mineração.

Para a mineração dos dados foram criados arquivos de entrada, esses foram

submetidos ao software Weka e minerados através dos algoritmos J48, responsável pela

criação de árvores de decisão, através dele foi possível realizar a classificação das horas

extras. Para o agrupamento de dados foi aplicado o algoritmo Kmeans, que através da

técnica de clusterização divide os elementos em grupos baseados em suas similaridades,

E por último, por meio do algoritmo Apriori foram criadas regras de associação, sendo

Page 54: Anais do SMSI 2016

possível estabelecer associações e relações entre os dados. Os resultados gerados foram

coletados e analisados conforme descrito na seção a seguir.

5. Resultados

Agrupamentos lógicos de segmentação foram usados para encontrar similaridade

entre os dados analisados, de acordo com as hipóteses 2 e 3. O algoritmo aplicado foi o

Kmeans, que permitiu identificar os pontos centrais dos grupos (centroides) presentes

nos percentuais executados das obras. Esse algoritmo obteve uma média de acerto de

89%. Os resultados mostraram o agrupamento das horas extras em três faixas de

percentual de obra, 0% a 15% que compreende o início da obra, entre 15% e 85% que

define a execução da obra e 85% a 100% que determina a parte de finalização da obra,

conforme mostra o Gráfico 1. Outro agrupamento apresentado pela ferramenta Weka se

deu em termos das funções dos colaboradores, sendo o principal ofensor o servente,

como pode ser visto no Gráfico 2.

Gráfico 1. Agrupamento de horas extras

por faixa de andamento da obra

Gráfico 2. Agrupamento de horas extras

por função do colaborador

Com base nas hipóteses 1 e 5, de que a hora extra pode ser considerada

produtiva quando a meta de produção é alcançada e ainda que o colaborador alojado na

obra tende a fazer mais horas extras do que os não alojados por uma questão de

favorecimento de localidade, o algoritmo J48 foi executado para gerar árvores de

decisão e, portanto, permitir a classificação dos dados através da ferramenta Weka.

A classificação foi aplicada por meio do uso da regra de porcentagem de divisão

(percentage split), onde 66% dos dados foram utilizados como treinamento e o restante

foi utilizado para a classificação. Dessa forma, o algoritmo obteve uma taxa de 95,05%

de acerto durante o processo de classificação. Foram classificados os atributos de

função, percentual executado, se estão alojados em obras ou não, e faixa salarial.

Os resultados mostraram que a função de servente é a que realiza maior

percentual de horas extras improdutivas. Sendo assim, também foram classificadas

improdutivas as horas extras que ocorrem quando as obras têm percentual executado

acima de 80%. Para as demais obras, foi feito um corte para colaboradores não alojados

e alojados em obras e verificado que normalmente colaborador não alojado realiza horas

extras produtivas. Esses últimos foram classificados de acordo com a faixa salarial

mostrando que abaixo de um determinado valor há maior incidência de horas extras

improdutivas. A árvore de decisão construída pode ser vista na Figura 3.

0 a 15%

15 a 85% 85 a

100%

Page 55: Anais do SMSI 2016

Figura 3. Árvore de decisão gerada pela classificação de dados

Fonte: Elaborado pelos autores

Dentre os atributos analisados estão idade, sexo, função, horário de entrada e

saída na obra, faixa salarial, além de informações sobre obras, tais como regional e

percentual de execução. Com base nas regras de associação dos dados, foi possível

identificar o perfil do indivíduo que mais realiza hora extra, conforme hipótese 6. Os

resultados identificaram como principal ofensor o colaborador que exerce a função de

servente, do sexo masculino, com idade entre 18 e 25 anos, que estão instalados em

alojamentos, conforme hipótese 5, e a horas extras são realizadas após o expediente.

Gráfico 3. Associação de percentual de horas extras por regional

Gráfico 4. Associação de percentual de horas extras improdutivas e produtivas por

andamento da obra

Conforme disposto na hipótese 1, pôde-se observar que as maiores incidências

de horas extras foram classificadas como improdutivas. Como previsto na hipótese 4,

também foi possível destacar as regiões em que mais horas extras são praticadas, sendo

as mais críticas o Nordeste e São Paulo, com, respectivamente, 21,49% e 15,15% das

horas extras improdutivas, como apresentado no Gráfico 3. Com as regras de associação

estabelecidas foi possível apontar uma tendência de prática de horas extras improdutivas

na etapa final da obra, como sugerido pela hipótese 3 e destacado no Gráfico 4.

Função

Improdutivo

Percentual Executado

Alojado

Salario

Produtiva

Improdutiva

Produtiva

Improdutiva

Servente

< 80%

>= 80%

>=1389,00

Não

Sim

<1389,00

Page 56: Anais do SMSI 2016

5.1. Conhecimento Adquirido

Todos os resultados obtidos pela aplicação de técnicas de mineração de dados

foram analisados por engenheiros especialistas da empresa de construção civil. Isso

permitiu que as informações levantadas pudessem ser transformadas em conhecimento

e, posteriormente, repassadas para os tomadores de decisão para que novas estratégias

de negócio possam ser definidas.

Após a interpretação dos resultados foi possível observar que a fase inicial da

obra é a que menos incide horas extras. Esse fato pode ser considerado normal, pois

nessa etapa da obra ocorre o início das atividades de terraplanagem e fundação. Por este

motivo, não existem muitos funcionários alocados na obra. Com relação ao fato da

função de servente ter sido indicada como principal ofensor de horas extras, isso pode

ser justificado devido ao efeito dessa ser uma das funções predominantes dentro do

canteiro de obras. O servente apoia várias outras funções, como por exemplo, o

pedreiro, daí sua grande necessidade e atuação na obra.

Ainda de acordo com os engenheiros, os resultados relacionados ao perfil do

colaborador identificado como principal ofensor de horas extras podem ser justificados

pelas maiores incidências de homens presentes em obras, representando 76% por cento

da produção. A idade também é um fator interessante, pois a faixa etária predominante

no canteiro de obras, atualmente 70% dos colaboradores em obras, pertence à faixa

entre 18 e 30 anos. Outro fator que chama a atenção está ligado aos alojamentos, que

hoje estão presentes em apenas 15% das obras, mesmo assim foi identificado que os

colaboradores alojados costumam fazer mais horas extras do que os demais, conforme a

hipótese 5. Esses perfis são fatores importantes a serem destacados, pois podem

influenciar na prática de horas extras, conforme proposto na hipótese 6.

Também foi possível perceber uma forte tendência de horas extras improdutivas

nas etapas finais de construção do imóvel. Segundo engenheiros ligados ao negócio, a

razão da descoberta desse padrão pode estar relacionada a retrabalho de serviços. Isso

poderia ser evitado se houvesse um controle maior por parte da obra com os serviços

executados, dessa forma haveria menos erros, e esses serviços não precisariam ser

refeitos, diminuindo assim as horas extras que foram identificadas no fim da obra.

A criação das regras de associação e técnicas de análise de agrupamentos

permitiu identificar as principais regionais onde foram realizadas horas extras

improdutivas, assim como em que momento da execução do empreendimento isso

acontece. Segundo analistas de negócio, as regionais identificadas, como Nordeste,

detêm grande parte do total de alojamentos, totalizando 65%, o que relaciona a hipótese

4 com a hipótese 5, além de possuir uma das maiores concentrações de obras em

andamento, necessitando, por isso, de contratar mais mão de obra. A descoberta dos

perfis encontrados foi útil para apoiar a empresa no desenvolvimento de planos de ação

para reduzir as horas extras de tais colaboradores.

6. Conclusões e Trabalhos Futuros

Este trabalho envolveu a aplicação de técnicas de mineração de dados, através

do estudo de caso prático em bases de dados de uma empresa do ramo de construção

civil. O objetivo foi de encontrar padrões e relações nos dados que possibilitassem

Page 57: Anais do SMSI 2016

adquirir conhecimento sobre a prática de horas extras a fim de reduzir os custos

associados com mão-de-obra.

Três das principais técnicas de mineração de dados foram empregadas,

classificação, associação e agrupamento, para isso a ferramenta Weka foi utilizada. Com

o auxílio da classificação foi possível dividir as horas extras, classificando-as de acordo

com a produção alcançada, dessa forma foi possível descobrir que as maiores

incidências foram de hora extra improdutiva.

Com a técnica de agrupamento foi possível identificar o momento de execução

da obra em que as horas extras predominam e a função do colaborador que mais as

executam. As regras de associação permitiram identificar o perfil do colaborador que

mais tem realizado horas extras e as regionais com maior incidência dessa prática.

Em trabalhos futuros será realizada uma análise mais detalhada sobre os serviços

que são realizados na etapa final de obra, buscando uma relação com as causas de hora

extras identificadas. Também pode ser feita uma análise de retorno de investimento da

empresa obtido pelo emprego das técnicas de mineração de dados ao se reduzir os

custos com horas extras na obra.

Referências

Agrawal, R., Imielinski, T. e Swami, A. (1993) “Mining association rules between sets

of items in large databases”, Proceedings of the ACM SIGMOD International

Conference on Management of Data, vol. 9, pag. 207-216, New York, USA.

Amo, S. (2004) “Técnicas de mineração de dados”, XXIV Congresso da Sociedade

Brasileira de Computação, Jornada de Atualização em Informática, Salvador, BA.

Disponível em <http://www.deamo.prof.ufu.br>. Acesso em jun. 2016.

Amorim, T. (2006) “Conceitos, técnicas, ferramentas e aplicações de mineração de

dados para gerar conhecimento a partir de bases de dados”, Trabalho de Conclusão

de Curso, Universidade Federal de Pernambuco, Recife, PE.

Batista, A. (2009) “Análise da aplicação de algoritmos de data mining em bases de

dados de vendas de produtos”, Trabalho de Conclusão de Curso, Universidade de

Pernambuco, Recife, PE.

Braga, L., (2005) “Introdução à Mineração de Dados”, 2 ed., 212 p., Rio de Janeiro: E-

Papers Serviços Editoriais.

Cardoso, O. e Machado, R. (2008) “Gestão do conhecimento usando data mining:

estudo de caso na Universidade Federal de Lavras”, Revista de Administração

Pública, vol. 42, p. 495-528, Rio de Janeiro, RJ.

Cordeiro, C. e Machado, M. (2002) “O perfil do operário da indústria da construção

civil de feira de santana: requisitos para uma qualificação profissional”, Sitientibus,

Universidade Estadual de Feira de Santana, n. 26, p .9-29, Feira de Santana, BA.

Elmasri, R. e Navathe, S. (2011) “Sistemas de Banco de Dados”, 6 ed., 808 p., São

Paulo: Pearson Education.

Engels, R. e Theusinger, C. (1998) “Using a data metric for preprocessing advice for

data mining applications”, Proceedings of the European Conference on Artificial

Intelligence (ECAI-98), John Wiley & Sons, p. 430-434

Page 58: Anais do SMSI 2016

Fayyad, U. e Stolorz, P. (1996) “Data mining and KDD: Promise and challenges”,

Future Generation Computer Systems, Elsevier, n. 13, p. 99-115.

Goebel, M. e Gruenwald, L. (1999) “A survey of data mining and knowledge discovery

software tools”, ACM SIGKDD Conferences on Knowledge Discovery and Data

Mining, v. 1, p. 20-33.

Larose, D. e Larose, C. (2014) “Discovering knowledge in data: an introduction to data

mining”, 2. ed, 336p., New Jersey: Wiley.

Machado, L. e Becker, K. (2002) “O uso da mineração de dados na web aplicado a um

ambiente de ensino a distância”, I Workshop de Teses e Dissertações em Banco de

Dados, p. 117-121, Gramado, RS.

Mendes, L. (2011) “Data Mining – estudo de técnicas e aplicações na área bancária”,

Monografia, Faculdade de Tecnologia de São Paulo, São Paulo, SP.

Panzer, R. (2004) “Correlação existente entre horas extras e acidentes de trabalho,

queixas de dores osteomusculares, absenteísmo e produtividade em uma empresa

metalúrgica de Porto Alegre, nos anos 2002 e 2003”, Dissertação de Mestrado

Profissional, Universidade Federal do Rio Grande do Sul, Porto Alegre, RS.

Prass, F. (2012) “Uma visão geral sobre as fases do Knowledge Discovery in Databases

(KDD)”, Dissertação de Mestrado, Universidade Federal de Santa Catarina,

Florianópolis, SC.

Queiroga, R. (2005) “Uso de técnicas de data mining para detecção de fraudes em

energia elétrica”. Dissertação de Mestrado, 146f, Universidade Federal do Espírito

Santo, Vitória, ES.

Refaat, M. (2006) “Data preparation for data mining using SAS”, 1 ed., 424 p., San

Francisco: Elsevier.

Santos, M. (2002) “Extraindo regras de associação a partir de textos”, Dissertação de

mestrado, 71f, Pontifícia Universidade Católica do Paraná, Curitiba, PR.

Vasconcelos, L. e Carvalho, C. (2004) “Aplicação de regras de associação para

mineração de dados na web”, Relatório Técnico, Universidade Federal de Goiás,

Goiás, GO.

Weka (2015) “Data mining software in java”, disponível em

<http://www.cs.waikato.ac.nz/ml/weka/>, acesso em nov. 2015.

Witten, I. e Frank, E. (2005) “Data mining: practical machine learning tools and

techniques”, 2 ed., 558p., San Francisco: Elsevier.

Page 59: Anais do SMSI 2016

Relações entre a gestão da informação e do conhecimento e o gerenciamento de projetos – um estudo de caso

Abstract. The abundance of generated knowledge in the projects and the lack of mechanisms to collect, store, share and use this knowledge in decision-making was the main motivation for this work. The objective of this article is to show, through a case study, some symbiotic relationships that can exist between the management of information and knowledge and project management. The article was based on the theoretical framework of the two areas. For each activity of the project management methodology developed in a company, the knowledge management processes supported were empirically singled out and how the problems were resolved.

Resumo. A profusão de conhecimentos gerados nos projetos e a inexistência de mecanismos para coletar, armazenar, compartilhar e utilizar esses conhecimentos nas tomadas de decisões foi a principal motivação para este trabalho. O objetivo do artigo é mostrar, através de um estudo de caso, algumas relações simbióticas que podem existir entre a gestão da informação e do conhecimento e o gerenciamento de projetos. O artigo se baseou no referencial teórico das duas áreas. Para cada atividade da metodologia de gerenciamento de projetos elaborada em uma empresa, foram apontados empiricamente os processos de gestão do conhecimento suportados e como os problemas foram resolvidos.

1 Introdução Segundo Vargas (2006), a elevada demanda por produtos e serviços inovadores tem levado as empresas a um permanente estado de mudança. As mudanças nas organizações visam torna-las mais competitivas e são implantadas através de projetos e programas. Drucker (1998) afirma que o valor das empresas é criado pela produtividade e pela inovação, que são aplicações do conhecimento ao trabalho. Carvalho (2006) destaca que a economia passou a ser predominantemente de serviços, onde o conhecimento tornou-se o fator econômico mais importante, aplicado ao dia-a-dia das organizações. Para Nonaka e Takeuchi (1995), as organizações precisam de indivíduos para criar conhecimentos. Dessa forma, a organização deve proporcionar condições aos indivíduos criativos para a criação do conhecimento, dando apoio a eles. Levin (2010) argumenta que a gestão do conhecimento deve tornar-se parte integrante do trabalho diário dos profissionais de projetos. Seria necessário integrar bases de conhecimento de projetos para que os envolvidos possam combinar contribuições individuais aos projetos e alinha-las aos objetivos da organização. Porém, os projetos sempre enfrentam dificuldades de identificação, organização e distribuição do conhecimento adquirido. Mesmo quando coletado e documentado,

Page 60: Anais do SMSI 2016

ainda assim é complexa e demorada a sua recuperação e reutilização. De acordo com dados do PMI1 (Project Management Institute), mais de 13 trilhões de dólares são gastos em projetos, correspondendo a 20% do PIB global. Com efeito, as empresas têm enfrentado muitos desafios relacionados à baixa maturidade do gerenciamento de projetos que, por sua vez, tem afetado sua performance. O PMSurvey.org (2013), uma iniciativa global de pesquisa de benchmarking realizada anualmente em centenas de empresas, mostrou que 39% das empresas pesquisadas nunca ou raramente atingem seus objetivos de tempo, custo, qualidade e satisfação dos stakeholders. Em 59% dos casos, as organizações encontram-se nos níveis 1 e 2 de maturidade, considerando uma escala de 1 a 5. Metade dessas empresas não possuem uma metodologia ou processo para gerenciar projetos. A pesquisa revela o fato de que 69% das empresas não gerenciam o conhecimento. Segundo o relatório internacional, anual, referente à profissão de gerenciamento de projetos – Pulse of the Profession (PMI, 2013), existe uma correlação positiva entre as empresas de alta performance e práticas consistentes e contínuas de desenvolvimento de competências, estabelecimento de plano de carreira e, principalmente, estabelecimento de metodologias, padrões e processos maduros de gerenciamento de projetos e portfólio de projetos. Quando se fala em metodologia, padrões e processos de gerenciamento de projetos, fala-se em definir, de maneira formal e institucionalizada, ações ou atividades que devem ser conduzidas ao longo do ciclo de vida do projeto - desde a iniciação do projeto, passando pelo seu planejamento, execução e monitoramento até o seu encerramento. Todas as ações ou atividades conduzidas ao longo do ciclo de vida dos projetos devem ser úteis no sentido de utilizar informações ou conhecimento como entradas, processá-los através de técnicas e ferramentas e gerar saídas que possibilitem que outras atividades sejam executadas de maneira consistente. Desta forma, as atividades relacionadas ao gerenciamento de projetos podem ser vistas como engrenagens que recebem, processam e geram informação e conhecimento, de forma a permitir que os resultados esperados sejam atingidos. Contudo, para Choo (2006), caso as organizações não tenham uma “clara compreensão dos processos organizacionais e humanos pelos quais a informação se transforma em percepção, conhecimento e ação, elas não são capazes de perceber a importância de suas fontes e tecnologias de informação”. Assim, a consciência de que o gerenciamento de projetos pode ser estudado sob o ponto de vista dos fluxos de informação e de conhecimento, para gerar melhores produtos e conhecimentos, pode trazer ganhos significativos para as organizações. De forma a colaborar para fazer convergir as abordagens de gestão do conhecimento e gerenciamento de projetos, este trabalho levanta a seguinte questão: seria possível integrar conceitos, técnicas e instrumentos de gestão da informação e do conhecimento na atividade de gerenciamento de projetos? Para tal apresenta-se o caso prático de uma empresa da área de tecnologia da informação, que se organizou para definir uma metodologia padrão que dá suporte à gestão da informação e do conhecimento e ao gerenciamento dos projetos referentes ao seu negócio principal. São

1www.pmi.org

Page 61: Anais do SMSI 2016

abordados a estrutura da empresa e o ferramental desenvolvido para suportar seus projetos.

2 Procedimentos metodológicos Este trabalho é um estudo de caso. Um método de investigação útil quando procura-se compreender, explorar ou descrever fenômenos complexos, que envolvem simultaneamente fatores diversos (YIN, 2010). A técnica usada foi de entrevista não-estruturada. Segundo Lakattos e Marconi (2003), nesse tipo de entrevista o entrevistador tem liberdade para desenvolver cada situação em qualquer direção que considere adequada, podendo explorar mais amplamente uma questão. As perguntas elaboradas aos entrevistados são abertas e podem ser respondidas dentro de uma conversação informal. Porém, apesar de não-estruturada, a entrevista pode ser considerada como sendo focalizada. De acordo com os autores, na entrevista focalizada existe um roteiro de tópicos relativos ao problema que se vai estudar. Para realizar o estudo de caso foram utilizadas 72 horas divididas em 18 encontros. Foram utilizadas múltiplas fontes de dados por permitir assegurar as diferentes perspectivas dos participantes no estudo. Segundo Yin (2010), a utilização de múltiplas fontes de dados na construção de um estudo de caso permite considerar um conjunto mais diversificado de tópicos de análise e, ao mesmo tempo, corroborar os fatos.

3 Gerenciamento de projetos Um mercado leva as organizações à implementarem mudanças. Cada mudança pode ser vista como um empreendimento ou projeto. Um projeto é um esforço temporário que tem por finalidade produzir um produto ou serviço. Projetos são meios para se atingir o plano estratégico. Geralmente, a missão da organização, ou sua visão de futuro, é desmembrada em opções estratégicas que se dividem em objetivos prioritários. Estes últimos são alcançados pelo planejamento e execução de projetos. Para o PMBoK® - Guide to the Project Management Body of Knowledge (PMI, 2012):

Um projeto é um esforço temporário empreendido para criar um produto ou serviço único. Temporário significa que todo projeto tem um início e um término bem definidos. Único significa que o produto ou serviço distingue-se substancialmente de todos os produtos e serviços existentes (PMI, 2012, p. 3).

Temporariedade e individualidade do produto ou serviço a ser desenvolvido pelo projeto são características principais. Projetos são sempre conduzidos por pessoas e possuem um objetivo claro e bem definido a ser perseguido. Todos os projetos possuem restrições e parâmetros que devem ser atendidos como, por exemplo, valores determinados de prazos e custos a serem atendidos. Patah e Carvalho (2012, p. 181) citam Ibert (2004) ao inserir elementos de gestão do conhecimento na definição de projetos:

Projetos podem ser definidos como organizações “esquecíveis”, que surgem em meio à rotina, sendo compostas por indivíduos que dificilmente irão trabalhar juntos novamente. Uma estratégia para codificar as capacidades da organização em gestão de projetos, deve ser definida no nível da empresa para repetir abordagens de sucesso em próximos projetos. Utilizando-se um processo bem estruturado e implementado, estas capacidades podem ser armazenadas e transferidas ao longo do tempo, do espaço e do contexto.

Page 62: Anais do SMSI 2016

Em outras palavras, através de processos bem estruturados, deve-se armazenar o conhecimento gerado durante a execução e transferir esse conhecimento para que projetos futuros se utilizem dele. O gerenciamento de projetos consiste de um conjunto de esforços implementados para cumprir e entregar o escopo, dentro dos prazos e custos estabelecidos, gerando resultado num grau de qualidade que atende às expectativas dos stakeholders e contribui para a satisfação dos clientes, considerando que os riscos sejam gerenciáveis (KERZNER, 2001). Nesse contexto, as principais restrições que devem ser atendidas e geralmente usadas como parâmetros para definir o sucesso de um projeto são: escopo, prazo, custo, qualidade, riscos e satisfação de clientes. Todo projeto possui um ciclo de vida, que consiste no conjunto de fases do projeto, geralmente em ordem sequencial. De acordo com PMI (2012, p. 38),

o ciclo de vida do projeto define o início e o fim de um projeto. Uma fase de um projeto pode ser definida como uma etapa a ser executada. Cada final de fase é caracterizada pela entrega ou finalização de produtos, trabalhos ou resultados, que devem ser tangíveis e de fácil identificação.

Segundo Patah e Carvalho (2012), para atingir seus objetivos de entrega do escopo com qualidade, dentro dos custos e prazos planejados, uma sistemática relacionada a gerenciamento de projetos deve ser seguida. Uma sistemática de projetos pode ser composta por métodos, pacotes de ferramentas e modelos de projetos. Desse modo, a gestão de projetos pode ser vista como a aplicação sequencial de processos estruturados, repetidos e contínuos que, quando utilizados por uma organização de forma gradual e segura para seus negócios, permite dar passos rumo à institucionalização de práticas padronizadas. O PMBOK® (PMI, 2012) estabelece uma estrutura, um guia de conhecimentos que cobre todos os processos e as áreas de conhecimento relacionadas ao gerenciamento de projetos. É um padrão reconhecido pela ANSI (American National Standard Institute), sendo um guia genérico de melhores práticas. De acordo com o PMBOK, na iniciação do projeto o termo de abertura é estabelecido e os stakeholders são identificados. O termo de abertura é a formalização do início do projeto. A identificação dos stakeholders é importante para determinar todos os envolvidos no projeto. Eles possuem informações sobre os requisitos e restrições que o projeto tem que atender. Durante o planejamento do projeto, planos detalhados são construídos para nortear sua execução. Nesse momento, as necessidades a cerca do produto do projeto, os requisitos, são coletados e o escopo do projeto é definido. A partir do escopo, o cronograma com as atividades a serem realizadas no projeto é estabelecido, juntamente com os recursos humanos e materiais necessários a sua execução. Durante o planejamento, a qualidade dos resultados do projeto, bem como a qualidade do gerenciamento é estabelecida, e os requisitos de qualidade influenciam o cronograma, a escolha dos recursos necessários bem como os custos do projeto. A quantidade e formas de comunicação necessárias ao projeto, bem como a quantidade de stakeholders e suas necessidades também são planejadas nesse momento. Os riscos – incertezas - também são identificados e ações preventivas ou de contingência são planejadas, impactando novamente no cronograma, recursos e custos. Caso o projeto não tenha recursos internos para ser conduzido, as aquisições necessárias também são planejadas. O planejamento do projeto é interativo e integrado, sendo que

Page 63: Anais do SMSI 2016

modificações no planejamento de uma área de conhecimento podem impactar o planejamento de outras áreas. Durante a execução do projeto, o gerente é responsável por mobilizar, integrar e desenvolver a equipe, e comunicar efetivamente todos os aspectos do projeto. Enquanto o projeto é executado, o monitoramento é realizado para comparar o que foi planejado com o que está sendo realizado. As causas de desvios são identificadas, bem como ações corretivas e preventivas. As ações de monitoramento podem servir de entrada para novos planejamentos e o ciclo planejar, executar e monitorar é repetido durante todo o ciclo de vida do projeto. No encerramento do projeto, as lições aprendidas são formalizadas e discutidas, os recursos do projeto são liberados, os arquivos e toda documentação técnica é arquivada e indexada, a entrega do produto final é feita ao cliente de forma a obter aceitação formal. BoH (2008) salienta que na busca pela competitividade, o gerenciamento de projetos é apresentado como uma forma efetiva de gestão dos recursos organizacionais, minimizando custos, riscos e aumentando as chances de sucesso. No entanto, existem lacunas na execução dos projetos muitas vezes associadas à repetição de problemas, resultando em duplicação de esforços e reinvenção de soluções. O desafio é combinar os problemas encontrados em um novo projeto com as lições aprendidas de projetos anteriores, que devem ser armazenadas em repositórios para uso futuro. A importância da gestão do conhecimento gerado pelos projetos não se dá somente em função do seu uso no futuro, como aponta BoH (2008). O próprio processo de gerenciamento de projetos impõe rituais próprios desde sua iniciação até o encerramento, sendo que as atividades executadas ao longo do seu ciclo de vida sempre se utilizam de informações e conhecimentos gerados por atividades realizadas anteriormente, de forma que possam ser utilizadas e transformadas em saídas que consistem de novos conhecimentos e informações a serem usados pelas próximas atividades. Dessa forma, o gerenciamento de projetos consiste da execução de atividades que promovem um fluxo informacional e de conhecimento através do ciclo de vida do projeto. É importante destacar que o PMBOK não é a única referência importante de gerenciamento de projetos, sendo também destacados o Prince22 e a ISO 215003.

4. Estudo de caso

4.1. A empresa A empresa objeto do estudo, denominada de EMPRESA, é a representante mineira de uma grande empresa brasileira desenvolvedora de sistemas para gestão, com 80 funcionários e aproximadamente 300 clientes ativos, atuando em Minas Gerais. Dentre os principais serviços oferecidos pela EMPRESA está a implantação de sistemas integrados de gestão empresarial, parametrização dos sistemas para atender às

2http://www.prince-officialsite.com/3http://www.abntcatalogo.com.br/norma.aspx?ID=092033

Page 64: Anais do SMSI 2016

necessidades específicas dos clientes, bem como desenvolvimentos customizados para clientes específicos por meio da equipe de desenvolvimento interna. A EMPRESA está organizada em duas diretorias: diretoria comercial/serviços e diretoria administrativa. Dentro da diretoria comercial/serviços, existem duas gerências: serviços e comercial. A gerência de serviços é o foco principal deste trabalho. Esta gerência está organizada conforme a Figura 2. Cada novo projeto conta com pelo menos um coordenador e um consultor externo.

Figura 2: Estrutura da gerência de serviços da EMPRESA. Fonte: os autores.

4.2. Motivação Os pontos que motivaram a implantação de uma metodologia de suporte à gestão da informação e do conhecimento e ao gerenciamento dos projetos na EMPRESA, estão:

1. Os projetos eram vendidos com base no esforço em horas, o escopo do serviço a ser prestado muitas vezes era definido informalmente entre a área comercial e o cliente, e não era confirmada nem repassada à gerência de serviços.

2. O esforço e o custo de execução das tarefas e dos produtos não eram estimados com base em dados históricos ou referências técnicas. Não havia um levantamento formalizado do escopo. Em média, trinta por cento do custo total dos projetos era arcado pela EMPRESA, reduzindo a rentabilidade dos mesmos.

3. Ausência de um plano de cada projeto, com formalização do escopo, prazos, custos, riscos, recursos, dados e comunicações, usado para reforçar o comprometimento dos envolvidos e nortear o gerenciamento do projeto.

4. Não existia comunicação clara sobre os papeis e responsabilidades de cada área. Várias pessoas exerciam atividades que não correspondiam às suas funções nos projetos.

5. Ausência de mecanismo formal de acompanhamento de projetos. 6. Ausência de mecanismo de controle de mudanças de um projeto em andamento.

Não era feita avaliação de impacto das mudanças em relação ao aumento de prazo e custo dos projetos.

Page 65: Anais do SMSI 2016

7. Ausência de um mecanismo formalizado de registros de problemas e questões a serem resolvidas nos projetos, bem como seu acompanhamento até resolução.

8. Ausência de critérios objetivos de aceite do projeto. 9. Ausência de um registro de lições aprendidas nos projetos, cujas informações

possam ser aproveitadas e usadas em planejamentos futuros. 10. As informações presentes em documentos relevantes do projeto não eram

planejadas quanto à forma de armazenamento, acesso, privacidade e segurança. 11. Ausência de ferramentas e documentos usados de forma padronizada por todos

os envolvidos nos projetos. 12. Existia um problema generalizado relacionado à comunicação de informações

relevantes do projeto.

4.3. Metodologia de gerenciamento de projetos A metodologia de gerenciamento de projetos foi construída com base nas necessidades da EMPRESA em relação às informações e conhecimento para gerenciar seus projetos, bem como na adaptação dos processos de gerenciamento de projetos presentes no PMBOK. De acordo com a metodologia, cada projeto possui um ciclo de vida composto de 4 fases, cujos principais objetivos são descritos abaixo:

• Concepção: trata da passagem de bastão entre a área comercial e de serviços, bem como da abertura do projeto junto ao cliente.

• Planejamento: detalhamento do escopo do projeto, confecção do plano do projeto e sua aprovação junto ao cliente.

• Execução: implantação do projeto conforme planejamento, bem como monitoramento e controle do andamento das atividades e entregas do projeto.

• Encerramento: quando ocorre a entrega do produto e a identificação das lições aprendidas.

Os Quadros 1 a 5 exibem as atividades principais em cada fase da metodologia. Foram escolhidas apenas as atividades mais pertinentes à gestão da informação e do conhecimento nos projetos. O responsável pela execução de cada atividade é indicado abaixo do nome de cada atividade. Fase: Concepção Atividade Propósito Informação gerada

Realizar reunião interna de passagem de bastão. Coordenador

Obter da área comercial todas as informações a respeito do cliente e da venda por meio de um check-list.

Check-list com todas as informações particularidades da venda e do cliente.

Realizar reunião externa de passagem de bastão. Coordenador

Nivelar expectativas com o cliente em relação aos acordos feitos com a área comercial durante a venda, usando o check-list.

Check-list atualizado com todas as informações sobre o que foi vendido.

Elaborar o Termo de Abertura e validar junto ao cliente. Coordenador

Formalizar, em documento assinado e comprometido pelo cliente e pela EMPRESA, informações relacionadas ao projeto e envolvidos.

Termo de abertura do projeto validado através de e-mail pelo cliente e pela EMPRESA.

Realizar reunião de lançamento do projeto. Coordenador

Reunir todos os envolvidos por parte do cliente e da EMPRESA e fazer as apresentações da equipe e do projeto a todos.

Termo de abertura do projeto assinado pelo cliente e pela EMPRESA.

Quadro 1: atividades da fase de concepção. Fonte: os autores.

Page 66: Anais do SMSI 2016

Fase: Planejamento Atividade Propósito Informação gerada

Levantar e registrar de forma detalhada o escopo e estimativa de horas. Consultor

Reunir com os envolvidos do cliente e obter informações detalhadas sobre como funciona o processo. Gerar um documento com a descrição desse processo. Elaborar a lista de atividades necessárias para parametrizar o sistema, com as estimativas de esforço.

Descrição do processo do cliente.

Lista de atividades para parametrizar o sistema, com as estimativas.

Validar internamente o escopo e estimativa de horas. Coordenador

Caso haja divergências entre o levantamento e a proposta comercial, uma reunião é conduzida com a presença do consultor, o coordenador, o escritório de projetos e o representante comercial.

Ata de reunião com os assuntos abordados e as decisões tomadas.

Validar o escopo e estimativa de horas junto ao cliente. Coordenador

Reunir com o cliente para apresentar o escopo detalhado após o levantamento e a estimativa de horas refinada.

Ata de reunião com os assuntos abordados e as decisões tomadas.

Elaborar o plano do projeto. Coordenador

Criar o documento com escopo, cronograma, custos, equipe, riscos, stakeholders e as comunicações necessárias no projeto.

Plano do projeto, que será a base da execução do projeto.

Validar internamente o plano do projeto. Coordenador

Apresentar o plano do projeto a todas as pessoas da EMPRESA envolvidas no projeto, discutir e obter o comprometimento de todos com o plano.

Plano do projeto atualizado e ata de reunião com os assuntos abordados e as decisões tomadas.

Validar o plano do projeto junto ao cliente. Coordenador

Apresentar o plano do projeto a todas as pessoas do cliente envolvidas no projeto e obter o comprometimento de todos com o plano.

Plano do projeto atualizado e ata de reunião com os assuntos abordados e as decisões tomadas.

Quadro 2: atividades da fase de planejamento. Fonte: os autores.

Fase: Execução Atividade Propósito Informação gerada

Iniciar execução junto ao consultor. Coordenador

Formalizar o início do projeto através de uma breve reunião ou e-mail junto ao consultor, revisando o termo de abertura e o plano do projeto já apresentado.

Ata ou e-mail com a formalização da comunicação do início do projeto para os envolvidos.

Gerar a agenda semanal do consultor. Coordenador

Com base no cronograma, uma agenda das atividades da semana do consultor é elaborada e enviada a ele via sistema. Ele utiliza as atividades padronizadas desta agenda para registrar o esforço e prazo gastos em cada atividade.

Informações das atividades semanais a serem executadas pelo consultor.

Executar e registrar esforço e prazo de conclusão das atividades. Consultor

Realizar as atividades que constam no cronograma e lançar num sistema de apoio o esforço e prazo gastos em cada atividade. Esse lançamento é a base para a consolidação do que foi efetivamente realizado no projeto e deve ser cobrado do cliente.

Atividades realizadas registradas, bem como esforço e prazo associados.

Validar atividades semanais e atualizar o cronograma. Coordenador

Avaliar as atividades lançadas pelo consultor no sistema de apoio e atualizar o cronograma com essas atividades.

Cronograma atualizado com as atividades realizadas e a nova previsão de término do projeto.

Elaborar e discutir relatório semanal de desempenho. Coordenador

Criar o relatório de acompanhamento detalhado do projeto, discutir com o consultor sobre motivos de desvios.

Relatório de desempenho com o detalhamento do ocorrido semanalmente no projeto.

Elaborar e discutir relatório de marcos. Coordenador

Criar o relatório com comparação e variação entre planejado e realizado em relação a esforço e custo, bem como estimativa da data de término do projeto, no marco em questão. Apresentar o relatório ao escritório de projetos e à alta gestão da EMPRESA.

Relatório de Marcos e avaliação da viabilidade de continuar o projeto.

Elaborar e discutir relatório de status. Coordenador

Criar o relatório com as entregas parciais de cada marco já atingido no projeto. Verificar se as entregas realizadas correspondem ao que foi acordado com o cliente no plano do projeto e apresentar ao cliente.

Relatório de Status com as entregas efetuadas nos marcos do projeto.

Gerenciar mudanças no projeto. Coordenador

Receber as solicitações de mudança no projeto, registrar, avaliar e reportar os impactos. Promover a aceitação ou recusa da mudança em função dos impactos que ela gerar para o projeto.

Documento de solicitação de mudança no projeto com aceitação ou reprovação da mesma.

Quadro 3: atividades da fase de execução. Fonte: os autores.

Fase: Encerramento Atividade Propósito Informação gerada

Page 67: Anais do SMSI 2016

Realizar reunião interna de passagem de bastão para o atendimento interno. Coordenador

Informar à equipe de atendimento (help desk) sobre o escopo do projeto vendido, as pessoas do cliente envolvidas e suas responsabilidades na manutenção e garantia do serviço ao cliente.

Ata de reunião com escopo do projeto vendido, as pessoas do cliente envolvidas e responsabilidades do atendimento interno na manutenção e garantia do serviço ao cliente.

Elaborar, apresentar e colher assinatura do termo de encerramento do projeto na reunião externa de encerramento do projeto. Coordenador

Encerrar o projeto formalmente junto ao cliente através da verificação e formalização de todas as entregas.

Termo de encerramento assinado.

Elaborar relatório final de desempenho do projeto. Coordenador

Efetuar o registro formal do desempenho do projeto e atualizar informações históricas sobre esforço e prazos efetivamente gastos no projeto.

Relatório final de desempenho do projeto.

Reunião de encerramento e discussão das lições aprendidas. Coordenador

Compartilhar, junto ao escritório de projetos e consultor, informações sobre o desenvolvimento do projeto, os principais problemas enfrentados, os erros cometidos, as lições aprendidas, os pontos de acerto.

Relatório final de desempenho do projeto atualizado.

Quadro 4: atividades da fase de encerramento. Fonte: os autores.

5. A gestão do conhecimento nos projetos A metodologia da EMPRESA foi elaborada considerando a obtenção, registro, compartilhamento e aplicação do conhecimento e informação, abordados por Jamil (2005). O autor propõe um processo baseado nas seguintes atividades: 1 - Obtenção da informação e do conhecimento: a importância dessa atividade está na carência da informação de origem diversa, e sua obtenção irá ‘”propor soluções para problemas enfrentados...” (JAMIL, 2005, p. 53) 2 - Registro da informação e do conhecimento: tem como função o armazenamento destes acervos para aplicação posterior em ações empresariais diversas. 3 - Valorização da informação e do conhecimento: tem como função avaliar como os agentes organizacionais podem ser premiados e reconhecidos por práticas relacionadas à gestão da informação e do conhecimento. 4 - Aplicação estratégica de informação e do conhecimento: essa atividade propõe estabelecer uma conexão entre a gestão de informação e do conhecimento e processos gerenciais estratégicos, dando foco na aplicação dos acervos em decisões estratégicas. 5 – Compartilhamento da informação e do conhecimento: essa atividade é responsável pela disponibilidade de conteúdos ligados às informações e ao conhecimento em todo o ambiente das organizações que deles necessitem. 6 - Aplicação de recursos de tecnologia da informação: Jamil (2005) aponta que tais recursos não são nem o foco exclusivo do processo, nem podem ser considerados elementos de implantação isolada. O Quadro 5 mostra, para cada uma das atividades da metodologia de gerenciamento de projetos da EMPRESA, os principais processos de gestão da informação e do conhecimento suportados pela atividade. Além disso, o Quadro 5 também mostra, dentre os problemas identificados na EMPRESA antes da adoção da metodologia, descritos na Seção 4.2 deste artigo, aqueles que foram mitigados.

Page 68: Anais do SMSI 2016

Atividade da metodologia da EMPRESA Principais processos de gestão da informação e do conhecimento suportados pela atividade

Principais problemas resolvidos

Realizar reunião interna de passagem de bastão Obtenção, registro, compartilhamento 1, 12

Realizar reunião externa de passagem de bastão Compartilhamento 1, 12

Elaborar o Termo de Abertura e validar junto ao cliente Registro 4, 12

Realizar reunião de lançamento do projeto Compartilhamento 4, 12

Detalhar o escopo e estimativa de horas Obtenção, registro 1, 2

Validar internamente o escopo e estimativa de horas Compartilhamento, aplicação estratégica 2, 12

Validar o escopo e estimativa de horas junto ao cliente Compartilhamento 2, 12

Elaborar o plano do projeto Registro 3, 4

Validar internamente o plano do projeto Compartilhamento 3, 4, 12

Validar o plano do projeto junto ao cliente Compartilhamento 3, 4, 12

Iniciar execução junto ao consultor Compartilhamento 12

Gerar a agenda semanal do consultor Compartilhamento 12

Executar e registrar esforço e prazo de conclusão das atividades

Obtenção, registro 5

Validar atividades semanais e atualizar o cronograma Registro 5

Elaborar e discutir relatório semanal de desempenho Registro, compartilhamento, aplicação tática 5, 7, 12

Elaborar e discutir relatório de marcos Registro, compartilhamento, aplicação estratégica 5, 7, 12

Elaborar e discutir relatório de status Registro, compartilhamento, aplicação estratégica 5, 7, 12

Gerenciar mudanças no projeto Obtenção, registro 6

Realizar reunião de passagem para o atendimento interno Compartilhamento 12

Providenciar Termo de encerramento do projeto na reunião externa de encerramento do projeto.

Registro, compartilhamento 8, 12

Elaborar relatório final de desempenho do projeto Registro, compartilhamento 9, 12

Reunião de encerramento e lições aprendidas Registro, compartilhamento 9, 12

Quadro 5: Processos de gestão do conhecimento suportados pelas atividades. Fonte: os autores.

A EMPRESA ainda não possui mecanismos de valorização da informação e do conhecimento. Recursos de tecnologia da informação foram usados para agilizar e automatizar principalmente os processos de obtenção e registro. Para facilitar a obtenção e registro do conhecimento, a empresa criou uma série de modelos de documentos. Toda documentação relevante do projeto passou a ser criada, registrada, identificada, armazenada e distribuída através de um mecanismo padrão, documentado em um plano de informações, incluindo questões relacionadas a permissões de acesso e privacidade. Isso propiciou a organização de todo conhecimento explícito dos projetos, facilitando a busca de informações históricas em projetos futuros. Para que a metodologia pudesse ser assimilada e utilizada por todos os envolvidos internamente na EMPRESA, um treinamento formal foi ministrado. Nos primeiros projetos, líderes do escritório de projetos acompanharam os coordenadores de forma acompanhar as atividades e compartilhar experiências, o que incentivou a internalização do conhecimento por meio do mecanismo de aprender fazendo.

Page 69: Anais do SMSI 2016

Das vinte e duas atividades presentes na metodologia de gerenciamento de projetos da EMPRESA, dezesseis estão relacionadas com o diálogo e reflexão coletiva através das reuniões, validações presenciais e discussões de relatórios com informações dos projetos para tomada de decisão. Isso demonstra grande foco da metodologia na socialização, o compartilhamento do conhecimento tácito.

6. Resultados e Conclusões Neste estudo de caso evidenciou-se a integração de conceitos, técnicas e instrumentos de gestão da informação e do conhecimento na atividade de gerenciamento de projetos. Destaca-se que a EMPRESA não conhecia formalmente a gestão da informação e do conhecimento, mas ainda assim estruturou-se de forma a tratar desses aspectos. Como benefícios diretos alcançados pela EMPRESA, pode-se constatar que houve compartilhamento de conhecimento explícito e tácito entre os projetos, que passaram a utilizar experiências vividas nos projetos anteriores, por meio de uma nova cultura desenvolvida pelos envolvidos, bem como por meio de documentos gerados ao longo dos projetos. A metodologia de gerenciamento de projetos elaborada, com amplo incentivo ao seu uso, criou uma estrutura para assegurar o comportamento dos envolvidos nos projetos. Isso favoreceu o sentimento de segurança entre as pessoas para compartilhar seu conhecimento. Por meio do Quadro 5, foi mostrado que o problema relacionado à comunicação de informações relevantes do projeto foi fortemente considerado. Sob o aspecto da obtenção, registro e compartilhamento do conhecimento explícito, a melhoria do acervo de documentos e relatórios que registram o desenvolvimento dos projetos tornou-se importante ativo. Com isso, a EMPRESA passou a tomar conhecimento dos fatos que originavam as decisões tomadas, sendo possível repetir as situações dos projetos passados em ocasiões futuras, o que permitiu administrar o conhecimento desenvolvido ao longo destas iniciativas. Esse conhecimento era utilizado em outros projetos, principalmente no conjunto de ferramentas desenvolvidas e a própria metodologia para condução das mesmas, em constante melhoria. De fato, foi possível observar que os processos de obtenção, registro e compartilhamento de conhecimentos, bem como aplicação tática e estratégica dos mesmos, tanto no nível tácito quanto no plano explícito fizeram grande diferença na condução dos projetos desenvolvidos pela EMPRESA. A metodologia e as ferramentas desenvolvidas para o acompanhamento e a condução dos projetos foram orientadas à gestão do conhecimento organizacional. Pôde-se verificar, desta forma, que no estudo de caso considerado, o objetivo geral proposto foi atingido, ou seja, verificar a integração de gestão da informação e do conhecimento com gerenciamento de projetos.

7. Referências BOH, Wai Fong. (2008). Reuse of knowledge assets from repositories: A mixed

methods study. Information & Management, vol. 45, p. 365–375. CARVALHO, Rodrigo Baroni. Intranets, portais corporativos e gestão do

conhecimento: análise das experiências de organizações brasileiras e portuguesas. Tese. Programa de Pós-Graduação em Ciência da Informação. Universidade Federal de Minas Gerais. 2006.

Page 70: Anais do SMSI 2016

CHOO, C. W. The management of learning: organizations as knowledge-creating enterprises. In: The knowing organization: how organizations use information to construct meaning, create knowledge and make decisions. New York: Oxford University Press, cap. 4, p. 127-197, 2006.

CHOU, S. Knowledge creation: absorptive capacity, organizational mechanisms, and knowledge capabilities. Journal of Information Science, v. 31, n. 6, p. 453-465, 2005.

DRUCKER, Peter. Sociedade pós-capitalista. 7. ed. São Paulo: Editora Pioneira, 1998. JAMIL, George Leal. Gestão de informação e do conhecimento em empresas

brasileiras: estudo de múltiplos casos. Tese. Programa de Pós-Graduação em Ciência da Informação. Universidade Federal de Minas Gerais. 2005.

KERZNER, Harold. Gestão de projetos as melhores práticas. 2ª Edição. Porto Alegre: Bookman, 2005.

LAKATTOS, Eva Maria; MARCONI, Marina de Andrade. Fundamentos de metodologia científica. 5ª Edição. São Paulo: Atlas, 2003.

LEVIN, Ginger. Knowledge management success equals project management success. PMI Global Congress 11. Washington D.C, 2010.

NONAKA, I.; TAKEUCHI, H. Theory of knowledge creation. In: The knowledge-creating company: how Japanese companies create the dynamics of innovation. New York: Oxford University Press, 1995.

PATAH, Leando Alves; CARVALHO, Marly Monteiro. Métodos de gestão de projetos e sucesso dos projetos: um estudo quantitativo do relacionamento entre estes conceitos. Revista de Gestão e Projetos - GeP, São Paulo, v. 3, n. 2, p 178-206, mai./ago. 2012.

PMSURVEY.ORG. The international Project Management Database of Applied Practices. 2013 Edition. Disponível em: http://pmsurvey.org/. Acesso em 01 out 2013.

PROJECT MANAGEMENT INSTITUTE. PMI’s Pulse of The ProfessionTM. The High Cost of Low Performance. 2013 Edition. Disponível em: http://www.pmi.org/~/media/PDF/Business-Solutions/PMI-Pulse%20Report-2013Mar4.ashx. Acesso em: 01 out 2013.

PROJECT MANAGEMENT INSTITUTE. Um Guia do Conjunto de Conhecimentos em Gerenciamento de Projetos (Guia PMBOK). Quinta Edição. Newton Square, PA, EUA: 2012.

PWC - PRICE WATERHOUSE COOPER. 16th Annual Global CEO Survey. 2013 Edition. Disponível em: http://www.pwc.com/gx/en/ceo-survey/2013/assets/pwc-16th-global-ceo-survey_jan-2013.pdf. Acesso em: 01 out 2013.

VARGAS, Ricardo Viana. Gerenciamento de projetos: estabelecendo diferenciais competitivos. 6. ed. Rio de Janeiro: Brasport, 2006. 250 p.

YIN, Robert K. Estudo de Caso - Planejamento e Métodos. - 4ª Edição. São Paulo: Bookman, 2010.

Page 71: Anais do SMSI 2016

Folksonomia: sugestão de Tags para notícias na Web

Úrsula Rosa Monteiro de Castro1, Manoel Palhares Moreira1

1Pontifícia Universidade Católica de Minas Gerais [email protected], [email protected]

Abstract. With the popularization of the Internet and Web 2.0 the number of information available on the network increased. Techniques are necessary to describe the content of the information in order to facilitate future retrieval. The use of tags is the most popular technique to describe the content of the information. Anyway, the tags are selected manually by the user. This paper proposes the use of a mechanism for suggesting tags to a database of the news from the website Estado de Minas. Both tags suggested by the mechanism as those used by the site will be analyzed. Resumo. Com a popularização da internet e com a Web 2.0 o número de informações disponíveis na rede aumentou. Técnicas são necessárias para descrever o conteúdo das informações visando posteriormente a recuperação da informação. A indicação de tags pelo usuário passou a ser conhecida como Folksonomia e essa prática tornou-se a mais popular para descrever o conteúdo das informações. No entanto, as tags são selecionadas manualmente pelo usuário. Esse trabalho propõe o uso de um mecanismo para sugestão de tags a um banco de dados de notícias do site Estado de Minas. Tanto as tags sugeridas pelo mecanismo quanto as utilizadas pelo site foram analisadas comparativamente.

1. Introdução

Todos os dias, de forma natural, as pessoas recebem e dão recomendações umas as outras por meio de conversas, notícias, e-mails, etc. Com a popularização da internet e a Web 2.0, também conhecida como Web Social e a qual permitiu que o usuário crie e altere conteúdos facilmente, o espaço de interação dos usuários aumentou e o número de informações disponíveis também. Quanto maior o número de informações maior é a dificuldade para gerenciá-las, com isso surge a Folksonomia para ajudar nesse processo, categorizando os conteúdos disponíveis, consolidando seu papel na indexação colaborativa (etiquetagem) de recursos informacionais.

A Folksonomia (do inglês folks (pessoas) + taxonomia) é um tipo de taxonomia ou classificação, realizada por pessoas comuns, que não são especialistas. Essa taxonomia não é tão rígida quanto às outras taxonomias, permitindo às pessoas criarem novas tags (etiquetas), além de não possuir uma estrutura de relações entre elas. A principal vantagem de se utilizar tags é que a carga intelectual é minimizada, uma vez que o usuário seleciona palavras-chave e não precisa escolher indexadores entre classes pré-existentes (XU et al 2006).

Da crescente utilização da web para a visualização de notícias, surge a necessidade de classificação para facilitar sua recuperação. Diversos sites de notícias como CNN (www.cnn.com) e NY Times (www.nytimes.com) apresentam a organização de suas

Page 72: Anais do SMSI 2016

informações por meio de tópicos ou categorias. Esse processo, no entanto, não se aproveita de todas as vantagens de uma descrição particularizada do conteúdo da notícia, sendo realizado de forma manual o que necessita tempo e recursos desnecessários dos editores.

Embora alguns trabalhos busquem identificar técnicas para a sugestão automática de tags (SOOD e HAMMOMD, 2007), estes são focados para blogs ou artigos e não apresentam uma análise relacionada a textos jornalísticos. Assim, o problema da nomeação de tags para sites jornalísticos, ou de notícias, permanece.

O objetivo principal desse trabalho é adaptar uma heurística proposta em um trabalho anterior (Silva 2010), no qual a heurística foi utilizada para sugerir tags a textos de um periódico científico eletrônico e utilizá-la na sugestão de tags a um banco de dados de notícias do site Estado de Minas (www.em.com.br). Considerando que a heurística proposta analisa os textos de acordo com a formatação pré-definida, a adaptação foi necessária devido a diferença da formatação entre textos de um periódico científico e de textos de noticias web. O site Estado de Minas já utiliza o processo de tags, então, com os resultados obtidos com a utilização da heurística será feita uma análise para concluir se as tags obtidas pela utilização da heurística é realmente adequada para a notícia.

Como objetivos específicos podem ser citados a montagem do algoritmo original de Silva (2010) e a montagem da base de testes a partir do site Estado de Minas. O site Estado de Minas foi escolhido pela facilidade de se obter notícias desse site e por ser um site bem diversificado.

A categorização da informação é muito importante para a recuperação da informação. Se utilizar tags de pouca qualidade na categorização da informação, os resultados da recuperação podem ser prejudicados. A proposta da utilização da heurística é aumentar a qualidade das tags a serem utilizadas, evitando uso de tags nada condizentes com o conteúdo, tags com variações linguísticas, utilização de uma mesma tag para descrever diferente conteúdos e utilizar diferentes tags para descrever um único conteúdo.

A contribuição deste trabalho encontra-se no fato da sugestão de tags vir através de outra parte de um texto, os títulos, inclusive o trabalho que serviu de base a esta nova proposta. Títulos representam parte significativa em textos e deles espera-se ser possível surgir tags que o representem corretamente. Para a área de Sistemas de Informação, constitui uma contribuição a mais na perspectiva da recuperação de informação via tags informadas por usuários ou automaticamente.

2. Revisão da Literatura

Nesta seção encontram-se todos os conceitos necessários para a compreensão deste trabalho, separados em subseções para facilitar o entendimento. Além disso, foram levantados trabalhos relacionados.

Page 73: Anais do SMSI 2016

2.1. Referencial Teórico

2.1.1 Folksonomia

A palavra Folksonomia provém do vocábulo taxonomia. Os sistemas de representação, organização e recuperação de informações funcionam por meio da taxonomia, organizando as informações em classes de um vocabulário (SANTOS, 2013).

A Folksonomia é o produto do processo de etiquetagem (classificação social) de recursos da web (BRANDT e MEDEIRO, 2010). Em outras palavras, uma classificação popular de documentos que se origina de ações de representação da informação realizadas pelos próprios usuários da informação (ASSIS e MOURA, 2013). Esse termo surgiu com a fase da internet denominada web 2.0, embasada em preceitos de colaboração, liberdade e compartilhamento, onde a prática de atribuição de tags a conteúdos informacionais, despertou o interesse das pessoas (BRANDT, MEDEIRO, 2010).

Thomas Vander Wal define o termo Folksonomia como: [...] o resultado da atribuição livre e pessoal de etiquetas a informações ou objetos, visando à sua recuperação. A atribuição de etiquetas é feita num ambiente social. A etiquetagem é feita pelo próprio consumidor da informação (WAL, 2007).

O prefixo ‘folk’ é usado então por Wal para substituir o prefixo ‘tax’ de taxonomia, resultando então em folksonomia. Esse termo é coerente, considerando que elimina o prefixo ‘tax’, que significa regra, da taxonomia e que a folksonomia é uma atribuição livre e pessoal de etiquetas, sem regras impostas.

2.1.2 Sugestão de Tags Devido ao problema de se obter a tag ideal utilizando folksonomia, estão sendo realizados estudos de técnicas e estratégias de sugestão de tag com o objetivo de melhorar o processo de categorização e para obter melhores resultados no momento da recuperação da informação. Mecanismos de recomendação de tag ajudam os usuários a etiquetar recursos da web, recomendando tags relevantes. A maioria das estratégias para esse tipo de mecanismo é usar tags que já foram utilizadas anteriormente para descrever o mesmo recurso ou recurso similar (SILVA, 2010).

Recomendação de tag incentiva os usuários a adicionarem mais tags na etiquetagem de um recurso (HU et al., 2012). Enquanto etiquetagem social tem muitos benefícios, ela também apresenta alguns desafios. Etiquetagem de natureza da folksonomia resulta em uma ampla variedade de tags que podem ser redundantes e ambíguas. Recomendação de tag pode lidar com esses desafios sugerindo uma série de tags que os usuários gostam de usar para um recurso de mídia.

Godoy e Coberllini (2016) abordam a fraqueza da etiquetagem realizada pelo usuário, pois eles determinam tags para recursos sem ter pré-definido uma hierarquia ou um dicionário. A forma livre da etiquetagem conduz a um número de problemas causados pela polissemia, sinonímia e a variedade morfológica de palavras. É comum para tags populares terem múltiplos significados, ao mesmo tempo que várias palavras podem ser utilizadas para se referir a um mesmo significado. Os usuários tendem a escolher uma determinada

Page 74: Anais do SMSI 2016

palavra em vez de outra para etiquetar um recurso baseado na sua própria experiência, conhecimento ou intenções futuras, afetando os resultados alcançados pelo sistema. Sugerir tags aos usuários oferece uma série de vantagens ao processo de tagging, são elas: pode promover a convergência para um vocabulário de tag compartilhado; recomendações incentivam usuários a etiquetar recursos, aliviando-os do ônus da seleção de tags apropriadas; melhora a pesquisa e capacidade de navegação com folksonomia. Para um determinado usuário e um dado recurso, um sistema de sugestão tenta encontrar um conjunto de tags para o usuário etiquetar o recurso. Muitos sistemas recomendam tags com base em sua popularidade entre os usuários para etiquetar determinado recurso, heurísticas simples para extrair palavras-chave do conteúdo do recurso, entre outras técnicas.

Sugestão de tag é um problema de pesquisa interessante e bem definido. Esse tema pode ser dividido em abordagens baseadas em gráficos e abordagens baseadas em conteúdo (KRESTEL e FANKHAUSER, 2012) (HU et al., 2012). Em abordagens baseadas em gráficos, as tags são classificadas por um algoritmo de classificação baseada no gráfico que leva em consideração tanto relevância para o documento e preferências do usuário. Recentemente, modelos com esse tipo de abordagem mostram bons resultados em problemas de sugestão de tags personalizadas. Abordagens baseadas em conteúdo ampliam o gráfico da folksonomia adicionando a dimensão do conteúdo do recurso. Esse tipo de abordagem pode prever tags para novos usuários e novos itens. O resultado é um conjunto de tags relacionadas tanto com o recurso e o usuário.

Ziesemer (2012) aborda dois tipos de filtragem e sistemas híbridos para recomendação de tags. A primeira filtragem é a colaborativa, sistemas de recomendação que utilizam esse tipo de filtragem supõem que se dois usuários avaliam itens de forma similar ou acessam recursos de mesma categoria, também irão avaliar ou acessar outros itens de forma similar. Esses sistemas podem ter algoritmos baseados em memória (utilizam técnicas para identificar usuários com comportamentos similares) e algoritmos baseados em modelos (utilizam coleções de avaliações para aprender um modelo de perfil para receber recomendação de conteúdo). A segunda filtragem é a baseada em conteúdo, sistemas que utilizam essa filtragem analisam documentos avaliados individualmente por um usuário e utiliza o conteúdo destes documentos e a avaliação recebida para inferir um perfil que pode ser usado para recomendar itens relevantes. Sistemas híbridos para sugestão dizem respeito a diferentes técnicas empregadas em um mesmo sistema para a recomendação de conteúdo.

2.2. Trabalhos Relacionados Em Silva (2010) foi proposto uma metodologia experimental baseada em referencial

teórico da área. Utilizou-se como amostra para o experimento os artigos científicos da revista DataGramaZero, devido ao fato de o periódico ter regras de submissão e por estar disponível na integra em meio eletrônico e na web. O foco principal do trabalho foi a definição de um conjunto de heurísticas que identifica as palavras-chave no corpo do texto e as sugerem como tags para os usuários. Estas palavras-chave podem ser termos simples ou compostos (formados por até cinco termos). As heurísticas foram criadas analisando as frequências com que as palavras aparecem no texto. A ocorrência dos termos no texto pode ser isolada ou em conjunto com outros termos. Foram identificados elementos textuais como o título, resumo, introdução e conclusão, a fim de atribuir pesos as tags identificadas

Page 75: Anais do SMSI 2016

nestes elementos textuais. Assim, as tags sugeridas foram filtradas pela localização na estrutura do texto. Após uma análise qualitativa dos resultados, pode-se definir que a sugestão de tags a partir do texto pode ser considerada uma alternativa válida quando o objetivo principal é orientar os usuários a escolherem suas tags e consequentemente aumentar a qualidade das mesmas.

No trabalho de Ziesemer (2012) o objetivo é o desenvolvimento de medidas para promover melhores resultados para recomendação de tags através de uma engine para redes de mídia social utilizando o dataset de tags do Flickr como estudo de caso. Para cada tag t digitada para uma imagem r serão recomendadas outras tags similares tj utilizando filtragem colaborativa como abordagem para recomendação juntamente com as medidas desenvolvidas para recomendar tags mais relevantes baseadas em um ranking de tags coocorrentes. Foi desenvolvido um modelo que em um primeiro momento é baseado em memória (memory-based) tornando-se personalizado (model-based) logo após a análise do comportamento do usuário pelo histórico de atribuição. No desenvolvimento da engine, foi utilizado a co-ocorrência entre tags e então foram criadas as medidas de relevância e popularidade. Percebeu-se que a recomendação proporcionou maior quantidade de atribuições de tags recomendadas em relação às queries, além de um vocabulário mais homogêneo no dataset devido ao reuso das recomendações. A recomendação teve especial aceitação principalmente quando foram apresentados itens referentes a lugares ou quando foi possível identificar a localização geográfica do conteúdo.

Gouvêa, Loh e Garcia (2008) utilizaram técnicas já existentes para investigar o processo de seleção automática de tags para notícias. O objetivo do trabalho deles foi comparar diversas técnicas para seleção automática de tags visando à descrição de conteúdos (textos) de notícias. O fundamento é estabelecer regras para selecionar palavras mais relevantes no texto da notícia. Foram implementadas e comparadas dez técnicas de seleção de tags. Para teste dos métodos foi utilizado um banco de dados de 1000 notícias divididas entre o site Estadão (www.estadao.com.br) e o site da Folha (www.folha.uol.com.br). Para avaliar a qualidade das tags selecionadas por cada um dos métodos foi realizado um processo de agrupamento das notícias por tag. Nestes grupos, foram alocadas as notícias que continham a correspondente tag. Cada notícia poderia participar em mais de um grupo. De acordo com as características obtidas pelo banco de dados analisado, os resultados são particularmente úteis para sites de notícias que utilizam a técnica da pirâmide invertida.

Em Ziesemer e Oliveira (2011) foi abordado sistemas tradicionais de recomendação, novas abordagens, e foi analisado como/que tipo de dados são exploradas para sugerir conteúdo. Além disso, foi discutido as abordagens de sistemas de recomendações atuais e suas peculiaridades de acordo com cada ambiente, os desafios e as tendências devido ao advento da Web 2.0. A Web 2.0 oferece novas formas de interação entre usuários e sistemas e o feedback do usuário tornou-se essencial para melhor entender os gostos e interesses do usuário. Esta é a principal razão para a abordagem explícita obter uma melhor aceitação do que outras técnicas de recuperação de informação. Após análise, acredita-se que a próxima geração de sistemas de recomendação deverá ser baseada em relações através de redes sociais em todos os tipos dos ambientes, tais como sites de comércio eletrônico.

Page 76: Anais do SMSI 2016

Font, Serrà e Serra (2015) analisaram o impacto de um sistema de sugestão de tags na folksonomia de Freesound, um site de compartilhamento de som. Em Freesound, os usuários fazem upload de sons e em seguida etiquetam ele, produzindo uma folksonomia em que apenas os autores podem etiquetar. Em 2013, apenas oito anos após Freesound ter iniciado, um sistema de recomendação de tag foi introduzido. Eles sumarizaram os impactos esperados pela recomendação de tag em um sistema de tagging colaborativa, sendo eles: convergência de vocabulário, qualidade de etiquetagem, custo do processo de etiquetagem. Para cada impacto esperado definiu-se uma série de métricas para ilustrá-los. Os resultados mostraram que o sistema de recomendação de tag contribui eficazmente para a convergência do vocabulário da folksonomia e contribui parcialmente para uma melhoria da qualidade da etiquetagem, mas não parece reduzir o custo do processo de etiquetagem. Apesar da metodologia de avaliação ter sido aplicada para analisar o impacto de um sistema de sugestão de tag no contexto de Freesound, acredita-se que os resultados são indicativos do impacto que esse tipo de sistema de sugestão pode ter em outros sistemas de etiquetagem colaborativa.

3. Metodologia

A metodologia utilizada neste trabalho foi a de estudo de caso. O estudo de caso é um método qualitativo de investigação adequado para quando procuramos compreender, explorar ou descrever acontecimentos e contextos complexos, nos quais estão simultaneamente envolvidos diversos fatores. Ele serve para responder questionamentos que o pesquisador não tem muito controle sobre o fenômeno estudado.

O objetivo do estudo de caso é aprofundar o conhecimento sobre um problema não suficientemente definido, buscando estimular a compreensão, sugerir hipóteses e questões ou desenvolver a teoria.

De acordo com Gil (1995), o estudo de caso não aceita um roteiro rígido para a sua delimitação, mas é possível definir quatro fases para isso: 1) delimitação da unidade-caso (algumas recomendações devem ser seguidas: buscar casos típicos, selecionar casos extremos, encontrar casos atípicos); 2) coleta de dados (é realizada com vários procedimentos quantitativos e qualitativos: levantamentos de dados, análise de conteúdo, etc); 3) seleção, análise e interpretação dos dados (a seleção dos dados deve considerar os objetivos da investigação, seus limites e um sistema de referencias para avaliar quais dados serão úteis ou não. Somente os selecionados deverão ser analisados, deve ser definido um plano de análise e considerar as limitações dos dados obtidos); 4) elaboração do relatório (o relatório deve ser conciso).

Como amostra para os testes foram escolhidas notícias do site Estado de Minas. A escolha por site de notícias deu-se pelo fato de possuir poucos trabalhos de sugestão de tags para esse tipo de site e de analisar o desempenho de uma heurística, proposta em um trabalho anterior (Silva 2010), quando utilizada para sugerir tags a um banco de dados de notícias.

Foram realizados os seguintes passos para a realização do trabalho: ● Leitura de referencial teórico da área;

Page 77: Anais do SMSI 2016

● Estudo e proposta de melhorias e adaptações para a heurística proposta em um trabalho anterior (Silva 2010) para extração de palavras-chave de notícias web como termos sugeridos a futuras tags ao usuário;

● Criação da rotina web;

● Implementação, testes e ajustes na heurística e nos procedimentos sugeridos.

Assim, o núcleo central do trabalho foi a adaptação de um conjunto de heurísticas que identifica possíveis tags no texto de notícias web e as sugerem como tags para os usuários. Estas possíveis tags podem ser termos simples ou compostos, no caso de ser termos compostos podem ser formados por até cinco termos. A heurística analisa as frequências com que os termos aparecem no texto.

Para melhorar os resultados da heurística foram identificados elementos textuais como o Título, Subtítulo e Conteúdo, a fim de atribuir pesos às tags identificadas nestes elementos textuais.

3.1. Heurística para sugestão de tags A heurística resultante, utilizada neste trabalho, para a sugestão de tags consiste dos seguintes passos: 1. Identificação dos elementos textuais: título, subtítulo e conteúdo.

2. Definição da lista de StopWords. 3. Extração de todas as possíveis tags simples ignorando as StopWords.

4. Atribuição de peso as tags simples de acordo com a localização e frequência da ocorrência. Tags com ocorrência no título recebiam peso 3, no subtítulo recebiam peso 2 e no conteúdo peso 1.

5. Extração de todas as possíveis tags compostas, que são as expressões que iniciam com uma tag simples mais quatro palavras ou até uma pontuação.

6. Percorrer todas as tags compostas e ignorar as que não respeitam as seguintes combinações possíveis: 6.1. Tag1 + Tag2 6.2. Tag1 + stopword + Tag2 6.3. Tag1 + Tag2 + Tag3 6.4. Tag1+ stopword + Tag2 + Tag3 6.5. Tag1 + Tag2 + stopword + Tag3 6.6. Tag1 + stopword + Tag2 + stopword + Tag3

7. Atribuição de peso as tags compostas de acordo com a localização e frequência da ocorrência. Tags com ocorrência no título recebiam peso 3, no subtítulo recebiam peso 2 e no conteúdo peso 1.

8. Sugestão de cinco tags simples de maiores pesos e cinco tags compostas de maiores pesos.

O primeiro passo foi identificar os elementos textuais do texto para podermos atribuir pesos às tags de acordo com a localização da ocorrência da mesma.

Page 78: Anais do SMSI 2016

Em seguida, foi definida uma lista de StopWords que é composta por artigos, conjunções, advérbios, pronomes, verbos palavras muito recorrentes no texto, mas de pouco valor semântico. A lista inicial de StopWords foi obtida de um trabalho anterior (Silva 2010) e foi sendo incrementada com novos termos à medida que foram sendo realizados os testes.

O terceiro passo foi a extração das tags simples (tags formadas por somente um termo). Como os termos contidos na lista de StopWords não são indicadas para representar a informação contida no texto, esses termos devem ser ignorados na hora da extração das tags simples.

O quarto passo identifica onde houve ocorrências e a frequência de cada tag simples e atribui para ela o devido (ou respectivo) peso. Consideramos que as tags que aparecem no título são importantes para representar o conteúdo do texto e por isso recebiam o maior peso. Também consideramos que as tags que aparecem no subtítulo também são importantes, mas não tanto quanto as que apareciam no título por isso recebiam o segundo maior peso. Já as tags com ocorrência no conteúdo receberam o menor peso. Se uma tag possuía ocorrência em mais de um lugar os pesos eram somados e de acordo com a frequência, no final o peso resultante era atribuído a tag.

O quinto passo, de forma a melhorar o processamento do algoritmo, extrai todas as possíveis tags compostas, que são as expressões que iniciam com uma tag simples mais quatro palavras ou até uma pontuação.

O sexto passo então percorre todas as possíveis tags compostas e ignora as que não respeitam as combinações apresentadas anteriormente. Foi definido que uma tag composta teria no máximo cinco termos. Foi considerado que termos que compõem as tags compostas tem maior probabilidade de ocorrerem com maior frequência no texto e a tendência delas é sempre estarem próximas umas das outras. Em outras palavras, se uma determinada tag “Ciência da Computação” aparece no texto vinte vezes, é esperado que “Ciência” e “Computação” separadamente ocorram no mínimo vinte vezes no texto. Portanto, para o exemplo acima, consideremos que obtemos “Ciência” e “Computação” na etapa anterior como tags simples, podemos chegar a “Ciência da Computação” com combinações desses dois termos no texto.

O sétimo passo identifica onde houve ocorrências e a frequência de cada tag composta e atribui para ela o devido (ou respectivo) peso.

Por último, foi definido que seriam sugeridos cinco tags simples e cinco tags compostas sendo sugeridas então as de maiores relevâncias (as que possuem maiores pesos).

4. Testes e Resultados Obtidos

Os testes foram realizados utilizando notícias extraídas do site do jornal Estado de Minas. O conjunto de notícias selecionado deste site foi composto por publicações realizadas desde agosto de 2015 até maio de 2016. As tags sugeridas pelo mecanismo proposto são validadas comparando-as com as tags atribuídas pelo autor da notícia. Ou seja, para que uma tag seja considerada consistente é necessário que a tag sugerida esteja dentro do escopo de tags atribuídas as notícias.

Page 79: Anais do SMSI 2016

Os testes foram divididos em duas partes. A primeira parte verificava a consistência das tags sugeridas. Já a segunda verificava se as tags atribuídas à notícia, mas que não foram sugeridas estão presentes no rank de possíveis tags a serem sugeridas pelo mecanismo proposto.

Para facilitar as análises dos resultados foi a rotina web criada exibe o resultado do mecanismo em uma tabela. Essa tabela é composta pelo título da notícia, tags atribuídas à notícia, tags sugeridas, quantidade de tags consistentes, tags atribuídas que não foram sugeridas e que estão presentes no rank de possíveis tags a serem sugeridas pelo mecanismo proposto e quantidade desse tipo de tag.

A carga de teste utilizada para os testes foi composta por 421 notícias, com um total de 1955 tags atribuídas. Como definido na metodologia, foram sugeridas cinco tags simples e cinco tags compostas para cada notícia, formando assim, um total de 4210 tags sugeridas. Foram encontradas 593 tags que coincidem com as tags atribuídas as notícias. Em 92 notícias nenhuma tag sugerida coincidiu com as tags atribuídas as notícias. Em 86 notícias nenhuma tag atribuída está presente no rank de possíveis tags a serem sugeridas pelo mecanismo proposto.

Em uma análise mais detalhada, pode-se dividir as notícias utilizadas para testes em relação a quantidade de tags atribuídas a elas. A quantidade de tags atribuídas às notícias varia de 1 a 11 tags. A maioria das notícias possuem 4 (26,6%) a 5 (21,14%) tags atribuídas (Figura 1).

Figura 1 - Quantidade de notícias de acordo com a quantidade de tags

Fonte: Próprio autor

Analisando em maiores detalhes as notícias, em relação a quantidade de tags atribuídas a elas, pode-se constatar que todas as notícias com 1 a 7 tags atribuídas possuem pelo menos uma tag atribuída que não está presente no rank de possíveis tags a serem sugeridas (Figura 2). Notícias com 1 tag atribuída obtiveram o pior resultado em comparação a notícias com quantidade diferentes de tags. Sendo que, em 75% das notícias com 1 tag atribuída nenhuma tag sugerida coincidiu com as tags atribuídas às notícias e em 62% dessas notícias nenhuma tag atribuída que não foi sugerida está presente no rank de possíveis tags a serem sugeridas pelo mecanismo proposto (Figura 2).

Page 80: Anais do SMSI 2016

Analisando o gráfico da Figura 2, pode-se constatar que notícias com 2, 3, 4 e 6 tags atribuídas obtiveram quase o mesmo desempenho em relação a análise de tags sugeridas que coincidem com tags atribuídas as notícias. Depois de notícias com uma tag atribuídas, notícias com duas e três tags atribuídas obtiveram o pior desempenho em relação a análise de tags atribuídas, que não foram sugeridas ausentes, no rank de possíveis tags a serem sugeridas pelo mecanismo proposto.

Figura 2 - Análise de notícias com 1 a 7 tags

Fonte: Próprio autor

Analisando as notícias, em relação à quantidade de tags atribuídas a elas, pode-se constatar que todas as notícias com 8 a 11 tags atribuídas possuem pelo menos uma tag atribuída que está presente no rank de possíveis tags a serem sugeridas (Figura 3). Notícias com 8 tags atribuídas obtiveram o melhor resultado em comparação a notícias com quantidade diferentes de tags. Sendo que, em todas as notícias com 8 tags atribuídas pelo menos uma tag sugerida coincidiu com as tags atribuídas as notícias e em todas as notícias pelo menos uma tag atribuída que não foi sugerida está presente no rank de possíveis tags a serem sugeridas pelo mecanismo proposto (Figura 3).

Analisando o gráfico da Figura 3, pode-se notar que notícias com 10 e 11 tags atribuídas obtiveram desempenho ruim em relação a análise de tags sugeridas que coincidem com tags atribuídas as notícias. Destacando as notícias com 11 tags atribuídas, que em todas as notícias nenhuma tag sugerida coincidiu com as tags atribuídas.

Page 81: Anais do SMSI 2016

Figura 3 - Análise de notícias com 8 a 11 tags

Fonte: Próprio autor

Os resultados dos testes realizados permitiram afirmar que o esforço e raciocínio criado para sugestão de tags são válidos, visto que em 78,15% das notícias foram sugeridas pelo menos uma tag consistente.

5. Conclusão e sugestão de trabalhos futuros Foi criado uma rotina que extrai termos automaticamente do conteúdo do texto de notícias e os sugere como tags. Os testes realizados mostraram que para 78,15% das notícias utilizadas foram sugeridas pelo menos uma tag considerada consistente em cada uma delas. Para que tag seja considerada consistente é necessário que a tag esteja contida dentro do conjunto de tags atribuídas às notícias pelo autor da notícia.

A partir de uma análise qualitativa dos resultados, pode-se dizer que a sugestão de tags a partir do texto pode ser considerada uma alternativa válida quando o objetivo principal é orientar os usuários a escolherem suas tags e consequentemente aumentar a qualidade das mesmas.

O algoritmo proposto neste artigo direciona os usuários ao estabelecimento de tags mais condizentes com o conteúdo de seus objetos sem retirar a liberdade da própria filosofia de interação da folksonomia.

Como sugestão de trabalhos futuros, espera-se realizar uma análise detalhada sobre as tags que não foram consideradas consistentes e aplicar o algoritmo aqui proposto e desenvolvido em outros tipos de textos web, como por exemplo, textos de blogs, textos de descrição de produtos em e-commerce, e-books, adaptando o que for necessário, mas realizando algo similar ao que foi feito com os elementos textuais.

Referências ASSIS, Juliana de; MOURA, Maria Aparecida (2013) Folksonomia: a linguagem das tags.

Publicado em revista eletrônica de biblioteconomia e ciência da informação, v. 18, n. 36, p.85-106, jan./abr., 2013.

BRANDT, Mariana; MEDEIRO, Marisa Brascher Basílio (2010) Folksonomia: esquema de

Page 82: Anais do SMSI 2016

representação do conhecimento?. Publicado em TransInformação, Campinas, 22(2):111-121, maio/ago., 2010.

FONT, Frederic; SERRÀ, Joan; SERRA, Xavier (2015) Analysis of the Impact of a Tag Recommendation System in a Real-World Folksonomy. In ACM Transactions on Intelligent Systems and Technology, Vol. 7, No. 1, Article 6

Gil AC. Como elaborar projetos e pesquisa. 3a ed. São Paulo: Atlas; 1995:58.

GODOY, Daniela; COBERLLINI, Alejandro. (2016) Folksonomy-Based Recommender Systems: A State-of-the-Art Review. INTERNATIONAL JOURNAL OF INTELLIGENT SYSTEMS, VOL. 31, 314–346

GOUVÊA, Cleber; LOH, Stanley; Garcia, Luís Fernando (2008) Métodos para Seleção Automática de Tags para Descrição de Notícias na Web. WebMedia '08 Companion Proceedings of the XIV Brazilian Symposium on Multimedia and the Web. Pages 81-84.

HU J, WANG B, LIU Y et al. (2012) Personalized tag recommendation using social influence. JOURNAL OF COMPUTER SCIENCE AND TECHNOLOGY 27(3): 527–540 May 2012.

KRESTEL, Ralf; FANKHAUSER, Peter (2012) Personalized topic-based tag recommendation. Neurocomputing Volume 76, Issue 1, 15 January 2012, Pages 61–70

Mestrado em Educação – Tecnologia Educativa – Métodos de investigação em Educação. Disponível em: <http://grupo4te.com.sapo.pt/mie2.html>. Acesso em maio de 2016.

SANTOS, Hercules Pimenta (2013) Etiquetagem e folksonomia: o usuário e sua motivação para organizar e compartilhar informação na Web 2.0. Publicado em Perspectivas em Ciência da Informação, v.18, n.2, p.91-104, abr./jun. 2013.

SILVA Luilton Neves e. (2010) Folksonomia: sugestão de Tags. Pontifícia Universidade Católica de Minas Gerais. Trabalho de Conclusão de Curso. Curso Ciência da Computação. Pontifícia Universidade Católica de Minas Gerais.

SOOD, S., HAMMOMD, K., et al.. (2007) Birnbaum. TagAssist: Automatic Tag Suggestion for Blog Posts. In International Conference on Weblogs and Social Media, 2007.

WAL, T. V. Folksonomy. vanderwal.net (2007). Disponível em: <http://www.vanderwal.net/folksonomy.html>. Acesso março de 2016.

XU, Z.; FU, Y.; MAO, J.; SU. D. (2006) Towards the semantic web: collaborative tag suggestions. In Collaborative Web Tagging Workhop, WWW Conference, Edinburg, Scotland, May 2006.

ZIESEMER, Angelina de Carvalho A. (2012) Recomendação de tags para mídia social colaborativa: da generalização à à personalização. Dissertação de Mestrado. Pontifícia Universidade Católica do Rio Grande do Sul. Faculdade de Informática. 2012.

ZIESEMER, Angelina; OLIVEIRA, João Batista S. de (2011) How to Know What Do You Want? A Survey of Recommender Systems and the Next Generation. Publicado em VIII Simpósio Brasileiro de Sistemas Colaborativos – 2011 – Paraty, RJ, Brasil.

Page 83: Anais do SMSI 2016

Abordagem para Descoberta de Conhecimento emInstrumentos Avaliativos de Organizações de Ensino Superior

Leandro F. Lessa, Wladmir C. Brandão1

1Pontifícia Universidade Católica de Minas GeraisBelo Horizonte – Minas Gerais – Brasil

[email protected], [email protected]

Abstract. Performance evaluation is paramount to identify organizational we-aknesses and strengths, providing issues to adjust strategies for increasing effec-tiveness. Several approaches to analyze data captured by evaluation instrumentshave been proposed in the literature and have been used to assess organizatio-nal performance. Particularly, in higher education organizations, such appro-aches are essential for self-criticism that leads to a continuous improvementof the organizational processes. This article proposes an approach to disco-ver knowledge from evaluation instruments for higher education organizations.Content analysis and business intelligence techniques are used to automaticallyinterpret answers to open and closed questions in evaluation instruments. Theimplementation of the proposed approach in a higher education organizationdemonstrated its effectiveness to support the knowledge discovery process fororganizational performance.

Resumo. A condução de avaliações de desempenho é fundamental para a iden-tificação de fraquezas e virtudes organizacionais, fornecendo importante sub-sídio para o ajuste de estratégias visando o aumento de efetividade. Diversasabordagens para análise de dados capturados por instrumentos avaliativos fo-ram propostos na literatura e vêm sendo utilizados com o objetivo de avaliar odesempenho organizacional. Particularmente, em organizações de ensino supe-rior tais abordagens são imprescindíveis para a formação de auto-crítica queas leve a uma melhoria contínua de processos. O presente artigo propõe umaabordagem para descoberta de conhecimento em instrumentos avaliativos deorganizações de ensino superior. Técnicas de análise de conteúdo e de inteli-gência de negócio são utilizadas para interpretar automaticamente respostas aquestões abertas e fechadas presentes nos instrumentos avaliativos. A aplica-ção da abordagem proposta no contexto de uma organização de ensino superiordemonstrou a efetividade da abordagem para suportar o processo de descobertade conhecimento relevante para o desempenho organizacional.

1. IntroduçãoExistem diversos instrumentos de coleta de dados visando a avaliação do desempenhode organizações [Lakatos and Marconi 2010]. Esses instrumentos podem ser utilizadostanto para avaliações quantitativas, a fim de explicar relações causais, facilitando a ge-neralização e prevendo acontecimentos através de formalismo e de medições estatísticas,quanto qualitativas, visando fornecer uma visão ampla de uma determinada situação, paracompreender os processos sociais e suas interrelações [Cooper and Sghindler 2003].

Page 84: Anais do SMSI 2016

A construção de questionários como instrumentos avaliativos consiste em pro-duzir questionamentos claros e bem redigidos que traduzam os objetivos específicos daavaliação. Para que um questionário seja efetivo é fundamental a formulação de questõesobjetivas e que estejam intimamente relacionadas ao problema investigado [Gil 1999].Do ponto de vista da forma, as questões podem ser abertas, onde as respostas devem serdadas pelo respondente de maneira livre utilizando suas próprias palavras, ou fechadas,onde as respostas a serem dadas pelos respondentes são previamente estabelecidas pelosformuladores das questões.

A avaliação efetiva de uma organização pressupõe uma abordagem multidimensi-onal com o objetivo de proporcionar uma compreensão abrangente de seus pontos fortese fracos a partir dos resultados de avaliações individuais das pessoas que compõem aorganização. Os dados relacionados à prática e ao desempenho individual são captu-rados a partir de diferentes pontos de vista, demandando habilidades analíticas especi-alizadas e focadas em cada dimensão de análise definidas nos objetivos específicos daavaliação [Del Carmen Calatrava Moreno 2014].

O presente artigo propõe uma abordagem para descoberta de conhecimento eminstrumentos avaliativos de organizações de ensino superior. Para interpretar respostas aquestões abertas aplicamos técnicas de análise de conteúdo, um método para tratamentode informação contida em mensagens [Bardin 2009]. Para interpretar respostas a questõesfechadas, aplicamos técnicas de inteligência de negócio, extraindo informação útil a partirdos dados capturados. A avaliação experimental da abordagem proposta foi efetuada apartir de sua aplicação no contexto de avaliação organizacional da Comissão Permanentede Avaliação (CPA) de um Instituto de Ensino Superior (IES)1 e se mostrou efetiva parasuportar a análise automática de questões abertas e fechadas de um questionário. Emparticular, nossa abordagem possibilita que organizações possam extrair conhecimentode instrumentos de avaliação a fim de compreender e tratar suas fraquezas.

O conteúdo deste artigo está estruturado da seguinte maneira: a Seção 2 apresentao referencial teórico, incluindo uma breve descrição das técnicas de inteligência de negó-cio e de análise de conteúdo. A Seção 3 descreve os trabalhos relacionados, em especialaqueles referenciados na literatura que propõem abordagens para descoberta de conheci-mento em textos. A Seção 4, apresenta o fluxo de operação e os principais componentesda abordagem proposta. A Seção 5 descreve os resultados oriundos da aplicação da abor-dagem proposta no contexto da CPA de IES. Finalmente, a Seção 6 apresenta a conclusão,bem como direções para trabalhos futuros.

2. Referencial Teórico

2.1. Inteligência de Negócio

Um dos grandes desafios para as organizações é tomar decisões assertivas em tempo hábilbaseadas na coleta de informação essencial e relevante disponível no mercado. Porém,com o grande volume de informação produzido pelas organizações, analisá-las torna-secada vez mais complexo, uma vez que muitas das fontes de informação não a disponibi-liza de maneira estruturada. Sendo assim, surge a necessidade de se criar plataformas de

1A Pontifícia Universaidade Católica de Minas Gerais, ou simplesmente PUC Minas, é o maior Institutode Ensino Superior (IES) privado brasileiro.

Page 85: Anais do SMSI 2016

inteligência de negócios, ou do inglês business intelligence (BI), para viabilizar o proces-samento da informação sensível ao negócio em tempo real [Duan and Xu 2012]. Particu-larmente, por BI entende-se o processo de coleta, organização, análise, compartilhamentoe monitoração de informação que oferece suporte à gestão de negócios [Batista 2004].

De maneira mais ampla, BI pode ser entendido como a utilização de várias fontesde informação para se traçar estratégias de competitividade para negócios da organiza-ção [Barbieri 2001]. Ela está relacionado ao apoio aos processos de tomadas de deci-sões baseados em dados trabalhados especificamente na busca de vantagens competiti-vas. Mais ainda, o BI é um sistema de informação que dá suporte á análise de dados doprocesso decisório, empregando tecnologias como Data Warehouse, ETL, OLAP e DataMining nos níves tático e estratégico [Audy 2005].

Técnicas de inteligência de negócio vêm sendo utilizadas em mecanismos de co-leta de informação dentro de repositório de dados conhecidos como Data Warehouses(DW). Tais repositórios são grandes bases de dados que contém dados históricos relativosás atividades de uma organização de forma consolidada. Em particular, um DW é umbanco de dados histórico, separado em estruturas lógicas dimensionais, concebido paraarmazenar dados extraídos dos sistemas legados e do sistema de gestão integrada (ERP)da organização [Barbieri 2001]. Antes de serem armazenados no DW, os dados devemser selecionados, organizados e integrados para que possam ser acessados de forma maiseficiente, auxiliando assim o processo de tomada de decisão [Colaço 2004].

O ETL, Extract, Transformation and Load, é a ferramenta responsável pela extra-ção, transformação e carregamento dos dados em um DW. Na construção de um DW, oETL consome mais de 70% do tempo de desenvolvimento, devido á diversidade da estru-tura de dados nas bases de dados de origem [Colaço 2004]. O processamento analíticoonline, do inglês Online Analytical Processing (OLAP), utiliza um conjunto de ferra-mentas e técnicas que permitem realizar a exploração dos dados de um DW, tais comorecursos de modelagem, visualização e análise de grandes conjuntos de dados. O OLAPajuda a analisar de forma eficiente a quantidade de dados armazenados pelas organizaçõestransformando-os em informação relevante [Jacobson and Misner 2007].

2.2. Análise de Conteúdo

A análise de conteúdo pode ser definida como um conjunto de técnicas para análise decomunicação visando obter, através de procedimentos sistemáticos e objetivos de des-crição do conteúdo das mensagens, indicadores que permitam a inferência de conheci-mentos relativos às condições de produção e recepção dessas mensagens. Com essastécnicas, informação pode ser extraída a partir de dados, a fim de produzir novo conheci-mento [Bardin 2009].

Para se aplicar de forma correta as técnicas de mineração de dados, faz-se neces-sário primeiramente a preparação dos dados para a análise de conteúdo, com o objetivode identificar similaridades em função de morfologia ou de significado dos termos nostextos [Camilo and Silva 2009]. Mais especificamente, a preparação do texto envolvecinco etapas: coleta, pré-processamento, indexação, mineração e análise da informação.A etapa de coleta compõe a base de textos do trabalho. Para tal, é necessário determinar ouniverso de aplicação das técnicas de mineração de textos. Na etapa de pré-processamentoé feito a transformação dos documentos no formato mais adequado a serem submetidos

Page 86: Anais do SMSI 2016

aos algoritmos de extração de informação. Ela é responsável por obter uma representaçãoestruturada dos documentos. Para isso, diversos algoritmos são aplicados a fim de me-lhorar a qualidade dos dados disponíveis e organizá-los [Oliveira 2009]. A etapa seguinteé a de indexação que envolve 3 processos: i) identificação dos termos, ii) remoção destopwords, e iii) normalização morfológica ou (stemming). A identificação dos termostem como objetivo principal a marcação dos termos contidos no texto, sejam eles simplesou compostos. Já a remoção stopwords implica em eliminar do texto original palavrasconsideradas não relevantes para a análise textual, tal como artigos, preposições, prono-mes e advérbios. O stemming implica na redução das palavras a partir da eliminação desufixos e prefixos das de variações morfológicas de uma palavra [Camilo and Silva 2009].

Após a indexação se inicia a etapa de processamento que consiste na aplicaçãode algoritmos de mineração responsáveis pelas inferências e cálculos buscando descobrirpadrões úteis e desconhecidos presentes nos textos. Por fim, na etapa de análise é feitauma avaliação e interpretação dos resultados obtidos anteriormente [Oliveira 2009].

3. Trabalhos Relacionados

Esta seção apresenta os principais trabalhos relacionados à BI e análise de conteúdo.[Oliveira 2009] propõe uma metodologia para mineração de textos científicos em línguaportuguesa. A autora apresenta as diversas etapas da mineração de textos com o intuitode agrupa-los segundo a similaridade de seus conteúdos de forma a facilitar a interpre-tação dos resultados e auxiliar na distribuição de documentos para determinados perfisde usuários. A autora concluiu que para realizar uma mineração de textos simples é ne-cessário fazer um bom pré-processamento e para isso utilizar técnicas como remoção destopwords e criação de um Thesaurus. Os melhores resultados foram alcançados a partirda combinação das análises estatísticas e semântica, combinação de mais de uma técnicade mineração de texto num mesmo contexto e a existência de um vocábulo controlado.

[Nooralahzadeh et al. 2013] realizaram a comparação dos sentimentos dos elei-tores, antes e depois das eleições presidências, realizadas nos EUA e na França no anode 2012. Para realizar essa comparação foram realizadas extrações das informações dosconteúdos a partir da rede social Twitter. O experimento teve o foco na polaridade nossentimentos das pessoas (positivo e negativo) e nas palavras chaves que representava cadacandidato. Primeiro foram extraídos tweets que continham informação dos candidatos.Em seguida foi realizada a limpeza de cada tweet, removendo stopwords, números, refe-rencias de HTML, símbolos, pontuações e re-tweets. Por fim, também foram extraídos osnomes dos candidatos de cada tweet e armazenados em um banco de dados, além da mar-cação dos tweets que não continham o nome dos candidatos. Esse passo foi realizado paraatender a necessidade de futuras análises. Ao final do experimento, foi apresentada umaanálise dos sentimentos, contendo a frequência das palavras mais citadas pelos eleitorese os resultados da popularidade dos presidentes avaliados.

[Ribeiro and Tostes 2015] os autores propuseram um sistema de inteligência denegócios para avaliação de organizações de ensino superior. O autor propôs uma metodo-logia de avaliação de organizações de ensino superior e uma plataforma Web de BusinessIntelligence para suportar a metodologia, automatizando parte do processo de avaliaçãoinstitucional, e consequentemente auxiliando na geração de conhecimento estratégico.Diferente dos trabalhos supra apresentados, o presente trabalho utiliza técnicas de BI e de

Page 87: Anais do SMSI 2016

análise de conteúdo para extrair conhecimento de instrumentos avaliativos de forma au-tomatizada a partir da identificação e pesagem de descritores que irão permitir sumarizaro conhecimento presente nas respostas dos respondentes.

4. Abordagem para Descoberta de Conhecimento

A presença de questões abertas e fechadas em instrumentos avaliativos demanda a uti-lização de estratégias diferentes para tratamento de cada tipo de questão. Nesta seçãoapresentamos nossa abordagem para descoberta de conhecimento em instrumentos avali-ativos. Particularmente, apresentamos as estratégias baseadas em análise de conteúdo etécnicas de inteligência de negócio para interpretação automática das respostas a questõesapresentadas em instrumentos avaliativos. O fluxo do processo de descoberta de conheci-mento tratado por nossa abordagem se encontra ilustrado na Figura 1.

Figura 1. Fluxo de processo para questões abertas

4.1. Estabelecimento dos Parâmetros de Análise

A primeira etapa da nossa abordagem consiste em receber os documentos e o texto emlinguagem natural referente as respostas dos avaliadores. Os documentos por sua vez, sãoresponsáveis por guiar a avaliação e possuem dimensões e indicadores já estabelecidosantes da aplicação dos questionários. Na segunda etapa é realizado o processamento dosdados coletados. Os textos são extraídos de um banco de dados utilizado na coleta da ava-liação. Após isso, os dados são tratados de acordo com as especificações dos documentos.Por fim na última etapa, temos o produto de cada processamento dos dados. Nesta abor-dagem obtivemos a categorização das perguntas e respostas, classificação de sentimentosdas respostas, definição do vocábulo controlado e uma nuvem de TAGs com a frequênciadas palavras mais ditas pelos entrevistados.

4.2. Processamento de Questões Abertas

Questões abertas são compostas por um texto em linguagem natural, geralmente umapergunta, que demanda uma resposta também em linguagem natural por parte do respon-dente. Esse tipo de questionamento visa o aprofundamento do conhecimento sobre o temainvestigado a partir da captura da percepção do respondente, com foco na extração de suasopiniões [Richardson and Jarry 1985]. Tal como ilustrado na Figura 2, nossa abordagemsubdivide o processamento de questões abertas em cinco etapas: i) definir categoria dapergunta; ii) definir categoria da resposta; iii) classificação das respostas através de quali-ficadores; iv) criação do vocabulário controlado; v) criação de nuvem de TAGs.

Page 88: Anais do SMSI 2016

Figura 2. Etapas da abordagem para questões abertas

Definir categoria da pergunta: O primeiro passo é categorizar a pergunta de acordocom o conteúdo. As perguntas podem ser categorizadas de acordo com seu conteúdo daseguinte forma: (a) perguntas sobre fatos; (b) perguntas sobre crenças; (c) perguntas sobresentimentos; (d) perguntas sobre padrões de ação (e) perguntas dirigidas a comportamentopresente ou passado; (f) perguntas referentes a razões conscientes de crenças, sentimentos,orientações ou comportamentos [Gil 1999].

Definir categoria da resposta: O segundo passo é identificar as categorias dessa res-posta. Uma característica de uma pergunta aberta de um questionário é a possibilidade deo entrevistado responder com mais liberdade, não estando restrito a marcar alternativaspreviamente elaboradas. Além de fornecer ao entrevistador informações a respeito do en-trevistado sobre um determinado assunto, possibilita também a possibilidade de expressarsentimentos [Richardson and Jarry 1985].

Classificação das respostas através de qualificadores: O terceiro passo consiste emavaliar um número de respostas da amostra, definindo de forma manual se a resposta éconsiderada positiva ou negativa. Após isso é necessário criar qualificadores que serãoutilizados para realizar análise de sentimentos das respostas fornecidas pelos entrevista-dos. Os qualificadores são um conjunto de palavras com polaridade positivas e negativasque são utilizados de base para análise de cada categoria de avaliação. Baseado nos dadoscolhidos na amostra e nos qualificadores, o algoritmo Naive Bayes consegue inferir deforma automática as demais tendências de respostas fornecidas pelo demais entrevista-dos.

Criação do vocabulário controlado: O quarto passo é a criação do vocabulário Contro-lado. Que é uma linguagem artificial constituída de termos de uma estrutura relacional.Seu objetivo é padronizar e facilitar a entrada e saída de dados de um sistema de infor-mação. Uma das funções é representar a informação e o conhecimento por meio de umconjunto controlado e finito de termos.

Criação de nuvem de TAGs: Existem diversas formas de classificar e organizar informa-ções de um texto. Uma delas e a forma representativa em nuvem de TAGs. Que consistemostrar visualmente através do tamanho das palavras os termos mais utilizado em umtexto. O quinto e último passo da abordagem é criar uma nuvem de TAGs. Para isso énecessário identificar todos os termos que possuem maior frequência nas respostas porcategoria e representá-los.

Page 89: Anais do SMSI 2016

4.3. Processamento de Questões FechadasQuestões fechadas são compostas por um texto em linguagem natural, geralmente umapergunta, que demanda uma resposta com opções limitadas a alternativas preestabeleci-das por parte do respondente. Esse tipo de questionamento visa o aprofundamento doconhecimento sobre o tema investigado a partir da captura da percepção do respondente,com foco na extração de suas opiniões [Richardson and Jarry 1985]. Tal como ilustradona Figura 3, nossa abordagem subdivide o processamento de questões fechadas em quatroetapas: i) análise dos dados; ii) criação do DW; iii) criação de processo ETL; iv) criaçãode relatórios.

Figura 3. Etapas da abordagem para questões fechadas

Etapa 1 - Análise dos dados: Antes da criação um DW, é muito importante conhecero banco de dados que será utilizado e as tabelas que relacionam entre si. Para isso énecessário fazer um mapeamento completo e detalhado de todo do modelo, afim de iden-tificar a fonte dos dados que o alimenta e conhecer cada detalhe. Nessa etapa é feito olevantamento de todos os dados que serão utilizados e exibidos no modelo de DW.

Etapa 2 - Criação do DW: Definido os mapeamentos, os bancos e tabelas a serem utili-zados, o próximo passo é criar o esquema de DW. O esquema adotado foi o Star Schemaproposto por Dr. Ralph Kimball e que tem como característica básica a presença de dadosaltamente redundantes para se obter um melhor desempenho [Colaço 2004].

Etapa 3 - Criação de processo ETL: Esse processo é o mais crítico e demorado naconstrução de um DW, pois consiste na extração dos dados de bases heterogêneas, natransformação e limpeza e carga desses dados.

Etapa 4 - Criação de relatórios O último passo é a etapa de criação dos relatórios. Essaetapa é o produto final da análise. Aqui podemos criar diversos tipos de relatórios que iráexibir o conhecimento extraído do DW.

5. Avaliação da Abordagem PropostaNessa seção vamos demonstrar os resultados obtidos na proposta de avaliação para ques-tões abertas e fechadas aplicadas no questionário. Para questões abertas realizamos umestudo de caso com uma questão e por motivo de sigilo institucional, não será revelada. Jápara as questões fechadas, optamos por criar uma plataforma de BI para análise das ques-tões, bem como criação de relatórios que auxiliam no processo de decisão estratégias.

5.1. Análise das Questões AbertasDefinição da categoria da pergunta: A questão selecionada e analisada tinha objetivoobter as reações emocionais dos entrevistados referente a um curso ofertado da instituição.

Page 90: Anais do SMSI 2016

Neste caso, a questão foi categorizada como pergunta sobre sentimentos.

Definição da categoria da resposta: Após definida a categoria da pergunta, o próximopasso é definir a categoria da resposta. Na nossa abordagem optamos desenvolver um apli-cativo na linguagem C# que realiza a categorização automática das respostas dos entre-vistados. Para isso, foi criado um dicionário de categorias que auxiliou na categorização.Um especialista no assunto criou as seguintes categorias de respostas: i) infraestrutura, ii)projeto pedagógico, iii) relações ente os sujeitos, iv) condições dos alunos, v) condiçõesdos professores, vi) condições da coordenação.

Classificação das respostas através de qualificadores: O próximo passo da abordagemé inferir os sentimentos dos entrevistados a partir do algoritmo Naive Bayes. Para isso, foinecessário fazer o uso de uma amostra de cinqüenta respostas classificadas manualmente ecriar um arcabouço de palavras com polaridades positivas e negativas que foram utilizadasno treinamento do algoritmo. A Tabela 1 demostra uma prévia das palavras que tempolaridade negativa e positiva com seus respectivos pesos inferidas pelo algoritmo.

Tabela 1. Polarização das Palavras

Palavras com polaridade negativa Palavras com polaridade positiva

chato 3 alegre 5horrível 5 empolgante 5desagradável 1 bom 4desinteressante 2 brilhante 5monótono 5 exemplar 4

A Tabela 2 mostra a classificação automática realizada e o percentual de respostascom polaridade positivas e negativas. Pode ser observado que existem respostas que es-tão categorizadas em mais de uma categoria. Isso já era esperado, tratando-se de questõesabertas de um questionário, as respostas dos entrevistados podem se adequar a uma ou de-mais categorias. Grande parte das respostas dos entrevistados foram classificadas comorespostas com polaridade negativas. Isso aconteceu devido a questão não ter sido prepa-rada anteriormente para realizar esse tipo avaliação. O objetivo da questão era levantarinformações de forma geral problemas de um determinado curso da instituição.

Tabela 2. Respostas Positivas e Negativas por Categoria

Categoria da avaliaçãoNo de Respostas da

CategoriaRespostasPositivas

RespostasNegativas

Infraestrutura 10 2.0% 98,0%Projeto Pedagógico 30 1,8% 98,2%Relação entre os sujeitos 60 2,2% 97,8Condições dos professores 150 1,2% 98,8%Condições dos professores e coordenação 189 1,3% 98,7%Condições da coordenação 120 0,2% 99,8%Infraestrutura e projeto pedagógico 30 3.0% 97,0%

Page 91: Anais do SMSI 2016

Criação do vocabulário controlado: O vocabulário controlado é um recurso utilizadopara criar palavras chaves que caracterizam uma determinada categoria de resposta. ATabela 3 mostra uma prévia do vocabulário controlado criado por um especialista para acategoria de infraestrutura.

Tabela 3. Vocabulário Controlado de InfraestruturaPalavras

apagador laboratório projetorar condicionado mesa quadrocadeira pincel sala de aula

Criação de nuvem de TAGs: As nuvens de TAGs é o resultado da classificação auto-mática criada pelo aplicativo desenvolvido para avaliar as respostas do questionário dequestões abertas. A Figura 4 apresenta as palavras com maior frequência respondidaspelos entrevistados referente a condições dos professores do curso avaliado.

Figura 4. Frequência das Palavras Referente a Condições dos Professores

Para o cenário de avaliação da questão analisada, observamos um sentimento ne-gativo em relação condições dos professores, isso indica que deve-se melhorar os princi-pais tópicos destacados na nuvem de TAGs. Esses tópicos podem mudar de acordo comas respostas dos alunos.

5.2. Análise das Questões FechadasAnálise dos dados: O primeiro passo da abordagem proposta é o estudo dos dados. Porse tratar de uma etapa fundamental para criação de uma plataforma BI, foi necessáriorealizar um estudo detalhado do dados junto a equipe de infraestrutura e banco de dadosda CPA. Esse estudo foi feito através de reuniões que proporcionou o entendimento dasdemandas da instituição, bem como, realizar o mapeamento, levantamento e identificaçãodos dados que seriam analisados.

Criação do DW para a CPA de IES: Após o estudo dos dados, foi desenvolvido omodelo do DW. O esquema adotado nesse trabalho é composto por uma tabela dominante,chamada de tabela fato, no centro, rodeada por diversas tabelas auxiliares, chamadas detabelas dimensões. A tabela fato se comunica com as demais tabelas dimensões atravésde múltiplas junções e as tabelas dimensões se conecta apenas por uma única junção atabela fato. A Figura 5 ilustra o modelo desenvolvido pela abordagem.

Nesse esquema podemos realizar a pesquisa inicialmente pelas tabelas dimensõese depois na fato, isso garante um acesso mais eficiente e um desempenho alto, visto quenão é necessário percorrer todas as tabelas para ter acesso aos dados.

Page 92: Anais do SMSI 2016

Figura 5. DW – ESQUEMA ESTRELA

Criação de processos ETL: Após a criação do esquema do DW no banco de dados, opróximo passo foi criar processos ETLs na ferramenta Microsoft SQL Server IntegrationServices. Foram criados dois processos ETL distintos. O primeiro para dar carga nastabelas dimensões e o segundo para a tabela fato. O processo ETL de carga nas tabelasdimensões pode ser visto através da Figura 6.

Figura 6. Processo de Carga ETL

Resultados da criação do DW: Um experimento foi realizado com um banco de dadosda CPA, com o objetivo de realizar uma consulta através dos questionários de questõesfechadas. Conforme mostra a Figura 7 podemos observar como os dados são agrupadosatravés de níveis e hierarquias. Para uma análise mais sucinta esse agrupamento é maisadequado e facilita análise dos dados. Nesse experimento é demostrado que existem 3tipos de avaliação, no qual 67,59% das pessoas entrevistadas responderam ao questionáriode avaliação institucional 2013.

As consultas realizadas em um DW podem ser detalhadas a um nível mais baixo deinformação. Conforme descemos o nível de detalhamento podemos descobrir dados queantes eram ocultos e superficiais passam a ser relevantes e significativos para a análise deconhecimento. A Figura 8 detalha os níveis e hierarquia expandidos entre as informaçõesreferentes ao questionário de engenharia, onde podemos explorar ao nível de questões edados referentes as suas respostas.

Page 93: Anais do SMSI 2016

Figura 7. Consulta da Base de Dados da CPA (Alto Nível)

Figura 8. Consulta da Base de Dados da CPA (Baixo Nível)

Através do um esquema DW podemos realizar diversos relatórios de forma rápidae dinâmica de acordo com a demanda da instituição. A Tabela 4 mostra um relatório pro-duzido pela CPA referente a pergunta aplicada em um questionário. A pergunta realizadafoi:“Você desenvolve alguma atividade remunerada (inclusive estágio remunerado)?”

Tabela 4. Relatório Aplicado CPA

Opções de Respostas No Respostas %

Sim, trabalho até 10 horas semanais 151 6.8Sim, trabalho de 10 a 20 horas semanais 184 8.2Sim, trabalho de 20 a 30 horas semanais 281 12.6Sim, trabalho entre 30 e 40 horas semanais 229 10.3Sim, trabalho mais de 40 horas semanais 165 7.4Não estou trabalhando no momento 1221 54.7Total 2231 100

Através desse relatório, podemos observar que a maioria dos entrevistados res-ponderam que não estão trabalhando no momento o que representa 54,7% das respostas.O uso de um DW para criação de relatórios se torna uma ferramenta poderosa nas mãosdas instituições para geração de conhecimento.

6. ConclusãoO presente artigo propôs uma abordagem para descoberta de conhecimento em instrumen-tos avaliativos de organizações de ensino superior. A abordagem proposta foi aplicada nocontexto de avaliação organizacional da Comissão Permanente de Avaliação (CPA) deIES e se mostrou efetiva para suportar a análise automática de questões abertas e fecha-das. Particularmente, técnicas de análise de conteúdo foram utilizadas para interpretarrespostas a questões abertas, enquanto técnicas de inteligência de negócio foram utiliza-das para interpretar respostas a questões fechadas, fornecendo um arcabouço ferramental

Page 94: Anais do SMSI 2016

que permitiu a descoberta de conhecimento relevante sobre os pontos fortes e fracos dodesempenho organizacional.

Como trabalhos futuros pretendemos incorporar em nossa abordagem as funcio-nalidades disponibilizadas pela plataforma de BI desenvolvida em SharePoint tal comodescrito em [Ribeiro and Tostes 2015]. Além disso, pretendemos estender a avaliação daabordagem proposta, aplicando-a em outras organizações de ensino superior e em outroscontextos organizacionais.

ReferênciasAudy, J. L. N.; Andrade, G. K. C. (2005). Fundamentos de sistemas de informação. Porto

Alegre: Bookman.

Barbieri, C. (2001). BI-business intelligence: modelagem e tecnologia. [S.l.]:. ISBN9788573231489.

Bardin, L. (2009). Análise de Conteúdo. Portugal; Edições 70, LDA.

Batista, E. d. O. (2004). Sistema de Informação : o uso consciente da tecnologia para ogerenciamento. São Paulo.

Camilo, O. C. and Silva, J. C. (2009). Mineração de dados: Conceitos, tarefas, métodos eferramentas. Master’s thesis, UFG.

Colaço, M. (2004). Projetando sistemas de apoio à decisão baseados em data warehouse.ISBN: 8573232080.

Cooper, D. R. and Sghindler, P. S. (2003). Business Research Methods.

Del Carmen Calatrava Moreno, M. (2014). A 360-degree evaluation framework for doc-toral programs. IEEE Global Engineering Education Conference (EDUCON), pages850 – 853.

Duan, L. and Xu, L. D. (2012). Business intelligence for enterprise systems: A survey.Industrial Informatics, IEEE Transactions on, 8:679 –687.

Gil, A. C. (1999). Métodos e técnicas de social. Capítulo II. O questionário. Conceitua-ção. Vantagens e limitações do questionário. A construção do questionário. p. 124-132.

Jacobson, R. and Misner, S. (2007). Microsoft: SQL Server 2005 Analysis Services. ISBN9788560031719.

Lakatos, E. and Marconi, M. (2010). Fundamentos de metodologia científica. ISBN9788522457588.

Nooralahzadeh, F., Viswanathan, A., and Costin, C. (2013). 2012 presidential electionson twitter - an analysis of how the us and french election were reflected in tweets.International Conference on Control Systems and Computer Science, page 7.

Oliveira, I. M. (2009). Estudo de uma metodologia de mineração de textos científicos emlíngua portuguesa. Master’s thesis, COPPE/UFRJ.

Ribeiro, C. E. and Tostes, A. I. J. T. R. (2015). Metodologia de geração de plataforma deinteligência de negócios para comissões de avaliação de universidade.

Richardson and Jarry, R. (1985). Pesquisa social; métodos e técnicas. Capítulo 9. Ques-tionário. Funções e características. p. 142-150.

Page 95: Anais do SMSI 2016

Apreciação da Aplicabilidade de um Conjunto de Heurísticas

para a Avaliação de Visualizações de Informação

Loraine Duarte1, Leonardo D. Miranda

1, Glívia A. R. Barbosa

1, Ismael S. Silva

1,

Flávio R. S. Coutinho1, Fábio R. da Silva

1, Diego A. F. Barros

2

1Centro Federal de Educação Tecnológica de Minas Gerais,

2Universidade Federal de

Minas Gerais

[email protected], [email protected],

[email protected], [email protected],

[email protected], [email protected],

[email protected]

Abstract. Due to the large number of information visualization techniques

available, we need to assess whether these techniques are being properly used

to represent a given data set. This kind of evaluation can be performed

through inspection with heuristics. This paper presents a set of heuristics to

evaluate the use of information visualization techniques. The evaluation of this

set showed its relevance and applicability to judge the adequacy of

information visualization techniques in different contexts.

Resumo. Em função do grande número de técnicas de visualização de

informação disponíveis, é preciso avaliar se essas técnicas estão sendo

utilizadas adequadamente para representar um determinado conjunto de

dados. Uma forma de realizar esse julgamento consiste na avaliação por

inspeção através de heurísticas. Este trabalho apresenta um conjunto de

heurísticas para avaliar o uso de técnicas de visualização de informação. A

avaliação desse conjunto permitiu demonstrar sua relevância e aplicabilidade

para julgar a adequação de técnicas de visualização de informação em

diferentes contextos.

1. Introdução

A evolução tecnológica viabilizou a geração, o compartilhamento e o consumo de um

grande volume dados. Esses dados são produzidos por diferentes fontes como, por

exemplo, os sistemas de informação gerenciais, sistemas de telecomunicação,

dispositivos móveis, sensores, entre outros [Sagiroglu e Sinanc, 2013]. Essa explosão de

dados tem chamado a atenção da sociedade em geral, sobretudo dos profissionais das

áreas acadêmica, indústria e comércio. Isso porque, o processamento e análise desses

dados podem contribuir para a descoberta de conhecimento e favorecer essas áreas de

diferentes formas (e.g., delinear estratégias para tomada de decisão na indústria e

avanços em pesquisas científicas) [Sagiroglu e Sinanc, 2013].

Nesse processo de descoberta de conhecimento, destaca-se a etapa de

visualização e análise dados, que normalmente é realizada através de sistemas de

visualização de informação. Esses sistemas fazem uso de diferentes técnicas de

visualização de informação (e.g., gráfico de barras, gráfico de linha, mapa geográfico,

tree map, grafos) para exibir os dados, visando facilitar a compressão e análise dos

dados por diferentes perfis de usuários [Forsell, 2012].

Page 96: Anais do SMSI 2016

Porém, em função da variedade de técnicas para visualização de informação,

surgiu o desafio relacionado à escolha da melhor técnica para representar dados em um

determinado contexto de análise (e.g., representar uma tendência temporal através do

gráfico de barras ou de linhas?). Motivados por esse desafio, pesquisadores como

Franciscani et al. (2014), apresentaram ontologias, taxonomias, notações e/ou

princípios, para melhor caracterizar essas técnicas e auxiliar no processo de escolha para

a adoção das mesmas.

Outra forma de verificar a adequação do uso de técnicas de visualizações para

representar dados consiste na aplicação de métodos de avaliação de visualizações

[Isenberg et al., 2013]. Dentre os métodos mais difundidos destacam-se aqueles que

propõem uma abordagem analítica para a avaliação, também conhecidos como métodos

de inspeção [Isenberg et al., 2013]. Durante esse tipo de avaliação, os avaliadores são

guiados por um conjunto de atributos (também conhecidos como heurísticas) que

descrevem critérios que qualificam o objeto em análise (e.g., “Organização Espacial” é

uma heurística que indica que a visualização deve organizar todos os elementos no

espaço disponível para melhor representar a informação). O objetivo da inspeção é

verificar quais heurísticas estão sendo atendidas e/ou violadas para atestar a adequação

da visualização para representar o conjunto de dados [Isenberg et al., 2013].

Nesse sentido, trabalhos como os realizados por Lam et al. (2011), Forsell

(2012), Isenberg et al. (2013), Zuk et al. (2006), Forsell e Johansson (2010) propõem

um conjunto de heurísticas para que especialistas em análise de dados e/ou usuários em

geral possam inspecionar e avaliar a adequação do uso de uma técnica de visualização

de informação em um determinado contexto de análise. Porém, conforme argumentado

por Zuk et al. (2006), uma vez que essas heurísticas se encontram dispersas na

literatura, existe a demanda de agrupá-las em um conjunto unificado e validar esse

conjunto, de modo a demonstrar sua aplicabilidade e relevância em diferentes contextos

de avaliação.

Motivados por essa demanda, o objetivo desse trabalho consiste em apresentar

um conjunto de heurísticas para avaliar técnicas de visualização de informação e

apreciar a relevância e aplicabilidade desse conjunto para julgar o uso dessas técnicas

em diferentes contextos de análise. Para alcançar esse objetivo, inicialmente foi

conduzida uma revisão bibliográfica para levantar as heurísticas existentes.

Posteriormente, o conjunto de heurísticas para avaliar técnicas de visualização foi

proposto a partir do agrupamento, da revisão e unificação das heurísticas presentes na

literatura. Por fim, o conjunto gerado foi avaliado, sob a perspectiva de especialistas e

usuários, quanto a sua aplicabilidade e relevância.

Nesse sentido, esse trabalho é relevante porque apresenta contribuições

científicas e práticas. Isso porque, o conjunto de heurísticas apresentado poderá ser

utilizado para avaliar a adequação do uso de técnicas de visualização de informação, na

fase de construção dessas visualizações, bem como em tempo de interação com as

mesmas. Além disso, esse conjunto poderá ser explorado por outros profissionais e

pesquisadores com intuito de validá-lo e/ou delinear suas vantagens e desvantagens em

diferentes cenários de avaliação.

Page 97: Anais do SMSI 2016

2. Trabalhos Relacionados

No âmbito de apreciação das técnicas de visualização de informação é possível

encontrar, pelo menos, três linhas de investigação: (1) trabalhos que abordam métodos

para avaliação de visualizações; (2) pesquisas que discutem os resultados de avaliações

de técnicas de visualizações e (3) trabalhos que abordam princípios, critérios e/ou

diretrizes/heurísticas para avaliar as técnicas existentes.

Em relação às pesquisas que abordam métodos de avaliação, é possível citar, por

exemplo, os trabalhos realizados por Morse et al. (2000), Chen e Yu (2000), Plaisant

(2004), Winckler et al. (2004), Mazza e Berre (2007), Carpendale (2008), Isenberg et al.

(2008), Lam et al. (2011), Forsell (2012), Isenberg et al. (2013). O trabalho realizado

por Morse et al. (2000) propõe uma taxonomia para avaliar se uma determinada técnica

de visualização apoia o usuário, adequadamente, na realização de tarefas (e.g,

recuperação de informação). Os autores argumentam que a taxonomia proposta pode ser

utilizada para avaliar técnicas de visualização de informação aplicadas a diferentes

conjuntos de dados (i.e., independente do domínio).

Por sua vez, Winckler et al. (2004) e Lam et al. (2011) apresentam métodos para

avaliar a usabilidade das técnicas de visualização de informação, sob a perspectiva de

usuários, a partir de um conjunto de tarefas e cenários. Segundo os autores, comparada

com os métodos de avaliação por inspeção de especialistas, essa abordagem, que

envolve os usuários, é mais eficaz para que, de fato, seja possível apreciar a utilidade da

visualização na interpretação e análise de dados.

De maneira similar, Mazza e Berre (2007) propõem um método, que faz uso de

entrevistas com grupos focais (i.e., grupo de usuários), para avaliar técnicas de

visualização de informação. Essa abordagem se baseia em perguntas abertas que

buscam verificar se a visualização que está sendo avaliada, de fato, é útil e auxilia o

usuário na extração da informação e/o conhecimento de interesse.

Já o trabalho realizado por Forsell (2012) discute e caracteriza como o método

Avaliação Heurística, proposto por Nielsen (1994), pode ser adaptado e aplicado para

apreciar a adoção de técnicas de visualização da informação. A partir de uma revisão na

literatura, os autores recomendam que as heurísticas a serem adotadas na Avaliação

Heurística para esse contexto contemplem, não apenas aspectos de usabilidade, mas

também princípios relacionados ao design da visualização, a interatividade com os

dados, além da completude, clareza e transparência dos mesmos. Dessa forma, a

aplicação do método poderá cobrir melhor as especificidades que uma avaliação de

visualização da informação demanda.

Por fim, os trabalhos realizados por Chen e Yu (2000), Plaisant (2004),

Carpendale (2008), Isenberg et al. (2008) e Isenberg et al. (2013) discutem a

aplicabilidade dos diferentes métodos, presentes na literatura, propostos para avaliar o

uso de técnicas de visualização de informação. Os autores apresentam as vantagens e

desvantagens de cada método, bem como os principais desafios relacionados a essas

avaliações, sobretudo, pelas diferentes dimensões que devem ser consideradas durante

essas apreciações (e.g., representação visual dos dados, usabilidade, utilidade e

interatividade).

Além desses, também foram encontrados trabalhos que discutem os resultados

de avaliações de técnicas de visualizações (e.g., Tory e Möller, 2005 e Bautista e

Page 98: Anais do SMSI 2016

Carenini, 2008). Nessa linha, é possível citar o trabalho realizado por Bautista e

Carenini (2008), que avaliou visualizações geradas pela ferramenta ValueCharts, guiado

por um conjunto de recomendações de usabilidade (i.e., guidelines). O objetivo dessa

avaliação foi verificar se as visualizações representavam os dados adequadamente, de

modo a auxiliar os usuários na interpretação e análise das informações de interesse.

Já no âmbito dos trabalhos que abordam princípios, critérios e/ou

diretrizes/heurísticas para apreciar técnicas de visualizações é possível citar, por

exemplo, os trabalhos realizados por Shneiderman (1996), Freitas et al. (2002), Amar e

Stasko (2004), Zuk e Carpendale (2006), Zuk et al. (2006), Forsell e Johansson (2010) e

Ribeiro et al. (2013).

O trabalho realizado por Freitas et al. (2002), buscou apresentar critérios a serem

utilizados em avaliações de usabilidade de técnicas de visualizações de dados, de modo

que a apreciação contemple aspectos relacionados à representação dos dados, bem como

as possibilidades de interação com os mesmos, a partir da visualização. De forma

similar, Forsell e Johansson (2010) apresentam um conjunto de heurísticas de

usabilidade para adaptar a Avaliação Heurística ao contexto de avaliação por inspeção

de técnicas de visualização de informação. Já a pesquisa realizada por Ribeiro et al.

(2013), buscou identificar a aplicabilidade das heurísticas de usabilidade, presentes na

literatura, para julgar técnicas de visualizações aplicadas a dados governamentais.

Por sua vez, Amar e Stasko (2004) descrevem um conjunto de requisitos para

projetar e avaliar técnicas de visualização, visando minimizar as lacunas que são

recorrentes no uso dessas técnicas: (1) a lacuna relacional e (2) a lacuna da visão do

mundo. No ano seguinte, Amar e Stasko (2005) apresentaram uma lista de critérios para

julgar o uso de visualizações de informação, sob a perspectiva das demandas de análise

dos usuários. Em outras palavras, os autores descrevem tarefas, comumente executadas

por usuários durante a interpretação e análise de uma visualização, e verificam se uma

determinada visualização permite a realização dessas tarefas.

Zuk et al. (2006) apresentaram uma análise comparativa entre três conjuntos de

heurísticas, disponíveis na literatura, para avaliar visualizações da informação. Os

resultados revelaram que cada conjunto analisado permite uma avaliação parcial das

técnicas, ou seja, não foi encontrado um conjunto que contemple o que os autores

chamam de “os três pilares para caracterização da qualidade de técnicas de

visualização” (i.e., estética/design, interatividade e transparência dos dados). Nesse

sentido, Zuk et al. (2006) argumentam sobre a necessidade de agrupar as heurísticas

presentes na literatura, de modo que esse agrupamento permita a geração de um

conjunto de heurísticas unificado, para avaliar técnicas de visualização e incorpore os

três pilares que caracterizam a qualidade dessas técnicas.

Page 99: Anais do SMSI 2016

Motivados pela demanda apresentada por Zuk et al. (2006), o presente trabalho

se difere dos demais, uma vez que apresenta e avalia a aplicabilidade de um conjunto de

heurísticas para avaliação de visualizações de informação, de modo a contemplar não

apenas os critérios de usabilidade (i.e., design/estética), mas também, os aspectos

relacionados à interatividade e a transparência dos dados representados pela técnica de

visualização em julgamento.

3. Metodologia

O trabalho foi conduzido por meio de uma metodologia subdividida em cinco etapas. A

primeira etapa consistiu em um levantamento bibliográfico com o objetivo de identificar

as heurísticas, presentes na literatura, para avaliação das técnicas de visualização da

informação. Essa revisão foi realizada nos principais repositórios de publicações

relacionadas à Computação (i.e., ACM Digital Library1, IEEE Xplore

2, Springer

3 e HCI

Bib 4

) e no Google Scholar5. A string de pesquisa contemplava os seguintes termos (em

português e, respectiva, tradução em inglês): visualização de informação, avaliação,

heurísticas, diretrizes e requisitos.

Na segunda etapa da metodologia, as heurísticas levantadas anteriormente foram

reunidas, revisadas e unificadas (i.e., ambiguidades e duplicidades foram eliminadas)

para que fosse possível criar e apresentar o conjunto de heurísticas para avaliar técnicas

de visualizações de informação. Esse agrupamento foi realizado por 03 especialistas em

processamento e análise de dados e 02 especialistas em visualização de dados.

As etapas três e quatro consistiram na apreciação da aplicabilidade e relevância

do conjunto proposto sob duas perspectivas. Inicialmente foi analisada a cobertura

dessas heurísticas para realizar avaliações por inspeção com especialistas. Nesta fase,

três visualizações do portal DataViva6 foram inspecionadas, seguindo os passos da

Avaliação Heurística, através do conjunto de heurísticas apresentado neste trabalho. Na

sequência, o conjunto de heurísticas foi avaliado sob a perspectiva de usuários. Para

isso, os participantes dessa fase avaliaram as três visualizações do DataViva (analisadas

anteriormente), a partir do conjunto de heurísticas e indicaram o grau de relevância das

mesmas para o contexto de avaliação de técnicas de visualização de dados.

Finalmente, a última etapa dessa pesquisa consistiu na triangulação dos

resultados, de modo que fosse possível discutir a aplicabilidade do conjunto de

heurísticas aqui apresentado para avaliar, por meio de inspeções, o uso de técnicas de

visualização de informação em diferentes contextos. A seguir cada etapa da

metodologia será detalhada e seus principais resultados serão apresentados e discutidos.

1 ACM Digital Library - http://dl.acm.org/

2 IEEE Xplore - http://ieeexplore.ieee.org/Xplore/home.jsp

3 Springer - http://www.springer.com/br/

4 HCI Bib - http://hcibib.org/

5 Google Scholar - https://scholar.google.com.br/ 6 DataViva - http://dataviva.info/pt/

Page 100: Anais do SMSI 2016

4. Definição do Conjunto de Heurísticas

A partir do levantamento bibliográfico foi possível identificar cinco trabalhos (i.e.,

Shneiderman (1996); Amar e Stasko (2004); Zuk e Carpendale (2006); Forsell e

Johansson (2010) e Ribeiro et al. (2013)) que apresentaram diferentes conjuntos de

heurísticas para avaliação de técnicas de visualização de informação. Esses trabalhos

foram utilizados como insumo para a criação do conjunto aqui apresentado.

A definição do conjunto foi conduzida por 03 especialistas em processamento e

análise de dados e 02 especialistas em visualização de dados (i.e., profissionais e/ou

pesquisadores das áreas com pelo menos 5 anos de experiência). Nesta etapa, os

conjuntos identificados na literatura foram reunidos, somando um total de 43

heurísticas. Contudo, uma vez que uma mesma heurística poderia ser proposta por

diferentes autores, foi necessário agrupar e unificar as heurísticas ambíguas e/ou

duplicadas.

Após esse agrupamento, as heurísticas foram revisadas de modo que o conjunto

apresentado neste trabalho contemplasse o que Zuk et al. (2006) chamou de “os três

principais aspectos de avaliação de técnicas de visualização” (i.e., design, interatividade

e transparência). A Tabela 1 apresenta o conjunto de heurísticas para avaliar o uso de

técnicas de visualização de informação definido neste trabalho.

Tabela 1. Heurísticas para Avaliação de Visualizações de Informação (HVI)

Código Nome Adaptada de

HVI_01 Codificação e percepção da Informação Zuk e Carpendale (2006), Forsell e Johansson (2010)

HVI_02 Determinar e caracterizar relações entre os dados Amar e Stasko (2004)

HVI_03 A codificação por cores deve garantir a

percepção da informação Zuk e Carpendale (2006), Ribeiro et al. (2013)

HVI_04 Organização espacial Zuk e Carpendale (2006), Forsell e Johansson (2010)

HVI_05 Múltiplos níveis de detalhes Shneiderman (1996), Zuk e Carpendale (2006),

Forsell e Johansson (2010), Ribeiro et al. (2013)

HVI_06 Determinar os parâmetros do domínio da análise

(Filtro) Amar e Stasko (2004), Ribeiro et al. (2013)

HVI_07 Integrar textos e/ou elementos complementares

sempre que relevante

Zuk e Carpendale (2006), Forsell e Johansson (2010),

Ribeiro et al. (2013)

HVI_08 Expor Incertezas Amar e Stasko (2004)

HVI_09 Remover distrações Forsell e Johansson (2010)

5. Cobertura das Heurísticas para Avaliar Visualizações por meio de

Inspeções com Especialistas

Inicialmente, o conjunto de heurísticas foi avaliado, quanto a sua cobertura para

caracterizar a qualidade de visualizações de informação, sob a perspectiva de

especialistas. Nessa análise, três visualizações disponíveis no portal do DataViva foram

avaliadas, seguindo os passos do método de inspeção Avaliação Heurística, proposto

por Nielsen (1994), guiado pelo conjunto de heurísticas apresentado neste trabalho.

O estudo de caso foi conduzido no DataViva, uma vez que essa é uma

plataforma para visualização de dados do governo de Minas Gerais (MG), disponível

para toda a sociedade. Essa plataforma faz uso de uma variedade de técnicas de

visualização de informação (e.g., gráficos de barras, gráficos de linhas, gráfico de área,

box plot, tree maps e mapas) aplicadas aos dados governamentais (e.g., salários e

Page 101: Anais do SMSI 2016

cargos, exportações e importações, balança comercial e ensino). O DataViva pode ser

utilizado tanto para analisar visualizações pré-configuradas, quanto para criação de

novas visualizações.

As avaliações foram realizadas em um período de 10 dias (entre 4 e 15 de Abril

de 2016), por 03 especialistas na geração e análise de visualizações da informação (i.e.,

profissionais e/ou pesquisadores da área com pelo menos 5 anos de experiência).

Durante a avaliação foram consideradas as seguintes visualizações: (1) Ocupações em

MG7; (2) Exportações em MG

8; e (3) Balança Comercial em MG

9. Essas visualizações

foram escolhidas por serem representadas por três diferentes técnicas: gráfico de área,

gráfico de linhas e tree map, respectivamente. Finalizadas as avaliações, os resultados

foram analisados de forma a observar: (1) o total de problemas encontrados, que foram

identificados a partir da violação das heurísticas propostas, e (2) a gravidade dos

mesmos.

Em relação ao número de problemas, a avaliação indicou 16 problemas que

violaram pelo menos uma heurística de avaliação. Todos os problemas identificados

foram mapeados para pelo menos uma heurística apresentada neste trabalho. Em outras

palavras, nenhum problema ficou sem classificação a partir do conjunto de heurísticas.

Dentre os problemas é possível exemplificar a “Falsa expectativa de

multiníveis”. Isso porque, todas as visualizações analisadas oferecem recursos de

interatividade que indicam a possibilidade de realizar operações de drill down (i.e.,

detalhamento de um nível de informação, de anos para meses, por exemplo). Porém, ao

interagir com esses recursos, são exibidas apenas informações complementares (e.g.,

outras visualizações relacionadas), que não indicam detalhamento de um nível. Esse

problema viola as heurísticas HVI_01 e HVI_05.

O gráfico da Figura 1 indica quantas heurísticas foram violadas, por visualização

analisada, e o percentual de problemas em que essas violações ocorreram. A partir

desses dados foi possível observar que 89% das heurísticas foram utilizadas para

caracterizar os 16 problemas identificados. Apenas a heurística “HVI_08 – Expor

incertezas” foi considerada “não aplicável” aos problemas. Isso pode ter ocorrido

porque os dados contemplados nas três visualizações analisadas são descritivos e não

possuem natureza incerta.

Esses resultados sugerem que as heurísticas, apresentadas neste trabalho,

representam e podem ser utilizadas para caracterizar os potenciais problemas

vivenciados por usuários de técnicas de visualizações de informação, sem que novas

categorias de problemas sejam demandadas.

7 Ocupações em MG -

http://dataviva.info/pt/embed/stacked/rais/4mg/all/all/cbo/?sort=asc&y=num_jobs&layout=value&order=color&contr

ols=true&year=2002_2014 8 Exportações em MG -

http://dataviva.info/pt/embed/tree_map/secex/4mg/all/all/hs/?color=color&depth=hs_6&controls=true&size=export_

val&year=2016 9 Balança Comercial em MG -

http://dataviva.info/pt/embed/line/secex/4mg/all/all/balance/?controls=true&time=year&year=2000-1_2016-

3&scale=linear&depth=direction&y=val_usd

Page 102: Anais do SMSI 2016

Figura 1. Incidência de violação das heurísticas nos problemas, por visualização.

Além de indicar as heurísticas violadas, a Avaliação Heurística prevê a

atribuição de gravidade para os problemas encontrados. As gravidades são

representadas por uma escala de 0 a 4, na qual quanto maior o valor da escala, mais

grave o problema no sentido de inviabilizar o uso do sistema. Esses dados podem ser

visualizados na Figura 2, que indica que a maioria dos problemas, mapeados pelas

heurísticas, apresenta gravidade 3 ou superior.

Figura 2. Gravidade dos problemas, por heurística.

Sendo assim, considerando a cobertura das heurísticas para identificar e

caracterizar os problemas, bem como a gravidade dos problemas que elas permitiram

caracterizar, os resultados apresentados, até o momento, reforçam o argumento de que

esse conjunto de heurísticas é aplicável para apreciar o uso de técnicas de visualização

de informação em diferentes contextos.

Contudo, se faz necessário, investigar a aplicabilidade desse conjunto sob outras

perspectivas, de modo que seja possível melhor evidenciar essa relevância. Para isso, a

próxima etapa dessa pesquisa visa avaliar as heurísticas sob a perspectiva dos usuários

de técnicas de visualizações de informação (i.e., indivíduos que apenas analisam essas

visualizações).

6. Relevância das Heurísticas para Avaliar Visualizações por meio de

Inspeções com Usuários

Conforme sugerido por Amar e Stasko (2005) e Ribeiro et al. (2013), para verificar se,

de fato, as heurísticas apresentadas nesse trabalho são adequadas e relevantes para

julgar o uso de técnicas de visualização de informação, as três visualizações do

DataViva (i.e., Ocupações em MG, Exportações em MG e Balança Comercial em MG)

0%

25%

50%

75%

100%

HVI_01 HVI_02 HVI_03 HVI_04 HVI_05 HVI_06 HVI_07 HVI_08 HVI_09

Balança Comercial Exportações Ocupações

0%

25%

50%

75%

100%

HVI_01 HVI_02 HVI_03 HVI_04 HVI_05 HVI_06 HVI_07 HVI_08 HVI_09

Gravidade 1 Gravidade 2

Page 103: Anais do SMSI 2016

também foram inspecionadas por usuários (i.e., pessoas que apenas consomem –

visualizam e analisam – informações).

Nesta etapa, 39 usuários responderam a um questionário online entre os dias

25/04/2016 e 02/05/2016 (07 dias). Durante essa avaliação, o usuário deveria indicar,

para cada visualização, se a heurística estava sendo contemplada, violada ou não se

aplicava. Sendo assim, uma heurística foi considerada aplicável ao contexto de

avaliação quando indicada pelo usuário como presente ou violada na técnica de

visualização em análise. O gráfico da Figura 3 apresenta o percentual de usuários que

utilizou cada uma das heurísticas para avaliar as visualizações.

Figura 3. Aplicabilidade das Heurísticas na visão dos Usuários

Através dos dados apresentados na Figura 3 é possível observar que todas as

heurísticas foram utilizadas (aplicadas) por, pelo menos, 60% dos usuários para julgar

cada uma das visualizações, sendo que, sete, das nove heurísticas, foram aplicadas por

pelo menos 77% dos usuários. Além disso, nenhum usuário apontou problemas (embora

houvesse a opção) que não pudessem ser mapeados para pelo menos uma das

heurísticas. Assim como na avaliação com os especialistas, esses dados reforçam a

aplicabilidade do conjunto de heurísticas proposto, uma vez que a maioria das

heurísticas foi utilizada pela maioria dos usuários, durante a avaliação.

Além da aplicabilidade, o usuário deveria indicar, em uma escala de Muito

Relevante, Relevante, Pouco Relevante ou Irrelevante, a importância de cada heurística,

0% 25% 50% 75% 100%

Ocupações

Exportações

Balança Comercial

Ocupações

Exportações

Balança Comercial

Ocupações

Exportações

Balança Comercial

Ocupações

Exportações

Balança Comercial

Ocupações

Exportações

Balança Comercial

Ocupações

Exportações

Balança Comercial

Ocupações

Exportações

Balança Comercial

Ocupações

Exportações

Balança Comercial

Ocupações

Exportações

Balança Comercial

HV

I_0

1H

VI_

02

HV

I_0

3H

VI_

04

HV

I_0

5H

VI_

06

HV

I_0

7H

VI_

08

HV

I_0

9

Page 104: Anais do SMSI 2016

diante do contexto para o qual ela foi proposta. A Figura 4 sumariza os resultados dessa

avaliação.

Figura 4. Relevância das Heurísticas na visão dos Usuários

Os dados obtidos nesta avaliação indicam que, na opinião da maioria dos

usuários (aproximadamente 70%), todas as heurísticas são relevantes (i.e., relevantes ou

muito relevantes) para o contexto de avaliação de técnicas de visualização de

informação, exceto a heurística HVI_08, que foi considerada pouco relevante por

aproximadamente 40% dos participantes.

Diante desses resultados, é possível perceber que na visão dos usuários

participantes desta pesquisa, as heurísticas propostas para julgar o uso de técnicas de

visualização em diferentes contextos são aplicáveis e relevantes.

7. Discussão dos Resultados

Para concluir a apreciação da aplicabilidade das heurísticas propostas, os resultados

gerados a partir das avaliações com especialistas e os usuários foram triangulados. A

triangulação refere-se a um procedimento da pesquisa qualitativa realizada por

intermédio da comparação de dados extraídos por diferentes métodos, cujo intuito é

conferir a validade dos resultados obtidos em uma pesquisa científica [Cho e Trent,

2006].

A partir dessa triangulação é possível argumentar que o conjunto de heurísticas

apresentado neste trabalho cobre, adequadamente, os critérios para avaliar a adequação

do uso de técnicas de visualização. Isso porque, tanto na visão dos especialistas, quanto

dos usuários, todos os problemas identificados foram mapeados para a violação de pelo

menos uma heurística, lembrando que em ambas as avaliações outros problemas

poderiam ser listados.

De forma complementar, esse conjunto pode ser considerado aplicável e

relevante, uma vez que, apenas a heurística HVI_08 não foi aplicada para julgar as

técnicas em análise na Avaliação Heurística. Além disso, a maioria dos problemas

identificados foi classificada com alta gravidade (gravidades 3 e 4). Considerando que

problemas de gravidade alta podem impactar na interação dos usuários, o conjunto

proposto se mostrou relevante neste aspecto. De forma similar, para mais de 90% dos

usuários, as heurísticas possuem algum grau de relevância, sendo que, para pelo menos

70% deles, esse grau foi considerado muito relevante ou relevante, com exceção da

heurística HVI_08.

0%

25%

50%

75%

100%

HVI_01 HVI_02 HVI_03 HVI_04 HVI_05 HVI_06 HVI_07 HVI_08 HVI_09

Muito Relevante Relevante Pouco Relevante Irrelevante

Page 105: Anais do SMSI 2016

8. Conclusões e Trabalhos Futuros

Este trabalho apresentou e avaliou um conjunto de heurísticas para julgar o uso de

técnicas de visualização de informação em diferentes contextos. A avaliação das

heurísticas apresentadas buscou apreciá-las sob diferentes perspectivas, o que permitiu

demonstrar a aplicabilidade e relevância das mesmas, na visão de especialistas e

usuários, para serem utilizadas como insumo em avaliações de técnicas de visualização.

Desse modo, a relevância desse trabalho pode ser demonstrada por suas

contribuições práticas e científicas. Em termos científicos, o conjunto de heurísticas

poderá ser explorado por outros pesquisadores de modo que seja possível validá-lo e/ou

delinear suas vantagens e desvantagens em diferentes cenários de avaliação. Na prática,

as heurísticas apresentadas neste trabalho poderão ser utilizadas para avaliar a

adequação do uso de técnicas de visualização de informação, tanto na fase de

construção dessas visualizações, quanto em tempo de interação com as mesmas. Além

disso, o conjunto apresentado poderá ser evoluído por outros profissionais e/ou

pesquisadores.

Como direções futuras, esse trabalho pode ser estendido com a proposta de

metodologias que façam uso das heurísticas aqui apresentadas, tanto para avaliar,

quanto para projetar técnicas de visualização de informação.

Referencias

Amar, R. and Stasko, J. 2004. A Knowledge Task-Based Framework for Design and

Evaluation of Information Visualizations. In Proc. of IEEE InfoVis, pages 143–149,

Los Alamitos, USA, 2004. IEEE Press

Bautista, J. and Carenini, G., 2008, May. An empirical evaluation of interactive

visualizations for preferential choice. In Proceedings of the working conference on

Advanced visual interfaces (pp. 207-214). ACM

Carpendale, S., 2008. Evaluating information visualizations. In Information

Visualization (pp. 19-45). Springer Berlin Heidelberg

Chen, C. and Yu, Y., 2000. Empirical studies of information visualization: a meta-

analysis. International Journal of Human-Computer Studies, 53(5), pp.851-866.

Cho, J. & Trent, A. 2006. Validity in qualitative research revisited. Qualitative

Research, 6(3):319--340.

Forsell, C., 2012, July. Evaluation in information visualization: Heuristic evaluation. In

Information Visualisation (IV), 2012 16th International Conference on (pp. 136-

142). IEEE.

Forsell, C. and Johansson, J. 2010, May. An heuristic set for evaluation in information

visualization. In Proceedings of the International Conference on Advanced Visual

Interfaces (pp. 199-206). ACM.

Franciscani Jr, G., Santos, R. L., Ottoni, R., Pesce, J. P., Meira Jr, W., & Melo-Minardi,

R. 2014. An annotation process for data visualization techniques. In Proceedings of

the 3rd International Conference on Data Analytics.

Page 106: Anais do SMSI 2016

Freitas, C.M., Luzzardi, P.R., Cava, R.A., Winckler, M., Pimenta, M.S. and Nedel, L.P.,

2002, May. On evaluating information visualization techniques. In Proceedings of

the working conference on Advanced Visual Interfaces (pp. 373-374). ACM.

Isenberg, P., Zuk, T., Collins, C. and Carpendale, S., 2008, April. Grounded evaluation

of information visualizations. In Proceedings of the 2008 Workshop on Beyond time

and errors: novel evaluation methods for Information Visualization (p. 6). ACM.

Isenberg, T., Isenberg, P., Chen, J., Sedlmair, M. and Moller, T., 2013. A systematic

review on the practice of evaluating visualization. Visualization and Computer

Graphics, IEEE Transactions on, 19(12), pp.2818-2827.

Lam, H., Bertini, E., Isenberg, P., Plaisant, C. and Carpendale, S., 2011. Seven guiding

scenarios for information visualization evaluation.

Mazza, R. and Berre, A., 2007, July. Focus group methodology for evaluating

information visualization techniques and tools. In Information Visualization, 2007.

IV'07. 11th International Conference (pp. 74-80). IEEE.

Morse, E., Lewis, M. and Olsen, K.A., 2000. Evaluating visualizations: using a

taxonomic guide. International Journal of Human-Computer Studies, 53(5), pp.637-

662.

Nielsen, J. 1994. Usability inspection methods. In: ACM. Conference companion on

Human factors in computing systems. p. 413–414.

Plaisant, C., 2004, May. The challenge of information visualization evaluation. In

Proceedings of the working conference on Advanced visual interfaces (pp. 109-116).

ACM.

Ribeiro, F., Caetano, B., Paula, M., Chaves, M., Silva, V., Rodrigues, S. and Souza,

J.M., 2013. Heurísticas para Visualização de Dados. IX Simpósio Brasileiro de

Sistemas de Informação, João Pessoa, pp.744-755.

Sagiroglu, S.; Sinanc, D. Big data: A review. In: Collaboration Technologies and

Systems (CTS), 2013 International Conference on, San Diego, CA, 2013, pp. 42-47.

Shneiderman, B. 1996. The Eyes Have It: A Task by Data Type Taxonomy for

Information Visualizations. In Proc. of the IEEE Symposium on Visual Languages,

pages 336–343. IEEE Press, 1996

Tory, M. and Möller, T., 2005. Evaluating visualizations: do expert reviews work?.

Computer Graphics and Applications, IEEE, 25(5), pp.8-11.

Winckler, M.A., Palanque, P. and Freitas, C.M., 2004, November. Tasks and scenario-

based evaluation of information visualization techniques. In Proceedings of the 3rd

annual conference on Task models and diagrams (pp. 165-172). ACM.

Zuk, T. and Carpendale, M. S. T. 2006. Theoretical Analysis of Uncertainty

Visualizations. In Proc. SPIE & IS&T Conf. Electronic Imaging, Vol. 6060:

Visualization and Data Analysis 2006, 2006. 606007.

Zuk, T., Schlesier, L., Neumann, P., Hancock, M.S. and Carpendale, S., 2006, May.

Heuristics for information visualization evaluation. InProceedings of the 2006 AVI

workshop on BEyond time and errors: novel evaluation methods for information

visualization (pp. 1-6). ACM.

Page 107: Anais do SMSI 2016

Gestão da qualidade do código-fonte como medida de identificação e consequente prevenção à dívida técnica não-

intencional em projetos de software

Vinícius L. Amaral, Maria A. V. Nelson

Instituto de Ciências Exatas e Informática - ICEI Pontifícia Universidade Católica de Minas Gerais – PUC Minas

CEP: 30640-070 – Belo Horizonte – MG – Brasil

[email protected], [email protected]

Abstract. This paper presents a solution to monitoring code anomalies using automated tools and a case study applying these tools. A study on technical debt, their ratings and main causes was made. In this work, it was created a tool that integrates a code anomaly detector and a version control tool for projects developed on the .NET platform. The final product of this work allowed identify and report who was responsible for the anomalies found in the code. This study also made possible the creation of a historical basis to monitor the evolution of the quality of the code from the projects used in the case. In the proposed solution still, developers can justify the anomalies or, after its correction, can change the event status to "Resolved".

Resumo. Este trabalho apresenta uma solução para o acompanhamento de anomalias de código por meio de ferramentas automatizadas e um estudo de caso aplicando essas ferramentas. Foi realizado um estudo sobre dívida técnica, suas classificações e principais causas. A partir deste, foi criada uma ferramenta que integra um detector de anomalias de código e uma ferramenta de controle de versão para projetos desenvolvidos na plataforma .NET. O produto final deste trabalho possibilitou a identificação e notificação dos responsáveis pelas anomalias encontradas no código dos projetos avaliados de uma fábrica de software de Belo Horizonte. Além disso, tornou-se possível a criação de uma base histórica para acompanhamento da evolução da qualidade do código dos projetos utilizados no estudo. Ainda na solução proposta, os desenvolvedores conseguem justificar as anomalias ou, após a sua correção, alterar o status da ocorrência para “Resolvido”.

1. Introdução

De acordo com Jalote (2005), uma das maiores dificuldades da engenharia de software é resolver o problema e deixar o cliente satisfeito com o sistema entregue. Mesmo diante dessa afirmação, a constatação de que o problema que motivou o desenvolvimento de um sistema foi resolvido a partir do reconhecimento de que as necessidades do cliente foram satisfeitas não implica necessariamente que o produto criado é de qualidade.

Durante a elaboração de um software, principalmente ao se adotar uma metodologia de desenvolvimento, seja ágil ou tradicional, questões importantes como

Page 108: Anais do SMSI 2016

prazo e custo são constantemente observadas. Quando anormalidades que refletem em algum desses pontos são detectadas em projetos, a tomada de decisões que tornem o desenvolvimento mais rápido ou economicamente viável pode ganhar força, o que, consequentemente, tende a impactar na qualidade do produto final. Essas decisões são capazes de gerar o que o Ward Cunningham classificou como Dívida Técnica.

Com empréstimo bancário você pode fazer algo mais cedo do que de outra forma, mas até você pagar esse dinheiro de volta, você estará pagando juros. Eu achei que fazer um empréstimo era uma boa ideia. Eu pensei que lançar rapidamente softwares para ter alguma experiência era uma boa ideia. Mas é claro que, eventualmente, você irá voltar e, como aprendeu mais coisas sobre esse software, você irá pagar esse empréstimo reformulando esse software para refletir as experiências que você coletou. (CUNNINGHAM, 2009)

Ao longo do tempo, a metáfora de Cunningham vem sendo estudada por outros pesquisadores que tentam incrementar a definição dada por ele na tentativa de elaborar uma teoria formal sobre o assunto. McConnell (2007) segmentou a Dívida Técnica em dois grandes grupos: as que são concebidas de forma não intencional e as intencionais que, geralmente, são adotadas por estratégia de negócio.

Para McConnel (2007), as dívidas não-intencionais são provenientes de um trabalho mal executado, geralmente por falta de experiência dos membros da equipe. Outras vezes, quando determinada empresa incorpora outra ao grupo, a Dívida Técnica acumulada em projetos anteriormente desenvolvidos também é adquirida. Em se tratando de dívidas intencionais considera-se que, normalmente, são concebidas em uma decisão consciente na tentativa de reduzir os gastos no momento, considerando que isso poderá ser pago no futuro. Independentemente da forma como a dívida foi concebida é possível descreve-la, segundo Seaman e Guo (2011), como uma metáfora para artefatos imaturos, incompletos ou inadequados no ciclo de desenvolvimento de software.

A grande diferença da analogia da dívida financeira proposta por Cunningham (2009) ao conceito de Dívida Técnica na sua forma literal concentra-se no fato de que, na Dívida Técnica, os juros não podem ser mensurados da mesma forma como são estabelecidos em um empréstimo bancário. Para Fowler (2004), o mais difícil é que, ao contrário do dinheiro, é impossível medir de forma eficaz. Os pagamentos de juros podem afetar a produtividade de uma equipe, mas não podemos realmente ver o verdadeiro efeito da nossa Dívida Técnica.

Mesmo diante dessa dificuldade existem algumas ferramentas disponíveis no mercado que trabalham com este conceito. O SonarQube, distribuído pela SonarSouce, é uma delas. Trata-se um sistema para gestão da qualidade de códigos-fonte em projetos escritos em várias linguagens de programação como C# e Java. O SonarQube, que até o ano de 2013 era chamado simplesmente de Sonar, aliado ao plug-in SQALE, apresenta a proporção de Dívida Técnica que determinado projeto contém a partir da análise do código do projeto sob o aspecto de um conjunto de regras que influenciam na determinação desse índice, detectando prováveis anomalias.

Este trabalho apresenta um estudo de caracterização de anomalias de código e o impacto de alguns de seus causadores, na perspectiva do SonarQube, em projetos reais de uma organização tradicional em desenvolvimento de sistemas de Belo Horizonte. A partir do uso de ferramentas para gerenciamento e controle da qualidade de códigos-fonte aliadas ao uso de gestão de configuração, uma solução foi criada com o objetivo de minimizar ou auxiliar no controle da qualidade do código. Dessa forma, espera-se

Page 109: Anais do SMSI 2016

promover uma diminuição no tempo de reação das equipes, na execução de projetos de desenvolvimento de sistemas, caso venha a ocorrer esse tipo de problema além de oferecer um mecanismo capaz de auxiliar no arquivamento dos problemas encontrados, para posterior disseminação entre as equipes como lições aprendidas.

A seção 2 do trabalho descreve resumidamente algumas das ferramentas existentes no mercado que tratam do gerenciamento do ciclo de vida de aplicações, um conceito que está diretamente relacionado à dívida técnica por representar as preocupações com o software durante todo o processo de criação e manutenção. Na seção 3 é explicada a metodologia utilizada para que os resultados fossem alcançados, tendo sido dividida em quatro fases, sendo elas: Pesquisa teórica, Estudo de ferramentas, Desenvolvimento e Validação dos resultados. A seção 4 descreve como foi dada a execução do trabalho e a seção 5 elicita os resultados obtidos nessa fase. Por último, na seção 6 é relatada a conclusão além de serem feitas sugestões para trabalhos futuros.

2. Trabalhos Relacionados

Existem hoje algumas ferramentas disponíveis no mercado para o gerenciamento do ciclo de vida de aplicações. Sabe-se, inclusive, que o próprio TFS (Team Foundation Server) disponibiliza uma funcionalidade para automação de build e execução de atividades (programas) no meio desse processo. Neste contexto de integração contínua a execução do Sonar poderia ser um dos passos executados. Entretanto, de acordo com Kent (2015) a integração TFS/Sonar ainda possui alguns problemas e precisa ser melhorada.

Assim como o TFS considera-se relevantes para o estudo ferramentas como Hudson e Jenkins, pois também disponibilizam mecanismos de integração contínua. De acordo com o site do fabricante, o Jenkins auxilia em questões relacionadas à qualidade, havendo a possibilidade de integração com plug-ins que incrementam a solução nesse contexto, sendo um desses plug-ins o próprio Sonar.

3. Metodologia

O trabalho foi concebido sob a perspectiva de uma pesquisa-ação. Segundo Tripp (2005) a pesquisa-ação é uma ideia desenvolvida na Psicologia, e depois adotada por outras ciências sociais aplicadas, onde deixa-se a postura do cientista que observa e aprende observando pela do cientista que atua, modifica e aprende dessa ação. Sua condução foi dividida em quatro fases, sendo elas: Pesquisa teórica, Estudo de ferramentas, Desenvolvimento e Validação dos resultados. Relata-se abaixo como o andamento de cada uma dessas fases foi conduzido.

3.1. Pesquisa Teórica

O trabalho foi iniciado a partir de uma revisão de literatura sobre o tema “Dívida Técnica”, o que foi fundamental para alicerçar a pesquisa conduzida sob os fundamentos teóricos propostos pelos estudiosos da área. Para isto foi considerada a captação de conteúdo de diversas fontes, como livros de aceitação acadêmica consolidada no que tange à Engenharia de Software, repositórios de artigos, dissertações de mestrado e teses de doutorado, matérias de revistas eletrônicas sobre assuntos relacionados ao tema, dentre outros.

Page 110: Anais do SMSI 2016

3.2. Estudo de Ferramentas

Em seguida foi realizada uma busca e posteriormente uma análise das ferramentas hoje disponíveis que tem como foco a garantia da qualidade do código-fonte e a mensuração do índice de Dívida Técnica em projetos de software. Com isso foi possível encontrar o SonarQube, um software de fácil integração com outras ferramentas, que contempla múltiplas linguagens de programação, capaz de identificar possíveis problemas no código a partir da sua extensa base de regras.

Nesse momento foi definido o objetivo do trabalho: relacionar as anomalias detectadas ao responsável pelo trecho específico do código no qual ela se encontra. Com os responsáveis identificados, medidas poderiam ser tomadas a fim de que esses desenvolvedores reduzam a quantidade de anomalias provocadas o que, do ponto de vista do SonarQube, influenciaria positivamente no índice de Dívida Técnica dos projetos. Para a identificação do responsável por cada linha do projeto analisado, o TFS foi a ferramenta de gestão de configuração escolhida, a mesma usada pela empresa que forneceu os projetos para o estudo.

3.3. Desenvolvimento

O desenvolvimento do produto final do trabalho contempla dois programas executados por linha de comando (console) e uma aplicação web:

a. Code Updater: programa console desenvolvido para a obtenção da última versão do código no repositório do TFS dos projetos cadastrados para análise;

b. Sonar Lint: trata-se de um plug-in de código aberto, também disponibilizado pela SonarSource, capaz de oferecer análise das regras verificadas pelo SonarQube enquanto o desenvolvedor produz o código. Um dos projetos que compõe a solução do Sonar Lint (o código do plug-in foi obtido no Github) é um executor externo, em formato console, que pode ser usado para avaliar projetos já existentes, ou seja, as funcionalidades implementadas para avaliação de código em tempo real podem ser reaproveitadas para uma análise que não seja em tempo real. Foram feitas algumas modificações no código original da versão 1.2.0 para que o resultado das análises desse executor seja salvo no banco de dados da solução proposta neste trabalho e não mais na sua forma original (em um arquivo XML);

c. Noncy SM: Aplicação Web desenvolvida para que o responsável nomeado pela organização que optar por utilizar a ferramenta (líder técnico ou gerente de projetos) cadastre os projetos que serão analisados e obtenha relatórios das análises realizadas. Além disso, é nessa aplicação que o membro da equipe, causador da anomalia, poderá justificar sua ocorrência alterando para “Resolvido” o status da anomalia corrigida ou justificada.

3.4. Validação dos Resultados

Após a fase de desenvolvimento estipulou-se como meta uma avaliação de três projetos, por meio da solução proposta, desenvolvidos em uma fábrica de software de Belo Horizonte com mais de 20 anos de atuação no mercado nacional de desenvolvimento de sistemas. Trata-se de uma empresa de médio porte, que possui respeitada certificação concedida pelo programa de Melhoria do Processo de Software Brasileiro (MPS.BR), sendo classificada com nível de maturidade C, na escala definida por esse modelo que vai

Page 111: Anais do SMSI 2016

de A à G. Essa organização presta serviços para os mais diversos segmentos, atendendo indústrias, construtoras, instituições financeiras, etc.

Não foram definidos critérios de seleção para os projetos selecionados. A aleatoriedade da escolha tornou possível a avaliação da qualidade do código em si sem se concentrar em projetos que possam ter passado por alguma situação específica, o que poderia ter impactado na qualidade do código. A diretoria da empresa se comprometeu a fornecer código-fonte, especificação e demais artefatos gerados em três projetos desenvolvidos entre os anos de 2013 e 2015. Todos os projetos escolhidos foram desenvolvidos na Linguagem de Programação C#, utilizaram Banco de Dados SQL Server e tiveram sua matriz de rastreabilidade criada pelo TFS.

4. Execução

Foi desenvolvida uma solução que tem por objetivo auxiliar na gestão da qualidade do código-fonte em projetos de software construídos na plataforma .NET. A ferramenta desenvolvida não pode ser considerada uma composição única. Trata-se, na verdade, de uma solução fragmentada em dois programas console e uma aplicação Web, todos construídos utilizando a linguagem de programação C#. É descrito nessa seção o funcionamento de cada um desses componentes.

4.1. Code Updater

Considerando as constantes mudanças que afetam as regras do mercado e também as necessidades dos usuários, torna-se difícil predizer como um software evoluirá com o passar do tempo Pressman (2011). Segundo Sales et al (2008), num contexto de modificação constante e alta complexidade dos artefatos de software produzidos, a Gerência de Configuração de Software (GCS) é a área da Engenharia de Software cujo principal objetivo é evitar a perda de controle do projeto do ponto de vista da gerência de artefatos. Para auxiliar neste controle, a fábrica de software que disponibilizou os projetos analisados na seção 5 utiliza o Team Foundation Server para gestão de configuração e controle de versão de seus projetos.

O Code Updater foi desenvolvido para fazer o download automático do código dos projetos cadastrados no Noncy SM. A partir do caminho da solução, o código é baixado em formato .zip, descompactado e armazenado em um repositório pré-definido para posterior análise.

4.2. Sonar Lint

A nova plataforma de compilação .NET, também conhecida como Projeto Roslyn, é uma nova implementação dos compiladores C# e VB disponível no Visual Studio 2015. Essa plataforma oferece uma nova API (Application Programming Interface) para análise de código em tempo real. Antes do projeto Roslyn os compiladores da Microsoft eram vistos como caixas-pretas, sobre os quais não se sabia nada do processo de tradução do código escrito em C# (ou VB) para uma DLL (Dynamic Link Library). A partir da versão 2015 do Visual Studio a Microsoft passou a disponibilizar algo conhecido por “compilador como serviço”, oferecendo mecanismos que possibilitam a manipulação da estrutura sintática de determinado trecho de código por outro programa via API.

Considerando o trecho de código escrito em C# do Quadro 1, utilizando o plug-in Syntax Visualizer, o desenvolvedor passa a ter acesso à árvore sintática gerada que

Page 112: Anais do SMSI 2016

representa a forma pela qual o compilador interpretou o código, conforme ilustrado na Figura 1.

Quadro 1. Trecho de código escrito em C#

Figura 1. Árvore sintática de um trecho de código em C# (fonte: próprio autor)

O novo conceito de compilador caixa-branca viabiliza a construção de analisadores de código para diversos fins. Pode-se, por exemplo, construir um analisador específico para métodos que não permita que o desenvolvedor crie uma função com mais de sete parâmetros (situação hipotética). Nesse caso, um alerta em tempo real seria lançado ou até mesmo o código poderia ser impedido de compilar.

A partir do conhecimento sobre esse recurso da nova Plataforma de Compilação .NET a equipe SonarSource criou um conjunto de analisadores de código nomeado Sonar Lint, implementando a busca em tempo real por algumas das anomalias verificadas pelo SonarQube. O Sonar Lint é um software aberto, passível de modificações. Dessa forma, um dos projetos da solução do Sonar Lint, que permite a análise de projetos pelo conjunto de analisadores também em tempo não-real (usando o Sonar Lint dessa forma temos um comportamento parecido com o do SonarQube), foi modificado para que os projetos cadastrados no Noncy SM fossem analisados. O Sonar Lint também foi alterado para que o resultado apresentado pela execução da análise, antes salvo em XML (Extensible Markup Language), passasse a ser salvo no banco de dados da solução proposta neste trabalho e também para notificar por e-mail os responsáveis pelas anomalias encontradas ao fim das análises diárias.

4.3. Noncy SM

Trata-se de uma aplicação Web que permite aos gestores da organização o cadastro e gerenciamento dos projetos que deverão ser analisados. Possui também uma funcionalidade que permite aos usuários listar todas as regras analisadas pelo Sonar Lint. Além disso, nessa aplicação é possível visualizar todas as anomalias encontradas nas análises diárias, permitindo aos responsáveis por cada uma delas escrever comentários que justificam o desvio inserido no código. Finalmente, o Noncy SM disponibiliza relatórios aos usuários com quantitativos das análises dos projetos.

Console.Write("A casa é verde!");

Page 113: Anais do SMSI 2016

4.4. Integração entre os três componentes

Considerando a solução do ponto de vista do Noncy SM, visto que é a única parte diretamente perceptível ao usuário, é possível identificar a atuação de quatro atores principais que interagem para o seu funcionamento. Os atores identificados e suas respectivas ações foram representados graficamente no Diagrama de Casos de Uso da Figura 2.

Figura 2. Diagrama de casos de uso da aplicação Noncy SM (fonte: próprio autor)

Utilizando-se dos modelos de computação em nuvem Infrastrutcture as a Service (IaaS) e Plataform as a Service (PaaS) conforme explicado por Pedrosa e Nogueira (2011), foi adquirida uma máquina virtual no Windows Azure com o sistema operacional Windows Server 2012. Nessa máquina, foi criada uma tarefa agendada, executada diariamente, para que o Code Updater baixasse o código-fonte atualizado dos projetos cadastrados no Noncy SM e o Sonar Lint fizesse a busca por anomalias. Dessa forma, na madrugada do dia posterior à inclusão de possíveis anomalias no código o diagnóstico teria sido computado e o desenvolvedor notificado por e-mail para correção imediata se necessário. A forma como se dá o relacionamento entre os três componentes da solução está ilustrada na Figura 3.

Figura 3. Relacionamento entre os três componentes da solução (fonte: próprio autor)

Page 114: Anais do SMSI 2016

5. Apresentação dos Resultados

Essa seção apresenta os resultados fornecidos pela solução na avaliação de três projetos de uma fábrica de software. Abaixo segue uma breve descrição dos projetos analisados relacionando-os com a finalidade para a qual foram planejados:

Projeto 01: aplicação responsável por gerenciar o relacionamento de uma multinacional do segmento de mineração com seus fornecedores. O projeto iniciou em agosto de 2015 e foi entregue em dezembro do mesmo ano.

Projeto 02: solicitada por um grupo de empreendedores, essa aplicação tem como objetivo o gerenciamento de um clube de benefícios, onde o usuário paga uma quantia mensal (inicialmente R$ 20,00) e concorre a prêmios, tendo como garantia o retorno do valor investido em créditos para o celular. O projeto iniciou em janeiro e foi concluído em outubro de 2015. Pontualmente ainda são realizadas algumas melhorias.

Projeto 03: trata-se de uma aplicação responsável por gerenciar a troca de materiais entre empresas: se determinada empresa fará o descarte de um material que poderia servir como matéria-prima para o processo produtivo de outra organização, a manifestação do descarte e do interesse são feitas e mediadas pelo sistema. O projeto iniciou em 2013 e foi entregue em janeiro de 2015.

Foram criados cinco relatórios para validação dos resultados. O primeiro deles tem por finalidade quantificar as anomalias encontradas em cada projeto, conforme ilustrado na Tabela 1. Um fato instigante retratado neste relatório é que, mesmo o Projeto 02 contando com pouco mais da metade de linhas que o Projeto 03 e menos da metade de comandos (ou instruções de código) que o mesmo projeto, no Projeto 02 foram registradas mais anomalias que no projeto 03, apresentando uma diferença de 8%.

Tabela 1. Relatório quantitativo de anomalias por Projeto

Projeto Linhas Linhas de Código

Comandos Funções Classes Anomalias

Projeto 01 10735 7987 2246 582 135 235

Projeto 02 17084 12792 3137 600 259 439

Projeto 03 30616 20261 6924 1658 335 405

O fato do número de anomalias registradas no código do Projeto 02 ser maior se comparado ao Projeto 03 foi justificado no segundo relatório que retorna a lista das anomalias reportadas em cada projeto. O número de anomalias encontradas no projeto 02 sofreu grande impacto pelo fato deste projeto ter sido desenvolvido sob uma nova arquitetura ainda em fase de experimentação na empresa que cedeu os projetos para o estudo. Nessa arquitetura, por padrão, o nome das classes e métodos de uma das camadas são escritos em letras maiúsculas, motivo pelo qual as regras S101 e S100 foram infringidas 130 vezes. Essas regras determinam que o nome dos métodos (S100) e o nome das classes (S101) devem seguir um padrão pré-determinado por uma expressão regular. Não seguir esse padrão pode dificultar a leitura do código, sendo essa regra classificada pela equipe responsável pelo Sonar Lint com um índice de gravidade 3 (médio). A escala definida varia de 1 a 5, em um nível crescente de gravidade, ou seja, quanto mais próximo de 5, mais grave.

Page 115: Anais do SMSI 2016

Outro ponto interessante expresso no relatório 2 é que a regra S125 foi a que teve mais registros nos três projetos. De todas as anomalias encontradas, essa regra foi responsável por 30,21% dos apontamentos no Projeto 01, 24,15% no Projeto 02 e 37,78% no Projeto 03. Essa anomalia está relacionada a trechos de código comentados no corpo dos arquivos que compõem os projetos. Segundo Mallet (2009), códigos comentados trazem mais perguntas do que respostas e, geralmente, podem tomar muito tempo pelo esquecimento da relevância do fragmento de código que fora comentado para o funcionamento do programa.

O relatório 3 traz uma listagem dos desenvolvedores que causaram determinada anomalia e a quantidade de vezes em que isso ocorreu. Entende-se que, quando o apontamento de uma regra for classificado como extremamente indesejado nos projetos da organização que optar por utilizar a solução proposta neste trabalho, esse relatório servirá para relatar os desenvolvedores que mais causaram essa anomalia. Dessa forma, a ação planejada de coibir o problema poderá ser tomada diretamente sobre os responsáveis.

O relatório 4 é um quantitativo de anomalias por desenvolvedor em um dado projeto. No maior dos projetos avaliados, considerando o número total de linhas de código, quase 60% das anomalias foram causadas por menos de 30% dos desenvolvedores reforçando a teoria de Boemh (1978) de que, geralmente, a maior parte da contribuição em um projeto de software vem de um número relativamente menor de contribuintes, neste caso, inclusive em se tratando de anomalias. O relatório 5 é um complemento do relatório 4, que lista as anomalias apontadas por desenvolvedor em todos os projetos ou em um projeto específico.

Além dos relatórios criados para o Noncy SM, foram feitas algumas consultas no repositório para verificar se mais algum dado relevante da análise dos três projetos poderia ser extraído. Foi detectado que, no total, vinte desenvolvedores participaram dos três projetos e que onze deles negligenciaram regras críticas (nível 4) e que nenhuma anomalia bloqueadora foi registrada (nível 5). As regras críticas infringidas foram listadas na tabela 2. Essas anomalias foram responsáveis por 7,41% do número total de problemas encontradas nos três projetos.

Tabela 2. Regras consideradas críticas infringidas nos projetos avaliados

ID Nome Qtd.

S1541 Methods should not be too complex 51

S1067 Expressions should not be too complex 11

S1764 Identical expressions should not be used on both sides of a binary operator 8

S2930 IDisposables should be disposed 6

S2228 Console logging should not be used 2

S1656 Variables should not be self-assigned 1

S2931 Classes with "IDisposable" members should implement "IDisposable" 1

As duas regras críticas mais apontadas estão relacionadas à complexidade do código de métodos (S1541) e de expressões (S1067). É importante mencionar que o valor

Page 116: Anais do SMSI 2016

máximo da complexidade permitido foi definido como o padrão proposto pelo SonarQube, sendo este igual a 10. Segundo Gaudin (2008) a complexidade ciclomática está relacionada aos possíveis caminhos em um trecho de código, uma definição muito importante principalmente em estruturas condicionais e de repetição. De acordo com ele, o nível de complexidade ciclomática de um método ser elevado não significa necessariamente que o código é de má qualidade. No entanto ele ressalta que entre a criação de um método que resultaria em um grau de complexidade igual a 30 e três métodos que apresentam esse nível igual a 10, considera-se mais manutenível um código que se enquadre na segunda opção.

Ainda em relação ao apontamento das regras críticas nos projetos, duas delas estão relacionadas à não liberação de recursos. De acordo com a especificação do C#, linguagem de programação por meio da qual os projetos analisados foram escritos, existe um coletor de lixo (garbage colecttor) automático responsável pela liberação de memória gerenciável. Nesse caso, os objetos instanciados com a palavra-chave new são automaticamente retirados da memória quando não serão mais utilizados. Entretanto, os demais recursos que implementam a interface IDisposable devem satisfazer o contrato por ela estabelecido, relacionado à implementação de um método para liberação explícita dos recursos alocados.

Boehm e Basili (2001) se dedicaram a atualizar uma lista elaborada por Boehm (1978) sobre as dez principais medidas para redução de defeitos em projetos de sistemas. A leitura conjunta dos itens reforça a ideia de que, quanto antes um defeito for encontrado, menor será o custo para corrigi-lo. Um dos itens apontados pelo trabalho de Boehm e Basili (2001) se refere ao fato de que a adoção de práticas de disciplina pessoal pode reduzir consideravelmente a introdução de defeitos no software. Esse item não constava na lista original de Boehm (1978) mas sua relevância foi notada e passou a existir na relação atualizada. Ainda de acordo com o estudo, existem frameworks que auxiliam na padronização das práticas que devem ser adotadas individualmente e por toda a equipe de desenvolvimento. Percebe-se na leitura destes trabalhos que, em alguns casos, a adoção de checklists pode ser uma solução mitigadora para o risco de ocorrência de anomalias em projetos.

6. Conclusão

Segundo Goodlife (2015), ao escrever um trecho de código qualquer, o desenvolvedor deve se preocupar com dois possíveis leitores: o compilador, que é o responsável por traduzir a linguagem de programação em linguagem de máquina, e outros desenvolvedores, que darão continuidade no desenvolvimento do programa e/ou executarão futuras modificações. No caso do primeiro leitor não existe uma preocupação com a legibilidade do código, bastando apenas que o desenvolvedor siga os padrões estabelecidos na especificação da linguagem para que o código seja interpretado. Em contrapartida, para o segundo possível leitor, a forma como o código foi escrito tem um grau de importância maior, pois pode elevar o tempo de entendimento do código iniciado por outras mãos.

O trabalho apresentou uma solução que pode auxiliar as empresas produtoras de sistemas a detectar as anomalias de código mais frequentes em seus projetos. Além disso, com o recurso de responsabilização, apontando o causador da não-conformidade, pode-se planejar treinamentos relacionados às melhores práticas para a melhoria da qualidade

Page 117: Anais do SMSI 2016

do código-fonte, dando foco mais especificamente aos profissionais que possuem uma carência maior nesse sentido e às anomalias mais encontradas nos projetos. Visualizando estes benefícios da perspectiva do SonarQube entende-se que o índice de dívida técnica não-intencional nos projetos poderia ser consideravelmente reduzido. Finalmente, formada uma base histórica dos problemas encontrados, pode-se facilmente obter indicadores da evolução da qualidade nos projetos da organização.

É importante mencionar que a responsabilidade pela presença de código mal escrito em projetos de software não é necessariamente do desenvolvedor. É possível prever que um projeto apresentará índice elevado de dívida técnica ainda na fase de planejamento. A pressão imposta pelos apertados cronogramas é um fator capaz de levar o desenvolvedor a escrever código funcional, mas esteticamente fora dos padrões. Dessa forma, a preocupação pela qualidade nesse quesito deve iniciar desde a elaboração do cronograma do projeto para que sejam mitigadas as chances do desenvolvedor não se preocupar com a qualidade interna do produto devido à falta de tempo.

A adoção do Sonar Lint como parte do trabalho pode questionada, gerando dúvidas, tais como: qual a necessidade de se criar um analisador de código que não seja em tempo real visto que o Sonar Lint faz exatamente essa análise em tempo real, mostrando avisos ao desenvolvedor sobre não-conformidades poucos segundos após a sua inserção no código? Não bastaria apenas instalar o plug-in do Sonar Lint no Visual Studio de cada programador? Mesmo diante disso entende-se que a ferramenta é útil inicialmente pelo fato de o desenvolvedor não necessariamente irá ler as mensagens de alertas do Visual Studio, pois não se tratam de erros impeditivos para a execução do programa. Além disso, mais uma vez, a possibilidade de criação de uma base histórica e da sua visualização por meio de relatórios faz da solução proposta uma nova oportunidade, que pode servir de auxílio na condução de novas pesquisas acadêmicas sobre o nível de maturidade das organizações e dos desenvolvedores no que tange à qualidade do código-fonte.

Como proposta de trabalho futuro, sugere-se a criação de uma nova funcionalidade na ferramenta para análise do código de projetos finalizados. Dessa forma, se em um projeto foram feitos X commits, seria possível avaliar como estava a qualidade do código e os responsáveis pelas anomalias encontradas até o commit X-Y. Isso seria útil para analisar rapidamente todos os projetos concluídos pela organização, criando assim uma base histórica de forma simplificada, não havendo a necessidade de esperar o andamento dos projetos após a implantação da ferramenta para alimentar seu banco de dados. Pode-se também, após analisar um grupo de projetos usando a ferramenta, definir um conjunto de perguntas que deverão ser feitas aos responsáveis pelas anomalias detectadas com o objetivo de verificar se os desenvolvedores têm conhecimento das boas práticas verificadas pelo Sonar. Dessa forma, seria viabilizada a determinação do índice de dívida técnica intencional e não-intencional nos projetos mensurados, podendo os gestores, a partir daí, definir estratégias visando reduzir o índice de dívida nos próximos projetos da organização.

7. Referências

BOEHM, B. (1987). Industrial Software Metrics TOP 10 List. In: IEEE Software, set. 1987, pp. 84-85. Disponível em < http://grid.cs.gsu.edu/~matrag/teaching/csc4350/topten.html >. Acesso em nov.

Page 118: Anais do SMSI 2016

2015.

BOEHM B. e BASILI, V. (2001). Software defect. Reduction Top 10 List. Computer 34, 1 (jan 2001), pp. 135-137. Disponível em < https://www.cs.umd.edu/projects/ SoftEng/ESEG/papers/82.78.pdf >. Acesso em nov. 2015.

CUNNINGHAM, W. (2009). Debt Metaphor. You Tube. Disponível em: <https://www.youtube.com/watch?v=pqeJFYwnkjE>. Acesso em set 2015.

CUNNINGHAM, W. (1992). Technical Debt. Disponível em: < http://c2.com/cgi/wiki?TechnicalDebt >. Acesso em set. 2015.

FOWLER, M (2004). Refatoração: Aperfeiçoando o Projeto de Código Existente. 1. Ed. Porto Alegre: Bookman, 2004.

GAUDIN, O. (2008). Discussing Cyclomatic Complecity. Disponível em: < http://www.sonarqube.org/discussing-cyclomatic-complexity/>. Acesso em nov. 2015.

GOODLIFE, P (2015). Becoming a better programmer. 1. Ed. Sebastopol: O’Reilly Media, Inc., 2015.

JALOTE, P (2005). An integrated Approach to Software Engineering. 3. Ed. New York: Springer, 2005.

KENT, S. (2015). Announcing SonarQube integration with MSBuild and Team Build. Disponível em < http://www.sonarqube.org/announcing-sonarqube-integration-with-msbuild-and-team-build/ >. Acesso em mar. 2016.

MALLET, F. (2009). Commented-out code eradication with Sonar. Disponível em: < http://www.sonarqube.org/commented-out-code-eradication-with-sonar>. Acesso em nov. 2015.

MCCONNELL, S. (2007). Technical Debt. Disponível em: <http://www.construx.com/10x_Software_Development/Technical_Debt >. Acesso em ago. 2015.

PEDROSA, P e NOGUEIRA, T. (2011). Computação em nuvem. Disponível em <http://ic.unicamp.br/~ducatte/mo401/1s2011/T2/Artigos/G04-095352-120531-t2.pdf>. Acesso em ago. 2015.

PRESSMAN, R (2011). Engenharia de Software: uma abordagem profissional. 7. Ed. Porto Alegre: Bookman, 2011.

SALES, E, et al (2008). Apoio a gerência de configuração de artefatos de software integrado à execução de Processos de Software. In: SIMPÓSIO BRASILEIRO DE ENGENHARIA DE SOFTWARE, 22., 2008, Campinas. Anais… Campinas: SBC, 2008.

SEAMAN, C. e GUO, Y (2011). Measuring and Monitoring Technical Debt. Advances in Computers, Vol. 82, 25-46, 2011.

TRIPP, D (2005). Pesquisa-ação: uma introdução metodológica. Educ. Pesqui. [online] 2005, vol. 31, n. 3, pp. 443-466. ISSN 1678-4634.

Page 119: Anais do SMSI 2016

Uma Ferramenta para Visualizacao de Indicadores de DıvidaTecnica Durante a Evolucao de Codigo

Barbara Gabrielle C. O. Lopes1, Maria Augusta V. Nelson 2

1Departamento de Ciencia da Computacao – Instituto de Ciencias ExatasUniversidade Federal de Minas Gerais (UFMG)

Belo Horizonte – MG – Brazil

2Instituto de Ciencias Exatas e Informatica – Pontifıcia Universidade Catolica deMinas Gerais (PUC MG) – Belo Horizonte – MG – Brazil

[email protected], [email protected]

Resumo. A metafora Dıvida Tecnica (DT) esta relacionada a artefatos ima-turos, incompletos ou inadequados no desenvolvimento de software. Avisualizacao de software proporciona uma forma mais simples e intuitiva deentendimento dos dados. Este artigo tem foco na identificacao da DT evisualizacao de seus indicadores durante a evolucao de um codigo, o que eessencial para que o aumento da Dıvida Tecnica no projeto nao ocorra deforma imperceptıvel a equipe. Relata-se a construcao e utilizacao de umaferramenta que possibilita o monitoramento e a visualizacao das metricas decodigo de forma a caracterizar a metafora Dıvida Tecnica sob o ponto devista de metricas de codigo. Como resultado, foi possıvel estabelecer indica-dores de Dıvida Tecnica, assim como melhores trechos de codigo candidatos arefatoracao. A ferramenta foi avaliada atraves de dois projetos. Foi possıvel ve-rificar as metricas mais relevantes para o monitoramento da dıvida, suas causase medidas necessarias para seu controle.

Dıvida Tecnica; Metricas de Codigo; Evolucao de Codigo.

Abstract. The Technical Debt metaphor (TD) describes immature, incompleteor inadequate artefacts in software development. Software visualizations pro-vide a simple and intuitive way to understand data. This paper focuses on theidentification of TD and on the visualization of its indicators during code evo-lution, which is essential so that the increase in technical debt doesn’t happenimperceptibly. We describe the construction and use of a tool that enables mo-nitoring and visualization of code metrics so as to characterize technical debtunder the lens of these metrics. An evaluation of the tool was performed usingtwo projects. As a result, we establish TD indicators, as well as the best can-didates for refactoring. It was possible to identify the most relevant metrics tomonitor debt, its causes, and the necessary measures to control it.

Technical Debt; Code Metrics; Code Evolution.

1. IntroducaoA metafora Dıvida Tecnica (DT) foi desenvolvida por Cunninghan [Cunningham 1992]e refere-se ao fato de que uma dıvida e gerada sempre que se utilizam atalhos tecnicos

Page 120: Anais do SMSI 2016

durante o desenvolvimento de um projeto, e esta devera ser paga futuramente. A DT edescrita como uma metafora para artefatos imaturos, incompletos ou inadequados no ciclode vida de desenvolvimento de software [Seaman and Guo 2011].

Identificar a dıvida existente em um projeto e de extrema importancia, assim comomonitora-la, visto que seu controle e, muitas vezes, importante para garantir a sobre-vivencia de um projeto de software. Uma dıvida muito alta gera um custo de mudancatambem alto, podendo impossibilitar a continuidade de um projeto. Uma pequena DıvidaTecnica pode acelerar o desenvolvimento, mas essa dıvida deve ser paga atraves de umareescrita de codigo, pois o tempo gasto com um codigo nao muito correto gerara jurossobre essa DT [Cunningham 1992].

O cronograma pressionado, a duplicacao de codigo e a falta de reconhecimento dacomplexidade do software sao apontados como alguns padroes de desenvolvimento quecorroboram para o aumento da DT [Sterling 2010].

Esse artigo reporta a construcao de uma ferramenta Web que permite avisualizacao de metricas do codigo sendo criado ou em evolucao em um projeto Java. Asmetricas de codigo sao um indicador de um tipo de Dıvida Tecnica, a dıvida de codigo,que se refere a problemas encontrados no codigo-fonte que podem afetar negativamentea legibilidade do codigo e dificultar sua manutencao [Alves et al. 2014].

A visualizacao de software busca facilitar o entendimento das informacoes relaci-onadas ao desenvolvimento de software [Cemin 2001], proporcionando uma forma maissimples e intuitiva de entendimento dos dados. A visualizacao das metricas de codigosimplifica o monitoramento de sua evolucao, alem da avaliacao dos indicadores de DT,evitando que seu aumento ocorra sem a percepcao da equipe envolvida.

A ferramenta foi validada atraves do estudo da mesma em dois projetos e os re-sultados indicaram que a equipe envolvida pode acompanhar a evolucao dos indicadoresde Dıvida Tecnica. Apos a exibicao dos indicadores de forma automatica, atraves daferramenta, foi realizada uma abordagem manual, na qual a equipe analisou as metricasgeradas em busca de estabelecer os indicadores mais significantes no contexto do projeto.

As seguintes secoes apresentarao o referencial teorico, a metodologia utilizada, aferramenta desenvolvida, os resultados da avaliacao da ferramenta, a analise comparativada ferramenta desenvolvida, e as conclusoes, respectivamente.

2. Referencial Teorico

A metafora Dıvida Tecnica [Cunningham 1992] sugere que, quando ha grande foco narapidez de desenvolvimento e pouco na qualidade, ha o surgimento de uma dıvida seme-lhante a financeira, a Dıvida Tecnica (DT).

E importante identificar a DT existente em um projeto, assim como monitora-la, visto que uma dıvida muito alta gera um custo de mudanca tambem alto, podendoimpossibilitar a continuidade de um projeto.

Um dos indicadores da Dıvida de Codigo sao as metricas do codigo que podem sercalculadas de forma automatizada. Uma das ferramentas com este proposito e o pluginEclipse Metrics, descrito a seguir.

Page 121: Anais do SMSI 2016

2.1. Eclipse MetricsO Eclipse Metrics e um plugin para a IDE Eclipse que prove aos programadores umfeedback das metricas em seu projeto Java. Sao cerca de 21 metricas definidas, sendo6 delas relacionadas aos pacotes de um projeto, 4 metricas relacionadas aos metodos, 10relacionadas as classes, e uma metrica para o projeto como um todo, a Total Lines of Code(TLOC), que mede o total de linhas de codigo, exceto linhas em branco e comentarios[Metrics 2016]. As metricas a serem exploradas no presente trabalho sao apresentadasnas Tabelas 1, 2 e 3.

Tabela 1. Metricas Relacionadas aos Pacotes do Projeto

Metrica Descricao

Instability (RMI) Instabilidade. Calculada pela formulaCe/(Ca + Ce), onde Ce e o acoplamento eferente, dado pelonumero de classes de dentro do pacote que dependem declasses de fora do pacote, e Ca e o acoplamento aferente.

Afferent Coupling (CA) Acoplamento aferente. Numero de classes de fora do pacote quedependem de classes de dentro do pacote.

Indices de Acoplamento estao diretamente relacionados com a DıvidaTecnica, de acordo com o estudo de coleta e categorizacao de DT catalogado[de Oliveira and da Silva 2011].

Tabela 2. Metricas Relacionadas aos Metodos do Projeto

Metrica Descricao

McCabe Cycloma-ticComplexity (VG)

Complexidade Ciclomatica de McCabe. Conta o numero de caminhosem um pedaco de codigo, a cada branch (if, for, while, do, case, catch eos operadores ternarios) essa metrica e incrementada em um.

A Complexidade Ciclomatica e muito usada na literatura para previsao de manu-tenibilidade [Nagappan et al. 2006]. Quanto maior a complexidade ciclomatica, maior ocusto de manutencao.

A coesao facilita a compreensao, reuso e manutencao do codigo, visto que umaalta coesao e caracterıstica de uma classe bem organizada, que nao assume responsabi-lidades que nao sao suas. Portanto, assumimos que classes pouco coesas, que possuemaltos valores de LCOM (Tabela 3), se tornam difıceis de compreender, reusar e manter, oque pode ser considerado um indicador de Dıvida Tecnica.

A proposta apresentada nesse artigo pode ser relacionada com outras ferramentas,como a plataforma SonarQube e a ferramenta CodePro Analytix.

2.2. SonarQubeO SonarQube e uma plataforma livre para gerenciar qualidade de codigo, possuindouma grande quantidade de recursos. Essa plataforma possibilita identificar componen-tes com Dıvida Tecnica em projetos, atraves da verificacao de arquitetura e design,duplicacoes, testes de unidade, complexidade, possıveis erros, regras de codigo e co-mentarios [Campbell 2016].

Page 122: Anais do SMSI 2016

Tabela 3. Metricas Relacionadas as Classes do Projeto

Metrica Descricao

Weighted Methodsper Class (WMC)

Soma da Complexidade Ciclomatica de McCabe de todos os metodos daclasse.

Lack of Cohesionof Methods(LCOM)

Mede a coesao da classe, e e calculada utilizando o metodo deHenderson-Sellers. Se m(A) e o numero de metodos acessando umatributo A, calcula-se a media de m(A) para todos os atributos, subtrai-seo numero de metodos m e se divide o resultado por (1 - m). Um valorbaixo indica uma classe coesa, um valor proximo de 1 indica uma faltade coesao e sugere que e melhor separar a classe em um numero desubclasses.

2.3. CodePro Analytix

O CodePro Analytix e uma ferramenta de teste de software Java para desenvolvedores queutilizam a IDE Eclipse. Ela possui recursos que auxiliam na reducao de erros durante odesenvolvimento do codigo e fornecem orientacoes de boas praticas de codigo. Com isso,e possıvel reduzir custos e melhorar a velocidade do desenvolvimento [CodePro 2016].

Algumas de suas funcionalidades sao a analise de codigo, medicao de indicadoresde qualidade, analise de dependencia e analise de codigo similar.

3. MetodologiaA metodologia aplicada neste trabalho se categoriza como pesquisa e desenvolvimentoexperimental. Para a realizacao deste trabalho, o mesmo foi dividido respectivamente emquatro fases: concepcao, elaboracao, construcao, teste e avaliacao (Figura 1).

Figura 1. Modelo de Atividades Realizado na Metodologia.

A primeira delas corresponde a definicao dos controles e escolha das metricas eferramentas de medicao a serem utilizadas. Na segunda fase, ocorreu a escolha dos pro-jetos a serem utilizados para avaliacao, a IDE e Tecnologias a serem utilizadas. Nessafase ocorreu tambem a definicao dos requisitos do software de visualizacao de metricasa ser desenvolvido. Apos a definicao destes parametros iniciou-se a construcao do soft-ware. Na fase de avaliacao utilizou-se dois projetos Java Web em desenvolvimento deuma empresa de grande porte para analisar as metricas produzidas.

Page 123: Anais do SMSI 2016

4. A Ferramenta DesenvolvidaA ferramenta desenvolvida (Software Metrics) surgiu como uma solucao para simpli-ficar o monitoramento da Dıvida Tecnica em projetos atraves do acompanhamento desuas metricas durante o desenvolvimento, evolucao e manutencao do codigo. O uso davisualizacao apoia a identificacao, portanto foi desenvolvida uma interface Web que pos-sibilitou uma abstracao da IDE utilizada e a visualizacao do historico de metricas doprojeto pelos stakeholders.

A ferramenta de visualizacao permite ao usuario uma visao da estrutura do projeto(pacotes, classes e metodos) e a exibicao das metricas atuais e sua evolucao (Figura 2(a)).

(a) Metricas atuais do pacote de domınio do pro-jeto piloto, exibidas atraves da ferramenta.)

(b) Processo de Utilizacao de Ferramenta.

Figura 2. Ferramenta Desenvolvida

Para isso, foi utilizado o plugin Eclipse Metrics, que permitiu a coleta das metricasdo projeto em forma de arquivos XML contendo resultados de avaliacoes periodicas acada novo build do projeto. Os dados extraıdos dos arquivos foram integrados a fer-ramenta e exibidos em forma de um historico do projeto, permitindo a visualizacao daevolucao de cada metrica e o monitoramento de cada uma. Com isso pode-se determinarmetricas que indicaram Dıvida Tecnica no Projeto e melhores candidatos para refatoracao.

Para o desenvolvimento da aplicacao Web, foi utilizada a linguagem Java, jun-tamente com os frameworks JSF 2.2 e Hibernate 4.1, na IDE Netbeans 8.0.2. Arepresentacao e modelagem do Banco de Dados foi criada utilizando o MySQL Work-bench desenvolvido pela Oracle Corporation (ORACLE, 2012). A Figura 2(b) apresentao processo que envolve o uso da ferramenta desenvolvida.

Foi proposto que a cada solicitacao de alteracao no codigo fonte do projeto, odesenvolvedor sincronizasse sua versao com a do repositorio central e implementasse asalteracoes necessarias. Em seguida, deveria gerar o arquivo XML contendo as metricasdo build atual do projeto, atraves do plugin Eclipse Metrics, e o enviar para o repositorio,juntamente com as demais modificacoes realizadas. Com isso, a ferramenta desenvolvidaacessa os arquivos XML de metricas e disponibiliza a visualizacao da evolucao do projetopara as partes interessadas do projeto, como o gerente, lıder tecnico e desenvolvedores.

5. Resultados da Avaliacao da FerramentaA avaliacao da ferramenta foi conduzida em uma fabrica de software localizada em MinasGerais, Brasil. A equipe dos projetos selecionados e composta por oito profissionais:

Page 124: Anais do SMSI 2016

quatro desenvolvedores, um analista de requisitos, um gestor, um gerente de configuracaoe um testador.

Para avaliar a solucao proposta, foram realizados experimentos em um projetopiloto. Apos o mesmo, foi selecionado outro projeto, aqui denominado projeto P.

Ao monitorar os projetos, utilizando a ferramenta desenvolvida, foram analisadasas metricas que sofreram variacoes mais significativas durante o perıodo e as possıveiscausas para tal variacao. Os graficos a serem exibidos foram gerados automaticamentepela ferramenta desenvolvida, com o objetivo de identificar indicadores de Dıvida Tecnicanos projetos. Nos graficos, o eixo x representa os intervalos de datas dos builds e o eixo yo valor para a metrica em questao. Cada ponto no grafico representa um build do projeto.

5.1. Projeto Piloto

O projeto piloto e um projeto Java Web porte medio, baseado no framework MVC (Mo-delo, Visao, Controle). Gerou-se um arquivo de metricas por commit, durante 43 dias.

Nesse perıodo foram monitoradas 44 classes do projeto, distribuıdas em 8 pacotes.O monitoramento foi realizado durante o perıodo de 19 de maio a 30 de junho de 2015.Durante esse perıodo foram construıdos 19 builds do projeto.

5.1.1. Escopo de Metodo

Dentre as metricas de metodo, a Complexidade Ciclomatica de McCabe (VG) mereceatencao, essa metrica indica a quantidade de caminhos possıveis em um trecho de codigo,ou seja, mapeia todos os fluxos possıveis que um programa pode tomar. A Figura 3 apre-senta a evolucao da Metrica Complexidade Ciclomatica de McCabe em um dos metodosde uma das classes de controle do projeto analisado.

Figura 3. Evolucao da Metrica Complexidade Ciclomatica de McCabe (Metodo daClasse de Controle do Projeto Piloto).

A Complexidade Ciclomatica e muito usada na literatura para previsao de manu-tenibilidade [Nagappan et al. 2006]. Altos valores de Complexidade de McCabe apontampara um aumento de DT, visto que a complexidade gera aumento no custo de manutencao.

As classes de controle do projeto apresentaram maiores valores de complexidadeem seus metodos. Pode-se perceber uma variacao entre dois valores (11 e 13), fato que

Page 125: Anais do SMSI 2016

pode ser justificado por mudancas nos requisitos do projeto em desenvolvimento, resul-tando na insercao e remocao de certos blocos de codigo que realizavam validacoes. Osvalores de complexidade entre 11 e 20 classificam codigos relativamente difıceis de en-tender e testar, entre 21 e 50 como difıceis de entender e testar, e acima de 51 comoimpossıveis de entender e testar [Cavalcanti Junior and Silva 2012].

Valores de complexidade maiores que 10 sao preocupantes pois sao mais pro-pensos a falhas. Para evitar o crescimento da complexidade nos codigos-fonte, e reco-mendavel a utilizacao de mecanismos de injecao de dependencia, pois permitirao criarrelacionamentos sem incluı-los diretamente no codigo, alem de tornar possıvel o testedo codigo de forma independente, minimizando a complexidade a medida que surgiremnovos codigos-fonte.

5.1.2. Escopo de Classe

Dentre as metricas de classes, a falta de coesao dos metodos (LCOM) apresentou valoresde variacoes significativos. Um valor baixo indica uma classe coesa, ja um valor proximode 1 indica uma falta de coesao, e sugere que e melhor separar a classe em um numero desubclasses. A Figura 4(a) apresenta o grafico de evolucao da metrica Falta de Coesao dosMetodos em uma das classes de controle do projeto.

(a) Evolucao da Metrica LCOM (b) Evolucao da Metrica WMC

Figura 4. Evolucao das Metricas de Classe do Projeto Piloto

Valores de LCOM ate 0,167 sao classificados como bons e frequentes, entre0,167 e 0,725 como regulares e ocasionais, e valores acima de 0,725 como ruins e ra-ros [Cavalcanti Junior and Silva 2012].

A falta de coesao indica que a classe assumiu responsabilidades que pertencema outras classes, o que corrobora para o aumento da Dıvida Tecnica, visto que a coesaofacilita a compreensao, reuso e manutencao do codigo. Portanto, uma classe com altovalor de LCOM se torna difıcil de entender, de reusar e manter. Alem disso, pode-seafirmar que e uma classe que sera constantemente afetada por outras mudancas.

A metrica Metodos Ponderados das Classes (WMC) tambem tem impacto no au-mento da Dıvida Tecnica. Essa metrica indica a soma da Complexidade Ciclomatica detodos os metodos da classe, ou seja, a complexidade total da classe. Como ja discutido an-teriormente, os valores de Complexidade devem ser baixos, consequentemente, os valores

Page 126: Anais do SMSI 2016

de WMC tambem. Valores altos indicam que os metodos da classe sao muito complexos,o que aumenta a probabilidade de falhas. A Figura 4(b) apresenta o grafico de evolucaoda metrica WMC para uma das classes de controle.

Afirma-se que altos valores de WMC indicam classes muito complexas[Sommerville 2010]. O WMC indica o quanto e difıcil entender a classe, assim comomante-la, portanto valores elevados corroboram para um aumento da Dıvida Tecnica. Asclasses de controle do projeto analisado apresentaram maiores valores de metodos pesa-dos devido a alta complexidade nas regras de negocio.

5.1.3. Escopo de Pacote

Dentre as metricas de pacote, o aumento da dependencia entre as classes de fora do pacotecom classes de dentro dele apresentou variacoes mais significativas. Os maiores valores evariacoes na metrica Acoplamento Aferente (CA) foram observados no pacote de domıniodo projeto, conforme apresenta a Figura 5(a), o que pode ser justificado pela utilizacaoda arquitetura MVC. O pacote domain contem as classes de domınio do projeto piloto,portanto os demais pacotes possuem dependencia com ele, o que causou os altos valoresdessa metrica.

Valores de CA ate 7 sao classificados como frequentes e bons, entre 7 e 39como ocasionais e regulares, ja valores acima de 39 sao considerados raros e ruins[Cavalcanti Junior and Silva 2012].

(a) Evolucao da Metrica CA (b) Evolucao da Metrica RMI

Figura 5. Evolucao das Metricas de Pacote do Projeto Piloto

Ao observar o grafico pode-se notar grandes oscilacoes nos valores da metricaAcoplamento Aferente. Essas oscilacoes estao diretamente relacionadas a commitsde codigos intermediarios, indicativos de uma visao ruim da equipe a respeito dasmodularizacoes e dependencias do projeto durante as solicitacoes de mudancas provo-cadas por uma constante alteracao nos requisitos do projeto.

Quanto maior o Acoplamento Aferente, maior a responsabilidade do pacote, oque indica sua relevancia dentro do projeto [Cavalcanti Junior and Silva 2012].Quantomaior o acoplamento de uma classe, menor a capacidade de reuso dessa[Chidamber and Kemerer 1994]. Altos valores de CA podem ser classificados como in-dicadores de um projeto com alto grau de acoplamento, e projetos com alto grau de aco-plamento tendem a ser rıgidos, nao reutilizaveis e com baixa qualidade em relacao a

Page 127: Anais do SMSI 2016

capacidade de manutencao [Martin 1994]. Isso esta diretamente ligado ao aumento daDıvida Tecnica de Codigo.

Devido a grande dependencia com as classes do pacote domain, os demais pacotesapresentaram variacoes significativas na metrica instabilidade (RMI), Figura 5(b).

O calculo da instabilidade e feito a partir da divisao do Acoplamento Eferentepelo somatorio entre Acoplamento Aferente e Eferente do pacote. Pacotes que contemregras de negocio sao mais volateis, sofrem maiores alteracoes, portanto devem dependerde pacotes mais estaveis que eles.

Referenciar classes instaveis, criadas para resolver problemas especıficos do pro-jeto, gera problemas de acoplamento, visto que sao classes pouco disseminadas e difıceisde serem reaproveitadas, corroborando para o aumento da Dıvida Tecnica no projeto.

5.2. Projeto PO projeto P e um projeto Java Web de medio porte, baseado no framework MVC (Modelo,Visao, Controle). Foi gerado um arquivo de metricas para cada commit, durante 119 dias.

Nesse perıodo foram monitoradas 43 classes do projeto, distribuıdas em 12 paco-tes. O monitoramento foi realizado durante o perıodo de 27 de agosto a 23 de dezembrode 2015. Durante esse perıodo foram construıdos 24 builds do projeto.

5.2.1. Escopo de Classe

Dentre as metricas de classes, a falta de coesao dos metodos (LCOM), assim como noprojeto Piloto, apresentou valores significativos. Porem, os maiores valores foram obser-vados nas classes de domınio do projeto, conforme apresentado nas Figuras 6(a) e 6(b).

(a) Evolucao da Metrica LCOM (b) Evolucao da Metrica LCOM

Figura 6. Evolucao das Metricas de Classe do Projeto P

Os valores observados estao proximos de 1, considerados ruins e raros[Cavalcanti Junior and Silva 2012], o que pode ser justificado pela presenca de relacio-namentos bidirecionais nas classes de domınio (1-N, N-N).

Como nao foram encontrados altos valores de Complexidade Ciclomatica (acimade 10) no Projeto P, os valores observados para a metrica Metodos Ponderados das Clas-ses (WMC), se comparados com os observados no Projeto Piloto, se mantiveram baixos(Figuras 7(a) e 7(b)).

Page 128: Anais do SMSI 2016

(a) Evolucao da WMC (Classe Domınio) (b) Evolucao da Metrica WMC (Classe de BD)

Figura 7. Evolucao das Metricas de Classe do Projeto P

Os valores observados indicam uma menor probabilidade de falhas, devido a umamenor complexidade dos metodos das classes.

5.2.2. Escopo de Pacote

Dentre as metricas de pacote, a metrica Acoplamento Aferente (CA) tambem apresentouas variacoes mais significativas no projeto P, sendo os maiores valores tambem observa-dos no pacote de domınio do projeto, conforme apresenta a Figura 8. Tal fato pode serjustificado pelo fato deste pacote agrupar as classes de domınio do projeto P, fazendo comque os demais pacotes possuam dependencia com ele.

Figura 8. Evolucao da Metrica Acoplamento Aferente (Pacote de Domınio doProjeto P).

O valor mais alto observado para esta metrica foi 13, que pode ser classificadocomo um valor ocasional e regular [Cavalcanti Junior and Silva 2012].

6. Analise Comparativa da Ferramenta DesenvolvidaA proposta descrita nesse artigo apresentou diferenciais significativos ao ser comparadacom os trabalhos relacionados relatados anteriormente.

O SonarQube contem metricas em comum com a ferramenta desenvolvida, comoo numero de linhas de codigo (LOC), Complexidade Ciclomatica de McCabe (VG) e Faltade Coesao do Metodos (LCOM).

Page 129: Anais do SMSI 2016

A ferramenta apresentada se difere do SonarQube nos seguintes aspectos:

• Integra as metricas de cada build feito na IDE com apresentacao grafica.• Possibilita a visualizacao de diversas metricas importantes nao contempladas pelo

SonarQube, como a Instabilidade (RMI).• Apresenta a visualizacao de um historico de evolucao para todas as metricas no

projeto. Com a utilizacao de uma ferramenta de integracao contınua como o Jen-kins [Jenkins 2016] ou Hudson [Hudson 2016], tambem seria possıvel obter umresultado semelhante, para acompanhamento do historico dos diversos builds.

• Permite a visualizacao da estrutura do projeto.• Possibilita a visualizacao das metricas subdivididas por escopo.

O CodePro Analytix, assim como o Eclipse Metrics, e um plugin instalavel naIDE Eclipse. Ambos possuem a possibilidade de exportacao das metricas em formatoXML.

O CodePro possui, adicionalmente, a possibilidade de exportacao para arquivo*.html. O mesmo e uma ferramenta mais difundida e utilizada que o Eclipse Metrics eprove uma melhor visualizacao dos resultados, se comparada a ele. Porem, a ferramentaproposta no presente artigo prove uma melhoria nesta visualizacao, alem de extende-la aoutras partes interessadas do projeto, nao apenas aos desenvolvedores mas tambem aosgerentes de projeto, devido ao seu acesso de forma externa a IDE Eclipse.

7. ConclusaoEste trabalho apresentou uma ferramenta de monitoramento de metricas de projeto emapoio a atividade de codificacao de software, no intuito de melhorar a deteccao do au-mento da Dıvida Tecnica no projeto.

No cenario proposto, a geracao de metricas do projeto e realizada a cada novobuild. A utilizacao da ferramenta desenvolvida possibilitou a visualizacao e o acompa-nhamento da evolucao de cada metrica. Com isso, e possıvel monitorar a ocorrencia daDıvida Tecnica, tornando-a conhecida pela equipe.

O estudo realizado nos projetos indicou varios pontos que devem ser monitoradosde perto. Desta forma, a ferramenta apresenta-se como um aliado para gerentes de projetode software e desenvolvedores que precisam se preocupar com tantas variaveis ao longode uma evolucao de software. A ferramenta evidenciou aos envolvidos os pontos maiscrıticos do codigo que devem ser acompanhados, de forma visual e emitindo alertas casoos indicadores atinjam valores fora do esperado.

Como limitacoes para esse trabalho ha o fato do estudo ter sido realizado dentrode uma unica empresa. Com isso, nao e possıvel determinar se a relevancia das metricasse trata apenas de uma caracterıstica individual da empresa e/ou da equipe, o que podeser uma ameaca na sua validade. Outra limitacao esta na possibilidade de utilizacao daferramenta apenas em projetos na linguagem de programacao Java.

Como trabalhos futuros, pretende-se avaliar um maior numero de projetos, commaior diversidade de equipes e empresas, alem de desenvolver novas funcionalidades paraa ferramenta, como a geracao de relatorios em formato pdf contendo dados e historicodo projeto e a possibilidade de ajustar limiares de forma que seja possıvel realizar umaanalise dinamica das informacoes apresentadas atraves dos graficos.

Page 130: Anais do SMSI 2016

Tambem pretende-se desenvolver um estudo experimental para avaliacao efetivada abordagem apresentada, de forma a verificar se a visualizacao da dıvida tecnica me-lhorou a qualidade do codigo de determinada equipe apos a utilizacao da ferramenta.

ReferenciasAlves, N. S., Ribeiro, L. F., Caires, V., Mendes, T. S., and Spinola, R. O. (2014). Towards

an ontology of terms on technical debt. In Managing Technical Debt (MTD), 2014Sixth International Workshop on, pages 1–7. IEEE.

Campbell, A. (2016). Sonarqube. http://docs.sonarqube.org/display/SONAR/Documentation. Acessado em: 10 de Julho de 2016.

Cavalcanti Junior, A. L. d. O. and Silva, F. Q. B. d. O. (2012). Metricas como ferramentade auxılio para o gerenciamento de dıvida tecnica em produtos de software. Master’sthesis.

Cemin, C. (2001). Visualizacao de informacoes aplicada a gerencia de software. PhDthesis, UNIVERSIDADE FEDERAL DO RIO GRANDE DO SUL.

Chidamber, S. R. and Kemerer, C. F. (1994). A metrics suite for object oriented design.Software Engineering, IEEE Transactions on, 20(6):476–493.

CodePro (2016). Codepro. https://developers.google.com/java-dev-tools/codepro/doc/. Acessado em: 10 de Julho de 2016.

Cunningham, W. (1992). Object-oriented programming systems, languages, and applica-tions. The WyCash Portfolio Management System.

de Oliveira, R. G. and da Silva, F. Q. B. (2011). Caracterizacao e conceituacao teorica dametafora de debito tecnico atraves de um estudo exploratorio.

Hudson (2016). Hudson. http://hudson-ci.org/. Acessado em: 10 de Julho de2016.

Jenkins (2016). Jenkins documentation. https://jenkins.io/doc/. Acessadoem: 10 de Julho de 2016.

Martin, R. (1994). Oo design quality metrics. An analysis of dependencies, 12:151–170.

Metrics (2016). Metrics. http://metrics.sourceforge.net. Acessado em: 10de Julho de 2016.

Nagappan, N., Ball, T., and Zeller, A. (2006). Mining metrics to predict componentfailures. In Proceedings of the 28th international conference on Software engineering,pages 452–461. ACM.

Seaman, C. and Guo, Y. (2011). Measuring and monitoring technical debt. Advances inComputers, 82:25–46.

Sommerville, I. (2010). Software Engineering. Addison-Wesley, Harlow, England, 9edition.

Sterling, C. (2010). Managing software debt: building for inevitable change. Addison-Wesley Professional.

Page 131: Anais do SMSI 2016

Configuracao de Produtos em Linha de Produtos de Software

Markos Almeida, Johnatan Oliveira, Eduardo Figueiredo1

1Departamento de Ciencia da Computacaoda Universidade Federal de Minas Gerais

(DCC/UFMG) – Belo Horizonte – MG – Brasil

[email protected], {johnatan.si, figueiredo}@dcc.ufmg.br

Abstract. A software product line (SPL) is formed by a set of software systemsthat share common characteristics. In SPL, a characteristic represents a de-sirable feature of interest in the system. The feature-model is used in LPS todocument and configure the product. The main problem of this process is toderive the product configuration mode that meets the customer’s requirements.To solve this problem, we developed an exact algorithm and a heuristic. Theexperiments show that the exact algorithm (brute force) is able to find the opti-mum configuration for the real problems of literature, when 20-60 features areevalueated. The difference between the exact algorithm and heuristic is 19,09%.However, for SPL greater than 50 features, the exact algorithm was unable tofind the optimal solution. The heuristic, in turn, was able to identify an accep-table configuration within 30 seconds of execution.

Resumo. Uma linha de produto de software (LPS) e formada por um con-junto de sistemas de software que compartilham caracterısticas em comum. EmLPS, uma caracterıstica (feature) representa uma funcionalidade de interessedesejavel no sistema. O modelo de caracterısticas e utilizado em LPS para do-cumentar e configurar o produto. O principal problema deste processo e derivara configuracao do produto de modo que atenda aos requisitos do cliente. Pararesolver este problema, desenvolvemos um algoritmo exato e uma heurıstica. Osexperimentos mostram que o algoritmo exato (forca bruta) e capaz de encontrara configuracao otima para os problemas reais da literatura, sendo avaliado de20 a 60 caracterısticas. A diferenca entre o algoritmo exato e a heurıstica ede 19,09%. Entretanto, para LPS maiores que 50 caracterısticas, o algoritmoexato foi incapaz de encontrar a solucao otima. Ja a heurıstica, foi capaz deidentificar uma configuracao aceitavel em 30 segundos de execucao.

1. Introducao

Torna-se mais comum encontrar empresas que desenvolvem sistemas de informacaoque necessitam de desenvolvimento agil, seguro e com qualidade. Nesse contexto estapresente a reutilizacao de componentes de software. A LPS e uma das tecnicas fun-damentais nesse processo. Uma LPS pode ser definida como um conjunto de siste-mas especificados, modelados e implementados em termos de funcionalidades comunse variaveis [Apel et al. 2013]. As funcionalidades podem ser apresentadas como carac-terısticas de domınio que satisfacam requisitos especıficos de um segmento de mercado[Pohl et al. 2005].

Page 132: Anais do SMSI 2016

A reutilizacao no contexto de LPS e definida como as caracterısticas comuns deum determinado produto e cliente. Assim, considerando um conjunto de sistemas perten-centes a um mesmo domınio de negocio, a aplicacao da tecnica de LPS poderia viabilizara reutilizacao de codigo [Pohl et al. 2005]. Isso proporcionaria vantagens como reducaonos custos de producao e confiabilidade ao produto, uma vez que esses componentes jaforam desenvolvidos e testados em outras ocasioes [Chitchyan et al. 2015].

Com a adocao da LPS, os sistemas possuem uma arquitetura comum e podemse beneficiar do reuso de codigo. Outra influencia da LPS e no processo de desenvol-vimento. Nessa fase e definido como serao executadas as etapas de analise de requisi-tos, implementacao e outras. Contudo, existe um problema atrelado a configuracao (oucustomizacao) de produtos em uma LPS. O desafio de configurar uma LPS e alcancaro maximo possıvel a satisfacao de um cliente. Essa configuracao possui alta complexi-dade, dependendo fortemente da quantidade de caracterısticas da LPS, alem das regrasque definem a configuracao dos produtos [Batory 2005, Mendonca et al. 2009].

Diversos trabalhos foram propostos para fornecer uma configuracao valida de umaLPS. Pode-se citar o estudo realizado por [White 2008], que propoe tecnicas baseadas emprogramacao por restricoes para que se encontre uma configuracao boa ou otima da LPS.Outro trabalho foi desenvolvido por [Khalfaoui et al. 2015], que aborda o problema pormeio das transformacoes de modelo, com a intencao de se reduzir o espaco de busca deconfiguracoes validas de LPS. Nosso trabalho propoe a otimizacao das configuracoes pormeio da relacao benefıcio/custo.

Neste artigo, nos propomos uma solucao para o problema de configuracao de-produtos, por meio de dois algoritmos: I) Algoritmo exato (forca bruta) testa to-das as combinacoes possıveis para configurar uma LPS da melhor forma possıvel e,II) Heurıstica por meio do paradigma guloso. A proposta implementada leva emconsideracao as seguintes informacoes: I) o tipo das caracterısticas (mandatoria, opcionalou exlusiva), II) custo de cada caracterıstica, III) orcamento do cliente e IV) satisfacao docliente.

Para avaliar a nossa proposta, conduzimos um experimento simulando de 20 a 60caracterısticas de LPS. Atraves dos resultados, nos concluimos que e possıvel configuraruma LPS de modo a garantir a satisfacao do cliente, sem ultrapassar o orcamento inicial,alem de alcancar a qualidade do produto. Por meio da avaliacao, percebemos que osalgoritmos implementados sao capazes de identificar as melhores configuracoes factıveisde produtos em LPS.

O restante do artigo esta organizado da seguinte forma. A secao 2 apresenta oreferencial teorico que fornece base para compreensao geral do artigo. A secao 3 apre-senta os algoritmos desenvolvidos para solucionar o problema em configurar produtos emLPS. A secao 4 apresenta uma avaliacao dos algoritmos propostos. A secao 5 descreve osresultados obtidos atraves da avaliacao, por meio de um estudo empırico, da configuracaode LPS proposta. A secao 6 apresenta as ameacas para a validade do nosso estudo. Asecao 7 discute os trabalhos relacionados. Finalmente, a secao 8 conclui o artigo comuma discussao e apresenta os trabalhos futuros.

Page 133: Anais do SMSI 2016

2. Referencial Teorico

Essa secao descreve os conceitos que norteiam o artigo e que sao fundamentais para acompreensao do mesmo. Na secao 2.1 tem-se uma apresentacao da definicao de LPS ena secao 2.2 e mostrado um modelo por meio do qual pode-se representar uma LPS, omodelo de caracterısticas.

2.1. Linha de Produto de Software

Uma LPS e uma colecao de produtos que compartilham um conjunto comum decaracterısticas que atendam as necessidades especıficas de uma determinada area[Donohoe 2000]. A LPS lida com o desenvolvimento, gerenciamento de software eabrange as areas de engenharia de domınio e engenharia de aplicacao. Na primeira, avariabilidade dos componentes solucoes de uma LPS e explicitamente capturada por mo-delos de variabilidade [Pohl et al. 2005]. Na area de engenharia de aplicacao, produtoscustomizados derivam da LPS por meio do uso desses modelos e da implatacao de com-ponentes solucoes necessarios.

A LPS comecou a ser introduzida no ambiente de desenvolvimento de softwarerecentemente e se mostrou um dos avancos mais promissores nessa area. Vista como umatecnica eficiente no contexto da reusabilidade, ela foca em fornecer produtos customiza-dos a custos razoaveis a partir de componentes reusaveis. Dentre as motivacoes para seutilizar a LPS durante o desenvolvimento de software, pode-se citar a reducao do custode desenvolvimento e a melhoria da qualidade, de acordo com [Pohl et al. 2005].

Um diferencial tecnico que a LPS apresenta e o uso de caracterısticas para dis-tinguir seus membros.Essa caracterıstica representa um incremento na funcionalidade doprograma. Um membro particular da LPS e definido por uma unica combinacao de carac-terısticas. O conjunto de todas as combinacoes define os membros da LPS [Batory 2005].E importante destacar que, apesar da LPS ser utilizada no contexto de reusabilidade, podehaver variacao do projeto de um software para outro, ou seja, pode-se ter a necessidadede um produto customizado.

A customizacao e personalizacao de softwares sao ainda bastante limitadas paramuitas aplicacoes, alem de serem baseadas em diferentes tecnicas que nao sao bem inte-gradas entre si [Rabiser et al. 2009]. Customizar aplicacoes ja existentes nao e uma tarefafacil para usuarios finais. Foi demonstrado que uma LPS fornece uma abordagem razoavelpara se realizar a customizacao de sistemas de software complexos [Rabiser et al. 2009].

2.2. Modelo de caracterısticas

Pode-se representar uma LPS por meio de um modelo de caracterısticas (feature-model),que define as caracterısticas do sistema e suas restricoes de uso. Atualmente, a metodolo-gia mais utilizada organiza as caracterısticas em uma arvore, que e usada para especificaros membros da LPS [Batory 2005].

A representacao do modelo de caracterısticas atraves da arvore e composta poruma raiz, que indica o tipo de produto que e gerado pela LPS em questao. Alem disso, aarvore possui outros nos, derivados da raiz, que representam cada uma das caracterısticasda LPS. A literatura apresenta 4 tipos de caracterısticas que podem estar presentes nomodelo, a saber:

Page 134: Anais do SMSI 2016

• Mandatorias: Se uma caracterıstica filha e mandatoria, esta deve ser incluıda emtodos os produtos em que a caracterıstica pai aparecer;• Opcionais: Se uma caracterıstica filha e definida como opcional, esta pode opci-

onalmente ser incluıda em produtos em que a caracterıstica pai aparecer;• Alternativas inclusivas (OR): Um conjunto de caracterısticas e definido como

alternativo se apenas uma das caracterısticas pode ser selecionada quando a carac-terıstica pai e parte do produto;• Alternativas exclusivas (XOR): Uma relacao entre um conjunto de carac-

terısticas e definido como uma relacao ou se uma ou mais caracterısticas podemser incluıdas quando a caracterıstica pai e parte do produto.

Pode-se ver esses quatro tipos de caracterısticas apresentados no exemplo com-pleto do modelo de caracterısticas do aplicativo de Smartphone na Figura 1.

Figura 1. Modelo de caracterıstica representativo

3. A Abordagem PropostaNesta secao, apresentamos nossa abordagem proposta para a configuracao da LPS, sendocomposto por dois algoritmos: I. Algoritmo Extato (forca bruta), II. Heuristica (algoritmoguloso). Na secao 3.1, apresentamos a modelagem matematica do problema como sendodo tipo do problema da mochila. Ja na secao 3.2, sao apresentados os algoritmos de forcabruta e guloso.

3.1. Modelagem do Problema

Dadas as condicoes de configuracao de uma LPS, em que tem-se que tomar decisoesquanto a inclusao ou nao de certas caracterısticas dependendo das restricoes, verificou-sea semelhanca entre esse problema e o problema da mochila, que se mostrou adequadopara essa situacao, visto que uma caracterıstica corresponde a um item a ser inserido namochila. O problema da mochila tem sido largamente estudado pelo fato dele poder serutilizado para modelar problemas inseridos em diversos ambientes, como carregamentode carga e orcamento de capital na area industrial [Xiong and Ning 2014].

No problema da mochila, tem-se um conjuntos de N itens disponıveis para se-rem escolhidos, de forma que a escolha de um subconjunto daqueles deve maximizar

Page 135: Anais do SMSI 2016

os benefıcios sem ultrapassar a capacidade maxima da mochila [Pisinger 1995]. Paraa solucao do problema de configuracao de LPS, a funcao objetivo a ser maximizada ef(n) =

∑ni=1BiCi, onde Ci ∈ 0,1 representa se determinada caracterıstica i foi incluida

ou nao. Sujeito a∑n

i=1 PiCi ≤ O (e limitado pelo orcamento do cliente / capacidade damochila). O algoritmo exato foi implementado de acordo com a modelagem proposta por[McGrail 2004] que consiste no problema da mochila.

Com essa abordagem, a modelagem inicialmente e atraves de um mapeamento domodelo de caracterısticas da LPS para SAT (problema da satisfatibilidade booleana),isto e, o modelo de caracterısticas e traduzido para uma expressao logica seguindo umconjunto de regras em que deve-se determinar se certa caracterıstica pertence ou nao aoproduto. Por fim, e realizado uma analogia do problema com o Problema da Mochila,onde se busca uma configuracao de produto que ofereca o maior benefıcio ao cliente(valor dos elementos da mochila) limitado superiormente pelo orcamento (capacidade damochila) considerando-se o custo de cada caracterıstica da LPS.

3.2. AlgoritmosForam implementadas duas solucoes distintas para o problema apresentado neste artigo.A finalidade de duas implementacoes distintas consiste em compara-las, para identificara melhor solucao. A primeira solucao corresponde ao algoritmo no paradigma de forcabruta que encontra uma solucao otima para o problema, sendo oriundo da literatura eproposto por [Pan and Martın-Vide 2005]; a segunda solucao e uma heurıstica gulosaproposta pelos autores, sendo inspirada em outra heurıstica da literatura. Ambos os al-goritmos foram adaptados da literatura para solucionar outro problema comum que e oproblema da mochila [Jaszkiewicz 2002].

O algoritmo exato e capaz de encontrar a solucao otima para o problema usando oparadigma de forca bruta. Dado que este algoritmo gera todas as possıveis configuracoesda LPS solicitada pelo cliente, de forma a maximizar a sua satisfacao. O algoritmo fazuso da abordagem Backtracking, sendo responsavel por analisar o custo e o benefıcio decada caracterıstica do modelo. A fim de verificar a existencia de caracterısticas que naopodem ser incluıdas no produto final.

O algoritmo forca bruta recebe como entrada: as caracterısticas para compor aLPS, o orcamento do cliente, o benefıcio associado a cada caracterıstica e o custo asso-ciado a cada caracterıstica. O algoritmo, entao, aloca e manipula uma matriz que contemtodas as possıveis combinacoes n caracterısticas a fim de determinar uma combinacaoque gera maior satisfacao do cliente. Se denotarmos por T(n) o consumo de tempo nopior caso podemos dizer que:

T (0) = 1

Seja a equacao de recorrencia:

T (n) = T (n–1) + T (n–1) + θ(1)

A solucao desta recorrencia tem a forma 20+21+ ...+2n. Assim, T (n) = θ(2n).

A heurıstica gulosa proposta nesse trabalho, por sua vez, e fruto de pesquisasbibliograficas do problema da mochila. A proposta utilizada para resolver o problema damochila foi adaptada e utilizada para solucionar o problema de configurar os produtos em

Page 136: Anais do SMSI 2016

LPS. Este algoritmo segue basicamente duas regras importantes. A primeira consiste emincluir na solucao todas as caracterısticas mandatorias. Se o saldo do cliente for menordo que o custo das caracterısticas mandatorias, o algoritmo retorna que nao existe solucaoviavel neste caso.

A segunda regra ocorre se as caracterısticas mandatorias tiverem sido incluıdas nasolucao. O algoritmo, entao, tenta incluir as caracterısticas opcionais e XOR. Entretanto,antes da inclusao, o algoritmo verifica se existe um caminho na arvore ate a caracterıstica.Caso nao exista, as caracterısticas que compoem esse caminho sao adicionadas. Por fim,verifica-se novamente o orcamento, se for possıvel adicionar o caminho a caracterısticasera inserida, caso contrario, ela nao sera incluıda.

O algoritmo guloso recebe como entrada: as caracterısticas para compor a LPS,o orcamento do cliente, o benefıcio associado a cada caracterıstica e o custo associado acada caracterıstica. Apos a insercao das caracterısticas mandatorias, o algoritmo utiliza ascaracterısticas restantes e divide o benefıcio pelo custo, como apresentado na equacao:Bi

Ci

Seja n a quantidade de caracterısticas de uma LPS dada como entrada. Assim,a complexidade de tempo da heurıstica implementada e: O(n) para inclusao de todas ascaracterısticas mandatorias. Entretanto, o algoritmo busca as caracterısticas mandatorias(obrigatorias) e depois busca as opcionais, efetuando o calculo Bi

Cipara localizar as me-

lhores caracterısticas opcionais com relacao ao custo e benefıcio. Assim, no total, a com-plexidade da heurısticas e O(n2)

4. Configuracao da Avaliacao

Para avaliar os algoritmos implementados, nos nos inspiramos em caracterısticas apre-sentadas na literatura [Mendonca et al. 2009] e utilizamos de 20 a 60 caracterısticas. Paraexecutar este experimento, o seguinte cenario foi criado:

Entrada: de 20 a 60 caracterısticas, com caracterısticas mandatorias.

Limitacao: o orcamento maximo do cliente para montar a LPS: R$ 600,00 reais

Os experimentos foram executados pelos autores deste artigo, em computadores distintos,porem com a mesma configuracao. O ambiente de execucao e apresentado a seguir:

Arquitetura dos computadores: Intel Pentium IV 2 GHz (clock real de2000.777) Single, cache 512 KB, 2 GB de RAM.

Sistema Operacional: Linux 14.10, 32 bits, kernel 3.16.

Cada algoritmo foi executado por 5 vezes para garantir resultados fidedignos, notermino de cada execucao a media de tempo foi calculada. O tempo de execucao de cadaalgoritmo, foi recuperado atraves do tempo gasto completar a sua execucao, descrita peloautor [Keppel 1996]. Cada algoritmo foi implementado na linguagem de programacaoJava pelos autores deste artigo.

5. Resultados

A partir dos criterios discutidos na secao 4, foram obtidos os resultados de tempo deexecucao de cada algoritmo. Os resultados sao apresentados na Tabela 1. Sendo possıvelobservar que a heurıstica proposta e capaz de encontrar configuracoes aceitaveis em se-

Page 137: Anais do SMSI 2016

gundos para 50 caracterısticas. Ja o algoritmo de forca bruta, consome alem de mais pro-cessamento, aproximadamente 4horas para encontrar uma solucao para 50 caracterısticas.

Tabela 1. Tempo de execucao/entradas distintasCaracterısticas Forca Bruta Heurıstica

20 40 ’s 0,200 microsegundos30 3 minutos 0,33 ’s40 21 minutos 0,897’s50 4 horas 1,541’s60 - 2,53’s

Nao basta avaliar apenas o tempo de execucao de cada algoritmo. E imprescindıvel aavaliacao da qualidade das respostas geradas por cada algoritmo. Essa analise de qua-lidade esta descrita na Tabela 2. Sendo organizado de forma hipotetica a relacao custobenefıcio.

Tabela 2. Qualidade das respostasCaracterısticas Forca Bruta Heurıstica

20 619,0/390,0 505,0/363,030 785,0/397,0 785,0/397,040 829,0/392,0 829,0/392,050 879,0/380,0 698,0/373,060 - 883,0/355,0

Analisando a Tabela 2, e possıvel identificar que os resultados alcancados pelaheurıstica implementada possuem pequena discrepancia em relacao ao algoritmo exatopara as entradas 20 e 50, entretanto, essa discrepancia nao apresenta diferencas signifi-cativas, tendo a visao de que, apesar da heurıstica implementada nem sempre alcancar asolucao otima, esta e capaz de solucionar o problema em menos tempo de execucao emrelacao ao algoritmo exato.

6. Ameacas a ValidadeA nossa pesquisa foi baseada em trabalhos relacionados para apoiar o desenvolvimentodos algoritmos propostos. Em relacao a avaliacao dos algoritmos, desenvolvemos umcuidadoso estudo empırico para avaliar a sua eficiencia a respeito da configuracao de pro-dutos em LPS. Entretanto, algumas ameacas a validade podem afetar os nossos resultados.As principais ameacas e seus respectivos tratamentos sao discutidos abaixo com base nascategorias propostas por Wohlin et al. [Wohlin et al. 2012].

Validade de Construcao. Antes de executar os algoritmos desenvolvidos, realizamosuma selecao manual das instancias na literatura. No entanto, algumas ameacas podemafetar a selecao correta dessas instancias, esses fatores humanos podem ter descartadoinstancias relevantes para o estudo. Entretanto, selecionamos as principais instancias ci-tadas na literatura, como foi descrito na secao 4.

Validade Interna. Neste quesito pode ser considerada como uma ameaca o risco degeneralizar a interpretacao dos resultados, visto que a solucao otima em alguns casos nao

Page 138: Anais do SMSI 2016

foi identificada pelo algoritmo exato. Isso implica na perda do processo comparativoentre o algoritmo exato e a heurıstica. Contudo, a variacao de diferenca entre osalgoritmos ate o limite testado, foi de aproximadamente 19,09%.

Validade de Conclusao. A amostra pequena de instancias, poderia fornecer conclusoesimpropias para este estudo. Assim como a falta de homogeneidade da amostra seleci-onada. Dessa forma, os resultados do estudo podem ser considerados indıcios, e naoresultados totalmente conclusivos.

Validade Externa. Neste aspecto e importante ressaltar que o estudo foi realizado emambiente academico, com instancias fictıcias. E, por isso, pode ser considerado umaameaca a validade devido ao fato de que talvez o resultado alcancado poderia ser diferentecaso o estudo tivesse sido aplicado em ambiente profissional ou com instancias reais maisrobustas do que foram avaliadas neste estudo. Porem, nos avaliamos varias instancias, emcomputadores distintos e com baterias de testes contınuos. As instancias avaliadas foramextraıdas de pesquisas a partir da literatura.

7. Trabalhos Relacionados

Muitas abordagens tem sido propostas na literatura para a configuracao da LPS.[White 2008], por exemplo, propoe o uso de tecnicas de programacao baseadas emrestricoes para desenvolver configuracoes variantes de LPS otimas ou boas. Uma aborda-gem utilizada e a configuracao automatizada de LPS sujeita a recursos limitados. Nestecaso, foram desenvolvidas tecnicas de configuracao baseadas no problema da mochilacujas entradas sao: I) os requerimentos da LPS e II) os recursos disponıveis para aconfiguracao. A saıda e a configuracao otima que se encaixa nos limites dos recursos.

Outro trabalho relacionado a configuracao de LPS por ser verificado em[Khalfaoui et al. 2015]. Neste estudo, a abordagem por meio das transformacoes demodelo e utilizada com a intencao de se reduzir o espaco de busca relacionado aspossıveis configuracoes de LPS, visto que, a partir do modelo de caracterısticas, mui-tas configuracoes sao possıveis. Um framework automatico baseado nessa abordagem foidesenvolvido para gerar configuracoes validas de LPS. Ele explora ascendentemente o di-agrama de caracterısticas, para cada no uma configuracao parcial e feita. No final, aquelasestruturas que violam as restricoes da arvore sao removidas.

8. Conclusao

Varias pesquisas sobre ferramentas automatizadas para criar e editar o modelo de ca-racterısticas tem sido propostas na literatura. Entretanto, poucas ferramentas focam noprocesso de automatizacao para configurar o produto em LPS. Para ajudar a resolver esteproblema, este artigo apresenta um estudo sobre o processo de configuracao de produ-tos em LPS. Nos modelamos o problema para encontrar a solucao otima, maximizando asatisfacao do cliente como um problema de otimizacao.

Com a modelagem do problema, foi possıvel propor dois algoritmos: I) algo-ritmo exato que usa o paradgima de forca bruta, encontrando a solucao otima para aconfiguracao do produto e, II) algoritmo guloso com a heurıstica baseada no problema damochila, que e capaz de encontrar solucoes satisfatorias em pequeno espaco de tempo.

Page 139: Anais do SMSI 2016

Nos avaliamos os algoritmos desenvolvidos com instancias apresentadas na lite-ratura. Essas instancias ocilam entre 20 e 60 caracterısticas. Verificamos por meio deestudos empıricos atraves de um experimento que o diferencial entre a solucao otima(algoritmo exato) e heurıstica (algoritmo guloso) e no maximo de 19,09%. Portanto,podemos concluir que a solucao proposta pelos algoritmos sao factiveis para resolver oproblema da configuracao de produtos em LPS.

Como trabalhos futuros, recomendamos o aperfeicoamento dos nossos algoritmosexatos e heurısticas para adicionar outras caracterısticas nao funcionais no produto final.Adicionando as configuracoes necessarias para auxiliar os mantenedores da LPS no pro-cesso de manutencao. Visto que a proposta atual aborda a configuracao inicial da LPS.Alem disso, para simular a situacao pratica na medida do possıvel, os trabalhos futurosdevem abordar estudos de caso na industria, a fim para garantir que as instancias realistasde requisitos estao sendo gerados.

Page 140: Anais do SMSI 2016

Referencias

Apel, S., Batory, D., Kastner, C., and Saake, G. (2013). Feature-oriented software productlines: concepts and implementation. Springer Science & Business Media.

Batory, D. (2005). Feature models, grammars, and propositional formulas. In Proceedingsof the 9th International Conference on Software Product Lines, SPLC’05, pages 7–20,Berlin, Heidelberg. Springer-Verlag.

Chitchyan, R., Noppen, J., and Groher, I. (2015). What can software engineering do forsustainability: Case of software product lines. In Proceedings of the Fifth InternationalWorkshop on Product LinE Approaches in Software Engineering, PLEASE ’15, pages11–14, Piscataway, NJ, USA. IEEE Press.

Donohoe, P. (2000). Software Product Line: Experience and Research Directions. Sprin-ger Science+Business Media - LCC, New York, USA.

Jaszkiewicz, A. (2002). On the performance of multiple-objective genetic local search onthe 0/1 knapsack problem - a comparative experiment. IEEE Transactions on Evoluti-onary Computation, 6(4):402–412.

Keppel, D. (1996). Runtime Code Generation. PhD thesis. AAI9637972.

Khalfaoui, K., Kerkouche, E., Chaoui, A., and Foudil, C. (2015). Automatic generationof SPL structurally valid products: An approach based on progressive composition ofpartial configurations. 2015 6th International Conference on Information and Commu-nication Systems, ICICS 2015, pages 25–31.

McGrail, Robert W, T. B. (2004). A grading dilemma or the abyss between sorting andthe knapsack problem. J. Comput. Sci. Coll., 19(5):97–107.

Mendonca, M., Branco, M., and Cowan, D. (2009). S.p.l.o.t.: Software product linesonline tools. In Proceedings of the 24th ACM SIGPLAN Conference Companion onObject Oriented Programming Systems Languages and Applications, OOPSLA ’09,pages 761–762, New York, NY, USA. ACM.

Pan, L. and Martın-Vide, C. (2005). Solving multidimensional 0–1 knapsack problemby p systems with input and active membranes. Journal of Parallel and DistributedComputing, 65(12):1578–1584.

Pisinger, D. (1995). Algorithms for Knapsack Problems. Journal of Chemical Informationand Modeling, 53(9):1689–1699.

Pohl, K., Bockle, G., and Linden, F. J. v. d. (2005). Software Product Line Engineering:Foundations, Principles and Techniques. Springer-Verlag New York, Inc., Secaucus,NJ, USA.

Rabiser, R., Wolfinger, R., and Grunbacher, P. (2009). Three-level Customization ofSoftware Products Using a Product Line Approach. HICSS 2009: Proceedings of the42nd Hawaii International Conference on System Sciences, pages 1–10.

White, C. J. (2008). Optimizing the configuration of SPL variants.

Wohlin, C., Runeson, P., Host, M., Ohlsson, M. C., Regnell, B., and Wesslen, A. (2012).Experimentation in software engineering. Springer Science & Business Media.

Page 141: Anais do SMSI 2016

Xiong, X. and Ning, A. (2014). Cellular competitive decision algorithm for binary knap-sack problem. 2014 10th International Conference on Natural Computation, ICNC2014, (1):503–507.

Page 142: Anais do SMSI 2016

������������������� ��� ������������ � ���

� ������������������� ��� ������ ��������

������ ���

� ���� ������� �������� !��"� # ������ ��� ��"� � �$���������

�����������%�

������������� �������� ����������� ���������� �� �� �� �������������� �� ���!"#$��% &���'�(#�$)#*+,#�'�-��.�� �� ����/���� �'����'��� ����

���������������� ����������������������������

�������������������

���������� ������� ������ ��� ����� �� �� ������ �� ��������� ����� ��� ��� �����

������������������������������������������������� �����������������������

�� �������������������������������������������������������������������������

���� ��������� ��� ���� ������� ������� ������ ��� ����� �� !�� �� ��� �� ���

��� ����� ��� ���������� ������� ������ ���� �������� ��� �� ����� ���� �� �������

���� ������������"��������������������������������������

��������#������������ �$���� �%#��� ��� �&'������������������������������� ������ ����� ���#��� �������� ��� �(����� ����� ��� ��� ������� ������ ���

������������� ���)�� ��� ��������� ����'����� ��� ����%$��� ����� ������

������������������������������� �&�%$��������#������������������������������

�������������������� ����������������*�����������������������������������

��� �&������������� ��+������������� ��������' ���������������#�������������

����� �� �&����� ,��� ����� ��� ������ ����� ����� ���� ����� ������� ������� ,���

������������������#���������������������

�$&��� ��'(

�� �����������0 � ��� ��1!2�� ������� ���������3�4 ��5���������� ��/�������&����� ������� /����������6�� �� ������*��������&7������ 6����� ����6��7����3�������6 ��� �����5������ � �� ���� 6���� �� �� &�� ����� �� ��3��� �8�� ����� � �� ��������9���6��� ������ �� ��/����� 6����� �������� ���������� ��3��� �/�������� ���������� ����� �6��������� �������������������� �6�.6�� ������������6������������� �&:��� ����� 6 � ���� � 5� �� /�� ���6������ �� ��3�4 �� �7 �� 6��7� ���� � ��6���� ���� ��3��� �/��6��� �������� ������������������ ����3�����1!2��

;� �� ��3��� ���������� �������.�����5� �� �5�����6����.���������3�4 ����� �� �/���� ���/� ���� �����.����*3������:����6��<����� ���� �������6����.�������3�������� ���� �6������� ��� �� ����� ���� � �:���� ��� ������� 1$2�� ;�� �6����.���� ������������� ���5���0��=;������������*��6�6�� �����&�������� �� ��� ����6��7�������6�>��������� �� �6� ���� ��� � &�&����� �� 1$2�����&������ ���� � ���� ���� �6����.���� 6����� ���6�/��� ����� � ��� ��� ��3��� �8�� � ��6���� ��� �.����� 1$2�� ����� 6��� >�6���� ���������� ���? ��8����?��7�����

Page 143: Anais do SMSI 2016

? ��8�� ��?��7���� 6���� ���� �������������6��&�� �� ������� ��� �� � ����������������/��6��� ���������� �������3������ ����1$2����������>����������� � �*������ ���������-����0@��/��3�� ��6�6�� �� ����6�����������0 � ��� ��1$2�����5��� � � � �� � ��� ������+!�? ��8����� ���3�� ����& � ���*�����6��6.�������3���������/��� � ����3 ����������� ���� ���������� ��������6��� ��� ����

@�� ? ��8�� �� ?��7��� ������� �� ��� ���� <����� �� &��� ���� � ���� ������� ���� �� �3�� ��� � 3��� � 6 � � �� ���������� �� ����� �� �� ��3�4 ��� A��� �������� �� ���� � ����� �� � ���� � �� � ���� ���� ��� 6��&�� ��� ������ ����� 3��� ��� ��� ��� ��3�4 ���3 ����� ���� �� 6������� �� ���6������ �� ����� �� >�������� 6���� 5� 3�� � �� � �:���� � � 6��� ����� ���� �� �&7����� �� ��� �� �� � �6���� ���� ��� � �� ��� �<��� �� &��� ����� ����� ��� ��� /�� �� �.����� 3����� B����� 6 � ������� ���6������� 6��7���� �� �� ����� �� ����3�4 ��� 3�/�������� 6���� �� > ��� �� �� �.����� 3���� � � 6��� ���� 6 � � ������ ����� ���� ��� ����� � ����������� 1C2�� ?����66�4� 1$2� �� � � /�� ��� ? ��8�� ���� ����>6����� ���� ��������� ��� �.����� 3����� ���� ���� ��6����� ���� ���������� � ���� �� ������� ����� �� ������ �� ���� ������ ���������� ������� �� �3 �> ����� ��A���� ������ & ���1$2���3��� �/��>�����3�� ��� �� ����:��� ���������D@?���?��/������� 6 �������6� ��/� ���3�� �����6 ��8������� �������� ����E����6������������6��������������� ��������� ����

������� ���� � ������ �� �� ����� ���� �� ? ��8�� �� ?��7����� ��� ������ 6������ ������&7����� 6�����6 ��� ������� �� � ��������� � ����� �� 6��7���� �� �� ��� 6����� �&��� ����/� ���3�� ������� ��������/�� 6 ��������� ����3�/����� ��? � �������3���3�� � �������������:��� �6 � ����������� ���� � ������� ����E����� ���������&�� �����3��� �8���� ���� � �� � ? ��8�� �� ?��7���� � ���� 6��7���� /�� 7:� 3�� �� ���� ���� 6��� �������6�/��� ������ ����������������� ��3�� ��� ��7:������ � ���

�$��� � )��� *���� ��

;� � ������� �����:��� �� ����� ����� ������� ��6��� �� ������ �� �������� 5� �� � 3��� � ��6�/��� � /�� ����� � ����� 3���� �� � ���� � ���� ��� � ��&�� ������ ��� �� � 1"+2����� �3��� �� 3��� 3�� � �� � ������� � � &��� � �� ��3��� �8�� ��&�� �� �� � ���������� ��� 6����� �������

@�� �&7������ ���� ������ ���F� "�� ������� �� � ��������� � �� 6 ��8��0@�� �� 6��7���� ���� ���6����/�� 7:� 3�� ������ ���� ����������6����������6�/��� ������ ��� �� �������0��=;���? � � �� �� ��� ���&7�����5�����:��������� �� ��5���� ������� ������6��7������+�� � ��� �� ��� ����� ���� �� ��������� ���6 ��8����6��7����� ������6��6.����������3�� ��/� ���6 ��8������� �������� �����/��6��������� ����6������������������������������3�4 ���

�$�$+����( ����,����

�� 3��� �� �� �� �� ��� �&7������ 6���� ����� � ������� /������ �� 6�/��� � 3��� 3����� � F��G� ���? ��8����?��7����0@���������� ��������� ����3�/����� ����.������� ������ ���H � ���� ������ �� �:���������6��7������� �� �������0��=;�I�

�$�$! �����-�� �

@��� ��������:�����6 � ���6����� �/��������6�/��� ����F����� �3��� �/������� & ������������ ���� ��� ���� 3�� ������ ���J������ � 7����3�� ��� �6 � � ������ �� ��3�� ��� �������� ������6��7����������������3��� ������ �����6��7����/����������� �����

Page 144: Anais do SMSI 2016

A �"K� ���3���3�� ��� �������������:��� �� ����� ��� ��� �/� ��3�� ������ ���� �������������� �� ����� ��� ���� � � �� ���� "LL,� �5� �� ��� �� +$"#�� ������� � �� � ��� 6�6�� ��� ���6��� ����� ����F� �...�� /������ 0�����"�� 0�����12� ��+�� !/3!�� 0�������������. �����4(�� @� 6������� �� &��� � ��� ������ �������� ��� ���7����� �� ������� /�� �����< ����� �� �� 6�&��� �8�� /�� ����� � �� �� ����� M�����N�� M3�����N� � M0@N� �� ��� �<���������������&��� ������ � �� ���� ����O��� ���� ����� �� ����"$)��� & ������ ���� ������

���� ���./��� ������� # �� �� ��� �"��� ���"������)���

. ��� *"��� ����) � 0�"����-�)���

��������� �� �� ������*�)�������) !� �����

! �������� �0�"����*�)�������) "� ����P��Q�

! �������� �&�������� �� � ����������������� "� �����

1 �2��)! �������� �0�"����*�)�������) "� �����

��� ���� ��! ������) !� �������

�#�3 ���� ��4��������� ������ ,� �������

� �����! ������������� "� �������

&�������� �� ! �������� �� )���! ����#���� � +� ����P��Q�

��� ������ ������*�)�������) #� ����P��Q�

&�������� �� ! �������� �� ������*�)�������) +� �����

� ������5�4������ �� ��) +� R6������

&�� ����� ��������� "� �������

����6�� ����� ��� ��*�)��#������� ������ +� *�

&�� ����� ����� ���������#� )4 !� �������

!4�������������4�������� 4��� "� R6������

�4�� ���� ���� ���! ������) +� ��Q�

��������������������� �� "� �����

1 �2�# � �� ������"���� �%��� ���" ��� ���������������� "� *����F�?�.6�� � ����� �

���������������������������������������� ��������"����6FPP�>6���������P�+����6FPP444��6���������P&�P�!����6FPP��� ������P�(����6FPP444���������������P�

Page 145: Anais do SMSI 2016

A �+K� ���3���3�� ��� ����6����� �� �� �� �5��� ������ �����<���������3�� ������� ���������� & ����������� ����6����< ���� �������� ����� ������6��7�����? ��8����?��7���0@���6.�����6�������������������>��������� �/� ���&�����*��� �&5�� ���������� ��� ������� ��6��� ����� ��� � �� 6� �� !C� �� & ������ �� �� ������ ���� 6� �� /���� /��3����� ���� ������ � ��������? ��8����?��7����0@��� ��� �������3�� ��6�&��� ����� ��6�����6 �������� ������3����� �����"������� �� ���������7������������6�����6 ���������� �:� ������� �� �����3�4 ������3����6������������� �� &� �"��

A �!K�3 ��3�� ���������������������� �������6 � ����3�� �� ��� �6�������� �6 � ����� ���6�/��� ��-��3����*�� � �� ���� ���� �� & ����� ���� ����� ���� �� �.����� 3����� ���� ���� E������3�� ���� ��? ��8�� ��?��7���� ����� ������6���� �� 6��� �� ��������� 3�������� ���3����6��������&��� �����������5��������G� ����"��3���6���<����&���� ��3�� ���"C��� & �����S�����- ����� �� ��/������3���3������ ����������6 �����/��6������������� ����� � � � �E�� ��� ���

��������������� �������� ����� ��������� �

!���7�� � +���������

��������/����� ������? ��8����?��7�������Q��� �������.����� "$)�

T3����� �>6�<��� �����<����� ��? �������?��7���0@������ �������.����� !C�

�� �� �������������6 � ����3�� ��6�������� � "C�

���F�?�.6�� � ����� �

��*�� 8� ����������������( ��� ������$������� ����6���������&��� ���������� �/�� 6.�� �6����� �6�/��� ��3�� �������� ����"$)��� & �������6.�� � ��� �� ��3����� �>6�<��� ���� �<����� ������� "��� � ���� � 3��� ��� �� � 6 � � !C� �� & ������ ���� � ����� � ��� ������ ���� !C� ��������������+��� ����� �3������ �� �6 � �"C��� & �������

���������������������� ���� ����������� ��������� ��

���F�?�.6�� � ����� �

����� ����� ��� � � 6�/��� � 6��&�*�� /��� �� �� ���� � �� & ���� �� ���� ����� ��� ���� 6���� ����� 6 ��8�� ��6��7����>�������� �����1"$2����� ����� ��3��� ��/� ������6 ��8������ ������� ���� ��� ���� ������ �� �� ������ � �6������ �� ������������� � >�6��� ��1""2��A���3��������� ����������� & ����/�� � ���>6����� ����/� ���6 ��8����6��7��������� �������� ����������/������ & ����� ���6�.>���������� ���3�����1"2�/��� �� ��� �������� ������&��/� ���6 ��8����6��7���� ����� ��������� �����������:�������� & �����

Page 146: Anais do SMSI 2016

������� ���� ������ � � ������ �� �� 6�/��� � � 6���� ���� �� ����� ���� ��&��3�� ��� �������������6 ��8���

�$-�����'( � *9��������

@� ������������ �� ? ��8�� �� ?��7���� 5� �� � /������ ����� �� � � ���� �� � ���� ��>�������� �����3�� ��� ��/����6��68�� �����������6��&�� ������������6 ��8������� & �� ���� ������� � �� ���� ��&�� 3�� ��� �� �� ������� � � � ���� � �� �� & ��������� ����� ���3����*�� /�� >���� �� � /� ���� �� � �:��� �� 3�� ��� �� �3�� �������� � �� $,� ������ '� T���6�#�� �*? �,���?H)�� ?����C��������� ����� -����� ��?�L� �D@?"$��/������ �����6 ��8����6��7�����H � ��

��� �� �� �� 3��� � �� ��� ��� � 3 �� � �� � � ���� 6����6 ���� ���� ������������ ��� ��3�� ��� �� �� ��>:*� �� 6�6 � � �� 6 � � ���� ����� � �� 6��� 6�/��� ����� ��������������� �� ��3�4 ��� �� � � � /�� $(� �/� ����� ��� �� 3�� ��� �� �����3�� � �� ����3�� ��6���<�������������� � � ��������� �6��&�� ���������������� �F������������ � �� �� �� ���� �3�� ��� �6 � �/��3���������� � �� �� ����J������������ ���F�����3�� ��3������ �� ������� ���� �� ���� � ���� � �� ���J� ����� ����� ���F� ���� �� 3�� ��� ���6���� �� ������� ���6������� � ������ ����� 3�� �� ��������� ����� � ���� ����� ����3�� �� ��� �������������6���������6 �<�����/��6��������� ���������� ����������

��� 3�� ��� ��� D@?� �������� ����� -������ 3�� �� ���� � � �� � >��� � �� ���� �>�����6����&���� �������3�� ��/� ���6 ��8��3�� ������ ����6����� ��3�� ��� �� �� �5��� � �:������� �.����� 3���� ���� 6��7���� ����������� A�� �� ����� 3��� ����� � � � 3�� ��� ��?� 6 � �� �� �� �� � ������� ��6��7���� H � ���� 7����3�� ��� ���� ������ ��5�/�� � �� 3�� ��� �5�� 6 ������� �� ���� ��� �������+!�������� ������? ��8����?��7����� � ��� ����6� �0@�� �� ����� ��@���� ���� �@&7����� �� � ���� ���6������ �� �.����*3���� ��� ����� �6 � � �� 3���8�� /�� ���6�� ������ 6 ��8��� �/� ���� �D@?����� � ������ C� �����6 ��8��� � ��� ������

? � ���>6�������3�� ������������R���� ������ �������&���� �������7 ��6��7����/��7:�3�� �� ����� ���� �� ���� �� �:������ ��7�� �.����� 3���� ���� �������� � � ����� ��� H � � � �������� �� ���6��<���� ��� 0��=;��� � 3�� ����� 6��� � � ���� � ����� ����� �� ��� ���������������� ����� ���� ��3����� ? ��8�� �� ?��7���� ��� ��3��� �8�� ����� ����� �������������/����6��7��������� *�����6��<���� �/� ���� ������������ �/� ���� ����������������6 �����6 ��������������� ��� �� &� �+��

�$0��� ��� �

�6.��>��� �� �3�� ��� ��?�����6��7�����5�6���<����&��� ���������� ����� ��� &� ��!��(� � #�� /�� ����5�� ��� 6��7���� ����������� � /� ��� 6 ��8�� ��� � �:����� � � 0@� 3�� ��

���������������������������������������� ��������#����6FPP444�3�7 & ��P &���*3�7 & �������,����6FPP444��� ��������� ���P?��PU�/�����)����6FPP�4�V��� �����*&�����P�� ���P�6�P�673P�� ���C����6FPP4&������� ������PW�����P�� ���P6����P�L����6�FPP�����6 ����3��������6�>����P�� ��P��4PCC(C�"$����6FPP444����� ��X� ��� P4�6�

Page 147: Anais do SMSI 2016

���� ���� ���� 6��7����� �� ��� � MYN� ����� � /�� � 3�� ��� � ���� ������� �� 6 ����� � ���<�&����M N������� ����/����6 �����3������� ����A �3������� � ��<�&��������6 ����������:� �/� ���� ��������O��� ����6 �������6��7������� � �

������������������������������� ��� ���� ��� �� ������ �

� ��� � *�����' � �&���� ! ����� ������������

���� �� ���566���������6������6����� ",�,L#� "$�

H;���� ���566���������6����1���6����� +�$,L� ""#�

B��(7� ���56����������6������6 ��7�� +�,((� (�

0� � � ���566���������6���� �6������ !�!)$� #+�

0����X� ���566���������6������6������ "!�""#� "CC�

���F�?�.6�� � ����� �

��� &� �!�6������������� ���� � �:��������6��7�������� ���� ���? ��8������� �����������6�� �� 6 ����� 5� ��6���:��� 6��� ���� �� ��� ����� � ���6�����������������&7���� ������� ��������6������� �6���� ������6.����� �� ������ ����� �� &� ��3�� � ��6��6�<����/�����6 ��8�� ����X�Q���������������3�� �����S���������� ����6� �3�� ��� �������� 6������� 6������� �� � /� ���� �� � ���� �� ��������� �� �� ����O��� �� ��� 6��7��� ������/��� ��� �� ���� ,,� ������ � � ����� ����O��� ��� �������� 6����������������� 8���� ��9��78�� @� �������� �� �� ���� ���� 3��� ���� ��� 6� ��?� ��� 6��7��� B��(H�� � �� �&������ /�����6��7�����������������6����������8�����6���3�������/���

�������!���"� �������������� ���� �#����� ������������ ���� ��� �

��������!���'( � ��� �

� �!�� 3���� � )�3 ���"� �� "4

���� �4���# � ���,,�� ���C�� ���!�� ���)�� ���++��

������������ �4 Y� Y� Y� Y� Y�

��� ��� ���(�� ���""�� Y� ���(+�� ���+)��

� � �4�� Y� Y� Y� Y� Y�

���) �� � Y� Y� Y� Y� Y�

���F�?�.6�� � ����� �

@�������6����� ����� � � ��� � �3��� ���? ��8�����6��� ��� ����� &� �(���������6����6 �����5���6���:���6����3����� �������� ��������������7��������&7�������������� ��� ������� � ����� �� 3��>�� �� � �� ����� � 5� ������� ���� @�� �7 �� ��� ��6�� �� 6 ����� ��6����6 ���� 6��� �������6��� �������������8�����&7���������������5����.����/�����6 ��8��3������ �+������ ���� 3�� ������ ����������������6��7����� �������6����6 ��8��3������ �0������ /�� 3�� ������ ������ 6� ��$"� �����6��7����?��� 3��������� ���6 ��8��6������� �� &� � 6���� � ���������6������ ���$!������������6��7�����

?��� 3���� 6���� ���� ��� ? ��8�� �������� ���� ���3���� 6��� ��� ���� �� ��� � � � &� � #������ ��6�� �� 6 ����� 5� ��6���:��� 6��� ������� � ��� �� ������� �� ��� �� �� �� ���� ��&7�������������� ��@���7 ������6 ��8������ 6��� ����6 � ����6������6������&7������������� ��� ��������������:��������6 ��8������� �����6��������$"������6 �������

Page 148: Anais do SMSI 2016

�������� � 3��� ���� ��� �� � � � ��� ���� 6��7���� � ��� ����� ��� ����� 6 ���� �� �� 6 �����- �������3�����S�����/�������&�������� ��������� ��>���8��� �3�� ��� ��

�������$���"� �������������� ���� �#����� ������������������� ���� ��� �

��������! �� ������� � ��� �

� �!�� 3���� � )�3 ���"� �� "4

&���������� ���!�� Y� Y� Y� Y�

���� ������# � ���+�� Y� Y� Y� ���"L��

!#��� �0��� ����� ��4 ���!�� ���+�� Y� ���#�� Y�

! ����� ���+�� ���!�� Y� Y� Y�

&����� � ���"�� Y� Y� ���()�� ���L��

������ � ���"�� Y� Y� Y� Y�

������ Y� Y� Y� Y� Y�

�����"�� Y� Y� Y� Y� Y�

����� ���+(�� ���"�� Y� ���+�� ���+,��

������)4 Y� Y� Y� Y� ���(��

����� � ���"�� Y� Y� ���+�� ���!"��

���F�?�.6�� � ����� �

�������%���"� �������������� ���� �#����� ����& ���������� ���� ��� �

��������*�������� � ��� �

� �!�� 3���� � )�3 ���"� �� "4

������� ���,�� ���+�� Y� ���+�� ���,��

����)� Y� Y� ���+�� ���"�� Y�

! �� ���� ���!�� Y� Y� ���"�� ���+��

-�� ��� � ���"�� ���"�� Y� Y� Y�

������ ���,�� ���"�� Y� Y� ���"��

� 4���)#� Y� Y� Y� Y� Y�

� 94 ���)�� Y� Y� ���"�� ���"+��

���F�?�.6�� � ����� �

�$! �� ����������� # ������ �

�� ������������ �����������*�� �/��������6�/��� �����������#��������������+-��$���� �&����� ��������� ��,�*���������(��������� ���������8�������������������' ���������

������� ��� �&������������� :��� ��������3��� F�

@�� ����� ���� �&��� ���� ����� ��/������� ���� ���? ��8������� ����������*��/�����6 ��8�� �������� 0��� ���� � !����� -����� ���� ���� ����� ����� ��������� �� �6�3����� � 6���-�����3����� � �� ���� A��� 6 ��8�� �� �������� �� ��- ������� ���� 3���

Page 149: Anais do SMSI 2016

����� ���� � �� 6 ����� ������ ��� ���� � ���� 3�/����� � 3��� �� ��;�� �+$� ����O��� ���� H:� ���� ���� ��� ? ��8�� ���6��� ��� ��� �� ����� � �� 0��� 3�� �� & �� ��� ����� ����� #)�����O��� ���#!�����O��� ����6���� ������

?��� ����� ��� ������ 6����&������� ����� �� ��� 6 ��8�� ����� ���� ���� ����� �� ���� ����� ���/� ���6������������ ������������ �6 � ��������������������/��6�������6�� ��6 ��8����6��7�������������� �������������

0����������

1"2��Q?��%@0B@;������ �� ��� �+$""����+$""������6���� �� ������� �������������� &����X��3�������6 ������ �����3�4 ��6 �V ����H���� ��@3�RX���������R�3�4 ���6�++,#*++C!���

1L2� �@��?B�Y�� ������ ? ����� ������ �+$$)��� ���6��<��� �F�Z���6�FPP�����6 ����3��������6�>����P[���������F�"C�3���+$",���

1+2������A��=��Q�A%�T������%�T?@R��-����+$"#����+$"#��������6 �������������������A��T��?���������@3���� !$������� �����RX�6�����@���66�������6������ *�R ��\"#��6�"#C,*"#L!���

1C2�T����R������B�������� ����������+$$!������6� ����6������ 6��� ����7 � � �� �5��� ������3�� ������6 ��8����6��7����+$$!��"!+�3������������ ����*��������������� �� ����6�� �����;������� ���� �����T���0� ������R����T���0� ������R����+$$!��

1!2� 0�QQ��� ���� �� ��� �"LL#�� ������ ? �����F� ������� �3� T�� &�� @&7��*�������R�3�4 ��������� F��������*D��X���

1"+2�B�A���]J� ��D�BB��=�R�A���+$$!���=�4��&7����� ���X��� �������4�I���33�����&�4�����4��������6���� �X����������

1"$2�?�T��T����������R��� ����+$$C���?��T^�R����?T@H��@F�;Q���@Q?�B�_`@��@R� Q��R� ;��B�%��@R� �Q� ?T@H��@R� ��� R@�D�T��� +$$C�� (#� 3�� �����0� �� ����� *� ������ �� R���� �� �� ��3��� ����� ���� �� �� Q�� ��� ���� =��� �����+$$C��

1(2�?=�B�??@D�� ���� �� ��� �+$$(����� 66�� ��� 3��� ����� ��������0@�������6 �������R�3�4�RX���Q�����6�##*)$���

1#2�T@Q��H;A�@T�����A����+$"!��;� �3�� ��� �6 � ����� ������� ������6��7��������3�4 �� ��������� �����������.�����5���� ��������0� �� �����*����������������� ���R���� ��? � ���������;������� �������.��� ��� �����? � �:���

1,2�R@QQ�T-�BB�������+$$!������� �� ���R�3�4 ���R���? ����������� F���������D��X���

1""2�%=�A0��������J��;�0�A��� �������+$"!��������X��3�>6����������6��6������ &���� ��3�4 �� ������ 6 ������� ��3��� ���������R�3�4 ����������X�� 1����2�����##�����#��6�C++*C!#����� ���+$"!����������-�����6FPP�>��������P"$�"$",P7���3��3�+$"+�""�$$!���

1)2�%=;�� H��%=@;��Q��Q@�];R����� �+$"(��? �������3� 3�������� ���?��7���6�6�� ���X��?��������� @3� ��� C��� ���P�� ����� ���� �� RX�6������ @�� ��6���� �� R�3�4 ����������������Q ���������

Page 150: Anais do SMSI 2016

Uma Metrica de Manutenibilidade de Codigo CSS

Victor C. Salvador1, Flavio R. S. Coutinho1, Glıvia A. R. Barbosa1, Ismael S. Silva1

1Departamento de Computacao – Centro Federal de Educacao Tecnologica de Minas GeraisCEFET-MG - Belo Horizonte – MG – Brasil

Abstract. The amount of CSS code used on the web has been increasing a lotover the years and there is no metric to evaluate the cost of maintainability ofsuch code. This paper proposes one such metric with criteria weighed by theexperience of professional developers. The metric was evaluated in a case studythat compared, over time, its value with another clue of maintainability - thenumber of defects - and the results showed that the values converged most of thetime, but that it is still necessary to deepen the study on the metric.

Resumo. O volume de codigo CSS usado na web tem crescido muito ao longodos anos e nao existem metricas que avaliem o custo de manutencao dessecodigo. Este trabalho propoe uma metrica de manutenibilidade de codigo CSScom criterios ponderados a partir da experiencia de desenvolvedores profissio-nais. Em um estudo de caso, a metrica foi comparada, ao longo do tempo, comoutro indicador de manutencao - o numero de defeitos - e os resultados mos-traram que os valores convergiram na maior parte do tempo, mas que ainda enecessario aprofundar no estudo da metrica.

1. IntroducaoUma pagina da World Wide Web (WWW) e tipicamente formada por documentos escritosem uma trıade de linguagens: o Hypertext Markup Language (HTML), com o qual define-se a estrutura e o conteudo a ser apresentado; o JavaScript, com o qual programa-se o com-portamento dinamico da pagina; e o Cascading Stylesheets (CSS), uma linguagem com aqual define-se a aparencia dos elementos da pagina [Berners-Lee and Fischetti 2000].

Em direcao a paginas web mais interativas e adaptaveis a diversos dispositivos, ovolume de codigo CSS nas paginas tem aumentado nos ultimos anos. A partir dos dadosde uso da web disponibilizados publicamente [Kahle 1996], e possıvel realizar consultase verificar que, de novembro de 2010 ate maio de 2016, o numero de arquivos CSS in-cluıdos por uma pagina subiu de aproximadamente 2 para 5 e o tamanho do codigo CSS,compactado, aumentou de aproximadamente 13KB para 37KB, como mostra a Figura 1.

O codigo CSS passa por manutencao corretiva e evolutiva, assim como o codigofonte escrito em linguagens de programacao. Contudo, a linguagem de estilo da web efrequentemente preterida ao codigo responsavel pelo comportamento das aplicacoes webe recebe pouca atencao, tanto do ponto de vista da industria [McPherson 2014], quanto depesquisa [Mesbah and Mirshokraie 2012]. Em especial, do ponto de vista da qualidadede codigo CSS, nao ha estudos na literatura que definam sua manutenibilidade, nem queproponham uma forma de mensura-la [Quint and Vatton 2007, Geneves et al. 2012].

Apesar de ter uma sintaxe bastante simples, a linguagem CSS possui diversos re-cursos de reaproveitamento de codigo (e.g., heranca, cascata) e outras caracterısticas (e.g.,

Page 151: Anais do SMSI 2016

Figura 1. (a) variacao da quantidade de arquivos CSS incluıdos em paginas webdesde novembro/2010 ate maio/2016 e (b) variacao do tamanho do codigo CSSincluıdos em paginas web no mesmo perıodo

especificidade de seletores) que tornam sua codificacao e, especialmente, sua manutencao,arriscada e onerosa [Mesbah and Mirshokraie 2012].

O tipo de erro relacionado a codigo CSS com maior potencial de problemas du-rante sua manutencao e o efeito colateral indesejado [Walton 2015]. Esse problema ocorrequando uma alteracao e feita no codigo com a expectativa de que ela tenha efeito em umaparte do sistema, mas que, devido a caracterısticas da linguagem, outras partes tambemsejam afetadas - e isso pode ate passar despercebido pelo programador, introduzindo de-feitos cujas origens podem ser difıceis de rastrear.

O risco de acometimento de efeitos colaterais indesejados e agravado pelo fato dea linguagem CSS ser interpretada diretamente a partir do codigo fonte, nao havendo umpasso de compilacao, e tambem porque a deteccao de problemas ocorre apenas quandoda inspecao da interface [Lie 2005].

Nesse contexto, este trabalho define que criterios constituem a manutenibilidadede codigo CSS pelo ponto de vista de desenvolvedores profissionais e tambem propoeuma metrica baseada nessa definicao.

A metodologia escolhida para a definicao de manutenibilidade e da metrica pas-sou por levantamento na literatura relacionada a caracterısticas da linguagem CSS quetenham impacto na manutenibilidade do codigo, pela experiencia dos autores deste tra-balho com desenvolvimento na linguagem e por um questionario exploratorio aplicado adesenvolvedores profissionais.

Uma vez que os criterios que constituem a manutenibilidade foram levantados,uma metrica baseada neles foi proposta e, para avalia-la, foi feito um estudo de caso comum projeto de codigo aberto no qual o valor calculado para a metrica foi comparado comum outro indicador de manutenibilidade - o numero de defeitos relativos ao codigo CSS.

Os resultados mostraram que a metrica proposta converge com outros indicadorese que ela pode ser usada como um indicador de manutenibilidade. Contudo, novos estudosainda devem ser feitos para avalia-la de forma mais completa.

Page 152: Anais do SMSI 2016

2. Fundamentos da Linguagem CSS

Uma folha de estilo pode ser vista como um conjunto de regras, cada uma composta porum seletor e um conjunto de pares de propriedade e seu valor (Figura 2). Os seleto-res definem a quais elementos de um documento HTML serao aplicadas as propriedadesdefinidas pela regra a qual elas pertencem [Geneves et al. 2012].

Figura 2. Trecho de uma folha de estilo.

2.1. Seletores

Um seletor e uma cadeia de uma ou mais sequencias de seletores simples, separados porcombinadores. Os seletores simples sao cadeias de caracteres que representam um ele-mento da pagina. Ha diversos tipos de seletores simples [W3C 2015], sendo que os maiscomuns selecionam (a) todos os elementos com determinada tag HTML (e.g., span), (b)elementos que possuem uma classe (atributo class e.g., .botao-primario) e (c)elemento que possua certo identificador (atributo id e.g., #logomarca).

Os combinadores sao propriedades que definem relacoes entre os elementos de umdocumento. Existem tres formas de combinadores: descendentes, filhos e irmaos. O com-binador de descendente descreve qualquer elemento que esteja um nıvel abaixo na arvorede elementos da pagina e sao representados pelo espaco em branco, e.g. “body p”. Ocombinador de filho descreve os elementos que estao exatamente um nıvel abaixo do no,sendo este representado pelo sinal de maior (>), e.g. “body > p”. Ja o combinador deirmaos, descreve os elementos que estao no mesmo nıvel da arvore, sendo eles represen-tados em duas variacoes, uma para o proximo irmao adjacente (+) e um para todos osirmaos (∼) [W3C 2015].

Uma pseudoclasse e um elemento de selecao que especifica estado ou localizacaodo elemento. Por exemplo, a pseudoclasse “:nth-first-child(n)” identifica o n-esimo elemento filho contando a partir do primeiro, podendo assim ser classificado comouma pseudoclasse de localizacao. A pseudoclasse “:hover” identifica um elementoque esteja sob o cursor do apontador (mouse), sendo assim uma pseudoclasse de estado.Existem tambem os seletores de atributos, que selecionam elementos que possuam de-terminados atributos, permitindo a utilizacao de expressoes para selecoes parciais, i.e.,atributos cujos valores comecem, possuam ou terminem com uma cadeia de caracteresespecıficos [W3C 2015].

E possıvel e mesmo frequente ter a situacao em que mais de uma regra e aplicada aum mesmo elemento da pagina. Nesse caso, se as regras definem as mesmas propriedades(e.g., ambas definem a cor do texto), uma tera precedencia sobre a outra seguindo umconjunto de regras que e determinado como o “efeito cascata”.

Page 153: Anais do SMSI 2016

2.2. Efeito Cascata

O navegador atribui um peso a cada regra CSS e quando ha varias regras candidatas a seaplicar a um mesmo elemento, aquela cujo peso tem maior valor sobrescreve as outras.

Quando uma pagina esta sendo exibida, o mecanismo de renderizacao do nave-gador recebe uma lista desordenada dessas propriedades definidas em CSS e as organizapela precedencia de suas declaracoes. Essa ordem e definida de acordo com os seguintescriterios [W3C 2015]: origem e importancia na cascata, forma de inclusao da folha deestilo da regra, coeficiente de especificidade do seletor da regra e a ordem de aparicaodentro do documento HTML.

Outra caracterıstica da linguagem CSS que determina o funcionamento em cascatada aplicacao de estilos e a heranca. Algumas propriedades (e.g., a cor do texto), quandodefinidas para um elemento (e.g., uma tabela), sao automaticamente herdadas para oselementos que sejam seus filhos (e.g., as celulas da tabela recebem a mesma cor que foidefinida para a tabela).

Cada propriedade de estilo (e.g., cor, espacamento) possui um valor padrao deheranca, que indica se aquela propriedade e propagada para os filhos. Essa heranca podeser definida explicitamente usando o valor inherits para uma propriedade.

Ao passo que os mecanismos de reuso de codigo presentes na linguagem CSS ofe-recem flexibilidade e poder, eles tornam a tarefa de um desenvolvedor bastante complexa:ao adicionar, alterar ou remover uma regra CSS em alguma parte do codigo, nao e umatarefa trivial determinar qual sera o impacto na apresentacao do documento.

3. Trabalhos Relacionados

Poucos trabalhos estudam a linguagem CSS do ponto de vista de aspectos de qua-lidade de codigo e a maior parte deles contempla o uso de ferramentos de apoio acriacao e manutencao do codigo [Quint and Vatton 2007, Keller and Nussbaumer 2010,Mesbah and Mirshokraie 2012, Park et al. 2015].

Quint e Vatton (2007) levantam os requisitos necessarios para construir uma fer-ramenta de apoio a criacao e manipulacao de codigo CSS. Os autores defendem que talferramenta deve auxiliar os desenvolvedores a identificar o impacto de uma alteracao emuma regra (que elementos serao afetados) e tambem identificar que regras contribuem paraos efeitos visuais em determinado elemento. O trabalho ainda propoe uma implementacaodesses requisitos na ferramenta Amaya1.

Keller e Nussbaumer (2010) analisam a qualidade de codigo CSS sob uma pers-pectiva de avaliar a diferenca entre codigos de autoria humana e aqueles gerados de formaautomatica (e.g., via pre-processadores como Less2, Sass3). O trabalho propoe uma me-dida de qualidade do codigo baseada no nıvel de abstracao dos seletores das regras CSS:um seletor tem qualidade se ele e abstrato o suficiente para ser aplicado em varias partesdo codigo. A abstracao do seletor e definida pela sua utilizacao no escopo geral de um do-cumento HTML, considerando que seletores id sao os menos abstratos possıveis, porque

1Disponıvel em: https://www.w3.org/Amaya/2Disponıvel em: http://lesscss.org/3Disponıvel em: http://sass-lang.com/

Page 154: Anais do SMSI 2016

se aplicam a, no maximo, 1 elemento. O trabalho nao encontrou uma relacao forte entrea complexidade de codigo CSS e o nıvel de abstracao, e os autores a consideraram umamedida fraca, se utilizada de forma exclusiva, deixando em aberto a proposta de metricasque a corroborem, ou cooperem na medida de qualidade de codigo CSS.

Mesbah e Mirshokraie (2012) propoem uma ferramenta de auxılio no processode manutencao de codigo CSS, que encontra regras que foram declaradas mas nao seaplicaram a nenhum elemento, removendo-as do codigo.

Park et al. (2015) investigam os erros cometidos pelas pessoas ao codificar HTMLe CSS. Aplicando um metodo de analise, as dificuldades enfrentadas pelos participantesda pesquisa foram divididos em tres tipos de erros: baseados em proficiencia, baseadosem regras e baseados em conhecimento. Os resultados sugerem formas de se aprimorarferramentas de desenvolvimento web para o suporte ao aprendizado de HTML e CSS.

Nao foram encontrados trabalhos que medissem a manutenibilidade de codigoCSS. Motivado por essa lacuna, este trabalho visa encontrar os criterios que definem amanutenibilidade de codigo CSS e propor uma metrica baseada neles.

4. Proposta da MetricaA manutenibilidade de um sistema e definida como a facilidade com a qual um soft-ware, ou componente, pode ser modificado para corrigir falhas, melhorar performance,ou adaptar-se a mudanca de ambiente [IEEE 2010].

Para determinar os criterios de manutenibilidade de codigo CSS, foi elaborado umquestionario exploratorio, que foi aplicado a desenvolvedores profissionais com diferen-tes nıveis de experiencia. A analise das respostas do questionario serviu de base para acomposicao da metrica.

O questionario foi disponibilizado em meio digital, no perıodo de 21 de junho de2015 a 29 de julho de 2015 e foi divulgado em empresas de desenvolvimento de softwarena plataforma web da cidade de Belo Horizonte e em redes sociais. No total, foram obtidas27 respostas.

4.1. Criterios de ManutenibilidadeO questionario foi dividido em 3 partes. A primeira continha questoes usadas para deter-minar a habilidade na linguagem CSS do respondente. A segunda parte foi composta porquestoes exploratorias sobre qualidade de codigo CSS. Na terceira parte, cada questaocontinha trechos de codigo CSS e perguntava ao usuario qual o grau de dificuldade de sealterar aquele codigo, considerando o esforco necessario para se fazer uma alteracao quenao provocasse efeitos colaterais indesejados.

Nesse ultimo grupo de questoes, os usuarios responderam em uma escala com 5gradacoes que ia de “Muito Simples” (valor 1) a “Muito Complexo” (valor 5). Cada enun-ciado foi criado com um trecho de codigo CSS que ilustrasse o uso de uma caracterısticada linguagem. O conjunto de caracterısticas da linguagem contemplado pelas questoes ea media das respostas dos respondentes podem ser vistos na Tabela 1.

4.2. Definicao da MetricaA metrica foi definida como a composicao de 12 criterios em que cada um representa onumero de ocorrencias de uma das caracterısticas da linguagem CSS que foram abordadas

Page 155: Anais do SMSI 2016

Tabela 1. Caracterısticas que impactam a manutenibilidade de codigo CSS e amedia das respostas dos usuarios.

Criterio MediaSeletores com combinadores raros: {[ˆ=], [$=], ˜, +,>} 3Agrupamento de seletores 2,8Seletores aninhados 2,8Propriedades abreviadas 3,2Pseudoelementos e Pseudoclasses 2,8Seletores muito extensos 3At-rules 2,8Media queries 3,8Prefixos de navegadores: {-webkit, -ms, etc.} 4,2Clausula :not 3,8Complexidade do seletor 4,8Seletores de localidade: {nth-last-child, first-child, etc.} 2,6

em uma pergunta do questionario. A formula geral da metrica pode ser vista na Equacao 1.

Metrica←12∑i=1

criterioi(folha de estilo)× pesoi (1)

Cada caracterıstica da linguagem avaliada no questionario possui um impactomaior ou menor na manutenibilidade e a media das respostas foi usada para ponderarcada criterio (Tabela 1). A formula geral usada para varios dos criterios pode ser vista naEquacao 2, que mostra que o valor de um criterioi e igual ao numero de ocorrencias dacaracterıstica da linguagem CSS que ele representa (#ocorrenciasi):

criterioi(regra)→ #ocorrenciasi (2)

O valor calculado para a metrica e um indicador do custo de manutenibilidade deum codigo CSS, o que significa que valores maiores representam custos maiores.

A seguir, estao descritos os 12 criterios que compoem a metrica e, para aque-les que nao seguem a formula geral dos criterios (Equacao 2), sua formula especıfica eapresentada e justificada.

4.2.1. Seletores com Combinadores Raros

Foram considerados os seletores que continham combinadores que, de acordo comMcPherson (2014), sao usados em menos de 3% das regras CSS. Esses combinadoressao: o seletor de atributo ([attr=value]), o combinador de descendente direto (>), ocombinador de elementos irmaos (∼) e o combinador de primeiro elemento irmao (+). Ouso desses recursos no codigo pode tornar a manutencao mais difıcil, uma vez que elespodem nao ser facilmente compreendidos ou sequer conhecidos pelo desenvolvedor.

4.2.2. Agrupamento de Seletores

Dois ou mais seletores, separados por vırgula, podem ser agrupados de maneira que aspropriedades da regra se apliquem aos elementos selecionados por pelo menos um deles.

Page 156: Anais do SMSI 2016

Esse recurso da linguagem pode tornar a manutencao mais onerosa porque aalteracao de uma propriedade de uma regra com um agrupamento de seletores pode facil-mente provocar efeitos colaterais indesejados, uma vez que nao e trivial verificar todos oselementos para os quais a regra esta sendo aplicada.

O calculo desse criterio segue a formula da Equacao 3, que e uma funcao crescenteque satura quando o #ocorrencias−1 se aproxima de certo numero (neste caso, 10). Essecomportamento foi escolhido porque considerou-se que, a partir de uma certa quantidadede seletores agrupados, a presenca de outros seletores adicionais nao impacta tanto amanutenibilidade. Para atingir a saturacao em 10, foi definida a constante k igual a 2. O#ocorrencias e a quantidade de seletores agrupados em uma regra.

criterio(regra)→ arctg (k × (#ocorrencias− 1)) (3)

4.2.3. Seletores Aninhados

Este criterio considera a profundidade dos seletores. Um seletor profundo (e.g.,#topo .cabecalho ul li, com profundidade 4) pode tornar a manutencao maisdifıcil porque ele seleciona elementos que estao estruturados de uma forma muito es-pecıfica no documento HTML e uma pequena alteracao nessa estrutura pode fazer comque a regra nao seja mais aplicada. O #ocorrencias e a profundidade do seletor.

O calculo desse criterio tambem segue a Equacao 3, porem foi considerado que asaturacao ocorre a partir de uma profundidade de 4 (para tal, a constante k = 5).

4.2.4. Propriedades Abreviadas

Propriedades abreviadas possibilitam a definicao de mais de uma propriedade CSS si-multaneamente (e.g., border e um atalho para border-width, border-style eborder-color). Algumas das propriedades abreviadas requerem uma determinadaordem (e.g., margin, padding) enquanto que outras nao (e.g., border). Essa incon-sistencia pode causar confusao no momento de uma alteracao no codigo, dificultando amanutencao.

4.2.5. Pseudoelementos e Pseudoclasses

Os pseudoelementos podem ser utilizados para acessar propriedades especiais dos ele-mentos HTML. Das pseudoclasses, foram excluıdos a clausula not e os seletores delocalidade, que receberam um criterio de avaliacao separado.

4.2.6. Seletores muito Extensos

Seletores com muitos caracteres podem dificultar a compreensao de quais elementos teraoa regra aplicada.

Para o calculo deste criterio, foi considerado um valor de ativacao, i.e., a par-tir de dado numero de caracteres, o seletor afeta negativamente a manutenibilidade docodigo. Para esse valor de ativacao, utilizou-se dos dados levantados pela pesquisa feitapor McPherson (2014), em que e apresentada uma distribuicao do comprimento, em ca-racteres, dos seletores encontrados em folhas de estilo na web.

De acordo com o trabalho, a moda dos comprimentos dos seletores e proxima de20 caracteres. O valor de ativacao do criterio foi, entao, definido como 35 caracteres, um

Page 157: Anais do SMSI 2016

valor maior que a moda e que contempla uma grande fatia na distribuicao.

4.2.7. At-rules

Este criterio avaliou as At-rules, que sao regras precedidas pelo sımbolo @. As At-rulespodem definir uma serie de atributos (e.g. charset, import, namespace) que daosuporte a importacao de arquivos externos ou o poder de ativacao condicional de regras.

4.2.8. Media Queries

A at-rule @media e uma declaracao ativa um conjunto de regras condicionalmente aum argumento chamado media query. Estas avaliam aspectos como o tamanho da janelado navegador ou informacoes do dispositivo no qual o documento HTML esta sendorenderizado. As media queries adicionam um nıvel a mais de complexidade no codigoCSS e tem ganhado espaco nas folhas de estilo devido a necessidade de estilos adaptaveisa diferentes dispositivos, como smartphones e tablets.

4.2.9. Prefixos de Navegadores

Algumas propriedades que ainda nao foram completamente padronizadas pela W3Cprecisam ser definidas usando um prefixo especıfico para cada navegador (e.g.,-moz-transition para o Firefox, -ms-transition para o Internet Explorer e-webkit-transition para Chrome, Safari e Opera). Isso faz com que os valores dadeclaracao original (sem prefixo) precisem aparecer repetidos no codigo CSS, o que podeprovocar problemas de manutenibilidade quando da sua alteracao.

4.2.10. Clausula :not(...)

A pseudoclasse :not(...) determina que o seletor dentro do parenteses nao pode fazerparte da condicao para selecao de elementos no documento HTML. Essa pseudoclasse,diferente das demais, inverte a logica de aplicacao dos seletores e e bem menos usada nasfolhas de estilo [McPherson 2014]. Por esses motivos, ela pode contribuir negativamentepara a manutenibilidade.

4.2.11. Complexidade do Seletor

Seletores com combinadores requerem uma interpretacao menos trivial e dificultam acompreensao do codigo. Alem disso, quanto mais combinadores ha simultaneamente emum mesmo seletor, mais rapidamente aumenta essa dificuldade. Por exemplo, o sele-tor div ∼ span escolhe todos os <span> que possuam algum <div> como irmao.Ao colocar mais um combinador nesse seletor, por exemplo, div ∼ span + img, elepassa a selecionar as primeiras imagens que possuam um <span> como irmao imediata-mente anterior que, por sua vez, possua algum <div> como irmao.

Esse aumento na complexidade foi modelado de forma exponencial de acordo coma formula da Equacao 4. O peso para esse criterio foi usado como a base da potencia e oexpoente conta o #ocorrencias de combinadores.

criterio(regra)→ peso#ocorrencias (4)

4.2.12. Seletores de Localidade

As pseudoclasses de localidade (e.g., :nth-child, :nth-of-type) podem tornar ocodigo menos legıvel em vista ao uso de outros recursos mais comuns (e.g., de classes) e

Page 158: Anais do SMSI 2016

impactar a facilidade de manutencao.

4.3. Ferramenta de Calculo

Para fazer o calculo da metrica de maneira automatizada, foi criado um programa que le,a partir de um documento HTML, as regras CSS de todas as folhas de estilo que foramaplicadas. O programa, escrito em JavaScript, calcula o valor de cada um dos criteriospara cada folha de estilo, iterando sobre suas regras CSS. Dessa forma, uma mesma regrae avaliada quanto a todos os criterios estipulados e o valor para cada criterio, por regra,e obtido. Ao final, soma-se o valor de cada criterio de cada regra e obtem-se o resultadototal de cada folha de estilo.

O codigo esta disponıvel online4 na forma de um bookmarklet5 que exibe asinformacoes detalhadas da metrica para as folhas de estilo presentes na pagina web.

5. Avaliacao da Metrica

Para poder usar o valor da metrica e conferir se esse valor e um indicador valido de manu-tenibilidade de codigo CSS, e necessario comparar esse valor a algum outro indicador demanutenibilidade. Se houver convergencia, pode-se assumir que a metrica aqui propostae um indicador eficaz.

Como nao ha outras metricas de manutenibilidade de codigo CSS conhecidas,optou-se por comparar, ao longo do tempo, o valor obtido pela metrica com o numero dedefeitos em folhas de estilos registrados em algum projeto web que tivesse codigo abertoe um sistema de gerenciamento de defeitos aberto ao publico. Para esse proposito foiescolhido o Jenkins6 - uma aplicacao de integracao contınua. Ele e um projeto maduro,amplamente utilizado e com uma comunidade de desenvolvimento ativa desde 2007.

5.1. Metodologia de Avaliacao

Para execucao dos testes, foram utilizadas doze versoes do Jenkins, selecionadas entreaquelas disponibilizadas na pagina do projeto, em intervalos semestrais. Essas versoesforam escolhidas entre 2010 ate 2015, tendo essa escolha sido feita devido a disponibi-lidade e possibilidade de identificar em qual ponto no tempo elas foram construıdas. Asversoes selecionadas e suas respectivas datas podem ser vistas na Tabela 2.

Tabela 2. Versoes do Jenkins usadas e o numero de defeitos.Versao 1.369 1.395 1.423 1.450 1.475 1.500 1.525 1.549 1.574 1.598 1.622Data 2010.2 2011.1 2011.2 2012.1 2012.2 2013.1 2013.2 2014.1 2014.2 2015.1 2015.2# Defeitos 10 8 14 13 10 13 20 22 45 23 15

O projeto do Jenkins controla as tarefas relativas ao desenvolvimento de formapublica e online7 usando a ferramenta Atlassian JIRA8. Utilizando dos filtros disponıveisnessa ferramenta, foi possıvel identificar os defeitos identificados no Jenkins que tinham

4Disponıvel em https://vcsalvador.github.io/css-maintainability-metric.5Bookmarklet: pequena aplicacao em JavaScript executada a partir do atalho de favoritos no navegador6Disponıvel em https://jenkins-ci.org/7Disponıvel em: https://issues.jenkins-ci.org8Disponıvel em: https://www.atlassian.com/software/jira

Page 159: Anais do SMSI 2016

alguma relacao com os arquivos CSS, o que foi usado como um indicador da manute-nibilidade do projeto. Foram associados a uma versao os defeitos cuja data de criacaosituava-se entre a versao corrente e a data de liberacao da versao seguinte. Os resultadosdessa busca podem ser vistos na terceira linha da Tabela 2.

Com estas informacoes, e possıvel identificar uma relacao entre o valor da metricae o numero de defeitos de cada versao e, a partir disso, averiguar se o valor da metricaproposta para um conjunto de arquivos CSS indica seu nıvel de manutenibilidade.

5.2. Resultados

Instancias do Jenkins foram executadas nas versoes selecionadas e, para cada uma, foiexecutado o script de calculo automatizado da metrica para a pagina inicial de um usuarioautenticado no sistema. Foi verificado que havia mais de um arquivo de folha de estilo noprojeto, entretanto, apenas um deles (style.css) era de autoria dos desenvolvedoresdo projeto - os outros faziam parte de um framework de componentes de interface paraweb chamado YUI9. Assim, apenas o arquivo style.css foi considerado.

Pode-se notar na Figura 3 que a evolucao do valor da metrica foi crescente durantetodo o tempo, indicando que o codigo CSS se tornou cada vez mais custoso do ponto devista de manutenibilidade. Alem disso, houve tambem um aumento consideravel do valorda metrica no ano de 2014, que coincide com uma reestruturacao de toda a interfacegrafica do sistema que foi feita nesse perıodo.

O comportamento do valor da metrica ao longo do tempo (Figura 3) leva a acredi-tar que seu valor esta relacionado as modificacoes feitas no projeto. Esse comportamentosugere que as mudancas na folha de estilo causaram um aumento progressivo no resultado,ou seja, toda nova modificacao somou ao valor da metrica.

Figura 3. Resultado da metrica vs. numero de defeitos criados.

De 2010 a 2014, a metrica e o numero de defeitos apresentam um comportamentoconvergente. Contudo, no ano de 2015 ha um grande aumento no valor da metrica com-parado ao ano anterior e o numero de defeitos criados nao acompanha esse mesmo valor.Para identificar possıveis motivos, pode-se notar na Figura 4 que, apenas a partir de 2014,quando da reestruturacao da interface do projeto, alguns criterios passaram a existir nacomposicao da metrica: e.g., at-rules e media queries. Isso mostra que, possivelmente,

9Disponıvel em: http://yuilibrary.com/

Page 160: Anais do SMSI 2016

houve um aumento exagerado na metrica e, como ele nao foi acompanhado de um au-mento no numero de defeitos, esses criterios podem estar com formulas de calculo oupesos desbalanceados.

Figura 4. Composicao do valor da metrica por cada criterio.

5.3. Apreciacao da MetricaOs resultados obtidos nos testes demonstram um aumento de complexidade do codigoao longo do tempo, sendo que essa complexidade impacta no numero de defeitos encon-trados. Porem, os resultados obtidos nao sao determinantes, por falta de uma base decomparacao. Pode-se concluir, entao, que a metrica apresentada e um passo importanteem direcao a definicao de manutenibilidade de codigo CSS e pode ser usada como basede comparacao para investigacoes mais profundas de outras aplicacoes.

6. Conclusao e Trabalhos FuturosEste trabalho propos uma metrica de manutenibilidade de codigo CSS com criterios ba-seados no uso de caracterısticas da linguagem que possam dificultar a sua manutencao.Como nao foram encontrados estudos que definissem manutenibilidade para codigo CSS,a identificacao dessas caracterısticas e de seu impacto na manutenibilidade foi feita apartir da experiencia de pessoas que trabalhassem diariamente com a linguagem.

Para a definicao de manutenibilidade, um questionario foi criado e entao respon-dido por 27 desenvolvedores que ponderaram sobre o quanto determinada caracterısticada linguagem poderia dificultar a tarefa de se manter codigo CSS. Ao todo, os responden-tes avaliaram 12 caracterısticas da linguagem. Com base nas repostas, foi proposta umametrica que mede a ocorrencia dessas caracterısticas na forma de 12 criterios, que foramcombinados em um unico valor como uma soma ponderada pela media das respostas.

Para facilitar o uso da metrica, foi construıdo um programa que automatiza seucalculo para uma pagina HTML. O Jenkins, uma aplicacao web de integracao contınua,foi escolhido como um objeto de estudo de caso para avaliar se a metrica proposta con-vergia com algum outro indicador de manutenibilidade ao longo do tempo. Foi utilizado

Page 161: Anais do SMSI 2016

o numero de defeitos referentes a codigo CSS registrados no Jenkins a cada semestre, de2010 a 2015 e esse valor foi comparado ao valor obtido pelo calculo da metrica.

Os resultados mostraram que a metrica apresentou uma evolucao sempre cres-cente, demonstrando que o codigo vai adquirindo complexidade com o tempo e amanutencao ficando mais custosa. O numero de defeitos abertos tambem evolui de formacrescente e similar ao valor da metrica, exceto a partir de 2014, quando da reestruturacaoda interface do sistema. Isso revela que nem sempre a metrica convergiu com o numerode defeitos e sugere que podem ser necessarios ajustes em seus criterios ou pesos.

Este trabalho pode ser estendido com um refinamento das caracterısticas da lin-guagem que impactam na manutenibilidade e em uma recalibragem dos pesos e constantesdos criterios da metrica. Alem disso, outros indicadores podem ser usados para avaliar ametrica como, por exemplo, o tempo gasto na correcao dos defeitos.

ReferenciasBerners-Lee, T. and Fischetti, M. (2000). Weaving the Web: The Original Design and

Ultimate Destiny of the World Wide Web by Its Inventor. HarperInformation.

Geneves, P., Layaida, N., and Quint, V. (2012). On the analysis of cascading style sheets.In Proceedings of the 21st international conference on World Wide Web - WWW ’12,page 809, New York, New York, USA. ACM Press.

IEEE (2010). Systems and software engineering – vocabulary. ISO/IEC/IEEE24765:2010(E), pages 1–418.

Kahle, B. (1996). HTTP Archive. http://www.httparchive.org/index.php.Acessado em 21/05/16.

Keller, M. and Nussbaumer, M. (2010). Css code quality: A metric for abstractness or whyhumans beat machines in css coding. In Quality of Information and CommunicationsTechnology (QUATIC), 2010 Seventh International Conference on the, pages 116–121.IEEE.

Lie, H. W. (2005). Cascading Style Sheets. PhD thesis, University of Oslo.

McPherson, A. (2014). Quick left reports on internet performance. http://reports.quickleft.com/css. Acessado em 21/08/15.

Mesbah, A. and Mirshokraie, S. (2012). Automated analysis of css rules to support stylemaintenance. In Proceedings of the 34th International Conference on Software Engi-neering, ICSE ’12, pages 408–418, Piscataway, NJ, USA. IEEE Press.

Park, T. H., Dorn, B., and Forte, A. (2015). An analysis of html and css syntax errors ina web development course. Trans. Comput. Educ., 15(1):4:1–4:21.

Quint, V. and Vatton, I. (2007). Editing with style. In Proceedings of the 2007 ACMsymposium on Document engineering - DocEng ’07, page 151, New York, New York,USA. ACM Press.

W3C (2015). CSS. http://www.w3.org/Style/CSS. Acessado em 21/05/16.

Walton, P. (2015). Side effects in css. http://philipwalton.com/articles/side-effects-in-css/. Acessado em 25/05/16.

Page 162: Anais do SMSI 2016

Uma Caracterização da Pesquisa em Sistemas de

Informação por meio de coautorias e Análise de Redes Sociais

Rodrigo Richard Gomes1, Marcelo Werneck Barbosa

1

1Instituto de Ciências Exatas e Informática – Pontifícia Universidade de Minas Gerais

(PUC Minas) – Belo Horizonte – MG - Brasil

{richard,mwerneck}@pucminas.br

Resumo. Colaborações entre pesquisadores realizadas por meio de coautoria

são frequentes na área de Sistemas de Informação (SI). Tais colaborações

formam uma rede na qual os nós representam autores e uma ligação entre

eles existe se eles publicaram um artigo juntos. Estas redes de colaboração

são um tipo de rede social estudada e caracterizada pelo método de Análise

de Redes Sociais (ARS). O objetivo deste trabalho foi caracterizar a

comunidade brasileira de pesquisa em SI utilizando ARS para identificar os

pesquisadores mais centrais e importantes desta área. Uma caracterização da

rede de colaborações por meio das publicações de um grande evento da área

foi realizada em nível macro e micro.

Palavras-chave: Sistemas de Informação, Análise de Redes Sociais, Redes de

Pesquisa.

Abstract. Collaborations among researchers performed through co-

authorship are frequent in the Information Systems area. Such collaborations

form a network in which nodes represent authors and a connection exists

between them if they have published a paper together. These collaboration

networks are a kind of social network which is studied and characterized by

the Social Network Analysis (SNA) method. This work aims at characterizing

the Brazilian research community of Information Systems using SNA in order

to identify those researchers who are more central and important in this area.

A characterization of the collaboration network using studies published in an

important event of the area was performed in macro and micro levels.

Keywords: Information Systems, Social Network Analysis, Research Networks.

1. Introdução

Sistemas de Informação (SI) podem ser entendidos como uma combinação de recursos

humanos e computacionais que se inter-relacionam para a coleta, o armazenamento, a

recuperação, a distribuição e o uso de dados almejando a obtenção de objetivos

organizacionais (Laudon e Laudon, 2007).

Uma área de pesquisa evolui com o surgimento de cursos de graduação e pós-

graduação na área e também com a realização de eventos científicos e criação de

periódicos especializados. O curso de Bacharelado em Sistemas de Informação (BSI) no

Brasil teve seu início em 1987, com um pico de crescimento em 2001 (Pereira,

Albuquerque e Coelho, 2010). Por meio de pesquisa na base de dados do Ministério da

Page 163: Anais do SMSI 2016

Educação1 na qual estão dispostas todas as instituições de ensino credenciadas e

cadastradas pelo MEC, foram identificadas 73 instituições que oferecem o curso de

Sistemas de Informação em maio de 2016.

Na área de Sistemas de Informação, o Brasil é responsável pela publicação de

um importante periódico internacional, o Journal of Information Systems and

Technology Management (JISTEM), revista eletrônica, criada em 2004 e publicada

quadrimestralmente pela Universidade de São Paulo (USP). O periódico tem como

missão publicar pesquisas relevantes para a gestão da tecnologia, sistemas de

informação e ciência da informação nas organizações e na sociedade sob uma

perspectiva multidisciplinar (Durso e Neves, 2014).

Como eventos importantes da área, podemos destacar no Brasil, o Congresso

Internacional de Gestão da Tecnologia e Sistemas de Informação (CONTECSI),

atualmente em sua 13ª edição. O evento reúne os campos de Tecnologia de Informação,

Sistemas de Informação e Ciencia da Informação sob uma visão multidisciplinar. Outro

evento relevante é o Simpósio Brasileiro de Sistemas de Informação (SBSI) atualmente

em sua 12ª edição. O SBSI teve como objetivo reunir pesquisadores e profissionais da

área. Como se pode observar, o surgimento dos eventos e periódicos mais importantes

da área coincide com o pico de oferta de cursos de Sistemas de Informação no país.

Estudos anteriores procuraram caracterizar a área de pesquisa em Sistemas de

Informação no Brasil. O trabalho de Durso e Neves (2014) teve como objetivo verificar

se há no país um polo de pesquisa na área de SI. Para isso, foi utilizada uma abordagem

bibliométrica de periódico JISTEM entre os anos de 2008 a 2013. Os autores

constataram que o periódico apresentou uma média de participação de 23 autores por

edição. Além disso, observando o número médio de autores por artigo, foi possível

identificar que entre 2008 e 2013 essa relação oscilou entre 2,09 e 2,73 autores por artigo.

Esses resultados deixaram claro que predominam no periódico publicações em parceria, em

detrimento das publicações de autoria única. Já o estudo de Tajara et al. (2013) teve como

objetivo apresentar a utilização do método de pesquisa-ação na área de Sistemas de

Informação através da Revisão Sistemática pesquisando os principais periódicos da

área. Os autores constataram que a pesquisa-ação é fortemente aplicada como

metodologia de pesquisa em trabalhos que envolvem os temas relacionados às

pesquisas em Sistemas de Informação. No entanto, perceberam que outras metodologias

de pesquisa são utilizadas conjuntamente com a pesquisa-ação em diversos trabalhos

encontrados. Na mesma linha, o trabalho de Paiva, Silva e Santos (2015) teve como

objetivo identificar o interesse dos pesquisadores, no Brasil, sobre o tema auditoria da

informação e auditoria do conhecimento, por meio da análise bibliométrica, em eventos

de caráter multidisciplinar no Brasil. Para tanto, foram considerados os anais do

ENANCIB, referentes ao período de 1994 e 2014, do CONTECSI, de 2004 a 2014, e do

EnANPAD, de 2010 a 2014. Foi identificada a baixa produção científica sobre o tema.

Conforme observado por Durso e Neves, colaborações entre pesquisadores são

frequentes na área de SI. Existem diferentes formas de colaboração, sendo as mais

utilizadas a co-citação e a coautoria (Hu e Racherla, 2010; Ye, Li e Law, 2013). A

análise de co-citações, apesar de ser um método popular de análise, não captura os

aspectos sociais que apoiam a transmissão de ideias científicas nem como as

comunidades de pesquisa são formadas. Por sua vez, a análise de coautorias permite a

1 http://emec.mec.gov.br

Page 164: Anais do SMSI 2016

construção de medidas observáveis e visuais de uma comunidade. Além disso,

coautoria é o tipo de informação mais frequentemente usada para explicar padrões de

comportamento entre pesquisadores (Stefano, Giordano e Vitale, 2011). A importância

crescente de publicação de pesquisas na academia aliada aos avanços na tecnologia da

informação proporcionaram um aumento de coautorias em áreas diferentes (Behara,

Sunil e Smart, 2014; Cainelli, Maggioni, Uberti e Felice, 2015).

Colaborações por meio de coautoria formam uma rede de coautoria na qual os

nós da rede representam autores e uma conexão entre eles existe se dois autores

publicaram um trabalho juntos. Tal rede de colaboração é um tipo de rede social. O

estudo destas redes, seus participantes e interações entre eles é chamado de Análise de

Redes Sociais (ARS) ou Social Network Analysis (SNA) (Wasserman e Faust, 1994). O

uso de ARS tem crescido em função do desenvolvimento de técnicas de visualização e

computação (Sloane e O’Reilly, 2013) e se tornou uma das técnicas de análise

interdisciplinar mais populares (Ye, Li e Law, 2013).

Neste contexto, o objetivo deste trabalho é caracterizar a comunidade de

pesquisa em SI no Brasil utilizando Análise de Redes Sociais com base nos trabalhos

publicados no evento CONTECSI. Desta forma, podem ser identificados os

pesquisadores mais centrais e importantes desta área.

O restante deste artigo está organizado da seguinte forma. A Seção 2 apresenta o

referencial teórico cobrindo os aspectos da técnica de Análise de Redes Sociais. A

Seção 3 descreve a metodologia utilizada neste estudo enquanto a Seção 4 apresenta as

análises das métricas da análise da rede de autores. A Seção 5 apresenta conclusões do

trabalho, suas limitações e possibilidades de trabalhos futuros.

2. Análise de Redes Sociais

Indivíduos e organizações interagem entre si de diversas maneiras. Para facilitar

o estudo de tais interações, redes têm sido utilizadas para modelar e representar

graficamente estas interações e os atores que participam das mesmas. Na representação

visual de uma rede, os nós (ou nodos) são representados por pontos ou círculos e as

relações entre eles são desenhadas como linhas que conectam dois ou mais nós.

Outra forma de representar esta rede é por meio de uma matriz de adjacências,

na qual as linhas e as colunas representam os nós da rede e a interseção entre estas

linhas colunas é preenchida com um número 0 se não há relação entre os objetos e o

número 1 se há uma relação entre eles ou até mesmo um número que represente a

intensidade desta relação. Em tais redes, os vértices representam pessoas e organizações

e as linhas representam interação, informação, comunicação, amizade, troca de bens ou

fluxos (Behara et al., 2014).

A Análise de Redes Sociais é uma metodologia que pode ser usada para estudar

redes de comunicação informais. Este tipo de comunicação acontece quando pessoas

discutem ideias em vários lugares como locais de trabalho e conferências, quando

engajados em relacionamentos como orientador/orientado, colegas e coautores (Marion

et al., 2003). Um dos usos mais importantes da ARS é a identificação dos autores que

são mais centrais dentro da rede. Centralidade é o atributo estrutural das relações entre

atores em uma rede em vez de ser um atributo específico de tais atores (Carter, Ellram e

Tate, 2007). Centralidade em uma rede social é um conceito que ilustra os mais

importantes atores na rede. Atores com alta centralidade possuem uma localização

Page 165: Anais do SMSI 2016

estratégica dentro da rede. Há muitas maneiras de medir as dimensões da importância

de um ator na rede. Uma forma possível é a de calcular seu grau (degree) de

centralidade, que define o nó mais importante como aquele com o maior número de

ligações. Grau de centralidade representa o número total de nós aos quais um nó

específico está ligado. É a medida mais comum e mais simples de avaliar o grau de

colaboração (Ye, Li e Law, 2013).

Outra possível métrica de centralidade é a centralidade de intermedialidade do

nó (node-betweenness centrality). Ele refere-se ao grau em que um ponto particular

situa-se entre os vários outros nós no gráfico: um nó de um grau relativamente baixo

pode desempenhar um papel importante intermediário e assim ser muito central para a

rede. Assim nós que estão "entre" podem agir como conexões na disseminação de

conhecimento entre a rede (Giannakis, 2012). A centralidade de intermedialidade

refere-se ao número de caminhos que passam por um ator sobre os caminhos mais

curtos que ligam dois outros atores. O conceito por trás dessa métrica é baseado no

fluxo de informações: um nó tem alta centralidade de intermedialidade quando se

encontra em muitos caminhos mais curtos que ligam dois outros nós. Esta é uma

métrica importante, uma vez que um nó com alta centralidade de intermedialidade tem

melhor acesso à informação, está mais bem posicionado para agir como intermediário

nas trocas e pode ser capaz de controlar os fluxos de informação e pode ainda

potencialmente servir como um elo entre áreas isoladas da rede (Sloane e O 'Reilly,

2013). Em termos de intercâmbios acadêmicos e fluxo de conhecimento, os

pesquisadores que têm alta centralidade de intermedialidade estão no núcleo da rede de

colaboração (Ye, Li e Law, 2013).

3. Procedimentos Metodológicos

Este estudo é classificado como descritivo, quantitativo, e com utilização de dados

secundários. Como fonte de dados, para elaboração da rede de pesquisadores em SI, foi

necessário identificar os trabalhos por meio dos quais os autores e suas colaborações

seriam avaliados. Foram então obtidos todos os trabalhos já publicados no CONTECSI

(www.contecsi.fea.usp.br) nas 12 edições realizadas entre 2004 e 2015. Foram

coletados 2614 artigos no total, o que dá uma média de 217,8 artigos publicados por

edição do CONTECSI. A rede estudada foi montada com base neste conjunto de

artigos. Para cálculo das métricas de rede, foi utilizado o software UCINET (Borgatti,

Everett e Freeman, 2002).

4. Resultados

Esta seção apresenta a análise dos trabalhos identificados bem como da rede de

pesquisadores considerando as métricas globais de rede e posteriormente as métricas

relacionadas aos pesquisadores.

4.1. Indicadores do conjunto de artigos

Para se formar a rede de colaborações a ser estudada, foram considerados como atores

da rede apenas os autores em artigos que apresentaram coautoria. A Tabela 1 apresenta

alguns dados gerais sobre o conjunto de artigos avaliados.

Page 166: Anais do SMSI 2016

Tabela 1. Dados Gerais da Amostra. Fonte (dados da pesquisa)

Total de artigos identificados 2614

Artigos com um único autor 323

Artigos com colaboração 2291

Artigos com dois autores 919

Artigos com três autores 720

Artigos com quatro autores ou mais 652

Quantidade média de autores nos artigos coautorados 2,97

Total de coautores 3621

Total de colaborações 7842

Artigos com um único autor representaram 12,36% do conjunto de artigos

avaliados, enquanto os artigos que apresentam coautoria representaram 87,64% do

universo pesquisado. Esse dado é interessante, pois em outros trabalhos como o de Ye,

Li e Law (2013) sobre redes de colaborações de pesquisa em Turismo, o índice de

artigos com apenas um autor é de apenas 40,5%. Temos então um predomínio de

trabalhos coautorados publicados no CONTECSI. Do total de autores que publicaram

sem colaboração, no universo de artigos pesquisados, observou-se que 162 autores (50,1%)

publicaram algum outro trabalho em colaboração com outros autores e 161 (49,9%)

publicaram apenas artigos sem colaboração. Cada par de autores que participaram como

coautores de um trabalho foi considerado uma colaboração. No total, 7842

colaborações foram identificadas nesta rede. Entre os artigos que apresentaram

coautoria, os escritos por dois autores representaram 40,1%, os escritos por 3 autores

representaram 31,4% enquanto os escritos por 4 ou mais autores totalizaram 28,5% dos

artigos com colaboração. O gráfico apresentado na Figura 1 mostra a quantidade de

artigos publicados em função da quantidade de coautores do artigo. Nele é possível

perceber que os artigos do CONTECSI são normalmente coautorados por um pequeno

grupo de pesquisadores variando entre 2 e 4 coautores. Artigos com mais de 5 coautores

tem menor representatividade. A maior quantidade de coautores em artigos publicados

no CONTECSI é 8, sendo que apenas 4 artigos apresentaram essa quantidade de

coautores.

O estudo das redes considerando a técnica de ARS é baseado em algumas

propriedades destas redes definidas em dois níveis: macro e micro, apresentados

respectivamente nas próximas seções.

4.2. Características Macro da Rede

Algumas características globais da rede ajudam a explicar como se forma a rede

de colaborações nos trabalhos publicados no CONTECSI. A rede obtida neste estudo

apresentou um grau médio igual a 3,449. Essa medida indica que autores que publicam

artigos no CONTECSI têm, em média, 3,4 colaboradores. A densidade de uma rede é

definida como a proporção de conexões existentes na rede dentre todas as conexões

possíveis, logo, é um valor definido entre 0 e 1. No contexto de uma rede de coautorias,

esta métrica representa a porcentagem da rede com a qual um autor publicou um

trabalho (Hu e Racherla, 2010). A rede obtida é extremamente esparsa, apresentando

densidade de 0,001. Considerando que a rede estudada envolve colaborações entre

Page 167: Anais do SMSI 2016

autores de todo o país, é esperado e consistente com outros trabalhos que a densidade

seja realmente baixa.

Figura 1. Gráfico que apresenta a quantidade de artigos publicados em função

quantidade de coautores

Outra característica macro importante é o diâmetro. O diâmetro de uma rede é

considerado a maior distância entre dois participantes da rede (Kumar e Mohd, 2014) e

representa o esforço de se atravessar a rede. Neste estudo, a rede apresentou um

diâmetro de 20, indicando que atravessando 20 conexões se pode chegar a qualquer

autor da rede. Tal resultado é corroborado pela distância média obtida de 7,738. Este

valor mostra que os autores não estão muito próximos uns dos outros, pois é necessário

percorrer em média entre 7 e 8 conexões para se chegar a outro autor qualquer da rede.

4.3. Características Micro da Rede

Esta seção apresenta as características e métricas relacionadas aos nós da rede,

ou seja, em nível micro. A primeira métrica a ser analisada é o grau de centralidade,

que indica o número de conexões que cada nó da rede possui. Em uma rede de

coautorias, este número reflete o número de colaborações realizadas por cada

pesquisador. Uma variante do grau de centralidade é o índice de Bonacich.

Esta métrica representa o quão inserido na rede um autor está. Ela considera os nós da

rede que estão ligados aos vizinhos de cada nó. Assim, a centralidade de um nó depende

não somente das conexões que cada nó possui, mas também das conexões de seus

vizinhos. Se um autor se conecta a vários autores com altos graus de centralidade, então

se considera que este autor está em uma posição central na rede quando comparado a

nós mais isolados.

A Tabela 2 apresenta os valores obtidos para o Grau de Centralidade e Índice de

Bonacich para os 10 pesquisadores mais centrais da rede. Na rede ocorreram

divergências importantes entre o posicionamento dos autores quanto aos dois índices.

Apenas as autoras Rejane Maria Costa Figueiredo e Marina Keiko Nakayama aparecem

entre os 10 primeiros autores quando a classificação passa a ser ordenada

decrescentemente pelo índice de Bonacich, sendo a autora Rejane a autora com maior

índice de Bonacich.

Page 168: Anais do SMSI 2016

Tabela 2. Classificação de autores por grau e índice Bonacich

Autor Grau Índice de Bonacich

Edson Luiz Riccio 105 -642,499

Marina Keiko Nakayama 62 1960,226

Rejane Maria Costa Figueiredo 62 6621,09

Jose Alfredo Ferreira Costa 59 121,854

Antonio Artur Souza 57 262,52

Paulo Caetano Silva 57 118,921

Aldemar Araujo Santos 56 130,091

Oscar Dalfovo 56 397,274

Gilberto Perez 54 209,731

Nelma Terezinha Zubek Val 53 -291,735

Foi também objetivo desta pesquisa identificar os autores que mais publicaram

trabalhos e os que mais participaram de colaborações de pesquisa. A Tabela 3 apresenta

estes dados para os 10 autores com mais publicações. Pode-se observar que o número

de publicações não apresenta uma relação direta com o número de colaborações, ou

seja, há pesquisadores que apesar de terem uma menor quantidade de publicações

apresentam uma maior quantidade de colaborações.

Tabela 3. Número de publicações e colaborações dos principais autores

Autor Número de

publicações

Número de colaborações

Edson Luiz Riccio 42 105

Paulo Caetano Silva 30 57

Fernando Jose Barbin 30 49

Jose Alfredo Ferreira Costa 27 59

Aldemar Araujo Santos 23 56

Fernando Haddad Zaidan 23 32

Oscar Dalfovo 22 56

George Leal Jamil 21 42

Gilberto Perez 20 54

Julio Alvarez Botello 20 51

Uma métrica importante para se determinar a centralidade de um autor na rede é

a centralidade de intermedialidade. Esta métrica considera se um nó da rede está no

menor caminho de muitos pares de nós e, consequentemente, está em uma posição

crítica para agir como distribuidor de informação nesta rede. Em uma rede de

coautorias, um pesquisador com alta centralidade de intermedialidade pode ser

Page 169: Anais do SMSI 2016

considerado como alguém que une diversos grupos de pesquisa e publica trabalhos com

pesquisadores que não trabalhariam juntos se não fosse por este autor.

A Tabela 4 apresenta os valores dos autores com maiores índices de

centralidade de intermedialidade. Pode-se observar que as métricas estudadas (grau de

centralidade, índice de Bonacich e centralidade de intermedialidade) geram resultados

diferentes, pois apenas o pesquisador Edson Luiz Riccio consta nas Tabelas 2, 3 e 4.

Tabela 4. Classificação dos Autores por Centralidade de intermedialidade

Autor Centralidade de intermedialidade

Edson Luiz Riccio 274296,8

Antonio Jose Balloni 198104,8

Marici Cristine Gramacho 186451,4

Armando Malheiro 185436,1

Oscar Dalfovo 140242,9

Luc Quoniam 126239,6

Nelma Terezinha Zubek Val 119766,1

Marcelo Henrique Araujo 111097,1

Nicolau Reinhard 108532,9

Amelia Silveira 105461,3

4.4. Análise de componentes e cliques

Uma rede pode ser subdividida em componentes e cliques. Um componente é

um conjunto de nós, onde cada nó possui um caminho para todos os outros nós do

conjunto. A rede obtida apresentou 403 componentes, com vários componentes

apresentando algumas dezenas de nós, como pode ser visto no gráfico da Figura 2.

Figura 2. Gráfico apresentando os tamanhos de componentes e respectivas

quantidades.

Page 170: Anais do SMSI 2016

A Figura 3 apresenta um componente gigante com 1377 autores, entre eles,

alguns autores com maior quantidade de publicações e de colaborações. O tamanho dos

nodos da rede é determinado pelo seu grau, que nesse caso indica a quantidade de

colaborações de um autor. Sendo assim, quanto maior a quantidade de colaborações de

um autor, maior o tamanho do nodo que o representa na rede. As cliques, um tipo

especial de componente, são definidas como o maior conjunto de nós no qual todos os

nós estão diretamente relacionados a todos os outros. Assim, em uma rede de

colaborações, uma clique é composta por um grupo de autores no qual todos os autores

publicaram um trabalho em conjunto com todos os outros participantes da clique.

A rede identificada apresenta 1924 cliques com no mínimo 2 autores. Neste

estudo, cada artigo publicado por 2 ou mais autores é uma clique, uma vez que todos os

autores estão conectados uns aos outros por terem uma relação de colaboração para

publicar o artigo. Assim, partindo da premissa que cada publicação se torna uma clique

nesta rede, chega-se à conclusão de que alguns autores repetem a colaboração em

alguns artigos, uma vez que há 2291 artigos, mas apenas 1924 cliques. Isso significa

que em 367 artigos houve repetição na lista de autores, ou seja, estes autores já haviam

colaborado em um artigo anterior.

Figura 3. Rede representando um componente gigante com 1377

pesquisadores.

5. Conclusões e Trabalhos Futuros

Este estudo teve como objetivo caracterizar por meio da Análise de Redes

Sociais a rede de pesquisadores que publicaram seus trabalhos no CONTECSI. Com o

auxílio desta técnica, foi possível obter características globais e locais desta rede e

também identificar quem são os pesquisadores mais centrais desta rede. Entende-se esta

caracterização como um trabalho inicial no sentido de fomentar o uso de ARS para

caracterização do campo de pesquisas em Sistemas de Informação. Tal técnica de

Page 171: Anais do SMSI 2016

análise permite interpretações muito ricas, que podem ser exploradas em estudos

futuros.

Este estudo apresenta algumas limitações, uma vez que foram utilizados

somente os anais de um dos congressos da área de Sistemas de Informação. Ampliar a

pesquisa para considerar outras bases e outros Congressos e Simpósios pode incluir

mais pesquisadores. No entanto, isso não muda o fato de que o conjunto de dados de

artigos analisados compreende pesquisa de qualidade representativa no campo. Além

disso, problemas de ambiguidade dos nomes dos autores, algo típico neste tipo de

pesquisa, foram tratados de forma manual nesse trabalho.

Este estudo abre várias possibilidades de trabalho futuro. O estudo se

concentrou especificamente sobre a caracterização dessa comunidade de pesquisa em

termos de coautoria. No entanto, existem outras formas de colaboração que foram

mantidas fora do nosso alcance, tais como projetos de pesquisa e parcerias. Além disso,

este estudo incidiu sobre um retrato atual da comunidade de pesquisa. Estudar sua

evolução e também ser capaz de prever futuras colaborações é um nicho de pesquisa

interessante. Finalmente, este estudo também usa um extenso conjunto de dados que

exige processamento para ser trabalhado. Embora todo esforço tenha sido feito para

manter a integridade dos dados, deve-se notar que qualquer erro ou omissão possível é

inteiramente acidental.

6. Referências

Behara, R. S., Sunil, B., Smart, P. A. (2014). Leadership in OM research: a social

network analysis of European researchers. International Journal of Operations e

Production Management, v.34, n.12.

Borgatti, S. P.; Everett, M. G.; Freeman, L. C. (2002). Ucinet for windows: software for

social network analysis. Harvard, MA: Analytic Technologies

Cainelli, G., Maggioni, M. A., Uberti, T. E., Felice, A. De. (2015). The strength of

strong ties : How co-authorship affect productivity of academic economists ?

Scientometrics, 102(1), pp. 673–699.

Carter, C. R.; Ellram, L. M.; Tate, W. (2007). The use of social network analysis in

logistics research. Journal of Business Logistics, Vol. 28, N.1 , pp. 137-168.

Durso, S. O.; Neves, P. A. (2014). Há um polo de pesquisa sobre Sistemas De

Informação no Brasil? Uma análise sobre a produção científica a partir do estudo

bibliométrico do Journal of Information Systems and Technology Management

(JISTEM). 11th International Conference on Information Systems and Technology

Management – CONTECSI, São Paulo, Brazil.

Fabbe-Costes, N.; Jahre, M. (2008). Supply chain integration and performance: a review

of the evidence. The International Journal of Logistics Management, Vol. 19 No. 2,

pp. 130–154.

Giannakis, M. (2012). The intellectual structure of the supply chain management

discipline. Journal of Enterprise Information Management, v.25, n.2, pp.136–169.

Hu, C., Racherla, P. (2010). A Social Network Perspective of Tourism Research.

Annals of Tourism Research, 37(4), pp. 1012–1034.

Page 172: Anais do SMSI 2016

Kumar, S., Mohd. J. J. (2014). Relationship between authors’ structural position in the

collaboration network and research productivity. Program: Electronic Library and

Information Systems, 48(4), 355–369.

Laudon, K. C. E Laudon, J. P. (2007) Sistemas de Informação Gerenciais. 7a. Edição.

São Paulo: Prentice Hall.

Marion, L. S., Garfield, E., Hargens, L. L., Lievrouw, L. A., White, H. D., Wilson, C. S.

(2003). Social Network Analysis and Citation Network Analysis : Complementary

Approaches to the Study of Scientific Communication Sponsored by SIG MET.

Proceedings of the American Society for Information Science and Technology, v.40,

n.1, pp. 486–487.

Paiva, S. B.; Silva, S. A.; Santos, L. R. S. (2015). Auditoria da Informação e Auditoria

do Conhecimento: Um Olhar sobre a Produção Científica no Brasil. XVI Encontro

Nacional de Pesquisa em Ciência da Informação (ENANCIB), João Pessoa, Paraíba,

Brasil.

Pereira, L. Z.; Albuquerque, J. P.; Coelho, F. S. (2010). Uma Análise da Oferta e

Abordagem Curricular dos Cursos de Bacharelado em Sistemas de Informação no

Brasil. Workshop de Educação em Informática (WEI), Belo Horizonte, Minas

Gerais, Brasil.

Sloane, A.; O’ Reilly, S. (2013). Production Planning & Control : The Management of

Operations The emergence of supply network ecosystems : a social network analysis

perspective. Production Planning & Control: The Management of Operations, 24(7),

pp. 621–639.

Stefano, D. De; Giordano, G.; Vitale, M. P. (2011). Issues in the analysis of co-

authorship networks. Quality & Quantity, 45(5), pp. 1091–1107.

Tajara, T. T.; Blanck, M.; Oliveira, R. M.; Brinkhues, R. A.; Farias, E. S.; Manzanal, M.

N.(2013). Pesquisa-Ação em Sistemas de Informação de 2002 a 2012 – Uma Revisão

Sistemática. IV Encontro de Ensino e Pesquisa em Administração e Contabilidade,

Brasília, Brasil.

Wasserman, S.; Faust, K. (1994). Social Network Analysis: Methods and applications.

Cambridge: Cambridge University Press.

Ye, Q.; Li, T.; Law, R. (2013). A coauthorship network analysis of tourism and

hospitality research. Journal of Hospitality & Tourism Research, 37(1), pp. 51–76.

Zanella. L. C. H. (2009) Metodologia de estudo e de pesquisa em administração.

Florianópolis: Departamento de Ciências da Administração/UFSC.

Page 173: Anais do SMSI 2016

Uma análise de mecanismos de Governança de Tecnologia

da Informação por meio de informações divulgadas por

empresas

Sara Lima de Oliveira, Marcelo Werneck Barbosa

Instituto de Ciências Exatas e Informática – ICEI – Pontifícia Universidade de Minas

Gerais (PUC-MG) – Unidade Barreiro

30640-070 - Belo Horizonte – MG – Brasil

[email protected], [email protected]

Resumo. A Governança de Tecnologia da Informação (GTI) consiste em um

conjunto estruturado de políticas, normas, métodos e procedimentos para

assegurar que o uso da TI agregue valor ao negócio, com riscos e custos

aceitáveis, garantindo a utilização de recursos de forma responsável, o apoio

aos processos da organização e o alinhamento estratégico. O objetivo dessa

pesquisa foi identificar quais são os mecanismos de GTI mais implantados nas

empresas brasileiras por meios da coleta de informações publicadas pelas

próprias organizações. Foram identificadas 56 empresas com 16 mecanismos

diferentes implementados e foi possível observar que os modelos ITIL e Cobit

foram relatados como frequentemente implantados nas organizações.

Abstract. Information Technology Governance (ITG) consists of a structured

set of policies, standards, methods and procedures to ensure that the use of IT

adds value to the business with acceptable risks and costs, ensuring the use of

resources responsibly, the support the processes of the organization and

strategic alignment. This work aims at identifying what ITG mechanisms are

more frequently implemented in Brazilian companies by collecting

information published by the organizations themselves. 56 companies with 16

different mechanisms implemented were identified and it was observed that

ITIL and COBIT were reported as often implemented in organizations.

1. Introdução

As empresas têm intensificado a utilização das tecnologias de informação e comunicação

no desenvolvimento de suas atividades, com o objetivo de aprimorar conhecimentos,

reduzir custos e trabalhar de forma eficaz. A utilização dos recursos tecnológicos no

desenvolvimento dos trabalhos essenciais da empresa tem levado a área de Tecnologia da

Informação (TI) a desempenhar um papel essencial, tornando-se cada vez mais

estratégica. Nesse caminho, um grande desafio se apresenta - utilizar a TI de forma

efetiva, extraindo e agregando valor ao negócio da organização (Lunardi, Becker e

Maçada, 2012).

A Governança de Tecnologia da Informação (GTI) consiste em um conjunto

estruturado de políticas, normas, métodos e procedimentos para assegurar que o uso da

Page 174: Anais do SMSI 2016

TI agregue valor ao negócio, com riscos e custos aceitáveis, garantindo a utilização de

recursos de forma responsável, o apoio aos processos da organização e o alinhamento

estratégico. Uma boa GTI deve promover a proteção das informações críticas e

contribuir para que as organizações atinjam seus objetivos institucionais (ISACA, 2012).

A GTI é de responsabilidade dos executivos e da alta direção, consistindo em aspectos

de liderança, estrutura organizacional e processos que garantam que a área de TI da

organização suporte e aprimore os objetivos e as estratégias da organização (ITGI,

2007). A GTI pode ainda ser entendida como um conjunto de políticas, estruturas

organizacionais, processos de trabalho, papéis e responsabilidades que são estabelecidos

pela gerência superior para direcionar as ações de TI e exercer controle sobre o uso e

gerenciamento da TI por toda a instituição (Heindrickson e Santos, 2014).

Algumas pesquisas apontam que empresas que possuem bons modelos de GTI

apresentam resultados superiores aos de seus concorrentes, especialmente porque tomam

melhores decisões sobre a TI de forma consistente (Weill e Ross, 2004). A GTI é

implementada nas organizações por meio de um conjunto de diferentes mecanismos

associados à estrutura, processos e relacionamento (De Haes e Grembergen, 2009).

Cada um desses mecanismos se destina a um ou mais objetivos da GTI – seja diminuir

riscos, gerar maior valor para a organização ou garantir que os investimentos estejam

alinhados à estratégia corporativa (Grembergen, Haes e Guldentops, 2004).

Sendo assim, o objetivo dessa pesquisa é identificar quais são os mecanismos de

GTI mais implantados nas empresas brasileiras por meios da coleta de informações

publicadas pelas próprias organizações. O estudo busca também incentivar e ressaltar a

importância da adoção de mecanismos de GTI e seus benefícios. Esta abordagem foi

utilizada por Lunardi et al. (2007) em estudo similar, entretanto, considerando um

período já antigo (2002-2007) e fontes diferentes de informações. A coleta de

informações em meios de divulgação de responsabilidade das próprias organizações foi

um método também utilizado em Huang e Handfield (2015).

O restante do artigo está organizado da seguinte forma. A Seção 2 apresenta o

referencial teórico, conceituando a Governança de TI e seus principais mecanismos de

implantação. A Seção 3 apresenta a metodologia adotada neste trabalho. A Seção 4

apresenta os resultados obtidos na pesquisa enquanto que a Seção 5 conclui o trabalho

apresentando as considerações finais obtidas com esse estudo e as principais limitações.

2. Governança de TI e seus Mecanismos de Implementação

A Governança de TI tem como propósito direcionar o desempenho e o alinhamento da

tecnologia com os negócios, buscando atender às necessidades das organizações em

otimizar a aplicação de recursos, reduzir os custos e alinhar o setor de TI às suas

estratégias de negócio, relacionando o desenvolvimento de um conjunto estruturado de

competências e habilidades estratégicas. A GTI pode ser entendida como a capacidade

organizacional exercida pela alta direção, gerência de negócios e gerência de TI para

avaliar, dirigir e monitorar o uso da TI para suportar o alcance dos objetivos

organizacionais (Silva, 2010).

Com o amadurecimento da GTI entre as organizações e a necessidade crescente

das empresas em se manterem dentro de padrões de riscos aceitáveis, com maior

transparência, planejamento, controle e monitoramento dos projetos, e do uso dos

Page 175: Anais do SMSI 2016

recursos tecnológicos, algumas metodologias que auxiliam na promoção de uma GTI

mais efetiva se popularizaram, como por exemplo: Control Objectives for Information

and related Technology (COBIT); Information Technology Infrastructure Library

(ITIL); Project Management Body of Knowledge (PMBOK); Capability Maturity Model

Integration (CMMI); International Organization for Standardization (ISO), entre

outras. As boas práticas abordadas nesses modelos podem se complementar e/ou

apresentar algumas interseções entre elas. As empresas, por sua vez, podem utilizar mais

de um modelo de acordo com suas necessidades.

A GTI se caracteriza por uma combinação de diferentes mecanismos associados

à estrutura, processos e relacionamento. Segundo Lunardi (2008) esses mecanismos não

precisam ser utilizados na sua totalidade ou da mesma forma pelas organizações.

Mecanismos de Governança de TI contam com diferentes ligações, respectivamente, à

estrutura, aos processos e à integração. Mecanismos como a presença de comitês, a

participação da área de TI na formulação da estratégia corporativa, bem como os

processos de elaboração e aprovação de orçamentos e projetos de TI são apenas

algumas práticas que procuram encorajar um comportamento consistente da

organização, buscando sempre alinhar os investimentos de TI com a missão, estratégia,

valores e cultura organizacional. (Weill e Ross, 2005).

Alguns estudos analisaram a implantação de mecanismos de Governança de TI

nas organizações. De Haes e Grembergen (2005) descreveram como organizações

podem implementar a GTI, usando um conjunto de estruturas, processos e mecanismos

relacionais, e analisou tal implementação em um grande grupo financeiro belga. O

trabalho procurou guiar pesquisadores sobre como a governança de TI pode ser

implementada na prática e pode ser considerado um dos primeiros que começou a definir

estes mecanismos da governança de TI.

Em Ali e Green (2012), foram examinados empiricamente mecanismos

individuais de governança de TI que influenciam a efetividade geral da governança de TI.

A análise de modelagem de equações estruturais foi utilizada para examinar 110

respostas de membros da ISACA na Austrália, cujas empresas onde trabalham

terceirizam suas funções de TI. Resultados sugerem relações positivas significativas entre

o nível geral de efetividade da governança de TI e os seguintes mecanismos: o

envolvimento da gerência sênior em TI, a existência de ética ou cultura de conformidade

com TI e sistemas de comunicação corporativos.

Heindrickson e Santos (2014) realizaram estudo empírico envolvendo 57

instituições públicas da administração federal brasileira com o objetivo de examinar a

relação entre três mecanismos de governança: comitê de direcionamento de TI, gerência

de soluções de TI e processo de gerenciamento de portfolio de investimento em TI, com

a efetividade da governança de TI. Resultados indicaram que o gerenciamento de

portfolio deve ser sempre levado em conta para análises que objetivam avaliar os efeitos

de comitês de direcionamento de TI e gerências de soluções de TI na efetividade da

governança de TI. A conclusão é que um gerenciamento de portfolios ausente ou de

desempenho baixo pode levar à redução ou ao cancelamento de contribuições potenciais

positivas dos outros dois mecanismos.

Page 176: Anais do SMSI 2016

Pang (2014) investigou o efeito da GTI no relacionamento entre os investimentos

de TI e o desempenho da governança. No contexto das organizações do Estado

Americano, o estudo observou que o estabelecimento formal de um Chief Information

Officer (CIO) pela legislação é um pré-requisito chave para retornos positivos dos

investimentos em TI feitos pelos governos do Estado. O estudo demostra ainda a

importância de representantes eleitos como parte da GTI em organizações do setor

público.

AlAgha (2014), usando dados de 20 organizações e 250 respondentes, procurou

identificar o domínio de GTI mais influente para aumentar o nível de maturidade de GTI

assim como o mecanismo de GTI mais influente para aumentar o nível geral de eficiência

da governança de TI. O estudo identificou que o domínio mais influente é

Monitoramento da Medição do Desempenho de TI e o mecanismo mais influente na GTI

é a implementação de Sistemas de Comunicação Corporativa. Este estudo buscou

encorajar as organizações a concentrar seus esforços de melhoria de governança nos

domínios e mecanismos que mais impactam de maneira geral a eficiência da GTI.

Schlosser et al. (2010) avaliaram como o alinhamento interno de uma firma com

os processos de governança impactam a qualidade do serviço recebida de um provedor

de TI externo. Usando dados coletados de 154 firmas, o trabalho concluiu que um bom

alinhamento interno de negócio e TI levou a processo de controle melhores e mais

precisos dos fornecedores que melhoram os níveis de serviço prestados.

Por fim, Lunardi et al. (2007) procuraram identificar os mecanismos de GTI mais

difundidos no meio empresarial brasileiro. Foram encontradas 91 publicações que

permitiram identificar 110 diferentes empresas. Percebeu-se que as publicações

referentes às empresas que vêm adotando estes mecanismos são crescentes, o que indica

uma tendência do mercado em adotar tais mecanismos. Foram identificados 28 diferentes

mecanismos, entre os quais se destacaram o Cobit e a ITIL. Os diferentes mecanismos

identificados afetaram positivamente a gestão da TI de diversas maneiras. Os benefícios

mais destacados nos artigos pesquisados foram: Centralização e descentralização da

área, Melhora do nível de serviço, Compliance, Melhoria e segurança da informação,

Melhor gestão da infraestrutura, Priorização dos projetos de TI conforme a estratégia de

negócios e Gerenciamento de projetos. Nosso estudo apresenta metodologia baseada no

trabalho de Lunardi et al. (2007) e esta será descrita na seção a seguir.

3. Metodologia

A pesquisa aqui relatada caracteriza-se como uma pesquisa descritiva com base em

dados secundários públicos que visa identificar os mecanismos de Governança de TI

mais difundido entre as empresas brasileiras. Para caracterizar os mecanismos de GTI

implantados nas organizações, foi necessário identificar um conjunto de tais mecanismos.

Estes mecanismos foram encontrados por meio de revisão da literatura com base em

pesquisas anteriores como os trabalhos de De Haes e Grembergen (2005) e Peterson

(2004), nos quais os autores definem que a GTI pode ser implementada por meio de um

conjunto de estruturas, processos e mecanismos relacionais. Outros trabalhos foram

encontrados na literatura que seguem a mesma classificação do trabalho de De Haes e

Grembergen (2005). A Tabela 1 apresenta esses mecanismos encontrados neste conjunto

de trabalhos, bem como as respectivas referências.

Page 177: Anais do SMSI 2016

Tabela 1. Mecanismos da Governança de TI

AUTORES MECANISMOS ITENS

(TAROUCO e

GRAEML, 2011)

Processos ITIL, Cobit, ISO 27001, PMBOk, IT Governance Maturity

Model, BSC, Prince2, Seis Sigma.

(DE HAES E

GREMBERGEN et

al., 2005)

(LUNARDI et al.,

2014)

(LUNARDI,

BECKER e

MAÇADA, 2009)

Estruturas Papéis e responsabilidades como comitês de estratégia de TI,

comitês de direcionamento de TI, estrutura organizacional de TI,

CIO na presidência (board), comitês de direcionamento de

projetos, conselheiro da presidência, força tarefa e-negócios.

Processos BSC, planejamento de sistemas de informação estratégica, Cobit

e ITIL, Acordos de Nível de Serviço, Economia da Informação,

Modelo de Alinhamento Estratégico, Modelos de alinhamento TI

e negócio, modelos de maturidade da governança de TI.

Mecanismos

relacionais Participação ativa e colaboração entre as principais partes

interessadas, incentivos e recompensas para parcerias,

colocalização TI e negócio, compreensão comum dos objetivos de

TI e do negócio, resolução ativa de conflitos, treinamento e

rotação de cargos entre TI e negócio.

(HERZ et al, 2012);

(NEFF et al., 2013)

e (DE HAES e

GREMBERGEN,

2009)

Estruturas Comitê de direcionamento de TI, CIO no comitê executivo,

comitê estratégico de TI no nível de presidência, comitê de

direcionamento de projetos de TI, CIO reportando ao CEO.

Processos Gerência de portfolios, controle de reporte do orçamento de TI,

planejamento de sistemas de informações estratégicas,

metodologias de gerenciamento de projetos.

Mecanismos

relacionais Liderança de TI.

(ALAGHA, 2013)

Estruturas Comitê de estratégia de TI, envolvimento da gerência sênior na

TI

Processos Sistemas de comunicação

Mecanismos

relacionais Cultura e ética da conformidade

(ALI e GREEN,

2012)

Estruturas Comitê de estratégia de TI, comitê de direcionamento de TI,

envolvimento da gerência sênior na TI.

Processos Sistemas de medição de desempenho corporativo, sistemas de

comunicação corporativos.

Mecanismos

relacionais Ética e cultura de conformidade.

(HEINDRICKSON

e SANTOS, 2014)

Estruturas Gerência de portfolio de investimentos em TI, gerente de

soluções de TI, comitê de direcionamento de TI.

(SCHLOSSER et

al., 2010)

Processos Controle.

Mecanismos

relacionais Interação, cognição, conhecimento.

(PANG, 2014) Estruturas Chief Information Officer.

Page 178: Anais do SMSI 2016

Para identificar os mecanismos de governança de TI adotados por empresas,

optou-se por buscar informações em veículos de comunicação não acadêmicos, como

revistas comerciais sobre TI, anúncios e sites das próprias empresas. Essas buscas se

iniciaram através da Revista RNTI (Revista Nacional de Tecnologia da Informação)

onde foram analisadas as 6 últimas edições de 2015 (47 a 52) e através dela, foi possível

identificar algumas empresas brasileiras, que faziam uso da GTI, mas as práticas

adotadas nem sempre estavam explícitas nos anúncios.

A partir dessas informações foram feitas pesquisas nos próprios sites dessas

empresas com o objetivo de encontrar quais os mecanismos de GTI são adotados e/ou

oferecidos na organização pesquisada. Como o método de busca era baseado em

publicações feitas pelas próprias empresas, foram escolhidas publicações não

acadêmicas, e a partir dessas buscas foi possível identificar outras revistas on-line:

Computerworld, Isto é-Dinheiro, Época Negócios, Exame e a IT fórum 365. Algumas

dessas revistas realizam pesquisas como “As 10 Empresas de Ti que mais geraram valor

em 2013”, “Melhores Empresas para executivos Trabalhar” e outros rankings, que

também ajudaram a identificar empresas a serem pesquisadas.

Por meio dessas pesquisas foram encontradas diversas publicações, consideradas

como relevantes somente as realizadas a partir de 2009. Cada publicação foi lida e

analisada e por meio das informações contidas neles e por buscas de informações nos

próprios sites das empresas relatadas nas publicações, foi possível identificar alguns

mecanismos adotados por elas.

4. Resultados

Com base nos dados obtidos por esta pesquisa, foi elaborada a Figura 1, que

mostra os mecanismos mais utilizados pelas empresas segundo as publicações analisadas.

As publicações analisadas permitiram identificar 56 diferentes empresas e 16

mecanismos.

Figura 1. Mecanismos de GTI mais difundidos entre as empresas pesquisadas.

Fonte: desenvolvida pelo autor.

Page 179: Anais do SMSI 2016

Com base no estudo percebe-se que os frameworks mais presentes nas

publicações analisadas são o ITIL e o Cobit. Destaca se também a prática de

atendimento as conformidades, Sarbanes – Oxley (SOX). O Cobit fornece um modelo

abrangente que auxilia as organizações a atingir seus objetivos de governança e gestão

de TI. Em termos simples, ajuda as organizações a criar valor por meio da TI mantendo

o equilíbrio entre a realização de benefícios e a otimização dos níveis de risco e de

utilização dos recursos (ISACA, 2012). A ITIL é um conjunto de boas práticas para

gerenciamento de serviços que foca no gerenciamento da infraestrutura de TI de modo a

garantir os níveis de serviços acordados com os clientes internos e externos. O uso da

SOX tem por objetivo estabelecer sanções que coíbam procedimentos não éticos e em

desacordo com as boas práticas de governança corporativa por parte das empresas

atuantes no mercado norte americano. O objetivo final é restabelecer o nível de confiança

nas informações geradas pelas empresas.

É importante ressaltar que os mecanismos apresentados como modelos e

técnicas, que também contribuem para uma boa GTI, como Service-Oriented

Architecture (SOA), Melhoria de Processo de Software Brasileiro (MPS.Br), Business

Process Management (BPM), CMMI apesar de considerados mecanismos de

implementação de GTI (De Haes e Grembergen, 2005) (Peterson, 2004), não foram

observados no estudo.

A Figura 2 apresenta quantas empresas foram encontradas, por meio de

publicações eletrônicas, por revista relacionando a quantidade de mecanismos

observados em cada uma delas. Observa- se a revista “Computerwold” apresenta uma

maior diversidade de mecanismos, onde os que aparecem com mais frequência entre as

empresas são os modelos ITIL e Cobit. A revista “IT Fórum 365” também apresenta

adoção de várias práticas. A mais frequente nesta revista foi a lei regulatória de

conformidade e transparência financeira, Sarbanes-Oxley (SOX).

Figura 2. Mecanismos Únicos de GTI relacionados por revista.

Fonte: desenvolvida pelo autor.

Revistas

No. empresas

encontradas

por revistas

Mecanismos

únicos por

revistas

Mecanismos mais

citados por

revista

RNTI 13 10 ITIL e PMBOK

Computerworld 21 14 ITIL e Cobit

Isto é/ Época

Negócios/ Exame 7 9 SOX e Six Sigma

IT Forum365 15 12 SOX

TOTAL 56

Total de

mecanismos

encontrados

16

Hoje muitas organizações estão em processo de implementar a combinação das

estruturas, processos e mecanismos relacionais da Governança de TI. Um importante

Page 180: Anais do SMSI 2016

aspecto da implementação dos processos da GTI é a medição e avaliação, segundo

Grembergen e Haes (2007). Conforme os autores, a avaliação e medição da GTI faz com

que CIOs, gerentes executivos e o conselho administrativo supervisionem o status da

GTI: quão bem ela está e como ela pode ser melhorada. O Balanced Scorecard (BSC)

atua como uma ferramenta de grande importância no processo de implantação da GTI,

permitindo uma avaliação da situação atual da implementação e o estabelecimento do

que deve ser melhorado. De acordo com Grembergen e Haes (2005), desenvolver um

BSC como um sistema de medição de desempenho para os processos da Governança de

TI, permite ainda mais a melhoria das estratégias. O objetivo principal do

desenvolvimento e implantação de processos de GTI é fundir a TI aos negócios, de

modo que se possam obter melhores resultados financeiros a partir desta. As

organizações necessitam de um sistema de medição de desempenho, uma vez que a

realização contínua do processo de avaliação permite que a empresa conheça a eficiência

e a eficácia de suas ações, bem como o comportamento das pessoas, os processos e os

programas da organização (Gonçalves, 2002). Através do uso de sistema de medição de

desempenho, gestores podem obter com maior facilidade informações de produtividade

da empresa. Tais informações podem auxiliar na tomada de decisão e em ações para o

processo de melhoria da produtividade e qualidade da empresa. A medição de

desempenho é essencial para qualquer tipo de organização, seja ela privada ou pública,

com ou sem fins lucrativos. Neste sentido, qualquer tipo de ação a ser implementada em

uma empresa precisa de um acompanhamento para saber se está em consonância com as

metas estabelecidas e quais as medidas a serem tomadas para eventuais correções

(Miranda e Silva, 2002).

Não há melhor modelo único de GTI, dadas as diferentes estratégias e formas de

organização. Alguns mecanismos de governança apoiam abordagens mais centralizadas

como os comitês executivos e processo de aprovação de capital centralizado. Outros

apoiam abordagens mais híbridas como gerentes de negócio / TI de relacionamento e

acordos de nível de serviço. Projetos de governança descentralizada envolvem muito

poucos mecanismos. No entanto, a GTI eficaz deve ser evidente em métricas de

desempenho de negócios e padrões de GTI relativas às medidas de desempenho

financeiro. É claro que as empresas de melhor desempenho governam significativamente

diferente de outras empresas, mesmo entre os melhores desempenhos, estilos de

governança se diferem de acordo com a qual o desempenho e métrica a empresa

enfatiza (Weill e Ross 2005).

Por fim, por meio da análise das publicações foi possível identificar ainda

qualitativamente alguns benefícios advindos da implementação dos mecanismos de GTI.

A Procter & Gamble, por exemplo, por meio da implantação do ITIL relatou que depois

de três anos da implementação, obteve uma redução de custos operacionais da

infraestrutura de TI e redução de 20% do pessoal alocado. No caso específico de sua

Central de Serviços, foi obtida uma redução no volume total de chamadas recebidas. Foi

observado ainda um aumento da disponibilidade do ambiente de TI, redução de falhas

operacionais, aumento da confiabilidade dos serviços e otimização de tempo de

atendimento. Também com o modelo ITIL, a Makro relatou que obteve maior agilidade

na resolução de incidentes em suas mais de 60 lojas espalhadas por 23 estados. O projeto

trouxe melhorias significativas para os negócios e até para o relacionamento do pessoal

de tecnologia com os demais departamentos, as demandas passaram a ser atendidas

Page 181: Anais do SMSI 2016

conforme um padrão de prioridades, as medidas ajudaram a minimizar os efeitos das

mudanças nos processos.

Com a adoção do modelo Cobit, a Redecard relatou que conseguiu fazer um

gerenciamento integrado dos projetos da organização, além de reduzir os gastos com

desenvolvimento de softwares. A área de TI da empresa estabeleceu um plano

estratégico de governança para melhorar o nível de maturidade dos processos e controles

críticos da área. Além disso, com o projeto de GTI, a empresa conseguiu concentrar em

um ponto único todos os chamados em uma Central de Serviços. Em outra experiência

de sucesso, a Amil informou que com a evolução no conceito de GTI, houve uma

otimização tanto do tempo que os profissionais de TI levam para fazer uma análise,

como para que possam entender melhor o negócio. Na utilização das ferramentas e na

aplicação dos conceitos e metodologias, houve uma modificação do perfil da área de TI

no sentido de deixar de ser só um braço operacional para se tornar um parceiro de

negócios que suporta o negócio.

5. Conclusões

Desenvolver um modelo de GTI de alto nível não implica que a governança esteja de

fato funcionando na organização. Conceber o modelo de GTI é o primeiro passo.

Implantá-lo na organização como uma solução sustentável é o próximo desafiante passo

(De Haes e Grembergen, 2005). Para o eficiente e efetivo uso de TI, várias organizações

internacionais publicaram documentos contendo recomendações sobre GTI (Abbas e

Bakry, 2014), mas implementar um sistema de GTI efetivo baseada em modelos

existentes não é somente complexo, mas também consome muito tempo e recursos

(Shivashankarappa et al., 2012).

Este estudo buscou identificar os mecanismos de GTI implantados com mais

frequência nas organizações com base em informações publicadas pelas próprias

organizações em meios de comunicação especializados da área de TI. Foram

identificadas 56 empresas com 16 mecanismos diferentes implementados e foi possível

observar que os modelos ITIL e Cobit foram relatados como frequentemente

implantados nas organizações.

O estudo apresenta algumas limitações. O estudo focou na busca em um conjunto

representativo, porém restrito de publicações. Ampliar as fontes de dados da pesquisa

pode trazer resultados ainda mais consistentes com a realidade. Existe ainda uma

limitação que está relacionada ao fato de o estudo ter se baseado em informações

publicadas pelas próprias empresas, o que pode trazer problemas de confiabilidade das

informações. Por outro lado, torna-se um resultado interessante uma vez que se as

organizações decidem publicar sobre a implementação destes mecanismos, há um

reconhecimento de que o mercado e consumidores valorizam a implantação de tais

mecanismos. Sendo assim, uma interpretação dos achados deste estudo é a de que os

mecanismos identificados com mais frequência possivelmente tem uma aceitação no

mercado.

Como pesquisa futura, seria importante realizar a caracterização dessas empresas

quanto a seu porte e setor da economia. Com as fontes de dados já identificadas, pode-se

ainda buscar coletar quais benefícios as empresas reportaram com a adoção destes

mecanismos. A realização de estudos de caso em empresas que já adotaram mecanismos

Page 182: Anais do SMSI 2016

formais ou ainda em desenvolvimento, de Governança de TI, buscando identificar seus

principais benefícios, dificuldades de implantação e fatores necessários para o seu

sucesso também é um trabalho interessante. Sugere-se ainda a realização de surveys em

diferentes setores organizacionais, de modo a identificar os mecanismos de GTI mais

utilizados e analisar o seu impacto no desempenho organizacional.

Referências

Abbas, H. B.; Bakry, S. H. Assessment of IT governance in organizations: a simple

integrated approach. Computers in Human Behavior, v. 32, pp.261-267, 2014.

Alagha, H. (2014). Examining the relationship between IT governance domains,

maturity, mechanisms and performance: an empirical study toward a conceptual

framework. 10th International Conference on Information Technology: New Generation.

Ali, S.; Green, P. (2012). Effective information technology (IT) governance mechanisms:

An IT outsourcing perspective. Information Systems Frontiers, v. 14, pp. 179-193.

De Haes, S.; Grembergen, W. V. (2005). IT Governance Structures, Processes and

Relational Mechanisms: Achieving IT/Business Alignment in a Major Belgian Financial

Group. Proceedings of the 38th Hawaii International Conference on System Sciences.

De Haes, S.; Grembergen, W. V. (2009). An exploratory study into IT Governance

implementations and its impact on Business/IT Alignment. Information Systems

Management, 26, pp. 123-137.

Gonçalves, J. P. Desempenho Organizacional. Seminário Econômico. São Paulo, n.815,

ago/2002. GOULART

Green, P.; Ali, S (2012). Effective information technology (IT) governance mechanisms:

An IT outsourcing perspective. Journal Information Systems Frontiers, Vol.14, N.2, pp.

179-193.

Grembergen, W. V., De Haes, S. (2007). Implementing InformationTechnology

Governance: Models, Practices, and Cases. IGI Publishing, New York.

Grembergen, W. V.; Haes, S. D.; Guldentops, E. (2004). Structures, processes and

relational mechanisms for IT governance. In: Grembergen, W. V. Strategies for

information technology governance. Hershey: Idea Group Publishing.

Gremberger, W. V.; Haes, S. (2005). Measuring and Improving IT Governance Through

the Balanced Scorecard.

Heindrickson, G.; Santos, C. Jr. (2014). Information Technology Governance in public

organizations: how perceived effectiveness relates to three classical mechanisms.

JISTEM – Journal of Information Systems and Technology Management. Vol 11, No. 2,

May/Aug., pp.297-326.

Herz, T. P.; Hamel, F.; Uebernickel, F.; Brenner, W. (2012). IT Governance

Mechanisms in Multi sourcing – a Business Group Perspective. 45th Hawaii

International Conference on System Sciences.

Huang, Y. Y.; Handfield, R. B. (2015). Measuring the benefits of ERP on supply chain

management maturity model: a big data method. International Journal of Operations &

Production Management, v. 35, n. 1, pp.2-25.

Page 183: Anais do SMSI 2016

ISACA. (2012). Cobit 5. A business framework for the governance and management of

entreprise IT. Rolling Meadows, IL (USA). 2012. Disponível em:

<http:www.isaca.org/COBIT/Pages/default.aspx>. Acesso em 27 set. 2014.

ITGI. (2015) Board Briefing on IT Governance. IT Governance Institute. Disponivel

em: <http://www.isaca.org/restricted/Documents/26904_Board_Briefing_final.pdf>.

Acesso em abril 2015.

Lunardi, G. L. (2008). Um Estudo Empírico e Analítico do Impacto da Governança de

TI no Desempenho Organizacional. Universidade Federal do Rio Grande do Sul. Porto

Alegre: pp. 201.

Lunardi, G. L.; Becker, J. L.; Maçada, A. C. G. (2009). The Financial Impact of IT

Governance Mechanisms Adoption: an Empirical Analysis with Brazilian Firms.

Proceedings of the 42nd Hawaii International Conference on System Sciences.

Lunardi, G. L.; Becker, J. L.; Maçada, A. C. G.; Dolci, P. C. (2014). The impact of

adopting IT governance on financial performance: An empirical analysis among Brazilian

firms. International Journal of Accouting Information Systems, v.15, pp. 66-81

Lunardi, G. L; Dolci, P. C; Beker, J. L. e Maçada, A. C. G. (2007). Governança de TI

no Brasil: uma análise dos mecanismos mais difundidos entre as empresas nacionais.

Simpósio de Excelência em Gestão e Tecnologia – SEGeT. Associação Educacional

Dom Bosco.

Lunardi, G. L.; Becker, J. L. e Maçada, A. C. G. (2012). Um estudo empírico do

impacto da governança de TI no desempenho organizacional. Prod. [online]. vol.22, n.3,

pp. 612-624. Epub Feb 14, 2012. ISSN 0103-6513.

Miranda, L. C.; Silva, D. G. (2002). Controladoria: agregando valor para a empresa.

Org. por Paulo Schmidt. Porto Alegre: Bookman.

Neff, A. A.; Hamel, F.; Herz, T. P.; Uebernickel, F.; Brenner, W. (2013). IT Governance

in Multi-Business Organizations: Performance Impacts and Levers from Processes,

Structures, and Relational Mechanisms. 46th Hawaii International Conference on System

Sciences.

Pang, M. S. (2014). IT governance and business value in the public sector organizations

– The role of elected representatives on IT governance and its impact on IT value on

U.S. state governments. Decision Support Systems, v.59, 274-285.

Peterson, R. R. (2004). Integration Strategies and Tactics for Information Technology

Governance. In: Grembergen, W. V. Strategies for Information Technology Governance.

Hershey: Idea Group Publishing, p.37-42.

Schlosser, F.; Wagner, H. T.; Beimborn, D.; Weitzel, T. (2010). The role of internal

business/IT alignment and IT governance for service quality in IT outsourcing

arrangements.43rd Hawaii International Conference on System Sciences.

Shivashankarappa, A. N.; Ramalingam, D.; SMALOV, L.; Anbazhagan, N.

Implementing IT Governance using Cobit: A case study focusing on critical success

factors. World Congress on Internet Security WorldCIS, 2012.

Page 184: Anais do SMSI 2016

Silva, M. G. R. (2010). TI Mudar e Inovar: resolvendo conflitos com ITIL v3. 2ª. ed.

Brasília: SENAC DF.

Tarouco, H. H.; Graeml, A. R. (2011). Governança de tecnologia da informação: um

panorama da adoção de modelos de melhores práticas por empresas brasileiras usuárias.

Revista Administração, São Paulo, v. 46, n. 1, pp 07-18.

Weill, P.; Ross, J. (2004). IT governance: how top performers manage IT decision rights

for superior results. Watertown: Harvard Business School Press.

Weill, P.; Ross, J. (2005). A matrix approach to designing IT governance. Sloan

Management Review, v. 46, n. 2, p. 26-34.

Page 185: Anais do SMSI 2016

Identificação automática de palavras-chave para geração de links em documentos de patentes

Thiago V. Reginaldo1, Juan R. Carvalho1, Magali R. G. Meireles2

1Engenharia de Computação, Pontifícia Universidade Católica de Minas Gerais 2Instituto de Ciências Exatas e Informática, Pontifícia Universidade Católica de Minas

Gerais Rua Walter Ianni, 255, São Gabriel, Belo Horizonte, Minas Gerais, Brasil, CEP 31.980-110

{v95thiago, juanrequeijo41}@gmail.com, [email protected]

Abstract. Patents are an important source of information to measure the technological advance of a particular domain of knowledge. However, patents are complex legal documents with a significant number of technical and descriptive details, which makes difficult the identification and the analysis of the information contained in these documents. An automatic system of links associated to some of the terms found in the patents provides quick access to the concepts contained in specific knowledge bases. This paper presents preliminary results of a project aimed to the automatic generation of links in patent documents with the use of computational intelligence techniques. In this article, the stages of the creation of the database used in the experiments and the steps of choice of terms used as sources of the links are described and analyzed. Resumo. As patentes são uma fonte de informação importante para se medir o avanço tecnológico de um domínio específico de conhecimento. No entanto, as patentes são documentos legais complexos com um significativo número de detalhes técnicos e descritivos, o que dificulta a identificação e a análise das informações contidas nesses documentos. Um sistema automático de links associados a alguns dos termos encontrados nas patentes possibilita acesso rápido aos conceitos contidos em bases específicas de conhecimento. Este trabalho apresenta resultados preliminares de um projeto cujo objetivo é a geração automática de links em documentos de patentes com emprego de técnicas de inteligência computacional. Neste artigo, são descritas e analisadas as fases de criação da base de dados utilizada nos experimentos e as etapas de escolha dos termos utilizados como origens dos links.

 

Page 186: Anais do SMSI 2016

1. Introdução

As patentes constituem uma das formas mais antigas de proteção do capital intelectual. Autores como Camus e Brancaleon (2003) destacaram a importância da informação contida na análise de patentes, revelando os riscos e as oportunidades de pesquisa e obtendo conhecimento sobre as atividades das empresas. Alguns estudos [MARKELLOS et al 2002; LEYDESDORFF 2004] exploram as bases de dados de patentes, mostrando como a produção do conhecimento científico pode estar relacionada com a economia. Lee, Yoon e Park (2009) afirmaram que as patentes são fontes completas de conhecimento técnico e comercial. Por tudo isso, a análise dos atributos técnicos e de mercado das patentes tem sido considerada como uma ferramenta útil para pesquisa e desenvolvimento gerencial.

Para se extrair conhecimento das informações contidas nas patentes, é necessário lidar com a dificuldade de compreensão dos textos, que são, notadamente, complexos, com detalhes tecnológicos, linguagem jurídica e descrições exaustivas [MEIRELES et al. 2016]. Uma alternativa, objeto de estudo deste artigo, é a associação de um texto a outro, disponibilizando para o leitor uma base de conhecimento que facilite o trabalho de analisar novos conceitos. A criação manual deste tipo de link torna-se impraticável quando se trabalha com uma grande coleção de documentos. A obtenção automática de link torna-se uma necessidade cada vez maior onde as bases de conhecimento online são popularmente utilizadas e, por isso, a geração de links automáticos tem despertado o interesse da comunidade científica envolvida com projetos de aprendizado de máquina [GARDNER e XIONG 2009; HE e RIJKE 2010].

Este trabalho apresenta resultados preliminares de um projeto cujo objetivo é gerar automaticamente links em documentos de patentes com emprego de técnicas de inteligência computacional. Neste artigo, são descritas as etapas de criação e pré-processamento da base de dados experimental utilizada e analisados os resultados gerados pela utilização de dois algoritmos de extração de palavras candidatas a origens dos links por meio das métricas precisão e revocação.

As próximas seções descrevem as patentes, os sistemas de classificação utilizados pelos escritórios e os algoritmos utilizados na extração das palavras candidatas a origens dos links. A seção 4 apresenta a metodologia utilizada e as seções 5 e 6 apresentam os resultados, análises e considerações finais.

2. As Patentes e os Sistemas de Classificação Uma patente é um contrato entre o inventor e o governo, segundo o qual, em troca de divulgação pública e integral de uma invenção, o governo concede ao inventor o direito de excluir terceiros por um período limitado de tempo e de usar ou vender a invenção [HUFKER e ALPERT 1994]. De acordo com Alberts e outros (2011), as patentes são documentos jurídicos complexos, que contêm mais detalhes e descrições do que artigos científicos. A linguagem e a formatação do texto da patente são controladas por leis e regulamentos do país ou da autoridade de patentes em que o autor da invenção solicitou a patente.

Para ser elegível para a proteção destinada à patente, um produto deve atender três critérios: a invenção deve ser nova e diferente de invenções anteriores, deve ser considerada

Page 187: Anais do SMSI 2016

não óbvia e não pode ter sido antecipada por qualquer outra invenção [HUFKER e ALPERT 1994]. De acordo com estes autores, o escritório de patentes dos Estados Unidos da América diferencia três classificações gerais de patentes. A primeira classe é a de utilidade e está relacionada a um processo, a uma máquina, a um item de fabricação ou a uma melhoria de um destes itens. Este tipo de patente é concedida por um período de 17 anos. A segunda classe está relacionada a um projeto novo e original e a forma é o principal fator para um item de produção ser considerado patenteável. Atributos como utilidade mecânica e funcionalidade são menos relevantes para este tipo de patente. Este tipo de patente é emitido por um período de três anos e meio, sete ou catorze anos. A terceira classe protege diferentes invenções produzidas por meio de biotecnologia e que não são encontradas na natureza.

A informação contida nas patentes é distribuída em um grande número de campos que podem ser acessados nos portais disponibilizados pelas autoridades ou por meio de ferramentas de busca. Os campos são geralmente representados em uma estrutura XML. O Quadro 1 mostra alguns dos principais campos, e respectivas descrições, que podem ser utilizados nas etapas experimentais dos trabalhos relacionados aos processos de categorização, de classificação e de recuperação de patentes.

Quadro 1. Descrição de alguns campos disponíveis para consulta no banco de dados do United States Patent and Trandmark Office (USPTO)

Campos Descrições Resumo Um breve resumo da patente de invenção

Informações do requerente: cidade, país, nome, estado

Informações sobre o requerente

Data do pedido A data em que o pedido foi recebido pelo escritório Nome do proprietário dos direitos, sua cidade, estado e país.

Informação sobre o proprietário dos direitos da patente no pedido da patente

Reivindicações Texto que apresenta as características do que o solicitante considera como sendo a invenção e define o escopo da proteção reivindicada

Classificação de Patentes Cooperativa (CPC)

O código da classificação na qual a patente foi classificada

Descrição Breve resumo da invenção e descrição detalhada

Referências estrangeiras Patentes estrangeiras citadas como referências Nome, cidade, estado e país do inventor

Informações sobre o inventor no tempo do pedido de patente

Data de emissão A data em que a patente foi oficialmente emitida pelo escritório

Outras referências Outras referências citadas no referencial teórico

Identificação da família da patente

Número que relaciona todos os membros da família da patente

Número da patente Número designado aos pedidos que foram aceitos como patentes

Page 188: Anais do SMSI 2016

Tipo de patente Tipo relacionado ao campo aplicação Primeira data de publicação do documento e data de preenchimento do pedido.

Primeira data de publicação da patente e data de preenchimento do pedido

Data de reedição e novo pedido

Informações que descrevem a reedição da patente

Título Título da patente

Patentes citantes Lista de outras patentes que contêm este número de patente em seu texto

Fonte: http://www.uspto.gov

Existem importantes sistemas de classificação utilizados pelos escritórios de patentes. Estes sistemas organizam as patentes em categorias de acordo com a sua aplicação técnica, características estruturais e utilização. O International Patent Classification (IPC), que contém a maior coleção de patentes disponível, é mantido pelo World Intellectual Property Organization (WIPO) e divide todas as áreas de tecnologia em oito seções, subdivididas em classes, subclasses, grupos e mais de 60.000 subgrupos. O United States Patent Classification (USPC) classifica patentes em aproximadamente 470 classes e 163.000 subclasses (ALBERTS et al, 2011). O European Patent Classification (ECLA) é mantido pelo European Paten Office (EPO) e é uma variação do IPC. Apresenta aproximadamente 129.000 categorias. O Cooperative Patent Classification (CPC) é uma parceria entre o USPTO e o EPO e foi criado com o objetivo de unificar seus respectivos sistemas de classificação, o USPC e o ECLA, incluindo, aproximadamente, 250.000 categorias baseadas no IPC. O Quadro 2 apresenta as seções definidas pelo CPC com o intuito de ilustrar o sistema de classificação utilizado neste trabalho.

Quadro 2. Seções definidas pelo CPC

Seções Descrição A Necessidades humanas B Realização de operações; Transporte C Química e Metalurgia D Têxtil e Papel E Construções fixas F Engenharia Mecânica; Iluminação; Aquecimento; Armas; Jateamento ou Bombas G Física H Eletricidade Y Etiquetagem geral de novos desenvolvimentos tecnológicos; Etiquetagem geral de

tecnologias cross-over abrangendo diversos setores do IPC

Fonte: http://www.uspto.gov

3. Identificação Automática de Palavras-chave para Geração de Links A popularidade da Wikipedia e de outras bases de conhecimento online produziu recentemente um interesse da comunidade científica que estuda técnicas de aprendizado de

Page 189: Anais do SMSI 2016

máquina para o problema da criação automática de links. O processo de geração automática de hyperlink pode ser decomposto em dois problemas distintos, a identificação da origem de um link e a solução do problema de disambiguation para encontrar o melhor destino de um link. A Wikipedia é rica em dados com hiperlinks fornecidos pelos autores. É possível utilizar estes dados para treinar classificadores e repetir, em alguma instância, o procedimento utilizado pelos autores.

A determinação automática de um link inclui a identificação de possíveis fragmentos do texto para serem associados a bases de conhecimento. Na maioria dos casos, são selecionadas palavras-chave e sua extração pode ser feita por métodos supervisionados e não supervisionados [MIHALCEA e CSOMAI 2007].

Neste trabalho, a base experimental é composta por patentes. Estes documentos não têm palavras-chave definidas em seu texto. Para a determinação das palavras-chave associadas aos subgrupos de patentes selecionados, foram utilizados dois algoritmos, o tf.idf e o 𝒳!  𝑡𝑒𝑠𝑡, que extraem as palavras do texto de acordo com a importância que cada algoritmo atribui aos termos.

No primeiro algoritmo, a frequência do termo (TF) é definida por Baeza e Neto (1999) pelas Equações 1, 2 e 3. A Equação 1 calcula a importância do termo para o documento por meio do quociente da frequência do termo “i” no documento “j” pela frequência do termo que mais ocorre no documento.

 𝑓!" =

!"#$%ê!"#$!,!  !"#  (!"#$%ê!"#$!,!)

(1)

A Equação 2 calcula a importância do termo para a coleção de documentos pelo logaritmo do quociente do número total de documentos pelo número de documentos que possui o termo em análise.

𝑖𝑑𝑓! = log!!!

(2) Por fim, o peso do termo é calculado pela Equação 3.

𝑤!" = 𝑓!"  𝑥  𝑖𝑑𝑓! (3) O segundo algoritmo, de acordo com Manning e Schütze (1999), é um teste de independência chamado de teste Qui-Quadrado ou simplesmente 𝒳!. Este teste avalia a independência entre duas variáveis e compara os valores observados com os valores esperados. O teste consiste em avaliar o quão distantes estão estes valores. No contexto deste trabalho, conforme utilizado por Mihalcea e Csomai (2007), o teste Qui-Quadrado será usado para ordenar as palavras pela sua dependência com a patente, de modo que, quanto maior a nota dada pelo teste a uma palavra, maior a sua dependência com o documento. Mesmo que o teste aceite que uma palavra é independente, a nota dada pelo teste à palavra é simplesmente adicionada à ordenação em posições inferiores. As variáveis foram definidas como “palavras” e “documentos”, ambas variáveis qualitativas. A variável “palavras” só pode assumir dois valores, ou m se for a palavra m,

Page 190: Anais do SMSI 2016

ou todas as outras palavras se não for a palavra m. A variável “documentos”, de modo semelhante, assume dois valores: n se for o documento n, ou todos os outros documentos se não for o documento n. Essas definições são apresentadas no Quadro 3.

Quadro 3. Valores das variáveis do teste de independência

Variáveis Palavras Documentos

Valores m Todas as outras palavras n Todos os outros

documentos

Fonte: Elaborado pelos autores

Essas variáveis podem ser colocadas em uma Tabela de Contingência, como mostra a Tabela 1, para que possam ser calculadas as ocorrências de um par de valores (palavras, documentos).

Tabela 1. Tabela de Contingência

Palavras/ Documentos m Todas as outras palavras

n Contagem (palavra m no documento n)

Contagem (todas as outras palavras no documento n) Soma (linha)

Todos os outros documentos

Contagem (palavra m em todos os outros documentos)

Contagem (todas as outras palavras em todos os outros documentos)

Soma (linha)

Soma (coluna) Soma (coluna) Soma (células internas)

Fonte: Adaptado de MIHALCEA e CSOMAI (2007)

O teste Qui-Quadrado é definido por Manning e Schütze (1999) pelas Equações 4 e 5. Os valores observados são os valores em negrito da Tabela 1, que são denotados por 𝑂!" onde 𝑖 é a linha e 𝑗 é a coluna da Tabela de Contingência. Já os valores esperados, denotados por 𝐸!", são obtidos pela Equação 4.

𝐸!" =!!"! ∙ !!"!

!!"!,!  ,      ou  seja,          𝐸!" =

!"#$ !"#$%&  ! ∙!"#$ !"#!!  !!"#$ !"!#$

(4)

Finalmente, o valor do teste é dado pela equação 5.

𝜒!"! = !!"!!!"!

!!"!,! (5)

Nessa equação, m é a palavra e n é o documento. Este cálculo é refeito para cada palavra em cada documento.

As métricas utilizadas para avaliar os resultados gerados pelos dois algoritmos apresentados foram precisão, revocação e F-measure (média harmônica da precisão e da revocação). A precisão é calculada dividindo-se o número de palavras corretamente identificadas como palavras-chave pelo número de palavras proposto pelo algoritmo. A revocação é definida como a divisão do número de palavras-chave identificadas corretamente pelo número de palavras-chave definida para o documento.

Page 191: Anais do SMSI 2016

4. Metodologia

Para a montagem das bases de dados do experimento, foram selecionadas 117 patentes dos subgrupos G06K7/1443, G06K7/1447, G06K7/1452 e G06K 7/1456 da subclasse G06K do sistema de classificação CPC, denominada recognition of data, presentation of data, record carriers; handling record carriers. Estes documentos estão disponíveis no site do USPTO, no formato XML. A Tabela 2 mostra os subgrupos CPC selecionados para a composição da base de dados amostral. Inicialmente, foram selecionadas 35 patentes de cada subgrupo CPC, porém, com a exclusão das patentes que estavam associadas a mais de um subgrupo CPC, restaram, apenas, 117 patentes.

Tabela 2. Composição da base de dados amostral

Subgrupo CPC Total de Patentes Patentes Selecionadas

G06K 7/1443 343 28

G06K 7/1447 186 31

G06K 7/1452 65 29

G06K 7/1456 176 29

Fonte: Elaborada pelos autores

A ferramenta RapidMiner foi utilizada na segunda fase do experimento para o pré-processamento das quatro bases criadas com as palavras extraídas das patentes. Cada base de dados estava associada a um dos subgrupos CPC selecionado. Esse procedimento envolveu a extração das palavras dos documentos, a exclusão das ocorrências de palavras comuns, as chamadas stopwords e, por último, a extração dos radicais das palavras. Nesse último passo, as palavras illuminated, illuminate, illuminates, por exemplo, são reduzidas a illumin. As palavras com ocorrências menor que 5, em um documento, foram excluídas da análise daquele documento.

Na terceira fase, para cada subgrupo, foram geradas duas matrizes de palavras versus documentos, uma com os valores tf.idf e outra com os valores do teste 𝜒!. Cada linha representava uma palavra e cada coluna, uma das patentes selecionadas no subgrupo. Em seguida, as matrizes foram ordenadas de modo a obter um ranking de palavras para cada patente. Inicialmente, foi selecionado um percentual de 6% de cada ranking para serem designados como a origem dos links, aqui, denominadas, simplesmente, palavras-chave. Segundo Mihalcea e Csomai (2007), 6% das palavras é a quantidade média de links usada no corpus da Wikipédia, além de, com esse número de palavras, se evitar uma poluição visual no documento devido a um excesso de links. Para avaliar os resultados encontrados, alguns experimentos foram realizados, variando-se o número de palavras-chave selecionado. As palavras-chave geradas nos dois testes foram comparadas com as palavras utilizadas nos títulos de cada um dos subgrupos usados no experimento. Estas palavras

Page 192: Anais do SMSI 2016

foram definidas como o ground truth, ou seja, o universo de palavras-chave relevantes. Os quatro conjuntos relevantes foram obtidos do site do USPTO e são reproduzidos no Quadro 4.

Quadro 4. Descrições da subclasse G06K

Categorias Descrições Níveis

G06K Recognition of data; presentation of data; record carriers; handling record carriers 1

G06K 7/00 Methods or arrangements for sensing record carriers 2

G06K 7/10 . by electromagnetic radiation, e.g. optical sensing; by corpuscular radiation 3

G06K 7/14 . . using light without selection of wavelength, e.g. sensing reflected white light 4

G06K 7/1404 . . . Methods for optical code recognition 5

G06K 7/1439 . . . . including a method step for retrieval of the optical code 6

G06K 7/1443 . . . . . locating of the code in an image 7

G06K 7/1447 . . . . . extracting optical codes from image or text carrying said optical code 7

G06K 7/1452 . . . . . detecting bar code edges 7

G06K 7/1456 . . . . . determining the orientation of the optical code with respect to the reader and correcting therefore 7

Fonte: http://www.uspto.gov

As palavras-chave geradas pelos dois algoritmos para os quatro subgrupos de patentes apresentados na Tabela 2 foram comparadas com o ground truth correspondente. O ground truth de cada subgrupo CPC foi obtido pela concatenação sucessiva do nível de seções 1, hierarquicamente mais alto, até o nível 7. Desse modo, os resultados gerados pelos algoritmos foram comparados com um conjunto de palavras relevantes definidas a partir da classificação estabelecida pelo sistema CPC para cada um desses subgrupos . Estes conjuntos foram formados por 27, 30, 27 e 31 palavras para os subgrupos “G06K 7/1443”, “G06K 7/1447”, “G06K 7/1452” e “G06K 7/1456” respectivamente.

5. Resultados e análises  Os dados gerados pelos algoritmos tf.idf e 𝒳! foram comparados com o ground truth. Foram usadas as métricas de precisão, revocação e F-measure para avaliar os resultados encontrados. Para estudar o comportamento dos algoritmos, foram realizados experimentos com valores diferentes de palavras-chave. Inicialmente, os algoritmos tf.idf e 𝒳!  geraram, para cada subgrupo de patentes, 30 palavras-chave. Esse valor foi definido por ser próximo ao número de palavras do ground truth. Os resultados são mostrados na Tabela 3.

Page 193: Anais do SMSI 2016

Tabela 3. Avaliação dos resultados obtidos pelos algoritmos tf.idf e 𝓧𝟐  ,utilizando as métricas Precisão (P), Revocação (R) e F-measure (F) para 30 palavras-chave

Avaliação Algoritmo Subgrupo (P) (R) (F)

tf.idf

G06K  7/1443   1,67% 1,85% 1,75% G06K  7/1447   1,79% 1,79% 1,79% G06K  7/1452   1,43% 1,59% 1,50% G06K  7/1456 2,98% 2,88% 2,93%

𝒳!

G06K  7/1443   12,86% 14,29% 13,53% G06K  7/1447   15,00% 15,00% 15,00% G06K  7/1452   16,55% 18,39% 17,42% G06K  7/1456 14,52% 14,06% 14,29%

Fonte: Elaborada pelos autores Com apenas 30 palavras-chave, destacou-se o valor de 18,39% de revocação e

16,55% de precisão no subgrupo G06K 7/1452 usando 𝒳!. As métricas de avaliação do algoritmo tf.idf foram baixas nesse primeiro experimento. Em geral, a precisão e a revocação apresentam valores próximos um do outro.

A Tabela 4 apresenta o comportamento dos algoritmos, considerando-se 6% das palavras de cada base após o pré-processamento. O melhor resultado foi o teste 𝒳! , que apresentou 32,67% de revocação, 14,00% de precisão e 19,60% de F-measure. Os conjuntos de palavras-chave recuperadas variam de 63 a 96 palavras por subgrupo e o ground truth apresenta apenas valores próximos de 30 palavras. São gerados, portanto, muitos falsos positivos, o que diminuiu o resultado da precisão.

Tabela 4. Avaliação dos resultados obtidos pelos algoritmos tf.idf e 𝓧𝟐  ,utilizando as métricas Precisão (P), Revocação (R) e F-measure (F) para 6% de palavras-chave

Método Subgrupo Total de palavras

6% das palavras

Avaliação (P) (R) (F)

tf.idf

G06K  7/1443   1327   79   2,44% 7,14% 3,64% G06K  7/1447   1613   96   2,53% 8,10% 3,85% G06K  7/1452   1066   63   2,83% 6,61% 3,97% G06K  7/1456 1165   69   4,45% 9,91% 6,14%

𝒳!

G06K  7/1443   1327   79   9,81% 28,70% 14,62% G06K  7/1447   1613   96   8,15% 26,07% 12,41% G06K  7/1452   1066   63   14,00% 32,67% 19,60% G06K  7/1456 1165   69   12,37% 27,53% 17,07%

Fonte: Elaborada pelos autores As Tabelas 5 e 6 mostram os resultados para 100 e 50 palavras-chave

respectivamente. Em geral, os valores de revocação aumentam, significativamente, conforme aumenta-se a quantidade de palavras-chave recuperadas. No entanto, o valor da

Page 194: Anais do SMSI 2016

precisão está se mantendo sempre muito baixo. Os valores em negrito representam, em cada tabela, as melhores avaliações dos algoritmos.

Tabela 5. Avaliação dos resultados obtidos pelos algoritmos tf.idf e 𝓧𝟐  ,utilizando as métricas Precisão (P), Revocação (R) e F-measure (F) para 100 palavras-chave

Avaliação Algoritmo Subgrupo (P) (R) (F)

tf.idf

G06K  7/1443   2,71% 10,05% 4,27% G06K  7/1447   2,57% 8,57% 3,96% G06K  7/1452   3,75% 13,89% 5,91% G06K  7/1456 4,18% 13,48% 6,38%

𝒳!

G06K  7/1443   9,29% 34,39% 14,62% G06K  7/1447   7,89% 26,31% 12,14% G06K  7/1452   10,89% 40,34% 17,15% G06K  7/1456 10,93% 35,25% 16,68%

Fonte: Elaborada pelos autores

Tabela 6. Avaliação dos resultados obtidos pelos algoritmos tf.idf e 𝓧𝟐  ,utilizando as métricas Precisão (P), Revocação (R) e F-measure (F) para 50 palavras-chave

Avaliação Algoritmo Subgrupo (P) (R) (F)

tf.idf

G06K  7/1443   2,14% 3,97% 2,78% G06K  7/1447   2,14% 3,57% 2,68% G06K  7/1452   2,50% 4,63% 3,25% G06K  7/1456 4,00% 6,45% 4,94%

𝒳!

G06K  7/1443   10,64% 19,71% 13,82% G06K  7/1447   11,21% 18,69% 14,02% G06K  7/1452   15,00% 27,78% 19,48% G06K  7/1456 13,50% 21,77% 16,67%

Fonte: Elaborada pelos autores Os algoritmos tf.idf e 𝒳! foram comparados um ao outro considerando-se a sua

concordância, ou seja, o quanto um conjunto de palavras-chave recuperadas em um subgrupo por tf.idf é igual ao outro conjunto recuperado por 𝒳!. Esta comparação é mostrada na Tabela 7. Em geral, os resultados apresentam uma concordância significativa de tf.idf com 𝒳!. O experimento que apresentou maior concordância foi o do subgrupo G06K 7/1452, com 44,18% das 100 palavras recuperadas, o que representa uma média de 44 palavras iguais.

Tabela 7. Avaliação da Concordância entre tf.idf e 𝒳! Quantidade de palavras-chave recuperadas

Subgrupo 30 50 100 6% (conforme valores na Tabela 4)

Page 195: Anais do SMSI 2016

G06K  7/1443   41,19% 38,71% 41,11% 40,24%

G06K  7/1447   38,33% 38,71% 42,50% 42,67%

G06K  7/1452   43,10% 43,64% 44,18% 43,42%

G06K  7/1456 42,98% 43,21% 41,36% 42,34%

Fonte: Elaborada pelos autores

6. Considerações finais  

A base de dados experimental foi criada com 117 patentes do site do USPTO distribuídas em 4 subgrupos do sistema CPC. Esta base foi pré-processada, visando obter uma representação matricial concisa das palavras que representam estes documentos. Dois algoritmos de extração de palavras-chave foram apresentados e implementados para representar os quatro subgrupos selecionados. Para avaliar os algoritmos utilizados, os resultados encontrados foram comparados com as palavras-chave definidas como ground truth para cada subgrupo. As patentes não têm, no corpo do documento, palavras-chave definidas pelos proponentes ou pelo escritório gerenciador. Por isso, o ground truth foi estabelecido considerando-se a concatenação das palavras que compõem os títulos do nível mais baixo de classificação, que é o do subgrupo, até o mais alto, que é o da seção do sistema CPC. Existem bases amostrais que apresentam, junto às patentes, palavras selecionadas por especialistas das áreas relacionadas. Uma outra possibilidade seria adotar estas anotações de especialistas como ground truth.

Em todos os experimentos, o algoritmo 𝒳! apresentou melhores resultados, considerando-se as métricas calculadas. O valor máximo de concordância entre os algoritmos foi de 44,18%. Em uma próxima etapa, serão utilizadas novas métricas, como propõe Powers (2007), para que se possa avaliar aspectos diferentes dos explorados pelas métricas aqui discutidas.

Os resultados apresentados são preliminares apenas, mas, de importância fundamental para o direcionamento das próximas fases do projeto de pesquisa. Nos próximos experimentos, em que as patentes serão avaliadas individualmente, as etapas metodológicas que se destacaram, neste trabalho, poderão ser implementadas e analisadas.

O elevado número de bases digitais de patentes e a necessidade de identificar informações que possam ser transformadas em conhecimento inovador têm despertado o interesse de pesquisa da comunidade acadêmica. Além das bases de patentes disponibilizadas pelos escritórios gerenciadores de patentes, muitas bases amostrais são criadas em eventos científicos para incentivar a prática de experimentos associados aos processos de categorização, de classificação e de recuperação de informação. Neste contexto, este artigo espera contribuir com as áreas de organização da informação e de descoberta de conhecimento relacionado à informação contida nos inúmeros documentos de patentes disponíveis digitalmente.

Agradecimentos  Esta pesquisa é financiada pelo Fundo de Incentivo à Pesquisa (FIP/PUC Minas). Agradecemos a pesquisadora Andressa Castro pela relevante contribuição.

Page 196: Anais do SMSI 2016

Referências  Alberts, D., Yang, C. B., Fobare-Deponio, D., Koubek, K., Robins, S., Rodgers, M.,

Simmons, E. e Demarco, D. (2011) Introduction to Patent Searching. In: M. Lupu, J. Tait, K. Mayer e A. J. Trippe (Eds.), Current Challenges in Patent Information Retrieval (pp. 3-44). Springer.

Baeza-Yates, R. e Ribeiro Neto, B. (1999) Modern Information Retrieval. ACM Press: New York.

Camus, C, e Brancaleon, R. (2003) Intellectual assets management: from patents to knowledge. World Patent Information, v. 25, p. 155-159.

Gardner, J. J. e Xiong, L. (2009) Automatic link detection: A sequence labeling approach. In: Proceedings of the 18th ACM Conference on Information and Knowledge Management, New York, p. 1701-1704.

He, J. e Rijke, M. de (2010) A ranking approach to target detection for automatic link generation. In; Proceedings of the 33rd International ACM SIGIR Conference on Research and Development in Information Retrieval, New York, p. 831-832.

Hufker, T. e Alpert, F. (1994) Patents: a Managerial Perspective. Journal of Product and Brand Management, v. 3, n. 4, p. 44-54.

Lee, S., Yoon, B. e Park, Y. (2009) An approach to discovering new technology opportunities: Keyword–based patent map approach. Technovation, v. 29, p. 481-497.

Leydesdorff, L. (2004) The University-Industry Knowledge Relationship: Analyzing Patents and the Science Base of Technologies. Journal of the American Society for Information Science and Technology, v. 55, n. 11, p. 991-1001.

Manning, C. D. e Schütze, H. (1999) Foundations of Statistical Natural Language Processing. MIT Press, Cambridge, MA, USA.

Markellos, K., Perdikuri, K., Markellou, P., Sirmakessis, S., Mayritsakis, G. e Tsakalidis, A. (2002) Knowledge Discovery in Patent Databases. In: Proceedings of the eleventh International Conference on Information and Knowledge Management (CIKM’02). New York, USA.

Meireles, M. R. G.; Ferraro, G. e Geva, S. (2016) Classification and Information management for patent collections: a literature review and some research questions. Information Research, v. 21, p. 705.

Mihalcea, R. e Csomai, A. (2007) Wikify!: Linking documents to encyclopedic knowledge. In: Proceedings of the 16th ACM Conference on Information and Knowledge Management, New York, p. 233-242.

Powers, D. M. W. (2007) Evaluation: From Precision, Recall and F-Factor to ROC, Informedness, Markedness & Correlation. Technical Report SIE- 07- 001, Adelaide, Australia.

United States of Patent and Trademark Office. http://www.uspto.gov/.  

Page 197: Anais do SMSI 2016

Utilizando entidades na criacao de descritorespara avaliar a qualidade de recomendacoes de novos

itens no problema de Cold Start

Andrey Leonardo de Paula1, Wladmir Cardoso Brandao1, Rodrigo Richard Gomes1

1Pontifıcia Universidade Catolica de Minas Gerais

[email protected],{wladmir, richard}@pucminas.br

Abstract. The e-commerce market has growth in the recent years and every dayhundred of new products are placed to sell worldwide and is necessary to findsome way to offer these products to the users. To do this work we use Recom-mender Systems. In some cases the new items cannot be recommended to theusers because there is not enough information about the item or the user. Thispaper will talk about the New Items Cold Start problem and the objective is touse entities to create high quality describers for these items aiming raise thequality and precision of recommendation.

Resumo. O mercado de comercio online tem crescido nos ultimos anos e di-ariamente uma enorme quantidade de novos produtos sao colocados a vendaem todo o mundo e de algum modo esses produtos precisam ser ofertados aosusuarios. Para isso sao utilizados os Sistemas de Recomendacao. Entretanto,em alguns casos os novos itens nao conseguem chegar aos usuarios pois nao hainformacoes suficientes sobre o item ou sobre o usuario. Esse trabalho tratarao problema de Cold Start de novos itens e tem como objetivo utilizar entidadespara criar descritores de maior qualidade para os itens, visando aumentar aqualidade e a precisao das recomendacoes.

1. IntroducaoHoje a internet nao e apenas uma fonte de consultas onde o usuario busca por algo

e tem apenas o retorno daquilo que ele procura. Ao procurar algo em um mecanismode busca, recebem-se centenas de resultados relacionados a consulta realizada e diver-sas sugestoes de itens, produtos e conteudos, que possam interessar ao usuario, baseadosno que esta sendo procurado. Ao, por exemplo, realizar uma consulta por ”Brasil”, emum mecanismo de busca qualquer, para descobrir informacoes sobre o paıs (por exem-plo: qual e a capital, quem e o presidente, quantos habitantes e extensao territorial), po-dem tambem aparecer recomendacoes de hoteis, passagens aereas, alugueis de carros epasseios turısticos. Os responsaveis por criar essas recomendacoes para o usuario saoos Sistemas de Recomendacao. Eles sao responsaveis por recomendar produtos, itens,servicos e conteudos baseando-se em varios aspectos sobre o usuario. Para citar algunsdesses aspectos, eles podem, por exemplo, recomendar baseando-se nas preferencias denavegacao, no gosto, nas atividades online e nos historicos de buscas do usuario. Os doistipos mais comuns de recomendacao sao a baseada em conteudo e a baseada em filtragemcolaborativa [J. Leskovec e Ullman 2014]. Um problema que pode acontecer e o de asrecomendacoes nao serem precisas e estarem de acordo com o gosto e as necessidades

Page 198: Anais do SMSI 2016

do usuario. Assim o usuario pode trata-las como spam e as recomendacoes acabam setornando irrelevantes. Quando esse problema ocorre, porque o sistema de recomendacaonao tem conhecimento sobre o usuario ou sobre os itens ao qual se esta recomendando,ele e chamado de problema de Cold Start. Este problema se divide em tres categorias:nova comunidade, novo usuario e novo item, sendo que esta ultima categoria e o objetode estudo neste trabalho.

O problema de cold start de um novo item e visto como um estudo de grande im-portancia porque hoje plataformas online publicam centenas de novos itens todos osdias e e necessaria uma recomendacao efetiva para esses itens, pois isso ajuda a man-ter o interesse dos usuarios. Atualmente a abordagem mais utilizada para recomendacaode itens e a filtragem colaborativa, mas nessa abordagem um item precisa ser avali-ado pelo maior numero possıvel de usuarios para que a recomendacao tenha uma pre-cisao satisfatoria e seja de fato efetiva [Saveski e Mantrach 2014]. Algumas outrasabordagens sao propostas para esse problema como o uso de identificacao de clas-sificadores representativos [Choi e Han 2013], analise semantica de dados textuais ex-ternos [C. Krauss e Arbanowski 2014] e Local Collective Embeddings (traducao livre:incorporacao coletiva local) [Saveski e Mantrach 2014].

O objetivo desse trabalho e investigar se ha melhora na qualidade das recomendacoescom a insercao de descritores aos novos itens. Foram extraıdos descritores para os novositens a partir de entidades e entao foi avaliada a precisao e a qualidade das recomendacoes,comparando os resultados obtidos antes e apos a insercao dos descritores extraıdos dasentidades. As entidades sao paginas na Web que possuem informacoes adicionais sobreos itens ao qual se esta sendo feita a consulta e e de onde serao extraıdos os descrito-res. Descritores sao caracterısticas extraıdas de um conjunto de informacoes que melhordescrevem um item.

Este estudo propoe uma abordagem que utiliza entidades acessadas apos consultasfeitas em um mecanismo de buscas ou acessadas atraves de APIs, para criar ou adicionardescritores complementares a novos itens para melhorar o significado destes itens. APIe a abreviacao para Application Programming Interface ou Interface de Programacao deAplicacoes no portugues, que representam funcoes ou metodos de aplicacoes que saodisponibilizados para que outros desenvolvedores utilizem de forma transparente, sem teracesso direto ao codigo fonte. Utilizando a recomendacao baseada em conteudo para fazerrecomendacoes de novos itens aos usuarios, basea-se nos novos descritores gerados paraavaliar o aumento da qualidade das recomendacoes de novos itens. Foram gerados dadosbaseados em avaliacoes feitas antes e apos a adicao dos novos descritores e esses dadosforam analisados para dar uma conclusao sobre os resultados obtidos na recomendacoesde itens em cold start utilizando essa abordagem.

O restante deste trabalho esta organizado da seguinte forma. A Secao 2 apresenta oreferencial teorico usado neste trabalho, a Secao 3 descreve a metodologia aplicada, aSessao 4 descreve os resultados e a Sessao 5 descreve a conclusao e trabalhos futuros.

2. Referencial TeoricoC. Anderson (2006) em The Long Tail diz: ”estamos deixando a era da informacao e

entrando na era da recomendacao”.

Com o crescimento constante da Internet o usuario passou a ter um papel diferente no

Page 199: Anais do SMSI 2016

seu uso, deixando de ser apenas um consumidor e tornando-se um gerador de informacao.Informacao que e gerada em uma escala que nao pode ser consumida totalmente pelosusuarios. Porem varias dessas informacoes estao dispersas e sao perdidas por uma seriede fatores: falta de organizacao, falta de identificacao adequada, descricoes que nao re-presentam totalmente o conteudo, dentre outros fatores. Existe uma imensa quantidadede informacoes uteis e inuteis misturadas e e necessario separa-las para um melhor apro-veitamento delas. Visando essa necessidade surgiram os Sistemas de Recomendacao.

2.1. Sistema de RecomendacaoUm Sistema de Recomendacao (SR) consiste em um sistema que utiliza diversas tec-

nologias e pode ser classificado basicamente em dois grupos: Recomendacao Baseada emConteudo e Recomendacao por Filtragem Colaborativa [J. Leskovec e Ullman 2014]. Narecomendacao baseada em conteudo, recomendam-se itens baseado no perfil de com-pras, de navegacao, de busca e tambem em avaliacoes de itens feitas pelo o usuariono passado [Saveski e Mantrach 2014]. Essa abordagem pode ser vista, por exem-plo, na plataforma Netflix.Na recomendacao por filtragem colaborativa recomendam-seitens baseado no que outros usuarios com gostos similares compraram ou avaliaram[Saveski e Mantrach 2014]. Esse tipo de abordagem pode ser vista principalmente emlojas virtuais como, por exemplo, o Amazon.

A origem dos SRs pode ser rastreada nos trabalhos extensivos de ciencia cognitiva,teoria da aproximacao, recuperacao de informacao, teoria de previsao e em modelos deescolhas do consumidor em marketing [M. Albanese 2013]. Algumas dessas areas estaodiretamente relacionadas ao comportamento humano. Visto que a principal funcionali-dade de um SR e reconhecer padroes e habitos do usuario e tentar prever o que o ele quer,fica clara a relacao entre essas areas. Na Web, ha uma quantidade enorme de servicos quefazem uso de aplicacoes que necessitam predizer as necessidades e escolhas do usuario eos SRs sao utilizados para recomendar produtos, servicos e informacoes para prover umaexperiencia personalizada aos usuarios. Para prover essa experiencia personalizada e amelhoria na qualidade da recomendacao, exige-se cada vez mais informacoes pessoaisdos usuarios. [Resnick e Varian 1997] levantam um problema relacionado a privacidadeem seu trabalho. Tal fato nos leva a questao: sera que as pessoas estao dispostas a darmais informacoes sobre elas? Se estiverem, como esses dados serao armazenados de ma-neira que possamos garantir a integridade e confidencialidade dos mesmos? Isto pode serobservado como um problema de seguranca de informacao e e algo a ser considerado masnao sera tratado neste trabalho.

2.2. Trabalhos RelacionadosExistem abordagens que visam melhorar a qualidade das recomendacoes na

presenca do problema de cold start como a abordagem hıbrida proposta por[B. Scholz 2012] usando a Filtragem Colaborativa e a Recomendacao Baseada emConteudo [Saveski e Mantrach 2014]. Essa abordagem leva em consideracao a ideia deque pessoas com um perfil especıfico terao interesse sempre nos mesmos tipos de itens.Com essa abordagem foram obtidos bons resultados que resolveram parcialmente o pro-blema de cold start de novos usuarios. Esse metodo so foi efetivo em uma base de dadosmenor que 10 mil usuarios. Ao expandir para uma base de dados proxima a 1 milhao deusuarios o metodo nao foi efetivo como esperado. Apesar dos resultados serem basea-dos em novos usuarios, o metodo pode ser aplicado para novos itens. Outra abordagem

Page 200: Anais do SMSI 2016

apresentada por [C. Krauss e Arbanowski 2014] e a analise de opinioes e sentimentos dosusuarios em redes sociais. Nesta abordagem sao extraıdas palavras chaves que subse-quentemente sao mapeadas com as propriedades dos itens e entao calcula-se um valor deassociacao entre os usuarios e o item para fazer a recomendacao. A abordagem principale fazer uma analise automatica da semantica na qual, independentemente da complexi-bilidade da sentenca, elas sao tratadas como sentencas estruturadas de palavras. Atravesdisso e possıvel utilizar os dados extraıdos das redes sociais para recomendar itens para ousuario assim que ele se conecta pela primeira vez em um servico, desde que ele utilizeuma contas de rede social. Nesse estudo a qualidade da recomendacao depende da ati-vidade do usuario na rede social a qual ele participa, quando mais curtidas, postagens ecomentarios, maior sera a qualidade das recomendacoes feitas a ele.

O foco deste trabalho e tratar do problema de cold start para novos itens usando umaabordagem que consiste em alterar ou inserir descritores em novos itens utilizando entida-des para enriquecer as informacoes. Utilizando a Recomendacao Baseada em Conteudo[Saveski e Mantrach 2014], os itens com descritores de maior qualidade poderao garantiruma precisao maior na recomendacao dos novos itens.

3. Metodologia3.1. Implementacao

Para esse estudo foi implementado um SR utilizando a linguagem de programacaoRuby (Versao 2.2.2) [Flanagan e Matsumoto 2008] que e uma linguagem baseada emscript e a biblioteca Predictor (Versao 2.0) [Pathgather 2015]. A biblioteca armazenarem uma matriz a quantidade de vezes que a relacao entre dois itens ocorre, por exem-plo,usuario x item. Apos armazenar a quantidade de vezes que as relacoes ocorremcalcula-se a distancia entre eles atraves do Coeficiente de Similaridade de Jaccard paraencontrar similaridades entre os itens, por exemplo, quais quais filmes possuem os mes-mos generos. O coeficiente de similaridade de Jaccard, tambem conhecido como ındicede Jaccard, e um modelo estatıstico criado por Paul Jaccard (1868-1944) e publicado em1901, que e usado para comparar similaridades e diversidade em grupos amostrais. Paraisso e necessario determinar quais pares serao armazenados na matriz e o peso de ativacaode cada relacionamento. O peso e utilizado para definir o nıvel de importancia de cadaitem no calculo da similaridade. Quanto maior o peso maior sera a importancia daqueleitem na matriz. Os pares definidos nesse trabalho foram usuarios:filme, avaliacoes:filme,generos:filme, classificacoes:filme e descritores:filme. A biblioteca armazena as simila-ridades no Redis [Redislabs 2016b] que e um servidor de estrutura de dados em memoriaRAM, o que resulta em melhor desempenho ao realizar os calculos e as buscas das simi-laridades.

Foi utilizada uma base de dados de filmes do GroupLens [GroupLens 2016] com10.329 filmes, 105.339 avaliacoes feitas por 668 usuarios. A versao utilizada e ”Small:100,000 ratings and 6,100 tag applications applied to 10,000 movies by 700 users. Lastupdated 1/2016”. As bases de dados do GroupLens sao utilizadas em diversos trabalhosrelacionados a sistemas de recomendacao e cold start como pode ser visto nos trabalhosde [M. Albanese 2013, B. Scholz 2012, Choi e Han 2013, Xuan Nhat Lam 2008]. Paraeste estudo foram ignoradas as tags presentes na base. A base de dados do GroupLensnao possui dados sobre o perfil do usario e esse perfil foi criado artificialmente pela ferra-menta. Foram utilizadas tres bases de conhecimentos para acessar informacoes sobre os

Page 201: Anais do SMSI 2016

filmes e extrair os descritores: MoviesApi.com, OMDBApi.com e TheMovieDB.org. Todasforam acessadas diretamente por APIs publicas que retornam as informacoes dos filmesque estao disponıveis tambem nos respectivos Websites. Essas entidades externas prove-ram informacoes extras sobre os filmes de onde foram extraıdos os descritores utilizadosnesse estudo. Vale citar que a API do MoviesApi e uma API nao oficial do IMDB e todasas informacoes extraıdas dessa API sao as mesmas informacoes publicas encontradas naspaginas dos filmes do IMDB. A base de dados do GroupLens possui uma tabela com iden-tificadores dos filmes no IMDB e todas essas APIs recebem esses IDs como entrada parabusca de informacoes sobre os filmes e foram esses identificadores que foram utilizadospara buscar as informacoes sobre os filmes de onde foram extraıdos os descritores.

Foram analisados dois cenarios com os seguintes pesos de ativacao:

Cenario 1:

1. Usuarios: peso 32. Avaliacoes: peso 23. Generos: peso 14. Classificacao etaria: peso 15. Descritores: peso 1

Cenario 2:

1. Usuarios: peso 12. Avaliacoes: peso 13. Generos: peso 14. Classificacao etaria: peso 15. Descritores: peso 1

Os pesos do Cenario 1 foram definidos baseando-se na importancia dos relacionamen-tos no contexto da recomendacao. Foram testadas algumas variacoes nos pesos, comopor exemplo dando mais peso para os generos, porem a recomendacao se tornou ten-denciosa para filmes que continham apenas os mesmos generos e tornou os resultadosdas recomendacoes imprecisos em varias ocasioes. Essa distribuicao de peso adotada le-vou a recomendacoes mais balanceadas, pois basea-se principalmente no perfil de filmesque o usuario tem relacao e em filmes que possuem avaliacoes parecidas com as que ousuario submeteu. Ao mesmo tempo da enfase aos relacionamentos com pesos menores.O Cenario 2 e um cenario neutro onde todos os relacionamentos possuem a mesma im-portancia, foi avaliado esse cenario para analisar o impacto dos pesos dos relacionamentosno problema de cold start e o quanto pode influenciar os resultados.

Para extrair os descritores foi escrito um script em Ruby que processa as informacoescoletadas das entidades externas e extrai dessas informacoes todos os descritores quepossam dar um melhor sentido ao item excluindo as stopwords. Stopwords sao as palavrasmais comuns em um texto e que aparecem repetidas vezes. Elas sao filtradas para naoserem processadas durante a extracao dos descritores. Foi utilizada uma lista do Ranks NL[Doyle 2015] que possui 665 termos em ingles considerados stopwords. Apos a extracaofoi feita a classificacao dos descritores de acordo com a frequencia do termo (TF - termfrequency) onde considera-se a quantidade de vezes que um descritor apareceu em cadaentidade individualmente. Nessa classificacao os descritores que mais aparecem ficam nasprimeiras posicoes. Apos feita a classificacao por TF e necessario combinar os descritoresde cada entidade e gerar uma classificacao unica de onde serao extraıdos os 10 melhoresdescritores. Para realizar a combinacao e considerada a posicao em que cada descritoraparece na classificacao por TF em sua respectiva entidade e segue-se a logica exibida naFigura 1:

1. Soma-se as posicoes em que cada descritor aparece nas classificacoes.

Page 202: Anais do SMSI 2016

Figura 1. Metodo de combinacao dos descritores

2. Se o descritor nao aparece em uma classificacao e somado o valor da maiorposicao em que ele apareceu mais 1.

Dessa maneira os descritores com menor valor apos a combinacao sao os descritores quepossuem maior relevancia e serao os primeiros na nova classificacao combinada.

Apos a combinacao dos descritores foram associados aos filmes os 10 melhores des-critores. Ha uma tabela no banco de dados onde sao salvos os descritores e feita umarelacao NxN atraves de uma tabela de ligacao. Quando filmes possuem o mesmo descri-tor, adiciona-se o descritor uma unica vez a tabela e esse descritor e relacionado a todosos filmes a qual ele pertence. Com todos os descritores criados eles sao adicionados amatriz de similaridade e onde e feito o calculo baseando-se no peso de ativacao definidopara o relacionamento dos descritores.

A implementacao do SR foi realizada inicialmente utilizando uma configuracao padraoda biblioteca o que ocasionou em um longo tempo para processamento para a geracao damatriz. Foram necessarias mais de 30 horas para gerar as similaridades com os relacio-namentos de cada cenario. Apos alguns ajustes indicados na documentacao da bibliotecae melhorias no algoritmo, esse tempo foi reduzido para pouco mais de 2 horas. Essamelhoria no desempenho se deu tambem a utilizacao do Hiredis [Redislabs 2016a], comoindicado na documentacao do Predictor, que e uma biblioteca em C para o Redis que ajudalinguagens de alto nıvel, como Ruby, a enviar e receber comandos ao Redis de maneiramais rapida e eficiente, pois, desacopla os comandos enviados e recebidos da camada deentrada e saıda. Outra alteracao realizada foi a utilizacao de Lua script [PUC-Rio 2015]ao inves do script padrao em Ruby da biblioteca para realizar o processamento dos da-dos na geracao da matriz. Lua e uma linguagem de script para programacao proceduraldesenvolvida no Brasil pela PUC-Rio [R. Ierusalimschy e Celes 2007].

3.2. Metricas

Para a aplicacao da metodologia proposta foram selecionados um total de 63 usuariosaleatoriamente pelo algoritmo criado para essa finalidade. O algoritmo utiliza o metodosample(:int) do Ruby que retorna uma quantidade de itens de um array (arr1) aleatoria-mente de acordo com o valor passado por parametro criando um novo array (arr2) com osvalores retornados. Foi realizada uma iteracao no arr2 e foi escolhida uma avaliacao feitapor cada usuario retirando de um grupo chamado de ’Melhores Avaliacoes’, que consistenas melhores avaliacoes dadas pelo usuario aos filmes. As notas das avaliacoes vao de

Page 203: Anais do SMSI 2016

0 a 5 com intervalos de 0.5 pontos. Para selecionar a melhor avaliacao de cada usuariofoi levado em conta, por exemplo, se o usuario possuir 10 avaliacoes com nota 5 apenasuma das 10 avaliacoes de 5 pontos sera removida de maneira aleatoria. Para definir quaiseram as melhores avaliacoes realizadas pelo usuario foi calculada uma media das notasdadas aos filmes pelo usuario e somente as avaliacoes que estavam acima dessa mediaforam utilizadas. Do filme selecionado foram removidas todas as avaliacoes recebidas etodos os seus descritores da base de dados e da matriz para criar um caso de cold startdo item sem descritores. Em um arquivo de texto foram salvos os IDs dos usuarios queforam selecionados junto com os IDs dos respectivos filmes que foram removidos de cadausuario e desses dados foram feitas as analises iniciais.

Foi verificado se o filme removido esta sendo recomendado ao usuario ao qual ofilme estava vinculado e qual a posicao inicial desse filme na lista de recomendacoes nacondicao de cold start. A posicao inicial do filme foi registrada em um arquivo de resulta-dos e em seguida foram gerados e adicionados descritores ao filme e a matriz. Com os des-critores gerados e adicionados a matriz foram verificadas novamente as recomendacoespara cada usuario e registradas as posicoes em que o filme relacionado a cada um delesapareceu com os descritores. Essa posicao foi registrada no arquivo de resultados paraposteriormente serem realizadas as analises.

Para a analise dos resultados foram utlizados percentis para normalizar o tamanho daslistas de recomendacao de cada usuario para 100. Os itens terao posicao relativa nesta listade recomendacao. As posicoes que os itens aparecem no arquivo de resultados gerado nostestes sao as posicoes absolutas.

4. ResultadosOs resultados estao demonstrados na Figura 2 e Figura 3. A Figura 2 representa os

resultados do Cenario 1 e a Figura 3 representa os resultados do Cenario 2. Nos graficossao demonstradas as mudancas de posicoes relativas obtidas pelos filmes apos inserir osdescritores. O eixo Y sao as mudancas nas posicoes relativas do item em uma escala de 0a 100 e o eixo X sao a quantidade de itens. Os experimentos realizados demonstraram queessa abordagem foi capaz de gerar mundancas nas posicoes na recomendacao de novositens no problema de cold start.

No Cenario 1 pode-se observar que mesmo o relacionamento com os usuarios e comas avaliacoes possuindo um peso maior, ha mundancas consideraveis nas posicoes dositens recomendados. Em alguns casos o Cenario 1 apresentou resultados superiores aosresultados do Cenario 2, cenario que todos os relacionamentos possuıam o mesmo peso.Porem no Cenario 2 e possıvel notar uma dispersao maior das mudancas e o numero mediofica em 25,33 posicoes alteradas por item enquanto no Cenario 1 as posicoes alteradasficaram mais agrupadas com uma mudanca media de 23,73 posicoes por item. Analisandoos resultados atraves da mediana no Cenario 2 o resultado obtido nota-se uma mudancade 25 posicoes por item enquanto no Cenario 1 a mundanca obtida sao de 22 posicoes poritem.

A amostra total sao de 63 usuarios mas no grafico do Cenario 1 estao representados 57usuarios e no grafico do Cenario 2 estao representados 56 usuarios. Isso ocorre devido aum caso especial que merece ser citado e estes resultados estao representados na Tabela 1e Tabela 2. Deste caso especial sao 6 usuarios do Cenario 1 representados na Tabela 1 e 7

Page 204: Anais do SMSI 2016

Figura 2. Resultados do Cenario 1

Figura 3. Resultados do Cenario 2

usuarios representados do Cenario 2 representados na Tabela 2. Alguns itens ao passarempara o estado de cold start nao foram recomendados antes da insercao dos descritorese so passaram a ser recomendados apos a insercao dos descritores. Nao foi possıvelutilizar percentis para avaliar a mudanca de posicoes desses itens pois nao havia umareferencia da posicao anterior a insercao dos descritores. Para esses itens foi consideradaa posicao absoluta para avaliar a mudanca da posicao da recomendacao apos a insercaodos descritores. Esses resultados podem ser observados na Tabela 1 e Tabela 2. E possıvelnotar que os itens nas tres ultimas posicoes obtiveram resultados parecidos em amboscenarios, com itens que nao eram recomendados em estado de cold start e que passaram aser recomendados mas com uma mudanca menor nas posicoes em relacao ao outros itensna mesma situacao. No Cenario 1 houve uma mudanca media de 3049,16 posicoes poritens enquanto no Cenario 2 a mudanca media foi mais que o dobro, atingindo 6730,57posicoes por item.

Page 205: Anais do SMSI 2016

Tabela 1. Cenario 1 - Itens nao recomendados antes de adicionar descritores(Posicao absoluta)

FilmeID Tam. da Lista (A) Pos. Antes Pos. Depois (B) Mud. de Pos. (A-B)162 3324 N/A 2021 1303

1193 1384 N/A 308 10764995 1270 N/A 614 656

79132 1298 N/A 1285 131246 2270 N/A 2263 71201 1708 N/A 1708 0

Tabela 2. Cenario 2 - Itens nao recomendados antes de adicionar descritores(Posicao absoluta)

FilmeID Tam. da Lista (A) Pos. Antes Pos. Depois (B) Mud. de Pos. (A-B)923 4192 N/A 2219 1973162 4350 N/A 2577 1773

1193 1751 N/A 95 1656253 1455 N/A 128 1327

79132 1530 N/A 1519 111201 1947 N/A 1947 01246 2328 N/A 2328 0

5. Conclusao e Trabalhos FuturosO objetivo desse trabalho foi o de investigar o potencial de melhoria na qualidade das

recomendacoes com a insercao de descritores extraıdos de entidades em novos itens. Aabordagem proposta se baseia na ideia de que novos itens possuirao entidades externas deonde serao extraıdos os descritores para que ele seja eficaz. Os testes aplicados mostraramresultados positivos para serem utilizados como uma alternativa para resolver o problemade cold start de novos itens. Um problema nesta abordagem esta relacionado a adicao denovos itens a matriz de similaridade, pois conforme a base de dados cresce, o tempo paraprocessar a similaridade de um novo item adicionado cresce exponencialmente. Existemestrategias que podem ser adotadas para contornar esse problema, como processar assimilaridades dos novos itens somente uma vez por dia em horarios de pouco acessoa aplicacao. Os trabalhos restantes que deverao ser realizados serao o de analisar seadicionar mais descritores leva a melhores recomendacoes, fazer um estudo comparativoentre essa abordagem e uma abordagem estado da arte de cold start e por fim analisaruma abordagem hıbrida da recomendacao baseada em conteudo e filtragem colaborativase essa abordagem pode levar a melhores resultados.

ReferenciasB. Scholz, e. a. (2012). A recommendation system based on a subset of raters. ICUIMC

’12: Proceedings of the 6th International Conference on Ubiquitous Information.

C. Krauss, S. B. e Arbanowski, S. (2014). Preference ontologies based on social mediafor compensating the cold start problem. SNAKDD-2014.

Page 206: Anais do SMSI 2016

Choi, S.-M. e Han, Y.-S. (2013). Identifying representative ratings for a new item inrecommendation system. ICUIMC-2013.

Doyle, D. (2015). Ranks NL Webmaster Tools. Disponıvel em:http://www.ranks.nl/stopwords Acesso em 16 mai. 2016.

Flanagan, D. e Matsumoto, Y. (2008). The Ruby Programming Language. O’ReillyMedia.

GroupLens (2016). MovieLens. Disponıvel em: http://grouplens.org/datasets/movielens/Acessado em 11 jan. 2016.

J. Leskovec, A. R. e Ullman, J. D. (2014). Mining of Massive Datasets. digital book.

M. Albanese, e. a. (2013). A multimedia recommender system. ACM Transactions onInternet Technology, 13(1).

Pathgather (2015). Predictor. Disponıvel em: https://github.com/Pathgather/predictorAcessado em 10 mar. 2016.

PUC-Rio (2015). Lua: Documentation. Disponıvel em: https://www.lua.org/docs.htmlAcessado em 16 mai. 2016.

R. Ierusalimschy, L. H. d. F. e Celes, W. (Jun.2007). The evolution of lua. HOPL III:Proceedings of the third ACM SIGPLAN conference on History of programming lan-guages, pages 56–58.

Redislabs (2016a). HIREDIS. Disponıvel em: https://github.com/redis/hiredis Acessadoem 16 mai. 2016.

Redislabs (2016b). Redis. Disponıvel em: http://redis.io Acessado em 10 mar. 2016.

Resnick, P. e Varian, H. R. (Mar.1997). Recommender systems. Communications of theACM, 40(3):56–58.

Saveski, M. e Mantrach, A. (2014). Item cold-start recommendations: Learning localcollective embeddings. RecSys ’14: Proceedings of the 8th ACM Conference on Re-commender systems, pages 89–96.

Xuan Nhat Lam, e. a. (Jan.2008). Addressing cold-start problem in recommendationsystems. ICUIMC ’08: Proceedings of the 2nd international conference on Ubiquitousinformation, pages 208–211.

Page 207: Anais do SMSI 2016

Diretrizes de User Experience para Avaliação do Modelo de

Interface e Interação de Aplicativos Móveis

Hian Neiva1, Glívia A. R. Barbosa

1, Ismael S. Silva

1, Flávio R. S. Coutinho

1

1Centro Federal de Educação Tecnológica de Minas Gerais

[email protected], [email protected],

[email protected], [email protected]

Abstract. The popularity of mobile applications, as well as the variety of

domains of existing applications, create challenges related to the design and

interface evaluation of these systems. That's because designers should to

maximize the satisfying experience of using these applications for a variety of

users. Motivated by this demand, this paper presents a set of guidelines for

evaluating the user experience (UX) in mobile applications. The evaluation of

the guidelines proposed allowed to demonstrate its relevance from the

perspective of experts, as well as its efficiency to evaluate the UX applications

when compared to other approaches in the literature.

Resumo. A popularização dos aplicativos móveis, bem como a variedade dos

domínios de aplicativos existentes, geram desafios relacionados ao projeto e à

avaliação de interface e interação desses sistemas. Isso porque os projetistas

devem potencializar a experiência satisfatória de uso dessas aplicações para

uma diversidade de usuários. Motivados por essa demanda, este trabalho

apresenta um conjunto de diretrizes para avaliar a experiência do usuário

(UX) em aplicativos móveis. A avaliação das diretrizes propostas permitiu

demonstrar sua relevância sob a perspectiva de especialistas, bem como sua

eficiência para avaliar a UX dos aplicativos quando comparadas a outras

abordagens presentes na literatura.

1. Introdução

A popularização do uso de dispositivos móveis abre espaço para que uma variedade de

aplicativos seja disponibilizada para os usuários. A grande adoção e a variedade de

domínios desses aplicativos, bem como a diversidade de usuários dessas tecnológicas

móveis se apresentam como um novo desafio para pesquisadores e desenvolvedores da

Computação. Isso porque torna-se necessário potencializar a experiência satisfatória de

uso para os diferentes tipos de usuários de aplicativos móveis [de Oliveira et al. 2012].

Com o intuito de maximizar a experiência do usuário, do inglês User Experience

(UX) [Norman e Nielsen, 2013], diretrizes e/ou princípios (também conhecidas como

heurísticas) de qualidades de uso têm sido propostas para auxiliar no desenvolvimento

e/ou avaliação de aplicativos móveis [Feijó et al., 2013][Apple, 2016][Google, 2016].

Esse tipo de iniciativa é extremamente relevante uma vez que essas diretrizes/heurísticas

visam guiar pesquisadores e desenvolvedores na apreciação de sistemas interativos

[Preece et al., 1994].

Page 208: Anais do SMSI 2016

Contudo, a maioria das diretrizes propostas para esse contexto descrevem apenas

aspectos de usabilidade para os aplicativos, não contemplando outras qualidades de uso

que também potencializam a UX, como comunicabilidade e acessibilidade (e.g., [Feijó

et al., 2013][Knoll, 2014]). Assim como as principais empresas que disponibilizam

aplicativos móveis em suas plataformas (e.g., iOS e Android) divergem em seu conjunto

de diretrizes, de modo que o mesmo aplicativo apresente funcionalidades e interfaces

diferentes de acordo com o sistema operacional em que está sendo executado [Apple,

2016][Google, 2016]. Essa distinção pode comprometer a experiência satisfatória do

usuário que terá que lidar com modelos de interações distintos para o mesmo aplicativo

de acordo com o sistema operacional [de Oliveira et al. 2012].

Motivados por esse cenário, o objetivo deste trabalho consiste em apresentar um

arcabouço de diretrizes de user experience (UX) para a avaliação de aplicativos móveis,

de modo a contemplar não apenas princípios de usabilidade, mas também outras

qualidades de uso consideradas relevantes para maximizar a experiência satisfatória dos

usuários durante a interação com esses aplicativos e que, além disso, se aplique aos

diferentes sistemas operacionais.

A metodologia adotada para condução desse trabalho consistiu, inicialmente, em

realizar uma revisão bibliográfica para identificar as diretrizes de qualidade de uso,

disponíveis na literatura, específicas para aplicativos móveis e para outros tipos de

sistemas. A partir desses levantamentos, o conjunto de diretrizes de UX para aplicativos

móveis foi proposto e, posteriormente, avaliado sob a perspectiva de especialistas em

Interação Humano Computador (IHC) e quanto a sua eficiência para avaliação de

aplicativos móveis.

Em termos de resultados, esse trabalho apresenta um conjunto de diretrizes

propostas para a apreciação de aplicativos móveis quanto as suas propriedades de

experiência de uso (UX), além da avaliação de UX do aplicativo Hangouts1, utilizado

no estudo de caso para avaliar a eficiência das diretrizes propostas. Dessa forma, esse

trabalho apresenta contribuições científicas e práticas para a área. Isso porque o novo

conjunto de diretrizes de UX que poderá ser explorado por outros profissionais e

pesquisadores com intuito de validá-lo e/ou delimitar suas vantagens e desvantagens,

tanto no projeto quanto para a avaliação de interface de aplicativos móveis.

2. User Experience e Diretrizes para o Projeto e Avaliação de Interfaces A Experiência do Usuário (do inglês User Experience (UX)) está relacionada a como

um indivíduo se sente enquanto usuário de um produto, sistema ou serviço, e ao prazer e

à satisfação evocados no contato com esse artefato [Norman e Nielsen, 2013]. No

âmbito de soluções tecnológicas a UX é potencializada por propriedades que

caracterizam a qualidade de uso dos sistemas interativos [Norman e Nielsen, 2013].

Segundo Prates e Barbosa (2007), a incorporação dessas propriedades pode

variar de acordo com o objetivo e/ou domínio do sistema. Contudo, de forma geral,

independente do sistema, para que o apoio computacional de um software e/ou

aplicação seja satisfatório para o usuário, é desejável que o projetista comunique as suas

intenções e concepções através da interface projetada (i.e., comunicabilidade), remova

1 Hangouts - Aplicativo de mensagens instantâneas da Google

Page 209: Anais do SMSI 2016

os obstáculos que impedem o usuário de acessar e interagir com o mesmo (i.e.,

acessibilidade) e torne o uso adequado aos usuários alvo da aplicação (i.e., usabilidade).

Em outras palavras, para potencializar a UX o sistema deve prover, simultaneamente, as

respectivas propriedades de qualidade de uso: comunicabilidade, acessibilidade e

usabilidade [Prates e Barbosa, 2007].

Além dessas, que são consideradas essenciais para todos os tipos de

sistemas/aplicativos, outras propriedades têm sido incorporadas como estratégias para

motivar o uso contínuo dos diferentes domínios de sistemas/aplicativos. Por exemplo, a

colaboração e a sociabilidade que têm sido potencializadas em sistemas colaborativos, e

a gamificação, que tem sido utilizada em diferentes domínios de softwares para manter

os usuários engajados [de Oliveira et al. 2012].

Uma forma de caracterizar se essas propriedades foram implementadas no

projeto de interface e interação é através da apreciação do modelo de interface e

interação dos sistemas, que pode ser conduzida através da aplicação de métodos de

avaliação [Prates e Barbosa, 2003]. Dentre os métodos de avaliação de interface mais

difundidos entre os pesquisadores e profissionais da área de IHC, destacam-se aqueles

que propõem uma abordagem analítica para a avaliação [Prates e Barbosa, 2003].

Métodos de avaliação de interface analíticos (e.g., Avaliação Heurística,

Percurso Cognitivo, Avaliadores Automáticos de Acessibilidade), na maioria das vezes,

apresentam um baixo custo de aplicação por serem conduzidos por especialistas em IHC

que, ao interagirem com um sistema em avaliação, inspecionam a interface com o

intuito de identificar problemas ou estratégias de design. Durante esse tipo de avaliação,

os especialistas são guiados por um conjunto de atributos que descrevem as qualidades

de uso, também conhecidos como diretrizes e/ou heurísticas (e.g., “Consistência e

Padronização”, é uma diretriz que a interface deve seguir para favorecer a usabilidade;

“Manter alternativas textuais para elementos não textuais”, é uma diretriz para que a

interface potencialize a acessibilidade). O objetivo é verificar quais diretrizes estão

sendo atendidas e/ou violadas para atestar o grau de aderência do sistema em relação a

uma ou mais qualidades de uso (e.g., usabilidade, acessibilidade e/ou comunicabilidade)

[Prates e Barbosa, 2003].

Nielsen (1994) apresentou um conjunto de diretrizes, também conhecido como

as “10 heurísticas de usabilidade de Nielsen” para avaliar a usabilidade de sistemas

desktops. Ao criar esse conjunto, Nielsen (1994) destacou a importância dessa iniciativa

para potencializar a qualidade dos sistemas interativos e alertou que com a evolução

tecnológica, tais diretrizes deveriam ser adaptadas e/ou complementadas para atender

aos diferentes tipos de usuários, aos variados domínios de sistemas e as eventuais

qualidades de uso que poderiam surgir.

De fato, como advento e popularização da Web, como uma plataforma para as

tecnologias de informação e comunicação (TICs), as diretrizes de usabilidade foram

adaptadas para esse contexto, e novas diretrizes que contemplavam atributos para outras

qualidades de uso foram criadas (e.g., diretrizes de acessibilidade: Web Content

Acessibility Guidelines (WCAG), da W3C; de comunicabilidade, de UX para sistemas

Web) [Prates e Barbosa, 2003].

Seguindo essa tendência, a popularização e diversidade dos aplicativos móveis,

bem como a necessidade de criar soluções que potencializem a UX, abriram espaço para

a demanda de adaptar e/ou criar diretrizes de qualidades de uso direcionadas para o

projeto e avaliação desses aplicativos [de Oliveira et al. 2012][Norman e Nielsen,

Page 210: Anais do SMSI 2016

2013]. Na próxima seção, serão apresentados trabalhos que tem explorado essa

demanda.

3. Trabalhos Relacionados

Na literatura foi possível identificar alguns trabalhos que buscaram adaptar e/ou propor

diretrizes de qualidades de uso para o projeto ou a avaliação de aplicativos móveis. Em

Feijó et al. (2013) foi proposto um conjunto de diretrizes de usabilidade para avaliar

aplicativos móveis e, para verificar a eficiência desse conjunto, diversos aplicativos, de

diferentes domínios, foram avaliados seguindo as heurísticas de Nielsen (1994) e as

diretrizes propostas no trabalho em questão.

Durante a análise da eficiência, Feijó et al. (2013) também buscaram verificar se

havia limitações na avaliação heurística adaptada para smartphones quando aplicadas a

diferentes categorias de aplicativos. Os autores concluíram que os métodos de avaliação

atuais são capazes de avaliar sistemas mobile, mas apresentam limitações para lidar com

as particularidades de cada aplicativo, afetando assim a validade da apreciação. Por isso,

eles reforçam a importância de iniciativas que buscam propor diretrizes específicas para

projetar e avaliar aplicativos móveis [Feijó et al., 2013].

Por sua vez, Neto (2013) definiu um conjunto de diretrizes de usabilidade para o

desenvolvimento em ambientes móveis. Para isso, utilizou-se as heurísticas de Nielsen

(1994) e as recomendações para o design de interfaces disponibilizadas por empresas

detentoras de sistemas de dispositivos móveis (e.g., Apple, Google e Microsoft). A

metodologia de pesquisa incluiu brainstorming com especialistas, avaliação heurística e

teste com usuários. As diretrizes resultantes foram desenvolvidas através da união de

diretrizes individuais de cada fabricante e dos dados obtidos pelas avaliações e testes.

Já o trabalho realizado por Knoll (2014) apresentou um conjunto de diretrizes de

usabilidade para tablets. As diretrizes foram baseadas em três guias de estilo para

aplicativos em tablets: o iOS Human Interface Guidelines 2, Android Design Principles

3 e Windows Metro User Experience Design Principles

4 e nas heurísticas de Nielsen

(1994). Após uma análise, um mapeamento e a consolidação dessas diretrizes, um

checklist com os princípios para aplicações em tablets foi criado e sua eficiência foi

avaliada pelos autores.

Durante a avaliação da eficiência, Knoll (2014) observou que embora as

diretrizes propostas contemplem mais requisitos de usabilidade dos aplicativos para

tablets, quando comparadas às heurísticas de Nielsen (1994), elas não são capazes de

cobrir as particularidades das diferentes categorias desses aplicativos. Nesse sentido, os

autores concluem que as diretrizes de qualidade de uso para aplicativos móveis também

demandam por adaptações para que se tornem mais adequadas no processo de avaliação

dos diferentes domínios de aplicativos de modo a contemplar outras propriedades, que

não apenas a usabilidade [Knoll, 2014]

2 Apple. iOS Human Interface Guidelines. 2010. Disponível em: http://goo.gl/2aRpkW

3 Google. Android design principles. 2009. Disponível em: http://goo.gl/CHPRWv

4 Microsoft. 2011. User experience design principles. Disponível em: http://goo.gl/JGXhxz

Page 211: Anais do SMSI 2016

Os trabalhos descritos nessa seção apresentam diretrizes de usabilidade para o

projeto e/ou a avaliação de aplicativos móveis independente do domínio do aplicativo e

do sistema operacional em que ele será executado. Por essa razão, esses trabalhos foram

utilizados como insumo para criação do conjunto de diretrizes aqui proposto. Entretanto,

o presente trabalho se difere dos demais porque foca em reunir e apresentar um conjunto

de diretrizes que visa potencializar a UX dos aplicativos móveis, logo, ele não se limita

a propriedade de usabilidade. Em outras palavras, o arcabouço de diretrizes proposto

neste trabalho visa a melhoria da experiência do usuário contemplando as três principais

qualidades de uso, ou seja, a comunicabilidade, a acessibilidade e a usabilidade [Prates e

Barbosa, 2007]. A seguir, a metodologia adotada para condução do trabalho será

apresentada.

4. Metodologia

O presente trabalho foi conduzido por uma metodologia qualitativa dividida em quatro

etapas. A primeira etapa consistiu em um levantamento bibliográfico com o objetivo de

identificar as diretrizes de usabilidade, disponíveis e dispersas na literatura, específicas

para aplicativos móveis, bem como as diretrizes que visam potencializar a UX, mas que

não haviam sido adaptadas para o contexto de aplicativos móveis (e.g., diretrizes de

comunicabilidade e acessibilidade para sistemas desktop e Web).

A segunda etapa desse trabalho consistiu em propor o conjunto de diretrizes de

UX para avaliar o modelo de interação e interface de aplicativos móveis, a partir da

união (e.g., eliminação de ambiguidades e duplicidades), revisão e adaptação das

diretrizes levantas na etapa anterior. Nesta fase, as diretrizes que não haviam sido

originadas para o contexto de aplicativos móveis (i.e., criadas para sistemas desktop e

Web) foram adaptadas e/ou propostas para esse contexto a partir: (1) de reuniões do tipo

brainstorming com 05 usuários e 03 especialistas em IHC e (2) dos desafios e requisitos

de UX para aplicativos móveis apresentados por de Oliveira et al. (2012).

A terceira e quarta etapas consistiram na avaliação do conjunto de diretrizes aqui

proposto sob duas perspectivas. A primeira buscou verificar a relevância das diretrizes

para avaliar a UX de aplicativos móveis na perspectiva de especialistas em IHC (i.e.,

profissionais e/ou pesquisadores com mais de 05 anos de experiência nesta área).

Posteriormente, o conjunto de diretrizes foi avaliado quanto a sua eficiência para

apreciar a UX de aplicativos móveis. Para isso foi conduzido um estudo de caso

comparativo no aplicativo Hangouts. Nesta etapa o Hangouts foi avaliado por dois

grupos de especialistas em IHC, seguindo os passos da Avaliação Heurística (AH)

[Nielsen, 1994]. Nessas avaliações, um grupo de especialistas foi guiado pelo conjunto

de diretrizes de usabilidade para aplicativos móveis (disponível na literatura) e o outro

grupo pelo conjunto de diretrizes de UX para aplicativos móveis proposto neste

trabalho.

Ao fim das avaliações os resultados foram contrastados observando-se, além do

volume de problemas, se a avaliação guiada pelas diretrizes de UX apontaram

problemas que só poderiam ser identificados pelas diretrizes propostas neste trabalho.

Posteriormente, comparou-se os resultados a avaliação guiada pelas diretrizes propostas

e o resultado gerado a partir de testes com usuários. A seguir cada etapa da metodologia

será detalhada e seus principais resultados serão apresentados e discutidos.

Page 212: Anais do SMSI 2016

5. Levantamento das Diretrizes na Literatura

Com a pesquisa na literatura foram identificados três conjuntos de diretrizes de

propostos por Feijó et. al. (2013), Neto (2013) e Knoll (2014), especificamente para

avaliar a usabilidade de dispositivos móveis. Como uma mesma diretriz poderia ser

proposta por diferentes autores e considerando que a maioria delas é adaptação das

diretrizes de Nielsen (1994), foi necessário fazer um mapeamento das diretrizes

encontradas. O mapeamento consistiu em verificar, entre cada autor, quais diretrizes se

repetiam e/ou eram equivalentes e quais eram distintas.

A Tabela 1 apresenta o mapeamento e agrupamento dessas diretrizes, aqui

denominado Heurísticas Genéricas (HG) para Usabilidade de Aplicativos Móveis. Esse

mapeamento e agrupamento foram realizados por um dos autores deste trabalho com o

auxílio de um especialista em IHC (i.e., profissional e pesquisador da área com pelo

menos cinco anos de experiência).

Tabela 1. Heurísticas Genéricas para Usabilidade de Aplicativos Móveis

Cod. Nome Autores

HG1. Feedback imediato e fácil de ser notado Feijó et. al. (2013), Neto (2013) e Knoll (2014)

HG2. Adequação de mensagem à funcionalidade e ao usuário Feijó et. al. (2013) e Knoll (2014)

HG3. Visibilidade e acesso fácil às informações existentes Feijó et. al. (2013) e Knoll (2014)

HG4. Consistência e padrões Feijó et. al. (2013), Neto (2013) e Knoll (2014)

HG5. Prevenção de erros e retomada ao último estado estável Feijó et. al. (2013) e Knoll (2014)

HG6. Minimização da carga de memória do usuário Feijó et. al. (2013), Neto (2013) e Knoll (2014)

HG7. Facilidade de entrada de dados Feijó et. al. (2013), Neto (2013) e Knoll (2014)

HG8. Facilidade de acesso às funcionalidades Feijó et. al. (2013), Neto (2013) e Knoll (2014)

HG9. Ajuda e documentação Feijó et. al. (2013) e Knoll (2014)

HG10. Bom aproveitamento do espaço da tela Knoll (2014)

HG11. Regue incentivo Feijó et. al. (2013)

HG12. Conheça-me Feijó et. al. (2013) e Knoll (2014)

Com o levantamento realizado, pôde-se perceber que, embora exista na literatura

várias diretrizes de usabilidade para aplicativos móveis, não foram encontradas

propostas que contemplassem, especificamente, para esse domínio, outras qualidades de

uso que potencializam a UX, como por exemplo, diretrizes para a comunicabilidade e

acessibilidade.

Diante dessa lacuna, pesquisadores da área (e.g., de Oliveira et al. (2012) e

Norman e Nielsen (2013)), sugerem que as diretrizes de UX sejam concebidas a partir

de requisitos e/ou outras diretrizes/heurísticas de qualidades de uso aderentes ao

contexto de sistemas interativos. Isso porque, a UX é potencializada quando o modelo

de interface e interação dos sistemas/aplicativos maximizam, simultaneamente, as

qualidades de uso de comunicabilidade, acessibilidade e usabilidade [Prates e Barbosa,

2007].

Dessa forma, além do mapeamento das diretrizes de usabilidade especificas para

aplicativos móveis, o conjunto de diretrizes de UX proposto por esse trabalho, levou em

consideração requisitos e princípios de comunicabilidade e acessibilidade, já

consolidados, apresentados, respectivamente, por Pontes (2008) e pela iniciativa da

W3C (2014).

Page 213: Anais do SMSI 2016

6. Proposta do Conjunto de Diretrizes Avaliar UX em Aplicativos Móveis

A criação do conjunto de diretrizes de UX para avaliar o modelo de interação e interface

de aplicativos móveis, foi fundamentada nas heurísticas genéricas para aplicativos

móveis (HG), apresentadas na Tabela 1, por descreverem requisitos básicos de

usabilidade para a interface de qualquer tipo de aplicativo neste contexto, e nos

requisitos e diretrizes de comunicabilidade e acessibilidade que não haviam sido

originados especificamente esses aplicativos (i.e., criadas para sistemas interativos em

geral), propostos por Pontes (2008) e pela W3C (2014).

Para que essas diretrizes de comunicabilidade e acessibilidade identificadas

fossem adaptadas e incorporadas ao conjunto de diretrizes de UX aqui proposto, foram

realizadas 04 reuniões do tipo brainstorming durante o mês de março de 2015, com 05

usuários de aplicativos móveis (i.e., pessoas que utilizam aplicativos móveis

diariamente, a pelo menos 03 anos, para diferentes fins (e.g., sociais, entretenimento,

compras)) e 03 especialistas em IHC (mais de 05 anos de experiência no projeto e

avaliação de interface de aplicativos móveis).

A Tabela 2 mostra as 21 diretrizes de UX propostas para avaliar aplicativos

móveis. Nesta tabela é apresentado o código e o nome de cada diretriz e sua origem. A

origem foi separada entre três grupos: (1) Nova – diretriz integralmente criada para o

contexto de UX para aplicativos móveis; (2) Adaptada – diretriz adaptada pelos autores

a partir de outras existentes na literatura e (3) Reutilizada – diretriz que não sofreu

alteração em relação às diretrizes da Tabela 1.

É importante ressaltar que, embora existam diretrizes adaptadas de outras

existentes na literatura, elas também consistem em uma contribuição do conjunto

proposto nesse trabalho, uma vez que não foram originalmente reaproveitadas. Ao invés

disso, sofreram adaptações para contemplar especificidades do contexto de aplicativos

móveis.

Tabela 2. Conjunto de Diretrizes para Avaliação de UX de Aplicativos Móveis

Cod. Nome Origem

DM01. Contextualização ao Usuário e Adequação às Funcionalidades Nova

DM02. Tratamento de Erros e Auxílio ao Usuário. Nova

DM03. Feedback claro, imediato e informativo. Nova

DM04. Explicitar caminhos de interação Nova

DM05. Alternativas em Texto Adaptada

DM06. Interações com base em tempo Adaptada

DM07. Adaptável Adaptada

DM08. Discernível Adaptada

DM09. Acessibilidade Diversa e facilitada Nova

DM10. Design Responsável Adaptada

DM11. Navegável Reutilizada

DM12. Legível Reutilizada

DM13. Previsibilidade e consistência Nova

DM14. Compatível Reutilizada

DM15. Visibilidade e acesso fácil a toda informação existente Reutilizada

DM16. Minimização da carga de Memória do usuário Reutilizada

DM17. Facilidade de acesso às funcionalidades Reutilizada

DM18. Ajuda e documentação Reutilizada

DM19. Bom aproveitamento do espaço da tela Reutilizada

DM20. Interação Incentivadora Adaptada

DM21. Configuração Persistente Adaptada

Page 214: Anais do SMSI 2016

7. Relevância das Diretrizes de UX na perspectiva de Especialistas em IHC

Para identificar o grau de relevância do conjunto de diretrizes proposto foi aplicado um

questionário online para que especialistas em IHC. Através desse questionário o

participante deveria indicar, em uma escala de Fortemente Relevante, Relevante, Pouco

Relevante ou Irrelevante, a importância da diretriz diante do contexto para o qual ela foi

proposta. A aplicação do questionário ocorreu no período de duas semanas, durante o

mês de março de 2015. O mesmo foi divulgado por e-mails para os pesquisadores e

profissionais da área de IHC, com pelo menos 05 anos de experiência. Ao todo 16

especialistas participaram da pesquisa.

O gráfico da Figura 1 demonstra a relevância das diretrizes de UX propostas na

opinião dos especialistas. É possível observar que houve uma aceitação de mais de 70%

das diretrizes avaliadas. Sendo que, desse percentual de aceitação, 36% das diretrizes

foram classificadas como "Fortemente Relevantes" e 36% como "Relevantes" ao

contexto. Apesar de 25% das diretrizes terem sido classificadas com baixa relevância

(i.e., Pouco Relevante), apenas 3% foram consideradas irrelevantes na opinião dos

especialistas.

Figura 1. Relevância do Conjunto de Diretrizes de UX para Aplicativos Móveis

Ao analisar a relevância por diretriz, conforme demonstrado na Figura 2, é

possível observar que, na maioria dos casos (60% das diretrizes), mais de 50% dos

especialistas indicaram que as diretrizes são fortemente relevantes. De forma

complementar, as diretrizes categorizadas como ―novas‖ (i.e., diretriz integralmente

criada para o contexto de UX para aplicativos móveis), alcançaram pelo menos 80% de

aprovação na visão dos especialistas, considerando as opções ―Fortemente Relevante‖ e

―Relevante‖.

Além de apreciar a relevância das diretrizes propostas, os especialistas foram

convidados a avaliar a relevância desse tipo de iniciativa (i.e., propor diretrizes de UX

para avaliar a qualidade de aplicativos móveis). Nessa avaliação, 92% dos especialistas

em IHC consideraram a pesquisa como ‗Fortemente Relevante‘ e 8% como relevante.

Sendo assim, os resultados obtidos até o momento sustentam a relevância dessa

pesquisa. Por isso, a próxima etapa consistiu em avaliar a eficiência das diretrizes

propostas para apreciar a UX de aplicativos móveis, no contexto de avaliação de

interfaces.

Page 215: Anais do SMSI 2016

Figura 2. Relevância por Diretriz de UX para Aplicativos Móveis

8. Avaliação da Eficiência do Conjunto de Diretrizes de UX

Conforme sugerido por Knoll (2014), a análise da eficiência das diretrizes de UX foi

conduzida através de um estudo de caso no aplicativo Hangouts, dividido em duas

etapas. A seguir a metodologia e os principais resultados de cada etapa serão

apresentados e discutidos.

8.1. Cobertura das Diretrizes de UX para Avaliar Aplicativos através de Inspeção

Para analisar a cobertura das diretrizes para avaliar a UX de aplicativos móveis, foi

realizada uma análise comparativa. Nessa análise o aplicativo Hangouts foi avaliado por

dois grupos de especialistas em IHC, seguindo os passos do método de inspeção,

Avaliação Heurística. Porém, um grupo de especialistas (4) foi guiado pelo conjunto de

heurísticas genéricas para aplicativos móveis, que será referenciado como HGs

(apresentado na Tabela 1) e o outro grupo (4 especialistas) pelo conjunto de diretrizes de

UX proposto neste trabalho, que será referenciado como (DMs).

As avaliações foram realizadas em um período de 05 dias (entre 02 e 06 de Maio

de 2015). Durante as avaliações foram considerados os seguintes cenários: (1) Instalação

e login no Hangouts, (2) Encontrar contatos para iniciar conversas, (3) Realizar uma

ligação via voz, (4) Envio de imagens, (5) Conversa por vídeo, (6) Conversa por áudio

com viva voz habilitado, (7) Busca por mensagem anterior, (8) Troca de informações de

perfil e (9) Vincular SMS ao Hangouts. Esses cenários foram escolhidos por

representarem as principais funcionalidades do aplicativo. Finalizadas as avaliações, os

resultados foram comparados observando, além do volume de problemas, se a análise

guiada pelas DMs apontou problemas que só poderiam ser identificados pelas diretrizes

de UX propostas neste trabalho.

Page 216: Anais do SMSI 2016

Em relação ao número de problemas, a análise comparativa demonstrou que a

avaliação guiada pelas Diretrizes de UX para aplicativos móveis (DMs) permitiu

identificar 17 problemas de UX na interface do Hangouts, enquanto as Heurísticas

Genéricas de usabilidade para aplicativos móveis (HGs) apontaram 10 problemas. Já em

relação ao grau de cobertura das DMs para apreciar a UX, todas as diretrizes propostas

foram consideradas adequadas para avaliar o Hangouts. Isso porque 71% das 21 DMs

foram identificadas como violadas na interface, pelo menos uma vez, e as 29% restantes

(e.g., DM05 e DM08), embora não tenham sido violadas, foram apontadas pelos

avaliadores como presentes na interface. Portanto, não foram indicadas como fora do

contexto da aplicação. Já no caso das HGs, 63% foram violadas, e das 37% restantes, a

HG12, por exemplo, foi considerada pelos especialistas como não adequada para o

contexto da avaliação.

Para complementar essa analise, a Figura 3 destaca apenas as DMs novas e

adaptadas, com o intuito de demonstrar quantas delas foram violadas e quantas estavam

presentes no contexto da avalição.

Figura 3. Incidência de violação das diretrizes de UX (Novas e Adaptadas) sob o

total de problemas

Os dados apresentados na Figura 3 podem contribuir para explicar porque a

cobertura das DMs é maior do que as HGs, uma vez que indica a violação de DMs,

classificadas como novas, no aplicativo Hangouts que não existem no conjunto de HGs

da literatura. Em outras palavras, o conjunto de diretrizes proposto nesse trabalho

(DMs), permitiu uma melhor caracterização dos problemas de UX no Hangouts, além

da usabilidade, cobriu aspectos de comunicabilidade e acessibilidade, que não poderiam

ser mapeados apenas pelas heurísticas de usabilidade para aplicativos móveis presentes

na literatura (HGs).

8.2. Compatibilidade entre as Apreciações do Aplicativo Hangouts sob a

Perspectiva dos Usuários e dos Especialistas

Com o objetivo de avaliar a opinião dos usuários sobre a experiência de uso com o

aplicativo Hangouts e verificar se de fato há uma correspondência entre as violações de

UX apontadas pelos usuários e os problemas identificados pela inspeção guiada pelas

Diretrizes de UX aqui propostas, a última etapa desta pesquisa consistiu em avaliar o

Hangouts sob a perspectiva de seus usuários.

Para isso, os usuários foram convidados a responder um questionário online,

entre os dias 10 e 18 de Maio de 2015, e indicar quais características de UX estavam

Page 217: Anais do SMSI 2016

sendo violadas pelo aplicativo Hangouts, considerando as diretrizes apresentadas neste

trabalho. Em outras palavras, os participantes deveriam indicar qual ou quais

propriedades eles consideravam relevantes para melhorar a experiência de uso no

aplicativo, mas que não estavam presentes no mesmo. O questionário foi divulgado por

meio da rede social Google+, desenvolvida pelo mesmo fabricante do aplicativo em

análise, e em fóruns de discussão sobre o Hangouts. No total, 123 usuários participaram

dessa etapa.

Os resultados indicaram que, na opinião dos usuários, o Hangouts viola (i.e., não

atende) 80% das diretrizes de UX. Por comparação, foi possível verificar que os

usuários apontaram mais violações do que a avaliação com os especialistas, uma vez

que esta ultima indicou que 71% das diretrizes foram violadas. Contudo, há uma

convergência entre esses resultados, uma vez que todas as violações indicadas pelos

especialistas, também foram indicadas pelos usuários.

9. Triangulação e Discussão dos Resultados

Este trabalho buscou caracterizar dois aspectos importantes do conjunto de diretrizes de

UX proposto, sua relevância e eficiência. A relevância foi evidenciada pelos

especialistas em IHC que, em sua maioria, classificaram as diretrizes como relevantes

ou fortemente relevantes e, além disso, consideraram a iniciativa proposta nesta

pesquisa como um contribuição importante para o projeto e avaliação de UX no modelo

de interface e interação de aplicativos móveis.

Em relação a eficiência, através de um estudo de caso comparativo no aplicativo

Hangouts, verificou-se que o conjunto de diretrizes proposto permitiu uma melhor

caracterização dos problemas de UX detectados por especialistas, e, além disso, os

resultados dessa avaliação foram compatíveis com a opinião dos usuários em relação a

experiência de uso com Hangouts. Tais resultados, reforçam o argumento de que o

conjunto de diretrizes proposto e avaliado nesse trabalho é relevante e eficiente para

avaliar características de UX em aplicativos móveis, não se limitando à usabilidade

desses aplicativos.

10. Conclusões e Trabalhos Futuros

Este trabalho propôs um novo conjunto de diretrizes para avaliar a experiência do

usuário (UX) em aplicativos móveis. A avaliação das diretrizes propostas buscou

apreciá-las sob diferentes perspectivas, o que permitiu demonstrar sua relevância diante

de especialistas das áreas relacionadas, bem como sua eficiência para avaliar a UX dos

aplicativos quando comparadas às heurísticas presentes na literatura e aos testes

realizados com os usuários desse tipo de aplicação.

Nesse sentido, este trabalho traz contribuições científicas e práticas. Em termos

práticos, o conjunto de diretrizes proposto pode ser utilizado para avaliar aplicativos

móveis existentes e/ou novos, focando na melhoria da experiência dos usuários, além de

guiar o projeto de novos aplicativos. Em termos científicos, essa pesquisa contribui para

avanços na área de IHC em relação a um novo conjunto de diretrizes de UX que poderá

ser explorado por outros pesquisadores com intuito de validá-lo e/ou delimitar suas

vantagens e desvantagens, tanto no projeto quanto para a avaliação de interface de

aplicativos móveis.

Page 218: Anais do SMSI 2016

Como trabalhos futuros, almeja-se validar o conjunto de diretrizes proposto

utilizando outros aplicativos, com diferentes focos. Além disso, pode-se fazer uso das

diretrizes de UX para projetos de interfaces de aplicativos móveis, indo além do seu uso

em avaliações de interface.

References

Apple. 2016. Designing for ios. Disponível em: <https://goo.gl/6FmP9q>. Último

acesso em: 23 de março de 2016.

de Oliveira, D. H. D., de Miranda, L. C., de Miranda, E. E. C., e da Silva,L. F. 2012.

Prototipação de interfaces de aplicativos para dispositivos móveis: estado da arte e

desafios de IHC. In Proc. of IHC '12, p. 315-324.

Feijó, V. C.; Gonçalves, B. S. e Gomez, L. S. R. 2013. Heurística para avaliação de

usabilidade em interfaces de aplicativos smartphones: Utilidade, produtividade e

imersão. Design e Tecnologia, Porto Alegre, 2013. 6 ed

Google. 2016. Android design principles. Disponível em: < http://goo.gl/s7tlGw>.

Último acesso em: 23 de março de 2016.

Knoll, R. C. 2014. Desenvolvimento de heurísticas de usabilidade para tablets. Caderno

de Estudos Tecnológicos, FATEC, Bauru, Julho 2014. V.2, n.1, p. 93-109.

Neto, O. J. M. 2013. Usabilidade da interface de dispositivos móveis: heurísticas e

diretrizes para o design. Abril 2013. 136 p. Dissertação (Mestrado em Ciência da

Computação e Matemática Computacional) — Instituto de Ciências Matemáticas e

Computação, Universidade de São Paulo, São Carlos, 2013.

Nielsen, J. 1994. Usability inspection methods. In: ACM. Conference companion on

Human factors in computing systems. p. 413–414.

Norman, D. e Nielsen, J. 2013. The Definition of User Experience. Disponível em:

<https://goo.gl/Jx1bZj>. Último acesso em: 29 de março de 2016.

Pontes, P. E. 2008. Especificação de requisitos para comunicabilidade em websites na

engenharia semiótica. 108 p. Monografia (Graduação em Sistemas de Informação).

Faculdade de Informática do Centro Universitário Ritter dos Reis, Porto Alegre,

2008.

Prates, R.O. e Barbosa, S.D.J. 2003 Avaliação de Interfaces de Usuário - Conceitos e

Métodos Anais do XXIII Congresso Nacional da Sociedade Brasileira de

Computação. XXII Jornadas de Atualização em Informática (JAI). SBC 2003. Agosto

de 2003

Prates, R. O. e Barbosa, S. D. J. 2007. Introdução à Teoria e Prática da Interação

Humano Computador fundamentada na Engenharia Semiótica. In: T. Kowaltowski e

K. K. Breitman (Org.). SBC. Rio de Janeiro.

Preece, J., Rogers, Y., Sharp, H., Benyon, D., Holland, S. e Carey, T. 1994. Human-

Computer Interaction. Addison-Wesley Longman Ltd., Essex, UK, UK.

W3C. 2014. Web Content Accessibility Guidelines (WCAG) 2.0. Disponível em:

<https://goo.gl/7LBjZ0>. Último acesso em: 27 de abril de 2016.

Page 219: Anais do SMSI 2016

Heurísticas para Avaliar e Caracterizar a Usabilidade em

Aplicativos Móveis Educacionais

Deborah D’Carlo1, Glívia Angélica Rodrigues Barbosa

1, Erica Rodrigues Oliveira

2

1Centro Federal de Educação Tecnológica de Minas Gerais,

2Universidade Federal de

Minas Gerais

[email protected], [email protected],

[email protected]

Resumo. O uso crescente de dispositivos móveis tem favorecido o uso de

aplicativos como instrumento auxiliar no processo de aprendizado. Com essa

popularização, aumenta o desafio de potencializar a usabilidade dos

aplicativos móveis educacionais. Nesse contexto, esse trabalho tem como

objetivo apresentar um conjunto de heurísticas específicas para usabilidade

desse domínio de aplicativos. Por meio de avaliações com especialistas da

área e usuários, pôde-se apreciar a eficiência e a eficácia das heurísticas

propostas que foram consideradas relevantes para apreciação da usabilidade

de aplicativos do domínio educacional.

1. Introdução

A utilização de aplicativos móveis no contexto educacional vem crescendo e abre espaço

para o mobile learning (m-learning), que envolve o uso do dispositivo móvel, sozinho ou

em combinação com outras tecnologias de informação e comunicação (TICs). Esse uso

possibilita a aquisição de conhecimento em qualquer hora e lugar [Winckler e Pimenta,

2002]. Diante da crescente adoção dos aplicativos móveis educacionais e dos diferentes

níveis de conhecimento e perfis dos usuários desses recursos, é relevante garantir que

esses aplicativos contemplem requisitos de usabilidade, uma vez que esses aplicativos

possuem objetivos de aprendizado [Vosloo, 2012; Feijó et al. 2013; Neto, 2013; Knoll,

2014].

Uma forma de caracterizar a usabilidade dos sistemas interativos é a apreciação

do modelo de interface e interação desses sistemas, que pode ser conduzida através da

aplicação de métodos de avaliação [Prates e Barbosa, 2003]. Segundo Prates e Barbosa

(2003), dentre os métodos para avaliação de usabilidade mais difundidos, entre os

pesquisadores e profissionais de Sistemas de Informação, destaca-se a Avaliação

Heurística (AH), um método empírico que julga a interface conforme um conjunto de

heurísticas (e.g., Consistência e padronização da interface e Design estético e minimalista)

que buscam potencializar a qualidade da interface e da interação [Nielsen, 1994].

Ao apresentar a AH e as 10 heurísticas de usabilidade, Nielsen (1994) alertou para

o fato de que sistemas de domínios diferentes demandam por adaptações nas heurísticas de

avaliação. No contexto de aplicativos móveis, esse argumento foi reforçado por estudos

como os realizados por Bertini et al. (2009) e Nokelainen (2006), que demonstraram

problemas de usabilidade que as 10 heurísticas de Nielsen (1994) não permitem

caracterizar. Nesse sentido, com o intuito de contornar essas lacunas, autores como Feijó

Page 220: Anais do SMSI 2016

et al. (2013); Neto (2013) e Knoll (2014) propuseram adaptações nas heurísticas de

usabilidade para o contexto de aplicações móveis.

Contudo, segundo Feijó et al. (2013); Neto (2013) e Knoll (2014), essa ainda é

uma questão que apresenta desafios. Isso porque, embora a plataforma destes dispositivos

seja a mesma, os aplicativos se diferem, por exemplo, em seus domínios (e.g. aplicativos

educacionais, sociais e bancários). Dessa forma, as diferentes categorias de aplicativos

móveis podem demandar heurísticas de usabilidade específicas para seu domínio,

conforme já alertado por Nielsen (1994) e evidenciado por Feijó et al. (2013); Neto (2013)

e Knoll (2014). Neste contexto, surge a necessidade de criar heurísticas que também

atendam à demanda de usabilidade dos aplicativos móveis educacionais [Nokelainen,

2006] [Feijó et al. 2013].

Motivados por esse cenário, o objetivo deste trabalho é apresentar um conjunto de

heurísticas específicas para apreciar a usabilidade de aplicativos móveis educacionais.

Para isso identificou-se as heurísticas de usabilidade, existentes na literatura, propostas

para aplicativos móveis em geral e apreciou-se o grau de cobertura das mesmas em relação

à usabilidade de aplicativos educacionais. Para cobrir as lacunas observadas na análise

anterior, o conjunto de heurísticas específicas para aplicativos móveis educacionais foi

proposto e avaliado sob a perspectiva de especialistas em Interação Humano Computador

(IHC) e usuários.

Como resultados, esse trabalho apresenta o agrupamento e avaliação das

heurísticas genéricas para aplicativos móveis, disponíveis na literatura, bem como um

conjunto de heurísticas propostas especificamente para a avaliação de usabilidade de

aplicativos móveis educacionais, além da apreciação da usabilidade dos aplicativos

utilizados para avaliação das heurísticas propostas, o Nota101 e o Passei!Enem

2.

Em termos de contribuições práticas, as heurísticas propostas podem ser utilizadas

para avaliar aplicativos educacionais existentes e/ou novos, focando na potencialização da

usabilidade dos mesmos, além de guiar o projeto de novos aplicativos educacionais. Já em

termos científicos, essa pesquisa contribui para avanços na área de IHC em relação a um

novo conjunto de heurísticas que poderá ser explorado por outros pesquisadores com

intuito de validá-lo e/ou delimitar suas vantagens e desvantagens, tanto no projeto quanto

para a avaliação de interface de aplicativos móveis educacionais. A seguir alguns trabalhos

relacionados a essa pesquisa são apresentados.

2. Trabalhos Relacionados

A revisão bibliográfica permitiu identificar pesquisas que focaram na proposta de

heurísticas de usabilidade específicas para o projeto e avaliação de aplicativos móveis,

independente do domínio dos aplicativos, bem como trabalhos que apresentaram

princípios e/ou critérios de usabilidade demandados por sistemas educacionais.

No âmbito das pesquisas voltadas para aplicativos móveis, é possível citar, por

exemplo, os trabalhos realizados por Feijó et al. (2013) e Neto (2013) que apresentaram,

respectivamente, diretrizes de usabilidade para projetar e avaliar esses aplicativos. O

1 Nota 10 - https://goo.gl/EeOCTt

2 Passei!ENEM - https://goo.gl/ZKrZxU

Page 221: Anais do SMSI 2016

conjunto proposto por Feijó et al. (2013) foi avaliado, quanto a sua eficiência,

comparando os resultados de avaliações guiadas pelas heurísticas de Nielsen (1994) e

pelas diretrizes propostas pelos autores. Feijó et al. (2013) concluíram que, de um modo

geral, seu conjunto de diretrizes é capaz de avaliar a usabilidade de sistemas mobile,

mas apresenta limitações para lidar com as particularidades de cada tipo (i.e., domínio)

de aplicativo, afetando assim a validade da apreciação. Por sua vez, o conjunto proposto

por Neto (2013) foi avaliado através de um estudo de caso no aplicativo do Gmail e

permitiu identificar problemas de usabilidade específicos para interação em sistemas

móveis. Porém, Neto (2013) indica que um importante trabalho futuro consiste na

verificação da aplicabilidade dessas diretrizes para aplicativos móveis de outros

domínios.

O trabalho conduzido por Knoll (2014) consolidou e apresentou heurísticas de

usabilidade para tablets, que foram adaptadas de iniciativas outras iniciativas presentes

na literatura (e.g., Nielsen (1994), Google, Apple e Microsoft). As heurísticas propostas

foram avaliadas quanto a sua cobertura e eficiência para caracterizar a usabilidade de

aplicativos móveis e os resultados indicaram que, embora elas sejam mais adequadas,

quando comparadas às heurísticas de Nielsen (1994), as heurísticas propostas não foram

capazes de cobrir todas as particularidades de usabilidade das diferentes categorias

desses aplicativos [Knoll, 2014].

Já no âmbito de trabalhos direcionados, especificamente, para aplicativos móveis

educacionais não foram encontradas iniciativas similares. Porém, é possível identificar

trabalhos como as pesquisas realizadas por Reeves (1994), Abreu e Alves (2001),

Nokelainen (2006) que discutem e apresentam critérios e/ou requisitos de usabilidade

para a construção e avaliação de sistemas educacionais. Tais critérios e/ou requisitos

caracterizam importantes aspectos de usabilidade que devem ser contemplados nesse

tipo de sistema e, por isso, podem ser utilizados como insumo para criação de

heurísticas de usabilidade voltadas para aplicativos móveis educacionais [Nokelainen,

2006][Feijó et al. 2013].

Este trabalho se difere dos demais, por apresentar um conjunto de heurísticas

específico para avaliar e caracterizar a usabilidade de aplicativos móveis educacionais,

que visa cobrir as lacunas que as heurísticas existentes na literatura não conseguem

avaliar em relação à usabilidade desse domínio de aplicação. Além disso, o conjunto de

heurísticas proposto poderá ser utilizado tanto para aplicativos educacionais já

desenvolvidos, quanto para aplicativos em fase de desenvolvimento (i.e., projeto). Isso

se deve ao fato das heurísticas serem adotadas durante o processo de criação das

interfaces e, de maneira complementar, como critério de avaliação a fim de verificar o

atendimento das mesmas na interface e interação projetadas [Prates e Barbosa, 2003].

3. Metodologia

A metodologia adotada para conduzir esse trabalho consistiu em uma abordagem

qualitativa. Inicialmente foi realizado um levantamento bibliográfico para identificar a

existência de heurísticas de usabilidade propostas especificamente para aplicativos

móveis. A partir desse levantamento, foi feita uma apreciação crítica da aderência das

heurísticas existentes para o domínio de aplicativos móveis educacionais.

Em seguida, a partir dos resultados da apreciação crítica e dos critérios de

usabilidade para sistemas educacionais propostos por Nokelainen [2006], propôs-se um

Page 222: Anais do SMSI 2016

arcabouço de heurísticas específicas para a apreciação de usabilidade de aplicativos

móveis educacionais. Vale destacar que as etapas de análise da aderência das heurísticas

existentes na literatura e a proposição das heurísticas específicas foram realizadas com o

auxílio de um especialista em educação (i.e., um pedagogo que atua há pelo menos sete

anos na área e que utiliza tecnologias móveis em suas práticas pedagógicas).

Por fim, a última etapa consistiu em avaliar o conjunto de heurísticas proposto

sob duas perspectivas. A primeira buscou verificar, através da aplicação de um

questionário online, a relevância das heurísticas para avaliar a usabilidade de aplicativos

móveis educacionais na perspectiva de especialistas em IHC (i.e., profissionais e/ou

pesquisadores com mais de 05 anos de experiência). Posteriormente, as heurísticas

foram avaliadas quanto a sua cobertura para caracterizar a usabilidade dos aplicativos

educacionais. Para isso foi conduzido um estudo de caso comparativo em dois

aplicativos móveis educacionais, o Nota10 e Passei!ENEM. Esses aplicativos estão

entre os 05 primeiros no ranking de downloads e são considerados úteis no contexto

educacional brasileiro, por auxiliarem os usuários na preparação do Exame Nacional do

Ensino Médio (Enem) [Google Play, 2015].

4. Heurísticas de Usabilidade e Aderência ao Contexto Educacional

A primeira etapa deste trabalho consistiu em uma revisão bibliográfica para levantar

heurísticas propostas especificamente para caracterizar a usabilidade em aplicativos

móveis em geral e verificar a aderência dessas heurísticas para o domínio de aplicativos

móveis educacionais. As buscas foram realizadas no Google Scholar3 e nos principais

repositórios de pesquisas relacionados à área de Computação, IEEE Xplore4, ACM

Digital Library5, Springer

6 e HCI Bib

7. A string de pesquisa contemplava os seguintes

termos (em português e, respectiva, tradução em inglês): usabilidade, aplicativos

móveis, heurísticas, diretrizes e requisitos.

A partir dessa revisão foram identificados três conjuntos de heurísticas de

usabilidade para aplicativos móveis e, uma vez que uma mesma heurística poderia ser

proposta por diferentes autores, foi necessário fazer um agrupamento das heurísticas

encontradas. Esse agrupamento foi realizado por um especialista em IHC, profissional

da área com mais de cinco anos de experiência, de modo que um conjunto unificando de

heurísticas fosse gerado. Esse conjunto é apresentado na Tabela 1. Neste trabalho essas

heurísticas, identificadas a partir da literatura, foram denominadas “heurísticas genéricas

para aplicativos móveis” (HGs), uma vez que elas não foram propostas para um domínio

específico desses aplicativos.

Tabela 1: Heurísticas Genéricas (HGs) para Usabilidade de Aplicativos Móveis

Cod. Nome Autores

HG1. Feedback imediato e fácil de ser notado Feijó et. al. (2013), Neto (2013) e Knoll (2014)

HG2. Adequação de mensagem à funcionalidade e ao usuário Feijó et. al. (2013) e Knoll (2014)

HG3. Visibilidade e acesso fácil às informações existentes Feijó et. al. (2013) e Knoll (2014)

3 Google Scholar - https://scholar.google.com.br/

4 IEEE Xplore - http://ieeexplore.ieee.org/Xplore/home.jsp

5 ACM Digital Library - http://dl.acm.org/

6 Springer - http://www.springer.com/br/

7 HCI Bib - http://hcibib.org/

Page 223: Anais do SMSI 2016

HG4. Consistência e padrões Feijó et. al. (2013), Neto (2013) e Knoll (2014)

HG5. Prevenção de erros e retomada ao último estado estável Feijó et. al. (2013) e Knoll (2014)

HG6. Minimização da carga de memória do usuário Feijó et. al. (2013), Neto (2013) e Knoll (2014)

HG7. Facilidade de entrada de dados Feijó et. al. (2013), Neto (2013) e Knoll (2014)

HG8. Facilidade de acesso às funcionalidades Feijó et. al. (2013), Neto (2013) e Knoll (2014)

HG9. Ajuda e documentação Feijó et. al. (2013) e Knoll (2014)

HG10. Bom aproveitamento do espaço da tela Knoll (2014)

HG11. Regue incentivo Feijó et. al. (2013)

HG12. Conheça-me Feijó et. al. (2013) e Knoll (2014)

Não foram encontradas heurísticas que abordassem aspectos específicos de

usabilidade para os diferentes domínios de aplicativos, sobretudo para os aplicativos

educacionais. Sendo assim, antes de propor o conjunto de heurísticas de usabilidade

específicas para aplicativos educacionais, foi verificada a aderência das heurísticas

genéricas (HGs) para caracterizar a usabilidade dos aplicativos desse domínio.

4.1. Aderência das Heurísticas Genéricas para o Domínio Educacional

A análise de aderência (ou cobertura) das HGs, agrupadas na Tabela 1, para avaliar a

usabilidade de aplicativos educacionais foi conduzida por dois especialistas em IHC,

com o apoio de um especialista em Educação. Nesta fase, foi avaliado o aplicativo

Nota10, seguindo os passos da Avaliação Heurística, guiada pelas HGs de usabilidade

para aplicativos móveis.

Para apreciar o grau de cobertura dessas heurísticas, buscou-se verificar: (1) o

total de problemas reportados; (2) o volume de heurísticas violadas e (3) a adequação

das heurísticas para avaliar a usabilidade de aplicativos móveis educacionais. Tanto na

fase de inspeção quanto na consolidação, o especialista em educação apoiou os

avaliadores na identificação de problemas e na justificativa. A avaliação foi realizada no

período de três dias, no mês de Agosto de 2015. Foram considerados os seguintes

cenários: (1) fazer questões aleatórias, (2) realizar prova completa, (3) criar simulado e (4)

avaliar desempenho. Esses cenários foram escolhidos por representarem as principais

funcionalidades do aplicativo Nota 10.

Concluída a avaliação, foram encontrados 11 problemas de usabilidade e 67%

das doze heurísticas foram violadas pelo menos uma vez pelo aplicativo. A avaliação

também indicou que 33% das heurísticas não foram violadas. Isso pode caracterizar que

elas estão presentes na interface, como é o caso das heurísticas HG5, HG9 e HG11, ou

que elas não são indicadas (i.e., necessárias) para avaliar esse domínio de aplicativo,

como é o caso da heurística HG12.

Com essa avaliação foi possível reforçar a hipótese de que, apesar das HGs

contemplarem importantes critérios de usabilidade de aplicativos móveis em geral, elas

não endereçam problemas específicos que podem ocorrer durante a interação com

aplicativos educacionais. Isso porque, baseado nessa avaliação e na opinião do

especialista em educação, durante a interação com o aplicativo, foram identificados

potenciais problemas de usabilidade que poderiam impactar no processo de aprendizado

utilizando o aplicativo. Porém esses problemas não puderam ser mapeados (i.e., não

havia uma equivalência) para nenhuma HG existente.

Um desses problemas corresponde ao fato de que, embora o aplicativo ofereça a

opção de realizar provas completas ou aleatórias, as respostas fornecidas no modo

Page 224: Anais do SMSI 2016

aleatório não são contabilizadas na análise do desempenho do usuário. Tal problema

compromete a consolidação do aprendizado. Embora o problema exista, não seria

possível associá-lo a uma HG existente. Nesse caso, seria necessário criar uma

heurística específica para o domínio educacional, como por exemplo, “Oferecer

diferentes experimentações de aprendizado, incluindo os erros”, e indicar que o referido

problema estava violando a heurística proposta.

Constata-se, então, que a utilização das HGs para avaliar aplicativos

educacionais poderia resultar em uma análise mais superficial, focada em aspectos de

interface, que deixaria de considerar pontos importantes durante o processo de interação

com esse tipo de aplicativo [Nokelainen, 2006][Feijó et al. 2013].

5. Heurísticas de Usabilidade para Aplicativos Móveis Educacionais

Para a criação das heurísticas específicas, foram consideradas três perspectivas: (1) as

heurísticas genéricas para aplicativos móveis (HG), por descreverem requisitos básicos

de usabilidade para a interface de qualquer tipo de aplicativo, (2) os requisitos de

usabilidade de sistemas educacionais listados por Nokelainen (2006) e (3) o

conhecimento do especialista em educação. Essas perspectivas atuaram como insumo

para adaptar e criar as heurísticas específicas para aplicativos móveis educacionais.

A Tabela 2 mostra as heurísticas de usabilidade específicas (HE) para aplicativos

móveis educacionais. Nesta tabela é apresentado o código e o nome de cada heurística e

sua origem. A origem foi separada entre três grupos: (1) Heurística Nova – que

representa heurísticas integralmente criadas para o contexto de aplicativo educacional;

(2) Heurística Adaptada – representa heurísticas genéricas adaptadas pelos autores para

o contexto educacional; e (3) Heurística Reutilizada – indica que a heurística não sofreu

alteração, e foi retirada da Tabela 1 das HGs.

Tabela 2: Heurísticas Específicas para Usabilidade de Aplicativos Móveis Educacionais

Cód. Nome Origem

HE1. Consistência e bom aproveitamento do espaço da tela Heurística Adaptada

HE2. Disponibilidade (Acesso de qualquer lugar) e Portabilidade Heurística Nova

HE3. Facilidade de acesso às funcionalidades Heurística Adaptada

HE4. Resposta Imediata e Visibilidade Heurística Adaptada

HE5. Adequação de mensagem à funcionalidade e ao usuário Heurística Adaptada

HE6. Prevenção de erros e recuperação rápida ao último estado estável Heurística Adaptada

HE7. Aprendizado orientado a um objetivo Heurística Nova

HE8. Aprendizagem e Recordação no processo de Interação Heurística Nova

HE9. Controle de aprendizado e Flexibilidade Heurística Adaptada

HE10. Disponibilizar diferentes experimentações de aprendizado, incluindo erros Heurística Nova

HE11. Aprendizado cooperativo/colaborativo Heurística Nova

HE12. Motivação Heurística Adaptada

HE13. Consolidação de novos aprendizados (Aplicabilidade) Heurística Nova

HE14. Ajuda e documentação Heurística Reutilizada

6. Relevância das Heurísticas Propostas na Perspectiva de Especialistas

Para identificar a relevância do conjunto de heurísticas propostas junto aos especialistas,

foi aplicado um questionário online com as quatorze HEs. Cada participante deveria

indicar o grau de relevância das mesmas de acordo com a seguinte escala: Fortemente

Relevante; Relevante; Pouco Relevante e Irrelevante. A aplicação do questionário

Page 225: Anais do SMSI 2016

ocorreu no período de duas semanas, durante o mês de Junho de 2015. O mesmo foi

divulgado por e-mails para os pesquisadores e profissionais da área de IHC e Educação,

com pelo menos 05 anos de experiência. Ao todo 27 especialistas responderam ao

questionário.\

Os resultados obtidos permitiram constatar que houve uma aceitação de mais de

90% das heurísticas propostas. Sendo que, desse percentual de aceitação, 58% das

heurísticas foram consideradas como „Fortemente Relevantes‟ e 42% como „Relevantes‟

ao contexto. Ao analisar o grau de relevância por heurística, observou-se que as

heurísticas integralmente novas possuem, pelo menos, 70% de aprovação considerando

as opções „Fortemente Relevante‟ e „Relevante‟. O gráfico da Figura 1 apresenta esses

resultados.

Figura 1: Relevância por Heurística

Além disso, algumas considerações foram feitas pelos especialistas em IHC e

Educação sobre as heurísticas propostas. Um dos especialistas em IHC afirmou que

encontrar aplicativos que atendam à heurística “HE2 Disponibilidade - Acesso de

qualquer lugar e portabilidade” seria um diferencial de usabilidade desses aplicativos,

uma vez que a mobilidade do dispositivo favorece o processo de aprendizado em

qualquer lugar, sem dependência de conexões com a internet.

A alta relevância da heurística “HE4 – Resposta Imediata e Visibilidade” pode

ser justificada pelo argumento apresentado por Abreu e Alves (2001). Isso porque,

segundo esses autores, o feedback, seja ele imediato ou adiado, é uma ferramenta

importante no processo de aquisição do conhecimento. Ainda nesse contexto, a forma

como a informação é transmitida está diretamente ligada ao processo de ensino-

aprendizado. Isso condiz com o alto índice de aprovação da heurística “H5 - Adequação

de mensagem à funcionalidade e ao usuário”, que trata da importância de se ter

instruções claras e objetivas, facilitando o entendimento do usuário com uma leitura

simples e natural.

Por fim, o índice de aceitação da heurística “H7–Aprendizado orientado a um

objetivo” foi associado ao argumento apresentado por Reeves [1994]. Segundo o autor,

Page 226: Anais do SMSI 2016

uma vez que as metas e objetivos são delineados, eles podem ser sequenciados em

hierarquias de aprendizagem que, em geral, representam uma progressão de ensino

crescente.

Além de apreciar a relevância das heurísticas propostas, os especialistas foram

convidados a avaliar a relevância dessa pesquisa. Nessa avaliação, 70% dos especialistas

consideraram a pesquisa como „Fortemente Relevante‟. Ao separar esse grupo foi

possível observar que essa é a opinião de 67% dos especialistas em Educação e de 83%

dos especialistas em IHC.

7. Análise da Eficiência das Heurísticas Propostas

Para analisar a eficiência do conjunto de heurísticas específicas para usabilidade de

aplicativos educacionais, realizou-se uma análise comparativa. Nessa análise, os

aplicativos Nota10 e o Passei!ENEM foram avaliados por dois grupos de especialistas

em IHC, seguindo os passos da Avaliação Heurística. Porém, um grupo de especialistas

foi guiado pelo conjunto de heurísticas genéricas para aplicativos móveis, que será

referenciado como HG, e o outro grupo pelas heurísticas propostas neste trabalho, que

será referenciado como HE.

Ao fim das avaliações, os resultados foram contrastados observando, o volume

de problemas e se a avaliação guiada pelas HE apontou problemas que só poderiam ser

identificados pelas heurísticas propostas neste trabalho. Posteriormente, comparou-se o

indicador de usabilidade obtido com a avaliação guiada pelas HEs propostas e o

indicador gerado a partir de testes com usuários realizados no Passei!ENEM.

7.1. Cobertura das Heurísticas para Avaliar Aplicativos Educacionais

Nesta subseção são apresentados e discutidos os resultados das avaliações de

usabilidade dos aplicativos Nota10 e Passei!ENEM. O objetivo foi comparar o grau de

cobertura das heurísticas propostas neste trabalho para avaliar a usabilidade de

aplicativos educacionais (HEs), contrastada com as heurísticas genéricas (HGs).

7.1.1. Resultado das Inspeções no Aplicativo Nota 10

Inicialmente, para comparar a eficiência das heurísticas, foram contrastados os

resultados da avaliação do aplicativo Nota10, guiada pelas HGs (apresentados na seção

4.1.) com os resultados da avaliação do mesmo aplicativo, guiada pelas HEs. A

avaliação guiada pelas HEs foi realizada por 4 especialistas, durante a primeira semana

de Agosto de 2015, considerando os mesmos cenários utilizados durante a análise do

aplicativo com as HGs.

Ao comparar os resultados, foi possível observar que o número de problemas

identificados por cada conjunto de heurísticas, HGs e HEs, foi igual, ou seja, 11

problemas cada. Contudo, embora a quantidade de problemas tenha sido a mesma, a

análise guiada pelas HEs apresentou um maior volume de heurísticas violadas, quando

comparadas às HGs. Isso porque as HEs para aplicativos educacionais foram capazes de

apontar 19% de violações a mais, quando comparadas com as HGs.

Em relação ao grau de cobertura das HEs para apreciar a usabilidade aplicativos

educacionais, todas foram consideradas adequadas para avaliar o aplicativo Nota10. Isso

porque 86% das heurísticas propostas foram identificadas como violadas na interface,

pelo menos uma vez, e as 14% restantes (e.g., HE11 e HE13) embora não tenham sido

Page 227: Anais do SMSI 2016

violadas, foram apontadas pelos avaliadores como presentes na interface. Portanto, não

foram indicadas como fora do contexto da aplicação. Já no caso das HGs, 67% foram

violadas, e das 33% restantes, a HG12, por exemplo, foi considerada pelos especialistas

como não adequada para o contexto da avaliação.

Esses dados reforçam a relevância do conjunto proposto, já indicado como

positivo pelos especialistas, uma vez que, conforme demonstrado pelos resultados,

avaliando o aplicativo Nota10 pelas HGs não seria possível identificar potenciais

problemas e estratégias de usabilidade reportados pelas HEs.

7.1.2. Resultado das Inspeções no Aplicativo Passei! ENEM

Para melhor apreciar a eficiência das heurísticas propostas, um novo estudo de caso

comparativo foi realizado com o aplicativo Passei!ENEM. A avaliação foi conduzida

seguindo os passos da Avaliação Heurística por quatro grupos, formados por 4

avaliadores cada. Desses grupos, dois ficaram responsáveis pela avaliação guiada pelas

HGs, e os outros dois inspecionaram a interface através das HEs.

Finalizadas as avaliações, os resultados foram consolidados e contrastados,

observando-se o volume de problemas, bem como o percentual de heurísticas violadas.

De forma complementar, conforme sugerido por Knoll (2014), foi gerado um indicador,

baseado no percentual de heurísticas violadas, para fornecer uma classificação geral de

usabilidade para o aplicativo avaliado. A Tabela 3 apresenta as classificações propostas.

Tabela 3: Classificação de Usabilidade [Knoll, 2014]

Percentual de Heurísticas Violadas Usabilidade

Maior que 75% do total Péssima

Maior que 50% e menor ou igual a 74% do total Ruim

Maior que 25% e menor ou igual a 50% do total Boa

Menor ou igual a 25% do total Muito boa

A avaliação foi realizada na terceira semana de Agosto de 2015. Durante a

avaliação foram considerados os seguintes cenários: (1) fazer questões de uma

determinada matéria a ser escolhida pelo avaliador; (2) responder uma prova rápida; e

(3) consultar ranking. Esses cenários foram escolhidos por representarem as principais

funcionalidades do aplicativo. Para melhor comparação, os resultados são apresentados

na Tabela 4.

Tabela 4: Resultado da Avaliação do Passei!ENEM

Nº de

problemas

% de heurísticas

violadas

Classificação da

Usabilidade

HG 13 71% Ruim

HE 10 79% Péssima

Através desses dados, observou-se que, embora os avaliadores guiados pelas

HGs tenham identificado um número maior de problemas, o percentual de heurísticas

violadas na avaliação realizada com as HEs é superior em relação violações das HGs.

Logo, o grau de cobertura das HEs é maior. Isso porque, do ponto de vista da avaliação

realizada com as HGs a usabilidade do aplicativo Passei!ENEM foi considerada como

„Ruim‟. Já a avaliação guiada pelas HEs classificou a usabilidade do aplicativo como

„Péssima‟, o que pode indicar que as HEs foram capazes de caracterizar melhor os

potenciais problemas de usabilidade do aplicativo.

Page 228: Anais do SMSI 2016

Com o objetivo de avaliar a usabilidade do aplicativo Passei!ENEM, na opinião

dos usuários, e verificar se, de fato, os potenciais problemas levantados pelos

especialistas, com as HEs, são vivenciados pelos usuários em tempo de interação, a

próxima fase da avaliação do conjunto de heurísticas proposto consistiu em realizar um

teste de usabilidade com usuários e contrastar o resultado obtido com os da Avaliação

Heurística.

7.1.3. Avaliação sob a Perspectiva dos Usuários

Conforme orientado por Nielsen (2000), o teste de usabilidade foi realizado com cinco

usuários, estudantes do ensino médio, com idades entre 15 e 22 anos. Os usuários foram

convidados a realizar três tarefas no aplicativo: (1) fazer prova com questões aleatórias;

(2) fazer prova de matéria específica e (3) reiniciar o aplicativo. Durante os testes, os

avaliadores cronometraram o tempo e verificaram se as tarefas foram concluídas, com

ou sem erros, ou ainda se não foram concluídas. Ao final de cada tarefa o usuário poderia

reportar suas dificuldades e dúvidas. O gráfico da Figura 2 consolida os resultados

referentes à execução das tarefas.

Figura 2: Percentual de Conclusão das Tarefas

É possível observar que a maioria dos usuários encontraram dificuldades para

executar as tarefas relacionadas à realização de provas. O relato dos usuários quanto a

essas dificuldades revela que o aplicativo não deixa claro que existam questões

aleatórias na opção “Provas Rápidas”. Além disso, eles reportaram dificuldades como:

(1) passar para a próxima questão, (2) dúvidas quanto aos elementos de interface (e.g.,

ícones) utilizados na aplicação e (3) ausência de um feedback mais efetivo.

Já a terceira tarefa, que solicitava reiniciar o aplicativo, apresentou menor

dificuldade entre os usuários. Uma possível explicação se deve ao fato que, durante as

duas primeiras tarefas, alguns usuários acabaram clicando no botão para reiniciar. Logo,

eles sabiam onde encontrar essa opção. O tempo médio gasto, por tarefa, foi de sete

minutos. Contudo, observou-se que quando a interface expõe de forma clara sua

funcionalidade, os usuários apresentam mais facilidade em completar a tarefa em menor

tempo.

Finaliza da as tarefas, os usuários foram convidados a indicar o nível de

satisfação ao interagir com o aplicativo avaliado e, posteriormente, avaliá-lo de acordo

com as HEs para caracterizar a usabilidade de aplicativos educacionais. Nesse caso, o

Page 229: Anais do SMSI 2016

usuário, por meio de uma entrevista estruturada com o avaliador, deveria indicar qual

(ou quais) heurística(s) estava(m) sendo violadas pela interface.

Em relação à satisfação, dentre as opções, 60% dos usuários indicaram como

ruim ou péssima. No que se refere ao julgamento da interface em relação às HEs para

aplicativos móveis educacionais, apenas duas heurísticas (HE3 e HE8) foram

consideradas presentes no aplicativo por todos os usuários. Em outras palavras, na

opinião de pelo menos um dos usuários, 86% das heurísticas propostas neste trabalho

foram violadas pelo aplicativo Passei!ENEM.

7.2. Discussão dos Resultados

Para concluir a apreciação da eficiência das heurísticas propostas, os indicadores de

usabilidade gerados a partir da avaliação com especialistas guiada pelas HEs e o teste

dos usuários foram triangulados [Cho e Trent, 2006].

Ao mapear o percentual de violação das HEs, na opinião dos usuários, que

apontou para 86% de violações, o aplicativo Passei!ENEM foi classificado como

“Péssimo”. De forma análoga, a avaliação de usabilidade guiada pelas HEs, realizada

por especialistas, também reportou esse resultado, uma vez que indicou 79% de

violações, classificando o aplicativo como “Péssimo”.

Conclui-se, então, que a avaliação do Passei!ENEM, guiada pelas HEs, ao

contrário das HGs, obteve o mesmo indicador de usabilidade que os usuários indicaram,

„Péssimo‟. Isso demonstra que as HEs estão aptas a serem utilizadas como insumo para

avaliação de usabilidade dos aplicativos móveis educacionais.

8. Conclusões e Direções Futuras

Este trabalho apresentou um novo conjunto de heurísticas para apreciação da

usabilidade de aplicativos móveis educacionais, incorporando tanto aspectos gerais de

aplicativos móveis quanto requisitos de usabilidade específicos do domínio educacional.

A avaliação do conjunto proposto buscou apreciá-lo sob diferentes perspectivas,

o que permitiu demonstrar sua relevância diante de especialistas das áreas relacionadas,

bem como sua eficiência (ou cobertura) para caracterizar a usabilidade de aplicativos

educacionais, quando comparado às HGs e aos testes realizados com os usuários desse

tipo de aplicação.

Conclui-se, por meio dos dados apresentados, que especialistas da área

consideraram as heurísticas propostas relevantes, indicando a importância das mesmas

para o domínio de aplicativos educacionais. Já em relação à eficiência, foi possível

observar que as HEs reportam problemas e apontam para aspectos de usabilidade

específicos do domínio educacional que as HGs não apontariam. Além disso, a

classificação de usabilidade das HEs foi compatível com o resultado do teste com

usuários, uma vez que, nos dois casos, a classificação foi considerada como „Péssima‟.

Esse tipo de pesquisa é relevante porque as heurísticas propostas poderão ser

utilizadas para avaliar aplicativos educacionais existentes e/ou novos, focando na

potencialização da usabilidade, além de guiar no projeto de novos aplicativos

educacionais. Em termos científicos, essa pesquisa contribui para avanços na área de

IHC, uma vez que um novo conjunto de heurísticas poderá ser explorado por outros

Page 230: Anais do SMSI 2016

pesquisadores com intuito de validá-lo e/ou delimitar suas vantagens e desvantagens,

tanto no projeto quanto para a avaliação de interface de aplicativos móveis educacionais.

Como trabalhos futuros, almeja-se validar o conjunto de heurísticas proposto

utilizando outros aplicativos educacionais, com diferentes focos de aprendizagem. Além

disso, pode-se fazer uso das heurísticas para projetos de interfaces de aplicativos

educacionais, explorando o conjunto além do uso seu uso para avaliação.

Referências

Abreu D. M. A.; Alves, M. N. 2001. O feedback e sua importância no processo de

tutoria a distância. Pro-Posies, v. 22, n. 2, p. 189–205.

Bertini, E.; Catarci, T.; Dix, A.; Gabrielli, S.; Kimani, S.; Santucci, G. 2009.

Appropriating heuristic evaluation for mobile computing. Int. J. Mobile Hum.

Comput. Interact. v. 1, n. 1, p. 20–41.

Cho, J. & Trent, A. 2006. Validity in qualitative research revisited. Qualitative

Research, 6(3):319--340.

Feijó, V. C.; Gonçalves, B. S.; Gomez, L. S. R. 2013. Heurística para avaliação de

usabilidade em interfaces de aplicativos smartphones: Utilidade, produtividade e

imersão. Design & Tecnologia, v. 3, n. 06.

Knoll, R. C. 2014. Desenvolvimento de heurísticas de usabilidade para tablets. Caderno

de Estudos Tecnológicos, v. 2, n. 1, p. 93–109.

Neto, O. J. M. 2013. Usabilidade da interface de dispositivos móveis: heurísticas e

diretrizes para o design. Tese (Doutorado) - Universidade de São Paulo.

Nielsen, J. 1994 Usability inspection methods. In: ACM. Conference companion on

Human factors in computing systems. [S.l.]. p. 413–414.

Nielsen, J. (2000) Why You Only Need to Test with 5 Users. Disponível em:

http://goo.gl/DuW7vm. Acesso em maio, 2015.

Nokelainen, P. 2006 An empirical assessment of pedagogical usability criteria for digital

learning material with elementary school students. Educational Technology &

Society, v. 9, n. 2, p. 178–197.

Prates, R. O.; Barbosa, S. D. J. 2003. Avaliação de interfaces de usuário - conceitos e

métodos. Anais da Jornada de Atualização em Informática, XIX Congresso da

Sociedade Brasileira de Computação.

Reeves, T. 1994. Evaluating what really matters in computer-based education.

Computer education: New perspectives, Edith Cowan University Press Perth,

Australia, p. 219–246.

Vosloo, S. 2012 Unesco: Policy Guidelines for Mobile Learning. [S.l.]: Paris, France:

UNESCO.

Winckler, M.; Pimenta, M. S. 2002. Avaliação de usabilidade de sites web. Disponível

em http://lis.univ-tlse1.fr/winckler/publications.html.

Page 231: Anais do SMSI 2016

Proposta de um framework para gestão de processos de

software em organizações baseadas em projetos

Jansser D. Silva1, Pedro A. de Oliveira

2

1Graduando em Sistemas de Informação – Pontifícia Universidade Católica de Minas

Gerais – PUC Minas - Belo Horizonte – MG – Brazil

2 Professor Adjunto - Instituto de Ciências Exatas e Informática – Pontifícia

Universidade Católica de Minas Gerais – PUC Minas - Belo Horizonte – MG – Brazil

[email protected], [email protected]

Resumo. O presente artigo apresenta uma abordagem de perspectivas

gerenciais para processos de software em organizações que têm como foco

realizar projetos. Este trabalho baseou-se no aprofundamento sobre as praxes

e definições de processos ágeis e prescritivos para identificar seus pontos

fortes e fracos. Esse estudo permitiu observar que o sucesso de projetos não

depende de um único modelo ou método gerencial; ao contrário, é possível

combinar as práticas de diversos modelos e métodos de forma sinérgica e

aplicável. A partir dessa constatação, algumas técnicas comprovadas para o

sucesso de projetos, em especial de tecnologia e inovação, foram compiladas

no framework que é apresentado por este trabalho.

Abstract. This paper presents an approach of management perspectives for

software processes in organizations that focus to perform projects. This work

was based on the best practices and definitions of the agiles and prescriptives

processes looking for their strengths and weaknesses. This study possibilited

to observe that the success of projects, does not depend on a single model or

management method; on the contrary, it is possible to combine the practices of

different models and methods in a synergetic and applicable way. From this

evidence, some proven techniques to make projects succeed, especially on

technology and innovation areas, were compiled in the framework which is

presented by this work.

1. Introdução

Em organizações onde a realização de projetos ocorre de maneira prioritária em relação

às atividades rotineiras, as equipes são multidisciplinares trabalhando frequentemente

juntas e os recursos são utilizados de forma a privilegiar as atividades planejadas, o

sucesso dos projetos é certamente alcançado [PMI 2013]. No entanto, alcançar esse

patamar de modelo organizacional em que os projetos são tratados com total primazia,

além de utópico, não é condição suficiente para garantir bons resultados. Outros fatores

como: ferramentas, métodos, práticas e (obviamente) as pessoas, influenciam

diretamente a eficiência dos processos de uma organização.

Quando se trata de práticas de processos, existe uma reflexão sobre quais

métodos condicionam essas práticas. De um lado têm-se modelos tradicionais e

prescritivos, dentre os quais se podem destacar os guias PMBOK [PMI 2013] e MPS-

BR [SOFTEX 2016]; de outro lado existem as abordagens ágeis, como exemplo as

metodologias Scrum [Schwaber 2014] e Kanban [Herfley 2016].

Page 232: Anais do SMSI 2016

Os critérios para definição de uma determinada metodologia de gestão e

execução de processos estão relacionados à cultura organizacional, ao tamanho do

projeto e até mesmo ao modelo de negócio da empresa [PMBOK 2013]. Esse último

pode ser evidenciado, por exemplo, em organizações em estágio inicial do seu ciclo de

vida - as startups, baseadas em negócios escaláveis, inovadores e de alto risco [Ries

2012]. Nesse contexto, há diversos trabalhos que exemplificam o sucesso da adoção de

métodos ágeis como agente impulsionador de seus processos [Carvalho 2012; Crowne

2002; Ries 2012; Torres 2012].

Este trabalho tem como objetivo apresentar um framework que através do seu

método gerencial de processos e de uma ferramenta informatizada, auxilia o

desenvolvimento de produtos tecnológicos, quando derivados de um projeto específico.

Também é intuito deste trabalho viabilizar maneiras para lhe dar com os diversos tipos

de demandas de projetos, de modo que, a constante entrega de artefatos seja mantida

com a qualidade apropriada para os diversos portes e segmentos de organizações.

Sendo assim, na segunda seção são apresentados alguns pontos fortes e fracos

presentes em processos prescritivos e ágeis. Na terceira seção é mostrada a metodologia

utilizada para desenvolver este trabalho, em seguida, a quarta seção mostra telas da

aplicação upProj que fundamentam a apresentação de um framework de múltiplas

perspectivas para a gestão de processos de Sistemas Informatizados(SI). Por fim, a

quinta e última seção traz as conclusões obtidas neste trabalho.

2. Fundamentação Teórica

Quando uma organização decide se estruturar sistemicamente para executar projetos

conduzindo seu planejamento e utilizando-se de processos específicos para gerar

produtos, ela é classificada como uma Organização Baseada em Projetos (OBP) [PMI

2013]. Alcançar o sucesso dos projetos nesse contexto organizacional independe do seu

porte e maturidade, sendo essa uma premissa para a elaboração do framework

apresentado neste trabalho.

As OBPs que seguem com vigor práticas prescritivas, geralmente empresas de

médio e grande porte, demandam que o seu gerente de projetos fique preso a diversos

regulamentos e normas, tanto da organização como externas. O excesso de hierarquias e

a burocracia inerente a esse modelo de gestão constituem elementos que podem

acarretar ineficiência na execução do escopo de trabalho [Verzuh 2000].

De uma maneira geral, as práticas de modelos prescritivos pregam o formalismo

em sua execução, visando gerar documentação para evidenciar a execução dos

processos concernentes [Cooper 2008]. Sommerville (2011) define processo como

conjunto de atividades compostas de ações necessárias para o desenvolvimento de

software com alta qualidade. A qualidade refere-se principalmente à geração de

resultados (documentos ou evidências) de processos, que conforme o guia MPS-BR

[SOFTEX 2016], contribuem para a constante melhoria dos processos de uma

organização.

De acordo com a Associação Brasileira de Normas Técnicas [ABNT apud ISO-

9000, 2000], a formalidade e a documentação de processos contribuem para: atingir a

conformidade com os requisitos do projeto, assegurar sua rastreabilidade bidirecional e

permitir avaliar a eficácia e a contínua melhoria do processo em execução.

Page 233: Anais do SMSI 2016

Em contrapartida, micro e pequenas empresas em diferentes estágios de

maturidade tendem a adotar metodologias denominadas ágeis. Um fato que justifica esta

opção é que geralmente tais empresas utilizam equipes pequenas, de no máximo dez

pessoas, tendo como foco a entrega do produto ao invés da formalidade e produção de

documentos; também procuram prioritariamente implementar as mudanças que são

demandadas e não simplesmente seguir planos pré-definidos [Fowler et. al 2001].

Com base nessas reflexões, Kiggundu (2014) estabelece os seguintes princípios

básicos da abordagem ágil: transparência, constante inspeção e adaptação. Mais adiante

neste trabalho, são exemplificados alguns cenários onde esses princípios podem ser

postos em cheque, levando a uma reavaliação sobre qual deve ser o grau de formalismo

a se adotar em empresas que buscam favorecer a inovação.

Na perspectiva ágil, a transparência pode ser atingida quando há envolvimento

de todos os stakeholders e a equipe detêm todas as informações do projeto [FOWLER

et. al 2001]. Percebe-se que em projetos onde o produto gerado será utilizado por

milhares de clientes é praticamente impossível envolver todos eles no processo. Neste

caso, o produto é desenvolvido sob a perspectiva de um terceiro fornecedor de

requisitos, o demandante do projeto [Kiggundu 2014].

A constante inspeção sugerida pelos métodos ágeis, objetiva detectar as

variações inaceitáveis no escopo do projeto e corrigi-las, para que seja possível “falhar

rápido” [Schwaber 2014]. Contudo, o produto gerado é apenas uma parte de todo o

processo, o que dificulta sua inspeção de maneira completa. Em outras palavras, essa

inspeção não engloba as diretrizes de negócio do projeto e nestes casos não é possível

definir as variações que serão aceitáveis (ou não) para o mesmo [Kiggundu 2014].

Considerando que a inspeção do produto tenha detectado a necessidade de

adaptação no escopo do projeto, essa mudança pode ser difícil de realizar. Nos métodos

Scrum [Schwaber 2014] e Kanban [Herfley 2016] e também no manifesto ágil [Fowler

et. al 2001] não são previstos papéis hierárquicos dentre os diversos stakeholders. Isso

compromete diretamente a tomada de decisão na equipe [Kiggundu 2014] e o consenso

quanto às novas características do produto a serem implementadas.

Tomando como referência os modelos de processos ágeis e prescritivos tratados,

muitos outros fatores são desafiadores ao desenvolver projetos. Rego (2012) fez um

levantamento desses elementos entrevistando 25 gerentes de projetos de diversos

setores da indústria - tecnologia, finanças, consultoria, farmácia, governo e engenharia.

Os resultados desse trabalho mostram que a comunicação entre equipe e stakeholders,

complexidade estrutural do projeto e a gestão de riscos podem constituir obstáculos

consideráveis e que precisam ser superados para melhorar o índice de sucesso de OBPs.

Não obstante a realidade apresentada cabe destacar que, no cenário atual das

organizações brasileiras, poucas delas podem se contentar com um modelo

organizacional que seja totalmente prescritivo ou totalmente ágil. No caso das micro e

pequenas empresas de Tecnologia da Informação (TI), por exemplo, deve-se considerar

não apenas as condições externas, que mudam frequentemente, mas também o contexto

organizacional limitado e pouco estruturado. Uma questão a se considerar então, é até

que ponto deve-se formalizar e estruturar melhor os processos das OBPs, de tal modo

que elas possam sobreviver à competição acirrada sem inviabilizarem seu modelo de

negócio.

Page 234: Anais do SMSI 2016

3. Metodologia

Este trabalho foi desenvolvido em três etapas. Na primeira, foi realizado um estudo

bibliográfico para fundamentar o conhecimento sobre a aplicabilidade das abordagens

ágeis e prescritivas em organizações baseadas em projetos, sendo elas de diversos portes

e segmentos de atuação.

A segunda etapa baseou-se em obter os atributos que viriam a ser

contextualizados pelo framework proposto. Sob a perspectiva ágil, foram mapeadas três

propriedades: transparência, constante inspeção e suporte a mudanças. Do lado

prescritivo foram destacados: a formalidade documental e o controle de hierarquias.

Ainda na segunda etapa, foram mapeados alguns atributos comuns às três abordagens

presentes no trabalho de Rego (2012), que são: comunicação entre a equipe e

stakeholders, complexidade estrutural de projetos e controle de riscos.

Na terceira e última etapa realizou-se o desenvolvimento de um SI, que foi

nomeado de upProj - Eficiência e Simplicidade para Impulsionar Projetos. Essa

nomenclatura é derivada da sua capacidade de facilitar a gestão processos de OBPs,

para possibilitar a constante melhoria de suas práticas e do seu índice de sucesso em

projetos.

4. Resultados Obtidos

Para melhor compreensão dos resultados deste trabalho, esses estão dispostos

estrategicamente como um framework para que seja apresentada não apenas uma

ferramenta, mas sim uma abordagem que suporta diferentes métodos de gestão de

projetos, por meio de múltiplas visões de execução de processos. Toda essa

infraestrutura é oferecida através de uma ferramenta online, que pode ser utilizada em

computadores pessoais com configuração típica através de um browser.

Nesse contexto, os resultados apresentados a seguir são baseados na bagagem

teórica e prática da experiência vivenciada pelos autores com equipes multidisciplinares

de TI. A apresentação deste conteúdo, objetivo deste trabalho, projeta uma futura

colaboração para com a comunidade de Tecnologia da Informação, de modo que seus

projetos alcancem as melhores condições de sucesso, através da boa gestão de todos os

processos envolvidos.

4.1. Complexidade Estrutural de Projetos

O primeiro atributo contextualizado e possivelmente o mais crítico do ponto de vista do

sucesso de um projeto é a complexidade de estruturar sua execução. É importante que

essa estruturação tenha leitura relativamente fácil, que permita identificar os marcos, os

pacotes e fases de trabalho interdependentes [PMBOK 2013]. O gráfico de barras (ou de

Gantt), utilizado desde a década de 1910, incorporou essas características para facilitar

o trabalho dos gerentes de projetos [Andrade 2015]. A figura 1 mostra o cronograma do

desenvolvimento da ferramenta upProj, por meio do respectivo gráfico.

Page 235: Anais do SMSI 2016

Figura 1. Definição Estrutural Auxiliado pelo Gráfico de Barras

Essa é uma das perspectivas gerenciais do framework, sendo que o foco está no

cronograma de desenvolvimento do produto. Desta forma pode-se atentar

principalmente para os custos de tempo e a visão geral de atividades.

Outro fator que afeta a complexidade estrutural, segundo Rego (2012), é quando

uma organização demanda que algumas das atividades de um projeto sejam realizadas

por outras empresas. A figura 2 exemplifica a criação de subprojetos no portfolio de

uma OBP para que ela direcione o escopo de trabalho para outras organizações, ou

ainda para recursos próprios.

Figura 2. Gerência de Portfólio Inter Organizacional

A gerência de portfólio do framework permite a classificação ou filtro dos

projetos por status (em elaboração, em execução, sob revisão e finalizado) ou seja,

quanto ao andamento do escopo de suas atividades. Isto favorece as tomadas de decisão

referente a quais projetos devem ser priorizados [Trentin 2010].

4.2. Constante Inspeção

Como exposto anteriormente, na visão de Kiggundu (2014) as diretrizes de

negócio a serem aplicadas aos processos de software muitas vezes não são

inspecionadas nas mesmas condições que as de produto. Para abordar essa característica

o framework possibilita o uso de Business Model Generation (BMG) proposto por

Page 236: Anais do SMSI 2016

Osterwalder (2011) para monitorar as diretrizes de negócio do produto gerado pelo

projeto. Neste modelo é possível aplicar o gerenciamento estratégico para esboçar o

modelo de negócio de uma organização ou de um produto, sendo eles existentes ou não

[Reis 2015]. Dentro desse escopo a figura 3 exemplifica o emprego do BMG, também

chamado Business Model Canvas, para definir do modelo de negócio do projeto upProj,

mostrando as fontes de receita, custos, recursos, público-alvo e produto.

Figura 3. Inspeção das Diretrizes de Negócio do Projeto Através da visão Canvas

Levando-se em consideração a constante inspeção do produto preconizada nas

abordagens ágeis [Fowler 2001; Schwaber 2014; Herfley 2016] é de suma importância

conhecer e formalizar a aceitação das entregas do projeto, ou seja, validar o escopo de

execução do mesmo [PMBOK 2013]. Como pode ser visto na figura 4 os recursos,

progresso, artefatos de cada atividade e controle de modificação dos mesmos. Essa

perspectiva gerencial presente no framework é conhecida como a visão de execução.

Figura 4. Inspeção do Desenvolvimento do Produto Através da Visão de Execução

Page 237: Anais do SMSI 2016

Ainda se tratando da inspeção de desenvolvimento do produto, os artefatos

gerados pelas tarefas precisam ser acessíveis e ter sua distribuição unificada para

contribuir com a qualidade da gerência de informações [MPS-BR 2016]. A figura 5

exemplifica o artefato diagrama de pacote de casos de uso gerado na etapa de avaliação.

Figura 5. Visualização de Artefatos Gerados Pelo Projeto

Outra maneira de gerenciar a constante entrega de artefatos em um projeto é

através do agrupamento dos itens de desenvolvimento por fases de realização, aspecto

característico dos métodos Scrum [Schwaber 2014] e Kanban [Herfley 2016]. Nessas

metodologias os conjuntos de tarefas são expostos em no mínimo, três etapas básicas:

trabalho a fazer, sendo feito e concluído. Mello (2014) complementa que essa

característica não é aplicável somente a projetos de TI, mas também aos segmentos

onde o foco está na constante entrega de resultados. O upProj contrasta essas e outras

particularidades dos processos ágeis, com a visão gerencial intitulada quadro ágil,

mostrada na figura 6.

Figura 6. Inspeção de Pacotes de Entregas por meio da Visão Quadro Ágil

Page 238: Anais do SMSI 2016

4.3. Mudanças, Controle Hierárquico e Transparência

Pesquisas têm mostrado que os maiores problemas de custos advêm das mudanças de

escopo, sendo elas, fatores inevitáveis para o sucesso de um projeto [Andrade 2015]. A

maneira de concretizar essas oscilações na visão dos métodos ágeis pode ser conflitante,

tendo em vista que os papeis não são hierárquicos [Kiggundu 2014]. Logo, possibilitar o

controle e a definição de papeis de modo que as responsabilidades sejam definidas de

forma gradual possibilita incumbir determinados participantes de tomar certas decisões

na sua fração de atividades. Isso, além de envolver um maior número de stakeholders

ímpares nas decisões de alternância de escopo, consequentemente gera um

procedimento benéfico para os processos de tomada de decisão [PMBOK 2013].

A ferramenta upProj propõe um mecanismo que permite a definição de papeis e

atribuições para cada participante de projeto, de maneira que as responsabilidades

posam ser direcionadas adequadamente às habilidades de cada membro de equipe. Para

controle de permissões, para cada visão no projeto podem ser definidas as ações de:

visualização, modificação, criação e exclusão, como exposto na figura 7.

Figure 7. Atribuição de Papéis para Tomada de Decisões

Também é perceptível, na figura 7, que a atribuição de papeis consiste, em outras

palavras, em definir qual das visões gerenciais está disponível para cada participante e o

quão acessível ela está. Isso influencia diretamente na transparência das informações do

projeto. Essa definição de permissões depende de cada organização e de suas instruções

específicas, tal que possibilitem ou não aos stakeholders de forma geral ou seletiva,

conhecer as informações presentes em cada visão da gerência dos processos.

4.4. Constante Inspeção

A maioria dos gerentes de projetos aponta que existe um déficit crítico na gestão

e na eficiência da comunicação em projetos [Rego 2012]. Com isso, o guia PMBOK

(2013) salienta que “o sucesso do gerenciamento de projetos em uma organização é

altamente dependente de um estilo de comunicação organizacional eficaz”. Partindo

desse pressuposto é essencial que ferramentas gerenciais deem amparo à comunicação

coletiva e também, à comunicação direcionada (individual), para que se atendam os

diversos estilos de comunicação das OBPs.

Page 239: Anais do SMSI 2016

A figura 8 ilustra um exemplo unificado para se utilizar a comunicação interna,

somando-se às demais ferramentas que uma organização pode utilizar para tal fim, tais

como: e-mail, aplicativos de chat, conversas informais e outros mecanismos.

Figure 8. Componente para Comunicação Unificada

4.5. Documentação e Gestão de Riscos

Através do levantamento bibliográfico foi observado que nos métodos ágeis, a

documentação de projetos não é incentivada. Isto ocorre para que o esforço de trabalho

seja direcionado principalmente para as entregas, foco dessas metodologias. Ao

contrário, numa abordagem prescritiva o desenvolvimento de documentos é mais

encorajado e consequentemente, valorizado [Carvalho 2012].

A ferramenta apresentada opera em uma situação onde os documentos são

existentes; porém sua produção acontece de forma automatizada, bastando apenas que

sejam gerados pelos participantes do projeto. Esses registros são criados com base nos

dados que já foram preenchidos nas outras visões de gerenciamento: canvas, gantt,

quadro ágil e execução. Tal funcionalidade diminui a redundância de afazeres e

contribui para o ganho de esforço da equipe, além de garantir formalmente os resultados

dos processos de desenvolvimento.

Para o framework proposto os riscos podem ser mapeados como um desses

resultados documentais, só que neste caso devem ser preenchidos e monitorados através

do plano de gestão de riscos, possibilitado pela ferramenta e observado na figura 9.

Page 240: Anais do SMSI 2016

Figure 9. Reprodução de Resultados e Gestão de Riscos

5. Conclusão

O framework apresentado, uma vez apoiado pelos métodos ágeis e guias prescritivos

exemplificados, conta com cinco visões gerenciais de processos, sendo elas: Canvas,

Gantt, Quadro Ágil, Execução e Resultados. Cada uma dessas perspectivas visa, de

maneira específica, maximizar as condições de sucesso de projetos, contribuindo com a

facilidade de utilização e a produção de resultados, juntamente com a eficiência na

execução dos processos em OBPs.

As visões de gestão de processos do framework foram implementadas pela

ferramenta upProj através de recursos tecnológicos na web. Dentre as vantagens deste

viés de tecnologia destaca-se a arquitetura cliente-servidor: onde todos os utilizadores

sempre estarão atualizados, os recursos podem ser oferecidos como um serviço

escalável de baixo custo e com alta confiabilidade.

Em suma, os recursos chave apresentados neste trabalho, prestam-se como

mecanismos para a condução do processo de desenvolvimento de software em OBPs

gerando resultados qualitativos. Estes são gerados de forma natural como consequência

da execução do próprio processo, podendo ser aplicados a diversos segmentos

mercadológicos, de acordo com a literatura referenciada.

Constata-se também que a escolha do processo de desenvolvimento ideal para

cada organização ou projeto deve ser uma decisão gerencial e técnica. Processos

prescritivos têm seus favorecimentos e limitações, assim como os métodos ágeis. Os

prescritivos mostram-se insuficientes para projetos ou organizações onde o foco está nas

constantes entregas e os ágeis em alguns pontos não permitem a produção de resultados

com maior rigor e formalismo, impossibilitando a constante melhoria e a otimização dos

métodos e técnicas.

Apesar da limitação do framework de ainda não estar disponível, sua formulação

mostra meios plausíveis de se conciliar as necessidades e os recursos organizacionais

por meio da sinergia de processos. Isso constata que sua aplicação independe do modelo

gerencial, sendo recomendada em quaisquer situações em que o princípio

organizacional é a realização de projetos. Essas e outras características podem ser

Page 241: Anais do SMSI 2016

exploradas em futuros trabalhos, visando aprimorar a experiência com o framework, que

se mostra flexível para tal.

Por fim, o objetivo de apresentar uma abordagem para gestão de processos,

discutindo o uso de mecanismos e métodos para favorecer as condições de sucesso de

OBPs, foi atingido. Sendo assim, cabe agora consolidar a proposta do framework

apresentado mantendo-o em contínua melhoria, como por exemplo, através de suas

próprias preconizações.

Referências

ABNT, Associação brasileira de Normas Técnicas (2000) “NBR ISO 9000, Sistemas de

Gestão de Qualidade – Fundamentos e Vocabulário”. Rio de Janeiro.

Andrade, P. A. (2015) “Método Combinado de Técnicas para Medição de

Desempenho”, http://blog.mundopm.com.br/2015/10/04/metodo-combinado-de-

tecnicas-para-medicao-de-desempenho, Abril.

Carvalho, B. V. e Mello, C. H. P. (2012) “Aplicação do Método Ágil Scrum no

Desenvolvimento de Produtos de Software de Uma Pequena Empresa Base

Tecnológica”, Instituto de Engenharia de Produção e Gestão – IEPG, Universidade

Federal de Itajubá – UNIFEI.

Cooper, R. G. (2008) “Perspective: The Stage-Gate Idea-To-Launch Process – Update,

What’s New and NexGen Systems”, Journal of Product Innovation Management, p.

213-232.

Crowne, M. (2002) “Why Software Product Startups Fail and What To Do About It”, In:

IEEE Engineering Management Conference, Cambridge.

Fowler, M.; Highsmith, J.; et. Al. (2001) “The Agile Manifesto”

www.martinfowler.com/articles, Março.

Herfley C. “Kanban Roadmap – How to Get Started in 5 Steps”, https://leankit.com,

Março.

Kiggundu, A. (2014) “When Does Agile Fail”,

https://www.thoughtworks.com/pt/insights/blog/agile-theory-vs-practice/. Março.

PMI, Project Management Institute (2013) “A Guide to the Project Management Body

of Knowledge (PMBOK® Guide)”, 5th ed., Project Management Institute Inc,

Newton Square.

Mello, P. B. S. (2014) “Scrum e Sua Aplicação para o Planejamento Estratégico da

Organização”, http://blog.mundopm.com.br/2014/04/17/scrum-e-sua-aplicacao-para-

o-planejamento-estrategico-da-organizacao-2/, Abril.

Osterwalder, A. (2011) “Business Model Generation – Inovação em Modelos de

Negócios”, 1st ed., Alta Books.

Reis, T. (2015) “Como Utilizar o Business Model Canvas para Planejar um PMO que

Gere Valor para a Organização”, http://www.projectbuilder.com.br/blog-

pb/entry/pratica/como-utilizar-o-business-model-canvas-para-planejar-um-pmo-que-

gere-valor-para-a-organizacao, Abril.

Page 242: Anais do SMSI 2016

Rego, M. L (2012) “Desafios e Responsabilidades do Gerente de Projetos: Um estudo

exploratório dos fatores que afetam o desempenho”. XXVII Simpósio de Gestão e

Inovação Tecnológica. Salvador – BA.

Ries, E. (2012) “The Lean Startup – A startup Enxuta”, 1st ed., Texto Editores Ltda. São

Paulo – SP.

Schwaber, K “Agile Project Management with Scrum - Developer Best Practices”, 1st

ed., Microsoft Press.

Sommerville, I. (2011) “Engenharia de software”, 9ed, Pearson, São Paulo - SP.

SOFTEX - Associação para Promoção da Excelência do Software Brasileiro (2016) “

Modelo de Melhoria do Processo de Software Brasileiro (MPS-BR-SW, Guia de

Implementação de Software)”, http://www.softex.br/wp-

content/uploads/2016/04/MPS.BR_Guia_de_Implementacao_Parte_1_2016-com-

ISBN.pdf , Maio.

Torres, J. (2012) “Guia da Startup – Como startups e empresas estabelecidas podem

criar produtos web rentáveis”, 1ed, Casa do Código.

Trentin, M. H. (2010) “Planejamento Estratégico e Gestão de Projetos”. IV Encontro De

Engenharia De Produção Agroindustrial. Campo Mourão – PR.

Page 243: Anais do SMSI 2016

Análise do Processo de Desenvolvimento de Software de

Startups com Base no Guia MPS-BR

Jansser D. Silva1, Pasteur O. M. Junior

2

1Graduado em Sistemas de Informação – Pontifícia Universidade Católica de Minas

Gerais – PUC Minas – Belo Horizonte – Brasil

2Professor Adjunto – Instituto de Ciências Exatas e Informática – Pontifícia

Universidade Católica de Minas Gerais – PUC Minas – Belo Horizonte – Brasil

[email protected], [email protected]

Abstract. The technological and economic environment brought by

technology-based startups is promising and at the same time disturbing. This

article bases on reasons that was attributed to failure of 101 startups and

relates this reasons to the recommended by the Software Engineering. It is

shown that failures presents on Requirements Management and Project

Management processes take about 90% of these organizations into

bankruptcy. With this, the MPS-BR guide was used to perform an analysis of

the adequacy of the software development process in four projects of three

startups. Then, it was set an adherence quantitative index of the results to help

these organizations to establish conditions for success of their projects.

Resumo. O cenário tecnológico e econômico propiciado pelas startups de

base tecnológica mostra-se promissor e ao mesmo tempo preocupante. Este

artigo baseia-se em motivos atribuídos ao fracasso de 101 startups e

contextualiza-os ao idealizado pela Engenharia de Software. É mostrado que

falhas na realização dos processos de Gerência de Requisitos e Gerência de

Projetos levam cerca de 90% dessas organizações à falência. Com isso, o guia

MPS-BR foi utilizado para realizar uma analise da adequação do processo de

desenvolvimento de software em quatro projetos de três startups. Então,

definiu-se um índice de aderência quantitativo nos resultados para auxiliar as

organizações a estabelecerem condições de sucesso para seus projetos.

1. Introdução

Durante o ano de 2012 foram investidos mais de R$ 1,7 bilhão em mais de 90 empresas

brasileiras caracterizadas como startups. Boa parte desse capital veio de empresas

nacionais e internacionais da área tecnológica, como: Intel, Telefônica, Totvs e

Microsoft [PEGN 2013]. Visto a representação econômica propiciada por essas

organizações, não só no Brasil, mas também internacionalmente, os veículos de

comunicação Forbes [Patel 2015] e Fortune [Griffith 2014], apresentaram dois

trabalhos que trazem reflexões importantes para o contexto das startups.

Erin Griffith (2014) apresenta diversos motivos que 101 fundadores de empresas

startups atribuíram ao fato de seus negócios terem falido. As três justificativas mais

abordadas foram: primeiro - depois de desenvolvido, o produto não representava a real

Page 244: Anais do SMSI 2016

necessidade do mercado, segundo - a empresa ficou sem dinheiro para concluir o

produto e terceiro - o perfil dos membros ou trabalho em equipe não era adequado.

Neil Patel (2015) baseia-se na experiência pessoal e nas características de

empresas startups bem sucedidas para afirmar que em média, somente 10% desses

empreendimentos têm êxito e é possível destacar duas características comuns entre eles:

a adequação satisfatória entre produto e necessidade de mercado e o bom (preparo)

trabalho em equipe. Percebe-se um cenário contraditório ao mencionado anteriormente.

Com base nas preconizações da Engenharia de Software, os motivos atribuídos

ao insucesso de startups poderiam ter sido minimizados com a definição e praxe de

processos de software adequados. Como exemplo, podem-se citar os processos de

engenharia de requisitos – na identificação, reconhecimento e validação das

necessidades do mercado às funcionalidades do produto [Pressman 2011] e gerência de

projetos – no controle dos recursos disponíveis e no estabelecimento de uma equipe que

tenha equilíbrio entre experiência e habilidades técnicas [Sommerville 2011].

Constata-se então, que o alto índice de fracasso das startups de base tecnológica

pode estar relacionado à gerência de requisitos e gerência do projetos, principalmente.

Percebe-se também, que as adversidades presentes nesses processos têm grandes

chances de impedir o êxito mercadológico das organizações em questão [Patel 2015].

Com isso, este trabalho se propôs a analisar o processo de desenvolvimento de

software de algumas startups, para elucidar o nível de adequação de suas práticas de

gerência de requisitos e gerência de projetos. Uma vez que apontado o nível de

adequação desses processos e suas subáreas – conforme o preconizado na literatura

[Sommerville 2011; Pressman 2011; Pádua Filho 2003], essa análise objetiva

possibilitar indiretamente que as empresas entrevistadas tenham embasamento para

executar ações que melhorem suas condições de sucesso, como por exemplo:

• criando e estabelecendo práticas que atuem positivamente nos pontos

mostrados pela análise como região de maior carência de adequação,

• identificando e corrigindo falhas na praxe do seu processo de software,

• compreendendo melhor o que para a literatura são evidências ideais para

serem geradas como consequência do processo de desenvolvimento de software,

• e assimilando o índice de adequação de processos apontado pela análise, às

possibilidades de falha e êxito do(s) projeto(s) analisado(s).

Para realizar a análise em questão, o modelo MPS-BR foi utilizado como

ferramenta de referência para atribuição do índice de adequação aos processos.

Escolheu-se esse guia por ser voltado para a realidade nacional, ser compatível com

micro e pequenas empresas de segmento tecnológico e ter sua base definida com

resultados consagrados para os processos de Gerência de Projetos e Gerência de

Requisitos [SOFTEX 2016], principalmente.

2. Fundamentação Teórica

Para a Engenharia de Software (ES) um processo pode ser decomposto, para que seja

mais fácil geri-lo. Como exemplo, temos o processo de desenvolvimento software

Page 245: Anais do SMSI 2016

clássico, que deve apresentar práticas de requisitos, análise, projeto, implementação e

testes [Filho 2003].

Com a existência de diversos modelos e métodos para a construção de sistemas

informatizados, como por exemplo: modelo em cascata, modelo incremental e orientado

a reuso, Sommerville (2011) diz que todos devem incluir quatro fases fundamentais:

especificação, projeto e implementação, validação e evolução. Neste trabalho o processo

de software é analisado com o objetivo de fundamentar meios para medi-lo no contexto

das empresas startups, logo, é possível que nem todas essas etapas sejam identificadas

devido às limitações presentes nessas organizações.

Nas startups, as práticas de processos de software são mantidas geralmente

através de metodologias denominadas “ágeis”, como por exemplo os métodos: Scrum

[Schwaber 2014], Kanban [Herfley 2016] e Lean [Ries 2012]. Essas abordagens

determinam principalmente que: as interações de atividades e os indivíduos sejam mais

valorizados que as ferramentas e os processos, que o esforço de trabalho seja voltado

para as constantes entregas e não direcionado para a documentação e que as mudanças

tenham prioridade de realização ao invés seguir o planejamento [Fowler 2001]. Nota-se

então, que essas peculiaridades podem dificultar a identificar e formalizar evidências

para o processo de software de uma maneira geral.

No entanto, esse fato não isenta essas organizações da necessidade de produzir

artefatos, ou até mesmo utilizar ferramentas que evidenciem formalmente seus

processos. Sommerville (2011) comenta que uma equipe de desenvolvimento de

tecnologias, estando ela principalmente em concepção, a informalidade assim como a

inexperiência do time, podem ser obstáculos para o sucesso do projeto em questão.

Portanto, produzir resultados formais para as atividades de desenvolvimento de

software é um meio de evidenciar sua qualidade. Para o guia MPS-BR (Modelo de

Melhoria do Processo de Software Brasileiro), isso também é um meio de medir o

processo e favorecer sua constante melhoria. Esse modelo possui diversas ferramentas

para implantar processos, adquirir software, medir serviços e avaliar processos. Esses

mecanismos buscam principalmente melhorar as condições e os resultados dos projetos

de tecnologia, em especial no Brasil [SOFTEX 2016].

Na próxima seção, ressaltam-se algumas características desse guia e seu

emprego nos mecanismos elaborados neste trabalho, para realizar a análise do processo

de software de startups.

2.1 O Modelo de Melhoria do Processo de Software Brasileiro

A adesão de práticas pré-estabelecidas ou reutilizadas, não se faz suficiente para a

manutenção da qualidade constante do processo de software, é preciso medi-lo, analisá-

lo e ajustá-lo continuadamente [Sommerville 2011]. Para isso, é viável que se utilize um

modelo de maturidade de processos como o MPS-BR [SOFTEX 2016].

O MPS-BR objetiva estabelecer boas práticas de ES no âmbito das necessidades

de negócio de pequenas e micro empresas, em especial de TI (Tecnologia da

Informação) e não está condicionado somente às organizações que pretendem

implementa-lo ou se avaliarem. A SOFTEX (Associação para Promoção da Excelência

do Software Brasileiro) principal mantedora do guia adiciona que o MPS-BR pode ser

Page 246: Anais do SMSI 2016

utilizado por interessados em processos de software de uma maneira geral, objetivando

uma referência técnica [SOFTEX 2016], como realizado neste trabalho.

O modelo opera por meio de cinco guias prescritivos e abrangentes em TI. O

guia de avaliação e guia geral MPS de software foram os escolhidos como referências

alvo para a análise realizada. Isso, não desconsiderando as preconizações e objetivos de

cada um dos outros guias.

O Guia geral MPS, trata da descrição do modelo de referência MPS para

software. Neste guia são descritos, de maneira detalhada, os termos e definições

necessárias para a compreensão e aplicação do modelo. O Guia de Avaliação determina

os procedimentos que devem ser adotados para avaliar uma empresa, desta forma são

fornecidos alguns parâmetros para medir a aderência dos processos [SOFTEX 2016].

No MPS-BR, as organizações, quando avaliadas, têm um nível de maturidade

atribuído ao seu processo. Os processos analisados por este trabalho são os que definem

o primeiro nível de maturidade do MPS-BR (Nível G). Nesse nível são estabelecidos 24

resultados de processos para serem analisados, esses quocientes que definem o patamar

de adequação do processo organizacional. A seguir, é feita uma contextualização dos

processos do nível G com a ES, mostrando como eles serão abordados neste trabalho.

2.2 Os Processos de Gerência de Requisitos e Gerência de Projetos

Compreender um determinado problema e decidir como resolvê-lo pode ser a tarefa

mais árdua e onerosa do desenvolvimento de um software. As características, serviços e

restrições que uma solução informatizada deve apresentar, precisam estar dispostos

através de requisitos, esses se preocupam principalmente em atender as necessidades

dos clientes finais de forma simples e eficaz [Sommerville 2011].

Devido à importância e complexidade, o propósito do processo de Gerência de

Requisitos (GRE) no MPS-BR é garantir que os componentes do produto desenvolvido

sejam consistentes e estejam de acordo com o plano de projeto da aplicação [SOFTEX

2016]. Para certificar-se disso, uma organização que atenda o processo em questão, deve

apresentar evidências que estejam em conformidade com os resultados abaixo.

• GRE1: o atendimento dos requisitos é obtido junto a seus fornecedores.

• GRE2: os requisitos são avaliados com base em critérios objetivos e um

comprometimento da equipe técnica com estes requisitos é obtido.

• GRE3: a rastreabilidade bidirecional entre os requisitos e os produtos de

trabalho é estabelecida e mantida.

• GRE4: revisões em planos e produtos de trabalho do projeto são realizadas

visando identificar e corrigir inconsistências em relação aos requisitos.

• GRE5: mudanças nos requisitos são gerenciadas ao longo do projeto.

Conduzir o desenvolvimento de software de forma que as pessoas, o produto, o

processo e todo o projeto sejam gerenciados de forma efetiva é o principal objetivo do

processo de Gerência de Projetos (GPR) [SOFTEX 2016]. Embarcar-se em um projeto

sem a definição de um plano que mitigue os riscos, custos e recursos para o

Page 247: Anais do SMSI 2016

desenvolvimento do mesmo, pode não ser uma decisão sábia a se tomar [Pressman,

2011].

No nível G do MPS-BR, o processo de GPR é o que possui maior incorporação e

evoluções entre os níveis de maturidade. Os resultados deste processo, em resumo, são:

• GPR1: o escopo do trabalho para o projeto é definido.

• GPR2: tarefas do projeto são dimensionadas através de métodos adequados.

• GPR3: o modelo e as fases do ciclo de vida do projeto são definidos.

• GPR4: o esforço para as tarefas é estimado com base em dados históricos.

• GPR5: o orçamento, cronograma, marcos e pontos de controle, são

estabelecidos e mantidos.

• GPR6: os riscos do projeto são identificados e o seu impacto, probabilidade

de ocorrência e prioridade de tratamento são determinados e documentados.

• GPR7: os recursos humanos para o projeto são planejados considerando o

perfil e o conhecimento necessários para executá-lo.

• GPR8: os recursos e o ambiente de trabalho necessários são planejados.

• GPR9: os dados relevantes do projeto são identificados e planejados quanto à

forma de coleta, armazenamento e distribuição.

• GPR10: planos específicos para a execução do projeto são estabelecidos.

• GPR11: a viabilidade de atingir as metas do projeto é avaliada considerando

restrições e recursos disponíveis.

• GPR12: o Plano do Projeto é revisado com todos os interessados.

• GPR13: o escopo, as tarefas, as estimativas, o orçamento e o cronograma do

projeto são monitorados em relação ao planejado.

• GPR14: os recursos materiais e humanos bem como os dados relevantes do

projeto são monitorados em relação ao planejado.

• GPR15: os riscos são monitorados em relação ao planejado.

• GPR16: o envolvimento das partes interessadas no projeto é planejado,

monitorado e mantido.

• GPR17: revisões são realizadas em marcos do projeto.

• GPR18: registros de problemas e o resultado da análise de questões

pertinentes, dependências críticas, são estabelecidos com as partes interessadas.

• GPR19: ações para corrigir desvios em relação ao planejado e para prevenir a

repetição dos mesmos são estabelecidas, implementadas e acompanhadas.

Os resultados de processos apresentados acima são as referências do presente

trabalho para analisar o quão adequado o processo de software das empresas

entrevistadas, se encontra. Essas organizações têm em comum o fato de favorecerem a

inovação em seus produtos, isso pode dificultar o planejamento de trabalho [Ries 2012]

Page 248: Anais do SMSI 2016

e consequentemente prejudicar a evidenciar resultados. Isso influenciou diretamente a

definição da metodologia adotada por este trabalho, que é apresentada a seguir.

3. Metodologia

O primeiro passo da metodologia utilizada foi realizar um estudo do modelo

MPS-BR, de forma a aprofundar a compreensão dos processos do nível G em contraste

com as preconizações da ES. Posteriormente, foi criado um roteiro de pesquisa utilizado

para entrevistar as startups, como também um mecanismo de definição dos índices de

adequação dos resultados analisados (Figura 1), baseado no Guia de Avaliação MPS.

Figura 1 – Categorização dos resultados MPS em subáreas da ES

A Figura 2, abaixo, mostra como os resultados MPS de GPR e GRE foram

estruturados para facilitar a análise e entendimento dos resultados.

Figura 2 – Categorização dos resultados MPS em subáreas da ES

Page 249: Anais do SMSI 2016

A terceira etapa foi contatar empresas startups para participarem da pesquisa

deste trabalho e consequentemente terem o processo de desenvolvimento de software

analisado. Após um contato de apresentação da pesquisa, três startups com quatro

projetos foram selecionadas para participar da pesquisa, sendo elas: uma do ramo de

eficiência energética com dois projetos de analisados; outra atuante na área de

desenvolvimento de sistemas web, tendo um de seus projetos analisado e uma terceira

startup do segmento de gerência de projetos, também com um projeto avaliado.

O quarto e penúltimo passo foi conduzir a análise do processo de

desenvolvimento software nas organizações. Nesta etapa, foi elicitado o grau de

adequação dos resultados de GPR e GRE, utilizando como referência o guia MPS-BR e

os mecanismos construídos na segunda fase desta metodologia.

Por último, os resultados obtidos foram consolidados, apresentados em gráficos

demonstrativos e disponibilizados individualmente para as startups participantes. Para

manter a confidencialidade de informações junto às empresas que se prontificaram a

participar deste trabalho, seus nomes, juntamente com o de seus projetos estão omitidos

na apresentação dos resultados no próximo capítulo.

4. Resultados Obtidos

Os resultados deste trabalho estão dispostos sob duas perspectivas. A primeira mostra o

percentual de adequação dos processos de GRE de GPR a subáreas atribuídas, para cada

projeto analisado, sendo eles, quatro no total. A segunda visão apresenta o índice de

aderência geral dos projetos de acordo com o tempo em que está em execução.

Os nomes dos projetos analisados foram substituídos pelas siglas: A, B, C e D.

4.1 Projeto A

Os níveis de adequação mais elevados para os processos de GRE e GPR foram

evidenciados no projeto A, que atingiram a aderência média de 60% e 58%,

respectivamente. A Figura 3 mostra o grau de adequação dos processos e suas subáreas

no Projeto A.

Figura 3 – Grau de Adequação de Processos no Projeto A

O projeto A de uma maneira geral apresentou o melhor índice de adequação de

processos. No entanto, é perceptível uma leve carência na aderência nas subáreas de

disponibilização de informações em GPR e negociação de requisitos em GRE.

Page 250: Anais do SMSI 2016

4.2 Projeto B

Foi constatado no projeto B, um índice considerável de adequação das GREs de

documentação de requisitos. O processo adjacente a esta subárea atingiu

aproximadamente 40% de adequação e mostrou-se consideravelmente implementado.

Quanto ao processo de gerência de projetos, constatou-se que o projeto em questão

evidenciou o maior nível de adequação para a subárea de execução de tarefas, dentre os

quatro projetos analisados. No entanto como não foram encontrados resultados para a

subárea de controle de riscos, o processo de GPR obteve aproximadamente 30% de

aderência. A Figura 4 expõe esse contexto.

Figura 4 – Grau de Adequação de Processos no Projeto B

O projeto B mostrou-se com processos pouco definidos, provavelmente devido

ao fato de não terem sido encontradas evidências que compreendessem todas as

subáreas dos processos, mesmo que parcialmente. No entanto, é um percentual

considerável, tomando-se em conta o cenário com poucos recursos e ferramentas de

trabalho, em que foi evidenciado.

4.3 Projeto C

O projeto C, diferentemente dos outros, apresentou diversos resultados com a

classificação NA (não foi possível avaliar), como preconizado no guia de avaliação

MPS-BR, isso dificultou a definição do grau de aderência de seus processos, resultando

em aproximadamente 10% de adequação para os processos de GRE e GPR. Isso pode

ser visto na Figura 5 abaixo.

Figura 5 – Grau de Adequação de Processos no Projeto C

Page 251: Anais do SMSI 2016

Neste projeto, o baixo índice de adequação dos processos atribuiu-se

principalmente, pelo desconhecimento das práticas de requisitos e projeto por parte da

startup analisada, além da impossibilidade da dedicação em tempo integral de pelo

menos um membro da equipe. Esse cenário foi evidenciado em algumas das empresas

analisadas, no entanto, essas condições propiciaram um maior impacto neste projeto (C).

4.4 Projeto D

O último projeto apresentado (D) mostrou-se com o processo de gerência de requisitos

parcialmente adequado. No entanto, a subárea de elicitação de requisitos apresentou um

índice relevante de aderência, garantindo aproximadamente 40% de aderência para o

processo de GRE. Para GPR, o grau de aderência foi próximo de 30%, no entanto

observou-se que a subárea de gerência de informações destacou-se consideravelmente

com quase 70% de adequação, como visto na Figura 6 abaixo.

Figura 6 – Grau de Adequação de Processos no Projeto D

No projeto D, novamente, não foi possível evidenciar resultados para a subárea

de controle de riscos. Portanto, percebe-se que é possível chegar a algumas conclusões

relevantes, levando em consideração a representação dos resultados obtidos. Para

fortalecer essas conclusões, na próxima seção é mostrado o resultado geral do grau de

adequação dos projetos, em função do seu tempo de execução.

4.5 Visão Geral dos Projetos Analisados

Três dos quatro projetos escolhidos para a análise de adequação estão em estágios de

execução distintos. Ao definir o termo startup Mark Crowne (2002) refere-se a esse

vocábulo como sendo a primeira das três fases do modelo de evolução de um produto.

Essas etapas são: Startup o período entre a concepção do produto e sua primeira venda,

Stabilization a fase em que o primeiro cliente recebe produto, e esse se torna estável

para ser recomendado a outro cliente e Growth quando o produto pode ser encomendado

para um novo cliente, sem sobrecarregar a equipe de desenvolvimento.

Tomando como referência a perspectiva introduzida por Crowne (2002),

juntamente com a média aritmética de adequação dos processos analisados em cada

projeto, a Figura 7 mostra esses elementos correlacionados ao cenário do presente

trabalho.

Page 252: Anais do SMSI 2016

Figura 7 – Grau de Adequação Geral dos Projetos pelo Estágio de Execução

Com a visão geral do grau de adequação dos processos é possível analisar mais

facilmente o cenário da aderência dos resultados obtidos.

5 Conclusões

Este trabalho alcançou o objetivo de analisar o processo de desenvolvimento de

software de startups de base tecnológica, para obter o índice de adequação de suas

práticas em gerência de requisitos e gerência de projetos. Esses segmentos foram

exemplificados como de suma importância, para o sucesso dos projetos das

organizações alvo.

O guia de referência MSP-BR mostrou-se muito satisfatório e aderente à

necessidade de identificar e quantificar resultados de processos no ambiente em que foi

empregado.

A pesquisa, além de ter contribuído para a evidência e geração de resultados

junto às organizações entrevistadas, forneceu dados importantes sobre a qualidade das

suas práticas de desenvolvimento. Podendo essas organizações, mitigar ações para

evoluir seu processo de construção de produtos informatizados e consequentemente

diminuir as suas possibilidades de fracasso.

Com isso, os quocientes do presente artigo permitem que algumas abstrações

sejam facilmente obtidas, essas conclusões estão expostas a baixo.

Em primeiro lugar, percebeu-se que a cultura organizacional estabelecida para

realizar o desenvolvimento de software nos projetos analisados, foi o fator de maior

significância para o índice de aderência alcançado em cada projeto. Deste modo, as

startups em estágio growth ou que estivessem executando o projeto analisado há mais

tempo, não necessariamente obtiveram seus índices de adequação mais bem situados.

Em segundo, a característica de foco nos resultados preconizada pelos métodos

ágeis dificulta a geração de evidências. Logo, muitos resultados investigados foram

desconsiderados, devido à falta de comprovações.

Por último, os 24 resultados de processos que compõem o nível G do MPS-BR,

fizeram a análise de processo em startups tornar-se de certa forma exaustiva. O volume

de resultados pode desencorajar as organizações a praticá-los em sua totalidade. Logo,

Page 253: Anais do SMSI 2016

devido ao contexto limitado de recursos e processos nas pequenas empresas de TI, é

possível que somente as práticas de resultados mais essenciais sejam adotadas.

Essas reflexões e os resultados trazidos por este trabalho possibilitam alguns

cenários de continuidade para o mesmo. Os mecanismos utilizados na metodologia, por

exemplo, podem ser vistos como base de critérios ou fonte de requisitos, para

ferramentas informatizadas que facilitem, desde o estágio inicial da execução de um

projeto, a geração de resultados (evidências) de maneira automatizada. Isso poderá

contribuir para a redução do custo de adoção e formalização de práticas de processos.

Outra possibilidade poderá ser a criação de um modelo de definição de processos

voltados para pequenas empresas de software. Esse modelo pode, por exemplo, propor

resultados de processos que levem em consideração a limitação de recursos das

organizações alvo e que busque gradualmente melhorar os processos organizacionais,

começando pelo contexto de empresas que são a base da indústria de tecnológica

atualmente, por exemplo, as startups.

Em vista dos argumentos apresentados, é possível usar os resultados alcançados,

para apresentar soluções voltadas para o perfil organizacional foco deste trabalho.

Sugere-se, portanto, que o próximo estágio, em quaisquer das possibilidades destacadas

acima, utilize-se dos dados obtidos nesta pesquisa, assim como as referências base da

Engenharia de Software, para alvitrar mecanismos que melhorem a eficiência de

processos de desenvolvimento de software e contenham o índice de fracasso dos

projetos das pequenas empresas de base tecnológica.

Referências

Crowne, M. (2002) “Why Software Product Startups Fail and What To Do About It”, In:

IEEE Engineering Management Conference, Cambridge.

Filho, W. P. (2003) “Engenharia de Software – Fundamentos Métodos e Padrões”, 2ed,

LTC, Rio de Janeiro – RJ.

Fowler, M.; Highsmith, J.; et. Al. (2001) “The Agile Manifesto”

www.martinfowler.com/articles, Março.

Griffith, E. (2014) “Why Startups Fail, According Their Founders”,

http://fortune.com/2014/09/25/why-startups-fail-according-to-their-founders/,

Janeiro.

Herfley C. (2016) “Kanban Roadmap – How to Get Started in 5 Steps”,

https://leankit.com, Março.

Patel N. (2015) “90% of Startups Fail: Here’s What You Need To Know About The 10%

Percent%”, http://www.forbes.com/sites/neilpatel/2015/01/16/90-of-startups-will-

fail-heres-what-you-need-to-know-about-the-10/, janeiro.

PEGN – Pequenas Empresas Grandes Negócios (2013), “5 Grandes Empresas que

Investem em Startups no Brasil“,

http://revistapegn.globo.com/Revista/Common/0,,ERT336654-17180,00.html, Junho.

Pressman R. (2001) “Engenharia de Software – Uma Abordagem Profissional, 7ed,

AMGH, São Paulo –SP.

Page 254: Anais do SMSI 2016

Ries, E. (2012) “The Lean Startup – A startup Enxuta”, 1st ed., Texto Editores Ltda. São

Paulo – SP.

Schwaber, K (2014) “Agile Project Management with Scrum - Developer Best

Practices”, 1st ed., Microsoft Press.

SOFTEX - Associação para Promoção da Excelência do Software Brasileiro (2015)

“Melhoria do Processo de Software Brasileiro (MA-MPS, Guia de Avaliação)”,

http://www.softex.br/wp-content/uploads/2016/04/MPS.BR_Guia_de-

Avaliacao_2015-Parte-1-08-out-com-ISBN.pdf, Junho.

SOFTEX - Associação para Promoção da Excelência do Software Brasileiro (2016)

“Melhoria do Processo de Software Brasileiro (Guia Geral MPS de Software)”,

http://www.softex.br/wp-content/uploads/2016/04/MPS.BR_Guia_Geral_Software

_2016-com-ISBN.pdf, Junho.

Sommerville, I. (2011) “Engenharia de software”, 9ed, Pearson, São Paulo - SP.

Page 255: Anais do SMSI 2016

Usabilidade em Ambientes Virtuais para Ensino a Distância: Um

Estudo de Caso no Moodle da PUC Minas Virtual

José Cássio Araújo1, Glívia A. R. Barbosa

2, Geanderson Santos

3

1Pontíficia Universidade Católica de Minas Gerais,

2Centro Federal de Educação

Tecnológica de Minas Gerais, 3Universidade Federal de Minas Gerais

[email protected], [email protected],

[email protected]

Resumo. Ambientes virtuais de aprendizado proporcionam aos seus usuários uma

gama de recursos e ferramentas a serem utilizados, sobretudo na modalidade do

ensino à distancia. Desse modo, se faz relevante potencializar a usabilidade

desses sistemas de modo que possam estar adequados ao uso de seus diferentes

tipos de usuários. Motivados por esse contexto, o objetivo deste trabalho consistiu

em apreciar a usabilidade do Moodle na perspectiva de graduandos da PUC

Minas. Os resultados apontaram para problemas de usabilidade que podem

dificultar o uso dessa plataforma por esse perfil de usuários.

1. Introdução

A utilização de softwares como ferramentas para apoiar a aprendizagem dos alunos é uma

realidade em várias instituições de ensino, sobretudo naquelas que oferecem a modalidade

de educação à distancia (EaD). Neste sentido, o Moodle, que é um Ambiente Virtual de

Aprendizagem (AVA), que possui recursos para compartilhamento de materiais, realização

de avaliações e aprendizado colaborativo (e.g., fóruns, chats), se popularizou [Abed 2010],

devido às suas características nativas e por ser um software livre de código aberto, que

permite customizações [Moodle, 2016]. Segundo os dados divulgados pela própria

plataforma, o Brasil é o terceiro maior utilizador do Moodle no mundo [Moodle, 2016].

Diante da crescente adoção dos AVAs no ambiente educacional (e.g.,

Universidades, Escolas Técnicas, Escolas de nível Médio e Fundamental), dos diferentes

níveis de conhecimento e perfis dos usuários desses recursos e de por seus objetivos

pedagógicos, é extremamente relevante garantir que esse tipo de sistema contemple

requisitos de usabilidade, que de acordo com a norma ISO 9126-3, “refere-se à capacidade

de um software de ser compreendido, aprendido, utilizado e ser atrativo para o utilizador,

em condições específicas de utilização” [ISO 9126-3][Coelho, 2009].

Motivados por esse cenário, este trabalho realizou uma avaliação da usabilidade da

plataforma Moodle, como uma ferramenta para suporte aos cursos de graduação na

modalidade de EaD. Para isso foi realizado um estudo de caso, em que o Moodle da PUC

Minas Virtual foi avaliado sob as perspectivas de especialistas em Interação Humano

Computador (IHC) e de graduandos da Pontifícia Universidade Católica de Minas Gerais

(PUC-MG). Esse tipo de avalição é importante porque dentre os desafios envolvidos no

projeto e avaliação de software para o domínio educacional, destacam-se a necessidade de

avaliar a aprendizagem dos alunos, além da qualidade da interação, e a necessidade de

Page 256: Anais do SMSI 2016

oferecer apoio aos alunos durante a realização de atividades [de Almeida e Azevedo 2009].

Nesse sentido, os resultados desta pesquisa apontaram para problemas de

usabilidade do Moodle que podem dificultar, ou até mesmo inviabilizar, o uso dessa

plataforma como apoio ao EaD. Dessa forma esse trabalho apresenta contribuições, não

apenas para a melhoria do Moodle da PUC Minas Virtual, mas também para outros

sistemas similares (e.g., Moodle de outras instituições). Isso porque os resultados

apresentados permitem uma reflexão sobre como a usabilidade impacta no uso dos

ambientes virtuais de aprendizado (AVAs), de modo que os profissionais e pesquisadores

da área busquem potencializar essa qualidade de uso (i.e., a usabilidade) no modelo de

interface e interação dos AVAs novos e/ou existentes.

2. Trabalhos Relacionados

Na literatura é possível encontrar trabalhos que buscaram apreciar o Moodle, sob a

perspectiva de diferentes qualidades de uso. Por exemplo, Capelão et al. (2011) aplicaram o

Método de Inspeção Semiótica (MIS) e o Método de Avaliação de Comunicabilidade

(MAC) [Barbosa e Silva, 2010] para avaliar a comunicabilidade desse AVA. A avaliação

foi feita com usuários surdos e ouvintes, no Moodle da Universidade Federal de Minas

Gerais. Como resultado os autores observaram que o Moodle apresenta problemas de

comunicação que comprometeram o uso de algumas funcionalidades, tanto por usuários

surdos, quanto por ouvintes.

Alguns trabalhos focaram na avaliação da acessibilidade do Moodle por pessoas

com necessidades especiais [Jatobá et al., 2009; Rezende, 2007]. Em ambos os trabalhos

observou-se que o Moodle pode ser utilizado como um facilitador da inclusão digital para

esse tipo de usuário, entretanto ainda é necessário fazer algumas adaptações em sua

interface para pessoas com necessidades especiais.

Magalhães et al. (2010) avaliaram a usabilidade no Moodle IFAM (Instituto Federal

de Educação Ciência e Tecnologia – Amazonas). Para esta avaliação, foram utilizados os

métodos do percurso cognitivo e o MAC [Barbosa e Silva, 2010]. Observou-se que parte

dos problemas identificados pode ser resolvido conforme as habilidades dos

administradores do Moodle. Com isso, os autores sugerem a necessidade de definir boas

práticas de usabilidade na configuração do Moodle.

Nunes e Torres (2012) realizaram uma pesquisa que analisou os recursos oferecidos

pelo Moodle, enquanto ferramenta para apoio à aprendizagem organizacional, para

capacitar recursos humanos que atuam dentro da Universidade Federal de Santa Catarina

(UFSC). Constatou-se que a aprendizagem organizacional pode ser apoiada nos recursos do

Moodle, desde que sejam observados alguns aspectos, como por exemplo, incentivo ao uso

de ferramentas como chats e grupos de discussão.

O presente trabalho se difere dos demais uma vez que foca na avaliação da

usabilidade do Moodle customizado para dar suporte a modalidade de EaD da PUC Minas.

Logo, embora essa plataforma tenha sido apreciada no contexto de outras instituições de

ensino, não foram encontrados trabalhos que focassem na sua avaliação de usabilidade para

este cenário.

Page 257: Anais do SMSI 2016

3. Estudo de Caso – Metodologia e Principais Resultados

A metodologia para condução desse trabalho consistiu em uma abordagem qualitativa

dividida em três etapas. A primeira etapa consistiu em avaliar a usabilidade do Moodle

PUC Minas Virtual, sob a perspectiva de especialistas em Interação Humano Computador

(IHC). Para isso foi utilizado o método mais consolidado para esse tipo de avaliação,

denominado Avaliação Heurística, proposto por Nielsen (1994). Esta avaliação permitiu

identificar potencias problemas de usabilidade que poderiam ser vivenciados pelo usuário

durante a interação com o sistema [Nielsen, 1994] [Barbosa e Silva, 2010].

A segunda etapa, por sua vez, consistiu em aplicar um questionário online para

avaliar a experiência de uso dos usuários do Moodle da PUC Minas Virtual.

Posteriormente, os resultados das duas avaliações foram triangulados. A triangulação

refere-se a um procedimento da pesquisa qualitativa, realizada através da comparação de

dados extraídos por diferentes métodos, cujo intuito é conferir a validade dos resultados

obtidos em uma pesquisa científica. Em outras palavras, seu objetivo não é replicar

resultados, mas sim, verificar se os mesmos são coerentes, plausíveis e consistentes [Cho &

Trent, 2006]. Na próxima seção caracterizamos o ambiente onde o estudo de caso foi

conduzido.

3.1 Ambiente do Estudo de Caso – Moodle da PUC Minas Virtual

A Pontifícia Universidade Católica de Minas Gerais (PUC Minas) é uma instituição de

ensino superior, privada que até o ano de 2014, contava com mais de 44 mil alunos de

graduação, sendo que desses, aproximadamente 7 mil cursavam a modalidade de EaD

[PUC Minas em números, 2014].

Para dar suporte ao ensino presencial e a distancia, a partir de 2003, a PUC Minas

passou a utilizar o Moodle PUC Minas Virtual (PMV), um software livre com código

aberto, que através de customizações, oferece recursos para que professores e alunos

possam interagir por meio de provas, trabalhos e avaliações multidisciplinares. Além disso,

os usuários dessa plataforma têm acesso ao material didático das disciplinas e colaboram

entre si, através de fóruns e chats. Os cursos da PUC Minas Virtual, disponíveis no

Moodle, são destinados a alunos no Brasil, em todos os campi, e também no exterior. Na

próxima seção é apresentada a metodologia, bem como os resultados da primeira etapa do

estudo de caso.

3.2 Usabilidade do PMV sob a perspectiva de Especialistas

Uma das formas de avaliar a usabilidade de um sistema é executar a Avaliação Heurística

(AH) que consiste em um método consolidado para avaliar interfaces [Barbosa e Silva,

2010]. A AH é um método de inspeção, executado por especialistas em IHC, para

identificar potenciais problemas de usabilidade. Através desse método o especialista julga a

conformidade da interface em relação a um conjunto de 10 heurísticas de usabilidade,

propostas por Nielsen [1993].

Para cada problema identificado o avaliador associa uma ou mais heurísticas

Page 258: Anais do SMSI 2016

violadas e atribui um grau de gravidade. A escala de gravidade compreende valores entre 0

e 4, em que quanto maior o valor, mais grave o problema de usabilidade no sentido de

inviabilizar o uso do sistema [Nielsen, 1994] [Barbosa e Silva, 2010].

Nessa etapa, seguiu-se os passos da AH, com o objetivo de identificar os principais

problemas de usabilidade que os graduandos poderiam vivenciar no Moodle PUC Minas

Virtual. Para isso foram considerados os seguintes cenários, considerados frequentes e

críticos para esses alunos: (1) fazer login no ambiente virtual da PUC Minas (entrar no

sistema), (2) visualizar o cronograma da disciplina, (3) baixar os últimos materiais de

estudos, (4) realizar a entrega de atividade, (5) enviar e-mail para o professor e (6) interagir

com PMV através da opção Fórum de Discussão.

A avaliação foi realizada nas três primeiras semanas de fevereiro de 2015 por dois

avaliadores com experiência na aplicação da AH e os resultados foram validados por um

especialista na área de IHC (i.e., profissional e pesquisador da área com mais de cinco anos

de experiência). A seguir os principais resultados dessa avaliação são apresentados e

discutidos.

3.2.1 Análise dos Potenciais Problemas Identificados

Após a realização da AH, foram contabilizados no total 11 problemas que violaram pelo

menos uma heurística. Dos problemas encontrados, é possível destacar, por exemplo, a

inconsistência entre o login para acesso ao ambiente da PUC Minas Virtual (PMV) e login

de acesso a funcionalidades específicas da PMV (e.g., enviar mensagem). Isso porque, no

primeiro acesso (i.e., para acessar os recursos do ambiente) a senha pode ser digitada por

letras maiúsculas e minúsculas, sem que haja uma validação (e.g., a senha “TESTE”, será

validada se o usuário digitar “teste” ou “TESTE”).

Já no acesso a funcionalidade específica do PMV para envio de mensagens, o

usuário deve digitar a mesma senha do primeiro acesso, porém, o sistema diferencia letras

maiúsculas e minúsculas. Nesse caso, se a senha correta é “TESTE” e o usuário acessou o

sistema com “teste”, ao informar novamente a senha com letras minúsculas, não será

possível acessar a funcionalidade para envio de mensagens. Sendo assim, o sistema

apresenta um comportamento inconsistente durante os processos de autenticação no seu

ambiente. Esse é um tipo de problema de gravidade 4, que pode impedir o acesso ao PMV,

inviabilizando seu uso.

Uma vez que cada problema poderia ser associado à ausência de uma ou mais

heurísticas de usabilidade e que uma mesma heurística poderia ser violada em diferentes

problemas, para realizar a análise proposta e apresentar os resultados de forma consolidada,

verificou-se quantas heurísticas de usabilidade foram violadas e com que frequência (i.e.,

incidência) essas violações aconteciam. A Figura 01 apresenta os resultados consolidados.

Após a consolidação dos problemas, verificou-se 90% as heurísticas de usabilidade

foram violadas pelo menos uma vez. Por meio da Figura 01 verifica-se que as principais

heurísticas violadas foram “H7. Reconhecimento em vez de memorização”, “H4.

Consistência e padronização”, “H3. Controle e liberdade do usuário” e “H1 Visibilidade do

Estado do Sistema”.

Page 259: Anais do SMSI 2016

Figura 1. Incidência de Violação das Heurísticas nos Problemas de Usabilidade do

PMV

A frequência similar de problemas violando essas quatro heurísticas pode estar

associada à relação existente entre as mesmas. Isso porque, se o projetista não faz uso de

elementos em sua interface que façam analogia ao mundo real, dificilmente ele consegue

manter uma consistência na interface e o usuário tem dificuldade de reconhecer as

possibilidades de interação através do sistema e, ao invés disso, ele memoriza como

interagir.

Esses problemas comprometem outro princípio de usabilidade, referente ao

“controle e liberdade do usuário”, uma vez que, se o usuário não conhece as possibilidades

de interação ele fica limitado durante o uso do sistema. De forma complementar, verificou-

se que o Moodle da PMV, muitas vezes, não apresenta feedback e o design de suas telas

contêm informações desnecessárias, que não são frequentemente utilizadas,

27%

9%

36%

45%

9%

9%

45%

9%

18%

0%

H1. Visibilidade do estado do sistema

H2. Correspondência entre o sistema e o mundoreal

H3. Controle e liberdade do usuário

H4. Consistência e padronização

H5. Prevenção de erro

H6. Ajuda aos usuários para reconhecerem,diagnosticarem e se recuperarem de erros

H7. Reconhecimento em vez de memorização

H8. Flexibilidade e eficiência de uso

H9. Design estético e minimalista

H10. Ajuda e documentação

Page 260: Anais do SMSI 2016

comprometendo “H1. Visibilidade do estado do sistema”, “H8. flexibilidade e eficiência de

uso” e “H9. design estético e minimalista”.

Em relação a gravidade dos problemas, 55% foram classificados como problemas

graves (gravidade 3) e 36% como problemas catastróficos. Esses resultados reforçam a

complexidade dos problemas de usabilidade do Moodle da PUC Minas Virtual e, conforme

argumentado por Magalhaes et al. (2010), indicam que a persistência dos mesmos pode

comprometer a experiência satisfatória de uso dos usuários neste tipo de sistema.

3.3 Usabilidade do PMV sob a perspectiva da Experiência do Usuário e

Triangulação dos Resultados

A segunda etapa dessa pesquisa consistiu em avaliar a usabilidade do Moodle da PUC

Minas Virtual (PMV) sob a perspectiva de seus usuários, os graduandos da PUC-MG. A

pesquisa foi conduzida através da aplicação de um questionário online, que buscou

identificar (1) o perfil do participante da pesquisa e (2) a percepção desses usuários quanto

à usabilidade do sistema.

A aplicação do questionário ocorreu entre os dias 17 e 25 de abril de 2015,

totalizando 9 dias. O questionário foi divulgado e compartilhado publicamente através de e-

mails e das disciplinas ofertadas no Moodle do PMV. No total 230 graduandos da PUC

Minas responderam ao questionário.

Desses participantes, todos foram classificados com idade acima de 20 anos. Sendo

63% homens e 37% mulheres. Em relação a frequência de uso do PMV, 20% declararam

acessar o sistema apenas uma vez por semana, enquanto a maioria (40%) acessam de 2 a 3

vezes por semana. Os que acessam 4 vezes ou mais representam 27% e, por último, os que

não acessam semanalmente são representados por 13% dos participantes.

Em relação a usabilidade, participantes foram convidados a indicar qual ou quais

propriedades de usabilidade estavam sendo violadas pelo Moodle PUC Minas Virtual e que

eles consideram relevantes para maximizar a experiência de uso nesse ambiente. Em outras

palavras, os usuários deveriam apontar quais heurísticas de Nielsen (1994) estavam sendo

negligenciadas no modelo de interface e interação do sistema em análise e que

comprometiam a usabilidade do PMV.

Os resultados dessa avaliação são apresentados no gráfico da Figura 2. Nessa

análise, embora as opções “Nenhuma violação” e “Outros problemas” estivessem

disponíveis, é possível observar que todas as heurísticas de usabilidade foram violadas na

opinião de pelo menos 60% dos usuários (i.e., da maioria).

Constata-se então que, para a maioria dos participantes dessa pesquisa, o sistema

PMV apresenta problemas que comprometem a visibilidade do estado do sistema, a

correspondência entre o sistema e o mundo real, o controle e liberdade do usuário, a

consistência e padronização, a prevenção de erros, a recuperação de erros, o

reconhecimento das funcionalidades, e, por fim, a qualidade das opções de ajuda.

Tais resultados reforçam a existência de problemas na interface e interação do PMV

que comprometem sua usabilidade, conforme já indicado pelos especialistas e agora

Page 261: Anais do SMSI 2016

confirmados pelos usuários desse ambiente virtual.

Figura 2. Violação das Heurísticas de Usabilidade na visão dos Usuários

4. Conclusão e Trabalhos Futuros

Este trabalho buscou avaliar a usabilidade de ambientes virtuais de aprendizagem, através

de um estudo de caso no Moodle PUC Minas Virtual, considerando o perfil de alunos do

ensino superior na modalidade de EaD. Para isso foi conduzida uma metodologia

qualitativa que avaliou o sistema tanto sob a perspectiva de especialistas em interação,

quanto na perspectiva de seus usuários.

Os resultados desta pesquisa apontaram para problemas de usabilidade no Moodle

PUC Minas Virtual que podem dificultar, ou até mesmo inviabilizar, o uso dessa

plataforma como apoio ao EaD. Dessa forma, esses resultados são relevantes tanto para

melhorar a interface do Moodle avaliado no estudo de caso, quanto para incentivar a

melhoria de outros sistemas similares.

Contudo, é importante destacar que a relevância do trabalho não se limita a essa

contribuição, isso porque inicialmente, a metodologia adotada neste estudo de caso pode ser

reproduzida na avaliação do Moodle em outros contextos ou ainda na avaliação de outros

AVAs. De forma análoga, a resolução dos problemas de usabilidade aqui identificados

podem auxiliar os projetistas de interface na melhoria desse tipo de ferramenta, bem como

chamar atenção dos mesmos para que evitem esses problemas em novas versões

desenvolvidas.

Nesse sentido, como trabalhos futuros propõe-se a criação de um design com

melhorias e/ou um conjunto de melhores práticas que descrevam princípios para

potencializar a usabilidade em AVAs. Além disso, outra direção futura consiste na

avaliação desses AVAs sob as perspectivas de outros perfis, como, por exemplo, pessoas

com necessidades especiais e outras qualidades de uso.

Referências

ABED (2010). Censo 2010. Relatório Analítico de Aprendizagem a Distância no Brasil.

Disponível em: <http://goo.gl/lBtfPX>. Acesso maio 2016.

Barbosa, Simone Diniz; Silva, Bruno Santana Interação Humano Computador. Rio

0%

20%

40%

60%

80%

100%

H1 H2 H3 H4 H5 H6 H7 H8 H9 H10

Page 262: Anais do SMSI 2016

de Janeiro: Elsevier, 2010.

Capelão, L.; Coutinho, F.; Pereira, K.; Prates, R. (2011). Avaliação de

comunicabilidade do Moodle para usuários surdos e ouvintes. In: Proc. IHC of

IHC + CLIHC 2011, SBC, (2011).

Cho, J. & Trent, A. (2006). Validity in qualitative research revisited. Qualitative

Research, 6(3):319--340.

Coelho, M. L. (2009). Reflexões sobre a expansão universitária através dos

programas UAB e Reuni, no uso da modalidade educacional a distância.

Congresso Abed. Fortaleza, 2009.

de Almeida, P. H. B; Azevedo, R. (2009) Modelos mentais: um estudo de caso

referente à introdução de computadores no ensino. In: WIE. XXIX CSBC. Bento

Gonçalves, RS.

ISO/IEC TR 9126-3, Software engineering. Product quality - Part 3: Internal

metrics, 2010.

Jatobá, A.; Vrabl, S.; Barros, D. R.; Engelbrecht, A.; Braganholo, V. (2009)

Ampliando horizontes de aprendizagem: ensaios sobre o uso do Moodle por

deficientes visuais. In: XIII Congreso Internacional de Educación a Distancia,

Chile.

Magalhães, E. et al. (2010). Impacto da Usabilidade na Educação Distância: Um

Estudo de Caso no Moodle IFAM. In. Proc of. IX IHC 2010.

Moodle (2016). Moodle - modular object-oriented dynamic learning environment.

https://moodle.org/. Acesso em maio 2016.

Nielsen, J. Usability Inspection Methods. New York: John Wiley & Sons, 1994.

Nielsen, J. (2000) Why You Only Need to Test with 5 Users. Disponível em

http://www.nngroup.com/articles/why-you-only-need-to-test-with-5-users/

Acesso em maio/2015.

Nunes, C. S., Torres, M. K. L., et. al. (2012). O ambiente virtual de aprendizagem

Moodle: recursos para os processos de Aprendizagem Organizacional. In Proc of.

SBIE. 2012. RJ.

PUC Minas em números. (2014). Disponível em < http://goo.gl/gAXmB6>. Acesso

em maio 2016

Rezende, A. L. A. (2007). “Easy: Mediando as interações dos deficientes visuais

com o ambiente virtual de aprendizagem Moodle.”, In: CIEEE 07: Anais do VII

Congresso Iberoamericano de Informática Educativa Especial.

Page 263: Anais do SMSI 2016

Qualidade das Ferramentas para Gestão de Defeitos de

Softwares sob a lente da Usabilidade: Um estudo de caso da

ferramenta Bugzilla

Lara Gontijo1, Glívia A. R. Barbosa

2, Natália S. Sales

2

1Pontíficia Universidade Católica de Minas Gerais,

2Centro Federal de Educação

Tecnológica de Minas Gerais

[email protected], [email protected],

[email protected]

Abstract. Usability is an important attribute to be considered in determining

the quality of software. However, although you can find efforts to enhance this

quality of use in interactive systems, there is a lack of studies that focus on

assessing the usability of the tools that seek to support the process of software

development. Given this gap, the aim of this study is to characterize the

usability of tools for defect management, through a case study of Bugzilla, and

discuss the relevance of this type of assessment to qualify and categorize these

tools. The results pointed to usability problems that can hamper the use of this

type of tool and alert to the importance of this type of evaluation for other

tools that aim to support the process of software development.

Resumo. Embora seja possível encontrar esforços que visam potencializar a

usabilidade nos sistemas de informação, seja sob a perspectiva do projeto ou

da avaliação desses sistemas, existe uma carência de trabalhos que focam na

apreciação da usabilidade das ferramentas que buscam dar suporte no

processo de desenvolvimento de software. Considerando esta lacuna, o

objetivo deste trabalho consiste em caracterizar a usabilidade das

ferramentas para gestão de defeitos, através de um estudo de caso do

Bugzilla, e discutir a relevância deste tipo de avaliação para qualificar e

categorizar essas ferramentas. Os resultados apontaram para problemas de

usabilidade que podem dificultar, ou até mesmo, inviabilizar, o uso desse tipo

de ferramenta e alerta para importância desse tipo de avaliação para outras

ferramentas que visam suportar o processo de desenvolvimento de software.

1. Introdução

O crescente desenvolvimento tecnológico e a demanda por soluções de Tecnologia da Informação (TI), que potencializam a experiência satisfatória dos usuários (do inglês, User Experience – UX), têm exigido da Engenharia de Software constantes melhorias em seus processos, métodos e suas técnicas [Chaves, 2010]. Nesse sentido, cada vez mais, as atividades de desenvolvimento de software exigem pessoas treinadas, processos bem definidos e ferramentas adequadas [Chaves, 2010].

A adoção de ferramentas no processo de desenvolvimento de software tem dado suporte para a execução e o gerenciamento de várias fases dentro desse processo, sobretudo nas etapas relacionadas a fase de Testes [Delamaro, et al., 2007]. Por exemplo, a etapa de gestão de defeitos, a utilização de uma ferramenta automatizada permite acompanhar a qualidade do software em teste com base nos defeitos registrados

Page 264: Anais do SMSI 2016

ao longo do ciclo. Além disso, essas ferramentas oferecem um meio para promover a integração entre os times de desenvolvimento e testes e, de forma complementar, por meio de métricas e relatórios obtidos através dessas ferramentas a equipe pode promover a melhoria contínua do software [Delamaro, et al., 2007][Dias, 2014].

Pesquisadores e profissionais da área de Engenharia de Software podem encontrar ferramentas proprietárias e open source para gestão de defeitos. Alguns exemplos são: Mantis, Jira e Bugzilla [Delamaro, et al., 2007][Silva & Calazans, 2012]. Diante das diferentes opções alguns autores (e.g., [Veloso, et al., 2014][Silva & Calazans, 2012]) e profissionais tem buscado avaliar as ferramentas existentes, delineando suas vantagens e desvantagens. Esse tipo de análise é de extrema importância, uma vez que fornece insumo para que os interessados possam escolher qual ferramenta atende melhor suas demandas [Watanabe, 2014]. Contudo, a maioria dos trabalhos encontrados buscou apreciar as ferramentas em relação ao seu desempenho, negligenciando a avaliação de usabilidade das mesmas [Watanabe, 2014].

A usabilidade é um atributo de qualidade dos produtos que permite aferir se uma interface é fácil de utilizar na perspectiva de seu usuário, garantindo assim a eficiência de uso do software, a produtividade e a satisfação do usuário [Nielsen, 1993]. Em outras palavras, sistemas com alta usabilidade visam melhorar a experiência do usuário. Já os softwares que apresentam baixa usabilidade dificultam, ou até mesmo inviabilizam, sua utilização [Nielsen, 1993].

Nesse sentido, caracterizar a usabilidade das ferramentas de gestão de defeitos é relevante, uma vez que esse tipo de caracterização permite apreciar a interface de forma a avaliar os problemas que poderão ser vivenciados pelos usuários durante a interação, comprometendo a eficiência de uso e a produtividade. Além disso, em situações onde a usabilidade é considerada alta, esse tipo de caracterização permite identificar as estratégias de qualidades de uso que guiaram o design para potencializar o sucesso de adoção da ferramenta [Prates & Barbosa, 2003].

Motivados por esse cenário, o objetivo desse trabalho consiste em avaliar a usabilidade das ferramentas de gestão de defeitos e discutir a importância desse tipo de avaliação como uma das perspectivas que podem auxiliar na escolha de qual ferramenta adotar no processo de desenvolvimento de software. Para isso, foi realizado um estudo de caso na ferramenta para gestão de defeitos Bugzilla (http://www.bugzilla.org/), do inglês, Bug Tracking System, uma vez que essa é uma das ferramentas open source mais difundidas para esse fim no mercado de desenvolvimento de software [Bugzilla, 2015].

A metodologia adotada para alcançar o objetivo desse trabalho consistiu em avaliar a ferramenta sob as perspectivas de especialistas em usabilidade e dos usuários, para que posteriormente fosse possível triangular os resultados. Para avaliação dos especialistas, foi utilizado o método conhecido como Avaliação Heurística [Nielsen, 1993]. Já a avalição com os usuários foi realizada através da coleta de opinião sobre a usabilidade do Bugzilla. Os resultados indicaram que a interface da ferramenta avaliada apresenta problemas que podem comprometer a eficiência de uso e a produtividade dos testadores e desenvolvedores durante sua utilização.

Em termos de relevância, este trabalho apresenta uma perspectiva diferente de avaliação das ferramentas de gestão de defeitos utilizadas no processo de teste de software, uma vez que focou na usabilidade da ferramenta e não nos resultados por ela obtidos (i.e., desempenho), complementando assim outras análises existentes que não cobrem esse aspecto. Nesse sentido, esse trabalho apresenta contribuições não só para ajudar na escolha de um software para gerenciamento de defeitos, mas também para

Page 265: Anais do SMSI 2016

conscientizar sobre a importância de caracterizar a usabilidade de outras ferramentas que buscam apoiar o desenvolvimento de software. Além disso, a metodologia aqui apresentada poderá ser adotada por outros pesquisadores e/ou profissionais da área para caracterizar a usabilidade de ferramentas similares.

2. Trabalhos Relacionados

Nesta seção, apresentamos os principais trabalhos relacionados ao tema dessa pesquisa. No trabalho realizado por [Watanabe, 2014], o autor realiza uma análise comparativa entre as principais ferramentas de apoio aos testes de software, e posteriormente, apresenta um método para auxiliar empresas e testadores a escolherem as ferramentas de testes mais adequadas no atendimento às suas necessidades.

Já o trabalho realizado por [Carvalho, 2014], identificou vários critérios a serem utilizados na avaliação de ferramentas de gestão de testes. A partir da listagem desses critérios, o autor busca facilitar o trabalho das equipes de desenvolvimento na escolha dessas ferramentas. De forma complementar, o trabalho destaca a importância de se ter critérios para escolher a ferramenta mais eficiente. Finalmente, o trabalho realizado por [Silva & Calazans, 2012] apresenta uma análise comparativa entre o desempenho das ferramentas para automação de testes.

O presente trabalho se diferencia dos demais apresentados porque, embora ciente da importância de avaliar e comparar o desempenho das ferramentas existentes, foca na apreciação da usabilidade das ferramentas de gestão de defeitos, através de um estudo de caso no Bugzilla. Esse tipo de avaliação é relevante uma vez que permite apreciar a interface da ferramenta de forma a caracterizar os problemas que poderão ser vivenciados pelos usuários durante a interação, comprometendo a eficiência de uso e a produtividade dos mesmos [Prates & Barbosa, 2003]. De forma complementar, essa pesquisa poderá auxiliar pesquisadores e profissionais no julgamento sobre a aplicabilidade da ferramenta analisada para atender uma determinada demanda.

3. Metodologia

A metodologia proposta para a condução deste trabalho consistiu inicialmente em avaliar a usabilidade do Bugzilla sob a perspectiva de um especialista. Para isso foi utilizado o método de inspeção denominado Avaliação Heurística [Nielsen, 1993]. A partir dessa análise foi possível listar os potenciais problemas que poderiam ser vivenciados pelos usuários do Bugzilla durante a interação com o sistema e indicar quais princípios de usabilidade estavam sendo violados pela interface. É importante ressaltar que nesta etapa da metodologia os problemas são classificados como “potenciais”, uma vez que foram identificados por um especialista em Interação Humano Computador (IHC), através da inspeção, e não foram de fato vivenciados por um usuário em tempo de interação. Porém, isso não invalida a relevância dos resultados [Prates & Barbosa, 2003].

Com o intuito de avaliar e entender melhor os potenciais problemas observados, a próxima etapa da metodologia consistiu em triangular os resultados obtidos com outras fontes de investigação para a mesma questão de pesquisa [Cho & Trent, 2006]. Para isso foi aplicado um questionário, cujo objetivo foi coletar informações sobre os pontos fracos e fortes do Bugzilla, em relação a sua usabilidade, sob a perspectiva dos usuários (i.e., testadores e desenvolvedores de software). Essa triangulação permitiu

Page 266: Anais do SMSI 2016

verificar se os potenciais problemas listados durante a avaliação por inspeção, de fato estavam impactando os usuários durante a utilização da ferramenta.

4. Avaliação sob a Perspectiva de Especialistas em Usabilidade

Uma das formas de analisar a usabilidade de um sistema é executar a Avaliação Heurística (AH) que é um método consolidado para avaliação de interfaces [Nielsen, 1993]. A AH é um método de inspeção, executado por especialistas em IHC, recomenda-se de 3 a 5 avaliadores, para identificar potenciais problemas de usabilidade. Através desse método o especialista julga a conformidade da interface em relação a um conjunto de 10 heurísticas de usabilidade, propostas por Nielsen (1993).

Durante a avaliação, para cada problema identificado o avaliador associa uma ou mais heurísticas violadas e atribui um grau de gravidade. A escala de gravidade compreende valores entre 0 e 4, em que quanto maior o valor, mais grave o problema de usabilidade no sentido de inviabilizar o uso da interface [Nielsen, 1993].

Nessa etapa do trabalho, os passos da AH foram executados, com o objetivo de identificar possíveis problemas de usabilidade que poderiam ser vivenciados pelos usuários do Bugzilla. Para isso, foram considerados os seguintes cenários de interação com a ferramenta: (1) Cadastro de Bugs; (2) Consulta de Bugs cadastrados; (3) Resolução de um Bug e (4) Fechamento de um Bug verificado. Esses cenários foram considerados devido à relevância dos mesmos no processo de gestão de defeitos durante o processo de teste de software.

A análise foi conduzida por três especialistas em usabilidade (com experiência de pelo menos 05 anos na área de IHC e na aplicação do referido método). A avaliação foi realizada em um período de 05 dias, entre 11 e 16 de setembro de 2015. A seguir serão apresentados os problemas identificados, bem como uma discussão sobre os mesmos.

4.1. Análise dos Problemas

Depois de realizar a avaliação heurística, foram contabilizados no total doze problemas, considerados graves (gravidade 3), que violaram 50% das 10 heurísticas propostas por Nielsen (1993). Dentre os problemas é possível citar, por exemplo, o problema “P1 - Falta de feedback quando um bug é marcado como resolvido”, onde verificou-se que não há mensagem de aviso quando um bug é marcado como resolvido. Apenas o campo "status" do bug é atualizado. Isso pode ocasionar em um problema na produtividade do usuário, uma vez que ele pode não perceber que o bug foi resolvido e realizar a mesma tarefa repetidas vezes, até constatar que a mesma já havia sido realizada.

Uma vez que cada problema poderia ser associado à ausência de uma ou mais heurísticas de usabilidade e que uma mesma heurística poderia ser violada em diferentes problemas, para realizar a análise proposta e apresentar os resultados de forma consolidada, verificou-se quantas heurísticas de usabilidade foram violadas e com que frequência (i.e., incidência) essas violações aconteciam. A Figura 1 apresenta os resultados consolidados.

Page 267: Anais do SMSI 2016

Figura 1. Heurísticas violadas e incidência de violações nos problemas.

Conforme demonstrado na Figura 1, é possível perceber que as heurísticas que mais tiveram reincidências, em pelo menos 50% dos problemas, foram “Consistência e padrões” e “Ajuda e Documentação”, seguidas por “Visibilidade do status do sistema” e “Compatibilidade do sistema com o mundo real”. A violação dessas heurísticas tem um impacto negativo tanto na eficiência de uso, quanto na produtividade dos profissionais de testes e desenvolvimento, durante o uso da ferramenta.

A violação da “Consistência e Padrões” indica que o Bugzilla faz uso de elementos de interface que representam ambiguidades para o usuário, como é o caso dos campos de pesquisa na tela principal. Essa ambiguidade pode prejudicar a facilidade de uso durante a interação com a ferramenta, uma vez que o usuário pode levar muito tempo para descobrir como interagir com uma determinada funcionalidade já que seu significado não é claro.

E esse problema se agrava pela ausência de recursos eficientes de “Ajuda e Documentação”. Isso porque, ao se deparar com uma dúvida sobre como interagir com uma determinada funcionalidade, o usuário não encontra auxílio eficiente no sistema de ajuda da ferramenta. Neste caso, além de comprometer a eficiência de uso, impacta também na produtividade, porque o usuário deverá recorrer a outras opções – até mesmo fora do sistema – para sanar suas dúvidas em relação à ferramenta.

Já a violação da “Visibilidade do estado do sistema” indica que nem sempre o Bugzilla mantém seus usuários informados sobre o que está acontecendo na interface. Esse tipo de negligencia impacta diretamente na produtividade do usuário, uma vez que ele pode não perceber, por exemplo, que um bug foi cadastrado, atribuído a ele ou corrigido – por não receber uma notificação – e, por isso, o usuário pode deixar de realizar uma ação necessária em tempo hábil ou ainda executar a mesma tarefa várias vezes, até perceber que a mesma já havia sido realizada com sucesso.

Diante desses resultados, conclui-se que, embora o Bugzilla atenda algumas diretrizes de usabilidade em sua interface, foram identificados potenciais problemas, que, uma vez confirmados, durante a experiência do usuário com a ferramenta, poderão comprometer a produtividade e a satisfação dos mesmos.

5. Análise da Usabilidade do Bugzilla sob a Perspectiva do Usuário

Com o objetivo de avaliar a usabilidade do Bugzilla sob a perspectiva de seus usuários, foi aplicado um questionário online, composto por 16 questões de múltipla escolha. As questões foram agrupadas de forma a caracterizar: (1) o Perfil do participante da pesquisa e a (2) Experiência de uso com a ferramenta.

Page 268: Anais do SMSI 2016

A aplicação do questionário ocorreu no período de 11 dias, entre 25 de setembro e 6 de outubro de 2015. O mesmo foi divulgado e compartilhado publicamente entre profissionais que atuam com testes e desenvolvimento de software. Ao todo 30 usuários do Bugzilla, de diferentes empresas, participaram da pesquisa. Esse número é considerado relevante para a pesquisa proposta, uma vez que, segundo Nielsen (2003), no contexto de avaliação de interfaces, recomenda-se que pelo menos 5 usuários participem da avaliação, seja através de testes ou coleta de opinião [Nielsen, 2003].

Dos participantes, a maioria (40%) atua como desenvolvedores de software, 27% como analistas de testes/testadores, 10% atuam tanto com testes quanto com desenvolvimento e 23% em outras áreas de desenvolvimento de software que já fizeram uso do Bugzilla. Em relação ao tempo de uso da ferramenta, a maioria dos participantes (40%) utiliza o Bugzilla entre 1 e 2 anos, 27% utilizam a menos de um ano, 13% já utilizam o Bugzilla entre 3 e 4 anos, e 20% utilizam a mais de 5 anos. Quando questionados sobre a frequência de uso da ferramenta, constatou-se que 33% utilizam o Bugzilla 5 vezes por semana, 20% não utilizam semanalmente e os demais utilizam entre 1 e 4 vezes por semana.

5.1. Avaliação da Usabilidade do Bugzilla por seus Usuários

Com o objetivo de verificar se os problemas identificados pelos especialistas, durante a avaliação heurística, estavam sendo vivenciados pelos usuários em tempo de interação, os usuários foram convidados a responder questões que retratavam suas experiências durante o uso do Bugzilla. Para melhor comparação, os relatos dos usuários foram discutidos em função dos princípios (i.e., das heurísticas) de usabilidade.

Com relação à “consistência e padronização” e a “compatibilidade do sistema com o mundo real”, pelo menos 30% dos usuários relataram dificuldades em utilizar a ferramenta por causa das ambiguidades na interface e pela limitação do idioma a língua inglesa. Além disso, 43% dos participantes apontaram problemas relacionados à baixa “visibilidade do estado do sistema”. De acordo com esses participantes, em determinadas situações foi necessário repetir a mesma tarefa algumas vezes no Bugzilla (e.g., registrar a correção de um bug), uma vez que a ferramenta não fornece feedback informativo sobre as ações executadas. De maneira similar, 50% dos usuários pontuam que as mensagens de erro do Bugzilla não possuem linguagem simples e não auxiliam na identificação do problema. Finalmente, 60% dos participantes reclamaram da ausência de um sistema de ajuda que de fato auxilie na utilização da ferramenta.

Depois de analisada a experiência dos usuários durante o uso do Bugzilla, os participantes da avaliação foram convidados a classificar a ferramenta em relação aos princípios de usabilidade. Para essa apreciação, o usuário deveria indicar qual(is) princípio(s) eles utilizaram para qualificar a ferramenta. O gráfico da Figura 2. apresenta os resultados sumarizados.

Apesar de 60% dos participantes considerarem o sistema útil, em relação ao seu propósito, apenas 23% classificaram a ferramenta como satisfatória. Ou seja, embora o sistema ofereça recursos para que o usuário atinja seus objetivos, a usabilidade desses recursos ainda deve ser melhorada, sob a perspectiva do usuário. De forma análoga, apenas metade dos participantes classificaram o sistema como produtivo e menos de 40% concordam que o Bugzilla apresenta flexibilidade e facilidade de uso.

Page 269: Anais do SMSI 2016

Figura 2. Classificação do Bugzilla por seus usuários em relação aos princípios de

usabilidade.

6. Discussão dos Resultados

Antes de apresentar as conclusões deste trabalho, foi realizada uma triangulação para contrastar os resultados obtidos a partir da avaliação de usabilidade feita por especialistas, com aqueles alcançados a partir de uma análise com os usuários. A triangulação refere-se a um procedimento da pesquisa qualitativa, realizado através da comparação de dados extraídos por diferentes métodos, cujo objetivo é conferir a validade dos resultados obtidos em uma pesquisa científica [Cho & Trent, 2006].

Em relação aos resultados, a primeira etapa desta pesquisa mostrou que o Bugzilla apresenta potenciais problemas de interface que comprometem sua usabilidade, principalmente em relação à consistência, padronização e feedback. Diante disso, a segunda etapa deste trabalho buscou investigar se esses problemas estavam sendo vivenciados pelos usuários e qual a percepção dos mesmos sobre a usabilidade do Bugzilla. A avaliação com os usuários confirmou o impacto negativo dos problemas durante o uso da ferramenta, uma vez que embora eles tenham classificado o Bugzilla como útil para a gestão de defeitos, a maioria reportou uma experiência pouco satisfatória com a ferramenta, o que tem comprometido, sobretudo, a produtividade dos mesmos.

Estes resultados apontam para a necessidade de implementar melhorias na interface e interação do Bugzilla de tal modo que a usabilidade possa ser maximizada. Além disso, os resultados podem ser utilizados como fonte de informação para o desenvolvimento e avaliação de outras ferramentas para gestão de defeitos de softwares, norteando projetistas na criação de ferramentas mais adequadas aos usuários.

7. Conclusões e Trabalhos Futuros

Este trabalho buscou apreciar a usabilidade das ferramentas de gestão de defeitos e discutir a importância desse tipo de avaliação como uma das perspectivas que podem auxiliar na escolha de qual ferramenta adotar no processo de desenvolvimento de software. Para isso, foi realizado um estudo de caso da Ferramenta Bugzilla, uma vez que essa é uma das ferramentas open source mais difundidas no mercado. Os resultados da avaliação indicaram que a ferramenta apresenta problemas de usabilidade que podem comprometer a eficiência de uso e a produtividade dos testadores e desenvolvedores durante sua utilização.

Page 270: Anais do SMSI 2016

Embora o estudo de caso tenha sido realizado no Bugzilla, esse trabalho apresenta contribuições práticas e teóricas para a área de Engenharia de Software. Em termos práticos, os resultados dessa pesquisa poderão auxiliar no julgamento das empresas que desejam adotar o Bugzilla como ferramenta para gestão de defeitos. Já em termos teóricos, esse trabalho serve como base para que outros pesquisadores avaliem as qualidades de uso (e.g., usabilidade e acessibilidade) das ferramentas que visam apoiar não apenas as atividades de testes, mas também as ferramentas para suporte a outras atividades do desenvolvimento de software. Tal apreciação poderá apoiar na classificação e qualificação dessas ferramentas.

Um trabalho futuro de interesse para esta pesquisa é realizar uma análise comparativa entre a usabilidade do Bugzilla e outras ferramentas de gestão de defeitos. Outra direção é ampliar a análise feita para outras ferramentas, apreciando não apenas a usabilidade, mas também outras qualidades de uso como, por exemplo, a acessibilidade. Além disso, uma direção futura interessante seria propor um conjunto de princípios para o projeto de interface e interação para as ferramentas de gestão de defeitos de modo que elas contemplem as principais qualidades de uso.

Referências

Bugzilla, Disponível em: <http://www.bugzilla.org/>. Acesso em: 29 abril 2015.

Chaves, G. L. de M. (2010). Desenvolvimento de software com ferramentas livres e de

baixo custo: metodologia e estudo de caso. Cad. CPqD Tecnologia, v. 6, n. 1, p. 57–

64, 2010.

Carvalho, T. P. (2014). Análise de ferramentas de testes automatizados de software.

Universidade Federal de Goiás, p. 6, 2014.

Cho, J. and Trent, A. (2006). Validity in qualitative research revisited. Qualitative

Research, 6(3):319—340, 2006.

Delamaro, M. et al. (2007). Introdução ao Teste de Software. Ed. Elsevier, Rio de

Janeiro, 2007.

Dias, A. C. N. (2014). Engenharia de software magazine: Introdução a teste de software,

pp. 54-59, 2014.

Nielsen, J. (1993). Usability Engineering. Morgan Kaufmann. San Francisco, Ca, 1993.

Nielsen, J. (2003). Test with 5 Users. Disponível em:

<http://www.useit.com/alertbox/20000319.html>. Acesso em: Abril 2015.

Prates, R. O. and Barbosa, S. D. J. (2003). Avaliação de Interfaces de Usuário–

Conceitos e Métodos. Jornada de Atualização em Informática do Congresso da

Sociedade Brasileira de Computação, Capítulo. Vol. 6. 2003. .

Silva, W. M. and Calazans, A. T. S. (2012). Ferramentas free para teste de software um

estudo comparativo. Universitas Gestão e TI, pp. 57-72, julho 2012.

Veloso, J. S. et al. (2014). Avaliação de ferramentas de apoio ao teste de sistemas de

informação. Universidade Federal de Piaui, p. 17, 2014.

Watanabe, F. A. F. (2014). Análise comparativa entre as principais ferramentas de apoio

aos testes de software. Universidade Federal de Piaui, p. 4, 2014.

Page 271: Anais do SMSI 2016

Usabilidade para Aplicativos Móveis de Comunicação

Instantânea

Magnum Dutra1, Glívia A. R. Barbosa

2, Loraine Duarte

2, Leonardo D. Miranda

2

1Pontíficia Universidade Católica de Minas Gerais,

2Centro Federal de Educação

Tecnológica de Minas Gerais

[email protected], [email protected],

[email protected], [email protected]

Resumo. Este trabalho buscou avaliar a aplicabilidade das heurísticas de

usabilidade para aplicativos móveis no contexto de avaliação dos aplicativos

de comunicação instantânea. Através de um estudo de caso nos aplicativos

Hangouts e WhatsApp, foi possível discutir a cobertura dessas heurísticas

para caracterizar a usabilidade dos aplicativos móveis de comunicação.

1. Introdução

A utilização de aplicativos móveis em diferentes contextos colaborativos (e.g.,

aplicativos sociais, de comunicação, educacionais e aplicativos de

localização/navegação) vem crescendo e esse crescimento abre espaço para que diversos

aplicativos da mesma categoria sejam disponibilizados para os usuários (e.g., aplicativos

de comunicação: WhatsApp, Telegram e Hangouts) [de Oliveira et al. 2012].

Um levantamento realizado pelo Centro Regional de Estudos para o

Desenvolvimento da Sociedade da Informação, afirma que para o ano de 2016, pelo

menos 67% das interações de comunicação realizadas pelas pessoas será realizada à

partir de aplicativos móveis [CETIC.br, 2014]. A mesma pesquisa indicou que dos tipos

de aplicativos que poderão favorecer esse tipo de interação, despontam os aplicativos de

redes sociais (e.g., Facebook, Google+) e também os aplicativos de comunicação

instantâneas (e.g., Hangouts, Skype, WhatsApp) [CETIC.br, 2014].

Diante desta realidade, surge o desafio de motivar os usuários no uso constante

desses aplicativos de modo que se mantenham fidelizados e engajados na utilização dos

mesmos, por isso, torna-se necessário oferecer aplicativos móveis de comunicação que

atendam as expectativas dos usuários nos critérios de usabilidade [de Oliveira et al.

2012].

Uma forma de potencializar a usabilidade dos aplicativos consiste na avaliação

dessa propriedade no modelo de interface e interação do aplicativo. Apreciar a

usabilidade é importante, uma vez que permite verificar o grau de facilidade com que o

usuário consegue interagir com determinada solução tecnológica [Nielsen, 1994]. Um

dos métodos mais consolidados para avaliar a usabilidade é a Avaliação Heurística

(AH), proposto por Nielsen (1994), que consiste em uma abordagem empírica para

julgar a interface de acordo com um conjunto de diretrizes (também conhecidas como

heurísticas) que buscam potencializar a usabilidade no modelo de interface e interação

do sistema em análise [Nielsen, 1994].

Page 272: Anais do SMSI 2016

Contudo, ao propor a AH, Nielsen (1994) alertou para o fato de que sistemas de

domínios diferentes demandam adaptações nas heurísticas de avaliação. Esse argumento

é reforçado no contexto de apreciação da usabilidade de aplicativos móveis. Isso porque,

segundo Neto (2013), embora a usabilidade desses aplicativos esteja sendo avaliada

através das heurísticas de Nielsen (1994), vários estudos concluíram que essas

heurísticas apresentam deficiências em identificar problemas de usabilidade específicos

para esse tipo de aplicação (e.g., Feijó et. al. (2013) e Knoll (2014)). Nesse sentido, com

o intuito de contornar essas deficiências, autores como Feijó et. al. (2013), Neto (2013)

e Knoll (2014) propuseram adaptações nas heurísticas de usabilidade para o contexto de

aplicações móveis.

Entretanto, mesmo com esforços em gerar heurísticas para potencializar a

usabilidade dos aplicativos móveis, ainda há desafios em aberto relacionados a esse

campo. Isso porque, embora a plataforma destes dispositivos seja a mesma, os

aplicativos se diferem, por exemplo, em seus domínios (e.g. aplicativos educacionais e

aplicativos de comunicação) [de Oliveira et al. 2012]. Logo, as diferentes categorias de

aplicativos móveis podem demandar heurísticas de usabilidade específicas para seu

domínio, conforme já sinalizado por Nielsen (1994) e reforçado por de Oliveira et al.

(2012), Neto (2013) e Knoll (2014). Dessa forma se faz necessário avaliar a

aplicabilidade das heurísticas de usabilidade propostas para aplicativos móveis nos

diferentes domínios de aplicativos [Oliveira et al., 2012][Neto, 2013][Knoll, 2014].

Motivados pelo uso crescente de aplicativos móveis de comunicação instantânea

e pelos desafios relacionados à usabilidade dos diferentes domínios de aplicativos, o

objetivo deste trabalho consistiu em avaliar dois aplicativos de comunicação

instantânea, o Whatsapp e Hangouts1, para verificar a aplicabilidade das heurísticas de

usabilidade para avaliar aplicativos móveis neste contexto de utilização.

Para alcançar o objetivo proposto, a metodologia adotada consistiu inicialmente

em identificar, na literatura, as heurísticas de usabilidade existentes para aplicativos

móveis em geral e, na sequencia, apreciar o grau de cobertura das mesmas em relação às

exigências de usabilidade para aplicativos de comunicação instantânea sob a perspectiva

de especialistas em avaliação e de usuários. Dessa forma, como resultados, esse trabalho

apresenta o agrupamento e a aplicabilidade das heurísticas de usabilidade para

aplicativos móveis, disponíveis na literatura, para avaliar aplicativos de comunicação

instantânea. Além disso, aprecia a usabilidade dos aplicativos utilizados no estudo de

caso, o Whatsapp e o Hangouts.

Em termos de contribuição, esse trabalho é relevante porque, os desenvolvedores

de aplicativos de comunicação instantânea poderão julgar melhor a aplicabilidade das

heurísticas analisadas para construir e avaliar os aplicativos deste domínio. Além disso,

o trabalho contribui para que outros pesquisadores explorem esse conjunto de

heurísticas, delineado suas vantagens e desvantagens, para os diferentes domínios de

aplicativos móveis.

1 Hangouts - Aplicativo de mensagens instantâneas da Google

Page 273: Anais do SMSI 2016

2. Trabalhos Relacionados

Nos últimos anos, alguns esforços, no âmbito da pesquisa, foram destinados a

proposição de heurísticas (ou diretrizes) para projetar e avaliar aplicativos móveis de

modo a maximizar a usabilidade desses aplicativos. Desses trabalhos, é possível citar,

por exemplo, um dos mais recentes, conduzido por Knoll (2014).

Em seu trabalho, Knoll (2014) propõem um conjunto de heurísticas de

usabilidade para tablets, a partir da adaptação e consolidação de princípios e diretrizes

apresentados por outros autores (e.g., Nielsen (1994), Google, Apple e Microsoft). As

heurísticas propostas foram avaliadas quanto a sua cobertura e eficiência para apreciar a

usabilidade de aplicativos móveis e os resultados indicaram que, embora elas sejam

mais adequadas, quando comparadas as heurísticas de Nielsen (1994), as heurísticas não

foram capazes de cobrir todas as particularidades de usabilidade das diferentes

categorias desses aplicativos [Knoll, 2014].

De maneira similar, os trabalhos realizados por Feijó et al. (2013) e Neto (2013),

apresentaram, respectivamente, diretrizes de usabilidade para projetar e avaliar

aplicativos móveis. O conjunto proposto por Neto (2013) foi avaliado através de um

estudo de caso no aplicativo para envio de e-mails do Gmail e permitiu identificar

problemas de usabilidade específicos para interação em sistemas móveis. Porém, Neto

(2013) indica que um importante trabalho futuro consiste em verificar a aplicabilidade

dessas heurísticas para aplicativos móveis de outros domínios.

Por sua vez, para analisar a eficácia do seu conjunto de diretrizes, Feijó et al.

(2013) avaliou, de forma comparativa, diversos aplicativos, de diferentes domínios,

seguindo as heurísticas de Nielsen (1994) e as diretrizes propostas em seu trabalho. Os

autores concluíram que, de um modo geral, seu conjunto de diretrizes é capaz de avaliar

a usabilidade de sistemas mobile, mas apresenta limitações para lidar com as

particularidades de cada tipo de aplicativo, afetando assim a validade da apreciação. Por

isso, eles reforçam a importância de iniciativas que buscam avaliar a cobertura e/ou

aplicabilidade dessas diretrizes para apreciar a usabilidade dos diferentes domínios de

aplicativos móveis (e.g., aplicativos de jogos, redes sociais e mensagens instantâneas),

de modo que seja possível delinear a eficiência dessas diretrizes e complementá-las, se

necessário, conforme a demanda de cada tipo de aplicativo [Feijó et al., 2013].

Diante do cenário apresentado nesta seção e ciente da demanda de apreciar a

aplicabilidade das heurísticas de usabilidade para avaliar os diferentes domínios de

aplicativos, o presente trabalho se difere dos demais, uma vez que busca analisar a

cobertura e aderência das heurísticas de usabilidade para avaliar os aplicativos móveis

de comunicação instantânea, com o intuito de demonstrar a aplicabilidade das mesmas

para apreciar essa qualidade de uso especificamente para esse domínio de aplicativo.

3. Metodologia

A metodologia para condução deste trabalho consistiu na execução de 03 etapas.

Inicialmente, foi realizada uma revisão da literatura para levantar as heurísticas de

usabilidade propostas especificamente para o projeto e avaliação de aplicativos móveis.

Conforme orientado por Xavier et al. (2012), as buscas foram realizadas no Google

Page 274: Anais do SMSI 2016

Scholar2, bem como nos principais repositórios de pesquisas relacionados a área de

Computação, IEEE Xplore3, ACM Digital Library

4, Springer

5 e HCI Bib

6 . A string de

pesquisa foi formada pelos seguintes termos (em português e, respectiva, tradução em

inglês): usabilidade, aplicativos móveis, heurísticas, diretrizes e requisitos. Neste

trabalho essas heurísticas, identificadas a partir da literatura, foram denominadas

“heurísticas genéricas para aplicativos móveis” (HGs), uma vez que elas não foram

propostas para um domínio específico desses aplicativos.

Na sequência, foi analisado o grau de cobertura dessas heurísticas para avaliar

aplicativos móveis de comunicação instantânea. Dois aplicativos móveis, o WhatsApp e

o Hangouts, foram avaliados, seguindo os passos do método Avaliação Heurística e

considerando as heurísticas encontradas pela revisão de literatura (i.e., HGs). Estes dois

aplicativos foram escolhidos devido à sua grande adoção na atualidade. De acordo com

pesquisas realizadas pelo Instituto On Research (2015), somente o aplicativo WhatsApp

domina 72% do mercado de comunicação instantânea por aplicativos móveis.

Posteriormente, foi realizada uma avaliação da usabilidade desses aplicativos

sob a perspectiva de seus usuários. Posteriormente os resultados das avaliações foram

contrastados, observando se o indicador de usabilidade obtido com a avaliação guiada

pelas heurísticas propostas para aplicativos móveis (HGs) e os indicadores de

usabilidade gerados a partir de testes com usuários são equivalentes.

Finalmente, uma análise crítica foi gerada com o intuito de verificar se as

heurísticas existentes cobrem todos os requisitos do contexto de aplicativos móveis de

comunicação instantânea ou se demandam por adaptações. A seguir cada etapa da

metodologia será detalhada e seus principais resultados serão apresentados e discutidos.

4. Cobertura das Heurísticas sob a perspectiva de Especialistas

Para analisar a adequação das heurísticas de usabilidade para aplicativos móveis (HGs)

no contexto de aplicativos de comunicação instantânea, o Hangouts e o WhatsApp

foram avaliados através da execução da Avaliação Heurística, guiada pelas heurísticas

HGs. Esta etapa foi conduzida por 03 especialistas na aplicação do método (i.e.,

profissionais e/ou pesquisadores com mais de 03 anos de experiência). Durante as

avaliações, as interfaces dos aplicativos foram inspecionadas de modo a identificar

problemas de usabilidade gerados a partir da violação (i.e., não implementação) de uma

ou mais heurísticas de usabilidade. A Tabela 1 apresenta as heurísticas utilizadas neste

estudo de caso, que foram levantadas através da revisão da literatura.

Tabela 1. Heurísticas Genéricas para Usabilidade de Aplicativos Móveis (HGs)

Cod. Nome Autores

HG1. Feedback imediato e fácil de ser notado Feijó et. al. (2013), Neto (2013) e Knoll (2014)

HG2. Adequação de mensagem à funcionalidade e ao usuário Feijó et. al. (2013) e Knoll (2014)

HG3. Visibilidade e acesso fácil às informações existentes Feijó et. al. (2013) e Knoll (2014)

2 Google Scholar - https://scholar.google.com.br/

3 IEEE Xplore - http://ieeexplore.ieee.org/Xplore/home.jsp

4 ACM Digital Library - http://dl.acm.org/

5 Springer - http://www.springer.com/br/

6 HCI Bib - http://hcibib.org/

Page 275: Anais do SMSI 2016

HG4. Consistência e padrões Feijó et. al. (2013), Neto (2013) e Knoll (2014)

HG5. Prevenção de erros e retomada ao último estado estável Feijó et. al. (2013) e Knoll (2014)

HG6. Minimização da carga de memória do usuário Feijó et. al. (2013), Neto (2013) e Knoll (2014)

HG7. Facilidade de entrada de dados Feijó et. al. (2013), Neto (2013) e Knoll (2014)

HG8. Facilidade de acesso às funcionalidades Feijó et. al. (2013), Neto (2013) e Knoll (2014)

HG9. Ajuda e documentação Feijó et. al. (2013) e Knoll (2014)

HG10. Bom aproveitamento do espaço da tela Knoll (2014)

HG11. Regue incentivo Feijó et. al. (2013)

HG12. Conheça-me Feijó et. al. (2013) e Knoll (2014)

As avaliações foram realizadas em um período de 13 dias, na segunda quinzena

do mês de setembro de 2015. Durante as avaliações foram considerados os seguintes

cenários, para os dois aplicativos: (1) Instalação do aplicativo; (2) Encontrar contatos

para iniciar conversas; (3) Comunicação instantânea, através de texto, com apenas um

contato; (4) Comunicação instantânea, através de texto, em grupo; (5) Comunicação

instantânea por voz; (6) Busca por mensagens anteriores; e (7) Edição de perfil.

Finalizadas as avaliações, os resultados foram analisados de forma a observar, o

total de problemas encontrados, o percentual de heurísticas violadas, a incidência dessas

violações e a gravidade dos problemas. A seguir, os resultados das avaliações são

apresentados, por aplicativo.

4.1. Resultado da Inspeção no Aplicativo Hangouts

A avaliação no aplicativo Hangouts indicou 10 potenciais problemas que violaram pelo

menos uma heurística de usabilidade para aplicativos móveis. Dentre os problemas é

possível citar a ―baixa visibilidade da funcionalidade que permite comunicação

instantânea em grupos‖. Neste caso, o aplicativo violou as heurísticas: HG3 -

Visibilidade e acesso fácil a toda informação existente; HG6 - Minimização da carga de

Memória do usuário e HG8 - Facilidade de acesso às funcionalidades. O gráfico da

Figura 01 indica quantas heurísticas de usabilidade foram violadas e com que frequência

(i.e., incidência) essas violações aconteciam. Ao analisar esses dados, foi possível

constatar que as doze HGs foram violadas pelo menos uma vez.

Além de indicar as heurísticas violadas, a Avaliação Heurística prevê a

atribuição de gravidade para os problemas encontrados. As gravidades são representadas

por uma escala de 0 a 4, onde quanto maior o valor da escala, mais grave o problema no

sentido de inviabilizar o uso do sistema. A análise guiada pelas HGs para aplicativos

móveis permitiu identificar que 25% dos problemas eram de gravidade 2, 50% de

gravidade 3 e 25% de gravidade 4.

Figura 1. Incidência de violação das HGs no aplicativo Hangouts

Page 276: Anais do SMSI 2016

Contudo, é importante ressaltar que, além dos 10 problemas que foram

mapeados diretamente para pelo menos uma das doze heurísticas para aplicativos

móveis (HGs), os avaliadores identificaram 2 problemas de usabilidade que não

puderam ser mapeados para as heurísticas presentes na literatura, são eles: (1) problemas

na percepção da instantaneidade de transmissão de mensagens, ou seja, o aplicativo não

identifica, claramente, se o destinatário recebeu a mensagens logo após o remetente tê-la

enviado e (2) inconsistência na ordem cronológica do envio e recebimento das

mensagens.

4.2. Resultado da Inspeção no Aplicativo WhatsApp

A avaliação no aplicativo WhatsApp indicou 9 potenciais problemas que violaram pelo

menos uma heurística de usabilidade para aplicativos móveis. Dentre os problemas é

possível exemplificar a ―dificuldade em aplicar configurações de privacidade no

aplicativo‖. Neste caso, o aplicativo violou as heurísticas: HG3 - Visibilidade e acesso

fácil a toda informação existente e HG8 - Facilidade de acesso às funcionalidades.

Em relação a incidência das violações, conforme demonstrado na Figura 2, o

WhatsApp violou 92% das HGs, pelo menos uma vez. Já em relação a gravidade, a

análise guiada pelas HGs para aplicativos móveis permitiu identificar que 11% dos

problemas eram de gravidade 2, 55% de gravidade 3 e 34% de gravidade 4.

Figura 2. Incidência de violação das HGs no aplicativo WhatsApp

Assim como na avaliação do Hangouts, os especialistas também identificaram

problemas de usabilidade no WhatsApp que não foram associados as heurísticas HGs

para aplicativos móveis, são eles: (1) inconsistência na ordem cronológica do envio e

recebimento das mensagens; (2) inconsistência na ordem cronológica do recebimento e

visualização de mensagens enviadas em grupos e (3) falta de controle e privacidade na

entrada e saída de grupos.

Finalizadas as avaliações, em ambos os aplicativos, na visão dos especialistas

neste estudo de caso, foi possível constatar que, embora heurísticas genéricas (HGs)

para aplicativos móveis contemplem importantes critérios de usabilidade para

aplicativos móveis em geral, incluindo os de comunicação instantânea, elas podem não

endereçar alguns problemas específicos que podem ocorrer durante a interação com esse

tipo de aplicativo. Isso porque, durante a interação com os aplicativos do estudo de caso,

foram identificados potenciais problemas de usabilidade, que poderiam impactar no

processo de comunicação instantânea, mas que não puderam ser mapeados (i.e., não

havia uma equivalência) para nenhuma HG existente.

Page 277: Anais do SMSI 2016

5. Cobertura das Heurísticas para Avaliar Aplicativos de Comunicação

Instantânea sob a perspectiva de Usuários

Com o objetivo de avaliar a usabilidade dos aplicativos Hangouts e WhatsApp na

opinião dos usuários e verificar se, de fato, as heurísticas para aplicativos móveis são

adequadas para julgar essa qualidade de uso nos aplicativos de comunicação

instantânea, a terceira etapa dessa pesquisa consistiu em analisar os referidos aplicativos

sob a perspectiva de seus usuários

Para isso, os usuários foram convidados a responder um questionário online,

entre os dias 10 e 18 de Outubro de 2015, e indicar quais características de usabilidade

estavam sendo violadas pelos aplicativos, considerando as heurísticas apresentadas neste

trabalho. Em outras palavras, os participantes deveriam indicar qual ou quais

propriedades eles consideravam relevantes para melhorar a experiência de uso no

aplicativo, mas que não estavam presentes no mesmo. O questionário foi divulgado por

meio de redes sociais, listas de discussões sobre os aplicativos e por e-mails. No total,

176 usuários participaram dessa etapa. Desses, pelo menos 67% utilizam os aplicativos

há mais de 1 ano.

Para realizar a análise proposta, para cada aplicativo, foi verificado, o percentual

de usuários que utilizaram as heurísticas HGs para julgar os aplicativos e o percentual

de usuários que apontaram outros problemas que não puderam ser mapeados para as

respectivas heurísticas. Os gráficos das Figuras 3 e 4 indicam os resultados obtidos.

Figura 3. Mapeamento dos problemas

de usabilidade para as HGs no

Hangouts na opinião dos usuários

Figura 4. Mapeamento dos problemas de

usabilidade para as HGs no WhatsApp

na opinião dos usuários

Através dos dados reportados, é possível observar que as HGs foram utilizadas

por, pelo menos 79%, dos usuários durante a avaliação. Contudo, assim como

demonstrado na análise por inspeção dos especialistas, na opinião dos usuários

participantes desta pesquisa, os aplicativos Hangouts e WhatsApp apresentam problemas

de usabilidade que não podem ser mapeados para as heurísticas genéricas de usabilidade

para aplicativos móveis (HGs).

Essa afirmação é sustentada pelos dados que indicam que, para pelo menos 8%

dos participantes, as interfaces dos aplicativos analisados apresentam outros problemas

de usabilidade que não podem ser categorizados em relação às heurísticas fornecidas

para análise. Esse resultado pode reforçar a demanda, já apresentada por outros estudos

de caso (e.g., Knoll (2014) e Neto (2013)), de propor novas heurísticas especificas para

caracterizar a usabilidade de aplicativos de comunicação instantânea.

Page 278: Anais do SMSI 2016

6. Conclusões e Trabalhos Futuros

O presente trabalho buscou apreciar a aplicabilidade das heurísticas de usabilidade para

aplicativos móveis para avaliar aplicativos de comunicação instantânea, através de um

estudo de caso nos aplicativos WhatsApp e Hangouts. Através das análises apresentadas

é possível concluir que, embora as heurísticas genéricas para aplicativos móveis (HGs)

contemplem critérios relevantes para verificar a usabilidade, em geral, da interface

desses aplicativos, elas não contemplam as especificidades que surgem durante a

interação com um aplicativo de comunicação instantânea e essas especificidades são

importantes para potencializar a usabilidade desse tipo de sistema. Logo, esse trabalho

reforça a necessidade de criar novas heurísticas voltadas especificamente para o domínio

de aplicativos móveis de comunicação instantânea, afim de obter cobertura total para

avaliar a usabilidade dos mesmos.

Sendo assim, em termos de contribuição, esse trabalho é relevante porque os

desenvolvedores de aplicativos de comunicação instantânea poderão julgar melhor a

aplicabilidade das heurísticas analisadas para construir e avaliar os aplicativos deste

domínio. Além disso, o trabalho contribui para que outros pesquisadores explorem esse

conjunto de heurísticas delineado suas vantagens e desvantagens para os diferentes

domínios de aplicativos móveis.

Como trabalhos futuros, essa pesquisa prevê a criação e avaliação de um novo

conjunto de heurísticas para usabilidade de aplicativos de comunicação instantânea,

além da exploração das heurísticas já existentes, não apenas no contexto de avalição,

mas também para o projeto de interface e interação de aplicativos móveis.

Referências

de Oliveira, D. H. D., de Miranda, L. C., de Miranda, E. E. C., e da Silva, L. F. 2012.

Prototipação de interfaces de aplicativos para dispositivos móveis: estado da arte e

desafios de IHC. In Proc. of IHC '12, p. 315-324.

CETIC.br. (2014). TIC Domicílios indica que 31% da população brasileira usa Internet

pelo telefone celular. Disponível em: < http://goo.gl/UOmPML>.Acesso em: Maio de

2016.

Feijó, V. C.; Gonçalves, B. S. e Gomez, L. S. R. 2013. Heurística para avaliação de

usabilidade em interfaces de aplicativos smartphones: Utilidade, produtividade e

imersão. Design e Tecnologia, Porto Alegre, 2013. 6 ed

Knoll, R. C. 2014. Desenvolvimento de heurísticas de usabilidade para tablets. Caderno

de Estudos Tecnológicos, FATEC, Bauru, Julho 2014. V.2, n.1, p. 93-109.

Neto, O. J. M. 2013. Usabilidade da interface de dispositivos móveis: heurísticas e

diretrizes para o design. Abril 2013. 136p. Tese de Doutorado — Instituto de

Ciências Matemáticas e Computação, Universidade de São Paulo, São Carlos, 2013.

Nielsen, J. 1994. Usability inspection methods. In: ACM. Conference companion on

Human factors in computing systems. p. 413–414.

Xavier, S. I. R., Barbosa, G. A. R., Prates, R. O. 2012. Caracterização das Pesquisas de

Acessibilidade Digital depois dos Grandes Desafios da SBC 2006-2016: Uma

Revisão Sistemática da Literatura. In: Proc of. SEMISH 2012, Curitiba.

Page 279: Anais do SMSI 2016

Abordagem baseada em SNA para monitoramento e

acompanhamento do Programa Institucional de Bolsa de Iniciação à

Docência na Universidade Federal Rural da Amazônia

Alana da Costa Nogueira, Roniere Piedade Soares, Mariane Siqueira Borges, Aleksandra

do Socorro da Silva, Silvana Rossy de Brito

Instituto Ciberespacial (ICIBE) − Universidade Federal Rural da Amazônia (UFRA)

66.077-830 − Belém − PA − Brasil

{nogueiiiraalana,ronieresoares1989, mariufra2011}@gmail.com,

{aleksandra.silva, silvana.rossy}@ufra.edu.br

Abstract. We present an approach to track and monitor the Institutional Program

Initiation Grant to Teaching in a federal institution of higher education, with its main

actors: scholarship students, supervisors teachers, institutional and area coordinators.

This approach uses the methodology of Social Network Analysis to show the

relationship between the actors as a complement to traditional strategies of project

monitoring.

Resumo. Neste trabalho, apresentamos uma abordagem para acompanhar e monitorar

o Programa Institucional de Bolsa de Iniciação à Docência em uma instituição federal

de ensino superior, com os seus principais atores: alunos bolsistas de iniciação à

docência, professores supervisores, coordenadores institucionais e de área. Essa

abordagem utiliza a metodologia de Análise de Redes Sociais para evidenciar a

relação entre os atores participantes, como um complemento às estratégias

tradicionais de acompanhamento de projetos.

1. Introdução O Programa Institucional de Bolsa de Iniciação à Docência (PIBID) é uma iniciativa do governo

federal, coordenada pelo Ministério da Educação (MEC) em ação conjunta com as Instituições

de Ensino Superior (IES) que dispõem dos cursos de licenciatura e com o apoio financeiro da

Fundação Coordenação de Aperfeiçoamento de Pessoal de Nível Superior (CAPES). No PIBID,

os projetos são coordenados por docentes das Instituições de Ensino Superior e supervisionados

por professores das escolas públicas participantes do programa.

Este trabalho representa uma abordagem para acompanhamento de projetos do PIBID na

Universidade Federal Rural da Amazônia (UFRA). Dessa forma, o objetivo é aplicação da

Análise de Redes Sociais (ARS ou SNA, da expressão em inglês Social Network Analysis) como

uma alternativa para acompanhar e apresentar o crescimento da rede social do PIBID na UFRA,

com foco na quantificação do trabalho de mediação dos principais atores que atuam na

coordenação do programa.

Page 280: Anais do SMSI 2016

Este artigo está organizado em seis seções, sendo essa a primeira seção e as demais estão

organizadas da seguinte forma: na seção dois, apresentam-se conceitos relevantes da área de

Análise de Redes Sociais, bem como motivações para o seu uso; na seção três, o contexto da

aplicação realizada no artigo, ou seja, alguns aspectos relacionados ao PIBID no Brasil e na

UFRA, e a relevância da ARS para o contexto do programa; na seção quatro, descreve-se a

metodologia, apresentando as fontes de dados utilizadas e a abordagem de análise; na seção

cinco, apresentam-se os resultados da análise das redes; e por fim, na seção seis, apresentam-se

as considerações finais desse artigo.

2. Análise de Redes Sociais As Redes Sociais consistem em estruturas que representam pessoas ou organizações (atores) e as

relações entre si. Permitem estudar, através da identificação dos atores e suas ligações, as

relações entre os mesmos de forma a poder identificar as formas de interação entre si,

contribuindo para o conhecimento sobre a rede social e o seu desenvolvimento.

A ARS é uma abordagem oriunda da Sociologia, da Psicologia Social e da Antropologia

(FREEMAN, 1996). Tal abordagem estuda as ligações relacionais (da expressão em inglês

relational tie) entre atores sociais. Na ARS, os atores podem ser unidades individuais (e.g.

estudante, funcionário de uma empresa) ou unidades sociais coletivas (e.g. departamentos dentro

de uma organização, agências de serviço público em uma cidade, estados-nações de um

continente ou do mundo) (WASSERMAN e FAUST, 1999). Assim, a ARS interessa a

pesquisadores de vários campos do conhecimento que, na tentativa de compreenderem o seu

impacto sobre a vida social, deram origem a diversas metodologias de análise que têm como base

as relações entre os indivíduos, numa estrutura em forma de redes.

A diferença fundamental da ARS para outros estudos é que a ênfase não está nos

atributos (características) dos atores, mas nas ligações entre eles; ou seja, a unidade de

observação é composta pelo conjunto de atores e seus laços. Como afirmam Wasserman e Faust:

Em análise de redes sociais os atributos observados a partir dos atores sociais (como a

raça e o grupo étnico das pessoas, ou o tamanho ou produtividade de corpos coletivos,

tais como empresas ou estados-nações) são compreendidos em termos de padrões ou

estruturas de ligações entre as unidades. As ligações relacionais entre atores são o foco

primário e os atributos dos atores são secundários (WASSERMAN e FAUST, 1999).

O uso da ARS vem crescendo significativamente nos últimos anos. Esse crescimento,

segundo Matheus e Silva (2006), vem ocorrendo em função do aumento da quantidade de dados

disponíveis para análise, do aumento do poder computacional à disposição dos pesquisadores e

da ampliação dos assuntos de interesse e das áreas de conhecimento que utilizam a ARS. Alguns

pesquisadores demonstraram essa tendência a partir de pesquisas em base de dados em artigos

científicos e programas de pesquisa. Pesquisando três bases de dados (Sociological Abstracts

Database, Medline Advanced e PsycINFO), Otte e Rousseau (apud Matheus e Silva, 2006)

comprovaram, para o período de 1974 até 2000, o crescimento linear do número de artigos

publicados anualmente cujo assunto fosse a análise de redes sociais. Segundo os autores, foram

detectados dois momentos nos quais o crescimento no número de artigos se amplia: 1981, graças

à publicação de inúmeros manuais sobre o tema e ao desenvolvimento de aplicativos (softwares)

e 1993, em função da Web.

A ARS permite a análise de qualquer rede, quando as relações se dão entre um único tipo

Page 281: Anais do SMSI 2016

de agentes ou coisas (pessoas, funções, organizações), ou entre dois tipos (por exemplo, as

pessoas e os grupos a que pertencem). As métricas e ferramentas, baseados na teoria dos grafos,

são aplicáveis, independentemente do tipo de nós da rede ou da razão para as conexões. Para a

maioria dos pesquisadores, as entidades são agentes — assim, uma rede pode ser uma célula de

terroristas, funcionários de uma empresa, ou simplesmente um grupo de amigos. No entanto, as

entidades não são limitadas aos agentes. Uma série de computadores que interagem uns com os

outros ou um grupo de bibliotecas interligadas podem compor uma rede também.

3. O Programa de Iniciação à docência O PIBID é um programa da Coordenação de Aperfeiçoamento de Pessoal de Nível Superior

(Capes) que tem por finalidade fomentar a iniciação à docência, contribuindo para o

aperfeiçoamento da formação de docentes em nível superior e para a melhoria da qualidade da

educação básica pública brasileira (CAPES, 2013).

O Projeto Institucional do PIBID na UFRA se consolida em um cenário que exige a

superação de desafios sociais, políticos, de infraestrutura e de capacitação em recursos humanos.

O programa permite romper com modelos educacionais que isolam os estudantes de licenciatura

em salas de aula universitárias, colocando-os diretamente em contato com as escolas. Como

resultado, os futuros docentes passam a conhecer o universo da escola, a rede escolar e o

currículo da educação básica. A interação UFRA-escolas contribui para oferecer formação que

permita que os futuros educadores dominem os conhecimentos específicos, compreendam o

campo de conhecimento a que pertencem, com possibilidade de oferecer cenários inovadores de

aprendizagem (UFRA, 2013).

Atualmente, o PIBID/UFRA contempla subprojetos, que têm o objetivo de desenvolver o

trabalho coletivo, a interdisciplinaridade e a inclusão digital; valorizar o debate e a reflexão sobre

a necessidade de formar para (i) aprender a aprender; (ii) incentivar a participação direta nos

planejamentos de projetos pedagógicos, diretrizes e currículos educacionais; (iii) elaborar

discussões, ações e avaliações de estratégias didático-pedagógicas de tecnologias educacionais e

diferentes recursos didáticos que estimulem a inovação, a ética profissional, a criatividade, a

inventividade e a interação dos pares.

Recentemente, com o Dia Nacional de Mobilização do PIBID, realizado em 24 de

fevereiro de 2016, foi possível perceber que o uso das redes sociais online entre participantes do

programa, no Brasil inteiro, foi um facilitador para a participação expressiva de bolsistas de

iniciação à docência, supervisores e coordenadores nos atos públicos realizados em várias

cidades do país. Esse fato coloca em evidência a importância da análise das redes sociais entre

participantes e colaboradores dentro de uma mesma instituição e entre diferentes instituições.

4. Metodologia

Nas seções a seguir, apresentamos as fontes de dados bem como a abordagem de análise

utilizada para a produção desta pesquisa.

4.1. Fontes de Dados utilizadas

Na UFRA, o PIBID não possui no momento um sistema de gestão que permita a recuperação

Page 282: Anais do SMSI 2016

automática dos dados dos participantes e da sua alocação nas escolas. Essa ausência de

informações dificultou o levantamento das informações do programa, necessárias para a

construção da rede. No PIBID/UFRA, existem dois coordenadores institucionais; os alunos

bolsistas de iniciação à docência, regularmente matriculados nos cursos de licenciatura da

UFRA; os coordenadores de área, que são professores efetivos da UFRA, responsáveis pela

elaboração dos projetos e coordenação das ações dos bolsistas nas escolas contempladas com a

ação do PIBID; e os supervisores, que são professores das escolas que realizam a supervisão e

facilitam as atividades dos bolsistas nas escolas.

Assim, para capturar o conjunto de dados a ser analisado, foram utilizadas informações

provenientes do Sistema de Acompanhamento de Concessões (SAC) da CAPES, a partir do

qual foram exportadas planilhas e identificados os relacionamentos (links ou laços) entre

bolsistas de iniciação à docência e coordenadores de área.

Adicionalmente, foram capturadas informações sobre os laços entre os atores, a partir de

questionários online onde os bolsistas responderam questões objetivas sobre seu supervisor e

escola onde atuava.

Em suma, são considerados atores das redes sociais analisadas os coordenadores de área,

coordenadores institucionais, supervisores, escolas e bolsistas de iniciação à docência.

4.2. Abordagem de análise utilizada

Dessa forma, adotamos a seguinte estratégia para a construção da rede a ser analisada: ● Denominamos de fase um, o período entre 2012-2013 na instituição. Para isso,

adotamos os registros oficiais do programa na CAPES, ou seja, consideramos as

bolsas aprovadas pela CAPES: 70 bolsistas de iniciação à docência, sendo 40 do

município sede (Belém), 20 do município de Bragança e 10 do município de

Marapanim; 8 supervisores de Belém, 4 supervisores de Bragança e 2 de

Marapanim; 3 coordenadores de área (Belém, Bragança e Marapanim) e 2

coordenadores Institucionais. Com isso totalizaram 89 atores. Com as escolas

parceiras, que também consideramos como atores, totalizaram 96 atores;

● Denominamos de fase dois, a etapa do programa que iniciou em 2014. Nesse

momento, a estratégia adotada foi a de visualizar as redes sob a ótica do

estudante. Assim, nos baseamos nos questionários respondidos pelos estudantes

para capturar informações sobre a escola de atuação, supervisor e coordenador de

área associado ao bolsista. Portanto, a alocação dos bolsistas representada na rede

social é a partir da visão dos bolsistas e não do coordenador de área. Nesse

sentido, um bolsista pode ter apontado, por exemplo, um supervisor na escola

porque interage mais com esse supervisor e oficialmente estar alocado a outro

supervisor. Assim, a rede social captura, na fase dois, a visão do aluno bolsista.

5. Análise das redes do PIBID

Em nossa análise, utilizamos redes orientadas, que representam a indicação do

supervisor, coordenador ou escola indicada pelo ator. A visualização contribui para uma melhor

compreensão, permitindo uma análise de forma gráfica das redes sociais dos atores no programa.

Para gerar as visualizações apresentadas a seguir, usamos o software Pajek (2016).

Page 283: Anais do SMSI 2016

Assim, nós produzimos as visualizações para as redes sociais da fase um e da fase dois.

Na Figura 1 apresentamos a visualização da rede na fase um, sendo o tamanho dos vértices

determinado pelo grau de centralidade do nó. Nesse caso, os nós com maior grau de centralidade

são os professores supervisores e alguns coordenadores de área, principalmente o coordenador de

área de Belém, que é o polo que concentra o maior número de bolsistas de Iniciação à Docência.

Na rede, obscurecemos os nomes dos bolsistas, para preservar sua privacidade e usamos apenas o

texto “Bolsista de ID” rotulados aos nós.

Figura 1. Visualização da rede social do PIBID na Instituição na fase um (tamanho do vértice determinado pelo grau de centralidade).

Na fase um, quando geramos a mesma visualização, só que determinando o tamanho do

nó pelo grau de intermediação, observamos que o coordenador de área em Belém fica ainda mais

em evidência (Figura 2). O grau de intermediação, também conhecido como betweenness, é uma

medida de centralidade determinada pelo número de menores caminhos de todos os vértices para

quaisquer outros vértices que passam por aquele nó. A intermediação, nesse caso, é mais útil do

que apenas a centralidade do nó pois demonstra a dificuldade (ou sobrecarga de trabalho) da

tarefa do coordenador de área intermediando as atividades entre coordenadores institucionais,

supervisores e bolsistas de iniciação à docência. Nesse sentido, como intermediação, nós

identificamos cenários onde o coordenador recomendava que um bolsista interagisse com outro,

de outro supervisor, para encontrar soluções para problemas do dia-a-dia da escola, tais como

falhas de Internet nos laboratórios da escola, dentre outros.

Na fase dois, quando o a rede é produzida a partir da ótica dos bolsistas de iniciação à

docência, observamos algumas diferenças. Uma delas é que nesta fase a CAPES alterou o

formato do programa, permitindo que em Belém, por exemplo, fossem incluídos mais de um

coordenador de área. Com isso, reduziu a sobrecarga do coordenador de área em Belém. Na

figura 3 apresentamos a visualização da rede social nesta fase, sendo o tamanho dos vértices

determinado pelo grau de centralidade.

Page 284: Anais do SMSI 2016

Figura 2. Visualização da rede social do PIBID na Instituição na fase um (tamanho do vértice determinado pelo grau de intermediação).

Quando visualizamos a rede na fase dois (Figura 3), observamos alguns supervisores

mais sobrecarregados (com mais bolsistas de iniciação à docência associado a eles). Uma

explicação para isso pode ser o fato de que alguns alunos indicaram um supervisor, por ter mais

contato presencial com ele, quando na realidade estava alocado à outro. Observamos que isso

pode ter acontecido no subprojeto de Belém. Além disso, há uma situação onde um supervisor

está, de fato, sobrecarregado. Para isso, a coordenação institucional diagnosticou que era

necessário haver nova seleção de supervisores para suprir essa demanda.

Figura 3. Visualização da rede social do PIBID na Instituição na fase dois (tamanho do vértice determinado pelo grau de centralidade).

Page 285: Anais do SMSI 2016

Na sequência, de modo similar ao que foi realizado na fase um, visualizamos a rede na

fase dois, determinado o tamanho dos nós de acordo com o grau de intermediação (Figura 4).

Nessa análise, a questão da sobrecarga de trabalho de alguns supervisores fica mais evidente,

uma vez que essa relação foi apontada pelo próprio bolsista a partir de suas interações

presenciais com o supervisor.

Por outro lado, notamos que a divisão da coordenação de área em Belém minimizou a

sobrecarga com as atividades de coordenação em Belém, pois essa atividade passou a ser

exercida por 4 professores da UFRA.

Figura 4. Visualização da rede social do PIBID na Instituição na fase dois (tamanho do vértice determinado pelo grau de intermediação).

6. Considerações Finais

Neste estudo, a SNA apresenta-se como uma abordagem útil para visualizar as redes

sociais dos atores envolvidos com o programa PIBID na UFRA e principalmente para

comparar a sobrecarga do trabalho de mediação dos supervisores nas escolas. Com o

avanço deste estudo, pretendemos ampliar o escopo, analisando as redes de influência do

programa através da aplicação de questionários que investigam a popularidade do

programa no entorno das escolas. Adicionalmente, pretendemos aplicar técnicas de

análise longitudinal que permitam avaliar ao longo do tempo o crescimento das redes

entre os envolvidos diretamente com o programa e outros colaboradores.

Referências CAPES. Portaria n .° 096, de 18 de julho de 2013, Regulamenta e atualiza as normas do

Page 286: Anais do SMSI 2016

Programa Institucional de Bolsa de Iniciação à Docência. Disponível em:

http://www.capes.gov.br/images/stories/download/legislacao/Portaria_096_18jul13_AprovaRegu

lamentoPIBID.pdf.

FREEMAN, L. C. The Development of Social Network Analysis: A Study in the Sociology of

Science. Vancouver: Empirical Press, 2004. 208 p.

MATHEUS, R. F.; SILVA, A. B. O. Análise de redes sociais como método para a Ciência da

Informação. DataGramaZero - Revista de Ciência da Informação - v.7 n. 2 abr/06 . Disponível

em: http://www.dgz.org.br/abr06/Art_03.htm. Acesso em 12/jan/2016.

PAJEK. Disponível em: http://pajek.imfm.si/doku.php. Acesso em 18 de jan. 2016.

UFRA. Projeto Institucional PIBID/UFRA. Universidade Federal Rural da Amazônia. UFRA,

2013.

WASSERMAN, S.; FAUST, K. Social Network Analysis: Methods and Applications. In M.

Granovetter (Ed.). USA: Cambridge University Press, 1994. 825 p.

Page 287: Anais do SMSI 2016

ClikHelp: uma possibilidade para deficientes auditivos

fazerem chamadas urgentes

Diego de Souza Gomes1, Diogo Pereira da Cunha1, Igor Richard de Oliveira Silva1,

Jardiano de Queiroz Silva1, José Henrique de Oliveira Cardeal1, Leonardo

Valverde de Moraes Silva1, Rafael Coelho Tavares1, Victor Ferreira Gonçalves1,

Vinicius Oliveira Gontijo1, Ana Paula Ladeira2

1 Curso de Sistemas de Informação – Instituto Politécnico - Centro Universitário UNA

Belo Horizonte – MG – Brasil

2 Instituto Politécnico - Centro Universitário UNA

Belo Horizonte – MG – Brasil.

[email protected], [email protected],

[email protected], [email protected], [email protected],

[email protected], [email protected],

[email protected], [email protected],

[email protected]

Abstract. Millions of people in Brazil claim being hearing impaired. For those

people, interaction with others can be difficult or even restricted. This

difficulty is evident when a deaf person needs to interact with health care

professionals. For example, in an emergency situation, such person could be

alone and without anybody able to interpret their clinical needs. In this project

we developed an mobile application that allows request emergency assistance

by telephone, without the interference of another person, a more simple, fast

and convenient way to call help.

Resumo. Existem no Brasil milhões de pessoas que declaram ter deficiência

auditiva. Para essa parte da população, a interação com outras pessoas pode

ser dificultada ou até mesmo restrita. Essa dificuldade fica evidenciada

quando um deficiente auditivo precisa interagir com profissionais da área de

saúde. Ele pode se encontrar em situação de completo isolamento em casos de

urgência, por estar sozinho ou desacompanhado de pessoas capazes de

interpretar suas necessidades clínicas. Pensando neste público, o presente

projeto objetivou desenvolver um aplicativo para dispositivos móveis, que

permite aos deficientes auditivos solicitar atendimento de urgência pelo

telefone, sem a interferência de uma outra pessoa, disponibilizando-se assim

uma forma mais simples, rápida e prática de pedir socorro.

1. Introdução

Para solicitar o atendimento médico de urgência (SAMU), é necessário que o solicitante

faça uma ligação de telefone. Normalmente, a ligação é atendida por um técnico que

identifica a emergência e transfere para o profissional de saúde. Esse, por sua vez, faz o

diagnóstico da situação e inicia o atendimento, orientando o paciente ou solicitante

sobre o que deve ser feito (Portal Brasil, 2009).

Page 288: Anais do SMSI 2016

Segundo dados do Instituto Brasileiro de Geografia e Estatística (IBGE), cerca

de 23.9% da população brasileira se declara portadora de alguma deficiência (Figura 1).

Com deficiência auditiva, estamos falando de 9.7 milhões de pessoas, o que representa

5.1% da população. A deficiência auditiva severa (níveis de perda auditiva entre 71 e 90

decibéis) foi declarada por mais de 2.1 milhões de pessoas. Destas, 344.2 mil são surdas

e 1.7 milhão de pessoas têm grande dificuldade de ouvir (IBGE, 2011).

Figura 1. – Gráfico da população com deficiências no Brasil – Por Tipo de

deficiência, por região e por unidade federativa com base nas amostras do

Censo do IBGE 2010 (G1, 2012).

O deficiente auditivo não consegue solicitar um atendimento pelo telefone ao SAMU

(Serviço de Atendimento Móvel de Urgência), sem depender de outra pessoa. Segundo

Chaveiro e Barbosa (2008), “a relação dos profissionais de saúde com pacientes que têm

audição em níveis normais é estabelecida pelo código verbal, mecanismo normalmente

não utilizado pelos pacientes surdos [...]”. Nestas situações de emergência, em um

momento de desespero é ainda mais difícil a comunicação de um surdo com pessoas que

não tem conhecimento da LIBRAS (Língua Brasileira de Sinais). Em síntese, os

deficientes auditivos podem se encontrar em completo isolamento nos casos de

urgência, por estarem sozinhos e não poderem contar com pessoas capazes de interpretar

suas necessidades em algum momento de desespero, e ficarem sem atendimento

médico.

Diante disso, o presente trabalho tem como objetivo geral desenvolver um

aplicativo para dispositivos móveis que permita a comunicação direta do usuário com

deficiência auditiva com entidades de urgência, tais como o SAMU, Polícia Militar e

Corpo de Bombeiros.

Page 289: Anais do SMSI 2016

2. Referencial Teórico

Os deficientes auditivos utilizam a Libras para se comunicar com a sociedade,

utilizando a visão, expressões faciais e articulando através das mãos. Utilizam também o

oralismo que é o uso da língua falada, bilinguismo, que é uso da língua falada e Libras,

e a comunicação total, que é a utilização de qualquer recurso linguístico seja por

linguagem oral, leitura labial, gestos e alfabeto manual, amplificação sonora, quanto

leitura e escrita (Oliveira, 2011).

Segundo Guerreiro (2000), a comunicação é uma necessidade humana

fundamental e pode ser considerada troca de informação entre indivíduos, materializado

por diferentes meios como fala, escrita, ou de um código previamente combinado. Neste

sentido, faz-se necessário:

incentivar a materialização de um mundo onde a igualdade

comunicacional e de oportunidades na acessibilidade à informação e à

cultura por parte das pessoas com deficiência e/ou carenciadas

culturalmente seja uma consequência natural de políticas esclarecidas

e de legislação que apoie tanto o acesso como a total inclusão em

todos os aspectos da vida em sociedade, conferindo aos equipamentos

culturais públicos uma das primordiais funções para informar, educar,

formar... no mais amplo contexto infoinclusivo, fomentando,

desenvolvendo e sedimentando a inclusão comunicacional e cultural

(Gerreiro, 2002, p. 347).

De acordo com Dizeul e Caporalill (2005), “vivemos em uma sociedade na qual a língua

oral é imperativa, e por consequência caberá a todos que fazem parte dela se adequarem

aos seus meios de comunicação, independentemente de suas possibilidades”. Os autores

complementam que “uma consequência do predomínio dessa visão oralista sobre a

língua de sinais e sobre surdez, o surdo acaba não participando do processo de

integração social” (p. 584).

Isso mostra a importância da utilização de tecnologia, assim como do

desenvolvimento de aplicativos que diminuam essa distância, e que permite

minimamente estabelecer a comunicação entre entidades e pessoas portadoras de

deficiências auditivas.

Segundo Bersch (2008 apud Furlan, 2015), a tecnologia assistiva tem como

objetivo “maior trazer maior qualidade de vida, inclusão e independência ao portador de

deficiência, por meio da melhora na mobilidade, comunicação, aprendizado e no

trabalho”.

Segundo Furlan (2105), de uma maneira geral, tecnologia assistiva pode ser

considerada qualquer ferramenta que auxilie no dia-a-dia do portador do deficiente. Para

a comunicação, existem alguns softwares aplicativos para smartphones

Existem disponíveis no mercado, alguns aplicativos com propósito análogo, que

podem ser utilizados por diversos usuários, incluindo os deficientes auditivos. De uma

maneira geral, eles apresentam os dados de contato das entidades de resgate, ou

viabilizam o envio de mensagens para pessoas ou entidades previamente cadastradas.

Page 290: Anais do SMSI 2016

O aplicativo “Botão de Pânico Vermelho” envia mensagens para contatos

cadastrados juntamente com a localização do usuário, por diferentes meios, tais como

sms, e-mails, Twiter, e outros (Gomes, 2013).

Já o aplicativo Help me Here (Borges, 2012), por sua vez, envia mensagens

configuradas de ocorrências médicas, policiais ou para bombeiros, mas não foi

desenvolvido exclusivamente para deficientes auditivos.

Os aplicativos HandTalk e ProDeaf ajudam deficientes auditivos a se comunicar

com menos dificuldades com a sociedade oral, ajudando na inclusão social e digital. “A

Hand Talk realiza tradução digital e automática para Língua de Sinais, oferece

ferramentas complementares ao trabalho do intérprete para auxiliar a comunicação entre

surdos e ouvintes” (Hand Talk, 2012). O aplicativo ProDeaf é um “conjunto de

softwares capazes de traduzir texto e voz de português para Libras, com o objetivo de

permitir a comunicação entre surdos e ouvintes. Desenvolvido para que as empresas

possam promover acessibilidade e inclusão social a seus clientes e colaboradores”

(Prodeaf, 2011).

3. Metodologia

O aplicativo ClikHelp foi desenvolvido parcialmente em linguagem C#, VB, HTML,

ASP.NET, CSS e JavaScript, utilizando o framework PhoneGap (2015). Esse

framework permite o desenvolvimento de aplicações para dispositivos móveis open

source e multiplataforma. Escolheu-se o PhoneGap devido à facilidade em desenvolver

o design e código do aplicativo, permitindo-se assim que o foco desse projeto fosse a

construção do modelo de interação a ser implementado.

Na Figura 2 é apresentado o diagrama de Casos de Uso do aplicativo ClikHelp.

É possível observar que além do usuário, portador de deficiência auditiva, a central de

urgência interage com o aplicativo no ato da solicitação, e no encaminhamento de

assistência.

Figura 2. – Diagrama de Casos de Uso elaborado durante o desenvolvimento do

aplicativo ClikHelp.

Page 291: Anais do SMSI 2016

Para armazenamento dos dados e histórico dos usuários, foi utilizado o MySQL, como

sistema de gerenciamento de banco de dados. Na próxima seção, serão apresentados

alguns requisitos funcionais do aplicativo, assim como alguns testes realizados no

protótipo desenvolvido.

As funcionalidades foram definidas a partir da análise de aplicativos similares, e

validadas por um deficiente auditivo, integrante do grupo de pesquisa. Isso pode ser

considerado um diferencial do presente projeto: todo o seu desenvolvimento desde a sua

concepção, incluindo a modelagem e implementação do protótipo, foi realizado com a

participação ativa e atuante de um deficiente auditivo.

Por meio do aplicativo, o usuário consegue solicitar o atendimento e ser

direcionado para uma tela onde seleciona a mensagem que melhor lhe atende no

momento, ou descrever o ocorrido em campo apropriado. O próximo passo é

encaminhar a solicitação do usuário via SMS para a central juntamente com a sua

localização. A central por sua vez, retorna uma mensagem sinalizando que a ajuda está a

caminho.

4. Resultados Alcançados

A ferramenta ClikHelp é um aplicativo para dispositivos móveis de apoio ao usuário

com deficiência auditiva. O aplicativo mantém a localização atual do usuário, por meio

do GPS (Global Positioning System) e de dados do próprio usuário, ao requisitar ajuda

ao SAMU.

Os resultados apresentados, nesta seção, foram obtidos a partir de inúmeros

testes realizados no aplicativo: teste de autenticação, do cadastro de usuário e de

parentes, da verificação de campos obrigatórios e de campo com valores inválidos e da

solicitação de atendimento utilizando a geolocalização.

O primeiro teste foi o de autenticação. O usuário inicializou o aplicativo, quando

foi apresentada uma tela inicial (Figura 3a). Clicando-se na opção “Entrar”, a tela de

autenticação é apresentada (Figura 3b). Nesta tela, se o usuário inserir dados incorretos,

o aplicativo irá retornar uma mensagem de erro: “Usuário ou senha inválida, tente

novamente”.

Figure 3. Telas iniciais do aplicativo ClikHelp: (a) Tela inicial (b) Tela de

autenticação

Page 292: Anais do SMSI 2016

Voltando para a tela inicial, se o usuário clicar na opção “Cadastrar-se”, é apresentado

um formulário para fazer o cadastro (Figura 4a).

Figure 4. Telas de cadastro do aplicativo: (a) Cadastro de usuários (b) Cadastro

de Parentes

O segundo teste foi o de verificação dos campos obrigatórios: Após abrir o formulário

do cadastro do usuário, ao fazer o cadastro sem preencher o CPF, que é um dos campos

obrigatórios, o sistema retorna uma mensagem solicitando o seu preenchimento. O

terceiro teste foi o de verificação da validação dos tipos dos campos: Na mesma tela de

cadastro de usuário, preenchendo-se o campo CPF com um valor inválido, o sistema

também retorna uma mensagem. Caso nenhuma situação de erro aconteça, o usuário

será cadastrado e o aplicativo será redirecionado para a tela principal do aplicativo

(Figura 5a), onde constam os botões “SAMU”, “Editar cadastro” e “Cadastrar contato”.

Figure 5. Telas do aplicativo ClikHep: (a) Tela principal, apresentada depois que

o usuário estiver logado (b) Tela de Chamada de Urgência, apresentada depois

que o usuário aciona o SAMU

Para solicitar atendimento, o usuário aciona a opção SAMU na tela principal (Figura

5a), e será redirecionado para a tela de mensagens conforme Figura 5b. Nesta tela, o

usuário pode selecionar a mensagem que melhor lhe atende no momento ou digitar um

resumo do ocorrido no campo disponível. Em seguida, ao clicar no botão “Enviar”, a

Page 293: Anais do SMSI 2016

sua solicitação será encaminhada para a central com as informações preenchidas e com a

sua localização. Neste momento, o usuário será redirecionado para a tela de

acompanhamento do atendimento (Figuras 6 a e b).

Figure 6. Telas de acompanhamento do atendimento: (a) Tela de

acompanhamento com a informação descritiva (b) Tela de acompanhamento

com informação gráfica apresenta no formato de um mapa

O aplicativo desenvolvido foi avaliado pelo deficiente auditivo, membro do grupo de

pesquisa, que simulou a sua utilização em diversas situações de emergência.

5. Conclusão

Os objetivos do presente projeto foram parcialmente alcançados, uma vez que as

interfaces de interação com as entidades de assistência ainda estão sendo estudadas.

Sabe-se da necessidade de se avaliar algumas possibilidades de validação do cadastro

dos usuários, assim como garantir a veracidade das chamadas e consequentemente

eliminar a ocorrência de trotes.

Apesar de ainda não terem sido alcançados todos os objetivos, acredita-se que o

projeto é se suma importância no âmbito social, por trazer uma possível independência

aos surdos.

Espera-se com o projeto, aprofundar as discussões sobre inclusão digital para os

deficientes auditivos, em especial nas situações de emergência. Como trabalhos futuros,

serão realizados testes de usabilidade com outros usuários deficientes auditivos, além da

realização de uma pesquisa juntamente com as entidades de assistência de urgência

quanto ao desenvolvimento da interface de comunicação.

Referências

Bersch R.. “Introdução à tecnologia assistiva”. Porto Alegre: Cedi, 2008.

Borges, Vinícius de Oliveira. Help-me-Here – Sistema para atendimento a chamada de

emergência rápida e inteligente. Trabalho de Conclusão de Curso. Ciência da

Computação. UNESP. Disponível em http://docplayer.com.br/1555308-

Page 294: Anais do SMSI 2016

Universidade-estadual-paulista-faculdade-de-ciencias-bauru.html, 2012, Acesso em:

Out/2015.

Brasileiros declaram ter alguma deficiência, diz IBGE. Disponível em:

http://g1.globo.com/brasil/noticia/2012/04/239-dos-brasileiros-declaram-ter-alguma-

deficiencia-diz-ibge.html. Acesso em: Abril/2015.

Chaveiro, Neuma; Barbosa, Maria Alves; Porto, Celmo Celeno. Revisão de literatura

sobre o atendimento ao paciente surdo pelos profissionais da saúde. Rev. esc. enferm.

USP vol.42 no.3 São Paulo Sept. 2008. Disponível em:

http://www.scielo.br/scielo.php?pid=S0080-62342008000300023&script=sci_arttext.

Acesso em: Set/2015.

Dizeul, Liliane Correia Toscano de Brito; Caporalill, Sueli Aparecida. A língua de

sinais constituindo o surdo como sujeito. Educ. Soc. vol.26 no.91 Maio/Ago. 2005.

Disponível em: http://www.scielo.br/scielo.php?script=sci_arttext&pid=S0101-

73302005000200014. Acesso em: Abril/2015.

Furlan, Anderson Luís, Tecnologias Assistivas Para A Comunicação De Deficientes

Auditivos, Anais do I Seminário de Pesquisa, Pós-graduação e Inovação,

Universidade Federal de Santa Catarina, SC, 2015.

Gomes, Helton Simões. App cria 'botão do pânico' no celular que avisa sobre situação

de perigo. Disponível em http://g1.globo.com/tecnologia/tem-um-

aplicativo/noticia/2013/03/app-cria-botao-do-panico-no-celular-que-avisa-sobre-

situacao-de-perigo.html. Acessado em maio/2015. Acesso em: Out/2015.

Guerreiro, A. D. . Para uma comunicação mais inclusiva. Análise Psicológica, 3: 367-

371, 2002.

Guerreiro, A. D. Para uma nova comunicação dos sentidos: Contributos da

tecnologização da tiflografia para a ampliação dos processos comunicacionais.

Lisboa: Secretariado Nacional para a Reabilitação e Integração das Pessoas com

Deficiência, 2000.

Handtak - Tornamos o mundo mais acessível com a ajuda do Hugo, nosso intérprete

virtual.Disponível em https://www.handtalk.me/app. 2012.

Oliveira, Giuliene Aparecida dos Santos. O Surdo: Meios de Comunicação Disponível

em: http://www.unimep.br/phpg/mostraacademica/anais/9mostra/4/121.pdf. Acesso

em: Agosto/2015.

Phonegap - Build amazing mobile apps powered by open web tech. Disponível em

http://phonegap.com/. Acesso em: maio/2015.

Portal Brasil. País tem serviço móvel de atendimento de urgência. Disponível em:

<http://www.brasil.gov.br/saude/2009/11>. Acesso em: Out/20015.

Prodeaf, Disponível em: <http://prodeaf.net/OQueE> Acesso em: Set/2015

Page 295: Anais do SMSI 2016

Uma investigação dos métodos de classificação da mineração de dados utilizados na gestão educacional

Anderson Dias, Yago Ribeiro, Tauller A. A. Matos

Centro Universitário Estácio Juiz de Fora Juiz de Fora – MG – Brasil

[email protected], [email protected], [email protected]

Abstract. With increase use of Virtual Learning Environment by universities, institutions began to get various behavioral data of students in these environments. Thus, institutions are seeking tools that help their educational processes in order to better know your student. Among these tools we can highlight the Data Mining. Thus, this survey was written in order to identify if there is a method that classifies the techniques of data mining to get better results in educational processes, and shows which attributes were used. It was found that the J48 method showed a superior result compared to the others.

Resumo. Com o aumento do uso de Ambientes Virtuais de Aprendizagem por parte das universidades, as instituições passaram a obter diversos dados comportamentais dos alunos nestes ambientes. Assim, as instituições buscam ferramentas que auxiliem seus processos educacionais com a finalidade de conhecer melhor o seu aluno. Entre estas ferramentas destacamos a mineração de dados. Assim, realizou-se uma pesquisa com o intuito de identificar se existe um método da técnica de classificação da mineração de dados, que obtém melhores resultados nos processos educacionais, e, quais atributos foram utilizados. Constatou-se que o método J48 apresentou resultados superiores aos demais.

1. Introdução

Neste contexto as instituições de ensino estão em constante busca na melhoria de seus processos educacionais. Com a diversidade de metodologias ativas proporcionadas pelas TIC´s, que estão interrelacionadas com o uso da tecnologia, cada vez mais as universidades passaram a possuir dados de seus alunos armazenados em logs de usuários. Ou seja, pelo fato de utizar Ambientes Virtuais de Aprendizagens (AVA), as instituições de ensino passaram a possuir dados e informações que na metodologia de ensino presencial não era possível, como controlar se um aluno acessou uma atividade, material, video aula e demais recursos. Pelo fato de possuir muitos dados, as instituções precisam transformar esses dados em conhecimento. Uma metodologia praticada neste processo é a mineração de dados. Por ser um processo de descoberta de novas e significativas correlações, padrões e tendências em grande volume de dados, por meio de técnicas, estatística e ferramentas matemáticas, a mineração de dados passa a ser um aliado para transformar o cemitério de dados da instituição em uma potencial fonte de conhecimento.

Page 296: Anais do SMSI 2016

O objetivo deste trabalho é investigar quais são as técnicas de classificação de mineração de dados mais utilizadas pelo mundo acadêmico e científico e quais são os atributos (dados dos alunos) utilizados nestes processos. Para atingir os objetivos estabelecidos neste estudo bibliográfico, a presente pesquisa se apresenta como descritiva. Descritiva porque expõe características de vários grupos de estudos.

Este trabalho, além desta introdução, apresenta os seguintes tópicos. O tópico 2 disserta os conceitos fundamentais para o entendimento de mineração de dados, enfatizando os conceitos e diferenças das tarefas e técnicas da mineração de dados. E um foco especial para a tarefa de classificação, tarefa alvo deste trabalho. No tópico 3 é apresentada a pesquisa realizada, com o intuito de verificar quais são as técnicas de classificação mais utilizadas no processo de gestão educacional, além de identificar os atributos escolhidos para o processo de mineração de dados. Por fim, as considerações finais e trabalhos futuros são apresentadas no tópico 4.

2. Mineração de Dados A área denominada Descoberta de Conhecimento em Bases de Dados ou Knowledge Discovery in Databases (KDD), refere-se ao processo completo de descoberta de conhecimento em dados e envolve diversas fases. O termo KDD foi formalizado em 1989 em referência ao amplo conceito de procurar conhecimento a partir de bases de dados.

“KDD é um processo de várias etapas, não-trivial, interativo e iterativo, para identificação de padrões compreensíveis, válidos, novos, potencialmente úteis a partir de grandes conjuntos de dados”. (GOLDSCHMIDT, 2005). A mineração de dados é considerada a principal etapa do processo de KDD e o núcleo central do processo de prospecção de conhecimento, sendo composto pelos métodos de mineração de dados responsáveis pela extração de conhecimento explícito e potencialmente útil dos dados. Esse conhecimento deve ser correto, compreensível por usuários humanos e ser novo. Um conhecimento realmente útil é aquele que pode ser aplicado de forma a proporcionar benefícios reais ao contexto da aplicação. Quando se fala de mineração de dados não se considera apenas consultas complexas elaboradas que visam ratificar uma hipótese gerada por um usuário em função dos relacionamentos existentes entre os dados, e sim a descoberta de novos fatos, regularidades, restrições, padrões e relacionamentos. “Data mining refere-se à garimpagem ou descoberta de novas informações em termos de padrões ou regras oriundas de grandes quantidades de dados.” [ELMASRI e NAVATHE 2011].

É nesta etapa onde são aplicados as técnicas e os algoritmos a serem utilizados no problema em questão de forma a extrair modelos de dados.

A técnica de mineração utilizada no processo de KDD está ligada a forma com que os dados foram pré-processados. Determinados algoritmos possuem restrições quanto aos tipos de variáveis envolvidas no problema. O uso de algoritmos diferentes para executar a mesma técnica, também pode produzir diferentes resultados. A escolha da técnica a ser utilizada no processo de mineração de dados, depende exclusivamente do tipo de tarefa de KDD a ser efetivamente realizada. O que torna necessário distinguir o que é uma tarefa e o que é uma técnica de mineração.

Page 297: Anais do SMSI 2016

A tarefa consiste na especificação do que se busca nos dados, que tipo de regularidades ou categoria de padrões pode ser interessante encontrar em contra partida a técnica de mineração consiste na especificação de métodos que garantam como descobrir os padrões que são interessantes. Para exemplificar, a Tabela 1 faz um quadro comparativo das tarefas e técnicas de mineração de dados. Tabela 1. Comparativo entre as tarefas e técnicas de mineração de dados

Tarefa Conceito Exemplos de Técnica/métodos

Descoberta de Associação realiza uma busca pelos itens que ocorrem de maneira frequente e simultânea em diferentes transações da base de dados.

o mais clássico é o algoritmo Apriori. Outros algoritmos são: Apriori TID e Direct.

Descoberta de Sequência detecta associações entre determinados eventos com definidas relações temporais. Esta descoberta é considerada continuação do processo de descoberta de associação.

Generalized Seqüencial Pattern (GSP). Prefix Span e Algoritmos SPIRIT.

Classificação é uma função que descobre e mapeia diversos conjuntos de registros em conjunto de rótulos categóricos já definidos que são denominados classes.

árvores de decisão, Back-Propagation – redes neurais] e Classificadores Bayesianos.

Clusterização separa os registros de uma base de dados em diferentes subconjuntos de grupos (clusters) permitindo que os elementos do grupo compartilhem suas propriedades comuns e discriminando os demais elementos de outro grupo.

K-means, CURE, DBSCAN

Detecção de desvios tem como função identificar registros em bases de dados cujas características que não correspondem aos padrões normais no âmbito corrente.

Nested Loop (NL), FindAllOuts

Page 298: Anais do SMSI 2016

2.1 Tarefa de Classificação “É o processo de aprendizagem de uma função que mapeia (classifica) dado objeto de interesse em uma das possíveis classes.” [ELMASRI e NAVATHE 2011]

É uma atividade preditiva que consiste na busca por padrões que classifiquem elementos rotulados. É necessário definir previamente as classes, já que o atributo classe é fundamental na tarefa de classificação.

O propósito da tarefa de classificação é descobrir algum tipo de relacionamento entre os atributos preditivos (tuplas do conjunto de dados) e o atributo objetivo (Classes) que permita encontrar um conhecimento que pode ser aplicado a novos registros de forma a prever a classe em que tais registros se encaixam.

Suponha que um coordenador de curso queira saber se um aluno terá um perfil de aluno que será aprovado ou reprovado em uma determinada disciplina. E que para isso ele disponha de um banco de dados de alunos (ambiente AVA), que contenha atributos como nome, disciplina, número de acessos e participações nas atividades da disciplina e se foi aprovado ou reprovado na disciplina. Isto é, a partir do banco de dados atual, descobrem-se regras que classificam os alunos em duas classes: os aprovados e os reprovados nas disciplinas. Uma vez definida estas regras de classificação de alunos, estas são utilizadas no futuro para classificar novos alunos. Por exemplo, regras que podem ser descobertas: i) Se idade está entre 30 e 40 então Classealunoaprovado = “Sim”. ii) Se idade está entre 18 e 22 então Classealunosaprovado= “Não”.

Quando um novo aluno João, com idade de 35 anos, é catalogado no banco de dados, o classificador diz que este aluno é um potencial aluno aprovado. Este aluno é colocado na classe Classealunoaprovado = “Sim”, mesmo que ele ainda não tenha frequentado nenhuma disciplina. O mesmo ocorrerá se um aluno José, com idade de 20 anos, é catalogado no banco de dados, o classificador diz que este aluno é um potencial aluno reprovado. Este aluno é colocado na classe Classealunoaprovado = “Não”, mesmo que ele ainda não tenha frequentado nenhuma disciplina.

O ponto chave da tarefa de classificação é escolher o melhor método/técnica. Ou seja, qual o melhor classificador. Muitos pesquisadores fazem diversos experimentos para tentar comprovar/mostrar se um classificador possui resultado superior ao outro. Desta maneira, o próximo tópico tem como objetivo apresentar o resultado desta pesquisa, que visa levantar quais classificadores/método obtém melhores resultados no processo de educacional.

3. Objetos de Estudo Focou-se em trabalhos recentes publicados nos Anais do Simpósio Brasileiro de Informática na Educação (SBIE). Os critérios utilizados para escolha desta base de dados ocorreu pela importância deste simpósio e pelo fato do evento estar correlacionado com o objeto de estudo deste trabalho. Existem outros anais correlatos, mas que não foram foco desta pesquisa. O primeiro trabalho objeto de estudo desta pesquisa foi [Santana et al 2014], que propõe a aplicação de técnicas de classificação em um conjunto de dados educacionais de um curso semipresencial por meio das interações que traçavam um perfil de uso do AVA, afim de fazer possíveis classificações baseadas no desempenho do aluno. Para a

Page 299: Anais do SMSI 2016

seleção dos atributos, foi considerada a Teoria da Interação, que destaca três tipos de interações fundamentais em um ambiente virtual de aprendizagem: entre o estudante, o conteúdo e o professor/instrutor. Os atributos utilizados para identificar o perfil de uso do AVA foram o desempenho final, número total de acesso ao fórum, número total de interações com as vídeo-aulas, número total de interações com o material da disciplina, número total de interações com as apresentações em slides e tempo médio de acesso.

Usou-se dados de 79 alunos da disciplina Jogos educacionais de uma turma regular de Licenciatura da computação. Os alunos desistentes foram desconsiderados, já que não influenciam no resultado final. Para o processo de discretização, foram formados dois grupos de dados baseados no desempenho dos alunos: o primeiro classificado em A, B e C e o segundo classificado em Aprovado e Reprovado. Neste trabalho o autor fez uso de sete técnicas de classificação, a saber: Random Forest, Multilayer Perceptron, Naive Bayes, SVN, KNN, J48 e RBF.

Foram realizados dois experimentos, sendo que, no primeiro fez-se uso de todos os atributos descritos acima, apenas considerando as classes A, B e C geradas na discretização, tendo o algoritmo J48 apresentado o melhor resultado, com pouco mais de 53% de taxa de acerto. Ainda foi feito um outro experimento considerando as classes Aprovado e Reprovado, também com o algoritmo J48 apresentando o melhor resultado com taxas de acerto acima de 74% conforme pode ser constatado na Tabela 2.

É possível fazer uma avaliação positiva da pesquisa apresentada, pois os resultados obtidos foram considerados satisfatórios, atingindo taxas de acerto acima de 72% e viabilizando o uso de classificadores para a predição do desempenho dos estudantes. Além disso, a técnica de classificação J48 se mostrou promissora e muito eficiente servindo como ampla referência para o trabalho proposto. Tabela 2. Taxa de acerto dos métodos em relação aos experimentos

Fonte: [Santana et al 2014]

O segundo trabalho analisado foi [Silva et al 2015], que apresenta uma pesquisa com o objetivo de criar um modelo preditivo de mineração de dados educacionais para analisar a tendência de evasão dos alunos em uma disciplina regular, baseado nas suas interações em fóruns de discussão de um ambiente virtual de aprendizagem, afim de auxiliar professores/gestores na tomada de decisão. Para esse trabalho, foram usados os dados dos alunos da disciplina Sistemas Operacionais, de um curso técnico em informática, sendo considerado um total de 502 alunos, que participaram ou interagiram em algum momento na disciplina.

Foram realizados dois experimentos em dois conjuntos de dados com características diferentes. Os atributos para a obtenção do primeiro conjunto de dados foram extraídos por meio da interação dos alunos em três fóruns de discussão, disponibilizados no AVA. Os atributos usados consideraram o quantitativo de participação e as postagens nas discussões, sendo: nota média do aluno nos fóruns, quantidade de postagens no fórum 1, quantidade de postagens no fórum 2, quantidade

Page 300: Anais do SMSI 2016

de postagens no fórum 3, total de fóruns que o aluno participou, total de postagens em todos os fóruns, média de postagens por fórum, desempenho do aluno nos fóruns (ruim, regular, bom e excelente) e o resultado final do aluno na disciplina. Para a discretização, no primeiro conjunto de dados, foram usadas as classes Aprovado por media (A.M.) (288 alunos) e Tendência a baixo desempenho (T.B.D.), que considerou todos os alunos com desempenho abaixo do esperado (214 alunos). Já no segundo conjunto de dados, usou-se dados filtrados do primeiro conjunto, considerando apenas os alunos que participaram de pelo menos um fórum, o que resultou em apenas 353 alunos nessa condição, sendo mantidos os 9 atributos do conjunto de dados anterior. Os dados foram minerados por meio da ferramenta Weka, utilizando-se de algoritmos (técnicas) de arvore de decisão tal como o J48, Frete e Simple Cart, além dos baseados em estatísticas BayesNet e Navebayes. Tabela 3. Precisão dos classificadores em cada conjunto de dados (% de acerto)

Fonte: [Silva et. al. 2015]

Os melhores resultados foram obtidos, conforme Tabela 3, no segundo conjunto de dados, que utilizou os dados filtrados por linha, sendo que o algoritmo J48 apresentou o melhor desempenho geral, com taxa de acerto acima dos 73%. Nos experimentos desse trabalho, observou-se que os algoritmos de árvore de decisão são altamente recomendados no contexto educacional, uma vez que geram resultados mais compreensíveis e fáceis de interpretar ao usuário. Sendo assim, essas técnicas são as mais indicadas para a geração de um diagnóstico de alta precisão das tendências de evasão e reprovação dos alunos e servirão como referencial de grande ajuda no desenvolvimento do estudo em questão. O terceiro artigo estudado [Santos et al 2015], apresenta uma pesquisa que pretende identificar o aluno desanimado no contexto de um ambiente virtual por meio da mineração de dados educacionais, com o intuito de reverter a tendência natural de evasão, causada por esse estado afetivo. Ações e dados comportamentais dos alunos ficam registrados nos AVAs e podem apoiar na identificação do estado afetivo do aluno. Os estados de animo foram fundamentados por meio de um instrumento intitulado de Genebra Emotion Whell (GEW), representado em formato de roda e que divide os estados de animo em quatro categorias: animado, desanimado, satisfeito e insatisfeito [Scherer 2005]. Mais tarde, a ferramenta foi adaptada para o português, com o nome de REA 2.0. Para se identificar o estado de animo, observou-se as variáveis comportamentais do aluno, dentro do ambiente. Em um primeiro momento, foram aplicados dois questionários para obter as variáveis relacionadas à percepção do aluno quanto ao seu

Page 301: Anais do SMSI 2016

aprendizado ao se utilizar o ambiente virtual. O primeiro questionário abordou as questões de como o aluno se sentia em diversas situações de aprendizagem, implementando o REA por meio de uma aplicação web. O Segundo questionário complementando o primeiro, contou com questões sobre as dificuldades encontradas pelo aluno no uso das ferramentas do AVA e quanto ao acompanhamento geral da disciplina. Este experimento contou com uma amostra de 44 alunos da disciplina de Análise de Demonstrações Contábeis ofertada pelo Departamento de Ciências Contábeis e Atuárias da UFRGS que responderam os questionários e tiveram seus dados de interação analisados. Considerando as variáveis comportamentais geradas pelas interações dos alunos no ambiente virtual, optou-se por minerar os dados oriundos da participação nos fóruns de discussão. Somente relacionado aos fóruns, usou-se mais de 15 atributos, dentre os quais forum_add_post, forum_view_forum e forum_add_discussion.Usando o método de classificação, por meio do algoritmo de arvore de decisão J48, os conjuntos foram minerados, afim de obter resultados relevantes para os fins dessa pesquisa.

A aplicação apresenta uma eficiência na classificação correta dos dados em 91% dos casos, demonstrando a viabilidade de se subsidiar o professor com essas informações, apresentando de forma simples e clara os alunos propensos ao desânimo. Dessa forma, o professor é capaz de adotar ações efetivas que apoiem o aluno na retomada dos estudos. As referências citadas nesse trabalho demonstram que os resultados alcançados por meio da mineração de dados educacionais, usando-se o algoritimo J48, são de alta precisão para o desenvolvimento de modelos preditivos que visam identificar estados de animo, servindo como rico referencial para a pesquisa pretendida. Mais uma vez os atributos utilizados são referentes as interações do aluno no AVA.

Após estas análises verificamos que o algoritmo J48 apresentou o melhor resultado. O algoritmo J48 surgiu da necessidade de recodificar o algoritmo C4.5, que, originalmente, é escrito na linguagem C, para a linguagem Java [WITTEN et al. 2005]. Ele tem a finalidade de gerar uma árvore de decisão baseada em um conjunto de dados de treinamento, sendo este modelo usado para classificar as instâncias no conjunto de teste. Um dos aspectos para a grande utilização do algoritmo J48 pelos especialistas em Data Mining é que o mesmo se mostra adequado para os procedimentos envolvendo as variáveis (dados) qualitativas contínuas e discretas presentes nas bases de dados [Librelotto 2013] 4. Conclusões e Trabalhos Futuros Diante da necessidade de conhecer melhor seus alunos, as instituições de ensino vêm pesquisando formas de melhorar seu processo de ensino-aprendizagem e gestão escolar. Pelo fato das instituições fazerem uso de ambientes virtuais de aprendizagem, elas passaram a contar com um aliado neste objetivo: o log dos usuários. Diante de todos estes dados, é possível fazer uma análise do passado destes alunos no intuito de gerar um conhecimento para o processo de tomada de decisões futuras.

Foi visto que existem diversos algoritmos classificadores, cada um adequado para um tipo de base de dados. Assim, este trabalho teve como objetivo investigar quais métodos (algoritmos) são mais utilizados na tarefa de classificação. Foram analisados

Page 302: Anais do SMSI 2016

alguns trabalhos que fizeram diversos testes comparativos e em todos o algoritmo J48 apresentou melhor resultado como classificador. Além disto, foram investigados os atributos utilizados no processo de mineração de dados, e constatamos que todos os atributos selecionados são referentes às interações do aluno no ambiente educacional tais como: número de participações nos chats, fóruns, atividades e tempo médio de permanência no ambiente. Vale salientar que com a amostra de pesquisa utilizada, não pretende-se aqui provar que o método J48 é o melhor método de classificação da mineração de dados.

Desta forma, como trabalho futuro, será utilizada a tarefa classificação, a técnica/método J48 e os atributos referentes as interações do aluno no Ambiente Virtual de Aprendizagem da instituição que foi desenvolvida esta pesquisa. Importante destacar também que todos os trabalhos fizeram uso da ferramenta Weka.

5. Referências Date, C. J. (2004) “Introdução a Sistemas de Bancos de Dados”. Rio de Janeiro:

Campos Elmasri, Ramez; Navathe, Shamkant. (2011) “Sistemas de Banco de Dados”. 6ª Ed. São

Paulo: Pearson Goldschmidt, Ronaldo; Passos, Emmanuel. (2005) “Data Mining: um guia prático”. Rio

de Janeiro: Elsevier, 2005. Librelotto, Solange Rubert; Mozzaquatro, Patricia Mariotto. (2013) “Análise dos

algoritmos de mineração J48 e Apriori aplicados na detecção de indicadores da qualidade de vida e saúde”. REVINT – Revista Interdisciplinar de Ensino, Pesquisa e Extensão. Vol. 1, Nº1.

Santana, Leandro C.; Maciel, Alexandre M. A.; Rodrigues, Rodrigo L. (2014) “Avaliação do Perfil de Uso no Ambiente Moodle Utilizando Técnicas de Mineração de Dados”. III Congresso Brasileiro de Informática na Educação (CBIE 2014) XXV Simpósio Brasileiro de Informática na Educação (SBIE 2014)

Santos, Fabrícia Damando; Bercht, Magda; Wives, Leandro Krug. (2015) “Classificação de alunos desanimados em um AVEA: uma proposta a partir da mineração de dados educacionais”. Anais do XXVI Simpósio Brasileiro de Informática na Educação (SBIE 2015).

Scherer, K. R. (2005) “What are the emotions? And how can they measured?” In: Social Science Information.

Silva, Francisco da Conceição; Fonseca, Luis Carlos Costa; Silva, Reinaldo de Jesus; Silva, Josenildo Costa.(2015) “Um modelo preditivo para diagnóstico de evasão baseado nas interações de alunos em fóruns de discussão”. Anais do XXVI Simpósio Brasileiro de Informática na Educação (SBIE 2015)

Witten, I. H.; Frank, E. (2005) “Data mining: practical machine learning tools and techniques”. 2 ed. San Francisco: Morgan Kaufmann Publishers.

Page 303: Anais do SMSI 2016

1 Av. Afonso Vaz de Melo, 1.200. Barreiro | Belo Horizonte | MG

CEP 30640-070 | Telefone: (31) 3328-9500 | icei.pucminas.br/smsi2016

Patrocinadores