vandalisgiansante umarcabouçobaseadoemanotaçõespara ... · dissertação apresentada ao...

52
Universidade Estadual de Campinas Instituto de Computação INSTITUTO DE COMPUTAÇÃO Vandalis Giansante Um Arcabouço Baseado em Anotações para Enriquecimento Semântico de Documentos Textuais CAMPINAS 2017

Upload: hadan

Post on 13-Nov-2018

216 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: VandalisGiansante UmArcabouçoBaseadoemAnotaçõespara ... · Dissertação apresentada ao Instituto de ... a primeira atividade é a obtenção ... descritor da coleção. O módulo

Universidade Estadual de CampinasInstituto de Computação

INSTITUTO DECOMPUTAÇÃO

Vandalis Giansante

Um Arcabouço Baseado em Anotações paraEnriquecimento Semântico de Documentos Textuais

CAMPINAS2017

Page 2: VandalisGiansante UmArcabouçoBaseadoemAnotaçõespara ... · Dissertação apresentada ao Instituto de ... a primeira atividade é a obtenção ... descritor da coleção. O módulo

Vandalis Giansante

Um Arcabouço Baseado em Anotações para EnriquecimentoSemântico de Documentos Textuais

Dissertação apresentada ao Instituto deComputação da Universidade Estadual deCampinas como parte dos requisitos para aobtenção do título de Mestra em Ciência daComputação.

Orientador: Prof. Dr. Ricardo da Silva Torres

Este exemplar corresponde à versão final daDissertação defendida por VandalisGiansante e orientada pelo Prof. Dr.Ricardo da Silva Torres.

CAMPINAS2017

Page 3: VandalisGiansante UmArcabouçoBaseadoemAnotaçõespara ... · Dissertação apresentada ao Instituto de ... a primeira atividade é a obtenção ... descritor da coleção. O módulo

Agência(s) de fomento e nº(s) de processo(s): Não se aplica.

Ficha catalográficaUniversidade Estadual de Campinas

Biblioteca do Instituto de Matemática, Estatística e Computação CientíficaAna Regina Machado - CRB 8/5467

Giansante, Vandalis, 1975- G348a GiaUm arcabouço baseado em anotações para enriquecimento semântico de

documentos textuais / Vandalis Giansante. – Campinas, SP : [s.n.], 2017.

GiaOrientador: Ricardo da Silva Torres. GiaDissertação (mestrado) – Universidade Estadual de Campinas, Instituto de

Computação.

Gia1. Semântica. 2. Sistemas de recuperação da informação - Documentos. 3.

Fluxo de trabalho. 4. Mineração de dados (Computação). I. Torres, Ricardo daSilva, 1977-. II. Universidade Estadual de Campinas. Instituto de Computação.III. Título.

Informações para Biblioteca Digital

Título em outro idioma: An annotation based framework for semantic enrichment of textualdocumentsPalavras-chave em inglês:SemanticsInformation storage and retrieval systems - Archival materialWorkflowData miningÁrea de concentração: Ciência da ComputaçãoTitulação: Mestra em Ciência da ComputaçãoBanca examinadora:Ricardo da Silva Torres [Orientador]Joana Esther Gonzales MalaverriCarla Geovana do Nascimento MacárioData de defesa: 31-08-2017Programa de Pós-Graduação: Ciência da Computação

Powered by TCPDF (www.tcpdf.org)

Page 4: VandalisGiansante UmArcabouçoBaseadoemAnotaçõespara ... · Dissertação apresentada ao Instituto de ... a primeira atividade é a obtenção ... descritor da coleção. O módulo

Universidade Estadual de CampinasInstituto de Computação

INSTITUTO DECOMPUTAÇÃO

Vandalis Giansante

Um Arcabouço Baseado em Anotações para EnriquecimentoSemântico de Documentos Textuais

Banca Examinadora:

• Prof. Dr. Ricardo da Silva TorresInstituto de Computação - UNICAMP

• Profa. Dra. Joana Esther Gonzales MalaverriInstituto de Computação - UNICAMP

• Profa. Dra. Carla Geovana do Nascimento MacárioEmbrapa Informática Agropecuária

A ata da defesa com as respectivas assinaturas dos membros da banca encontra-se noprocesso de vida acadêmica do aluno.

Campinas, 31 de agosto de 2017

Page 5: VandalisGiansante UmArcabouçoBaseadoemAnotaçõespara ... · Dissertação apresentada ao Instituto de ... a primeira atividade é a obtenção ... descritor da coleção. O módulo

Agradecimentos

Primeiramente agradeço à minha família, meus pais, irmãos e irmã que estão presentesdurante toda minha caminhada acadêmica, profissional e pessoal. Minha base, meu portoseguro, estou certa que irão se orgulhar muito por minha conquista, assim como meorgulho deles.

Especialmente, agradeço a meu melhor amigo – e também marido – Fábio, em quem eusempre me espelhei para seguir estudando; meu maior incentivador, em muitos momentosacreditou que eu era capaz mais do que eu mesma. Também à minha filha Ana Paula, quedesde tão pequena foi minha companheira na leitura de artigos, execução de experimentose reuniões de trabalho. Meus companheiros em todos os momentos da vida, seu amorcontribui com a minha busca em ser sempre uma pessoa melhor.

Ao Professor Ricardo pela orientação e por compartilhar comigo não somente seuconhecimento, mas também sua experiência profissional e pessoal. Obrigada por meincentivar a persistir nos momentos mais difíceis e por confiar no meu trabalho.

Aos colegas do laboratório RECOD que sempre dividiram comigo seu conhecimento,em paticular Ícaro e Rafael, que me apoiaram no uso do ferramental desenvolvido nestetrabalho.

À DGA/UNICAMP pelo apoio durante o desenvolvimento desta pesquisa. Agradeçoà Marilda, colega de trabalho e amiga que soube administrar meus momentos de ausência.

Este trabalho contou com a apoio da CAPES, CNPq e FAPESP.

Page 6: VandalisGiansante UmArcabouçoBaseadoemAnotaçõespara ... · Dissertação apresentada ao Instituto de ... a primeira atividade é a obtenção ... descritor da coleção. O módulo

Resumo

Executar tarefas analíticas, como agrupamento e classificação, em coleções de dados textu-ais é objeto de estudo constante em diversas áreas e, em especial, na área de Recuperaçãode Informação. O enriquecimento semântico é uma forma típica usada para tornar maisrepresentativa a descrição de documentos textuais, visando obter melhores resultados emtarefas de mineração de texto. Este trabalho propõe um sistema de enriquecimento se-mântico de dados textuais que se utiliza de um modelo de representação de documentosbaseado em grafos. A implementação do sistema é baseada em um workflow para execu-ção de tarefas de aprendizagem de máquina. Um workflow típico do sistema é compostode (i) um extrator de grafos como forma de representação das amostras da coleção, (ii)um enriquecedor semântico dos grafos obtidos a partir do uso de ontologias (por exemplo,a ontologia WordNet), e (iii) um método de geração da representação vetorial de textosbaseado em grafos visando permitir a classificação dos grafos enriquecidos. Os compo-nentes permitem diferentes parametrizações com o objetivo de alcançar bons resultadosem tarefas de classificação de texto. Experimentos foram realizados com o novo descri-tor de documentos textuais, chamado Semantic Bag of Textual Graphs, que considera oprocedimento de enriquecimento semântico proposto. Os resultados obtidos confirmamos benefícios do uso de workflows na especificação e implementação de procedimentosde anotação e classificação de documentos textuais e apontam para resultados promis-sores na utilização de ontologias em determinados cenários de classificação deste tipo dedocumento.

Page 7: VandalisGiansante UmArcabouçoBaseadoemAnotaçõespara ... · Dissertação apresentada ao Instituto de ... a primeira atividade é a obtenção ... descritor da coleção. O módulo

Abstract

Performing analytical tasks, such as clustering and classification, in collections of textualdocuments are subject of constant study in several areas and especially in the area ofInformation Retrieval. Semantic enrichment is a typical way used to render a textualdocument description more representative, aiming at better results in text mining tasks.This work proposes a system of semantic enrichment of textual data that uses a modelof document representation based on graphs. The system implementation is based on aworkflow for performing machine learning tasks. A typical workflow of the framework iscomposed of (i) a graph extractor as a representation of the collection samples, (ii) anontology-based graph semantic enrichment (e.g., WordNet Ontology), and (iii) a methodof generating the text vector representation based on graphs to perform the classificationof semantically enriched graphs. The components allow different customization proce-dures in order to determine suitable results in text classification tasks. Experiments wereconducted with a novel descriptor, named Semantic Bag of Textual Graphs, which con-siders the proposed ontology-based semantic enrichment procedure. The results confirmthe benefits of using workflows in the specification and implementation of annotation andclassification procedures of textual documents and points out promising results in the useof ontology in certain classification scenarios of this kind of document.

Page 8: VandalisGiansante UmArcabouçoBaseadoemAnotaçõespara ... · Dissertação apresentada ao Instituto de ... a primeira atividade é a obtenção ... descritor da coleção. O módulo

Lista de Figuras

2.1 Conceitos e relações semânticas na WordNet . . . . . . . . . . . . . . . . . 192.2 Abordagem BoG . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 222.3 Pipeline do BoTG . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 232.4 Referência de arquitetura para SWFMSs . . . . . . . . . . . . . . . . . . . 252.5 Framework para automatizar experimentos de AM . . . . . . . . . . . . . . 28

3.1 Exemplo típico de um workflow de classificação. . . . . . . . . . . . . . . . 293.2 Arquitetura Genérica do Sistema de Enriquecimento Semântico de Dados

Textuais . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 303.3 Exemplo de representação baseada em grafo de um documento textual . . 323.4 Conceituação hierárquica de uma palavra na WordNet . . . . . . . . . . . 333.5 Exemplo de grafo enriquecido com sinônimos . . . . . . . . . . . . . . . . . 333.6 Arquitetura proposta do Sistema de Enriquecimento Semântico de Dados

Textuais . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 353.7 Pipeline SBoTG . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36

4.1 Escolha de módulo do Kuaa . . . . . . . . . . . . . . . . . . . . . . . . . . 384.2 Escolha de coleções de documentos textuais . . . . . . . . . . . . . . . . . 384.3 Workflow de experimento de classificação . . . . . . . . . . . . . . . . . . . 394.4 Resultados com erro de classificação para K-series . . . . . . . . . . . . . . 434.5 Resultados com erro de classificação para Reuters . . . . . . . . . . . . . . 444.6 Resultados com erro de classificação para 20-newsgroups . . . . . . . . . . 444.7 Gráfico de acerto por classe para coleção Reuters . . . . . . . . . . . . . . 454.8 Gráfico de acerto por classe para coleção 20-newsgroups . . . . . . . . . . . 45

Page 9: VandalisGiansante UmArcabouçoBaseadoemAnotaçõespara ... · Dissertação apresentada ao Instituto de ... a primeira atividade é a obtenção ... descritor da coleção. O módulo

Lista de Tabelas

4.1 Estatísticas das coleções consideradas nos experimentos. . . . . . . . . . . 404.2 Média do número de vértices nos grafos por amostra (com radicalização) . 414.3 Comparativo das eficácias por Macro-F1 (com radicalização) . . . . . . . . 424.4 Média do número de vértices nos grafos por amostra (sem radicalização) . 424.5 Comparativo dos resultados médios de Macro-F1 (sem radicalização) . . . 43

Page 10: VandalisGiansante UmArcabouçoBaseadoemAnotaçõespara ... · Dissertação apresentada ao Instituto de ... a primeira atividade é a obtenção ... descritor da coleção. O módulo

Lista de Abreviações e Siglas

AM Aprendizado de Máquina. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .14

BoG Bag of Graphs . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .22

BoTG Bag of Textual Graphs . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22

BoVW Bag of Visual Words . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22

BoW Bag of Words . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21

DIG Document Indexing Graph . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20

DNN Deep Neural Networks . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47

EMD Earth Mover’s Distance . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21

GIS Geographic Information System . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26

IA Inteligência Antificial . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14

RI Recuperação de Informação . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13

SBoTG Semantic Bag of Textual Graphs . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15

SESDT Sistema de Enriquecimento Semântico de Dados Textuais. . . . . . . . . . . . . . . . . . .29

SVM Support Vector Machine . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27

SWfMS Scientific Workflow Management Systems . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24

Page 11: VandalisGiansante UmArcabouçoBaseadoemAnotaçõespara ... · Dissertação apresentada ao Instituto de ... a primeira atividade é a obtenção ... descritor da coleção. O módulo

TF-IDF Term Frequency–Inverse Document Frequency . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .21

VSM Vector Space Model . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17

WfMC Workflow Management Coalition . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24

WfMS Workflow Management Systems . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15

Page 12: VandalisGiansante UmArcabouçoBaseadoemAnotaçõespara ... · Dissertação apresentada ao Instituto de ... a primeira atividade é a obtenção ... descritor da coleção. O módulo

Sumário

1 Introdução 13

2 Trabalhos Relacionados 162.1 Recuperação de Informação . . . . . . . . . . . . . . . . . . . . . . . . . . 16

2.1.1 Expansão de Consulta . . . . . . . . . . . . . . . . . . . . . . . . . 172.1.2 Representação Semântica de Dados Textuais . . . . . . . . . . . . . 18

2.2 Representações de Documentos Textuais baseados em Grafos . . . . . . . . 192.2.1 Representação de Textos em Grafos . . . . . . . . . . . . . . . . . . 202.2.2 Sacola de Grafos - Bag of Graphs . . . . . . . . . . . . . . . . . . . 21

2.3 Workflows . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 242.3.1 Workflow Científico . . . . . . . . . . . . . . . . . . . . . . . . . . . 242.3.2 Experimentos Científicos . . . . . . . . . . . . . . . . . . . . . . . . 26

3 Enriquecimento Semântico de Dados Textuais 293.1 Contexto de Uso do Sistema . . . . . . . . . . . . . . . . . . . . . . . . . . 293.2 Arquitetura do Sistema . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 303.3 Enriquecimento Semântico Usando Grafos . . . . . . . . . . . . . . . . . . 31

3.3.1 Enriquecimento por Sinônimo . . . . . . . . . . . . . . . . . . . . . 313.3.2 Enriquecimento por Hiperônimo . . . . . . . . . . . . . . . . . . . . 34

3.4 Aspectos de Implementação . . . . . . . . . . . . . . . . . . . . . . . . . . 343.5 Semantic Bag of Textual Graphs . . . . . . . . . . . . . . . . . . . . . . . . 35

4 Validação 374.1 Cenário de Uso do Sistema de Enriquecimento Semântico . . . . . . . . . . 374.2 Experimentos de Classificação de Documentos Textuais Enriquecidos Se-

manticamente . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 384.2.1 Protocolo Experimental . . . . . . . . . . . . . . . . . . . . . . . . 394.2.2 Resultados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 414.2.3 Discussão . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43

5 Conclusão 465.1 Contribuições . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 465.2 Trabalhos Futuros . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47

Page 13: VandalisGiansante UmArcabouçoBaseadoemAnotaçõespara ... · Dissertação apresentada ao Instituto de ... a primeira atividade é a obtenção ... descritor da coleção. O módulo

Capítulo 1

Introdução

Como resultado dos avanços tecnológicos e de comunicação das últimas décadas, mais emais informações são geradas diariamente. Nesse contexto, informação não é formadaapenas por dados estruturados, ou seja, organizados em uma mesma estrutura de repre-sentação – tratados a contento por banco de dados relacionais –, mas também formadapor dados semiestruturados e não-estruturados, como imagens, áudios, vídeos, arquivos,documentos, dados da Web, informações de sensores, GPS, redes sociais, etc, geradaglobalmente e por diferentes dispositivos. No campo da “Internet das Coisas” ou IoT(abreviação de Internet of Things), que caracteriza a condição de dispositivos inteligentesgerarem dados, permitindo assim a conexão em qualquer momento, em qualquer lugare entre qualquer coisa [41], em 2010 existia 1 bilhão de dispositivos ligados a internet emais de 1 zettabyte (ZB) de informação armazenada no mundo; o armazenamento cresceupara 1,8 ZB já em 2011 (após a entrada em operação das redes 4G/LTE), com previsãode chegar aos 35 ZB em 2020, quando se estimam 50 a 100 bilhões de dispositivos co-nectados [34]. Estes exemplos demonstram o crescimento no volume de dados gerados,trazendo consigo inúmeros benefícios. Porém outros tantos desafios exigem evolução dehardware (processadores, novos tipos de memória e storage, arquitetura de rede) e, con-sequentemente, evolução de software.

Com o crescimento do volume de dados gerados e armazenados em maior velocidade,muita atenção tem sido dedicada à pesquisa relacionada ao tema, em especial em comodefinir, reutilizar, compartilhar e classificar estes dados [6], contribuindo assim para acriação de diferentes serviços, processos e procedimentos baseados neles. Se por um ladoo custo do armazenamento e processamento sofre diminuição à medida que a tecnologiaavança, conforme preconiza a Lei de Moore1, outras questões precisam ser avaliadas, comoo aumento no consumo de energia elétrica (estima-se hoje um gasto de 5% de energia naarmazenagem dos dados), exigindo planejamento dos data centers para que dados nãosejam perdidos em médio prazo [16].

Neste cenário de alto volume de dados, destaca-se a geração de dados textuais. Produ-ções acadêmicas, notícias, resumos e obras são um conteúdo já conhecido nos estudos deRecuperação de Informação (RI), inclusive costumam ser a fonte de coleções de referênciausadas em pesquisas [3]. Porém, especialmente com a popularização da Internet, usuá-

1http://pt.wikipedia.org/wiki/Lei_de_Moore (Último acesso em agosto de 2017).

13

Page 14: VandalisGiansante UmArcabouçoBaseadoemAnotaçõespara ... · Dissertação apresentada ao Instituto de ... a primeira atividade é a obtenção ... descritor da coleção. O módulo

CAPÍTULO 1. INTRODUÇÃO 14

rios Web geram diariamente uma infinidade de novos dados textuais em páginas pessoais,institucionais, blogs, redes sociais, tweets, comentários, análise de produtos, plataformascolaborativas de perguntas e respostas, entre outras. Estes novos conteúdos em geral sãopequenos em tamanho, porém esparsos em quantidade [4] e eventualmente possuem errosde escrita, vícios de digitação e diferentes palavras (chamadas de termos) que o usuáriopode usar para se expressar sobre um mesmo tema. Tarefas tradicionais de classifica-ção, clustering e recuperação são aplicáveis sobre este tipo de coleção. Porém, devido aonúmero de termos de um documento ser pequeno, sua eficácia não é, em geral, alta.

Uma forma de melhorar o resultado de tarefas de recuperação de informação em do-cumentos textuais é expandir os documentos antes de executar tais tarefas. É possívelexpandir um documento associando a ele outros documentos relacionados por meio dautilização de uma máquina de busca ou um sistema de RI que já possua uma coleção,usando o conteúdo original do documento como consulta. Outra abordagem é melhorar ostermos do documento por meio do seu enriquecimento semântico. Geralmente fazendo-seo uso de ontologias – um modelo de dados que representa um conjunto de conceitos dentrode um domínio e os relacionamentos entre estes conceitos [15] –, é possível acrescentarnovos termos ao documento (sinônimos, por exemplo), substituir palavras com erro degrafia e normalizar termos usados de forma diferente (nomes próprios, siglas, por exem-plo). Desta forma, ocorre uma alteração na representação do documento e, pensando narepresentação vetorial do documento como um vetor de termos, significa dizer que seuvetor será diminuído ou aumentado de tal forma que sofrerá um reposicionamento noespaço de características e, portanto, ficará mais próximo aos documentos relevantes dacoleção.

Outra questão importante a ser considerada neste cenário de grandes volumes de do-cumentos textuais consiste em garantir o armazenamento e a utilização adequados dosdados, para que possam ser processados de maneira correta, no menor custo e extraindo-semaior valor de resultados. É necessário contar com técnicas e ferramentas adequadas paraextrair informações que realmente adicionem valor à tomada de decisão. Neste contexto,destacam-se as opções de Aprendizado de Máquina (AM), área associada à InteligênciaAntificial (IA), que objetiva desenvolver técnicas e sistemas computacionais com a capaci-dade de adquirir conhecimento de forma automática a partir de experiências passadas [12].Na literatura, existem diversas aplicações de aprendizado de máquina, com variações dearquitetura, algoritmos ou combinações de algoritmos, dependendo do cenário de uso edo volume de dados. Dentre elas, destacam-se as soluções aplicadas a Big Data: soluçõesde aprendizado de máquina aplicadas a um grande volume de dados heterogêneos (da-dos estruturados e não estruturados). Conhecidas como big data analytics, estas soluçõesatendem a demanda de processamento de bases de dados que excedem exabytes e crescemde forma massiva atualmente, advento que só foi possível devido às evoluções de tecnologia– hardware e software – para sistemas distribuídos com processamento paralelo [21].

De maneira geral, uma solução de aprendizado de máquina é organizada na forma deuma sequência de várias atividades encadeadas. Em um experimento típico de aprendi-zado supervisionado para classificação, por exemplo, a primeira atividade é a obtençãodos dados, seguida da higienização e de sua normalização. Depois é realizada a divisãodos dados originais em teste e treino, construção do modelo de classificação sobre a base

Page 15: VandalisGiansante UmArcabouçoBaseadoemAnotaçõespara ... · Dissertação apresentada ao Instituto de ... a primeira atividade é a obtenção ... descritor da coleção. O módulo

CAPÍTULO 1. INTRODUÇÃO 15

de treino e, por fim, a avaliação do modelo na base de teste. Esta sequência de atividadesrepetíveis, otimizáveis e que trabalham com conjuntos de dados e ferramentas de análise,pode ser representada por um workflow [1] e, portanto, usar ferramentas de workflow,como Workflow Management Systems (WfMS). Além dos benefícios de manutenção evisualização do workflow de um WfMS, os cientistas conseguem avaliar a origem e rastre-abilidade (do inglês provenance) dos dados e do fluxo da análise, e garantir a veracidadedos resultados obtidos.

Este trabalho propõe um Sistema de Enriquecimento Semântico de Dados Textuaisque se utiliza de um modelo de representação de documentos baseado em grafos comodescritor da coleção. O módulo de enriquecimento prevê a adição de novos vértices earestas aos grafos extraídos dos documentos a partir de ontologias. A implementação dosistema, baseada em um workflow, foi estruturada dentro de um framework para execuçãode tarefas de aprendizagem de máquina.

Em resumo, as principais contribuições da pesquisa desenvolvida são:

• Especificação e implementação de sistema de apoio para enriquecimento semânticode dados textuais. Proposto como uma solução genérica, o sistema faz uso deontologias como fonte de enriquecimento;

• Proposta de uma nova representação vetorial, chamada de Semantic Bag of Tex-tual Graphs (SBoTG), que tira vantagem do sistema de enriquecimento semânticoproposto;

• Execução de tarefas de classificação dentro de um workflow específico, adaptadopara o enriquecimento semântico de documentos textuais, e avaliação do SoBTG emtermos de sua eficácia em tarefas de classificação de documentos textuais obtidosde coleções conhecidas.

O restante deste documento está organizado da seguinte forma. O Capítulo 2 apresentatrabalhos relacionados e introduz conceitos importantes para entendimento da pesquisadesenvolvida. O Capítulo 3, por sua vez, apresenta o sistema de enriquecimento semânticoproposto, destacando aspectos de sua implementação. O Capítulo 4 trata de aspectos devalidação. Este capítulo apresenta estudo de caso voltado ao uso de sistema de enrique-cimento semântico, assim como apresenta experimentos realizados visando à validação dedescritor de documento textual criado a partir de dados enriquecidos semanticamente emtarefas de classificação. Finalmente, o Capítulo 5 sumariza as contribuições da pesquisadesenvolvida e apresenta possíveis trabalhos futuros visando à sua continuidade.

Page 16: VandalisGiansante UmArcabouçoBaseadoemAnotaçõespara ... · Dissertação apresentada ao Instituto de ... a primeira atividade é a obtenção ... descritor da coleção. O módulo

Capítulo 2

Trabalhos Relacionados

Este capítulo apresenta os principais conceitos que constituem a fundamentação teóricada pesquisa desenvolvida, assim como apresenta e discute trabalhos relacionados. Con-ceitos relacionados à área de Recuperação de Informação são apresentados na Seção 2.1.Trabalhos voltados à proposta de representações de documentos textuais em grafos sãoapresentados na Seção 2.2. Por fim, o conceito de workflows é apresentado na Seção 2.3.

2.1 Recuperação de Informação

Na Ciência da Computação, Recuperação de Informação é a área que estuda as formasde se prover acesso fácil do usuário a uma informação. Focada inicialmente na indexaçãoe recuperação de documentos úteis a uma necessidade do usuário dentro de uma coleção,a RI hoje inclui estudos de representação, armazenamento, organização, classificação eagrupamento de documentos, arquitetura de sistemas, visualização de informações, ran-queamento, filtragem, relações semânticas, entre outras.

Segundo Baeza e Ricardo Neto [3], um sistema de RI tem como principal objetivoretornar ao usuário todos os documentos relevantes em uma coleção e, ao mesmo tempo,o menor número de documentos irrelevantes. Conceitualmente significa dizer que o re-sultado da busca deve ter um alto índice de revocação (do inglês recall) e alto índice deprecisão. Um sistema de RI que domine muito bem a coleção e esteja perfeitamente adap-tado às necessidades de seus usuários, trará bons índices de resposta. Porém, à medidaque novas informações são adicionadas ao cenário inicial, como variações no contexto ge-ográfico (buscas baseadas na localização atual do usuário), variações em dispositivos (usode smartphones ou computadores) e ainda diferenças no tamanho e formato das amostrasdas coleções, a relevância irá mudar, o que leva a conclusão de que nenhum sistema de RIfornecerá respostas perfeitas o tempo todo a todos os usuários.

De forma genérica, o modelo de recuperação de informação pode ser representado por[D, Q, F , R(qi, dj)], em que:

• D é o conjunto com as representações dos documentos;

• Q é o conjunto com as representações das consultas do usuário;

• F é o arcabouço capaz de modelar os conjuntos D, Q e seus relacionamentos;

16

Page 17: VandalisGiansante UmArcabouçoBaseadoemAnotaçõespara ... · Dissertação apresentada ao Instituto de ... a primeira atividade é a obtenção ... descritor da coleção. O módulo

CAPÍTULO 2. TRABALHOS RELACIONADOS 17

• R(qi, dj) é a função que define o ranqueamento do documento dj ∈ D a partir daconsulta qi ∈ Q.

A primeira tarefa para a construção de um modelo de RI será, portanto, a forma derepresentação dos documentos que compõem a coleção e das necessidades de informaçãodo usuário. Nesta tarefa, conforme usualmente proposto em trabalhos de mineração detexto (do inglês Text Mining), ocorrem as fases de pré-processamento e de indexação. Opré-processamento tem o objetivo de preparar os dados para a fase de indexação, podendoocorrer nessa fase a remoção de conteúdos desnecessários ao texto (como tags de forma-tação e pontuação), remoção de stop words (palavras que não acrescentam significado aotexto, como artigos e preposições) e redução de palavras por meio da radicalização (doinglês stemming). A fase de indexação objetiva o acesso rápido ao documento, quandoum índice é gerado para cada documento da coleção, de tal forma que as palavras-chaveou termos de indexação são identificados em um vocabulário único. A mesma tarefa seráaplicada às consultas, chegando-se a uma representação comum entre documentos e con-sultas. A segunda tarefa do modelo de RI é o ranqueamento propriamente dito, quando osdocumentos relevantes da coleção são recuperados, ordenados de forma decrescente comseu grau de similaridade a partir de uma consulta do usuário.

Um modelo bastante difundido na literatura e que também é utilizado neste trabalho,é o modelo do Espaço Vetorial – Vector Space Model (VSM) [35], no qual os documentos econsultas são representados como vetores n-dimensionais. O número de dimensões será onúmero de termos da coleção e cada valor do vetor pondera a importância do termo àqueledocumento. Cada índice do vetor é relativo a um dos termos da coleção e o ranqueamentodo resultado da consulta é calculado a partir da obtenção dos documentos com vetoresmais próximos ao vetor da consulta.

2.1.1 Expansão de Consulta

Ao iniciar a consulta a uma coleção, é possível que o usuário não tenha conhecimentoprévio de seu conteúdo, portanto dificilmente ele obterá os resultados desejados na pri-meira consulta. À medida que os resultados são exibidos, o usuário iniciará um processode alteração desta consulta, incluindo palavras ou substituindo expressões, até chegarao resultado que considera mais relevante. Este processo que ocorre naturalmente e érealizado pelo usuário é conhecido como realimentação de relevância (do inglês relevancefeedback).

Outro tipo de realimentação possível é por meio da expansão de consultas, no qual osistema de RI utiliza informações relacionadas à própria consulta para expandi-la. Nestetipo de realimentação, não há participação do usuário no processo, então dizemos queela é derivada implicitamente pelo sistema. Os trabalhos nessa linha utilizam diferentesabordagens, porém de uma forma geral exploram as relações sintáticas e semânticas dostermos da coleção [22, 24, 48]. Existem duas formas de análise para atender a expansãode consultas: local e global. Na análise local, ao atender uma consulta, não somenteos documentos que atendam diretamente à consulta são recuperados, mas também osdocumentos que possuem termos relacionados aos termos dos documentos retornados.Neste cenário, o sistema RI tira proveito da correlação ou coocorrência entre os termos

Page 18: VandalisGiansante UmArcabouçoBaseadoemAnotaçõespara ... · Dissertação apresentada ao Instituto de ... a primeira atividade é a obtenção ... descritor da coleção. O módulo

CAPÍTULO 2. TRABALHOS RELACIONADOS 18

dos documentos, retornando os documentos mais próximos. Na análise global, são usadostodos os termos de todos os documentos da coleção não somente aqueles com correlaçãodireta. A análise se utiliza de tesauros ao invés de matrizes de correlação, que armazenamos diferentes clusters de documentos. Porém ao mesmo tempo que se aumenta a revocação,diminui-se a precisão, uma vez que mais documentos precisam ser ranqueados para aexibição do resultado da consulta. Enquanto os métodos de expansão de consultas queusam análise local são aplicados de forma on-line, os métodos que usam a análise globale expandem todos os documentos da coleção são realizados de forma off-line [46].

Em todas estas técnicas e métodos tradicionais, o vocabulário está limitado aos termosque aparecem na coleção e nas consultas, porém pode haver variações de termos aplicadosa um mesmo conceito quando usados por diferentes autores, diferentes mídias ou quandoconsultado por diferentes usuários. Uma outra forma de expansão de consultas é por meiode anotações. As anotações são descrições adicionadas a cada amostra da coleção, con-tribuindo para a melhoria da sua indexação, técnica especialmente útil quando a coleçãopossui documentos com textos curtos e se deseja estender a compreensão de seu domínio.

2.1.2 Representação Semântica de Dados Textuais

Adicionar anotações às amostras de uma coleção exige muito esforço manual, eleva oscusto de manutenção e é dependente da interpretação de um usuário especialista. Paraevitar estes percalços, uma solução é usar ontologias para incluir anotações. No contextode sistemas de informação, “uma ontologia é uma especificação de uma conceituação” [15].Ela armazena, além do conceito – que também é disponibilizado por um tesauro comum– outras relações semânticas, como atributos, relacionamentos, restrições e instâncias dostermos de um determinado domínio. É organizada como um modelo lógico que podeser ilustrado como um grafo, portanto facilita a implementação computacional. Estaabordagem de anotação com o uso de ontologias denomina-se anotação semântica.

Os trabalhos sobre anotações semânticas em geral usam ontologias específicas de umaárea de conhecimento, como é o caso da área biomédica, que possui ontologias para pa-dronizar terminologias, verificar consistências de dados e facilitar integração entre dadosheterogêneos [14, 19], como por exemplo GeneOntology1 e SNOMED2. Nas anotaçõessemânticas para Web, também há diversos trabalhos que se utilizam de ontologias dis-poníveis neste ambiente, como a Wikipedia [37, 47, 50]. Para anotações semânticas dedados geoespaciais são exemplos de ontologia as bases OnLocus e SPIRIT [27]. A maioriados trabalhos utiliza ontologias pré-definidas e que são mantidas por diferentes entidades,como ocorre com o Thesaurus (dicionários que contém sinônimos e alguns antônimos depalavras em inglês) e a WordNet [13].

A WordNet é uma base de palavras em inglês desenvolvida e mantida na Universidadede Princeton. Contém o significado de 155.287 palavras, que podem ser verbo, adjetivo,substantivo ou advérbio, em seus diversos sentidos (chamado de synset). Uma palavracom vários sentidos ou conceitos pertence a vários synsets (a WordNet contém 117.659synsets). A Figura 2.1 exibe os conceitos definidos na WordNet para a palavra “woman” e

1http://www.geneontology.org/ (Último acesso em agosto de 2017).2http://www.snomed.org/ (Último acesso em agosto de 2017).

Page 19: VandalisGiansante UmArcabouçoBaseadoemAnotaçõespara ... · Dissertação apresentada ao Instituto de ... a primeira atividade é a obtenção ... descritor da coleção. O módulo

CAPÍTULO 2. TRABALHOS RELACIONADOS 19

Figura 2.1: Conceitos e relações semânticas, segundo WordNet.

algumas das relações semânticas por conceito. Por exemplo, vemos que “woman” significauma pessoa adulta do sexo feminino, mas também está associada ao conceito de classefeminina.

Mais que um dicionário comum, a WordNet relaciona as palavras não diretamente aoutras palavras, mas as relaciona por meio de seus conceitos, o que garante a desam-biguação dos termos. Cada synset de uma palavra está associado diretamente a outraspalavras, o que representa as relações semânticas entre elas. Estas relações podem sersynonym (sinônimos), hypernym (superconceitos), hyponym (subconceitos) e antonyms(antônimos). Além destas relações mais comuns, inclui também as relações holonym(parte de) e meronym (o todo de). As relações do tipo hypernym e hyponym estabelecemuma organização hierárquica entre as palavras, em forma de um grafo, partindo de umaraiz simples chamada Entity.

Neste trabalho, adotamos a WordNet como ontologia, considerando as relações semân-ticas definidas por synsets e hypernym.

2.2 Representações de Documentos Textuais baseadosem Grafos

Grafos são uma estrutura de dados, definida de forma simplificada por G = (V,E), emque V é um conjunto não vazio de objetos denominados vértices e E é um subconjunto

Page 20: VandalisGiansante UmArcabouçoBaseadoemAnotaçõespara ... · Dissertação apresentada ao Instituto de ... a primeira atividade é a obtenção ... descritor da coleção. O módulo

CAPÍTULO 2. TRABALHOS RELACIONADOS 20

de pares não ordenados de V , denominados arestas. A teoria de grafos – um ramo damatemática originada em 1736, quando Leonhard Euler resolveu o problema da Pontesde Königsberg – se utiliza destas estruturas para a representação e solução de diversosproblemas, em especial para a representação das relações entre os elementos de um dadoconjunto. Exemplos desta representação de fácil visualização são redes de comunicação,elétricas e hídricas, mapas diversos (viários, geográficos, aéreos), redes sociais, páginasWeb. Como solução, a teoria de grafos se aplica ainda na resolução de problemas dealocação de tarefas, transporte, genética, gargalos de processos, entre outros.

No contexto deste trabalho, nos interessa o uso de grafo como forma de representaçãode textos, possibilitando o processamento das informações destes textos com a utilizaçãode algoritmos normalmente aplicáveis a grafos para resolução de problemas. A represen-tação de textos baseada em grafos geralmente monta um ou mais grafos para cada texto,em que os vértices e arestas correspondem, respectivamente, aos termos presentes no textoe aos relacionamentos entre estes termos.

2.2.1 Representação de Textos em Grafos

Muitos estudos tiram proveito da representação de texto em forma de grafo com o objetivode resolver algum problema. Em [29], o propósito é obter as palavras-chave do texto, apartir dos termos mais conectados em um grafo. No trabalho, grafo é montado com ostermos do texto sendo os vértices e o relacionamento entre os termos correspondendo àsarestas, obtidas pelo critério de coocorrência entre os termos. Ainda com o mesmo objetivode obter um objeto em destaque, ou as palavras-chave de um texto, os trabalhos [20, 31]se utilizam da representação do texto em um grafo considerando o mesmo critério decoocorrência para obter o relacionamento entre os termos.

Jin e Srihari [20] chegam ao grafo final do texto utilizando-se de um vetor de conceitos,montado com os termos do texto sendo os vértices, e as relações de coocorrência entre ostermos sendo as arestas. A cada aresta é atribuído ainda um peso, indicando a importânciado relacionamento entre os dois termos. Este processo de atribuição da relação e do pesoé executado para cada termo do vetor de conceitos em relação a todos os demais.

Em [31], o grafo é montado com os termos sendo os vértices e as aresta representandoa relação pelo critério de coocorrência entre estes termos em uma ou mais frases do texto.Com o grafo montado, são obtidas as medidas de centralidade de cada vértice, chegando-se a um ranking. Os termos com os vértices de melhor posição no ranking correspondema potenciais palavras-chave.

Em outra linha de pesquisa que também utiliza textos representados em grafos, porémcombina este modelo com outras técnicas de aprendizado de máquina para a solução deproblemas, podemos citar as referências [17, 26, 36, 49].

Hammouda e Kamel [17] utilizam-se de grafo para obter as sentenças de interesse den-tro do documento e não somente termos em destaque como os demais autores citados atéaqui. Chamado de Document Indexing Graph (DIG), são obtidas as sentenças comuns e écalculado o grau de similaridade entre documentos Web. As sentenças obtidas dos váriosdocumentos e sua medida de similaridade são a entrada para o agrupamento incrementaldestes documentos, obtendo-se assim os grupos de documentos relacionados.

Page 21: VandalisGiansante UmArcabouçoBaseadoemAnotaçõespara ... · Dissertação apresentada ao Instituto de ... a primeira atividade é a obtenção ... descritor da coleção. O módulo

CAPÍTULO 2. TRABALHOS RELACIONADOS 21

Litvak e Last [26] propõem uma solução usando uma abordagem supervisionada eoutra não supervisionada, com uma representação de texto em grafo semelhante à ado-tada em [36]. A abordagem supervisionada é aplicada usando algoritmos de classificaçãoem uma amostra de treino, gerando um modelo de identificação. Na abordagem não-supervisionada, que apresenta um melhor resultado quando não existe uma coleção detreinamento com boa qualidade, é aplicado o algoritmo HITS [23] sobre o grafo do textopara a tarefa de sumarização do conteúdo.

Zhang e Chow [49] propõem um modelo de representação para páginas Web no quala página é segmentada em seções de texto. São detectados na página trechos de texto,de no mínimo 30 palavras cada um, separados por tags específicas. Para obter a me-dida de dissimilaridade, leva-se em conta a comparação como Bag of Words com TermFrequency–Inverse Document Frequency (TF-IDF) e também a comparação por seções,onde a correspondência entre os documentos é tratada usando o algoritmo Earth Mover’sDistance (EMD).

Os grafos obtidos no trabalho de Schenker et al. [36] possuem os termos como vérticese as arestas como a relação entre estes termos em páginas Web. Diferentemente dostrabalhos anteriores citados, as arestas possuem direção que indicam a ordem na qualos termos aparecem no texto. Em sua forma padrão, as arestas recebem ainda um labelque pode indicar a seção do documento (TI – título, L – link, TX – texto). Em umoutro modelo (chamado frequência-relativa), os vértices e as arestas recebem um label quecorresponde ao seu peso, calculado a partir da frequência na qual o termo aparece emrelação aos demais termos e o relacionamento entre termos aparece em relação aos demaisrelacionamentos entre termos na página. A partir dos grafos, o cálculo de dissimilaridadeentre dois grafos pode ser dado por qualquer uma das métricas tradicionais de comparaçãode grafos conhecidas na literatura. O modelo de frequência relativa de Schenker et al.serve como base para solução de Dourado [11] e é o modelo que adotamos na concepçãodo descritor Semantic Bag of Textual Graphs (SBoTG), proposto neste trabalho.

2.2.2 Sacola de Grafos - Bag of Graphs

Antes de iniciar esta seção, é necessário definir um conceito anterior: o modelo de Sacolade Palavras – Bag of Words (BoW). Este modelo, primeiramente usado no contextoda linguística [18], é a forma mais simples e comumente usada pela área de RI pararepresentação de um documento. Semelhante ao VSM, o modelo quantifica cada termodentro de cada documento de uma coleção, atribuindo assim a relação do termo com odocumento. A matriz a seguir apresenta de forma simplificada uma Sacola de Palavras,em que cada elemento fi,j representa a frequência do termo ki no documento dj (exemploretirado de [3]).

d1 d2k1 f1,1 f1,2k2 f2,1 f2,2k3 f3,1 f3,2

A partir deste conceito, novas propostas surgiram como adaptação do modelo para

Page 22: VandalisGiansante UmArcabouçoBaseadoemAnotaçõespara ... · Dissertação apresentada ao Instituto de ... a primeira atividade é a obtenção ... descritor da coleção. O módulo

CAPÍTULO 2. TRABALHOS RELACIONADOS 22

Figura 2.2: Abordagem do framework BoG (Adaptado de [39]).

o domínio de imagens, como Bag of Visual Words (BoVW) [40], inclusão de informaçãoespacial no processo de descrição das imagens e, mais recentemente, o Bag of VisualGraphs [38], para tarefas de classificação de imagens.

Com o objetivo de resolver questões de comparação entre grafos, de forma eficientee reduzindo o tempo de execução nestas tarefas, o Bag of Graphs (BoG) [39], propõeuma adaptação do Bag of Words para o domínio de grafos. Conforme ilustra Figura 2.2,em (A), o objeto é representado por um grafo que modela as estruturas locais existentesem termos de assinaturas de vértices. A assinatura de um vértice é definida a partir dosseus atributos, seu grau e os atributos de cada aresta ligada ao vértice. A seguir, em (B), éaplicado o algoritmo de classificaçãoMean Shift para a construção do vocabulário. Usandoo vocabulário criado, em (C), cada objeto volta a ser descrito em uma representaçãovetorial que contém a estrutura local e a sua frequência, facilitando assim a aplicação dediferentes métodos de aprendizagem.

Combinando o modelo de representação baseado em grafos [36] e o framework BoG [39],um trabalho recente foi apresentado no IC para tarefas de mineração de textos e recupe-ração de informação, denominado Bag of Textual Graphs (BoTG) [11]. De forma seme-lhante ao BoG, o pipeline executa uma sequência de passos para obter o vocabulário eoutra sequência para criar a representação. A Figura 2.3 contém o pipeline de execuçãodo BoTG e seus passos e componentes são descritos a seguir.

O passo 1a extrai os grafos do conjunto de treinamento (um conjunto de amostras).A partir do conjunto de grafos de treinamento, o passo 2a extrai, aplicando critérios pré-definidos, o conjunto dos subgrafos de treinamento. O passo 3 é responsável por criar ovocabulário baseado em grafo que será usado para definir o VSM. Por fim, neste pipeline,no passo 4a, é criada a representação por vetores das amostras, com base em uma projeçãode seus grafos no vocabulário criado. Para tratar novas amostras é executado um pipelinesemelhante: uma nova amostra é obtida e o seu gráfico correspondente é extraído nopasso 1b e os subgrafos são definidos no passo 2b; por fim, no passo 4b, estes subgrafossão mapeados em suas representações vetoriais, com base no uso de funções específicas deAtribuição e agrupamento.

Para a representação dos texto em formato de grafo, a estratégia adotada é dividiro texto original em segmentos (que podem ser as seções ou parágrafos), decompor cada

Page 23: VandalisGiansante UmArcabouçoBaseadoemAnotaçõespara ... · Dissertação apresentada ao Instituto de ... a primeira atividade é a obtenção ... descritor da coleção. O módulo

CAPÍTULO 2. TRABALHOS RELACIONADOS 23

Figura 2.3: Pipeline do BoTG (Adaptado de [11]).

segmento em uma sequência de termos, remover stop words e, por último, aplicar o al-goritmo de Porter’s [33] para reduzir as palavras ao termo comum do radical (em inglêsdenominado stemming). Nos grafos formados, tanto os vértices quanto as arestas sãovaloradas a partir do cálculo do TF-IDF, então para um vértice TF corresponde ao nú-mero de vezes que o termo aparece no documento e DF o número de vezes que o termoaparece na coleção e, de forma semelhante, para uma aresta o TF corresponde ao númerode vezes que a sequência dos dois termos ocorre no documento e DF o número de vezesque a sequência dos dois termos ocorre na coleção. A partir dos grafos dos documentos,são obtidos subgrafos para cada termo do documento, composto do termo e das arestas etermos que ocorrem na sequência no documento.

A geração do vocabulário é realizada a partir dos subgrafos obtidos da coleção. Écalculada a similaridade entre os subgrafos a partir de uma função de dissimilaridadeprópria da solução que considera o contexto do subgrafo (termo central) e a similaridadeentre as arestas e termos mais próximos. Do conjunto de subgrafos obtidos, são mantidosapenas aqueles que possuem arestas, e, com o objetivo de não ocorrer perda de termosrelevantes na coleção, são obtidos os termos isolados nos subgrafos de forma semelhanteao proposto no BoW.

A projeção dos grafos obtidos para um documento no vocabulário criado correspondeà fase de representação vetorial, necessária para que as demais tarefas de classificação,execução de consultas, dentre outras, sejam executadas sobre as amostras. O processorealiza as etapas de atribuição de subgrafos, quando cada subgrafo é mapeado em umapalavra do vocabulário, e pooling, quando um único vetor de saída é gerado para todos ossubgrafos da amostra.

Page 24: VandalisGiansante UmArcabouçoBaseadoemAnotaçõespara ... · Dissertação apresentada ao Instituto de ... a primeira atividade é a obtenção ... descritor da coleção. O módulo

CAPÍTULO 2. TRABALHOS RELACIONADOS 24

2.3 Workflows

Os padrões e conceitos relacionados a workflow foram definidos pela Workflow Mana-gement Coalition (WfMC) [45]. Um workflow é a automação de um processo, em queinformações ou tarefas são passadas de um recurso para outro para a execução de umaação, seguindo regras e procedimentos. Um WfMS é um sistema automatizado para a ela-boração, controle e monitoramento da uma sequência de atividades definidas, organizadascomo um workflow. São componentes de um workflow:

Atividade Menor parte de um trabalho para a execução de um processo.

Processo Encadeamento de atividades ou subprocessos para completar um trabalho. Osprocessos podem ser de negócio ou científicos, sendo diferentes porque este conduzexperimentos científicos e aquele atende atividades comerciais.

2.3.1 Workflow Científico

A especificação de um processo que descreve um experimento científico é chamada deworkflow científico [43], distinguindo-se de um workflow de negócios pelas exigências deum ambiente que facilite o uso, o compartilhamento e o reúso entre cientistas, permitindorastreabilidade até os dados originais. Os sistemas de gerenciamento de workflows cien-tíficos são chamados de Scientific Workflow Management Systems (SWfMS). Semelhanteaos WfMS, seus requisitos básicos são escalabilidade, além da sua capacidade de permitirextensões, disponibilidade, tolerância a falhas e segurança. Outros sete requisitos chavedevem ser considerados quando se trata de SWfMS [25]:

• R1: Interface amigável e personalização ao domínio específico;

• R2: Resultados obtidos a partir da execução de um workflow devem ser reprodutí-veis;

• R3: Integração com diferentes serviços e softwares;

• R4: Gerenciamento dos dados em diferentes formas e formatos;

• R5: Suporte à computação distribuída ou de larga escala;

• R6: Facilidade de acompanhamento da execução e tratamento de falhas;

• R7: Capacidade de permitir interoperabilidade entre diferentes workflow e, até,entre diferentes SWfMS.

Do ponto de vista de arquitetura, há uma referência estabelecida pela WfMC e bemaceita pela comunidade científica para WfMS [45], porém esse padrão não atende aosrequisitos R1 a R5 citados anteriormente. Uma referência foi proposta para atender atodos os requisitos básicos e requisitos-chave, composto por quatro camadas lógicas, setemódulos funcionais e seis interfaces [25], conforme ilustrado na Figura 2.4.

Page 25: VandalisGiansante UmArcabouçoBaseadoemAnotaçõespara ... · Dissertação apresentada ao Instituto de ... a primeira atividade é a obtenção ... descritor da coleção. O módulo

CAPÍTULO 2. TRABALHOS RELACIONADOS 25

Figura 2.4: Referência de arquitetura para SWFMSs (Fonte: [25]).

Na camada de Operação estão as bases de dados científicas, suportando dados hete-rogêneos locais e remotos, e as seis interfaces que aceitam softwares e serviços nas maisdiferentes infraestruturas e tecnologias. Separando-se essa camada das demais, é possívelgarantir o isolamento de computação distribuída ou de alto desempenho das funcionali-dades do SWfMS.

A camada de Gerenciamento de Tarefas abstrai da execução do workflow os diferentesformatos de dados. Estão nesta camada os módulos de Tratamento de Dados Hetero-gêneos, Rastreabilidade e o Gerenciador de Tarefas propriamente dito, este responsávelpelos registros, anotações, buscas e execuções das tarefas do workflow.

Na camada de Gerenciamento do Workflow, estão os módulos do Motor do Workflow ede Monitoramento da Execução. Também é esta camada que promove a interoperabilidadeentre workflows, a partir dos seus respectivos motores.

A camada de Apresentação contempla os módulos que promovem a comunicação com ousuário. O módulo de Apresentação e Visualização possui integração com todos os demaismódulos (não presente na Figura 2.4 por simplificação) e permite visualizar o workflow, osdados, metadados de rastreabilidade, o monitoramento, falhas e os resultados. O módulode Edição possibilita a criação e edição de workflows.

São alguns exemplos de soluções de SWfMS propostas na literatura:

• Kepler [2]: Construído sobre o framework Ptolemy II, é um sistema de software paraelaboração, execução, reutilização e compartilhamento de workflows científicos. Per-mite ao usuário prototipar o workflow antes de incluir o código fonte (recurso possíveldevido ao modelo orientado a atores do Ptolemy); permite o uso de recursos compu-tacionais na rede em um workflow distribuído; permite uso de outras linguagens por

Page 26: VandalisGiansante UmArcabouçoBaseadoemAnotaçõespara ... · Dissertação apresentada ao Instituto de ... a primeira atividade é a obtenção ... descritor da coleção. O módulo

CAPÍTULO 2. TRABALHOS RELACIONADOS 26

meio do Java Native Interface (JNI), facilitando o uso de componentes de análiseexistentes e outras ferramentas; permite a execução do workflow em modo batch.

• Taverna [30]: Ferramenta de código aberto que permite a manipulação de apli-cações de bioinformática em workflows. Os workflows são apresentados em Sculf,uma linguagem conceitual, baseada em XML, na qual cada etapa do processamentocorresponde a uma atividade do workflow. A solução completa inclui aplicativo cli-ente, linha de comando para pequenas execuções e servidor e interface Web paraexecuções remotas. Estas características permitem ao usuário alterar ou integrar arastreabilidade além de visualizar as execuções em gráficos 3D.

• VIEW [8]: Acrônimo para VIsualsciEntific Workflow management system; trata-sede um sistema para gerenciamento de workflow que apresenta como característicaso uso de tecnologia de Web Semântica para representar, armazenar e consultarmetadados de rastreabilidade e apoio de vários gráficos para a visualização dosdados ou da rastreabilidade nos seus estados intermediários e final.

• VisTrail [5]: Ferramenta de gerenciamento de workflow científico e rastreabilidade.Combinando características de sistemas de workflow e de visualização, permite acombinação de recursos e bibliotecas e mecanismos de comparação entre resultadosdiferentes. Seu maior diferencial é uma compreensível infraestrutura de rastreabili-dade, que mantém histórico e os passos na execução de cada workflow e dos dadosutilizados.

• WOODSS [28]: Implementado sobre uma ferramenta comercial de Geographic Infor-mation System (GIS), o WOODSS, abreviação de WOrkflOw-based spatial DecisionSupport System, é uma ferramenta de gerenciamento de workflow elaborada paraatividades de planejamento ambiental. Seu objetivo inicial é capturar as intera-ções do usuário com o GIS, gerando dinamicamente, dentro da base de dados doWOODSS, um workflow que representa o trabalho do usuário. Depois de armaze-nado o workflow, o usuário consegue visualizar e editar o fluxo original dentro daferramenta.

2.3.2 Experimentos Científicos

Em um trabalho recente apresentado no Instituto de Computação (IC), foi proposto umframework para automatizar experimentos de aprendizado de máquina, oferecendo umambiente padronizado baseado em workflow [10, 44]. A ferramenta, chamada de Kuaa,permite projetar, implementar e executar um workflow que corresponda a um experimentode aprendizado de máquina, de forma automática e sem intervenções manuais. Assim,possibilita ao usuário analisar o resultado de diversos experimentos, ou variações de expe-rimentos, sob a garantia de que as execuções foram realizadas sempre usando um mesmopadrão de ambiente e um mesmo conjunto de critérios de comparação. Para tanto, contacom um arcabouço de descritores de características, normalizadores, classificadores e mé-todos de fusão. Também disponibiliza um serviço de recomendação de workflow, baseadono uso de medidas de similaridade, capaz de guiar o usuário durante a configuração de

Page 27: VandalisGiansante UmArcabouçoBaseadoemAnotaçõespara ... · Dissertação apresentada ao Instituto de ... a primeira atividade é a obtenção ... descritor da coleção. O módulo

CAPÍTULO 2. TRABALHOS RELACIONADOS 27

um experimento. O trabalho foi validado em problemas de classificação de imagens defrutas e vegetais.

A Figura 2.5a exibe a arquitetura do framework proposto pelo autor. Esta arquiteturaé composta por 3 camadas: interface, repositórios e execução do framework. Na camadade interface, estão os três módulos de comunicação com o usuário, no qual é possívelelaborar o projeto do workflow, iniciar a sua execução e visualizar os resultados. Nacamada de repositório, há oito módulos: um para a armazenagem dos objetos da coleção,um para armazenagem dos workflows e resultados e seis para armazenagem dos métodosimplementados no framework para cada um dos seis passos necessários para a construçãode um experimento de aprendizagem de máquina. Na camada principal – a de execução –estão os três módulos que conectam a camada de interface com a camada de repositórios.Nesta última camada, no projeto do workflow, é possível obter os métodos disponíveis emcada repositório para a elaboração das atividades de aprendizado de máquina, além deobter recomendações a partir do repositório de workflows e resultados anteriores; e duranteo experimento é possível retornar ao repositório para a execução do método selecionadoem cada atividade.

Todos os módulos usam um esquema de plugin e arquivos XML para os parâmetrose configurações, tornando a ferramenta mais flexível e fácil de ser estendida. Essa estru-tura possibilita a integração de métodos de aprendizado de máquina implementados emqualquer linguagem, por isso foi disponibilizada uma grande variedade de métodos com aferramenta. Além disso, o funcionamento de cada módulo ocorre de forma independentedos demais, permitindo que o framework seja integrado em suas partes ou no todo a outrossistemas de gerenciamento de workflow.

A interface com o usuário é simples e intuitiva, o que facilita o uso. Para a elaboraçãodo workflow são exibidos os repositórios e, à medida que o usuário clica em cada umdeles, um novo passo é incluído no workflow. Clicando com o botão direito em cadaum dos passos adicionados, é possível selecionar um objeto ou método a ser usado econfigurar os parâmetros necessários para sua execução. A Figura 2.5b exibe a interfacecom o usuário de um workflow em execução, destacando com a borda verde as atividadesexecutadas e o seu percentual de completude. Cada atividade do workflow possui umacor diferente de acordo com o tipo de tarefa que realiza: a coleção é representada emvermelho, a divisão da amostra em treino e teste é representada em lilás, os descritoressão representados em verde escuro, o método de normalização é representado em azul, ométodo de classificação é representado em marrom e os métodos de extração dos resultadossão representados em verde claro. Neste experimento, busca-se comparar a eficácia dedois descritores de imagem, BIC e LAS, em tarefas de classificação usando o classificadorSupport Vector Machine (SVM) – módulo libSVM na figura. O protocolo experimentalprevê o uso da coleção tropical_fruits, da normalização de vetores utilizando-se do métodoMin-Max, e o procedimento de validação cruzada em k grupos (K-Fold). As eficácias dosdescritores serão comparadas em termos das matrizes de confusão geradas e da métricaGlobal Accuracy Score.

Page 28: VandalisGiansante UmArcabouçoBaseadoemAnotaçõespara ... · Dissertação apresentada ao Instituto de ... a primeira atividade é a obtenção ... descritor da coleção. O módulo

CAPÍTULO 2. TRABALHOS RELACIONADOS 28

(a)

(b)

Figura 2.5: (a) Arquitetura do framework para automatizar experimentos de aprendizadode máquina; (b) Interface com o usuário exibindo um workflow em execução (Fonte: [44]).

Page 29: VandalisGiansante UmArcabouçoBaseadoemAnotaçõespara ... · Dissertação apresentada ao Instituto de ... a primeira atividade é a obtenção ... descritor da coleção. O módulo

Capítulo 3

Enriquecimento Semântico de DadosTextuais

Este capítulo descreve o SESDT, Sistema de Enriquecimento Semântico de Dados Tex-tuais, um arcabouço de enriquecimento semântico para dados textuais baseado no usode ontologias. Nas próximas seções, apresentamos uma visão geral do contexto de usoconsiderado para o sistema e detalhamos sua arquitetura, seus componentes e aspectosconsiderados quando da sua implementação.

3.1 Contexto de Uso do Sistema

Por meio dos componentes propostos no arcabouço de enriquecimento semântico, é pos-sível associar novos termos a uma amostra obtida de uma coleção de documentos como objetivo de se obter uma melhor descrição de seus documentos e, como consequência,melhores resultados em termos de ranqueamento em tarefas de busca, assim como na exe-cução de tarefas de aprendizado de máquina, como a de classificação. No contexto destetrabalho, entende-se por “melhor descrição”, uma representação vetorial que seja poten-cialmente mais eficaz em tarefas de recuperação e classificação de documentos textuais.Em especial, este trabalho foca em tarefas de classificação.

Em um workflow típico de aprendizagem de máquina para classificação (ver Figura 3.1),são seis as atividades para a realização da tarefa completa: (1) selecionar a coleção, (2) di-vidir as amostras entre treino e teste, (3) descrever as características da coleção, (4) nor-malizar as representações, (5) aplicar o método de classificação e (6) obter os resultados.Na tarefa descrita no workflow, portanto, o Sistema de Enriquecimento Semântico de Da-dos Textuais (SESDT) pode ser visto como uma atividade de extração de característica,ou seja, como um descritor.

Figura 3.1: Representação de um experimento típico de classificação (Adaptado de [44]).

29

Page 30: VandalisGiansante UmArcabouçoBaseadoemAnotaçõespara ... · Dissertação apresentada ao Instituto de ... a primeira atividade é a obtenção ... descritor da coleção. O módulo

CAPÍTULO 3. ENRIQUECIMENTO SEMÂNTICO DE DADOS TEXTUAIS 30

3.2 Arquitetura do Sistema

A Figura 3.2 apresenta a arquitetura genérica do sistema, conforme as camadas descritasa seguir:

Figura 3.2: Arquitetura do Sistema de Enriquecimento Semântico de Dados Textuaisaplicado a tarefas de aprendizagem de máquina.

• Camada de Apresentação: Responsável por prover uma interface amigável parao usuário para receber os parâmetros de execução das tarefas. O usuário realizaa indicação de qual componente será executado em cada atividade, além de fazera configuração apropriada de cada componente. Também é o módulo pelo qual ousuário acompanha a execução das atividades escolhidas e visualiza os resultadosobtidos.

• Camada do Workflow: Contém os mecanismos e gerenciadores necessários paraexecutar cada atividade definida no experimento, seguindo a ordem em que foi defi-nida e atendendo aos parâmetros informados pelo usuário. Esta camada representao SWfMS propriamente dito.

• Camada Operacional: É a camada que contém o repositório com as coleções (oudatasets) e o repositório com as ontologias, usados pela Camada deWorkflow para asexecuções das tarefas. Esta camada contém também os componentes, aplicações e

Page 31: VandalisGiansante UmArcabouçoBaseadoemAnotaçõespara ... · Dissertação apresentada ao Instituto de ... a primeira atividade é a obtenção ... descritor da coleção. O módulo

CAPÍTULO 3. ENRIQUECIMENTO SEMÂNTICO DE DADOS TEXTUAIS 31

algoritmos padrões usados pela camada de workflow para a execução de experimen-tos científicos. É esta camada que contém o Módulo de Enriquecimento Semânticoproposto.

3.3 Enriquecimento Semântico Usando Grafos

Nesta seção, formalizamos a abordagem proposta para enriquecimento semântico de docu-mentos textuais, principal contribuição desta pesquisa. Esta abordagem estende o modelode representação de documentos textuais em grafos proposto em [36] e utilizado em [11]para gerar representações vetoriais. A extensão consiste na adição de vértices e ares-tas à representação em grafo utilizada, a partir da identificação de relações entre termos(conceitos) em ontologias.

Seja D um documento textual e G = (V,E) um grafo associado ao documento D.Uma função de extração de grafos

P(D)→ (V⋃

E)

é uma função que um elemento do documento textual D com um vértice de V ou umaaresta de E. O conjunto definido por P(D) define todos os possíveis elementos (porexemplo, seus termos) de um dado documento textual D.

A função de extração de grafos adotada [11] considera a proximidade e a ordem determos em segmentos de texto. Um segmento pode ser definido arbitrariamente. Nestetrabalho consideramos as sentenças em um documento. Para cada termo de um docu-mento, cria-se um grafo. Será associado um vértice para o termo em análise e arestasdirecionadas são criadas, conectando-se este termo a outros no mesmo segmento.

Seja GD = {G1, G2, . . . , Gn} um conjunto contendo n grafos extraídos de um docu-mento textualD. Modelamos o enriquecimento semântico como uma função F : GD → G ′D,em que G ′D = {G′

1, G′2, . . . , G

′n} é um conjunto de grafos, tal que G′

i = (V ′i , E

′i) ∈ G ′D. Os

conjuntos V ′i ⊃ Vi e E ′

i ⊃ Ei, 1 ≤ i ≤ n, constituem conjuntos enriquecidos de Vi e Ei,respectivamente, a partir de relações entre termos identificadas em ontologias.

Há diferentes formas para enriquecimento dos grafos GD, ou seja, diferentes maneirasde se implementar a função F . A seguir, introduzimos duas implementações usadas nestetrabalho, baseadas no uso de sinônimos (Seção 3.3.1) e hiperônimos (Seção 3.3.2).

3.3.1 Enriquecimento por Sinônimo

O enriquecimento por sinônimo consiste na identificação de termos sinônimos em umaontologia, na criação de vértices para cada sinônimo identificado e, finalmente, na criaçãode arestas conectando os novos vértices aos seus sinônimos.

O Algoritmo 1 sumariza os principais passos do enriquecimento por sinônimo. NaLinha 1 do algoritmo, o documento D é representado por um conjunto de grafos GD. Emseguida, os grafos Gi ∈ GD são enriquecidos nas Linhas de 3 a 9. Para cada grafo Gi, seustermos são identificados na Linha 4. Sinônimos destes termos, então, são identificadosna ontologia O na Linha 7. Estes sinônimos são usados para definição de novos vértices

Page 32: VandalisGiansante UmArcabouçoBaseadoemAnotaçõespara ... · Dissertação apresentada ao Instituto de ... a primeira atividade é a obtenção ... descritor da coleção. O módulo

CAPÍTULO 3. ENRIQUECIMENTO SEMÂNTICO DE DADOS TEXTUAIS 32

Algorithm 1 Enriquecimento por Sinônimo.Input: Documento textual D, Ontologia OOutput: Representação em grafos G ′D enriquecida de D1: GD ← getGraphs(D)2: G ′D ← ∅3: for all Gi ∈ GD do4: T ← getTerms(Gi)5: G′

i ← Gi

6: for all t ∈ T do7: S ← getSynonyms(t,O)8: G′

i ← enrich(G′i,S)

9: G ′D ← G ′D ∪G′i

10: return G ′D

e arestas, dando origem a um novo grafo G′i (Linha 8). Todos os grafos G′

i são entãoutilizados para formar a nova representação enriquecida G ′D do documento D (Linha 9).

A principal novidade deste trabalho reside no uso da função enrich(G′i,S) (Linha 8).

O grafo de entrada tem seus vértices valorados, conforme a frequência relativa do termorepresentado pelo vértice na amostra original (portanto valores entre 0 e 1) e possuiarestas direcionadas, também valoradas, conforme a frequência relativa da sequência determos que ela representa na amostra original. Para os novos vértices adicionados, o valoratribuído ao novo vértice é o mesmo valor do vértice que deu origem a ele e, da mesmaforma, as arestas que chegam e saem do vértice original são copiadas indicando uma novasequência de termos possível e com mesmo significado, do ponto de vista semântico, dasequência de termos original.

Considerando hipoteticamente um documento com o título “Braveheart” e uma sen-tença de texto “Every man dies but not every man really lives”, após execução do compo-nente de extração de grafos, o grafo extraído irá considerar a sequência das palavras notexto e valorar seus vértices e arestas conforme a frequência de cada termo no documento.A Figura 3.3 exibe este exemplo.

Aplicando-se neste exemplo o Algoritmo 1 e utilizando a Ontologia WordNet, paracada vértice serão localizados os sinônimos do termo ao qual o vértice representa. Deforma hierárquica, a Figura 3.4 apresenta algumas das relações para a palavra “man”,

Figura 3.3: Um exemplo de representação baseada em grafo de um documento textual.

Page 33: VandalisGiansante UmArcabouçoBaseadoemAnotaçõespara ... · Dissertação apresentada ao Instituto de ... a primeira atividade é a obtenção ... descritor da coleção. O módulo

CAPÍTULO 3. ENRIQUECIMENTO SEMÂNTICO DE DADOS TEXTUAIS 33

iniciando sempre pela raiz entity. Podemos verificar o sinônimo de interesse para esteexemplo adult male, o superconceito person e alguns subconceitos black man, white man,boy, guy.

Figura 3.4: A palavra “man” conceituada hierarquicamente segundo a WordNet.

A Figura 3.5 exibe o grafo enriquecido resultante, após o uso da ontologia para iden-tificação de relações entre termos. É importante observar que aos exemplos apresentadosnesta seção correspondem a apenas um recorte de uma parte das relações das palavrasde interesse dentro da WordNet que são úteis para ilustrar o contexto do exemplo deenriquecimento apresentado.

Figura 3.5: Um exemplo de grafo enriquecido por sinônimos mais relevantes para umaamostra de texto.

Page 34: VandalisGiansante UmArcabouçoBaseadoemAnotaçõespara ... · Dissertação apresentada ao Instituto de ... a primeira atividade é a obtenção ... descritor da coleção. O módulo

CAPÍTULO 3. ENRIQUECIMENTO SEMÂNTICO DE DADOS TEXTUAIS 34

3.3.2 Enriquecimento por Hiperônimo

O enriquecimento por hiperônimo é similar àquele usado para tratar sinônimos. A únicadiferença em relação ao Algoritmo 1 refere-se ao uso da função getHypernyms na Li-nha 7. Esta função devolve termos que são hiperônimos do termo definido considerandoa ontologia O dada como entrada. O Algoritmo 2 sumariza o processo de enriquecimentopor hiperônimo.

Algorithm 2 Enriquecimento por Hiperônimo.Input: Documento textual D, Ontologia OOutput: Representação em grafos G ′D enriquecida de D1: GD ← getGraphs(D)2: G ′D ← ∅3: for all Gi ∈ GD do4: T ← getTerms(Gi)5: G′

i ← Gi

6: for all t ∈ T do7: S ← getHypernyms(t,O)8: G′

i ← enrich(G′i,S)

9: G ′D ← G ′D ∪G′i

10: return G ′D

3.4 Aspectos de Implementação

Considerando a eficiência da utilização de representação de coleções textuais baseadas emgrafos e a facilidade de execução de experimentos científicos por meio da utilização deworkflows, a arquitetura proposta para Sistema de Enriquecimento Semântico de DadosTextuais é apresentada na Figura 3.6.

Utilizando como plataforma base de execução, a proposta adiciona à arquitetura doframework para automatizar experimentos de aprendizado de máquinas descrito na Fi-gura 2.5a, componentes específicos para o enriquecimento semântico de dados textuais.A seguir são descritos estes componentes:

• framework Kuaa: Um framework baseado em workflow que pode ser usado para odesenho e execução automática de experimentos de aprendizagem de máquina [10].A aplicação gerada a partir do framework descrito na Seção 2.3.2, possui em suaversão atualmente disponibilizada para pesquisas, um repositório com diversos com-ponentes para extração de características, normalização, classificação e métodos defusão. Permite o acoplamento de novos plugins contendo a implementação de novoscomponentes facilmente e, aproveitando desta característica, incluímos o módulo deenriquecimento semântico proposto neste trabalho;

• Repositório de ontologias: Contém a base de dados com a ontologia a ser usadapara auxiliar nas tarefas de enriquecimento semântico. Na presente implementação

Page 35: VandalisGiansante UmArcabouçoBaseadoemAnotaçõespara ... · Dissertação apresentada ao Instituto de ... a primeira atividade é a obtenção ... descritor da coleção. O módulo

CAPÍTULO 3. ENRIQUECIMENTO SEMÂNTICO DE DADOS TEXTUAIS 35

Figura 3.6: Arquitetura proposta para o Sistema de Enriquecimento Semântico de DadosTextuais aplicado a tarefas de aprendizagem de máquina.

do arcabouço, considera-se o uso da ontologia WordNet (apresentada na Seção 2.1.2),utilizada para textos em inglês e genérica o suficiente para tratar qualquer coleçãode documentos;

• Módulo de enriquecimento semântico baseado em grafos: Incluído no re-positório de descritores, contém os métodos, componentes e algoritmos necessáriospara enriquecer semanticamente, a partir de uma ontologia, coleções de documentos.Este repositório inclui três novos componentes implementados: Extrator de Grafos,Enriquecedor Semântico de Grafos e Representação Vetorial de Grafos. Estes com-ponentes atuando sequencialmente e em conjunto constituem a implementação doSemantic Bag of Textual Graphs.

3.5 Semantic Bag of Textual Graphs

Esta seção descreve os componentes do SBoTG. São eles:

Extrator de Grafos: Componente que extrai um ou mais grafos para cada amostrade uma coleção. Neste trabalho, utilizam-se métodos baseados na proposta apresentadaem [36] (Seção 2.2.1).

Enriquecedor Semântico de Grafos: Componente que percorre os grafos gerados,adicionando conteúdo a vértices e arestas, obtido das relações semânticas definidas em

Page 36: VandalisGiansante UmArcabouçoBaseadoemAnotaçõespara ... · Dissertação apresentada ao Instituto de ... a primeira atividade é a obtenção ... descritor da coleção. O módulo

CAPÍTULO 3. ENRIQUECIMENTO SEMÂNTICO DE DADOS TEXTUAIS 36

Figura 3.7: Processo de Enriquecimento Semântico de Dados Textuais.

uma ontologia, conforme os métodos descritos na Seção 3.3.

Representação Vetorial de Grafos: Componente responsável pela geração do voca-bulário de grafos e geração da representação vetorial destes grafos, conforme propostoem [36] e implementado por [11], para posterior uso em tarefas de aprendizagem de má-quina, em especial, de classificação.

A Figura 3.7 contém a representação das diferentes etapas de processamento do SBoTG.A partir dos documentos da amostra de treinamento (A), são extraídos os grafos corres-pondentes (B), que são enriquecidos utilizando uma ontologia, gerando os grafos enri-quecidos (C). Sobre os grafos enriquecidos são extraídos os subgrafos para a geração dovocabulário de grafos (D). Os grafos são projetados sobre o vocabulário por meio defunções de Atribuição e Pooling obtendo-se a sua representação vetorial (E). Para o trata-mento de novas amostras (F), o processo se repete: são extraídos os grafos da amostra (G)que posteriormente são enriquecidos utilizando a mesma ontologia das amostras de trei-namento (H). Em seguida, os grafos obtidos são projetados no vocabulário, obtendo-se arepresentação vetorial correspondente (I).

Page 37: VandalisGiansante UmArcabouçoBaseadoemAnotaçõespara ... · Dissertação apresentada ao Instituto de ... a primeira atividade é a obtenção ... descritor da coleção. O módulo

Capítulo 4

Validação

Este capítulo apresenta a validação conduzida do Sistema de Enriquecimento de Docu-mentos Textuais proposto (descrito no Capítulo 3). A validação é dividida em duas etapas:na apresentação de estudo de caso voltado à especificação e execução de experimentos declassificação usando a implementação descrita na Seção 3.4 e da efetiva realização de expe-rimentos de classificação de documentos textuais, utilizado-se de descritor que considerao enriquecimento semântico de grafos.

4.1 Cenário de Uso do Sistema de Enriquecimento Se-mântico

O cenário de uso apresentado considera o uso do sistema Kuaa [10]. Para o desenhodo fluxo das atividades de execução do experimento, é necessário a seleção do móduloa ser executado a partir da janela principal do famework, conforme Figura 4.1. Seleci-onado um módulo ou atividade, é necessário definir os parâmetros para sua execução.A Figura 4.2 exibe a definição de parâmetro para o módulo Collection, que permitirá aescolha de coleções de documentos textuais que serão usados na realização de experimen-tos. No exemplo mostrado, o usuário pode escolher entre três coleções: 20-NewsGroups1,K-series2, e Reuters3.

A Figura 4.3 apresenta um workflow completo projetado na ferramenta Kuaa. Noexperimento especificado, o usuário tem como objetivo a comparação do desempenho deeficácia de dois descritores de documentos textuais: BoTG [11] e o descritor SBoTG,versão estendida do BoTG que considera o enriquecimento semântico de grafos que re-presentam documentos textuais, proposto neste trabalho. O experimento especificadocompara os métodos utilizando-se do protocolo cross-validation e do classificador SVM –atividade libSVM no workflow. As métricas de comparação são F-Measure e matrizes deconfusão (Confusion Matrix).

1http://archive.ics.uci.edu/ml/datasets/Twenty+Newsgroups (Último acesso em agosto de2017).

2http://www-users.cs.umn.edu/~boley/ftp/PDDPdata (Último acesso em agosto de 2017).3http://archive.ics.uci.edu/ml/datasets/Reuters-21578+Text+Categorization+Collection

(Último acesso em agosto de 2017).

37

Page 38: VandalisGiansante UmArcabouçoBaseadoemAnotaçõespara ... · Dissertação apresentada ao Instituto de ... a primeira atividade é a obtenção ... descritor da coleção. O módulo

CAPÍTULO 4. VALIDAÇÃO 38

Figura 4.1: Escolha do módulo para execução na ferramenta Kuaa.

Figura 4.2: Escolha de coleções de documentos textuais na ferramenta Kuaa.

4.2 Experimentos de Classificação de Documentos Tex-tuais Enriquecidos Semanticamente

O cenário de validação foi de classificação de textos. O que se pretende avaliar com esteexperimento é a eficácia do método de classificação de textos enriquecidos com anotaçõessemânticas baseadas em ontologia. A hipótese inicial para esta validação é que o usode ontologia como anotação semântica contribui para melhorar a eficácia de tarefas deaprendizado de máquina voltadas para classificação de texto.

Page 39: VandalisGiansante UmArcabouçoBaseadoemAnotaçõespara ... · Dissertação apresentada ao Instituto de ... a primeira atividade é a obtenção ... descritor da coleção. O módulo

CAPÍTULO 4. VALIDAÇÃO 39

Figura 4.3: Workflow de experimento de classificação considerando o descritor BoTG esua versão enriquecida semanticamente (SBoTG).

4.2.1 Protocolo Experimental

Coleções de Documentos Textuais: Três coleções de documentos textuais foramconsideradas nos experimentos: K-series, Reuters e 20-newsgroups. A coleção K-seriescontém páginas Web extraídas do site Yahoo e distribuídas em 6 categorias. A coleçãoReuters (mais especificamente Reutesrs21578) contém notícias agrupadas compostas deum título curto e uma longa descrição de texto, classificadas em 5 categorias distintas.Destas só consideramos a categoria topics, com 15 classes. A coleção 20-newsgroups con-tém mensagens postadas no forum USENET, sendo portanto a coleção menos padronizadado ponto de vista da estrutura das amostras, distribuídas em 20 classes.

Das amostras originais, por simplificação, foram descartadas as amostras não classi-ficadas e as amostras com múltiplas classificações. Também foram descartadas amostrassem conteúdo textual por não serem úteis em nossa abordagem de classificação de textos.A Tabela 4.1 resume as estatísticas das três coleções em seu conteúdo final após a seleçãodas classes e limpezas. São apresentados o número de classes e o número de amostras porcoleção.

Extração de Grafos: A geração dos grafos a partir das amostras da coleção obtémos segmentos de texto do documento que são relevantes, ou seja, que possuem algum

Page 40: VandalisGiansante UmArcabouçoBaseadoemAnotaçõespara ... · Dissertação apresentada ao Instituto de ... a primeira atividade é a obtenção ... descritor da coleção. O módulo

CAPÍTULO 4. VALIDAÇÃO 40

Tabela 4.1: Estatísticas das coleções consideradas nos experimentos.

Coleção # classes # amostrasK-series 6 1.951Reuters 15 4.010

20-newsgroups 20 10.944

conteúdo após a remoção de stop words4. Existe ainda o critério de pré-processamentodo texto que corresponde à redução de palavras por meio da radicalização, que podeser opcionalmente definido no método, sendo o padrão sempre aplicar a radicalização.A radicalização pode obter termos que não são palavras existentes na língua inglesa,o que não permitiria encontrar estes termos em um dicionário e, portanto, não seriapossível enriquecer semanticamente o grafo. Para avaliar esta hipótese foram realizadosexperimentos com os dois cenários para validação dos resultados.

Enriquecimento Semântico: A atividade de enriquecimento semântico permite que ousuário defina no Kuaa qual o tipo de enriquecimento deseja usar no experimento. Quatroversões de enriquecimento semântico, que combinam o enriquecimento por sinônimo ouhiperônimo, conforme detalhado na Seção 3.3 foram avaliadas. Estas versões constituem,portanto, quatro diferentes implementações do descritor Semantic Bag of Textual Graphs.São elas:

• Enriquecimento-V1: O grafo é enriquecido com o todos os sinônimos encontradospara cada termo do grafo original no sentido mais comum em que o termo é usadoem inglês;

• Enriquecimento-V2: O grafo é enriquecido com o primeiro sinônimo encontrado paracada termo do grafo original no sentido mais comum em que o termo é usado eminglês;

• Enriquecimento-V3: O grafo é enriquecido com o primeiro hiperônimo encontradopara cada termo do grafo original no sentido mais comum em que o termo é usadoem inglês;

• Enriquecimento-V4: O grafo é enriquecido com uma combinação das versões 2 e 3,ou seja, com o sinônimo e o hiperônimo de cada termo do grafo original no sentidomais comum em que o termo é usado em inglês.

Para todas as versões de enriquecimento consideradas nos experimentos conduzidos,a ontologia usada foi a WordNet.

Classificador Utilizado e Protocolo Experimental: A escolha do método de clas-sificação foi definida a partir das opções de classificação realizadas por Dourado [11], vistoque este é nosso baseline para análise de eficácia da solução. Para a validação, utilizamos

4Lista disponível em http://archive.ics.uci.edu/ml/datasets/Twenty+Newsgroups (Últimoacesso em agosto de 2017).

Page 41: VandalisGiansante UmArcabouçoBaseadoemAnotaçõespara ... · Dissertação apresentada ao Instituto de ... a primeira atividade é a obtenção ... descritor da coleção. O módulo

CAPÍTULO 4. VALIDAÇÃO 41

Tabela 4.2: Média do número de vértices obtido por amostra em cada coleção no grafo ori-ginal extraído e nas quatro versões de enriquecimento, considerando o uso de radicalizaçãodos termos nos documentos originais.

Coleção

K-series Reuters 20-newsgroups

Grafo extraído 169 46 69Grafo enriquecimento-V1 348 90 137Grafo enriquecimento-V2 268 72 106Grafo enriquecimento-V3 264 69 102Grafo enriquecimento-V4 270 72 107

o método de validação cruzada particionando as amostras em 10 conjuntos com o mesmonúmero de objetos e com mesma distribuição de classes que a coleção completa. O mé-todo utilizado para a classificação foi o SVM com kernel linear. O SVM é originalmentedestinado a problemas de classificação binária. Então para nossa necessidade que é multi-classe, foi utilizado o método “um contra todos”. Nesta abordagem treina-se o SVM paracada classe, ou seja, obtém-se a função do hiperplano para cada uma classe em relação atodas as demais e, ao final, obtém-se o agrupamento do resultado com todas as classes.Parâmetros testados no SVM para seu parâmetro C foram 0,001, 0,01, 0,1, 1, 10, 100 e1000.

Medida de Comparação: A medida obtida para análise dos resultados foi Macro-F1(média ponderada da revocação e precisão de todos os folds). Para a análise quantitativapor classes, com o objetivo de investigar em quais cenários o enriquecimento semânticose comportou de forma diferente em relação à baseline, foi utilizada a matriz de confusãode erros e acertos por classe.

4.2.2 Resultados

Os experimentos foram realizados e analisados em duas fases: primeiro foram executadosos experimentos e realizadas as avaliações dos resultados obtidos nas três coleções, apli-cando as quatro versões de enriquecimento exatamente como executado no baseline, ouseja, aplicando a radicalização na extração dos grafos originais da coleção. Posteriormenteos experimentos foram repetidos, porém usando o grafo de origem extraído sem aplicarradicalização dos termos.

A Tabela 4.2 apresenta a média do número de vértices por amostra nas coleções na suaversão original e nas quatro versões de enriquecimento. É possível observar que houve umaumento no número de vértices, o que era esperado, visto que o enriquecimento justamenteacrescenta novos termos e arestas aos grafo identificados para cada documento.

A Tabela 4.3 contém os resultados obtidos pelo baseline e pelas quatro versões deenriquecimento executadas para os grafos extraídos com aplicação do algoritmo de ra-dicalização dos termos. Com exceção da coleção K-series, é possível observar o melhorresultado de enriquecimento para a versão V 4, ou seja, aquela que considera a inclusão

Page 42: VandalisGiansante UmArcabouçoBaseadoemAnotaçõespara ... · Dissertação apresentada ao Instituto de ... a primeira atividade é a obtenção ... descritor da coleção. O módulo

CAPÍTULO 4. VALIDAÇÃO 42

Tabela 4.3: Comparativo das eficácias por Macro-F1 para o baseline e as quatro versõesde enriquecimento.

Original Enriquecimento-V1 Enriquecimento-V2 Enriquecimento-V3 Enriquecimento-V4

Coleções C Macro-F1 C Macro-F1 C Macro-F1 C Macro-F1 C Macro-F1

K-series 1 99,46±0,61 0,01 98,92±0,93 0,1 99,21±0,63 0,1 99,29±0,68 1 99,22±0,72Reuters 0,1 93,15±1,21 0,01 93,35±1,12 0,01 93,31±1,03 0,01 93,30±1,14 0,01 93,36±0,9820-newsgroups 0,1 87,15±1,10 0,01 85,84±1,20 0,01 86,36±1,07 0,01 86,19±0,93 0,01 86,49±1,11

Tabela 4.4: Média do número de vértices obtido por amostra em cada coleção no grafooriginal extraído e nas quatro versões de enriquecimento, sem a utilização de radicalizaçãodos termos nos documentos originais.

Coleção

Reuters 20-newsgroups

Grafo extraído 49 71Grafo enriquecimento-V1 126 179Grafo enriquecimento-V2 90 125Grafo enriquecimento-V3 85 118Grafo enriquecimento-V4 91 127

de um sinônimo e um hiperônimo para os termos originais. Para a coleção Reuters oresultado obtido foi ainda melhor que o observado para o baseline.

Avaliando o caso específico da coleção K-series, foi possível identificar que em númerosabsolutos, a baseline está errando a classificação de 7 entre as 1.951 amostras originais,enquanto a melhor abordagem de enriquecimento erra estas mesmas 7 amostras e maisoutros 2 casos. Por ser uma base com um alto índice de acerto na classificação, a coleçãoK-series não foi utilizada na próxima fase de experimentos.

Levando em consideração que a radicalização de termos gerou termos novos que nãopuderam ser encontrados na ontologia, uma segunda fase de experimentos foi executadapara validar se, sem aplicar a radicalização, novos termos seriam incluídos e contribuiriampara um melhor resultado na classificação. A Tabela 4.4 apresenta a média do número devértices por amostra nas coleções quando não foi realizada radicalização dos termos dodocumento original. Novamente ocorreu aumento do número de vértices original, o quejá era previsto. Observa-se também, por outro lado, que ocorreu aumento em relação aonúmero de vértices da abordagem com radicalização dos termos (Tabela 4.2).

A Tabela 4.5 contém os resultados obtidos para o baseline e as quatro versões de en-riquecimento executadas para os grafos extraídos sem radicalização dos termos. Para acoleção Reuters, é possível notar que as abordagens de enriquecimento propostas obtive-ram ainda melhor resultado que a versão com radicalização. Para a coleção 20-newsgroupsos resultados são melhores do que aqueles da primeira fase de experimentos, porém a ba-seline (BoTG) ainda tem um resultado melhor que as abordagens com enriquecimento(SBoTG). Neste ponto, observa-se que a seleção da ontologia tem forte impacto no resul-tado da classificação.

Page 43: VandalisGiansante UmArcabouçoBaseadoemAnotaçõespara ... · Dissertação apresentada ao Instituto de ... a primeira atividade é a obtenção ... descritor da coleção. O módulo

CAPÍTULO 4. VALIDAÇÃO 43

Tabela 4.5: Comparativo dos resultados médios de Macro-F1 para o baseline e as quatroversões de enriquecimento, a partir de grafos sem radicalização de termos.

Original Enriquecimento-V1 Enriquecimento-V2 Enriquecimento-V3 Enriquecimento-V4

Coleções C Macro-F1 C Macro-F1 C Macro-F1 C Macro-F1 C Macro-F1

Reuters 0,1 93,87±1,07 0,01 93,73±1,61 0,01 94,04±1,37 0,01 93,95±1,34 0,1 94,01±1,2220-newsgroups 0,1 87,58±0,77 0,01 86,72±0,96 0,01 87,33±1,06 0,01 87,19±1,24 0,01 87,41±1,15

(a) (b)

Figura 4.4: (a) Originalmente da classe HEALTH, predito como POLITICSP; (b) Origi-nalmente da classe ENTERTAINMENT, predito como POLITICSP.

4.2.3 Discussão

Na coleção K-series, na qual o índice de erro é muito pequeno na abrodagem de classi-ficaçõ, analisamos alguns casos de erros. A Figura 4.4 exibe dois exemplos de erros declassificação na coleção K-series, onde o destaque foi dado à termos que remeteram apredição da classe POLITICSP ao invés das classes originais HEALTH e ENTERTAIN-MENT respectivamente. A abordagem proposta de enriquecimento semântico baseadoem uma ontologia de termos sinônimos não conseguiria melhorar os resultados anteriores.

A coleção Reuters é uma base de notícias que tem conteúdo bem estruturado, emgeral bem escrito, sem erros de redação, portanto o enriquecimento semântico a partir deuma ontologia como a WordNet (dicionário em inglês), consegue contribuir positivamente.Analisando as Tabelas 4.2 e 4.4, nota-se que há um aumento proporcionalmente maiorno enriquecimento da Reuters sem radicalização de termos do que na 20-newsgroups.Esta segunda coleção armazena mensagens trocadas em um grupo de usuários, portantopouco estruturado, sem um padrão definido. Seus documentos contêm uma linguagemmais próxima do falado e menos formalizada, sendo que alguns documentos podem nãoter uma correta pontuação, o que aumenta o ruído no momento de formar os subgrafos.Além disso, estão sujeitos a erros de digitação e, ainda, podem estar sob um domíniotécnico específico.

Na análise quantitativa (acertos por classe) fica mais fácil avaliar a dependência que ométodo tem da ontologia selecionada. Na base Reuters, a variação na taxa de acerto entreos diferentes experimentos é bem perceptível e verifica-se melhoria para determinadasclasses. A Figura 4.5 exibe dois exemplos de erros de classificação na coleção Reuters,onde o destaque foi dado a termos que remeteram a predição da classe EARN ao invésdas classes originais ACQ e GOLD, respectivamente.

Na base 20-newsgroups, a taxa de acertos tem muito pouca variação devido à natureza

Page 44: VandalisGiansante UmArcabouçoBaseadoemAnotaçõespara ... · Dissertação apresentada ao Instituto de ... a primeira atividade é a obtenção ... descritor da coleção. O módulo

CAPÍTULO 4. VALIDAÇÃO 44

(a) (b)

Figura 4.5: (a) Originalmente da classe ACQ, predito como EARN; (b) Originalmente daclasse GOLD, predito como EARN.

(a) (b)

Figura 4.6: (a) Originalmente da classe COMP.SYS.IBM.PC.HARDWARE, predito comoCOMP.SYS.MAC.PC.HARDWARE; (b) Originalmente da classe COMP.WINDOWS.X,predito como COMP.GRAPHICS.

de seu conteúdo. Neste cenário, as anotações semânticas baseadas na ontologia WordNetnão influenciam o resultado final, porém o uso de uma ontologia específica do tema dasamostras, poderia contribuir mais. A Figura 4.6 exibe dois exemplos de erros de classifi-cação na coleção 20-newsgroups, para os quais não é possível distinguir a classe correta doamostra a partir dos termos contidos na amostra ou ainda de novos termos adicionadosbaseado em sinônimos.

As Figuras 4.7 e 4.8 exibem o percentual de acerto por classe para as coleções Reuterse 20-newsgroups, respectivamente. Nos gráficos é possível avaliar quais as classes tiverammelhor desempenho em cada um dos melhores resultados das combinações de uso ounão de radicalização e com ou sem enriquecimento semântico. No caso da base Reuters,destacam-se os resultados para as classes acq, crude, ship e trade. Na base 20-newsgroups,bons resultados foram observados para as classes rec_motorcycles e rec_autos.

Page 45: VandalisGiansante UmArcabouçoBaseadoemAnotaçõespara ... · Dissertação apresentada ao Instituto de ... a primeira atividade é a obtenção ... descritor da coleção. O módulo

CAPÍTULO 4. VALIDAÇÃO 45

Figura 4.7: Gráfico de acerto por classe para coleção Reuters.

Figura 4.8: Gráfico de acerto por classe para coleção 20-newsgroups.

Page 46: VandalisGiansante UmArcabouçoBaseadoemAnotaçõespara ... · Dissertação apresentada ao Instituto de ... a primeira atividade é a obtenção ... descritor da coleção. O módulo

Capítulo 5

Conclusão

5.1 Contribuições

Grandes coleções de documentos textuais vêm sendo criadas em diversas aplicações. Emespecial na Web milhares de páginas são criadas e disponibilizadas a uma enorme veloci-dade, sendo imperativo, portanto, a especificação e a implementação de serviços eficientese eficazes visando à identificação e à recuperação de informações de interesse. Um outrocomplicador reside na falta de (ou pouca) estrutura comumente encontrada nestes tiposde documentos.

Esta dissertação trata parte destes problemas ao propor um Sistema de Enriqueci-mento Semântico de Dados Textuais, visando à criação de representações de documentosque potencialmente são mais eficazes em problemas de Recuperação de Informação. Aproposta é baseada no uso de grafos que modelam relações de proximidade e ordem entretermos em um documento [11]. Grafos são enriquecidos a partir da adição de novos vérti-ces e arestas que são definidos a partir de relações (por exemplo, sinônimos e hiperônimos)identificados em ontologias. Apresenta-se, então, um novo descritor de documentos textu-ais baseados em grafo que explora relações semânticas entre termos, chamado de SemanticBag of Textual Graphs (SBoTG).

A implementação do sistema de enriquecimento semântico foi baseada no uso de work-flows. Propõe-se o uso do sistema Kuaa, recentemente desenvolvido no Instituto de Com-putação da Unicamp [10]. Este sistema oferece mecanismos para especificação e execuçãode workflows voltados a problemas de aprendizado de máquina. Em especial, este trabalhotratou de tarefas de classificação de texto. Algumas das vantagens do uso do sistema Kuaaconsiste na facilidade de implementação do descritor proposto, utilizando-se de um modelode plugins; e na possibilidade de especificação e execução de experimentos de classificaçãode documentos textuais, em particular classificação, em um ambiente controlado.

Experimentos foram realizados utilizando-se de três coleções de documentos textuaislargamente utilizadas na área de Recuperação de Informação e quatro variações do des-critor proposto (que consideram o uso de relações de termos de diferentes maneiras). Re-sultados experimentais demonstram que o descritor baseado no enriquecimento semânticode documentos textuais produz resultados comparáveis ou superiores àqueles observadospor métodos recentemente propostos na literatura. Os melhores resultados foram obti-dos no enriquecimento pela adição de um sinônimo e um hiperônimo mais relevante para

46

Page 47: VandalisGiansante UmArcabouçoBaseadoemAnotaçõespara ... · Dissertação apresentada ao Instituto de ... a primeira atividade é a obtenção ... descritor da coleção. O módulo

CAPÍTULO 5. CONCLUSÃO 47

cada termo na coleção 20-newsgroups e na adição de um sinônimo para a coleção Reuters,porém, em ambos os casos, sem usar radicalização no pré-processamento da coleção. Issoindica que no cenário com radicalização, muito ruído foi observado nos termos da cole-ção, ocasionando pouca melhoria quando aplicado enriquecimento semântico. A coleçãoReuters, a base melhor organizada com relação ao conteúdo dos textos, foi a que maisse beneficiou do enriquecimento semântico pela ontologia WordNet, sendo possível obtermelhor resultado de macro-F1 em ambos os cenários (com ou sem radicalização).

Este trabalho abre a oportunidade de realização de novas possibilidades de pesquisa,algumas delas enumeradas a seguir.

5.2 Trabalhos Futuros

As seguintes possibilidades de investigação são vislumbradas para dar continuidade àpesquisa desenvolvida:

• Acoplamento com serviços de ontologias: muitos trabalhos têm se dedicado ao de-senvolvimento de serviços de gerenciamento de ontologias que possibilitam a im-plementação de buscas de termos e suas relações de forma efetiva [9]. Propõe-sea investigação de serviços como estes no processo de enriquecimento semântico dedocumentos textuais.

• Refinamento da seleção de parâmetros: a validação conduzida no trabalho utilizou-se de representação de documentos textuais em grafos. Propõe-se a realização deexperimentos visando descrições baseadas em outras representações de grafo. Novosexperimentos, variando-se o tamanho do dicionário de grafos, assim como técnicasde pooling empregadas também precisam ser realizados.

• Novas técnicas de representação de grafos: uma nova linha de pesquisa utiliza outrasformas de representação de um grafo em um vetor na linha de Deep Neural Networks(DNN) [7, 32, 42]. Propõe-se a implementação do módulo de representação dosgrafos em vetores utilizando este abordagem.

• Novas aplicações: propõe-se a validação do descritor baseado no enriquecimentosemântico de dados textuais no contexto de novas aplicações como problemas derecuperação e recomendação baseada em documentos textuais. Outra vertente,potencialmente mais promissora para as técnicas de enriquecimento propostas nestetrabalho, é a aplicação do enriquecimento semântico em coleções com textos curtos,como microbogs ou tweets [22].

Page 48: VandalisGiansante UmArcabouçoBaseadoemAnotaçõespara ... · Dissertação apresentada ao Instituto de ... a primeira atividade é a obtenção ... descritor da coleção. O módulo

Referências Bibliográficas

[1] Pinar Alper, Khalid Belhajjame, Carole Goble, and Pinar Karagoz. Small is beautiful:Summarizing scientific workflows using semantic annotations. In Big Data (BigDataCongress), 2013 IEEE International Congress on, pages 318–325. IEEE, 2013.

[2] Ilkay Altintas, Chad Berkley, Efrat Jaeger, Matthew Jones, Bertram Ludascher, andSteve Mock. Kepler: an extensible system for design and execution of scientificworkflows. In Scientific and Statistical Database Management, 2004. Proceedings.16th International Conference on, pages 423–424. IEEE, 2004.

[3] Ricardo Baeza-Yates and Berthier Ribeiro-Neto. Recuperação de Informação-: Con-ceitos e Tecnologia das Máquinas de Busca. Bookman Editora, 2013.

[4] Ramakrishna B Bairi, Raghavendra Udupa, and Ganesh Ramakrishnan. A frameworkfor task-specific short document expansion. In Proceedings of the 25th ACM Inter-national on Conference on Information and Knowledge Management, pages 791–800.ACM, 2016.

[5] Louis Bavoil, Steven P Callahan, Patricia J Crossno, Juliana Freire, Carlos E Schei-degger, Cláudio T Silva, and Huy T Vo. Vistrails: Enabling interactive multiple-viewvisualizations. In Visualization, 2005. VIS 05. IEEE, pages 135–142. IEEE, 2005.

[6] Christine L. Borgman. Big Data, Little Data, No Data: Scholarship in the NetworkedWorld. The MIT Press, 2015. ISBN 0262028565, 9780262028561.

[7] Shaosheng Cao, Wei Lu, and Qiongkai Xu. Grarep: Learning graph representationswith global structural information. In Proceedings of the 24th ACM Internationalon Conference on Information and Knowledge Management, pages 891–900. ACM,2015.

[8] Artem Chebotko, Cui Lin, Xubo Fei, Zhaoqiang Lai, Shiyong Lu, Jing Hua, andFarshad Fotouhi. View: a visual scientificworkflow management system. In Services,2007 IEEE Congress on, pages 207–208. IEEE, 2007.

[9] Jaudete Daltio and Claudia Bauzer Medeiros. Aondê: An ontology web service forinteroperability across biodiversity applications. Inf. Syst., 33(7-8):724–753, 2008.doi: 10.1016/j.is.2008.02.001. URL https://doi.org/10.1016/j.is.2008.02.001.

[10] Rafael de Oliveira Werneck, Waldir Rodrigues de Almeida, Bernardo Vecchia Stein,Daniel Vatanabe Pazinato, Pedro Ribeiro Mendes Júnior, Otávio Augusto Bizetto

48

Page 49: VandalisGiansante UmArcabouçoBaseadoemAnotaçõespara ... · Dissertação apresentada ao Instituto de ... a primeira atividade é a obtenção ... descritor da coleção. O módulo

REFERÊNCIAS BIBLIOGRÁFICAS 49

Penatti, Anderson Rocha, and Ricardo da Silva Torres. Kuaa: A unified frameworkfor design, deployment, execution, and recommendation of machine learning experi-ments. Future Generation Computer Systems, 2017.

[11] Ícaro Cavalcante Dourado. Bag of textual graphs: an accurate, efficient, and general-purpose graph-based text representation model. Master’s thesis, UNICAMP, 2016.

[12] Katti Faceli, Ana Carolina Lorena, João Gama, and ACPLF Carvalho. Inteligênciaartificial: Uma abordagem de aprendizado de máquina. Rio de Janeiro: LTC, 2:192,2011.

[13] Christiane Fellbaum. WordNet. Wiley Online Library, 1998.

[14] Fred Freitas, Stefan Schulz, and Eduardo Moraes. Survey of current terminologies andontologies in biology and medicine. RECIIS—Electronic Journal in Communication,Information and Innovation in Health, 3(1):7–18, 2009.

[15] Thomas R Gruber. A translation approach to portable ontology specifications. Kno-wledge acquisition, 5(2):199–220, 1993.

[16] Jayavardhana Gubbi, Rajkumar Buyya, Slaven Marusic, and Marimuthu Pala-niswami. Internet of things (iot): A vision, architectural elements, and future di-rections. Future generation computer systems, 29(7):1645–1660, 2013.

[17] Khaled M Hammouda and Mohamed S Kamel. Efficient phrase-based documentindexing for web document clustering. IEEE Transactions on knowledge and dataengineering, 16(10):1279–1296, 2004.

[18] Zellig S Harris. Distributional structure. Word, 10(2-3):146–162, 1954.

[19] Mirjana Ivanović and Zoran Budimac. An overview of ontologies and data resourcesin medical domains. Expert Systems with Applications, 41(11):5158–5166, 2014.

[20] Wei Jin and Rohini K Srihari. Graph-based text representation and knowledge dis-covery. In Proceedings of the 2007 ACM symposium on Applied computing, pages807–811. ACM, 2007.

[21] Karthik Kambatla, Giorgos Kollias, Vipin Kumar, and Ananth Grama. Trends inbig data analytics. Journal of Parallel and Distributed Computing, 74(7):2561–2573,2014.

[22] Tom Kenter and Maarten De Rijke. Short text similarity with word embeddings.In Proceedings of the 24th ACM International on Conference on Information andKnowledge Management, pages 1411–1420. ACM, 2015.

[23] Jon M Kleinberg. Authoritative sources in a hyperlinked environment. Journal ofthe ACM (JACM), 46(5):604–632, 1999.

Page 50: VandalisGiansante UmArcabouçoBaseadoemAnotaçõespara ... · Dissertação apresentada ao Instituto de ... a primeira atividade é a obtenção ... descritor da coleção. O módulo

REFERÊNCIAS BIBLIOGRÁFICAS 50

[24] Saar Kuzi, Anna Shtok, and Oren Kurland. Query expansion using word embeddings.In Proceedings of the 25th ACM International on Conference on Information andKnowledge Management, pages 1929–1932. ACM, 2016.

[25] Cui Lin, Shiyong Lu, Zhaoqiang Lai, Artem Chebotko, Xubo Fei, Jing Hua, andFarshad Fotouhi. Service-oriented architecture for view: a visual scientific workflowmanagement system. In Services Computing, 2008. SCC’08. IEEE InternationalConference on, volume 1, pages 335–342. IEEE, 2008.

[26] Marina Litvak and Mark Last. Graph-based keyword extraction for single-documentsummarization. In Proceedings of the workshop on Multi-source Multilingual Infor-mation Extraction and Summarization, pages 17–24. Association for ComputationalLinguistics, 2008.

[27] Carla Geovana do Nascimento Macário. Anotação Semântica de Dados Geoespaciais.PhD thesis, UNICAMP, 2009.

[28] Claudia Bauzer Medeiros, J Perez-Alcazar, L Digiampietri, Gilberto Zonta Pasto-rello Jr, André Santanche, RS Torres, E Madeira, and Evandro Bacarin. Woodss andthe web: annotating and reusing scientific workflows. ACM SIGMOD Record, 34(3):18–23, 2005.

[29] Yukio Ohsawa, Nels E Benson, and Masahiko Yachida. Keygraph: Automatic inde-xing by co-occurrence graph based on building construction metaphor. In Researchand Technology Advances in Digital Libraries, 1998. ADL 98. Proceedings. IEEEInternational Forum on, pages 12–18. IEEE, 1998.

[30] Tom Oinn, Matthew Addis, Justin Ferris, Darren Marvin, Martin Senger, Mark Gre-enwood, Tim Carver, Kevin Glover, Matthew R Pocock, Anil Wipat, et al. Taverna:a tool for the composition and enactment of bioinformatics workflows. Bioinforma-tics, 20(17):3045–3054, 2004.

[31] Girish Keshav Palshikar. Keyword extraction from a single document using cen-trality measures. In International Conference on Pattern Recognition and MachineIntelligence, pages 503–510. Springer, 2007.

[32] Bryan Perozzi, Rami Al-Rfou, and Steven Skiena. Deepwalk: Online learning of socialrepresentations. In Proceedings of the 20th ACM SIGKDD international conferenceon Knowledge discovery and data mining, pages 701–710. ACM, 2014.

[33] Martin F Porter. An algorithm for suffix stripping. Program, 14(3):130–137, 1980.

[34] Daniel Reed, James R Larus, and Dennis Gannon. Imagining the future: Thoughtson computing. Computer, 45(1):25–30, 2012.

[35] Gerard Salton, Anita Wong, and Chung-Shu Yang. A vector space model for auto-matic indexing. Communications of the ACM, 18(11):613–620, 1975.

Page 51: VandalisGiansante UmArcabouçoBaseadoemAnotaçõespara ... · Dissertação apresentada ao Instituto de ... a primeira atividade é a obtenção ... descritor da coleção. O módulo

REFERÊNCIAS BIBLIOGRÁFICAS 51

[36] Adam Schenker, Abraham Kandel, Horst Bunke, and Mark Last. Graph-theoretictechniques for web content mining, volume 62. World Scientific, 2005.

[37] Peter Schönhofen. Identifying document topics using the wikipedia category network.Web Intelligence and Agent Systems: An International Journal, 7(2):195–207, 2009.

[38] Fernanda B. Silva, Siome Goldenstein, Salvatore Tabbone, and Ricardo da Silva Tor-res. Image classification based on bag of visual graphs. In IEEE Internatio-nal Conference on Image Processing, ICIP 2013, Melbourne, Australia, Septem-ber 15-18, 2013, pages 4312–4316, 2013. doi: 10.1109/ICIP.2013.6738888. URLhttps://doi.org/10.1109/ICIP.2013.6738888.

[39] Fernanda B Silva, Salvatore Tabbone, and Ricardo da S Torres. Bog: A new appro-ach for graph matching. In Pattern Recognition (ICPR), 2014 22nd InternationalConference on, pages 82–87. IEEE, 2014.

[40] Josef Sivic, Bryan C. Russell, Alexei A. Efros, Andrew Zisserman, and William T.Freeman. Discovering objects and their localization in images. In 10th IEEE In-ternational Conference on Computer Vision (ICCV 2005), 17-20 October 2005,Beijing, China, pages 370–377, 2005. doi: 10.1109/ICCV.2005.77. URL https://doi.org/10.1109/ICCV.2005.77.

[41] ITU Strategy and Policy Unit. Itu internet reports 2005: The internet of things.Geneva: International Telecommunication Union (ITU), 2005.

[42] Jian Tang, Meng Qu, Mingzhe Wang, Ming Zhang, Jun Yan, and Qiaozhu Mei. Line:Large-scale information network embedding. In Proceedings of the 24th InternationalConference on World Wide Web, pages 1067–1077. International World Wide WebConferences Steering Committee, 2015.

[43] Jacques Wainer, Mathias Weske, Gottfried Vosseny, and Claudia Bauzer Medeirosz.Scientific workflow systems (short paper). 1997.

[44] Rafael de Oliveira Werneck. A unified framework for design, deployment, execution,and recommendation of machine learning experiments. Master’s thesis, UNICAMP,2014.

[45] Terminology WfMC. Glossary, document number wfmc. TC, 1011, 1999.

[46] Jinxi Xu and W Bruce Croft. Query expansion using local and global documentanalysis. In Proceedings of the 19th ACM SIGIR, pages 4–11. ACM, 1996.

[47] Jiali Yun, Liping Jing, Jian Yu, and Houkuan Huang. A multi-layer text classi-fication framework based on two-level representation model. Expert Systems withApplications, 39(2):2035–2046, 2012.

[48] Hamed Zamani and W Bruce Croft. Embedding-based query language models. InProceedings of the 2016 ACM on International Conference on the Theory of Infor-mation Retrieval, pages 147–156. ACM, 2016.

Page 52: VandalisGiansante UmArcabouçoBaseadoemAnotaçõespara ... · Dissertação apresentada ao Instituto de ... a primeira atividade é a obtenção ... descritor da coleção. O módulo

REFERÊNCIAS BIBLIOGRÁFICAS 52

[49] Haijun Zhang and Tommy WS Chow. A multi-level matching method with hybridsimilarity for document retrieval. Expert Systems with Applications, 39(3):2710–2719,2012.

[50] Feng Zhao, Fei Fang, Fengwei Yan, Hai Jin, and Qin Zhang. Expanding approachto information retrieval using semantic similarity analysis based on wordnet and wi-kipedia. International Journal of Software Engineering and Knowledge Engineering,22(02):305–322, 2012.