universidade federal de sÃo carlos centro de ciÊncias...

116
UNIVERSIDADE FEDERAL DE SÃO CARLOS CENTRO DE CIÊNCIAS EXATAS E DE TECNOLOGIA DEPARTAMENTO DE COMPUTAÇÃO PROGRAMA DE PÓS-GRADUAÇÃO EM CIÊNCIA DA COMPUTAÇÃO Extração de Informação em Artigos Científicos Relacionados à Doença Anemia Falciforme Pablo Freire Matos São Carlos - SP Abril/2009

Upload: others

Post on 13-Oct-2020

1 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: UNIVERSIDADE FEDERAL DE SÃO CARLOS CENTRO DE CIÊNCIAS ...gbd.dc.ufscar.br/~pablofmatos/files/QualiPabloFreire.pdf · UNIVERSIDADE FEDERAL DE SÃO CARLOS CENTRO DE CIÊNCIAS EXATAS

UNIVERSIDADE FEDERAL DE SÃO CARLOS

CENTRO DE CIÊNCIAS EXATAS E DE TECNOLOGIA

DEPARTAMENTO DE COMPUTAÇÃO

PROGRAMA DE PÓS-GRADUAÇÃO EM

CIÊNCIA DA COMPUTAÇÃO

Extração de Informação em Artigos Científicos Relacionados à Doença

Anemia Falciforme

Pablo Freire Matos

São Carlos - SP

Abril/2009

Page 2: UNIVERSIDADE FEDERAL DE SÃO CARLOS CENTRO DE CIÊNCIAS ...gbd.dc.ufscar.br/~pablofmatos/files/QualiPabloFreire.pdf · UNIVERSIDADE FEDERAL DE SÃO CARLOS CENTRO DE CIÊNCIAS EXATAS

RESUMO

O objetivo deste trabalho de pesquisa em nível de mestrado é extrair informação em artigos

científicos completos sobre efeitos relacionados ao domínio da doença Anemia Falciforme

(AF). Para isso, primeiramente é necessário converter os artigos inerentemente no formato

não-estruturado (PDF) para o formato semi-estruturado (XML), permitindo acesso aos níveis

estruturais dos artigos por: página, parágrafo e sentença. Em seguida, a partir do acesso ao

documento XML, será possível processar o texto a fim de identificar os efeitos

positivo/benefício e negativo/complicação da AF. Nesse contexto será proposto uma

metodologia de pré-processamento textual, utilizando a combinação de três abordagens para

extrair informação no domínio biomédico: abordagem baseada em aprendizado de

máquina, utilizada para classificar as sentenças em complicação, benefício e outros (não é

complicação nem benefício), as quais são processadas do documento XML; abordagem

baseada em dicionário, utilizada para identificar os efeitos da AF nas sentenças

classificadas; e abordagem baseada em regras, utilizada para identificar padrões de extração

com expressões regulares, reduzindo os falsos positivos e assim, aumentando a precisão e a

revocação. Um desafio na extração de informação no contexto deste trabalho é lidar com um

grande volume de dados. Assim, surge a oportunidade de utilizar a Mineração de Textos para

processar arquivos em formato não-estruturado, identificando padrões textuais que serão

armazenados no formato estruturado em um banco de dados, para ser posteriormente utilizado

por algoritmos de Mineração de Dados.

Palavras-chave: Domínio Biomédico, Pré-processamento na Mineração de Textos, Extração

de Informação, Banco de Dados Médicos, Doença Anemia Falciforme.

Page 3: UNIVERSIDADE FEDERAL DE SÃO CARLOS CENTRO DE CIÊNCIAS ...gbd.dc.ufscar.br/~pablofmatos/files/QualiPabloFreire.pdf · UNIVERSIDADE FEDERAL DE SÃO CARLOS CENTRO DE CIÊNCIAS EXATAS

ABSTRACT

The main goal of this research work is to extract information about effects related to the

Sickle Cell Anemia (SCA) domain from scientific full articles. Firstly, it is necessary to

convert articles from non-structured format (PDF) to the semi-structured format (XML), in

order to allow accessing the articles structural levels: page, paragraph and sentence. As a

result, positive effect (benefit) and negative effect (complication) of SCA can be identified in

the XML document. In this context, this research work aims at creating a methodology for

textual preprocessing, using a combination of three approaches to extract information in the

biomedical domain: learning-based machine, to classify the sentences in complication,

benefit or none of them, by processing the XML document; dictionary-based approach, to

identify the SCA effects on classified sentences; and rule-based approach, to identify

extraction patterns with regular expressions, thus reducing false positive hits and increasing

recall and precision. One of the information extraction challenges is to deal with large

volumes of data. Therefore, it arises the opportunity to use the Text Mining to process non-

structured format files, identifying textual patterns that will be stored in structured format in a

database, to be subsequently used by the Data Mining algorithms.

Keywords: Biomedical Domain, Text Mining Preprocessing, Information Extraction, Medical

Database, Sickle Cell Anemia.

Page 4: UNIVERSIDADE FEDERAL DE SÃO CARLOS CENTRO DE CIÊNCIAS ...gbd.dc.ufscar.br/~pablofmatos/files/QualiPabloFreire.pdf · UNIVERSIDADE FEDERAL DE SÃO CARLOS CENTRO DE CIÊNCIAS EXATAS

LISTA DE FIGURAS

Figura 1 – Pré-processamento utilizando categorização e extração de informação. .................. 9

Figura 2 – Miscigenação racial. ................................................................................................. 11

Figura 3 – Frequência do gene S nas diferentes regiões do Brasil. .......................................... 12

Figura 4 – Elementos do sangue. ............................................................................................... 12

Figura 5 – Hemácia no formato de foice (meia lua). ................................................................. 12

Figura 6 – Hemácias normais (a) e Falciformes (b). ................................................................. 13

Figura 7 – Probabilidade de nascer com Anemia Falciforme. .................................................. 14

Figura 8 – Formato dos dados textuais. ..................................................................................... 14

Figura 9 – Densidade de informação em um artigo completo. ................................................. 20

Figura 10 – Hierarquia do aprendizado. .................................................................................... 26

Figura 11 – Categorização de documentos. ............................................................................... 35

Figura 12 – Agrupamento de documentos. ................................................................................ 35

Figura 13 – Modelo de descoberta A-B-C. ................................................................................ 36

Figura 14 – Processo de Mineração de Textos em quatro etapas. ............................................ 37

Figura 15 – Medidas dependem do resultado da consulta (oval/azul e roxo). ......................... 40

Figura 16 – Passos para identificação de termo no texto. ......................................................... 48

Figura 17 – Exemplo de Cross-Validation. ............................................................................... 61

Figura 18 – Exemplo de Stratified Cross-Validation. ............................................................... 62

Figura 19 – Exemplo de Leave-One-Out. .................................................................................. 62

Figura 20 – Exemplo de Bootstrap. ........................................................................................... 63

Figura 21 – Ferramenta Mover. ................................................................................................. 68

Figura 22 – Exemplo de um documento XML com etiquetas de quatro seções. ..................... 80

Figura 23 – Processo de extração de padrão e data warehouse. ............................................... 81

Figura 24 – Processo para recuperar e extrair informação do Pharmspresso. .......................... 82

Figura 25 – Arquitetura do sistema DORS-SCA. ..................................................................... 85

Figura 26 – Passos do sistema SCAtRanslator para conversão de arquivo PDF → XML. ..... 87

Figura 27 – Exemplo de documento XML gerado pela ferramenta SCAtRanslator. ............... 87

Figura 28 – Processo de Mineração de Textos. ......................................................................... 89

Figura 29 – Treinamento e teste na ferramenta Mover. ............................................................ 90

Figura 30 – Exemplo do Mover na classificação de sentenças da AF. ..................................... 91

Figura 31 – Processo geral de extração de informação. ............................................................ 94

Page 5: UNIVERSIDADE FEDERAL DE SÃO CARLOS CENTRO DE CIÊNCIAS ...gbd.dc.ufscar.br/~pablofmatos/files/QualiPabloFreire.pdf · UNIVERSIDADE FEDERAL DE SÃO CARLOS CENTRO DE CIÊNCIAS EXATAS

LISTA DE TABELAS

Tabela 1 – Exemplos de termos de efeitos (positivo e negativo). ............................................. 16

Tabela 2 – Cinco tarefas de extração de informação. ................................................................ 28

Tabela 3 – Matriz de confusão de duas classes (Complicação/Não Complicação).................. 41

Tabela 4 – Exemplo de anotação de dez sentenças. .................................................................. 44

Tabela 5 – Exemplo de matriz de confusão 2 x 2. ..................................................................... 44

Tabela 6 – Matriz de confusão genérica. ................................................................................... 44

Tabela 7 – Exemplo de matriz de confusão 3 x 3. ..................................................................... 45

Tabela 8 – Escala de seis níveis de concordância. .................................................................... 45

Tabela 9 – Exemplo de sentença com termos sobre complicações (em negrito) da AF. ......... 48

Tabela 10 – Resumo dos trabalhos com dicionário. .................................................................. 51

Tabela 11 – Exemplo de tradução para o formato do BLAST. ................................................. 51

Tabela 12 – Trabalhos com regras. ............................................................................................ 54

Tabela 13 – Resumo dos métodos de particionamento. ............................................................ 63

Tabela 14 – Resumo de trabalhos que utilizam estruturas retóricas. ........................................ 69

Tabela 15 – Trabalhos correlatos que extraem informação de resumos. .................................. 73

Tabela 16 – Trabalhos correlatos que extraem informação de artigos completos.................... 75

Tabela 17 – Abordagem híbrida proposta por Tanabe e Wilbur (2002a). ................................ 76

Tabela 18 – Abordagem de extração de informação proposta por Corney et al. (2004). ......... 78

Tabela 19 – Sentenças classificadas pelo Mover como sendo da classe benefício. ................. 92

Tabela 20 – Cronograma de atividades...................................................................................... 96

Page 6: UNIVERSIDADE FEDERAL DE SÃO CARLOS CENTRO DE CIÊNCIAS ...gbd.dc.ufscar.br/~pablofmatos/files/QualiPabloFreire.pdf · UNIVERSIDADE FEDERAL DE SÃO CARLOS CENTRO DE CIÊNCIAS EXATAS

LISTA DE ABREVIATURAS E SIGLAS

AF Anemia Falciforme

AM Aprendizado de Máquina

API Application Programming Interface

ATR Reconhecimento Automático de Termo

EI Extração de Informação

ER Expressão Regular

HMM Modelo Escondido de Markov

HTML Hypertext Markup Language

IA Inteligência Artificial

KDD Descoberta de Conhecimento em Banco de Dados

KDT Descoberta de Conhecimento em Textos

MD Mineração de Dados

MT Mineração de Textos

NCBI National Center for Biotechnology Information

NER Reconhecimento de Entidade Nomeada

PDF Portable Document Format

PLN Processamento de Língua Natural

PMC PubMed Central

POS Part-Of-Speech

QA Perguntas e Respostas

RDT Repositório de Dicionário de Termos

RI Recuperação de Informação

SCA Sickle Cell Anemia

SVM Suport Vector Machines

URL Uniform Resource Locator

XML Extensible Markup Language

Page 7: UNIVERSIDADE FEDERAL DE SÃO CARLOS CENTRO DE CIÊNCIAS ...gbd.dc.ufscar.br/~pablofmatos/files/QualiPabloFreire.pdf · UNIVERSIDADE FEDERAL DE SÃO CARLOS CENTRO DE CIÊNCIAS EXATAS

SUMÁRIO

1 INTRODUÇÃO 8

1.1 CONTEXTUALIZAÇÃO 10 1.1.1 ANEMIA FALCIFORME 10

1.1.2 VISÃO GERAL 14

1.2 MOTIVAÇÃO 16

1.3 JUSTIFICATIVA 18

1.4 OBJETIVOS 20 1.4.1 OBJETIVO GERAL 21

1.4.2 OBJETIVOS ESPECÍFICOS 21

1.5 ORGANIZAÇÃO DO TRABALHO 22

2 MINERAÇÃO DE TEXTOS 23

2.1 ÁREAS DE CONHECIMENTO EM MINERAÇÃO DE TEXTOS 24 2.1.1 PROCESSAMENTO DE LÍNGUA NATURAL 24

2.1.2 APRENDIZADO DE MÁQUINA 26

2.1.3 EXTRAÇÃO DE INFORMAÇÃO 27

2.1.4 RECUPERAÇÃO DE INFORMAÇÃO 29

2.1.5 MINERAÇÃO DE DADOS 30

2.1.5.1 Mineração de Dados x Mineração de Textos 30

2.2 DESCOBERTA DE CONHECIMENTO EM TEXTOS 31 2.2.1 PERGUNTAS E RESPOSTAS 32

2.2.2 SUMARIZAÇÃO 33

2.2.3 CATEGORIZAÇÃO 34

2.2.4 AGRUPAMENTO 35

2.2.5 GERAÇÃO DE HIPÓTESE 36

2.3 ETAPAS DO PROCESSO DE MINERAÇÃO DE TEXTOS 37 2.3.1 MÉTRICAS DE AVALIAÇÃO 39

2.3.1.1 Medidas de Desempenho 39

2.3.1.2 Medida de Concordância 43

2.4 CONSIDERAÇÕES FINAIS 45

3 EXTRAÇÃO AUTOMÁTICA 47

3.1 RECONHECIMENTO AUTOMÁTICO DE TERMO 47

3.2 ABORDAGENS PARA EXTRAÇÃO DE INFORMAÇÃO 49 3.2.1 ABORDAGEM PARA EXTRAÇÃO BASEADA EM DICIONÁRIO 50

3.2.1.1 Trabalhos com Dicionário 51

3.2.2 ABORDAGEM PARA EXTRAÇÃO BASEADA EM REGRAS 53

3.2.2.1 Trabalhos com Regras 54

3.2.3 ABORDAGEM PARA EXTRAÇÃO BASEADA EM APRENDIZADO DE MÁQUINA 56

3.2.3.1 Classificador Supervisionado: Naive Bayes 57

3.2.3.2 Medidas de Desempenho do Classificador 59

3.2.3.3 Métodos de Particionamento 60

3.2.3.4 Seleção de Características 63

3.2.3.5 Mover 66

3.2.3.6 Trabalhos com Aprendizado de Máquina 70

3.3 CONSIDERAÇÕES FINAIS 70

Page 8: UNIVERSIDADE FEDERAL DE SÃO CARLOS CENTRO DE CIÊNCIAS ...gbd.dc.ufscar.br/~pablofmatos/files/QualiPabloFreire.pdf · UNIVERSIDADE FEDERAL DE SÃO CARLOS CENTRO DE CIÊNCIAS EXATAS

4 TRABALHOS CORRELATOS 73

4.1 ABGENE 75

4.2 BIORAT 77

4.3 BREMER ET AL. (2004) 78 4.3.1 CONTINUAÇÃO DO TRABALHO DE BREMER ET AL. (2004) 80

4.4 PHARMSPRESSO 81

4.5 CONSIDERAÇÕES FINAIS 82

5 PROPOSTA DE DISSERTAÇÃO DE MESTRADO 84

5.1 SISTEMA DORS-SCA 84 5.1.1 SCATRANSLATOR 85

5.1.2 SCAEXTRACTOR 88

5.2 METODOLOGIA DE EXTRAÇÃO DE INFORMAÇÃO 88 5.2.1 COLETA DE DOCUMENTOS 89

5.2.2 PRÉ-PROCESSAMENTO 90

5.2.2.1 Categorização 90

5.2.2.2 Extração de Informação 91

5.2.3 ANÁLISE E AVALIAÇÃO DOS RESULTADOS 92

5.2.4 CONSIDERAÇÕES FINAIS 93

5.3 QUESTÕES RELACIONADAS AO DESENVOLVIMENTO 94

5.4 CRONOGRAMA DE ATIVIDADES 95

REFERÊNCIAS 97

GLOSSÁRIO 112

APÊNDICE A – MODELO EER 113

APÊNDICE B – MODELO RELACIONAL 114

APÊNDICE C – DIAGRAMA DE CLASSES 115

Page 9: UNIVERSIDADE FEDERAL DE SÃO CARLOS CENTRO DE CIÊNCIAS ...gbd.dc.ufscar.br/~pablofmatos/files/QualiPabloFreire.pdf · UNIVERSIDADE FEDERAL DE SÃO CARLOS CENTRO DE CIÊNCIAS EXATAS

8

1 INTRODUÇÃO

As informações relevantes estão mais em formato textual do que em imagens,

gráficos, arquivos de música e vídeo ou até mesmo em equações. Segundo Tan (1999) e Chen

(2001), das informações, respectivamente, das empresas e de conteúdo on-line do

mundo estão em documentos textuais. Estudos têm revelado que entre e de todos

os dados disponíveis nos computadores consistem em documentos não-estruturados ou semi-

estruturados, como e-mails, páginas HTML, arquivos PDF e muitos outros documentos

textuais (CHEUNG; LEE; WANG, 2005). Além disso, a quantidade de informação disponível

eletronicamente está aumentando consideravelmente nos últimos anos (GANTZ et al., 2007).

Diante da imensa quantidade de informação disponível em formato textual, os seres

humanos não são capazes de processar (i.e., ler e assimilar) toda essa informação. Nesse

contexto, a Mineração de Textos (MT) é uma tendência que favorece o processamento de

textos, viabilizando o acesso a uma grande quantidade de dados.

Este trabalho objetiva utilizar a MT para extrair informação, mais especificamente

termos, no domínio biomédico. Identificar termos nesse domínio não é uma tarefa fácil.

Aparecem vários problemas como variações de termos devido ao surgimento de novos termos

médicos e a falta de padronização tanto no advento de um novo termo quanto no uso de um

existente.

Por exemplo, variações de nomes da proteína “NF-kappa B” podem ser encontradas na

literatura (TSURUOKA; TSUJII, 2004): “NF kappa B”, “NF-kappa-B”, “NF-Kappa B”,

“NF-Kappa-B”, etc. Essas variações causam uma baixa revocação em sistemas de extração.

Assim, técnicas como aproximação de string (KRAUTHAMMER et al., 2000; TSURUOKA;

TSUJII, 2004), stemming (ONO et al., 2001), lematização (SCHUEMIE et al., 2007) e stop

words (KOU; COHEN; MURPHY, 2005) são utilizadas para amenizar esse problema.

Extrair informação do domínio biomédico não é uma tarefa trivial. Segundo

Krauthammer e Nenadic (2004), a precisão de sistemas para extração desses termos varia de

a e a revocação é aproximadamente . Esses valores são diferentes de sistemas

cuja função é identificar nomes de pessoa, organização e localização em notícias ( -

Page 10: UNIVERSIDADE FEDERAL DE SÃO CARLOS CENTRO DE CIÊNCIAS ...gbd.dc.ufscar.br/~pablofmatos/files/QualiPabloFreire.pdf · UNIVERSIDADE FEDERAL DE SÃO CARLOS CENTRO DE CIÊNCIAS EXATAS

9

varia de a ) (HIRSCHMAN; MORGAN; YEH, 2002); No domínio biomédico, ainda

segundo Hirschman, Morgan e Yeh (2002), os resultados permanecem no intervalo de a

( - ).

Sabendo da dificuldade de extrair termos no domínio biomédico, etapas do processo

de Mineração de Textos são utilizadas para auxiliar no processamento textual. Segundo

Imamura (2001) e Martins (2003), o processo de MT pode ser dividido em quatro etapas:

coleta de documentos, pré-processamento, extração de padrões, e análise e avaliação dos

resultados.

O objetivo deste trabalho de pesquisa em nível de mestrado é atuar na segunda fase

(pré-processamento) que segundo Feldman e Sanger (2007) é uma das fases mais críticas do

processo de MT. Nesse sentido, a principal contribuição deste trabalho é a proposta de uma

metodologia de pré-processamento, combinando três abordagens (aprendizado de máquina,

regras e dicionário) para extrair informação no domínio biomédico (Figura 1).

Figura 1 – Pré-processamento utilizando categorização e extração de informação.

Aprendizado de máquina será utilizado para classificar as sentenças dos artigos

científicos (tarefa de categorização). Em seguida, regras e dicionário serão desenvolvidos na

tarefa de extração de informação: Regras serão construídas a partir da análise de padrões

identificados manualmente nas sentenças classificadas e serão utilizadas para aumentar a

precisão do sistema; O dicionário será construído manualmente a partir da identificação de

novos termos encontrados nos artigos científicos e técnicas serão utilizadas para amenizar as

variações de termos, a fim de aumentar a revocação da extração automática. Após o pré-

processamento, as informações identificadas serão armazenadas em um banco de dados

relacional (Figura 1).

No escopo deste trabalho, objetiva-se utilizar dessa metodologia proposta para ajudar

no processamento textual de artigos científicos completos escritos em inglês no formato PDF.

Page 11: UNIVERSIDADE FEDERAL DE SÃO CARLOS CENTRO DE CIÊNCIAS ...gbd.dc.ufscar.br/~pablofmatos/files/QualiPabloFreire.pdf · UNIVERSIDADE FEDERAL DE SÃO CARLOS CENTRO DE CIÊNCIAS EXATAS

10

Esses artigos são sobre informações da doença Anemia Falciforme; doença genética e

hereditária considerada como problema de saúde pública no Brasil (SILVA, R.; RAMALHO;

CASSORLA, 1993; BATISTA; ANDRADE, 2005; RUIZ, 2007). Apesar do domínio deste

trabalho limitar a essa doença, a metodologia de extração de informação proposta (explicada

em detalhes no capítulo 5) será desenvolvida visando uma possível aplicação a outros

domínios, sendo necessário nesse caso algumas modificações nas regras e no dicionário para

se adaptar ao novo domínio.

1.1 Contextualização

Este trabalho está sendo desenvolvido em conjunto com a Universidade de São Paulo

e Fundação Hemocentro de Ribeirão Preto, Université Paris Diderot-Paris 7 e Hôpital Robert

Debré. Objetiva-se propiciar aos pesquisadores da área de saúde (médicos e biólogos) a terem

acesso prático e rápido a pesquisas em artigos científicos sobre a doença Anemia Falciforme.

A extração de informação será em texto não-estruturado escrito no idioma inglês e

originalmente no formato PDF.

A contextualização é dividida em: Anemia Falciforme e Visão Geral. Na seção 1.1.1 é

apresentado o conceito da Anemia Falciforme visando uma informação geral sobre esta

doença aos leitores. Na seção 1.1.2 é discutido o formato dos dados textuais, assim como as

características de extração de um documento, o objetivo de utilizar a Mineração de Textos no

domínio da Anemia Falciforme e uma visão geral da extração de informação com o auxílio de

um banco de dados.

1.1.1 Anemia Falciforme

A Anemia Falciforme (AF), ou Sickle Cell Anemia (SCA), é uma doença hematológica

(i.e., do sangue) hereditária (i.e., genética) que causa destruição crônica das células vermelhas

do sangue, episódios de intensa dor, susceptibilidade às infecções e em alguns casos, à morte

precoce, afetando principalmente a população negra (CONSELHO MUNICIPAL DE

DEFESA DOS DIREITOS DO NEGRO, 2008). Os genes são herdados dos pais, portanto não

é contagiosa. Diferentemente da anemia comum que tem cura, seja com alimentação que

contenha ferro, vitamina B12 ou vitamina C, a AF não tem cura e tampouco pode ser

amenizada com alimentação. Todavia, é uma doença tratável e é possível o paciente participar

do mercado de trabalho, desde que esteja recebendo tratamento médico adequado e exerça

funções compatíveis com as suas limitações e potencialidades (SILVA, R.; RAMALHO;

CASSORLA, 1993).

Page 12: UNIVERSIDADE FEDERAL DE SÃO CARLOS CENTRO DE CIÊNCIAS ...gbd.dc.ufscar.br/~pablofmatos/files/QualiPabloFreire.pdf · UNIVERSIDADE FEDERAL DE SÃO CARLOS CENTRO DE CIÊNCIAS EXATAS

11

A AF surgiu nos países do centro-oeste africano, Índia e leste da Ásia, há cerca de 50 a

100 mil anos, entre os períodos paleolítico e mesolítico (GALIZA NETO; PITOMBEIRA,

2003). Paradoxalmente, surgiu como autodefesa do organismo humano para se proteger da

malária que é comum nas regiões de clima quente. Decorrente dos processos migratórios, da

colonização e principalmente da miscigenação racial, a doença, que é passada de pai para

filho, espalhou-se pelo mundo (Figura 2). É mais comum entre pessoas cujos antepassados

são provenientes da África, países do Mediterrâneo (como Grécia, Turquia e Itália), Península

Arábica, Índia e regiões de língua espanhola na América do Sul, América Central e partes do

Caribe (GENETICS HOME REFERENCE, 2007).

Figura 2 – Miscigenação racial.

Fonte: Brasil (2007).

No Brasil, a AF foi introduzida através do tráfico de escravos iniciado em 1550 para

trabalho na indústria da cana-de-açúcar no Nordeste e, posteriormente, para a lavra do ouro e

extração de metais preciosos em Minas Gerais (RUIZ, 2007). Não por acaso, a Bahia é o

estado que concentra a maior incidência da doença hoje no Brasil.

Apesar da AF ser comum na população negra, qualquer pessoa devido à miscigenação

racial pode ter a doença ou simplesmente ser portadora do traço. Segundo dados do Programa

Nacional de Triagem Neonatal (PNTN) (apud MINISTÉRIO DA SAÚDE, 2008), a maior

incidência tanto da AF quanto do traço falciforme encontra-se na Bahia, Rio de Janeiro e

Minas Gerais (Figura 3).

Page 13: UNIVERSIDADE FEDERAL DE SÃO CARLOS CENTRO DE CIÊNCIAS ...gbd.dc.ufscar.br/~pablofmatos/files/QualiPabloFreire.pdf · UNIVERSIDADE FEDERAL DE SÃO CARLOS CENTRO DE CIÊNCIAS EXATAS

12

Figura 3 – Frequência do gene S nas diferentes regiões do Brasil.

Fonte: Adaptado de Cançado e Jesus (2007).

O sangue é composto pelo plasma e por três tipos de células: plaquetas (ajuda no

coágulo do sangue), glóbulos brancos (células de defesa) e hemácias (glóbulos vermelhos ou

eritrócitos) (Figura 4). Esta última tem no seu interior a proteína hemoglobina, rica em ferro,

responsável pela cor vermelha do sangue e em transportar oxigênio para todo o corpo,

fazendo com que as funções vitais do organismo funcionem perfeitamente.

Figura 4 – Elementos do sangue.

Fonte: Adaptado de Medical Encyclopedia (2008).

O que diferencia a AF da anemia comum é que na primeira a hemoglobina A (comum)

é substituída pela hemoglobina S (formato de foice, daí o nome falciforme, Figura 5). Na

segunda ocorre “somente” a diminuição da hemoglobina no sangue (estima-se que 90% dos

casos (MINISTÉRIO DA SAÚDE, 2004) é devido à falta de ferro, conhecida como Anemia

Ferropriva).

Figura 5 – Hemácia no formato de foice (meia lua).

Fonte: Rodrigues (2008).

Page 14: UNIVERSIDADE FEDERAL DE SÃO CARLOS CENTRO DE CIÊNCIAS ...gbd.dc.ufscar.br/~pablofmatos/files/QualiPabloFreire.pdf · UNIVERSIDADE FEDERAL DE SÃO CARLOS CENTRO DE CIÊNCIAS EXATAS

13

Por causa do formato em foice, as hemácias têm dificuldade em passar pelas veias,

ocasionando crises intensas de dor que ocorrem frequentemente no abdômen, nos pulmões,

ossos e juntas. Rígidas e pegajosas tendem a formar saliências e ficar presas nos vasos

sanguíneos. Veja na Figura 6 o fluxo de uma hemácia normal (a) e o problema que uma

hemácia falciforme causa na circulação sanguínea (b).

Figura 6 – Hemácias normais (a) e Falciformes (b).

Fonte: Adaptado de National Institute of Health (2008).

As hemácias são produzidas na medula esponjosa presente em ossos grandes do corpo.

Duram em média 120 dias na corrente sanguínea e depois morrem. Na AF o número baixo das

hemácias ocorre porque as células falciformes não duram muito tempo (em média de 10 a 20

dias) (NATIONAL INSTITUTE OF HEALTH, 2008). A medula óssea é responsável por

estar sempre produzindo novas hemácias para substituir as antigas, entretanto a mesma não é

capaz de produzir rapidamente novas hemácias para substituir as que estão morrendo devido à

AF.

Uma pessoa normal (sem o gene da doença) herda do pai e da mãe a hemoglobina A

(homozigoto AA). Para uma pessoa nascer com o gene da AF é necessário herdar a

hemoglobina S tanto do pai quanto da mãe (homozigoto SS). Quem herda de um dos pais a

hemoglobina A e do outro a hemoglobina S nasce com o traço da doença (heterozigoto AS),

ou seja, não é doente tampouco possui sintomas (assintomático), porém pode vir a ter filhos

que sejam. Veja na Figura 7 a probabilidade de um casal com traço falciforme ter filho com

AF (25%, genes SS), a mesma probabilidade de ter filho normal (25%, genes AA) e 50% de

ter filho com o traço (genes AS).

Page 15: UNIVERSIDADE FEDERAL DE SÃO CARLOS CENTRO DE CIÊNCIAS ...gbd.dc.ufscar.br/~pablofmatos/files/QualiPabloFreire.pdf · UNIVERSIDADE FEDERAL DE SÃO CARLOS CENTRO DE CIÊNCIAS EXATAS

14

Figura 7 – Probabilidade de nascer com Anemia Falciforme.

Fonte: Adaptado de Hemorio (2005).

O indivíduo com AF tem o gene SS característico da doença. Porém, existe um

conjunto de variedades denominado Doença Falciforme ou Sickle Cell Disease (anomalidades

hereditárias das hemoglobinas), por exemplo, indivíduo S com outro tipo de hemoglobina

anormal (e.g., C, D, Talassemia), originando hemoglobinopatias SC, SD, S-Talassemia.

1.1.2 Visão Geral

O formato dos dados textuais pode ser estruturado, semi-estruturado ou não-

estruturado. Segundo os pesquisadores de banco de dados Elmasri e Navathe (2003 apud

CHANG, C. et al., 2006), as informações armazenadas em banco de dados são dados

estruturados, documentos XML são dados semi-estruturados, enquanto as páginas da Web em

formato HTML são não-estruturados. Soderland (1997 apud CHANG, C. et al., 2006)

considera textos (e.g., artigos) que são escritos em língua natural como não-estruturados;

prontuários médicos como semi-estruturados; enquanto páginas HTML como estruturados.

Chia-Hui Chang et al. (2006) utilizam uma nova nomenclatura: textos (e.g., artigos)

sendo não-estruturados; páginas HTML como semi-estruturados; e XML como sendo

estruturados. Neste trabalho consideram-se artigos científicos no formato PDF como dados

não-estruturados, documentos XML como dados semi-estruturados e informações

armazenadas em banco de dados (BD) como dados estruturados (Figura 8).

Figura 8 – Formato dos dados textuais.

A extração de informação de um documento é classificada por Feldman e Sanger

(2007) em quatro tipos de características (features – feature na área de Inteligência Artificial é

conhecida como “atributo” e em Processamento de Língua Natural como “traço”): caracteres,

palavras, termos e conceitos. Cada uma dessas características representa um nível de extração

de informação. O nível mais baixo extrai letras, números, caracteres especiais. O mais alto

extrai informação em relação à semântica, usando conhecimento de domínio como ontologias

Page 16: UNIVERSIDADE FEDERAL DE SÃO CARLOS CENTRO DE CIÊNCIAS ...gbd.dc.ufscar.br/~pablofmatos/files/QualiPabloFreire.pdf · UNIVERSIDADE FEDERAL DE SÃO CARLOS CENTRO DE CIÊNCIAS EXATAS

15

e bases de conhecimento. Outro nível á a representação em palavras que extrai somente

palavras simples. Termos são simples palavras e frases com múltiplas palavras.

Dos quatro tipos de características listadas anteriormente, termos e conceitos

expressam o nível de valor semântico mais adequado para os propósitos da MT.

Representação em nível de termo pode ser mais facilmente gerada automaticamente de um

texto fonte (através de várias técnicas de extração de termo) do que a representação em nível

de conceito, que frequentemente necessita de algum nível de interação humana (FELDMAN;

SANGER, 2007).

O interesse da Mineração de Textos no domínio da doença Anemia Falciforme

encontra-se em extrair informações de artigos científicos (formato não-estruturado) sobre

paciente, sintoma, fator de risco, tratamento e efeitos (positivos e negativos). Cada uma dessas

características é descrita e exemplificada a seguir:

Paciente: Informações relacionadas à quantidade de pacientes incluídos e

excluídos no tratamento, número de pacientes que obteve sucesso ou insucesso

no tratamento. Exemplo: 4 pacientes desenvolveram síndrome torácica aguda e

em 12 pacientes houve uma melhoria no quadro clínico com a transfusão

sanguínea.

Sintoma: São as características que permitem a identificação da doença.

Exemplos: Síndrome torácica aguda, febre, dactilite (inflamação dos dedos do

pé e da mão).

Fator de Risco: Algumas características que podem piorar o quadro de saúde

do paciente. Essas características não permitem a identificação da doença,

tampouco é decorrente da mesma. Exemplos: Exposição ao frio, mudanças

bruscas de temperaturas, infecções, febre, diarréia, período menstrual,

gravidez, estresse nos adultos, desidratação.

Tratamento: Refere-se à terapia ou o uso de droga por um determinado

período que permite alterações no quadro de saúde do paciente. Exemplos de

terapia: Transplante de medula óssea e transfusão de sangue. Exemplos de

droga: hidroxiureia e ácido fólico.

Efeito: Pode ser negativo ou positivo como resposta ao tratamento (terapia ou

droga). Um efeito negativo (complicação) é um problema ocasionado por

estímulos originados de um tratamento. Uma complicação pode agravar um

sintoma ou levar a um efeito inesperado como exemplo a morte. Não é natural

Page 17: UNIVERSIDADE FEDERAL DE SÃO CARLOS CENTRO DE CIÊNCIAS ...gbd.dc.ufscar.br/~pablofmatos/files/QualiPabloFreire.pdf · UNIVERSIDADE FEDERAL DE SÃO CARLOS CENTRO DE CIÊNCIAS EXATAS

16

da doença. Exemplo: Um paciente com síndrome torácica aguda (sintoma),

após um período de tratamento teve uma complicação como asma. Efeito

positivo é um benefício que o paciente obtém decorrente do sucesso do uso de

um tratamento. Exemplo: O paciente com sintoma recorrente de epilepsia

diminui a frequência de internação devido a um certo tratamento.

A extração de informação será realizada com o auxílio de um banco de dados que

conterá uma lista de termos predefinidos por especialistas do domínio (equipe do Hemocentro

de Ribeirão Preto). Esta lista, denominada de Repositório de Dicionário de Termos (RDT),

conterá termos identificados manualmente. Entretanto, a partir de heurísticas novos termos

serão adicionados semiautomaticamente, sendo que o especialista decidirá se o termo

candidato é realmente um termo relevante. Na Tabela 1 encontra-se o RDT com alguns

termos.

Tabela 1 – Exemplos de termos de efeitos (positivo e negativo).

Efeitos

Positivo (benefício) Negativo (complicação)

cure acute chest syndrome

decrease the rate of painful events acute lun injury

no adverse events due transfusion vasooclusive crises

decrease of the number of days of hospitalization intracranion hemorrhage

transfusion prevents ACS splenic sequestration

Este trabalho visa extrair termos relacionados a efeitos (positivo e negativo) da doença

Anemia Falciforme, utilizando como fonte de entrada artigos científicos não-estruturados no

formato PDF escritos no idioma inglês.

1.2 Motivação

A doença falciforme afeta milhões de pessoas no mundo inteiro. É a doença

hereditária do sangue mais comum nos Estados Unidos, afetando 70.000 a 80.000 norte-

americanos (GENETICS HOME REFERENCE, 2007). No Brasil também é a doença

hereditária mais comum (ZAGO, 2001).

Dados do Programa Nacional de Triagem Neonatal (apud MINISTÉRIO DA SAÚDE,

2008) mostram que 3.500 crianças nascem com doença falciforme e 200.000 com traço

falciforme todos os anos. A taxa de mortalidade infantil nas crianças sem nenhum tratamento

é de . Dados do Hemocentro do Rio de Janeiro (apud MINISTÉRIO DA SAÚDE, 2008)

apresentam uma redução em torno de quando a atenção ao paciente é integral. Portanto,

Page 18: UNIVERSIDADE FEDERAL DE SÃO CARLOS CENTRO DE CIÊNCIAS ...gbd.dc.ufscar.br/~pablofmatos/files/QualiPabloFreire.pdf · UNIVERSIDADE FEDERAL DE SÃO CARLOS CENTRO DE CIÊNCIAS EXATAS

17

o tratamento adequado representa papel fundamental na redução da morbidade e mortalidade

desses pacientes.

O grande volume de artigos médicos publicados impossibilita a leitura de todos os

artigos. O NCBI (National Center for Biotechnology Information) é um Instituto Nacional de

Saúde criado em 1988 para desenvolver sistemas de informação para biologia molecular.

Fornece sistemas de recuperação para pesquisar nas bases do PubMed e PubMed Central

(PMC) (http://www.pubmedcentral.nih.gov/).

PubMed, repositório on-line desenvolvido pelo NCBI e National Library of Medicine,

contém mais de 18 milhões de publicações médicas, incluindo registros do MEDLINE e

outros jornais científicos (NATIONAL CENTER FOR BIOTECHNOLOGY

INFORMATION, 2009b). O MEDLINE (http://gateway.nlm.nih.gov), sistema on-line de

busca e análise de literatura médica, é um banco de dados que contém mais de 16 milhões de

referências a artigos de revistas da área de ciências com uma maior concentração em

biomedicina (NATIONAL LIBRARY OF MEDICINE, 2008).

Já o Entrez é um sistema de recuperação de banco de dados integrado do NCBI que

fornece acesso a um conjunto de 35 bases que juntas contêm mais de 350 milhões de registros

(SAYERS et al., 2009). Uma consulta simples realizada na base integrada do Entrez

(NATIONAL CENTER FOR BIOTECHNOLOGY INFORMATION, 2009a) com a palavra-

chave Sickle Cell Anemia retornou 15.748 registros do PubMed (citações e resumos), 3.463

do PMC (artigos completos de livre acesso), além de informações de outras bases.

A grande quantidade de informação armazenada nesses bancos de dados demonstra

que existe um crescimento acelerado da produção e armazenamento das informações tanto em

forma de resumos quanto de artigos científicos completos. Analisando essa perspectiva, é

humanamente inviável relacionar casos de sucesso de um artigo com outro. Esses casos

poderiam identificar relacionamento de conteúdos entre artigos, por exemplo: a droga

hidroxiureia, utilizada no tratamento da Anemia Falciforme (SEGAL et al., 2008), foi

utilizada em crianças na faixa etária de 2 a 5 anos e resultou em da redução de

hospitalização, enquanto que em outro estudo realizado com jovens de 18 a 27 anos houve

uma redução considerável nas crises recorrentes de dores em todo o corpo.

O surgimento da Mineração de Textos foi motivado pela necessidade de se descobrir

de forma semiautomática informações e conhecimento (e.g., padrões e anomalias) em textos.

O uso dessa tecnologia permite recuperar informações, extrair dados, resumir documentos,

descobrir padrões, associações e regras, além de realizar análises qualitativas ou quantitativas

em documentos de texto (ARANHA; PASSOS, 2006).

Page 19: UNIVERSIDADE FEDERAL DE SÃO CARLOS CENTRO DE CIÊNCIAS ...gbd.dc.ufscar.br/~pablofmatos/files/QualiPabloFreire.pdf · UNIVERSIDADE FEDERAL DE SÃO CARLOS CENTRO DE CIÊNCIAS EXATAS

18

O crescimento do armazenamento de dados não-estruturados no domínio biomédico,

propiciou o desenvolvimento de técnicas de MT. Devido à alta percentagem de informação

estar disponível no formato textual e mais especificamente em artigos científicos completos

da doença Anemia Falciforme, surge a oportunidade de minerar esses textos. O objetivo é

reduzir o tempo de encontrar uma informação e aumentar a probabilidade de identificar uma

informação relevante no meio de uma miríade de artigos científicos que, às vezes, em um

processo manual seria exaustivo, senão improvável de encontrar.

1.3 Justificativa

Segundo estimativas da Organização Mundial de Saúde (apud BRASIL, 2009), a cada

ano nascem no Brasil cerca de 2.500 crianças portadoras de Doença Falciforme (dados

inferiores ao PNTN que é de 3.500). Vinte por cento delas não vão atingir cinco anos de

idade, por complicações diretamente relacionadas à doença. Nos Estados Unidos a estimativa

é de 1 a cada 500 norte-americanos descendentes de africano e 1 entre 1.000 a 1.400 norte-

americanos descendentes de hispânico (GENETICS HOME REFERENCE, 2007).

Várias pesquisas vão em direção a amenizar o sofrimento desses pacientes. A droga

hidroxiureia vem sendo utilizada em pacientes com Anemia Falciforme que tem recorrentes

crises de dor ou síndrome torácica aguda desde os primeiros resultados obtidos em adultos por

Charache et al. (1995). Reais benefícios são encontrados em grupos com diferentes faixas

etárias, todavia a eficácia do tratamento com esta droga em longo prazo ainda é incerto,

especialmente em crianças (GULBIS et al., 2005).

Estudo com crianças (CHAAR et al., 2006) constatou que o alelo ecNOS C-786 está

associado a diminuição do risco de síndrome torácica aguda, obtendo resultado diferente de

estudos anteriores que constatou que este alelo está associado ao alto risco de desenvolver a

mesma síndrome em pacientes adultos do sexo feminino.

A hidroxiureia, considerada a droga mais bem sucedida no combate a AF (GULBIS et

al., 2005), é capaz de aumentar as concentrações de hemoglobina fetal que pode diminuir a

gravidade da doença, produzindo melhora do quadro clínico. Os pacientes através do uso

desta droga podem obter os seguintes benefícios (BRASIL, 2002):

Diminuição da frequência dos episódios de dor ou até mesmo ausência de dor;

Aumento da produção de hemoglobina F e aumento discreto da concentração

total de hemoglobina;

Diminuição dos episódios de síndrome torácica aguda, do número de

hospitalizações e do número de transfusões sanguíneas.

Page 20: UNIVERSIDADE FEDERAL DE SÃO CARLOS CENTRO DE CIÊNCIAS ...gbd.dc.ufscar.br/~pablofmatos/files/QualiPabloFreire.pdf · UNIVERSIDADE FEDERAL DE SÃO CARLOS CENTRO DE CIÊNCIAS EXATAS

19

Vários artigos médicos sobre a AF relatam casos de sucesso com o uso da droga

hidroxiureia (CHARACHE et al., 1995; COVAS et al., 2004; LEFÈVRE et al., 2008) e com

terapia como a transfusão de sangue (STYLES et al., 2007; BADER-MEUNIER et al., 2009).

Contudo, esses artigos são publicados em vários meios de comunicação (American Journal of

Hematology, Blood, British Journal of Haematology, Haematologica, The New England

Journal of Medicine, dentre outros), tendo uma imensa informação que os pesquisadores não

são capazes de processar, seja devido à infinidade de conferências que exige uma busca

exaustiva (o que leva tempo) para encontrar o artigo e mais tempo ainda em lê-los e extrair as

principais informações seja de paciente, sintoma, fator de risco, tratamento ou efeito.

Para auxiliar no processamento dos artigos científicos sobre a AF, a Mineração de

Textos tem um papel fundamental. Com a função de extrair e reconhecer padrões e descobrir

conhecimento em bases textuais (FELDMAN; DAGAN, 1995), a MT auxilia os

pesquisadores com a redução do tempo gasto em processar e identificar informações nos

artigos.

A partir da extração dessas informações em etapas do processo de MT, poderá numa

outra etapa, Mineração de Dados, cruzarem informações extraídas de cada artigo,

identificando relacionamentos de causa/efeito da doença. As informações geradas a partir

desse cruzamento poderão ser tanto quantitativas quanto qualitativas. A seguir exemplos que

cada uma dessas abordagens é capaz de identificar:

Qual o número de artigos que descrevem tratamentos baseados no uso da droga

hidroxiureia em crianças na faixa etária de 5 a 8 anos nos últimos 5 anos?

(Informação Quantitativa).

Em 80% das crianças na faixa etária de 5 a 8 anos, o uso da droga hidroxiureia

diminuiu o tempo médio de internação (Informação Qualitativa).

Como dito anteriormente, a MT atua em dados textuais não-estruturados,

transformando-os em informações estruturadas que podem ser processadas com algoritmos de

MD (Regras de Associação, Extração de Padrões, Regras de Regressão) (HAN; KAMBER,

2006), identificando padrões que seriam humanamente inviáveis de serem realizados com a

imensa quantidade de artigos disponíveis atualmente.

Diversos trabalhos existentes na literatura extraem informação de proteína (MIKA;

ROST, 2004b), interações de proteína (ONO et al., 2001) ou gene e proteína (LEONARD;

COLOMBE; LEVY, 2002). A maioria dessas informações é selecionada de resumos

(abstracts) do MEDLINE. Por mais bem resumido que seja o abstract não é possível escrever

Page 21: UNIVERSIDADE FEDERAL DE SÃO CARLOS CENTRO DE CIÊNCIAS ...gbd.dc.ufscar.br/~pablofmatos/files/QualiPabloFreire.pdf · UNIVERSIDADE FEDERAL DE SÃO CARLOS CENTRO DE CIÊNCIAS EXATAS

20

em poucas palavras todos os resultados obtidos com os experimentos. Muitas informações

importantes deixam de ser extraídas.

Corney et al. (2004) destacam o benefício em extrair informação em artigos completos

– mais da metade da informação extraída é do corpo do artigo – apesar de algumas

dificuldades em converter artigo no formato PDF para formato de texto e exigir tempo extra

para processamento do texto (a análise realizada em resumo leva de 3 a 5 segundos e em

artigo completo de 6 a 10 minutos, segundo Corney et al. (2004)).

Na Figura 9 é mostrada a densidade de informação sobre nome de gene e proteína em

um artigo completo, sendo a localização e o início e o fim do artigo,

respectivamente. O pico de informação da parte esquerda corresponde ao resumo e o pico no

meio corresponde às seções de discussão e resultado do artigo.

Figura 9 – Densidade de informação em um artigo completo.

Fonte: Adaptado de Corney et al. (2004).

Ainda segundo Corney et al. (2004), a Figura 9 sugere que não apenas algumas seções

devam ser analisadas, mas sim o artigo completo. Schuemie et al. (2004) corroboram com a

importância da extração em artigos completos: há seções que possuem mais informações do

que outras e quanto mais seções pesquisadas mais informação será extraída. Contudo,

Schuemie et al. (2004) ressalvam que leva-se mais tempo para processar e os artigos são mais

difíceis de adquirir devido às proteções de copyright. Apesar dessas dificuldades, há um senso

comum no que diz respeito à relevância dessas informações. Este trabalho tem como desafio

extrair as informações relacionadas à doença Anemia Falciforme de artigos completos.

1.4 Objetivos

Esta pesquisa em nível de mestrado está inserida em um projeto de pesquisa que tem

como objetivo desenvolver um ambiente para analisar os dados da doença Anemia

Falciforme. Este ambiente visa extrair informações de forma semiautomática de um conjunto

Page 22: UNIVERSIDADE FEDERAL DE SÃO CARLOS CENTRO DE CIÊNCIAS ...gbd.dc.ufscar.br/~pablofmatos/files/QualiPabloFreire.pdf · UNIVERSIDADE FEDERAL DE SÃO CARLOS CENTRO DE CIÊNCIAS EXATAS

21

de artigos científicos sobre a doença e possibilitar a aplicação de algoritmos de Mineração de

Dados para identificar padrões que indicam relacionamentos interessantes e até então

desconhecidos ou para predição de fatos futuros em função de dados do passado. Exemplos de

relacionamentos incluem causa/efeito para essa doença.

1.4.1 Objetivo Geral

O objetivo deste trabalho de pesquisa de mestrado é extrair informações relevantes de

artigos científicos (formato não-estruturado) em inglês, relacionados a efeitos (positivo e

negativo) da doença Anemia Falciforme.

1.4.2 Objetivos Específicos

Utilizando da extração semiautomática, pretende-se proporcionar aos profissionais da

área médica soluções para a doença citada com base em estudos de caso validados por outros

pesquisadores. Também é importante fornecer as informações mais proeminentes dos artigos

sobre Anemia Falciforme a fim de encontrar solução no menor tempo e com maior precisão

(ou ter conhecimento sobre o andamento das pesquisas em nível mundial, ou a aplicação de

um novo medicamento), alcançando os melhores resultados possíveis.

Destacam-se alguns objetivos específicos que são pontuais neste trabalho:

Converter artigos escritos em inglês do formato PDF para documento XML

para ter acesso ao texto em nível de página, parágrafo e sentença para uma

posterior navegação pelos níveis estabelecidos. Para isso está sendo

desenvolvido uma ferramenta chamada de SCAtRanslator;

Desenvolver a ferramenta SCAeXtractor, mais especificamente um módulo de

extração de informação;

Classificar as sentenças em efeitos da Anemia Falciforme utilizando um

classificador de texto;

Extrair informação de efeitos das sentenças classificadas, utilizando regras e

dicionário;

Armazenar as informações extraídas em um banco de dados;

Possibilitar ao especialista do domínio visualizar as sentenças ou os termos da

sentença no artigo original (formato HTML), correspondente as informações

armazenadas no banco de dados;

Fornecer acesso aos dados estruturados para serem processados por algoritmo

de Mineração de Dados.

Page 23: UNIVERSIDADE FEDERAL DE SÃO CARLOS CENTRO DE CIÊNCIAS ...gbd.dc.ufscar.br/~pablofmatos/files/QualiPabloFreire.pdf · UNIVERSIDADE FEDERAL DE SÃO CARLOS CENTRO DE CIÊNCIAS EXATAS

22

1.5 Organização do Trabalho

Esta proposta de dissertação está organizada em cinco capítulos distribuídos na

seguinte ordem. Capítulo 1 – Introdução: É abordado o contexto onde este trabalho se

encontra, a motivação para a definição do tema, a justificativa da pesquisa e os objetivos

gerais e específicos; Capítulo 2 – Mineração de Textos: É apresentado as áreas de

conhecimento da mineração de textos, quais os tipos mais comumente utilizados para

descoberta de conhecimento textuais e por fim, as etapas do processo de MT; Capítulo 3 –

Extração Automática: É contextualizado o reconhecimento automático de termo na área da

terminologia e quais as abordagens comumente utilizadas para extração de informação;

Capítulo 4 – Trabalhos Correlatos: É discutido trabalhos que extraem informações de textos

não-estruturados utilizando as abordagens de aprendizado de máquina, regras e dicionário

explicadas no capítulo 3; Capítulo 5 – Proposta da Dissertação de Mestrado: É apresentado a

arquitetura do sistema de análise de dados da doença Anemia Falciforme, a metodologia

utilizada para extrair informação em artigos científicos de efeitos relacionados à essa doença,

algumas questões sobre o desenvolvimento do projeto e por fim, o cronograma de atividades.

Page 24: UNIVERSIDADE FEDERAL DE SÃO CARLOS CENTRO DE CIÊNCIAS ...gbd.dc.ufscar.br/~pablofmatos/files/QualiPabloFreire.pdf · UNIVERSIDADE FEDERAL DE SÃO CARLOS CENTRO DE CIÊNCIAS EXATAS

23

2 MINERAÇÃO DE TEXTOS

Mineração de Textos (MT) (TAN, 1999), também conhecida como Descoberta de

Conhecimento Textual (FELDMAN; DAGAN, 1995) ou Mineração de Dados Textuais

(HEARST, 1999), refere-se ao processo de extrair informações úteis em documentos no

formato textual não-estruturado através da identificação de conhecimento e exploração de

padrões. A MT é vista como uma extensão da Mineração de Dados (FAYYAD;

PIATETSKY-SHAPIRO; SMYTH, 1996). A Mineração de Dados procura desvendar

conhecimento de bases de dados estruturadas e extrair padrões e tendências de grandes

volumes de dados, normalmente, de um domínio específico (detalhes em 2.1.5).

Na comunidade biomédica a MT é considerado como um processo de destacar a

informação relevante (seja recuperando ou extraindo) de uma grande coleção de dados

textuais; ajuda os especialistas do domínio a entender a grande quantidade de texto através da

recuperação de informação (seção 2.1.4), extração de informação (seção 2.1.3) e descoberta

de relacionamentos implícitos (seção 2.1.5) (SPASIC et al., 2005).

Marti Hearst (HEARST, 1999; HEARST, 2003) define MT como sendo a descoberta

automática de informação desconhecida a partir de fontes textuais. Hearst destaca a

biociências como área promissora para aplicação de MT (cita o trabalho de Don Swanson

discutido neste capítulo na seção 2.2.5) e interações de proteínas.

Há uma grande quantidade de informação em formato textual tanto disponível em

conteúdo on-line quanto em documentos de empresas. Para que essa informação não-

estruturada seja processada, é necessário usar métodos e algoritmos de pré-processamento

para extrair padrões interessantes. Pré-processamento é uma das etapas do processo de MT

que será apresentado na seção 2.3.

A MT surge como uma tecnologia para processar esses textos seja para sumarizar

(tornar um texto sucinto), categorizar (classificar em classes definidas), agrupar, obter

respostas relacionadas a perguntas (perguntas e respostas) ou simplesmente extrair

informação que pode ser combinada com categorização, por exemplo. Tarefas de sumarizar,

Page 25: UNIVERSIDADE FEDERAL DE SÃO CARLOS CENTRO DE CIÊNCIAS ...gbd.dc.ufscar.br/~pablofmatos/files/QualiPabloFreire.pdf · UNIVERSIDADE FEDERAL DE SÃO CARLOS CENTRO DE CIÊNCIAS EXATAS

24

categorizar, etc. são utilizadas para descoberta de conhecimento em textos (discutido na seção

2.2).

Este capítulo está dividido da seguinte forma: na seção 2.1, são destacadas as áreas de

conhecimento que estão envolvidas com a Mineração de Textos; em seguida, em 2.2 são

discutidos alguns tipos de descoberta de conhecimento em textos que podem ser utilizadas nas

áreas de conhecimento citadas na seção 2.1; na seção 2.3 são apresentadas as etapas do

processo de mineração; e por fim, em 2.4, são apresentadas as considerações finais.

2.1 Áreas de Conhecimento em Mineração de Textos

A Mineração de Textos é um campo de pesquisa interdisciplinar e segundo Hotho,

Nürnberger e Paass (2005) está relacionada com áreas como: extração de informação,

recuperação de informação, aprendizado de máquina, estatística, processamento de língua

natural e mineração de dados. Esta última é utilizada como área “fim” com o objetivo de

extrair padrões relevantes a partir do cruzamento de informações. As outras são utilizadas

como áreas “meio”, auxiliando no processo de seleção (recuperação de informação) e

extração de informação (aprendizado de máquina e processamento de língua natural).

A seguir é apresentado sucintamente cada uma dessas áreas que contribui com a

mineração textual. Essas áreas possuem técnicas que auxiliam em uma ou mais etapas do

processo de Mineração de Textos explicado em 2.3.

2.1.1 Processamento de Língua Natural

O termo Processamento de Língua Natural (PLN) ou Linguística Computacional é

normalmente usado para descrever a função de um sistema de computador no qual analisa e

sintetiza a língua falada ou escrita (JACKSON; MOULINIER, 2002). Tem como propósito

ser apoiado por um sistema computadorizado que compreende a língua natural assim como

um ser humano. A palavra “Natural” significa a distinção da escrita e fala humana das línguas

formais como matemática ou lógica.

Há um grande interesse em PLN a fim de encontrar informações relevantes e

“escondidas” nas diversas fontes que se encontram em formato textual não-estruturado na

Internet e nas Intranets corporativas. PLN utiliza de técnicas estatísticas para interpretar e

determinar o significado de partes do texto (JACKSON; MOULINIER, 2002).

PLN tem o intuito de analisar e representar naturalmente a ocorrência de textos em um

ou mais níveis de análise linguística. Os níveis de análise linguística são divididos em seis

categorias (JURAFSKY; MARTIN, 2000): Fonética e Fonológica: estudo dos sons

linguísticos; Morfológica: estudo do significado das palavras, incluindo os prefixos, sufixos e

Page 26: UNIVERSIDADE FEDERAL DE SÃO CARLOS CENTRO DE CIÊNCIAS ...gbd.dc.ufscar.br/~pablofmatos/files/QualiPabloFreire.pdf · UNIVERSIDADE FEDERAL DE SÃO CARLOS CENTRO DE CIÊNCIAS EXATAS

25

raízes; Sintática: estudo das relações estruturais entre as palavras. Análise das palavras em

uma sentença, a fim de descobrir a estrutura gramatical da mesma; Semântica: estudo do

significado. Determinar os possíveis significados de uma sentença, incluindo desambiguação

das palavras no contexto; Pragmática: estudo da compreensão do uso da língua em situações

que requerem conhecimentos do mundo; Discursiva: estudo das unidades linguísticas maiores

do que uma única expressão (discurso), interpretando a estrutura e o significado do texto.

Segundo Spasic et al. (2005), o primeiro passo para o processamento de texto

automático é a toquenização que identifica as unidades básicas do texto conhecidas como

tokens, utilizando delimitadores explícitos como espaço em branco ou pontuação. Após a

toquenização pode ser realizado o processamento léxico ou sintático, a saber:

Léxico, inclui: lematização, processo que substitui a palavra flexionada pela

forma básica sem número e gênero ; stemming,

processo que reduz a palavra ao seu radical ;

etiquetador gramatical - - - POS identifica a categoria

gramatical de cada palavra do texto utilizando a marcação de etiquetas.

Geralmente é morfológico (identifica substantivo, adjetivo, artigo) ou

morfossintático (identifica as funções sintáticas como sujeito, predicado,

aposto).

Sintático envolve a análise da estrutura sintática de uma sentença, inclui:

shallow parser e deep parser. A primeira apenas identifica os principais

elementos gramaticais em uma sentença, por exemplo, substantivo e verbo;

enquanto que a segunda gera representação completa da estrutura gramatical de

uma sentença.

Stavrianou, Andritsos e Nicoloyannis (2007) discutem em um survey questões

semânticas relacionadas à PLN, ressaltando a importância de PLN na MT. Algumas

conclusões deste trabalho podem ser destacadas:

Esclarecer o objetivo da mineração antes da análise dos dados, pois cada tarefa

tem exigências diferentes;

Delimitar o escopo do texto (resumos, artigos ou coleções de artigos), pois

certas decisões e abordagens podem não ser apropriadas para um determinado

tipo de texto devido ao fato da distribuição de termo variar;

Analisar o texto para encontrar a técnica de PLN que pode ser utilizada. Em

geral, deve-se pensar cuidadosamente antes de remover as stop words (palavras

Page 27: UNIVERSIDADE FEDERAL DE SÃO CARLOS CENTRO DE CIÊNCIAS ...gbd.dc.ufscar.br/~pablofmatos/files/QualiPabloFreire.pdf · UNIVERSIDADE FEDERAL DE SÃO CARLOS CENTRO DE CIÊNCIAS EXATAS

26

comuns no texto como preposições e artigos) ou aplicar técnicas de

lematização no texto.

2.1.2 Aprendizado de Máquina

Aprendizado de Máquina (AM) é uma área da Inteligência Artificial que lida com

problemas de aprendizado computacional a fim de adquirir conhecimento de forma

automática. Um sistema de aprendizado tem a função de analisar informações e generalizá-

las, para a extração de novos conhecimentos. Para isso usa-se um programa de computador

para automatizar o aprendizado (MONARD; BARANAUSKAS, 2003).

O aprendizado utiliza do princípio da indução (inferência lógica) com o intuito de

obter conclusões genéricas a partir de um conjunto de exemplos. Um conceito é aprendido

efetuando-se inferência indutiva sobre os exemplos apresentados. As hipóteses geradas

através dessa inferência podem ou não preservar a verdade.

Para a indução derivar conhecimento novo representativo, os exemplos das classes têm

que estar bem-definidos e ter uma quantidade suficiente de exemplos, obtendo assim

hipóteses úteis para um determinado tipo de problema. Quanto mais exemplos relevantes

selecionados para treinamento no indutor, mais bem classificado será o novo conjunto de

dados. O objetivo do algoritmo de indução é construir um classificador que possa determinar

a classe que um exemplo não rotulado pertence. É possível rotular um novo exemplo devido à

generalização.

O aprendizado indutivo pode ser dividido em supervisionado (AS) e não-

supervisionado (ANS), Figura 10. O AS é utilizado para classificação dos exemplos em

classes predefinidas: resolve problemas preditivos. O ANS é utilizado para agrupamento,

agrupando exemplos semelhantes: resolve problemas descritivos. Classificação e

agrupamento (apresentados em 2.2.3 e 2.2.4) são, respectivamente, exemplos desses dois tipos

de aprendizado.

Figura 10 – Hierarquia do aprendizado.

Fonte: Adaptado de Monard e Baranauskas (2003).

Page 28: UNIVERSIDADE FEDERAL DE SÃO CARLOS CENTRO DE CIÊNCIAS ...gbd.dc.ufscar.br/~pablofmatos/files/QualiPabloFreire.pdf · UNIVERSIDADE FEDERAL DE SÃO CARLOS CENTRO DE CIÊNCIAS EXATAS

27

Monard e Baranauskas (2003) classificam AM em alguns paradigmas, a saber:

Simbólico, representações simbólicas de um problema através da análise de exemplos e

contra-exemplos como expressão lógica, árvore de decisão, regras ou rede semântica.

Exemplo: Algoritmos de árvore de decisão como ID3, C4.5; Estatístico, utiliza modelos

estatísticos para encontrar uma aproximação do conceito induzido. Exemplo: Support Vector

Machines (SVM) e aprendizado Bayesiano; Baseado em Exemplos, classifica um novo

exemplo com base em uma classificação similar conhecida. Exemplo: Raciocínio baseado em

caso e método do -vizinhos mais próximos ( -nearest neighbor, kNN); Conexionista,

inspirada no modelo biológico do sistema nervoso. Exemplo: Redes Neurais; e Evolutivo,

modelo biológico de aprendizado. Exemplo: Analogia com a teoria de Darwin.

Alguns métodos típicos de classificação têm sido usados de forma bem-sucedida na

classificação textual: kNN, métodos de seleção de características, SVM, classificação

Bayesiana e baseada em associação (HAN; KAMBER, 2006). Os algoritmos de aprendizado

supervisionado C4.5, SVM, kNN, Naive Bayes foram escolhidos entre os dez algoritmos mais

influentes na área de mineração de dados (WU, X. et al., 2007).

O SVM pode ser utilizado para classificação e trabalha bem em espaço de alta

dimensionalidade, atuando em problemas de duas classes, por exemplo, identificação de

genes em pacientes normais e com câncer (GUYON et al., 2002). Naive Bayes é fácil de

interpretar e frequentemente funciona surpreendentemente bem; pode não ser o melhor

classificador em alguma aplicação específica, mas normalmente é robusto. Xindong Wu et al.

(2007) descrevem mais detalhes desses algoritmos.

Em 3.2.2 será discutido mais sobre Aprendizado de Máquina (uma das técnicas

utilizada no desenvolvimento deste trabalho).

2.1.3 Extração de Informação

Extração de Informação (EI) preocupa-se em localizar partes específicas em

documentos em língua natural, extraindo informações estruturadas a partir de textos não-

estruturados. EI pode ser descrita como (ANANIADOU; MCNAUGHT, 2006): Extração de

fatos essenciais de tipos predefinidos de um documento em língua natural; Representação de

cada fato como um modelo (template) cujo slots são preenchidos com base no que é

encontrado no texto.

Em geral, sistemas de EI são úteis: se a informação a ser extraída é encontrada de

forma explícita e nenhuma conclusão é necessária; quando um pequeno número de modelos é

Page 29: UNIVERSIDADE FEDERAL DE SÃO CARLOS CENTRO DE CIÊNCIAS ...gbd.dc.ufscar.br/~pablofmatos/files/QualiPabloFreire.pdf · UNIVERSIDADE FEDERAL DE SÃO CARLOS CENTRO DE CIÊNCIAS EXATAS

28

suficiente para resumir as partes relevantes do documento; e a informação desejada é expressa

localmente no texto (FELDMAN; SANGER, 2007).

Ainda segundo Feldman e Sanger (2007), técnicas de EI podem ser parte da tarefa de

Mineração de Textos para facilitar a extração do conhecimento. Contudo, o domínio deve ter

um padrão que se encaixa num modelo. Os resultados da EI, informações estruturadas,

geralmente são armazenados em banco de dados para posteriormente serem utilizados

algoritmos de Mineração de Dados para identificar padrões interessantes (ver 2.1.5).

Existem cinco tarefas de EI como mostrados na Tabela 2. Todos os tipos são

fracamente dependentes de domínio como exemplificado por Cunningham (2006): mudar o

domínio a ser processado de notícias financeiras para outro tipo de notícias implica algumas

alterações no sistema; mudar o assunto de notícias para artigos científicos envolve grandes

mudanças.

Tabela 2 – Cinco tarefas de extração de informação.

Fonte: McNaught e Black (2006).

Tarefa Descrição

Entidade Nomeada Extrai nome, lugares, etc.

Coreferência Identifica relações entre entidades

Template Element Extrai atributos descritivos de entidade nomeada

Template Relation Extrai relacionamento específico de entidade nomeada (simples fatos)

Scenario Template Extrai eventos. Um ou mais slots são preenchidos com template element ou

template relation para cada tipo de evento extraído

No domínio biomédico a tarefa mais utilizada é a Entidade Nomeada (PARK; KIM,

2006). Reconhecimento de Entidade Nomeada (NER) identifica referências para tipos de

objetos particulares, como nome de pessoas, empresas e localizações. NER é uma das áreas de

extração de informação mais estudadas, não apenas em biomedicina, mas também em outras

áreas (ANANIADOU; MCNAUGHT, 2006).

O termo Entidade Nomeada foi cunhado na sexta conferência de extração de

informação conhecida como Message Understanding Conference (MUC) (GRISHMAN;

SUNDHEIM, 1996 apud NADEAU; SEKINE, 2007). A conferência surgiu pela necessidade

de padronizar a avaliação dos sistemas e de acompanhar o desenvolvimento dos mesmos ao

longo do tempo (HIRSCHMAN, 1998).

Ao todo são sete MUCs que surgiram ao longo de 1987 a 1998. O foco inicial foi em

extração de evento (Scenario Template). Novas tarefas intermediárias foram definidas nas

conferências MUC-6 (1995) e MUC-7 (1998), incluindo tarefas de identificação de Entidade

Nomeada, Template Element e Template Relation (HIRSCHMAN; MORGAN; YEH, 2002).

Page 30: UNIVERSIDADE FEDERAL DE SÃO CARLOS CENTRO DE CIÊNCIAS ...gbd.dc.ufscar.br/~pablofmatos/files/QualiPabloFreire.pdf · UNIVERSIDADE FEDERAL DE SÃO CARLOS CENTRO DE CIÊNCIAS EXATAS

29

Exemplos detalhados de cada um dos tipos de EI são descritos por Cunningham

(2006) e McNaught e Black (2006). Nadeau e Sekine (2007) apresentam um survey dos

últimos 15 anos (1991 a 2006) sobre classificação e reconhecimento de entidade nomeada e

discutem as abordagens baseada em regra e aprendizado de máquina que geralmente são

utilizadas em sistemas de extração de informação.

Os resultados da EI, informações estruturadas, geralmente são armazenados em banco

de dados para posteriormente serem utilizados em algoritmos de Mineração de Dados para

identificar padrões interessantes (discutido em 2.1.5).

2.1.4 Recuperação de Informação

Segundo Lancaster (1968 apud VAN RIJSBERGEN, 1979), um sistema de

Recuperação de Informação (RI) não informa ao usuário sobre o assunto que o mesmo deseja

encontrar, mas limita-se a localizar os documentos relativos à consulta do usuário e informar

sobre a existência ou não da informação desejada.

RI é diferente de EI. Esta última extrai informações relevantes não-estruturadas dos

documentos. Uma aplicação de EI analisa os textos não-estruturados e apresenta as

informações específicas no formato estruturado predefinido como explicado em 2.1.3. Um

sistema de RI recupera documentos relevantes baseado em uma consulta do usuário e baseia-

se em busca por palavras-chave ou busca por similaridade.

O exemplo mais conhecido de um sistema de RI é o buscador Google que seleciona os

documentos disponíveis na Web de acordo com a consulta definida pelo usuário. Segundo

Jensen, Saric e Bork (2006), o PubMed é o sistema de RI mais conhecido no domínio

biomédico (informação sobre o PubMed, na seção 1.2). Este último é um sistema ad hoc que

usa duas metodologias de RI: modelo booleano e de vetor.

Outro exemplo de sistema de RI é o Pharmspresso (http://pharmspresso.stanford.edu/)

que extrai e recupera informação de artigos científicos completos. O objetivo da ferramenta é

recuperar artigos (coleção de 1.025 artigos no formato PDF) que contenham sentenças de

acordo com a palavra-chave e categoria definidas pelo usuário (GARTEN; ALTMAN, 2009).

Uma lista de sistemas de RI e EI está disponível em

http://zope.bioinfo.cnio.es/bionlp_tools/all_bionlp_tools com as informações sobre resumo do

sistema, URL (Uniform Resource Locator) para a ferramenta e referência do trabalho.

Para processar grandes coleções de documento, a Mineração de Textos exige um

grande poder computacional e tempo para analisar os textos. A RI pode contribuir

restringindo os documentos com base na informação desejada do usuário, reduzindo o número

Page 31: UNIVERSIDADE FEDERAL DE SÃO CARLOS CENTRO DE CIÊNCIAS ...gbd.dc.ufscar.br/~pablofmatos/files/QualiPabloFreire.pdf · UNIVERSIDADE FEDERAL DE SÃO CARLOS CENTRO DE CIÊNCIAS EXATAS

30

de documentos que serão analisados e consequentemente diminuindo o tempo de espera. Por

exemplo, Hu et al. (2005) extraem informação sobre fosforilação de resumos do MEDLINE.

Para isso, numa primeira fase utiliza-se do sistema de RI para selecionar somente artigos

relacionados à fosforilação, delimitando o domínio de extração.

No contexto deste trabalho de pesquisa em nível de mestrado, a Recuperação de

Informação não será utilizada, pois os artigos no formato em PDF sobre a doença Anemia

Falciforme serão pré-selecionados pelo especialista do domínio (equipe médica).

2.1.5 Mineração de Dados

Mineração de Dados (MD) (HAN; KAMBER, 2006) faz parte do processo de

Descoberta de Conhecimento em Banco de Dados (KDD) e às vezes os dois termos são

usados de maneira indistinta (LUO, 2008). O processo de KDD pode consistir dos seguintes

passos: seleção dos dados, pré-processamento (limpeza dos dados), transformação dos dados,

busca por padrão (mineração de dados) e interpretação e avaliação dos dados (FAYYAD;

PIATETSKY-SHAPIRO; SMYTH, 1996).

O objetivo do processo de KDD é a aplicação de métodos específicos de mineração de

dados para extração e descoberta de padrão. Contudo, o KDD utiliza-se de técnicas de

aprendizado de máquina e estatística para avaliar e interpretar os padrões minerados e

determinar quais padrões podem ser considerados como conhecimento novo.

Uma área que pode contribuir com o processo de KDD é o data warehousing

(KIMBALL; ROSS, 2002) que, segundo Fayyad, Piatetsky-Shapiro e Smyth (1996), ajuda

com o armazenamento de grandes volumes de dados, com a limpeza e com o acesso aos

dados. O principal objetivo do data warehousing é fornecer suporte à decisão aos gerentes de

negócios.

2.1.5.1 Mineração de Dados x Mineração de Textos

Diferentemente da Mineração de Textos que utiliza técnicas de pré-processamento

para identificar e extrair características representativas de documentos em formato não-

estruturado, a MD (MHAMDI; ELLOUMI, 2008) aplica algoritmos de descoberta de padrões

em dados estruturados em um banco de dados. Segundo Feldman e Sanger (2007), ambas

atuam na fase de pré-processamento. A primeira utiliza-se de técnicas de extração para coletar

informação mais representativa dos dados não-estruturados. Enquanto que a segunda enfoca

na normalização dos dados, criando grande número de junções de tabela.

A Mineração de Textos é uma área recente que pode ser utilizada como pré-

processamento para a Mineração de Dados (etapas do processo de MT são apresentadas em

Page 32: UNIVERSIDADE FEDERAL DE SÃO CARLOS CENTRO DE CIÊNCIAS ...gbd.dc.ufscar.br/~pablofmatos/files/QualiPabloFreire.pdf · UNIVERSIDADE FEDERAL DE SÃO CARLOS CENTRO DE CIÊNCIAS EXATAS

31

2.3). A seguir são apresentados três trabalhos que utilizam técnicas de MT como pré-

processamento a fim de estruturar os dados e, por conseguinte o resultado é utilizado como

entrada para algoritmos de MD encontrarem relacionamentos interessantes e conhecimento

novo.

Tan (1999) apresenta um framework constituído de dois componentes: Text refining

que transforma texto não-estruturado num formato intermediário; e Knowlegde distillation

que encontra padrões (agrupamento, categorização) e conhecimento (descoberta de previsão e

associação) a partir do formato intermediário gerado pela MT.

Karanikas, Tjortjis e Theodoulidis (2000) propuseram uma abordagem para extração

de informação composto de dois componentes: Text Analysis e Data Mining. O primeiro

converte dados semi-estruturados (documentos do domínio financeiro) para dados

estruturados que são armazenados em um banco de dados. O segundo aplica técnicas de

mineração de dados nos dados estruturados para classificar documentos por categorias e para

descoberta de padrão útil.

Um trabalho mais recente (KANYA; GEETHA, 2007) apresenta uma abordagem de

Mineração de Textos para extrair informação de grupos de notícias relacionada a anúncio de

emprego. A partir da informação estruturada, dois algoritmos de MD (RIPPER e APRIORI)

são utilizados para descobrir regras interessantes.

Esses trabalhos mostram a importância da Mineração de Dados a fim de descobrir

padrões a partir do resultado do processamento textual realizado pela Mineração de Textos,

sendo a MT a solução ideal para transformar conhecimento não-estruturado em dados

estruturados para serem armazenados no banco de dados (REBHOLZ-SCHUHMANN;

KIRSCH; COUTO, 2005).

2.2 Descoberta de Conhecimento em Textos

Descoberta de Conhecimento em Textos (ou simplesmente KDT) visa explorar e

descobrir padrões em textos. O termo KDT foi cunhado por Feldman e Dagan (1995) como

sinônimo para Mineração de Textos.

Zweigenbaum et al. (2007) descrevem três tarefas de KDT (perguntas e respostas,

sumarização e geração de hipótese) que podem ser utilizadas como uma tarefa para extrair

informação. Fan et al. (2006) descrevem mais cinco tarefas de KDT além das três citadas

anteriormente: extração de informação, categorização, agrupamento, visualização de

informação e rastreamento de informação.

Page 33: UNIVERSIDADE FEDERAL DE SÃO CARLOS CENTRO DE CIÊNCIAS ...gbd.dc.ufscar.br/~pablofmatos/files/QualiPabloFreire.pdf · UNIVERSIDADE FEDERAL DE SÃO CARLOS CENTRO DE CIÊNCIAS EXATAS

32

Nota-se que Zweigenbaum et al. (2007) consideram as três tarefas como parte da

extração de informação; Fan et al. (2006) incluem a extração de informação como uma tarefa

de KDT. Neste trabalho considera-se extração de informação (explicada em 2.1.3) como uma

área de conhecimento abrangente no contexto da Mineração de Textos e por isso, não será

explicada nesta seção.

A seguir são apresentadas algumas dessas tarefas que podem ser utilizadas para

descoberta de padrão em textos: perguntas e respostas, sumarização, categorização,

agrupamento e geração de hipótese. Esta última tarefa é utilizada em referência ao trabalho de

Don R. Swanson (seção 2.2.5) e é sinônimo para descoberta baseada na literatura e ligação de

conceito. Neste trabalho, em particular, é adotado geração de hipótese.

2.2.1 Perguntas e Respostas

Mollá e Vicedo (2007) definem Perguntas e Respostas (tradução do inglês Question

Answering - QA) como uma tarefa onde é possível um computador responder perguntas

arbitrárias formuladas em língua natural. Pesquisa em QA está sendo desenvolvida a partir de

duas diferentes perspectivas científicas: Inteligência Artificial e Recuperação de Informação.

Diferentemente de retornar uma lista de documentos a partir de grandes coleções de

texto (objetivo da Recuperação de Informação discutida em 2.1.4), QA tenta fornecer curtas e

específicas respostas para perguntas, disponibilizando informações de apoio relacionadas à

fonte original do documento, caso o usuário queira verificar a origem da informação

(ZWEIGENBAUM et al., 2007).

Sistemas de QA são especialmente úteis em situações em que o usuário precisa

conhecer uma informação específica, por exemplo, “Qual a quantidade anual de crianças

brasileiras que nascem com Anemia Falciforme?” (resposta encontra-se no primeiro parágrafo

da seção 1.3). Geralmente deseja-se obter estas informações em tempo hábil sem perder muito

tempo pesquisando.

Inicialmente sistemas de QA foram desenvolvidos para aplicações genéricas e mais

recentemente em domínios restritos (ZWEIGENBAUM et al., 2007). Mollá e Vicedo (2007)

descrevem informações sobre QA em domínio restrito e apresentam uma lista de sistemas de

Perguntas e Respostas como JAVELIN, QUETAL, AQUA e START.

START (http://start.csail.mit.edu/) é um exemplo de sistema de QA desenvolvido por

Katz, Lin e Felshin (2002) que tenta fornecer respostas precisas a perguntas formuladas pelo

usuário em inglês. O sistema pode responder milhões de perguntas sobre lugares (cidades,

países, meteorologia, mapas, dados demográficos, sistemas políticos e econômicos), filmes

Page 34: UNIVERSIDADE FEDERAL DE SÃO CARLOS CENTRO DE CIÊNCIAS ...gbd.dc.ufscar.br/~pablofmatos/files/QualiPabloFreire.pdf · UNIVERSIDADE FEDERAL DE SÃO CARLOS CENTRO DE CIÊNCIAS EXATAS

33

(títulos, atores, diretores), pessoas (datas de nascimento, biografias) e definições de

dicionário. Exemplo de uma pergunta respondida é: “Qual o país da América do Sul que tem a

maior população?”. Entretanto, não há resposta para a pergunta: “Qual o país da América do

Sul que tem o melhor futebol?”

Outro exemplo é o MedQA (http://monkey.ims.uwm.edu:8080/MedQA/) que analisa

automaticamente um grande número de documentos eletrônicos para gerar respostas curtas e

coerentes. Este sistema fornece uma alternativa prática permitindo ao médico buscar

definições de informações médicas de forma eficiente. Exemplo de pergunta: “O que é

Anemia Falciforme?”. O resultado foi obtido por volta de 20 segundos e retornou 200

definições pontuadas por relevância e classificadas em grupos. Os bons resultados alcançados

em comparação com o Google em tempo de resposta e simplicidade mostram que o MedQA

pode ser útil para pesquisadores na área médica (YU et al., 2007).

2.2.2 Sumarização

O objetivo da sumarização de texto automático é identificar as informações

importantes de um documento e apresentá-las de forma sucinta e coerente. Diferentemente de

sistemas de EI que geralmente tem como entrada (para processamento) sentenças, em

sistemas de sumarização a entrada é resumos, artigos completos ou coleção de documentos. O

resultado desses sistemas também difere: no primeiro são geradas informações estruturadas,

enquanto no segundo a informação representa uma síntese do documento original

(ZWEIGENBAUM et al., 2007).

Sumarização pode ajudar usuários a encontrar rapidamente os pontos principais de um

documento. Radev, Hovy e McKeown (2002) definem um sumário como um texto que é

produzido de um ou mais textos que expressa informação essencial dos textos originais e não

é maior do que a metade desses e geralmente é menos representativo do que os mesmos; o

objetivo principal é apresentar um resumo das principais ideias de um documento.

Segundo Fan et al. (2006), extrair frases importantes considerando o peso de uma

expressão, por exemplo, “em suma” é uma estratégia amplamente utilizada. Outra estratégia é

utilizar categorização (ver 2.2.3) na sumarização de documento para classificar o conteúdo do

documento em tópicos. Além dessas estratégias, é possível o usuário definir o percentual a ser

extraído do texto.

Os sistemas de sumarização variam dependendo da tarefa a ser realizada. Afantenos,

Karkaletsis e Stamatopoulos (2005) discutem alguns dos fatores que se devem pensar quando

intenciona gerar sumários: tipos de entradas de documentos (um ou mais documentos,

Page 35: UNIVERSIDADE FEDERAL DE SÃO CARLOS CENTRO DE CIÊNCIAS ...gbd.dc.ufscar.br/~pablofmatos/files/QualiPabloFreire.pdf · UNIVERSIDADE FEDERAL DE SÃO CARLOS CENTRO DE CIÊNCIAS EXATAS

34

monolíngue ou multilíngue, texto ou multimídia como imagem e vídeo); propósito do sumário

(informativo, indicativo ou crítico; domínio específico ou genérico); e possíveis maneiras de

apresentação do sumário (extrato ou resumo).

Um exemplo de um gerador de sumários automático é o desenvolvido por Pardo

(2002) cujo objetivo é a implementação de um modelo de discurso com enfoque no

planejamento textual denominado DMSumm

(http://www.icmc.usp.br/~taspardo/DMSumm.htm). Outro é o GistSumm

(http://www.icmc.usp.br/~taspardo/GistSumm.htm) baseado em um novo método de extração

que tenta identificar a principal ideia do texto para gerar o sumário (PARDO; RINO; NUNES,

2003).

Exemplo na literatura biomédica que produz sumários automáticos é o trabalho

desenvolvido por Ling et al. (2006) que gera sumários sobre informações de genes. A geração

de sumários proposta por Ling et al. (2006) é dividida em duas fases: a primeira usa a RI para

recuperar artigos relevantes; a segunda, por meio da EI extrai sentenças mais informativas.

Portanto, o sumário é gerado a partir da seleção das sentenças mais significativas.

2.2.3 Categorização

Como explicado em 2.1.2, a categorização é uma tarefa de aprendizado

supervisionado. A categorização de documento, também conhecida como classificação, é uma

tarefa importante na Mineração de Textos. Segundo Ikonomakis, Kotsiantis e Tampakas

(2005), classificação de texto desempenha papel importante na extração de informação,

sumarização, busca de texto e perguntas e respostas. Na comunidade científica a abordagem

dominante para categorização é baseada em técnicas de aprendizado de máquina

(SEBASTIANI, 2002).

Classificação de texto é a tarefa de classificar um documento em categorias

predefinidas. O processo de classificação é apresentado de forma geral na Figura 11. Um

conjunto de documentos pré-classificados em categorias é considerado para treinamento (a).

Este é analisado a fim de derivar um esquema de classificação (b). Esse esquema muitas

vezes precisa ser refinado em um processo de teste (não mostrado na figura) para validar o

aprendizado. Assim, o esquema de classificação validado pode ser utilizado para a

classificação de outros documentos (c), classificando o documento (d) nas categorias

definidas anteriormente (a).

Page 36: UNIVERSIDADE FEDERAL DE SÃO CARLOS CENTRO DE CIÊNCIAS ...gbd.dc.ufscar.br/~pablofmatos/files/QualiPabloFreire.pdf · UNIVERSIDADE FEDERAL DE SÃO CARLOS CENTRO DE CIÊNCIAS EXATAS

35

Figura 11 – Categorização de documentos.

Fonte: Adaptado de Dörre, Gerstl e Seiffert (1999).

Precisão, revocação e acurácia (Equações (3) (4) e (8) em 2.3.1.1) são medidas

comumente utilizadas para avaliar um classificador (IKONOMAKIS; KOTSIANTIS;

TAMPAKAS, 2005).

2.2.4 Agrupamento

Como explicado em 2.1.2, agrupamento é uma tarefa de aprendizado não-

supervisionado. O processo de agrupamento é apresentado de forma geral na Figura 12.

Diferentemente da categorização, o agrupamento irá agrupar os documentos (a) sem o

conhecimento de nenhuma categoria pré-classificada, separando os grupos com base na

similaridade dos dados (b).

Figura 12 – Agrupamento de documentos.

Fonte: Adaptado de Dörre, Gerstl e Seiffert (1999).

Page 37: UNIVERSIDADE FEDERAL DE SÃO CARLOS CENTRO DE CIÊNCIAS ...gbd.dc.ufscar.br/~pablofmatos/files/QualiPabloFreire.pdf · UNIVERSIDADE FEDERAL DE SÃO CARLOS CENTRO DE CIÊNCIAS EXATAS

36

Lida com problema que consiste em grande parte em analisar os dados de entrada e

sugerir um grupo, de acordo com similaridades observadas nos dados. É extremamente útil

quando não se tem o conhecimento prévio do domínio.

2.2.5 Geração de Hipótese

Área de conhecimento que está embasada na teoria de Don R. Swanson (1986) –

professor emérito da Universidade de Chicago desde 1996 – cujo objetivo principal é a

descoberta de conhecimentos escondidos em diversos documentos que possam ter

informações separadas, mas complementares (SWANSON, 1991). Descoberta baseada na

literatura é outro termo utilizado para associar ao trabalho de Swanson (ZWEIGENBAUM et

al., 2007).

A ideia é encontrar relacionamentos inesperados que podem gerar hipóteses para

serem investigadas e assim, gerar conhecimento novo. Essas hipóteses são geradas a partir do

modelo de descoberta (SWANSON; SMALHEISER, 1997), que parte do princípio

que há um relacionamento conhecido entre e e um separado, mas conhecido entre e .

Esse relacionamento implica em um conhecimento não-descoberto entre e (hipótese)?

Por exemplo, o azeite de peixe contém um ácido Eicosapentaenoic que evita a

viscosidade do sangue . Sabe-se que o azeite controla e diminui as dores causadas pela

síndrome de Raynaud (SWANSON, 1986). Hipótese: a viscosidade do sangue

influencia no controle da doença de Raynaud (Figura 13)? Outros trabalhos foram

desenvolvidos para demonstrar a viabilidade dessa ideia, como Swanson (1988, 1990 apud

BEKHUIS, 2006) e Smalheiser e Bookstein (2001 apud BEKHUIS, 2006).

Figura 13 – Modelo de descoberta A-B-C.

A MT fornece uma abordagem para automatizar a metodologia de geração de

hipótese. Nesse sentido vários trabalhos foram desenvolvidos no intuito de validar a proposta

(WEEBER et al., 2000; BLAKE; PRATT, 2002; WEEBER et al., 2003; SRINIVASAN,

2004; HRISTOVSKI et al., 2006; SEKI; MOSTAFA, 2007). O resumo do legado de Swanson

pode ser encontrado em Bekhuis (2006) que destaca que é uma área que está sendo explorada.

Page 38: UNIVERSIDADE FEDERAL DE SÃO CARLOS CENTRO DE CIÊNCIAS ...gbd.dc.ufscar.br/~pablofmatos/files/QualiPabloFreire.pdf · UNIVERSIDADE FEDERAL DE SÃO CARLOS CENTRO DE CIÊNCIAS EXATAS

37

2.3 Etapas do Processo de Mineração de Textos

Geralmente o processo de Mineração de Textos é dividido em quatro etapas

(IMAMURA, 2001; MARTINS, 2003): coleta de documentos, pré-processamento, extração

de padrões, e análise e avaliação dos resultados. Na coleta de documentos automática utiliza-

se de ferramentas para recuperar informação e auxiliar o usuário a encontrar a informação que

deseja mais rapidamente; após recuperar os documentos textuais, é realizado um pré-

processamento para estruturar os mesmos e em seguida extrair informações relevantes; tendo

os dados armazenados, por exemplo, em um banco de dados, padrões podem ser extraídos a

fim de encontrar informações úteis; por último, deseja-se avaliar o resultado gerado a partir

dos passos anteriores.

Apesar dessas quatro etapas, há algumas variações do processo de MT na literatura

como em Ebecken, Lopes e Costa (2003), Mathiak e Eckstein (2004), Fan et al. (2006),

Stavrianou, Andritsos e Nicoloyannis (2007), Feldman e Sanger (2007) e Aranha (2007). A

seguir é resumida cada uma das quatro etapas conforme mostrada na Figura 14.

Figura 14 – Processo de Mineração de Textos em quatro etapas.

Coleta de Documentos: A primeira fase do processo de MT é a localização dos

documentos que serão utilizados nas fases posteriores. Um dos problemas para coletar esses

documentos é descobrir onde os dados estão armazenados. Existem vários locais onde essas

informações possam ser encontradas como biblioteca em documentos impressos ou mídias

digitais, computador em arquivos armazenados no disco rígido, e de forma geral e abrangente,

na Internet. Esta última é um repositório de uma infinidade de documentos espalhados pela

rede. Para auxiliar na coleta de documentos, existem vários motores de busca (search

engines). Estes motores são sistemas computacionais criados para localizar informação a

partir de palavras-chave e tem como objetivo auxiliar a encontrar uma informação. O mais

conhecido desses motores de busca é o Google. No domínio biomédico encontram-se vários

desses motores que auxiliam os pesquisadores a encontrar um artigo de forma rápida e precisa

como o Entrez (NATIONAL CENTER FOR BIOTECHNOLOGY INFORMATION, 2009a),

Page 39: UNIVERSIDADE FEDERAL DE SÃO CARLOS CENTRO DE CIÊNCIAS ...gbd.dc.ufscar.br/~pablofmatos/files/QualiPabloFreire.pdf · UNIVERSIDADE FEDERAL DE SÃO CARLOS CENTRO DE CIÊNCIAS EXATAS

38

cujo repositório armazena 350 milhões de registros correspondentes a 35 diferentes bases,

incluindo o PubMed e PubMed Central.

Pré-processamento: O principal objetivo da etapa de pré-processamento de textos,

segundo Aranha (2007), é estruturar os dados para serem submetidos a algum algoritmo de

indexação ou Mineração de Dados. Ainda segundo Aranha (2007), pré-processamento

normalmente significa dividir o texto em palavras (toquenizar), aplicar técnicas de stemming,

remover as stop words e classificar as palavras segundo a classe gramatical (técnicas de PLN

discutidas em 2.1.1). Como discutido em 2.1.1, Stavrianou, Andritsos e Nicoloyannis (2007)

aconselham analisar o texto antes de, por exemplo, remover as stop words ou aplicar técnicas

de lematização no texto, pois cada problema tem necessidades diferentes. Portanto, uma

técnica que serve para uma aplicação pode não servir para outra.

Dois trabalhos encontrados na literatura atuam na fase de pré-processamento: Imamura

(2001) e Aranha (2007). O primeiro projeta e constrói um módulo de pré-processamento de

texto em português, o qual faz parte do projeto Discover. O segundo apresenta um novo

modelo de pré-processamento para minerar textos em português, utilizando técnicas de

inteligência computacional. Segundo Carrilho Junior (2007), pré-processar textos é a fase

mais oneroso do processo de MT, uma vez que não existe somente uma técnica que possa ser

aplicada para, por exemplo, extrair informação de proteína no domínio biomédico (algumas

abordagens serão explicadas no capítulo 3).

Extração de Padrões: Após os documentos serem estruturados adequadamente,

técnicas de extração de conhecimento podem ser utilizadas para identificar padrões e

tendências nos dados. Algoritmos de Mineração de Dados são desenvolvidos para encontrar

esses padrões. Segundo Aranha (2007), esses algoritmos são provenientes de diversas áreas de

conhecimento como: aprendizado de máquina, estatística, redes neurais e banco de dados.

Análise e Avaliação dos Resultados: No final do processo utiliza-se de métricas

(discutidas em 2.3.1) para avaliar se o resultado gerado a partir dos passos anteriores está

adequado. Nota-se que essas medidas também servem para validar cada um dos passos

anteriores individualmente: na coleta de documentos pode-se avaliar a qualidade da

recuperação da informação; no pré-processamento, avaliar a qualidade da extração de

informação e ainda medir o quão bem definida está a tarefa de extração realizada por

humanos; e na extração de padrões, avaliar o quão confiável sãos os padrões identificados.

Cada uma dessas etapas é discutida detalhadamente em trabalhos recentes como

Carrilho Junior (2007) e Aranha (2007). Neste trabalho de pesquisa em nível de mestrado é

proposto uma metodologia para extrair informação que atua na fase de pré-processamento em

Page 40: UNIVERSIDADE FEDERAL DE SÃO CARLOS CENTRO DE CIÊNCIAS ...gbd.dc.ufscar.br/~pablofmatos/files/QualiPabloFreire.pdf · UNIVERSIDADE FEDERAL DE SÃO CARLOS CENTRO DE CIÊNCIAS EXATAS

39

textos em inglês. Na seção 2.3.1 são explicadas algumas medidas que serão utilizadas nessa

metodologia (explicada no capítulo 5) para avaliar o resultado da extração de informação.

2.3.1 Métricas de Avaliação

A seguir são explicadas duas métricas de avaliação que se pode utilizar para avaliar e

analisar os resultados gerados a partir da Mineração de Textos: medida de desempenho e

medida de concordância. Em 2.3.1.1 serão apresentadas as medida de desempenho que são

comumente utilizadas para avaliar os sistemas. Em seguida, 2.3.1.2, é apresentada a medida

de concordância que serve para identificar o quão fácil uma determinada tarefa é

realizada pelos seres humanos.

2.3.1.1 Medidas de Desempenho

Precisão e revocação são medidas amplamente utilizadas para avaliar a qualidade dos

resultados em diversas áreas do conhecimento. Precisão é uma medida de fidelidade,

enquanto a revocação (conhecida também como cobertura ou sensibilidade) é uma medida de

completude.

As medidas de precisão e revocação são medidas padrão da Recuperação de

Informação (RI), Cleverdon (1966 apud SILVA, P., 2006). As mesmas são utilizadas para

contribuir com a avaliação de sistemas de RI que tem o objetivo de recuperar documentos

relevantes a partir da consulta de um usuário, porém diversas outras áreas, como Extração de

Informação e Inteligência Artificial (IA) incluindo Aprendizado de Máquina e Processamento

de Língua Natural, utilizam dessas medidas para avaliação.

Em seguida são explicadas a precisão e revocação sob o ponto de vista da RI e IA

além de outras medidas e os conceitos de falso positivo e falso negativo.

2.3.1.1.1 Precisão e Revocação no contexto da Recuperação de Informação

A Figura 15 representa o conjunto de informações de uma coleção de documentos

sobre complicações da Anemia Falciforme, discriminadas em informações relevantes

(esquerda/verde e azul) e informações irrelevantes (direita/vermelho e roxo). O formato oval

(azul/roxo) significa o resultado da consulta sobre informações de complicação. A consulta

ideal e desejável é quando for recuperada toda a parte esquerda da figura (verde e azul), tendo

assim 100% de precisão e revocação (equações das medidas explicadas a seguir).

Page 41: UNIVERSIDADE FEDERAL DE SÃO CARLOS CENTRO DE CIÊNCIAS ...gbd.dc.ufscar.br/~pablofmatos/files/QualiPabloFreire.pdf · UNIVERSIDADE FEDERAL DE SÃO CARLOS CENTRO DE CIÊNCIAS EXATAS

40

Figura 15 – Medidas dependem do resultado da consulta (oval/azul e roxo).

Na área de RI, a precisão é o número de elementos relevantes recuperados dividido

pelo número total de elementos recuperados (Equação (1)) e a revocação é definida como o

número de elementos relevantes recuperados dividido pelo número total de elementos

relevantes existentes (que deveriam ter sido recuperados) (Equação (2)).

(1)

(2)

Na RI uma pontuação perfeita de precisão de significa que cada resultado obtido

por uma pesquisa foi relevante (mas não diz nada sobre se todos os elementos relevantes

foram recuperados), enquanto uma pontuação perfeita de revocação de significa que todos

os elementos relevantes foram recuperados pela pesquisa (mas nada diz sobre quantos

elementos irrelevantes também foram recuperados).

Muitas vezes existe uma relação inversa entre precisão e revocação, onde é possível

aumentar uma ao custo de reduzir a outra. Por exemplo, um sistema de RI pode aumentar a

revocação recuperando mais elementos, ao custo de um número crescente de elementos

irrelevantes recuperados (diminuindo a precisão).

2.3.1.1.2 Precisão e Revocação no contexto da Inteligência Artificial

A matriz de confusão oferece uma medida efetiva do modelo de classificação, ao

mostrar o número de classificações corretas e as classificações preditas para cada classe em

um determinado conjunto de exemplos. Em Monard e Baranauskas (2003) encontra-se

informações de como preencher uma matriz de classes.

A Tabela 3 mostra a matriz de confusão para duas classes (Complicação/Não

Complicação) da Anemia Falciforme. Nesta tabela, P representa o valor positivo que significa

que a palavra-chave extraída é complicação; N representa o valor negativo que significa que

Page 42: UNIVERSIDADE FEDERAL DE SÃO CARLOS CENTRO DE CIÊNCIAS ...gbd.dc.ufscar.br/~pablofmatos/files/QualiPabloFreire.pdf · UNIVERSIDADE FEDERAL DE SÃO CARLOS CENTRO DE CIÊNCIAS EXATAS

41

não é complicação; p (Extração de Complicação) e n (Extração de Não Complicação) são,

respectivamente, os valores positivo e negativo da extração automática.

Verdadeiro Positivo (VP) significa que uma quantidade X de complicações

relacionadas à Anemia Falciforme extraídas do documento é 100% complicação e foi extraída

corretamente. Já Verdadeiro Negativo (VN) é o oposto, 100% não é complicação e não foi

extraída. Falso Positivo (FP) não é complicação, mas foi erroneamente extraída do documento

e Falso Negativo (FN) é complicação, mas não foi precisamente extraída.

Tabela 3 – Matriz de confusão de duas classes (Complicação/Não Complicação).

Condição Atual

(Avaliação Especialista)

Resultado da Extração

Automática

Complicação

(P)

Não Complicação

(N)

Extração

de Complicação (p) VP (Verdadeiro Positivo)

FP (não complicação, mas é

extraída)

Extração de

não Complicação (n)

FN (complicação, mas não é

extraída) VN (Verdadeiro Negativo)

Incontestavelmente, o resultado que é mais interessante é VP que representa a

quantidade de complicações extraídas. Com base nesse resultado é possível saber qual é a

precisão e a revocação. A primeira medida calcula a percentagem de acerto a partir das

complicações e não complicações que foram extraídas, Equação (3). A segunda calcula a

percentagem das complicações que foram extraídas em relação ao total das complicações,

Equação (4).

Precisão: Taxa com que todos os exemplos classificados como positivos são

realmente positivos. Nenhum exemplo negativo é incluído.

(3)

Revocação: Taxa com que classifica como positivos todos os exemplos que são

positivos. Nenhum exemplo positivo é deixado de fora. Apresenta uma indicação

do quanto do total de informação relevante foi recuperada.

(4)

A partir da matriz de confusão ilustrada na Tabela 3 é possível extrair outras medidas

que possam avaliar o desempenho das complicações extraídas, ou seja, avaliando o quão

verdadeira são as informações extraídas. Em seguida são discutidas algumas dessas medidas.

Page 43: UNIVERSIDADE FEDERAL DE SÃO CARLOS CENTRO DE CIÊNCIAS ...gbd.dc.ufscar.br/~pablofmatos/files/QualiPabloFreire.pdf · UNIVERSIDADE FEDERAL DE SÃO CARLOS CENTRO DE CIÊNCIAS EXATAS

42

2.3.1.1.3 Outras Medidas de Desempenho

Nas Equações (5), (6) e (7) a seguir considera-se e .

- ( - ): Média harmônica ponderada da precisão e revocação,

Equação (5). mede a eficácia da recuperação em relação ao valor atribuído a

Beta (β). Pesos comumente utilizados para β são: (revocação é o dobro da

precisão) e (precisão é o dobro de revocação). A precisão tem peso maior para

valores , enquanto que favorece a revocação.

(5)

A - foi derivada por van Rijsbergen (1979) baseada na medida de eficiência

(effectiveness), Equação (6), do mesmo autor.

(6)

A relação entre a - e a medida de eficiência é: . Quando a

precisão e revocação têm o mesmo peso (β = 1) a medida é - , também conhecida

como - tradicional ou - balanceada, Equação (7).

(7)

Acurácia: Mais frequentemente utilizada para avaliação de problemas de

classificação de aprendizado de máquina. Há uma boa razão para que esta medida

não seja adequada para problemas de RI: em quase todas as circunstâncias, os

dados são extremamente desproporcionais e normalmente mais de 99,9% das

informações são irrelevantes. Portanto, um sistema cujo objetivo é maximizar a

acurácia pode aparentemente ter uma boa avaliação, pois considera todas as

informações irrelevantes (MANNING; RAGHAVAN; SCHÜTZE, 2008).

(8)

Especificidade: Taxa com que uma instância verdadeiramente negativa é

classificada como negativa.

(9)

Page 44: UNIVERSIDADE FEDERAL DE SÃO CARLOS CENTRO DE CIÊNCIAS ...gbd.dc.ufscar.br/~pablofmatos/files/QualiPabloFreire.pdf · UNIVERSIDADE FEDERAL DE SÃO CARLOS CENTRO DE CIÊNCIAS EXATAS

43

Segundo Krauthammer e Nenadic (2004), normalmente o desempenho de sistemas de

reconhecimento automático de termo (discutido no capítulo 3) é avaliado em termos de

precisão e revocação; o desempenho global é medido pela - .

2.3.1.2 Medida de Concordância

O coeficiente é uma medida de concordância estatística formulada por Jacob

Cohen (1960). Adequada para tarefas de classificação realizada por vários anotadores/juízes.

Os anotadores – podem ser humanos ou não (algoritmos de classificação é um exemplo de

anotador que não seja humano (FIOL; HAUG, 2009)) – têm a função de definir a que classe

os exemplos pertencem, que por sua vez são utilizados como material de treinamento para

aprendizado supervisionado (CARLETTA, 1996). Introdução sobre aprendizado de máquina é

apresentada em 2.1.2 e em 3.2.2.

O resultado obtido com a medida define um limiar de concordância entre

anotadores seja em tarefas de classificação ou de extração de informação. Esse resultado

depende do número de anotadores, número de classes e número de exemplos a serem

classificados. O limiar de concordância pode ajudar de três formas:

Avaliar o desempenho do sistema comparando o limiar em percentual com os

percentuais obtidos com as medidas como precisão/revocação;

Contribuir em avaliar se o conjunto de treinamento é um material válido,

sendo, às vezes, necessário mais treinamento para aumentar a concordância;

Descartar exemplos controversos. Exemplos que não sejam fáceis dos

anotadores concordarem podem contribuir com o aumento do resultado das

medidas de desempenho utilizadas.

Na Equação (10) é mostrada o coeficiente da medida ou simplesmente

índice , onde é a proporção de vezes que os anotadores concordam, Equação

(11), e é a proporção de vezes que é esperado dos anotadores concordarem ao acaso ou

aleatoriamente.

(10)

(11)

Suponha que dois anotadores são incumbidos de classificar 10 sentenças em duas

classes (complicação e sintoma). O resultado da classificação é mostrado na Tabela 4 e

resumido na matriz de confusão na Tabela 5.

Page 45: UNIVERSIDADE FEDERAL DE SÃO CARLOS CENTRO DE CIÊNCIAS ...gbd.dc.ufscar.br/~pablofmatos/files/QualiPabloFreire.pdf · UNIVERSIDADE FEDERAL DE SÃO CARLOS CENTRO DE CIÊNCIAS EXATAS

44

Tabela 4 – Exemplo de anotação de dez sentenças.

Sentença 1 2 3 4 5 6 7 8 9 10

Anotador 1 C S C C C S S C S C

Anotador 2 C S C C S S C C S C

Legenda: C = Complicação, S = Sintoma

Tabela 5 – Exemplo de matriz de confusão 2 x 2.

Anotador 1

Complicação Sintoma Total A

nota

dor

2

Complicação 5 1 6

Sintoma 1 3 4

Total 6 4 10

A proporção observada que os anotadores concordaram é: = Os

valores para a distribuição marginal são: e

. A probabilidade dos dois anotadores concordarem por acaso é: =

. A medida , calculada pela Equação (10), é:

, ou seja, na tarefa de classificar 10 sentenças em duas classes os

humanos, representado por dois anotadores, concordam em das vezes.

O exemplo calculado no parágrafo anterior é para duas classes. Para mais de duas

classes considera a matriz de confusão genérica na Tabela 6, onde a matriz de confusão ideal

é quando somente a diagonal principal for preenchida e os outros elementos tenham valor

zero, ou seja, não obteve nenhuma classificação errada. é calculado pela exatidão total

e é calculado pela exatidão total ao acaso, .

Tabela 6 – Matriz de confusão genérica.

Anotador 1

1 2 Total

Anota

dor

2 1

2

Total

Considere o exemplo a seguir mostrado na Tabela 7 para três classes quaisquer

classificadas por dois anotadores.

Page 46: UNIVERSIDADE FEDERAL DE SÃO CARLOS CENTRO DE CIÊNCIAS ...gbd.dc.ufscar.br/~pablofmatos/files/QualiPabloFreire.pdf · UNIVERSIDADE FEDERAL DE SÃO CARLOS CENTRO DE CIÊNCIAS EXATAS

45

Tabela 7 – Exemplo de matriz de confusão 3 x 3.

Anotador 1

1 2 3 Total

Anota

dor

2 1 25 2 5 32

2 3 26 5 34

3 1 3 30 34

Total 29 31 40 100

O valor de é e de é . Usando a

Equação (10) o índice é , ou seja, nesta tarefa os humanos

concordam em das vezes.

Segundo Manning, Raghavan e Schütze (2008), há outras duas maneiras de calcular a

medida que depende se a combinação da distribuição marginal considera todos os

anotadores ou cada anotador separadamente. O valor da medida varia de , onde

significa concordância completa, concordância aleatória e discordância

máxima.

Em geral a medida acima de é considerada como um bom acordo, entre

e é tido como justo acordo e abaixo de é considerado como duvidosa para

avaliação, embora a interpretação dos resultados da medida dependa dos fins para os quais os

dados serão utilizados (MANNING; RAGHAVAN; SCHÜTZE, 2008). Landis e Koch (1977

apud ASSAF et al., 2006) propuseram uma escala de seis níveis para interpretar os valores de

como mostrado na Tabela 8.

Tabela 8 – Escala de seis níveis de concordância.

Concordância Escala

Ruim Abaixo de

Leve a

Sofrível a

Moderada a

Boa a

Quase perfeita Acima de

2.4 Considerações Finais

Neste capítulo foram discutidas algumas áreas de conhecimento (seção 2.1) que

contribuem para minerar textos: PLN fornece algumas técnicas (POS, shallow parser e deep

parser) que podem ser usadas para processar textos; AM supervisionado classifica novos

exemplos a partir do treinamento de expressivos exemplos; EI extrai informações relevantes

Page 47: UNIVERSIDADE FEDERAL DE SÃO CARLOS CENTRO DE CIÊNCIAS ...gbd.dc.ufscar.br/~pablofmatos/files/QualiPabloFreire.pdf · UNIVERSIDADE FEDERAL DE SÃO CARLOS CENTRO DE CIÊNCIAS EXATAS

46

em dados não-estruturados; RI contribui parcialmente com a extração, restringindo a

quantidade de documentos a serem processados pela EI; e MD identifica padrões a partir de

dados estruturados armazenados em um banco de dados.

A MD é uma área de descoberta de conhecimento que fornece algoritmos para extrair

padrões interessantes que são difíceis de serem examinados manualmente. Pode atuar na

descoberta de padrões identificando relacionamentos e tendências em dados estruturados.

Também foi destacada a diferença entre EI e RI, e entre MD e MT.

Foram apresentadas várias tarefas de descoberta de conhecimento em textos (seção

2.2) dentre as quais: perguntas e respostas, encontra resposta para uma pergunta realizada pelo

usuário; sumarização, identifica as informações importantes de um texto e apresenta de forma

sucinta e coerente; categorização, classifica um documento em categorias predefinidas;

agrupamento, agrupa um documento em grupos que são definidos a partir da análise dos

dados, diferentemente da categorização onde as categorias são conhecidas; e geração de

hipótese, área introduzida por Don R. Swanson cujo objetivo é encontrar relacionamentos

inesperados que podem gerar hipóteses a partir do modelo de descoberta .

Por fim, foi apresentado um processo de Mineração de Textos (seção 2.3) em quatro

etapas (coleta de documentos, pré-processamento, extração de padrões, e análise e avaliação

dos resultados), no qual foi sintetizado com base em algumas propostas encontradas na

literatura. Também foram discutidas métricas que podem ser utilizadas para avaliar o

resultado das etapas do processo de MT.

No próximo capítulo será discutido sobre Extração Automática, mais especificamente

Reconhecimento Automático de Termo, que reconhece e extrai unidades léxicas de

documentos, as quais correspondem a conceitos de domínio.

Page 48: UNIVERSIDADE FEDERAL DE SÃO CARLOS CENTRO DE CIÊNCIAS ...gbd.dc.ufscar.br/~pablofmatos/files/QualiPabloFreire.pdf · UNIVERSIDADE FEDERAL DE SÃO CARLOS CENTRO DE CIÊNCIAS EXATAS

47

3 EXTRAÇÃO AUTOMÁTICA

Reconhecimento de Entidade Nomeada (NER) (explicado em 2.1.3) refere-se à tarefa

de reconhecimento de entidades como nome de pessoas e empresas. No domínio biomédico as

entidades são genes, proteínas, doenças. Segundo Park e Kim (2006), NER é diferente de

Reconhecimento Automático de Termo (ATR). O primeiro classifica tipos conhecidos de

entidades do mundo real. O segundo associa um dado termo com um conceito em um

framework semântico bem-definido. Em geral, sistemas de extração de informação que

utilizam NER são mais complicados do que ATR.

As duas áreas de pesquisa se misturam. Segundo Sekine (2004), há um relacionamento

entre a pesquisa de terminologia e entidade nomeada; na área biomédica, por exemplo, os

nomes de proteínas e genes são certamente termos. Para extrair esses termos são utilizadas

algumas técnicas herdadas de NER; Segundo Park e Kim (2006), sistema de reconhecimento

de termo pode utilizar um módulo de NER para reconhecer entidades nomeadas no texto. Para

ratificar a mistura desses conceitos, tanto NER (PARK; KIM, 2006) quanto ATR

(ANANIADOU; NENADIC, 2006) utilizam das mesmas abordagens (baseada em regras,

dicionário e aprendizado de máquina) para extração de informação.

Neste trabalho é considerada a Reconhecimento Automático de Termo (seção 3.1) que

utiliza abordagens para extração de informação baseada em aprendizado de máquina, regras e

dicionário (seção 3.2).

3.1 Reconhecimento Automático de Termo

A terminologia representa na literatura biomédica um dos principais desafios para a

Mineração de Textos. Dada a quantidade de neologismos na terminologia biomédica, é

necessário fornecer ferramentas que extraiam automaticamente novos termos e associá-los

com bancos de dados biomédicos, vocabulários controlados e ontologias. Processamento

terminológico abrange aspectos como a extração, variação de termo, classificação e

mapeamento (ANANIADOU; MCNAUGHT, 2006).

Segundo Ananiadou, Friedman e Tsujii (2004), os termos textuais encontrados na

literatura biomédica – como nomes de genes, proteínas, organismos, drogas, produtos

Page 49: UNIVERSIDADE FEDERAL DE SÃO CARLOS CENTRO DE CIÊNCIAS ...gbd.dc.ufscar.br/~pablofmatos/files/QualiPabloFreire.pdf · UNIVERSIDADE FEDERAL DE SÃO CARLOS CENTRO DE CIÊNCIAS EXATAS

48

químicos, etc. – representam conceitos de domínio utilizados pela comunidade científica e

seria impossível compreender ou extrair informações de um artigo sem a identificação e

associação precisa desses termos. Neste contexto, na Tabela 9 é apresentado um exemplo de

termos sobre complicações (em negrito) relacionados à doença Anemia Falciforme.

Tabela 9 – Exemplo de sentença com termos sobre complicações (em negrito) da AF.

Fonte: Montalembert et al. (2006).

Treatment was also withdrawn in 5 of 6 children who had developed hypersplenism, in 3 because of

a pathological transcranial Doppler, and in 2 after a stroke

Para ajudar na identificação e extração desses termos utiliza-se o Reconhecimento

Automático de Termo (ATR) que pode ser dividido em três passos (Figura 16):

Reconhecimento de Termo, diferencia os termos dos não-termos; Classificação de Termo,

classifica os termos reconhecidos em classes do domínio; e Mapeamento de Termo, associa

automaticamente termos com novos conceitos representados por uma ontologia.

Figura 16 – Passos para identificação de termo no texto.

Fonte: Krauthammer e Nenadic (2004).

Alguns dos passos podem ser realizados conjuntamente, por exemplo, reconhecimento

e classificação de termos que, respectivamente, podem identificar os termos e associá-los as

classes predefinidas do domínio biomédico (e.g., genes, proteínas ou doenças). Segundo

Krauthammer e Nenadic (2004), a separação ou não das fases com o objetivo de melhorar a

identificação de termo ainda é uma questão aberta. Obviamente, se separadas, diferentes

soluções para identificar termos podem ser utilizadas em problemas específicos.

Variações léxicas, sinônimos (conceito representado com vários termos) e termos

homônimos (termos com vários significados) são obstáculos que impedem que alguns termos

sejam identificados no texto. Identificar precisamente os termos é difícil devido às mudanças

constantes seja por um termo que aparece por um pequeno período ou outros que

frequentemente aparecem, mas deixou de aparecer. O problema é a falta de padronização dos

nomes. Existem alguns guias para criação de novos tipos de entidades biomédicas, todavia as

orientações não são seguidas. Portanto, esses nomes sem padrão são um gargalo para sistemas

de identificação automática (KRAUTHAMMER; NENADIC, 2004).

A importância da terminologia desencadeou pesquisa significativa na área biomédica

que resultou em várias abordagens utilizadas para selecionar, classificar e identificar

ocorrências de termos em textos biomédicos (ANANIADOU; MCNAUGHT, 2006). Neste

Page 50: UNIVERSIDADE FEDERAL DE SÃO CARLOS CENTRO DE CIÊNCIAS ...gbd.dc.ufscar.br/~pablofmatos/files/QualiPabloFreire.pdf · UNIVERSIDADE FEDERAL DE SÃO CARLOS CENTRO DE CIÊNCIAS EXATAS

49

trabalho de pesquisa em nível de mestrado, concentra-se em reconhecer e classificar os

termos, utilizando para isso a combinação de três abordagens utilizadas para extração de

informação.

3.2 Abordagens para Extração de Informação

Kevin Cohen e Hunter (2008) apresentam duas abordagens para extração de

informação: Abordagem baseada em regras e baseada em aprendizado de máquina. A

primeira faz o uso de algum tipo de conhecimento; a segunda utiliza-se classificadores para

classificar sentenças ou documentos. Krauthammer e Nenadic (2004) e Ananiadou e Nenadic

(2006) apresentam uma terceira abordagem, além dessas duas anteriores: abordagem baseada

em dicionário que utiliza informações de um dicionário para auxiliar na identificação dos

termos ou das entidades no texto. Essas abordagens são as três predominantes para extração

de conhecimento no domínio biomédico.

Cada uma dessas abordagens tem vantagens e desvantagens. Frequentemente gasta-se

tempo significativo para desenvolver um sistema baseado em regras as quais são dependentes

de domínio. Enquanto que um sistema baseado em aprendizado de máquina tipicamente exige

uma grande quantidade de dados para treinamento. Costuma-se utilizar uma combinação das

duas abordagens: geralmente classifica os documentos e em seguida, utilizam-se regras para

extrair padrões (COHEN, K; HUNTER, 2008).

Ainda segundo Kevin Cohen e Hunter (2008), antes de desenvolver um sistema de

mineração de textos é importante seguir alguns passos:

1. Definir o comportamento desejado do sistema: algumas questões podem ser

consideradas, por exemplo: A saída do sistema será utilizada por um

especialista ou será entrada de outro sistema? O processamento será efetuado

em resumos ou artigos completos? É necessário mostrar as informações

encontradas no texto ou devem ser armazenadas em um banco de dados?

2. Outro importante passo tem a ver com o tempo: é necessário examinar

manualmente um grande conjunto de entradas. Algumas horas gastas com a

seleção manual de informações de artigos relacionada ao domínio podem evitar

surpresas desagradáveis no futuro.

3. Também é desejável a consideração de como será avaliado o sistema.

Especificando esses requisitos com antecedência pode evitar problemas no processo de

desenvolvimento. Em seguida serão apresentadas essas três abordagens na seguinte ordem:

Page 51: UNIVERSIDADE FEDERAL DE SÃO CARLOS CENTRO DE CIÊNCIAS ...gbd.dc.ufscar.br/~pablofmatos/files/QualiPabloFreire.pdf · UNIVERSIDADE FEDERAL DE SÃO CARLOS CENTRO DE CIÊNCIAS EXATAS

50

abordagem baseada em dicionário (3.2.1), abordagem baseada em regras (3.2.2) e abordagem

baseada em aprendizado de máquina (3.2.3).

3.2.1 Abordagem para Extração Baseada em Dicionário

Abordagem baseada em dicionário utiliza uma lista de termos para identificar

ocorrências no texto. Casamento de padrão geralmente é utilizado entre as entradas contidas

no dicionário e as palavras encontradas nas sentenças. Nadeau e Sekine (2007) apresentam

algumas técnicas utilizadas para reconhecimento de entidade nomeada como e

lematização (apresentadas em 2.1.1), distância de edição (TSURUOKA; TSUJII, 2003 apud

NADEAU; SEKINE, 2007) e algoritmo de Soundex (RAGHAVAN; ALLAN, 2004 apud

NADEAU; SEKINE, 2007).

Banco de dados biológico armazena informações de aspectos da biologia como genes,

estrutura de proteína, informações sobre reações químicas, doenças e organismos

(REBHOLZ-SCHUHMANN; KIRSCH; COUTO, 2005). Ainda segundo Rebholz-

Schuhmann, Kirsch e Couto (2005), alguns recursos terminológicos podem ajudar a relacionar

essas informações biológicas, que são citadas em publicações científicas, com informações

armazenadas em um banco de dados. Exemplos desses recursos são: Gene Ontology (GO) e

Unified Medical Language System (UMLS).

Ao contrário dos nomes de pessoas e locais no domínio geral, nomes de proteína e

gene têm sido gerenciados através de banco de dados por grandes organizações como o NCBI

e o European Bioinformatics Institute (http://www.ebi.ac.uk/) (PARK; KIM, 2006). Exemplos

desses bancos de dados são: LocusLink, informação de gene

(http://www.ncbi.nlm.nih.gov/sites/entrez?db=gene); SWISS-PROT, sequência de proteína

(http://www.expasy.org/sprot/); FlyBase, informação de gene, especificamente da Drosófila

que é uma espécie de pequenas moscas (http://flybase.org/); e GenBank, sequência de

nucleotídeo e aminoácido (http://www.ncbi.nlm.nih.gov/Genbank/).

A seguir são apresentados alguns trabalhos que utilizam a abordagem baseada em

dicionário que, por sua vez, é povoado com informações de algum banco de dados citado

anteriormente. São descritos trabalhos que extraem informações sobre gene, interações de

proteína-proteína e proteína. Algumas técnicas são utilizadas para aumentar a probabilidade

das palavras do dicionário ser identificada no texto, como: stemming (ONO et al., 2001) e

lematização (SCHUEMIE et al., 2007) para padronizar, respectivamente, palavras pelo radical

e pela forma básica sem número e gênero; stop words (KOU; COHEN; MURPHY, 2005)

Page 52: UNIVERSIDADE FEDERAL DE SÃO CARLOS CENTRO DE CIÊNCIAS ...gbd.dc.ufscar.br/~pablofmatos/files/QualiPabloFreire.pdf · UNIVERSIDADE FEDERAL DE SÃO CARLOS CENTRO DE CIÊNCIAS EXATAS

51

para diminuir os falsos positivos; e aproximação de string (KRAUTHAMMER et al., 2000;

TSURUOKA; TSUJII, 2004) que calcula a similaridade entre palavras.

3.2.1.1 Trabalhos com Dicionário

As principais informações dos trabalhos que serão apresentados a seguir são resumidas

na Tabela 10. Destacam-se as técnicas utilizadas para extrair informação e se foi utilizado um

etiquetador - - (POS), qual o dicionário utilizado, o domínio de atuação da

extração, e por fim, quais os valores de precisão e revocação obtidos.

Tabela 10 – Resumo dos trabalhos com dicionário.

Autor Técnicas POS Dicionário Domínio Precisão Revocação

Krauthammer

et al. (2000)

Aproximação

(BLAST) Não GenBank¹

Proteína e

Gene

Ono et al.

(2001)

Etiquetador de Brill

e stemming Sim

Construção

manual

Interações

proteína-

proteína

Tsuruoka et al.

(2004)

Aproximação

(distância de

edição) e expansão

com UMLS

Não UMLS² Proteína

Egorov et al.

(2004)

Toquenização e

abreviação Não

LocusLink e

outras bases¹

Proteína

(mamífero)

Kou et al.

(2005)

HMM, Etiquetador

de Brill e stop

words

Sim PIR-NREF¹ Proteína

Schuemie et al.

(2007) Várias regras Não

Vários

bancos de

dados

Proteína e

Gene ------- -------

¹ Banco de dados utilizado para construir o dicionário.

² Recurso terminológico utilizado para obter termos biomédicos.

Krauthammer et al. (2000) combinam nomes de proteína e gene contidos em um

dicionário com o BLAST (ferramenta de comparação de sequência de proteína e DNA). Os

nomes são convertidos em uma sequência de nucleotídeo (formato de entrada do BLAST),

substituindo cada caractere do nome com uma combinação de nucleotídeo única (exemplo na

Tabela 11). Esses nomes são extraídos do banco de dados GenBank. Dos nomes que não

foram incluídos no banco de dados foram identificados. Precisão e revocação obtidas

foram, respectivamente, de e .

Tabela 11 – Exemplo de tradução para o formato do BLAST.

Fonte: Adaptado de Krauthammer et al. (2000).

Tabela de conversão A AAAC G AAGC P ACCC Z AGAT 1 AGCG

Exemplo zgap1 AGATAAGCAAACACCCAGCG

Page 53: UNIVERSIDADE FEDERAL DE SÃO CARLOS CENTRO DE CIÊNCIAS ...gbd.dc.ufscar.br/~pablofmatos/files/QualiPabloFreire.pdf · UNIVERSIDADE FEDERAL DE SÃO CARLOS CENTRO DE CIÊNCIAS EXATAS

52

Ono et al. (2001) propõem um método para extrair informação de interações de

proteína-proteína de resumos do MEDLINE utilizando um dicionário que contém nomes de

proteína (somente proteína de levedura e Escherichia coli), padrões de palavra e simples

regras de POS (etiquetador de Brill). O método de extração automática identifica nomes de

proteína na sentença, usando um dicionário construído manualmente. Em seguida, a sentença

é processada com regras de POS e então, são extraídas interações de proteína-proteína

utilizando casamento de padrão. O dicionário construído contém 6.084 moléculas e 16.722

sinônimos (para a proteína de levedura) e 4.405 dados (para a proteína E.coli). A média da

precisão e revocação alcançada para ambas as proteínas é, respectivamente, de e .

Outro método baseado em dicionário é proposto por Tsuruoka e Tsujii (2004) que tem

como objetivo reconhecer nome de proteína. Pode ser dividido em duas fases: na primeira

fase foram identificados os textos candidatos usando um dicionário; na segunda, esses textos

candidatos foram filtrados através do algoritmo de aprendizado de máquina Naive Bayes,

obtendo uma melhora da - de e aumentando a precisão com uma pequena

perda de revocação. Para atenuar o problema de baixa revocação causado pelas variações da

ortografia foram utilizadas duas técnicas: a primeira usa um algoritmo de procura de string

por aproximação (distância de edição) ao invés de procura de string por exatidão; a segunda

expande o dicionário utilizando o UMLS (http://www.nlm.nih.gov/research/umls/) com a

geração de variações de palavras. Com o uso dessas técnicas obteve uma melhora de . A

precisão e revocação obtidas foram, respectivamente, e .

ProtScan é um sistema desenvolvido por Egorov, Yuryev e Daraselia (2004). Utiliza

uma abordagem baseada em dicionário para identificação de nomes de proteínas da classe

mamífero em resumos do MEDLINE. São construídos dois dicionários: um serve para

identificar os nomes nas sentenças; o outro serve para eliminar os falsos positivos e evitar

desambiguação. Os dicionários foram gerados do banco de dados LocusLink e de outras

bases. Técnicas como algoritmo de toquenização e de abreviação são utilizadas. Obteve uma

precisão de e revocação de .

Kou, William Cohen e Murphy (2005) propõem um novo método de aprendizado

denominado Dict-HMMs em que um dicionário é convertido para um modelo escondido de

Markov (HMM) que reconhece frases do dicionário, assim como as variações destas frases.

Dict-HMMs extrai somente nomes de proteína que tem uma alta similaridade com os nomes

no dicionário. O método proposto foi testado com três bancos de dados: a média da precisão e

revocação com esses bancos foi, respectivamente, e . O Dict-HMMs obteve

melhor revocação em comparação com alguns sistemas anteriores, os quais obtiveram uma

Page 54: UNIVERSIDADE FEDERAL DE SÃO CARLOS CENTRO DE CIÊNCIAS ...gbd.dc.ufscar.br/~pablofmatos/files/QualiPabloFreire.pdf · UNIVERSIDADE FEDERAL DE SÃO CARLOS CENTRO DE CIÊNCIAS EXATAS

53

melhor precisão. Assim, o diferencial deste sistema é a revocação. A vantagem é que o

modelo pode ser treinado com uma pequena quantidade de treinamento (utiliza-se o

etiquetador POS de Brill). Essa pequena quantidade é selecionada dos nomes de proteínas

mais relevantes contidos no dicionário. O dicionário utilizado é o PIR-NREF

(http://pir.georgetown.edu/) que contém aproximadamente 500.000 nomes de proteína.

Schuemie et al. (2007) avaliam algumas técnicas para aumentar a revocação na

identificação de nome de gene e proteína, utilizando a combinação de um dicionário

(construído a partir de informações armazenadas em vários bancos de dados) com regras para

gerar variações de ortografia. Uma lista de regras é utilizada de trabalhos anteriores.

Schuemie et al. (2007), além de utilizar várias regras geradas por trabalhos anteriores,

acrescentam algumas, por exemplo: se os termos contêm letras e números, então desconsidera

a diferença de maiúscula e minúscula. Testes foram realizados com todas as regras

(aumentando consideravelmente a revocação e diminuindo a precisão) e com algumas regras

(diminuiu um pouco a revocação, mas aumentou a precisão). Apesar de várias regras serem

utilizadas, muitas não influenciaram a revocação e algumas influenciaram negativamente a

precisão. Em suma, a combinação dos bancos de dados aumentou significantemente a

revocação em comparação com somente um banco de dados. A precisão e a revocação foram

avaliadas em três diferentes conjuntos de dados e com quatro tipos de organismos. Como o

resultado em cada conjunto é discrepante, não é possível obter uma média realista dessas

medidas.

3.2.2 Abordagem para Extração Baseada em Regras

A seguir alguns exemplos de padrões extraídos a partir de regras:

Identifica sentenças (ou grupos de sentenças) que contenham variações da

palavra "interact", tendo no meio da sentença nome de um gene “genexx” e

que contenha variações da palavra "bind" como mostrado a seguir (GHANEM

et al., 2002).

Encontra relacionamento entre gene e doença com os padrões mostrados a

seguir. Para identificação desses relacionamentos pode-se utilizar análise

linguística e semântica (COHEN, K.; HUNTER, 2008).

Page 55: UNIVERSIDADE FEDERAL DE SÃO CARLOS CENTRO DE CIÊNCIAS ...gbd.dc.ufscar.br/~pablofmatos/files/QualiPabloFreire.pdf · UNIVERSIDADE FEDERAL DE SÃO CARLOS CENTRO DE CIÊNCIAS EXATAS

54

Em seguida serão apresentados alguns trabalhos que utilizam regras para extrair

informação no domínio biomédico.

3.2.2.1 Trabalhos com Regras

Serão apresentados três trabalhos de diferentes anos que utilizam essencialmente

regras para extrair informação de resumos do MEDLINE, com ou sem o auxílio de um

dicionário. Na extração de informação a técnica de Processamento de Língua Natural -

- (POS) pode ser utilizada. Os níveis de extração podem variar de nomes simples ou

compostos, ou frase. A quantidade de resumos do MEDLINE utilizado para avaliar a extração

de informação também é mostrada. As principais informações são resumidas na Tabela 12.

Tabela 12 – Trabalhos com regras.

Autor POS Níveis de

Extração Dicionário

Resumos

do

MEDLINE

Sistema Domínio -

Fukuda et

al. (1998) Não

Nome

simples e

composto

Não 30 KeX Proteína

Franzén et

al. (2002) Não

Nome

simples e

composto

Sim 200 YaPex Proteína

KeX =

Yapes =

Hu et al.

(2005) Sim Frase Não 300

RLIMS-

P

Fosforilação

de Proteína

PROPER (PROtein Proper-noun phrase Extracting Rules), introduzido por Fukuda et

al. (1998), é um método baseado em regras e um dos primeiros sistemas que extrai nomes de

proteína em publicações biológicas. As regras são geradas manualmente para extrair termos

simples e compostos sem utilizar dicionário. Obteve uma - de em 30

resumos do MEDLINE sobre a proteína SH3. As regras codificadas manualmente com base

em observação do conjunto de dados contribuíram para o alto desempenho do método. A

partir do método PROPER, foi desenvolvido o sistema de extração de informação KeX

(http://www.hgc.jp/service/tooldoc/KeX/intro.html).

Franzén et al. (2002) desenvolveram o sistema YaPex para identificação automática de

nomes de proteína em 200 resumos do MEDLINE que utiliza regras desenvolvidas

manualmente. O YaPex (http://www.sics.se/humle/projects/prothalt/) consiste de duas

análises: léxica e sintática. Na primeira são selecionadas, por exemplo, as palavras com

sufixos (e.g., -ase e -in) e que contenham letras maiúsculas ou números (e.g., HsMad2, U3-

55k). Na segunda utiliza-se o analisador gramatical ENFDB para identificar nomes simples ou

compostos.

Page 56: UNIVERSIDADE FEDERAL DE SÃO CARLOS CENTRO DE CIÊNCIAS ...gbd.dc.ufscar.br/~pablofmatos/files/QualiPabloFreire.pdf · UNIVERSIDADE FEDERAL DE SÃO CARLOS CENTRO DE CIÊNCIAS EXATAS

55

Os nomes de proteínas identificados são armazenados em um dicionário para ajudar

na seleção de novos termos que não foram identificados pelo ENFDG. Para isso, utilizam-se

as variações desses nomes para encontrar palavras similares no texto. O banco de dados

SWISS-PROT auxilia na identificação dos termos principais. Algumas heurísticas de Fukuda

et al. (1998) são utilizadas na análise léxica. Expressões regulares são aplicadas para reduzir a

baixa precisão, por exemplo: padrões de sufixos de palavras (nomes de substâncias químicas)

ou palavras/expressões de fórmulas químicas, expressões aritméticas e sequência de

aminoácido.

O YaPex identificou mais nomes de proteínas do que o KeX. Franzén et al. (2002)

avaliaram que o analisador sintático ENFDG contribuiu nessa identificação, selecionando

adequadamente nomes simples e compostos. Seis diferentes análises foram realizadas para

avaliar os sistemas. A maior diferença de - entre os dois sistemas foi no limite

(nome que encontra-se do lado direito de uma sentença), respectivamente, de e

.

Outro sistema baseado em regras é o RLIMS-P (Rule-based LIterature Mining System

for Protein Phosphorylation), cujo objetivo é extrair informação de fosforilação de proteína

de resumos do MEDLINE (HU et al., 2005). Foi desenvolvido com base no algoritmo de

Ravikumar (2004 apud HU et al., 2005). Padrões foram criados depois de examinar diferentes

formas usadas para descrever interações de fosforilação em 300 resumos do MEDLINE e 10

artigos.

Dois tipos de tarefas foram implementadas no sistema RLIMS-P: citation mapping

(mapeamento de citação) e evidence tagging. A primeira tem a função de recuperar

informação de artigos do MEDLINE relacionados à fosforilação (obteve precisão e

revocação, respectivamente, de e ). A segunda tem o objetivo de extrair

informação sobre fosforilação dos artigos anotados (obteve precisão e revocação,

respectivamente, de e . - é de ).

O sistema RLIMS-P utiliza shallow parsing e extrai informação do texto utilizando

casamento de padrões desenvolvidos manualmente. No pré-processamento o texto é dividido

em sentenças e toquenizado por palavras e pontuação. Cada palavra é associada às etiquetas

POS, como advérbio, verbos, adjetivos, etc. Utiliza reconhecimento de entidade nomeada para

detectar acrônimo e termo descrito em Narayanaswamy, Ravikumar e Vijay-Shanker (2003

apud HU et al., 2005).

As sentenças podem ser casadas com um simples padrão “ phosphorylate

at ”, onde representa uma enzima (quinase catalisadora de

Page 57: UNIVERSIDADE FEDERAL DE SÃO CARLOS CENTRO DE CIÊNCIAS ...gbd.dc.ufscar.br/~pablofmatos/files/QualiPabloFreire.pdf · UNIVERSIDADE FEDERAL DE SÃO CARLOS CENTRO DE CIÊNCIAS EXATAS

56

fosforilação), significa um substrato (proteína sendo fosforilada) e P-Site

(resíduo de aminoácido sendo fosforilado). Este passo é para detectar sentenças com estrutura

sintática de acordo com o padrão estabelecido, por exemplo: “Active p90Rsk2 was found to be

able to phosphorylate histone H3 at Ser10”. São usados alguns padrões de etiquetas POS para

identificar grupos de verbos e frases com substantivos.

Classificação semântica é utilizada para melhorar a precisão da extração de frases com

substantivo. A classificação utiliza sufixos, frases e palavras informativas (e.g., “mitogen

activated protein kinase” é classificada como uma proteína por causa da palavra-chave

“kinase”). Outras regras e heurísticas são desenvolvidas com base na detecção de apositivo,

conjunção e pares (sentença e acrônimo) (e.g., o par “mitogen activated protein kinase” e

“MAPK”), detalhadas em Narayanaswamy, Ravikumar e Vijay-Shanker (2003 apud HU et

al., 2005).

Por fim, padrões baseado em regras são identificados na forma verbal (padrões com

diferentes formas: “‘phosphorylate/phosphorylated/phosphorylating/phosphorylates”) e

nominal (seleciona a palavra mais frequentemente encontrada: “phosphorylation”).

3.2.3 Abordagem para Extração Baseada em Aprendizado de Máquina

Como explicado em 1.1.2, os dados iniciais da doença Anemia Falciforme foram

definidos em cinco classes identificados como importantes para serem utilizados na extração

de informação: paciente, sintoma, fator de risco, tratamento e efeitos. Como objeto de estudo

deste trabalho – que visa extrair informação de artigos científicos relacionados a essa doença

– são utilizadas as seguintes classes: fator de risco, efeitos positivo e negativo.

Como as classes já estão definidas, o interesse deste trabalho encontra-se no

aprendizado supervisionado, mais especificamente na classificação que trabalha com rótulos

de classes discretos (e.g., paciente normal, paciente com doença A), diferentemente da

regressão que lida com valores contínuos (e.g., pacientes maiores de 18 anos com altura de

1,8 metros). Em 2.1.2 encontra-se uma introdução sobre Aprendizado de Máquina (AM) e na

Figura 10, a hierarquia do aprendizado indutivo.

Em seguida serão abordados os seguintes assuntos: classificador supervisionado Naive

Bayes; medidas comumente utilizadas para avaliar o desempenho do classificador; métodos

de particionamento usados para separar o conjunto de dados em treinamento e teste; seleção

de característica inserida no contexto do aprendizado, explicando algumas medidas de

utilidade que podem ser utilizadas para redução de características; ferramenta Mover, a qual

implementa o classificador Naive Bayes e fornece a opção de usar uma de três medidas de

Page 58: UNIVERSIDADE FEDERAL DE SÃO CARLOS CENTRO DE CIÊNCIAS ...gbd.dc.ufscar.br/~pablofmatos/files/QualiPabloFreire.pdf · UNIVERSIDADE FEDERAL DE SÃO CARLOS CENTRO DE CIÊNCIAS EXATAS

57

utilidade, utilizada para auxiliar na leitura e escrita de artigos técnicos; e por fim, é

apresentado alguns trabalhos que utilizam da abordagem de aprendizado de máquina para

extrair informações biomédicas.

3.2.3.1 Classificador Supervisionado: Naive Bayes

Classificadores Bayesianos são classificadores estatísticos supervisionados, cuja

função é predizer a probabilidade de um exemplo pertencer a uma determinada classe.

Exemplo (instância ou padrão) é descrito por um vetor de valores (atributos) e pelo rótulo da

classe associada. Neste trabalho, exemplo estará associado à sentença de um artigo e atributo

a termo de uma determinada classe. Para mais informações sobre “exemplo”, “atributo” e

também sobre “conceito” consultar Witten e Frank (2005). É baseado no teorema de Bayes

(apresentado em seguida), idealizado por Thomas Bayes, sacerdote e matemático inglês, que

trabalhou com probabilidade e teoria da decisão durante o século .

Classificação Bayesiana é uma das muitas técnicas populares que pode ser usada para

classificação de documento eficientemente. Considerado algoritmo de aprendizado indutivo

eficiente e eficaz para AM e mineração de dados (ZHANG, H., 2004). Em alguns domínios o

desempenho tem mostrado comparável com aprendizado de redes neurais e árvore de decisão

(MITCHELL, 1997). É frequentemente utilizado em aplicações de classificação de texto

devido à simplicidade e eficácia (IKONOMAKIS; KOTSIANTIS; TAMPAKAS, 2005).

Uma implementação simples do classificador Bayesiano é conhecido como Naive

Bayes (Naive significa simples em inglês). O termo “simples” surge a partir da independência

condicional da classe, isto é, o efeito de um valor de atributo de uma dada classe é

independente dos valores de outros atributos.

3.2.3.1.1 Teorema de Bayes

Para a explicação do teorema de Bayes considera-se que o termo (“splenic

sequestration”) é uma complicação e a sentença, no contexto de artigos científicos, representa

informação de complicação da Anemia Falciforme.

O evento ocorre quando uma sentença contém o termo . é a probabilidade da

sentença conter o termo . O evento ocorre quando uma sentença é de complicação.

é a probabilidade da sentença ser uma complicação. é a probabilidade de uma

sentença conter o termo dado que é uma complicação.

Em problemas de classificação, procura-se determinar que é a probabilidade

de ocorrer o evento dado que o evento aconteceu. é a probabilidade da sentença

ser uma complicação dado que contém o termo .

Page 59: UNIVERSIDADE FEDERAL DE SÃO CARLOS CENTRO DE CIÊNCIAS ...gbd.dc.ufscar.br/~pablofmatos/files/QualiPabloFreire.pdf · UNIVERSIDADE FEDERAL DE SÃO CARLOS CENTRO DE CIÊNCIAS EXATAS

58

O algoritmo de Bayes conhece a priori , , analisando os exemplos

de treinamento. é calculado pela fórmula de Bayes, Equação (12).

(12)

3.2.3.1.2 Classificação com Naive Bayes

Segundo Mitchell (1997), o classificador Naive Bayes está entre os mais eficazes

algoritmos para aplicações de classificação de documentos textuais. Han e Kamber (2006)

apresentam o processo de classificação do Naive Bayes dividida em cinco passos, a saber:

1. Seja um conjunto de treinamento de sentenças distribuídas nas respectivas

classes. Cada sentença é representada por um vetor de termos n-dimensional,

e cada termo está relacionado à sentença,

respectivamente, por .

2. Suponha que há classes . Dado uma sentença , o classificador

irá predizer que pertence a classe que tiver a maior probabilidade posterior,

condicionada a . Isto é, a sentença pertence a classe se e somente se

Portanto, pelo teorema de Bayes para a classe é maximizada pela

Equação (13):

(13)

3. Como é constante para todas as classes, somente necessita

ser maximizada. Se a probabilidade prévia da classe não é conhecida, então é

comumente assumido que as classes têm probabilidades iguais, isto é,

. Portanto, somente é necessário maximizar .

Caso contrário, é maximizado . Note que a probabilidade prévia

da classe pode ser estimada por , onde é o número

de sentenças de treinamento da classe em .

4. Considere um conjunto de dados com muitos termos. Seria

computacionalmente caro calcular para cada termo. A hipótese

simples de independência condicional da classe é usada a fim de reduzir o

custo computacional para avaliar . Presume-se que os valores dos

termos são condicionalmente independentes um do outro. Assim, pela Equação

(14) tem-se a probabilidade de condicionada a classe .

Page 60: UNIVERSIDADE FEDERAL DE SÃO CARLOS CENTRO DE CIÊNCIAS ...gbd.dc.ufscar.br/~pablofmatos/files/QualiPabloFreire.pdf · UNIVERSIDADE FEDERAL DE SÃO CARLOS CENTRO DE CIÊNCIAS EXATAS

59

(14)

Lembrando que refere-se ao valor do termo da sentença . Para cada

termo computa-se da seguinte forma: dividido por .

5. é avaliada para cada classe a fim de predizer a qual classe a

sentença pertence. O classificador prediz a classe para a sentença para a

classe que tiver a probabilidade mais alta, Equação (15).

(15)

3.2.3.2 Medidas de Desempenho do Classificador

Medida comumente utilizada para avaliar um classificador é a taxa de erro (também

conhecida como taxa de classificação incorreta). Sendo n o número de exemplos, o ,

calculado pela Equação (16), compara a classe verdadeira de cada exemplo com o rótulo

atribuído pelo classificador induzido . A expressão retorna 1 se a condição

for verdadeira e zero caso contrário.

(16)

O complemento da taxa de erro é a precisão do classificador, denotada por

, Equação (17).

(17)

Há um limiar (erro máximo) que é estabelecido para um classificador. O erro chamado

de erro majoritário é calculado em um conjunto de exemplos a partir da distribuição das

classes, Equação (18).

- (18)

O erro majoritário é um baseline. O classificador mais simples que se pode construir

sempre escolhe exemplos da classe majoritária e comete o erro majoritário. Os classificadores

construídos idealmente devem errar menos que esse classificador “ingênuo”. Por exemplo,

considere a seguinte distribuição de classes

em um conjunto de 100 exemplos. A classe é a classe majoritária.

Portanto, o erro majoritário do conjunto de exemplos é - .

Page 61: UNIVERSIDADE FEDERAL DE SÃO CARLOS CENTRO DE CIÊNCIAS ...gbd.dc.ufscar.br/~pablofmatos/files/QualiPabloFreire.pdf · UNIVERSIDADE FEDERAL DE SÃO CARLOS CENTRO DE CIÊNCIAS EXATAS

60

Para avaliar o desempenho dos classificadores utiliza-se a taxa de erro, entretanto há a

necessidade de usar uma medida de custo nas seguintes situações: quando há a prevalência de

uma classe sobre a outra (por exemplo, prevalência da classe com no conjunto com a

seguinte distribuição de classe ); ou quando cada tipo de

classificação incorreta (isto é, falsos positivos e falsos negativos, conceitos apresentados em

2.3.1.1) possui um custo diferente. O custo é um número que representa uma penalidade

aplicada quando um classificador faz um erro ao rotular exemplos, Equação (19).

(19)

Portanto, o objetivo do AM é construir classificadores com baixa taxa de erro ou

baixos custos de classificação incorreta. Detalhes de algumas medidas de desempenho em

2.3.1.1.

3.2.3.3 Métodos de Particionamento

Avalia-se o resultado obtido pelos classificadores para compreender a abrangência e a

limitação dos diferentes algoritmos. Vários métodos são usados em conjunto com uma

medida de desempenho, geralmente a precisão ou o erro, para fazer essa avaliação.

A seguir serão apresentados alguns métodos de particionamento de amostragem

randômico (Holdout, Amostra Aleatória, Cross-Validation e Bootstrap). O Cross-Validation é

um dos métodos mais utilizados para particionamento de exemplos (KOHAVI, 1995;

MANNING; SCHÜTZE, 1999; CHEN et al., 2005; KANYA; GEETHA, 2007).

Holdout: Os exemplos são divididos em uma percentagem fixa p de treinamento e

para teste, considerando normalmente . O valor típico para p é ,

representando aproximadamente para treinamento e para teste. A vantagem é a

independência dos exemplos e o tempo para computar não é muito grande. No entanto, a

avaliação pode ter uma alta variância, dependendo de como é feita a divisão do conjunto de

treinamento e teste.

Amostra Aleatória: Consiste na múltipla aplicação do método holdout. Em cada

iteração, os exemplos são particionados em conjuntos de treinamento e teste. Após o

treinamento é obtida a taxa de erro do conjunto de teste. São realizadas tipicamente 20

iterações deste método e a estimativa da taxa de erro verdadeira é a média das taxas de erro do

conjunto de teste de cada iteração (BATISTA; MONARD, 1998). Pode produzir melhores

estimativas de erro que o estimador holdout. A vantagem é a independência dos exemplos.

Page 62: UNIVERSIDADE FEDERAL DE SÃO CARLOS CENTRO DE CIÊNCIAS ...gbd.dc.ufscar.br/~pablofmatos/files/QualiPabloFreire.pdf · UNIVERSIDADE FEDERAL DE SÃO CARLOS CENTRO DE CIÊNCIAS EXATAS

61

Cross-Validation (Validação Cruzada): Uso dos mesmos dados, repetidas vezes,

divididos diferentemente. Em k-fold cross-validation o conjunto de dados (os exemplos) é

aleatoriamente dividido em partições mutuamente exclusivas (folds). De tamanho

aproximadamente igual a exemplos. As folds são usadas para treinamento e o fold

restante para teste. Este processo é repetido vezes, cada vez considerando um fold diferente

para teste. O erro é a média dos erros calculados em cada um dos folds. Veja exemplo a

seguir.

Considere o conjunto de dados de 168 exemplos distribuído em três classes

relacionadas à Anemia Falciforme:

a) Tratamento (50);

b) Sintoma (38);

c) Complicação (80).

Suponha que o valor de (folds) é 3. Valor comumente usado para é 10, conhecido

como 10-fold cross-validation. Porém, este valor depende da amostra dos dados. O tamanho

de cada fold é calculado por exemplos. Os 56 exemplos são selecionados

aleatoriamente no conjunto total dos 168 exemplos e são exclusivos, isto é, cada exemplo

pertence somente a um único fold. Assim, uma possível distribuição dos exemplos é mostrada

na Figura 17.

Classes

T S C

F

old

s

1

20 6 30 = 56

2

15 6 35 = 56

3

15 26 15 = 56

Exemplos

50 38 80 = 168

Figura 17 – Exemplo de Cross-Validation.

Depois da distribuição dos valores entre as classes em cada fold, dois folds

são escolhidos para treinamento e um para teste (fold restante). O processo é repetido vezes

testando o fold que ainda não foi usado para teste. Pode-se adotar o seguinte algoritmo. Para

treinar os dois primeiros folds e testar com o terceiro; treinar o 1º e o 3º e testar

com o segundo; e para treinar o 2º e o 3º e testar com o primeiro.

A vantagem do cross-validation é na divisão dos dados. Cada partição é testada

exatamente uma vez para o conjunto de treinamento vezes. A variância é reduzida a

Page 63: UNIVERSIDADE FEDERAL DE SÃO CARLOS CENTRO DE CIÊNCIAS ...gbd.dc.ufscar.br/~pablofmatos/files/QualiPabloFreire.pdf · UNIVERSIDADE FEDERAL DE SÃO CARLOS CENTRO DE CIÊNCIAS EXATAS

62

medida que o é aumentado. A desvantagem é que o algoritmo de treinamento tem que

repetir vezes, o que significa um custo computacional elevado.

Existem duas variações comumente usadas do cross-validation: Stratified Cross-

Validation e Leave-One-Out (LOO). A primeira considera a percentagem de distribuição das

classes. No exemplo anterior, as classes tratamento, sintoma e complicação representam,

respectivamente, 30%, 22% e 48% do valor total da amostra. Isto significa que cada fold terá

esta proporção de exemplos em relação ao tamanho da fold que é de 56 (Figura 18).

Classes

T S C

F

old

s

1

17 12 27 = 56

2

17 12 27 = 56

3

16 14 26 = 56

Exemplos

50 38 80 = 168

Figura 18 – Exemplo de Stratified Cross-Validation.

LOO é um caso particular da cross-validation quando k for igual a quantidade de

exemplos. Considerando 168 exemplos, a quantidade de folds seria então 168. Para

treinamento são os mesmos exemplos e um fold para teste. O processo é executado

168 vezes, sendo que cada fold conterá somente uma classe (Figura 19). É

computacionalmente custoso e por isso é usado em amostras pequenas.

Classes

Fold

s

1

T, S ou C

2

T, S ou C

3

T, S ou C

.

.

.

.

.

.

168

T, S ou C

Figura 19 – Exemplo de Leave-One-Out.

Bootstrap: Consiste em construir um conjunto de treinamento através da amostragem

com reposição de casos a partir de um conjunto de exemplos de tamanho . Amostrar com

reposição significa que os exemplos de treinamento são retirados do conjunto de exemplos,

mas os elementos selecionados permanecem no conjunto de exemplos, de forma que um

mesmo elemento possa ser escolhido aleatoriamente mais de uma vez.

Por exemplo, considere dez exemplos de treinamento (cada número representando

uma sentença). A Figura 20 mostra uma iteração, sendo que as sentenças não foram

Page 64: UNIVERSIDADE FEDERAL DE SÃO CARLOS CENTRO DE CIÊNCIAS ...gbd.dc.ufscar.br/~pablofmatos/files/QualiPabloFreire.pdf · UNIVERSIDADE FEDERAL DE SÃO CARLOS CENTRO DE CIÊNCIAS EXATAS

63

selecionadas para treinamento, enquanto que a sentença foi selecionada três vezes e as

sentenças e foram selecionadas, cada uma, duas vezes. As sentenças de teste são formadas

pelas sentenças que não foram selecionadas para treinamento.

Nesse método são realizadas aproximadamente 200 iterações. A taxa de erro estimada

é a média das taxas de erro de cada iteração.

Treinamento

1,3,7,1,4,1,5,7,3,10

Teste

2,6,8,9

Figura 20 – Exemplo de Bootstrap.

Kohavi (1995) faz uma comparação dos dois métodos mais comuns para estimar a

precisão do classificador (cross-validation e bootstrap) e recomenda o método stratified 10-

fold cross-validation. Han e Kamber (2006) corrobora o uso desse método mesmo que o

poder computacional permita mais folds. Encontram-se mais detalhes dos métodos holdout,

cross-validation e bootstrap em Stranieri e Zeleznikow (2005), no qual é ilustrado o erro

verdadeiro dos métodos apresentados anteriormente.

Ainda segundo Stranieri e Zeleznikow (2005), o método que obteve o menor erro foi o

bootstrap seguido do LOO, cross-validation e holdout. Entretanto, é difícil usar na prática o

bootstrap ou LOO, porque estes métodos exigem que os dados sejam repetidos diversas

vezes, usando um considerável esforço computacional. Na Tabela 13 é apresentado o resumo

dos métodos de particionamento.

Tabela 13 – Resumo dos métodos de particionamento.

Fonte: Adaptado de Monard e Baranauskas (2003).

Holdout Aleatória LOO k-Fold CV k-Fold Stratified CV Bootstrap

Treinamento Teste 1

Iterações

Reposição não não não não não sim

Prevalência

de Classe não não não não sim sim/não

Parâmetros representa o número de exemplos, o número de (partições), número entre e

número entre

3.2.3.4 Seleção de Características

Seleção de Características (Feature Selection) é o processo de selecionar um

subconjunto de termos do conjunto de treinamento e usá-lo na classificação de texto. Serve

para dois propósitos: diminuir a quantidade do vocabulário de treinamento, tornando o

classificador mais eficiente (na maioria das vezes o custo computacional de treinar é caro);

aumentar a precisão da classificação eliminando ruído (MANNING; RAGHAVAN;

Page 65: UNIVERSIDADE FEDERAL DE SÃO CARLOS CENTRO DE CIÊNCIAS ...gbd.dc.ufscar.br/~pablofmatos/files/QualiPabloFreire.pdf · UNIVERSIDADE FEDERAL DE SÃO CARLOS CENTRO DE CIÊNCIAS EXATAS

64

SCHÜTZE, 2008). Segundo Ikonomakis, Kotsiantis e Tampakas (2005), é a redução da

dimensionalidade do conjunto de dados que tem o objetivo de excluir as características que

são consideradas irrelevantes para a classificação.

Um algoritmo básico de seleção de características pode ser visto no Algoritmo 1. Para

uma dada classe c é computado a medida de utilidade (linha 4) para cada termo do

vocabulário (linha 3) e é selecionado os k termos que tem os valores mais altos em relação ao

cálculo da medida. Todos os outros termos são descartados e não são utilizados na

classificação.

Algoritmo 1 – Seleção das melhores k características.

Fonte: Manning, Raghavan e Schütze (2008).

Entrada: : conjunto de documentos textuais.

: classe.

Saída: Lista com os valores de k mais altos.

1 ExtrairVocabulário

2 []

3 para cada

4 faça CalculaMedidaUtilidade

5

6 retorna MaiorValorCaracterística

Para redução das características existem várias medidas de utilidade que podem ser

utilizadas: frequência, ganho de informação, informação mútua e (qui-quadrado). A seguir

são apresentadas sucintamente cada uma delas.

Frequência de Documento (FD): É o número de documentos da classe que contém

o termo , Equação (20). A hipótese é que termos raros não são importantes para a predição

da categoria e não afeta o desempenho global. Não selecionando termos raros reduz a

dimensionalidade do espaço de característica. A grande maioria das palavras que ocorrem em

um documento tem uma FD muito baixa, o que significa que através da redução da frequência

apenas essas palavras são removidas, enquanto as palavras com frequência baixa, média e alta

são preservadas (SEBASTIANI, 2002).

(20)

Ganho de Informação (GI): Mede o número de bits de informação obtido por uma

predição de categoria conhecendo a presença ou ausência do termo em um documento. A

complexidade do tempo é e a complexidade do espaço é , onde é o número de

documento de treinamento e é o tamanho do vocabulário. A computação da entropia tem

Page 66: UNIVERSIDADE FEDERAL DE SÃO CARLOS CENTRO DE CIÊNCIAS ...gbd.dc.ufscar.br/~pablofmatos/files/QualiPabloFreire.pdf · UNIVERSIDADE FEDERAL DE SÃO CARLOS CENTRO DE CIÊNCIAS EXATAS

65

um tempo de complexidade de O GI do termo com a classe variando de

é definida pela Equação (21).

(21)

é a probabilidade que o termo ocorre e é a probabilidade que o termo não

ocorre. é a probabilidade condicional da ocorrência de um termo na classe e

é a probabilidade condicional de não ocorrer o termo na classe .

Informação Mútua (IM): É um critério comumente usado em modelagem estatística

de associação de palavras. Considera o termo e a categoria , sendo que é o número de

vezes que e coocorrem, é o número de vezes que ocorre sem , é o número de vezes

que ocorre sem e é o número total de documentos. A estimativa do termo e categoria

é apresentada na Equação (22). O tempo de complexidade é , similar ao GI. É uma

medida da quantidade de informação que uma variável contém sobre outra. A IM é maior

quando todas as ocorrências de dois termos são adjacentes umas às outras, deteriorando-se em

baixa frequência.

(22)

Qui-quadrado ( ): Mede a falta de independência do termo e da categoria . A

medida tem valor zero se e são independentes. A computação tem complexidade

quadrática, similar a IM e ao GI. Considera o significado de , B e explicado na medida

anterior. é o número de vezes que não ocorrem nem e . A medida é definida pela

Equação (23).

(23)

Yang e Pedersen (1997) apresentam um estudo comparativo dos quatros métodos

apresentado anteriormente no qual o GI e foram os mais eficientes na redução da

dimensionalidade. Os experimentos foram realizados com o classificador nearest neighbor no

documento da Reuters, obtendo redução de 98% dos termos e o mais importante, houve

melhora na precisão do classificador.

Page 67: UNIVERSIDADE FEDERAL DE SÃO CARLOS CENTRO DE CIÊNCIAS ...gbd.dc.ufscar.br/~pablofmatos/files/QualiPabloFreire.pdf · UNIVERSIDADE FEDERAL DE SÃO CARLOS CENTRO DE CIÊNCIAS EXATAS

66

A FD, método com o mais baixo custo computacional, obteve um desempenho similar

aos dois métodos citados no parágrafo anterior. O uso da FD é sugerido quando o custo de

usar o GI e for alto. E diferentemente do que é senso comum na recuperação de

informação – que termos comuns não são importantes – o bom desempenho da FD, do GI e

do mostra que de fato os termos comuns (exceto as stop words) são informativos para

tarefas de categorização de texto. A IM teve o pior desempenho comparado com os outros

métodos devido ao favorecimento de termos raros e a forte sensibilidade dos erros estimados.

A principal diferença entre IM e é que esta última tem um valor normalizado que é

comparado com termos da mesma categoria. Caso uma das variáveis (A, B, C ou D) desta

última medida tenha valor desprezível (frequência baixa), não é possível obter o resultado

precisamente. Portanto, não é uma medida confiável para termos com baixas frequências.

Sebastiani (2002) relata a partir de experimentos que algumas medidas se sobressaem

mais do que outras no sentido de qualidade da redução da dimensionalidade. Todavia, faz

uma observação ressaltando que os resultados obtidos com as diferentes medidas são apenas

indicativos e que o mérito de cada medida somente poderia ser obtido com experimentos

comparativos cuidadosamente controlados considerando a variedade de situações diferentes,

por exemplo, classificadores e conjunto de dados diferentes.

Outras medidas de utilidade como odds ratio, probability ratio e pow podem ser

encontradas em Mladenic e Grobelnik (1999), Sebastiani (2002), Forman (2003) e

Ikonomakis, Kotsiantis e Tampakas (2005). Os autores desta última referência destacam que

não existe uma medida que sobressai mais do que as outras e por isso os pesquisadores,

muitas vezes, combinam duas medidas a fim de obter benefícios de ambas.

3.2.3.5 Mover

O Mover é um sistema de classificação de aprendizado supervisionado de estruturas

retóricas. Apresenta as organizações retóricas ou estruturas do texto, conhecidas como moves,

usadas no texto, a fim de ajudar estudantes não-nativos que tenham dificuldades na leitura e

escrita técnica seja por falta de conhecimento ou experiência. O sistema aprende

características estruturais do texto usando um pequeno número de exemplos de treinamento e

pode ser aplicado em diferentes textos (ANTHONY; LASHKIA, 2003).

Um modelo conhecido para representação de palavras é o bag of words (saco de

palavras) que divide as sentenças em palavras individuais (toquenização). A representação

bag of words não considera a ordem da palavra, a semântica ou a gramática da linguagem,

Page 68: UNIVERSIDADE FEDERAL DE SÃO CARLOS CENTRO DE CIÊNCIAS ...gbd.dc.ufscar.br/~pablofmatos/files/QualiPabloFreire.pdf · UNIVERSIDADE FEDERAL DE SÃO CARLOS CENTRO DE CIÊNCIAS EXATAS

67

porém para tarefas de processamento no nível de sentença tem mostrado sucesso

(ANTHONY; LASHKIA, 2003).

Contudo, para representar o conhecimento dos moves estruturais foi utilizado a

representação de grupos denominado modelo bag of clusters. Com este método é considerado

o grupo de palavras. Considere a seguinte sentença “once upon a time, there was an island”,

uma faixa de grupos poderia incluir, por exemplo, “once, upon, once upon e once upon a

time”. Cada sentença do conjunto de treinamento é dividida em grupos de palavras com

tamanho que variam de uma a cinco palavras.

Alguns grupos, por exemplo, “upon a” e “time there” contribuem pouco para o

processo de aprendizado. Esses termos irrelevantes são conhecidos como ruído. Removendo o

ruído espera-se que o sistema melhore a velocidade de processamento e principalmente a

precisão do classificador. Utilizou-se a medida ganho de informação que classifica os grupos

de palavras de acordo com a pontuação. O ruído é reduzido excluindo os grupos que estão

abaixo de um limiar.

O classificador utilizado é o Naive Bayes combinado com uma das seguintes medidas

de utilidade, ganho de informação, qui-quadrado ou frequência, para eliminar ruído.

Experimentos com outros algoritmos de AM mais complexos, como Árvores de Decisão e

Redes Neurais, foram realizados, no entanto o classificador Bayesiano apresentou melhor

desempenho para a identificação das estruturas textuais (LEWIS, 1998 apud ANTHONY;

LASHKIA, 2003). O método de particionamento utilizado é o 5-fold cross-validation. O

treinamento é realizado com 100 resumos de artigos de pesquisa sobre Tecnologia da

Informação publicados no IEEE em 1998. Tarefas de pré-processamento foram automatizadas

com intuito de remover irrelevantes caracteres como espaço em branco, linhas irregulares, etc.

Na Figura 21 é apresentada a tela principal do Mover, cuja ferramenta está disponível

na web (ANTHONY, 2009). O conjunto de dados de treinamento foi separado em seis classes

(Claim centrality, Generalize topics, Indicate a gap, Announce research, Announce findings e

Evaluate research) conforme o espaço de pesquisa de Swales, Create a Research Space –

CARS (ANTHONY, 1999).

Page 69: UNIVERSIDADE FEDERAL DE SÃO CARLOS CENTRO DE CIÊNCIAS ...gbd.dc.ufscar.br/~pablofmatos/files/QualiPabloFreire.pdf · UNIVERSIDADE FEDERAL DE SÃO CARLOS CENTRO DE CIÊNCIAS EXATAS

68

Figura 21 – Ferramenta Mover.

Foram realizados testes com os resumos dos artigos técnicos e obteve uma média de

precisão de . Segundo Anthony e Lashkia (2003), uma característica importante do

classificador Naive Bayes é a habilidade de pontuar decisões a partir da solução mais

provável. Assim, duas técnicas podem ser utilizadas para melhorar a precisão da ferramenta:

otimização de fluxo, aumenta a precisão do sistema em a um pequeno custo

computacional; e adição de treinamento, usuários podem corrigir manualmente classificação

realizada pela ferramenta e adicionar nova informação para treinamento que em princípio

pode obter melhores resultados ao custo de mais tempo. Com o uso dessas técnicas alcançou

uma melhora na precisão de . Resultado inexpressivo foi obtido para uma determinada

classe que pode ser explicado pela pouca quantidade de exemplos de treinamento da mesma

(ANTHONY; LASHKIA, 2003).

3.2.3.5.1.1 Trabalhos correlatos ao de Anthony

Trabalhos recentes utilizam outros classificadores de texto para identificar estruturas

retóricas: HMM (WU, J. et al., 2006) e SVM (PENDAR; COTOS, 2008).

Na Tabela 14 á apresentado o resumo desses trabalhos em comparação com o Mover

que está em destaque na tabela. Os três trabalhos têm como objetivo desenvolver uma

ferramenta educacional para melhorar as habilidades de escrita acadêmica de estudantes não-

nativos e para isso, utilizaram a categorização de texto para classificar automaticamente

sentenças de artigos de pesquisa baseado no modelo de discurso de Swales.

Jien-Chen Wu et al. (2006) desenvolveram um sistema de aprendizado on-line (CARE

– Concordancer for Academic wRiting in English) que identifica as sentenças com as

Page 70: UNIVERSIDADE FEDERAL DE SÃO CARLOS CENTRO DE CIÊNCIAS ...gbd.dc.ufscar.br/~pablofmatos/files/QualiPabloFreire.pdf · UNIVERSIDADE FEDERAL DE SÃO CARLOS CENTRO DE CIÊNCIAS EXATAS

69

respectivas estruturas retóricas: Background, Purpose, Method, Result e Conclusion. Pendar e

Cotos (2008), obtiveram alguns resultados preliminares na classificação de sentenças em uma

das três estruturas retóricas: Establishing a territory, Establishing a niche ou Occupying the

niche. Anthony e Lashkia (2003) definiram seis estruturas como apresentado em 3.2.3.5.

Tabela 14 – Resumo de trabalhos que utilizam estruturas retóricas.

Anthony (2003) Jien-Chen Wu et al.

(2006)

Pendar e Cotos

(2008)

Classificador Naive Bayes HMM SVM

Estruturas retóricas

Claim centrality

Generalize topics

Indicate a gap

Announce research

Announce findings

Evaluate research

Background

Purpose

Method

Result

Conclusion

Establishing a

territory

Establishing a niche

Occupying the niche

Seleção de

Característica FD, GI ou -----------¹ Odds ratio

Sequência de palavras 1-grama até

5-gramas 2-gramas 1, 2 e 3 gramas

Sentenças treinadas ²

-Fold Cross-

Validation -----------¹

Nível de classificação Sentença/Resumo Sentença/Resumo Sentença/Introdução

Sentenças utilizadas

para concordância -----------¹ -----------¹

487

k =

Modelo de discurso Swales Swales Swales

Precisão para trigrama

¹ Informação não encontrada no artigo.

² 138 sentenças foram utilizadas como teste.

Dados rotulados nas respectivas estruturas retóricas são utilizados para treinamento.

Após o treinamento, os dados não-rotulados são classificados com base nas estruturas

definidas em cada um dos trabalhos.

Pendar e Cotos (2008) utilizaram a medida de utilidade odds ratio com o objetivo de

eliminar ruído, assim como Anthony e Lashkia (2003) que utilizaram três medidas FD, GI ou

(a medida que teve melhor resultado foi o GI). Jien-Chen Wu et al. (2006) não utilizaram

nenhuma medida de utilidade.

As sequências de palavras utilizadas para treinamento variam entre os trabalhos:

Pendar e Cotos (2008) utilizaram 1, 2 ou 3 gramas; Jien-Chen Wu et al. (2006) utilizaram

somente 2 gramas, identificando sentenças com as respectivas expressões, por exemplo, “we

propose”, “we show” e “we present”. O termo “grama” refere-se ao método “bag os clusters”

utilizado por Anthony e Lashkia (2003). Esses últimos autores utilizaram de 1 a 5 gramas (o

padrão utilizado é 5).

Page 71: UNIVERSIDADE FEDERAL DE SÃO CARLOS CENTRO DE CIÊNCIAS ...gbd.dc.ufscar.br/~pablofmatos/files/QualiPabloFreire.pdf · UNIVERSIDADE FEDERAL DE SÃO CARLOS CENTRO DE CIÊNCIAS EXATAS

70

As sentenças utilizadas para treinamento foram 554 (ANTHONY; LASHKIA, 2003),

684 (WU, J. et al., 2006) e 11.840 (PENDAR; COTOS, 2008). Pendar e Cotos (2008)

utilizaram o método de particionamento 5-fold cross validation, assim como Anthony e

Lashkia (2003). Jien-Chen Wu et al. (2006) não mencionaram nenhum método.

Diferentemente dos outros dois trabalhos que utilizaram sentenças de resumo, Pendar

e Cotos (2008) utilizaram somente sentenças da seção introdução. Pendar e Cotos (2008)

informaram o valor da medida de concordância entre humanos ( ), sendo avaliada

manualmente em 487 sentenças por dois anotadores. Jien-Chen Wu et al. (2006) obtiveram

, de precisão, inferior a máxima obtida por Anthony e Lashkia (2003) que foi de

. Pendar e Cotos (2008) obtiveram a melhor precisão para trigrama com

aproximadamente .

3.2.3.6 Trabalhos com Aprendizado de Máquina

Na literatura biomédica encontra-se vários trabalhos que extraem informação

utilizando a abordagem de aprendizado de máquina. Não tem a intenção de aprofundar em

cada um desses trabalhos. No próximo parágrafo são apresentados três trabalhos que

identificam nomes de proteína utilizando aprendizado de máquina com os valores de

- obtidos. Em seguida é resumido alguns trabalhos atuais que utilizam diferentes

classificadores.

Nobata, Collier e Tsujii (1999) utilizaram os algoritmos de árvore decisão e de

classificação Bayesiana para identificar frase que contém nome de proteína, com base na

composição de palavras ( - obtida foi de a ). Collier, Nobata e Tsujii

(2000) utilizaram o algoritmo HMM para treinar e detectar nomes de proteína no texto (

de - ). Kazama et al. (2002) utilizaram o SVM para identificar nomes biomédicos

(e.g., proteína, DNA, lipídeo, etc.) e obteve uma variação de - de a .

Vários algoritmos de aprendizado de máquina são utilizados para reconhecimento de

gene ou proteína no domínio biomédico: Naive Bayes (TSURUOKA; TSUJII, 2004);

conditional random fields (MCDONALD; PEREIRA, 2005); combinação de três

classificadores (SVM e duas variações do HMM) (ZHOU, G. et al., 2005).

3.3 Considerações Finais

É crucial a identificação de termos para o processamento automático na literatura

biomédica. O desempenho de métodos de ATR em domínio biomédico varia em torno de

a (precisão) e aproximadamente (revocação) (KRAUTHAMMER;

Page 72: UNIVERSIDADE FEDERAL DE SÃO CARLOS CENTRO DE CIÊNCIAS ...gbd.dc.ufscar.br/~pablofmatos/files/QualiPabloFreire.pdf · UNIVERSIDADE FEDERAL DE SÃO CARLOS CENTRO DE CIÊNCIAS EXATAS

71

NENADIC, 2004; ANANIADOU; MCNAUGHT, 2006). Para identificar esses termos são

utilizadas três abordagens: abordagem baseada em dicionário, baseada em regras e baseada

em aprendizado de máquina.

Abordagem baseada em dicionário tem a vantagem de armazenar informações

relacionadas a um determinado domínio e possibilitar a identificação de termos como gene,

proteína e doença no domínio biomédico. Um problema é a limitação de nomes que estão

presentes no dicionário. Segundo Kou, William Cohen e Murphy (2005), extratores baseado

em dicionário ao extrair nome de proteína geralmente têm uma baixa revocação, exceto se

lidar com as variações de nome. Uma das maneiras de lidar com essas variações é utilizar

técnicas como aproximação de string (distância de edição). Tsuruoka e Tsujii (2004) ratificam

o problema da variação, alertando para outro: nomes curtos armazenados no dicionário geram

falsos positivos, diminuindo a precisão.

Abordagem baseada em regras tem algumas desvantagens: prolonga

significativamente a construção de sistemas, reduz a capacidade de adaptação de regras em

outro sistema e exclui termos que não correspondem aos padrões predefinidos. Tem em geral

um desempenho melhor do que outras abordagens, no entanto há o problema de adaptação

para novos domínios e classes (ANANIADOU; MCNAUGHT, 2006). Abordagem baseada

em regras é mais adequada quando necessita de um sistema com alta precisão a qual não é

alcançada com a abordagem baseada em aprendizado de máquina devido à insuficiência de

dados de treinamento (AGATONOVIC et al., 2008).

As vantagens de utilizar abordagem baseada em aprendizado de máquina são a

independência de domínio e o alto desempenho para predição. Os principais problemas

relacionados aos algoritmos de AM são a necessidade de grandes quantidades de dados de

treinamento e os dados precisam ser periodicamente re-treinados após o advento de novos

dados. Em geral, a classificação é prejudicada quando o conjunto de dados de uma classe é

pequeno (classe minoritária) em relação a outras classes (ANANIADOU; MCNAUGHT,

2006). O desempenho de sistemas de aprendizado de máquina depende da existência

suficiente de dados de treinamento (TANABE; WILBUR, 2002a).

Segundo Manning, Raghavan e Schütze (2008), não existe um algoritmo ótimo que

resolva todos os problemas. Se o problema de classificação consistir de um número de

categorias bem-separadas, muitos algoritmos de classificação provavelmente trabalharão bem.

Porém, os autores fazem uma ressalva: a maioria dos problemas contém uma grande

quantidade de categorias muito similares.

Page 73: UNIVERSIDADE FEDERAL DE SÃO CARLOS CENTRO DE CIÊNCIAS ...gbd.dc.ufscar.br/~pablofmatos/files/QualiPabloFreire.pdf · UNIVERSIDADE FEDERAL DE SÃO CARLOS CENTRO DE CIÊNCIAS EXATAS

72

Cada abordagem tem suas vantagens e desvantagens. Para desfrutar das características

positivas dessas abordagens surge a necessidade de utilizar o que cada uma tem de melhor.

Portanto, no próximo capítulo serão apresentados os trabalhos correlatos que extraem

informação de artigos científicos e que utilizam a combinação das abordagens discutidas neste

capítulo.

Page 74: UNIVERSIDADE FEDERAL DE SÃO CARLOS CENTRO DE CIÊNCIAS ...gbd.dc.ufscar.br/~pablofmatos/files/QualiPabloFreire.pdf · UNIVERSIDADE FEDERAL DE SÃO CARLOS CENTRO DE CIÊNCIAS EXATAS

73

4 TRABALHOS CORRELATOS

No capítulo 3 discutiu-se vários trabalhos que extraem informação de resumos no

domínio biomédico e que utilizam excepcionalmente uma das três abordagens apresentadas:

baseada em dicionário, regras ou aprendizado de máquina. Este capítulo tem o intuito de

apresentar os trabalhos que também extraem informação nesse domínio e que utilizam a

combinação das três abordagens em resumos ou artigos completos.

Portanto, nas Tabela 15 e Tabela 16 são apresentados alguns trabalhos (ordenados por

ano) encontrados na literatura que extraem informação de, respectivamente, resumos e artigos

completos e que utilizam a combinação das três abordagens mencionadas. Além de destacar

qual a abordagem que está sendo utilizada, também são apresentadas, por exemplo, algumas

informações como o domínio da extração (e.g., gene, proteína), sistema desenvolvido a partir

das técnicas utilizadas para a extração de informação (se houver) e a utilização ou não de

algum etiquetador. A seguinte nomenclatura foi utilizada em ambas as tabelas: D significa

Dicionário; R significa Regras; AM significa Aprendizado de Máquina; e POS significa

etiquetador - - .

Tabela 15 – Trabalhos correlatos que extraem informação de resumos.

Autor

Abordagem Informação

D R AM Domínio Sistema

Resumos

do

MEDLINE

POS

Leonard et al. (2002) x x x Gene e Proteína ----- Sim Não

Seki e Mostafa (2003) x x Proteína ----- Sim Não

Mika e Rost (2004a, b) x x x Proteína NLProt Sim Sim

GuoDong Zhou et al. (2004) x x Proteína PowerBioNE Sim Sim

Seki e Mostafa (2005) x x x Proteína Protex Sim Não

Hanisch et al. (2005) x x Gene e Proteína ProMiner Não Não

Chun et al. (2006) x x Gene e Doença ----- Sim Sim

Todos os trabalhos da Tabela 15 extraem informação de resumos do MEDLINE, com

exceção de Hanisch et al. (2005) que utilizam o benchmark BioCreAtIvE. Alguns optaram em

utilizar um etiquetador POS (MIKA; ROST, 2004a, b); já outros optaram em não utilizar

Page 75: UNIVERSIDADE FEDERAL DE SÃO CARLOS CENTRO DE CIÊNCIAS ...gbd.dc.ufscar.br/~pablofmatos/files/QualiPabloFreire.pdf · UNIVERSIDADE FEDERAL DE SÃO CARLOS CENTRO DE CIÊNCIAS EXATAS

74

nenhum etiquetador devido ao custo computacional (LEONARD; COLOMBE; LEVY, 2002;

SEKI; MOSTAFA, 2003). As medidas de precisão e revocação, utilizadas para avaliar os

resultados obtidos com a extração de informação, não foram apresentadas nesta tabela, pois na

maioria dos trabalhos os valores obtidos dependem de alguns parâmetros inerentes de cada

trabalho.

A seguir são apresentadas algumas informações dos trabalhos da Tabela 15 agrupados

por abordagens utilizadas:

Combinação de dicionário, aprendizado de máquina e regras: Leonard,

Colombe e Levy (2002) utilizaram abordagem baseada em dicionário e regras

para extrair nomes de genes e proteínas dos resumos do MEDLINE e em

seguida, o classificador Bayesiano baseado na frequência das palavras é

utilizado para pontuar os nomes relevantes; Mika e Rost (2004a, b)

desenvolveram um sistema denominado NLProt

(http://cubic.bioc.columbia.edu/services/NLProt/) que combina o algoritmo de

aprendizado de máquina SVM com filtros baseados em regras e dicionário, a

fim de identificar nomes e sequências de proteínas em resumos do PubMed;

Seki e Mostafa (2005) utilizaram a combinação das três abordagens e não

utiliza análise sintática nem etiquetador POS;

Combinação de aprendizado de máquina e regras: GuoDong Zhou et al.

(2004) desenvolveram o sistema PowerBioNE utilizando a abordagem

baseada em aprendizado de máquina (HMM e -vizinhos mais próximos) e

como pós-processamento utilizou padrão para extrair regras automaticamente

dos dados de treinamento;

Combinação de regras e dicionário: Seki e Mostafa (2003) extraíram nomes de

proteína usando regras e dicionário; Hanisch et al. (2005) desenvolveram o

sistema ProMiner que utiliza as palavras geradas a partir da consulta de

dicionário e extrai regras para reconhecer nomes compostos de gene e

proteína;

Combinação de dicionário e aprendizado de máquina: Chun et al. (2006)

extraíram relações de gene e doença utilizando um dicionário construído a

partir de seis bancos de dados. O algoritmo de aprendizado de máquina,

máxima entropia, é utilizado para filtrar os falsos positivos gerados pelo

dicionário.

Page 76: UNIVERSIDADE FEDERAL DE SÃO CARLOS CENTRO DE CIÊNCIAS ...gbd.dc.ufscar.br/~pablofmatos/files/QualiPabloFreire.pdf · UNIVERSIDADE FEDERAL DE SÃO CARLOS CENTRO DE CIÊNCIAS EXATAS

75

Na Tabela 16 são resumidos alguns poucos trabalhos encontrados na literatura que

extraem informação no domínio biomédico de artigos completos. Cada um será explicado nas

seções subsequentes e detalhes do sistema SCAeXtractor serão explicados no capítulo 5, onde

é discutido a proposta de dissertação de mestrado.

Tabela 16 – Trabalhos correlatos que extraem informação de artigos completos.

Autor Abordagem Informação

D R AM Domínio Sistema Objetivo POS Avaliação²

Tanabe e

Wilbur

(2002a,

b)

x x x Gene e Proteína ABGene Extrair

informação Sim

Resumos

Prec.

Rev.

Artigos

Prec.

Rev.

Corney

et al.

(2004) x x Gene e Proteína BioRAT

Povoar um

banco de

dados

Sim

Resumos

Prec.

Rev.

Artigos

Prec.

Rev.

Bremer

et al.

(2004) x x Gene e Proteína --------

Povoar um

banco de

dados

Não Prec.

Rev.

Garten e

Altman

(2009) x¹ x¹

Genes (G),

Drogas (D) e

Polimorfismos

(P)

Pharmspresso

Destacar as

sentenças de

acordo com a

consulta do

usuário

Não

Revocação

(G)

(D)

(P)

(G e

D)

Nossa

(2009) x x x

Complicação e

Benefício da

Anemia

Falciforme

SCAeXtractor

Povoar um

banco de

dados

Não --------

¹ Ontologia e expressões regulares, respectivamente, do sistema Textpresso.

² Prec. significa Precisão e Rev. significa Revocação.

4.1 ABGene

O ABGene é um sistema treinado em resumos do MEDLINE e testado em um

conjunto de artigos completos do domínio biomédico selecionados aleatoriamente para

identificar nome de gene e proteína. Um etiquetador POS baseado em transformação é

treinado em sentenças de resumos com ocorrência de gene marcada manualmente para induzir

regras. Em seguida, regras e dicionário foram aplicados como pós-processamento.

Page 77: UNIVERSIDADE FEDERAL DE SÃO CARLOS CENTRO DE CIÊNCIAS ...gbd.dc.ufscar.br/~pablofmatos/files/QualiPabloFreire.pdf · UNIVERSIDADE FEDERAL DE SÃO CARLOS CENTRO DE CIÊNCIAS EXATAS

76

Tanabe e Wilbur (2002b) realizaram duas adaptações no sistema ABGene (TANABE;

WILBUR, 2002a) para extrair informação de artigos completos: Na primeira adaptação

utilizou-se um classificador para atuar na classificação em nível de sentença em artigos

completos. Definiu-se que sentenças abaixo de um limiar não contêm nomes de gene/proteína.

Na segunda é realizado um pós-processamento a fim de extrair supostos grupos de nomes de

gene/proteína. Em 2,16 milhões de resumos do MEDLINE foram encontrados 2,42 milhões

de nomes de gene e proteína. Separou-se em três grupos com limiar igual a: 10 (134.809

nomes), 100 (13.865 nomes) e 1.000 (1.136 nomes).

O treinamento foi feito com um conjunto de 1.000 artigos selecionados aleatoriamente

do PubMed Central, totalizando 7.000 sentenças que foram selecionadas manualmente nos

artigos. O teste foi realizado com um conjunto de 2.600 sentenças, a fim de avaliar como a

heterogeneidade de artigos completos afeta o desempenho do ABGene. A média da precisão e

revocação obtidas foram, respectivamente, e , aquém da obtida em resumos

(Tabela 16).

Tanabe e Wilbur (2002b) relataram alguns problemas na extração em artigos

completos: falsos positivos como nomes de reagentes químicos são mais raros em resumos;

vários falsos negativos encontram-se em tabelas e figuras. As principais técnicas utilizadas

por Tanabe e Wilbur (2002a) é resumida na Tabela 17.

Tabela 17 – Abordagem híbrida proposta por Tanabe e Wilbur (2002a).

PLN Regras Aprendizado de Máquina Dicionário

Etiquetador POS de Brill

(1994)

Expressão

Regular Aprendizado Bayesiano

Lista e banco de

dados

O etiquetador POS utilizado gera automaticamente regras com palavras simples de

nomes de gene e proteína. Em seguida, regras são desenvolvidas para extrair nomes

compostos que são prevalentes na literatura. Algumas técnicas são utilizadas para filtrar os

falsos positivos e falsos negativos, a saber:

Falsos positivos: dicionário e regras são utilizados para remover os falsos positivos. O

dicionário contém 1.505 termos biológicos (ácidos, antígeno, etc.), 39 nomes de aminoácido,

233 enzimas, 593 células, 63.698 nomes de organismo do banco de dados do NCBI ou 4.357

termos não-biológicos. Expressões regulares foram elaboradas para excluir drogas com

sufixos comuns (e.g., -ole, -ane,-ate, etc.) e número seguido de medida (e.g., ).

Falsos negativos: dicionário, aprendizado de máquina e regras são utilizados para

recuperar os falsos negativos. O dicionário de 34.555 nomes simples e 7.611 nomes

compostos é construído a partir do banco de dados LocusLink e do Gene Ontology. Os nomes

Page 78: UNIVERSIDADE FEDERAL DE SÃO CARLOS CENTRO DE CIÊNCIAS ...gbd.dc.ufscar.br/~pablofmatos/files/QualiPabloFreire.pdf · UNIVERSIDADE FEDERAL DE SÃO CARLOS CENTRO DE CIÊNCIAS EXATAS

77

com uma baixa frequência de trigramas ou uma palavra do contexto antes ou depois do nome

também são selecionados. Palavra de contexto é gerada automaticamente por um algoritmo de

probabilidade (peso Bayesiano ou log odds score) que indica a probabilidade de nomes de

genes adjacentes aparecerem no texto. Expressões regulares adicionais são criadas para

permitir casamento de padrão de palavras com números e letras, e prefixos e sufixos comuns

(e.g., -gene, -like, -ase, homeo-).

Também se utiliza o aprendizado Bayesiano para encontrar a probabilidade de um

documento conter nome de gene/proteína, podendo assim não extrair informação de

documentos que não contêm nomes relacionados. Para isso, documentos que contêm nomes

de gene/proteína são treinados. Na classificação de novos documentos, documentos com

valores de similaridade abaixo de um limiar são descartados.

Extração de informação em resumos obteve uma precisão de e revocação de

usando a combinação da estratégia baseada em conhecimento (dicionário, regra e

PLN) e estatística (aprendizado de máquina). Segundo Aaron Cohen e Hersh (2005), o

ABGene é uma das abordagens baseada em regras mais bem-sucedida para reconhecimento

de gene e proteína em textos biomédicos.

4.2 BioRAT

BioRAT (Biological Research Assistant for Text mining,

http://bioinf.cs.ucl.ac.uk/biorat/) é um sistema capaz de recuperar e analisar informação de

resumos e artigos completos do domínio biomédico (CORNEY et al., 2004). Pesquisa por

artigos (resumo e artigo completo) disponível no banco de dados PubMed a partir da consulta

de entrada do usuário. Os artigos identificados na página no formato PDF são baixados e

convertidos para o formato textual (não é informado como é realizado a conversão de PDF

para o formato textual). Após recuperar os documentos relevantes, o sistema extrai fatos

interessantes. Esses fatos podem ser utilizados para povoar o banco de dados

automaticamente.

A extração de informação é baseada no conjunto de ferramentas desenvolvida pela

Universidade de Sheffield denominada GATE (General Architecture for Text Engineering).

GATE é utilizado para rotular as palavras (POS) para em seguida serem aplicados filtros para

excluir verbos que não são proteínas. Dois componentes do GATE são utilizados: gazetteers e

templates. O primeiro é utilizado para identificar palavras ou frases relacionadas a genes e

proteínas. O segundo permite extrair informação automaticamente a partir de padrões textuais.

Um exemplo de um simples template do sistema BioRAT é:

Page 79: UNIVERSIDADE FEDERAL DE SÃO CARLOS CENTRO DE CIÊNCIAS ...gbd.dc.ufscar.br/~pablofmatos/files/QualiPabloFreire.pdf · UNIVERSIDADE FEDERAL DE SÃO CARLOS CENTRO DE CIÊNCIAS EXATAS

78

onde “ ” e “ ” são slots para serem preenchidos com nomes de

proteína, definido por um gazetteer. Exemplo de uma sentença que é identificada pelo

template é: “Genetic evidence for the interaction of Pex7p and Pex13p is provided...”. Cada

template é criado manualmente com o auxílio da interface gráfica do BioRAT.

As principais técnicas utilizadas por Corney et al. (2004) é resumida na Tabela 18.

Tabela 18 – Abordagem de extração de informação proposta por Corney et al. (2004).

Recuperação de Informação Extração de Informação Dicionário Regras

Resumos e artigos completos

do PubMed Fatos (gene e proteína) Gazetters Template

BioRAT é comparado com o sistema de extração de informação SUISEKI

(BLASCHKE; VALENCIA 2002 apud CORNEY et al., 2004). O sistema SUISEKI utiliza

conhecimento estatístico como a frequência de palavras que ocorrem em uma frase. Os frames

de SUISEKI, similares aos templates do BioRAT, contêm padrões relacionados a substantivos

e verbos, mas não reconhecem conjunção, adjetivos ou outra classe de palavra.

Para avaliar o BioRAT foi utilizado o DIP (Database of Interacting Proteins) com 389

registros que contém 229 resumos do PubMed. O DIP é um banco de dados que contém

interações entre proteínas, as quais serviram como benchmark para comparar os resultados

obtidos do SUISEKI com o BioRAT.

O sistema BioRAT utilizou um total de 19 templates derivados dos frames de

SUISEKI e 127 gazetteers derivados do MeSH e outras fontes. A revocação alcançada por

ambos sistemas em resumos é aproximadamente a mesma (BioRAT = e SUISEKI =

). A taxa de revocação do BioRAT em artigo completo foi de , sendo

do corpo do artigo e do resumo. No entanto, a precisão do resumo foi maior do que no

artigo completo, respectivamente, e (Tabela 16). Isto aconteceu devido as

imperfeições no conjunto de templates usado pelo BioRAT. É destacado por Corney at al.

(2004) que a solução para diminuir o erro de precisão é utilizar um esforço manual para

aumentar as restrições dos templates.

4.3 Bremer et al. (2004)

Bremer et al. (2004) desenvolveram um sistema integrado que combina dicionários

(sinônimos, gene e proteína) com regras para extrair e organizar as relações genéticas de

artigos completos. As relações extraídas são armazenadas em um banco de dados que inclui o

código único do artigo (código do PubMed) e de quatros seções (resumo, introdução,

Page 80: UNIVERSIDADE FEDERAL DE SÃO CARLOS CENTRO DE CIÊNCIAS ...gbd.dc.ufscar.br/~pablofmatos/files/QualiPabloFreire.pdf · UNIVERSIDADE FEDERAL DE SÃO CARLOS CENTRO DE CIÊNCIAS EXATAS

79

materiais e método, resultados e discussão) para identificar, respectivamente, o artigo

selecionado e a seção onde as informações foram extraídos.

Dois dicionários são criados com informação de nomes de gene e proteína (282.882), e

sinônimos (274.845 sinônimos e 124 verbos de relação) para identificar sentenças que contém

nomes de gene/proteína. O dicionário de gene e proteína foi construído a partir de vários

banco de dados existentes como o LocusLink, o SWISS-PROT, dentre outros (alguns desses

bancos foram apresentados na seção 3.2.1). O dicionário de sinônimo contém variações de

sinônimos (e.g., inhibit → inhibits, inhibition, inhibited), informações contextuais como

prefixos e sufixos (e.g., kinase, phosphate, receptor) e verbos de interação que foram criados

a partir da análise de 1.000 artigos por um processo semiautomático.

Os nomes armazenados no dicionário ajudaram a identificar sentenças que contêm um

ou mais nomes de gene/proteína. A partir das sentenças identificadas, um conjunto de padrão

de regras foi elaborado para extrair genes. As regras foram baseadas na combinação de nomes

de gene/proteína, preposições e palavras-chave que indicam o tipo de relacionamento entre

genes. Também foram criados padrões usando substantivos e verbos na forma passiva e ativa.

A extração de informação é dividida em quatro passos:

1. Toquenizar o texto em sentenças;

2. Analisar sentenças para identificar frases com substantivo e verbo;

3. Selecionar sentenças que contêm genes usando dicionários de nome de gene e

proteína, e sinônimo;

4. Extrair gene utilizando regras de casamento de padrão.

A ferramenta de processamento textual LexiQuestMine da empresa SPSS

(http://www.spss.com) foi utilizada para construir os dicionários de nomes de gene e

proteína, sinônimos e padrões associados com genes.

Scripts foram desenvolvidos com o auxílio do software GetItRight (disponível

comercialmente em http://www.cthtech.com/) para conectar e baixar artigos completos

automaticamente no formato HTML. Um pré-processamento é realizado para converter o

arquivo HTML para o formato XML. Para isso, por exemplo, removeu as etiquetas HTML,

substituiu símbolos gregos (e.g., α → alfa) e eliminou as referências do artigo. No documento

XML (Figura 22) foram incluídas etiquetas para cada seção, além de informações sobre o

título e código do artigo. As figuras do artigo não foram incluídas no banco de dados, a fim de

economizar espaço de armazenamento.

Page 81: UNIVERSIDADE FEDERAL DE SÃO CARLOS CENTRO DE CIÊNCIAS ...gbd.dc.ufscar.br/~pablofmatos/files/QualiPabloFreire.pdf · UNIVERSIDADE FEDERAL DE SÃO CARLOS CENTRO DE CIÊNCIAS EXATAS

80

Figura 22 – Exemplo de um documento XML com etiquetas de quatro seções.

Fonte: Bremer et al. (2004).

Foram selecionados artigos no domínio da biologia molecular e da biomedicina, mais

especificamente sobre tumores celebrais, de 20 revistas entre 1999 e 2003. Para avaliar o

sistema, selecionou randomicamente 100 artigos, sendo cinco de cada revista e um de cada

ano. Dez neurobiólogos analisaram manualmente esses 100 artigos e identificaram 141 nomes

de gene. A precisão e revocação alcançadas foram, respectivamente, e (Tabela

16). A baixa precisão foi devido aos erros de padrão na identificação de nomes de

gene/proteína em algumas sentenças e na falta de padrões com palavras compostas para

explorar sentenças complexas. A baixa revocação foi devido à diversidade de 20 artigos

diferentes.

4.3.1 Continuação do Trabalho de Bremer et al. (2004)

A partir da extração de informação de artigos científicos desenvolvida por Bremer et

al. (2004), Natarajan e Berrar et al. (2006) implementaram um processo de mineração de

textos como mostrado na Figura 23: artigos são baixados no formato HTML sem imagem e

convertidos para o formato XML, utilizando a ferramenta GetItFull (NATARAJAN; HAINES

et al., 2006); termos são extraídos do LexiQuestMine utilizando padrões; em seguida, no

módulo Curador, os termos são padronizados utilizando um dicionário de sinônimos para

serem, em fim, armazenados no data warehousing. Os dados armazenados são utilizados em

uma rede de interação para visualizar as interações de gene e proteína.

A partir do armazenamento dos dados, Natarajan e Berrar et al. (2006) identificaram

um relacionamento interessante entre o 1-fosfato de esfingosina e a invasividade de um tumor

e notaram que a rede de interação desenvolvida tem potencial para clarear o entendimento do

Page 82: UNIVERSIDADE FEDERAL DE SÃO CARLOS CENTRO DE CIÊNCIAS ...gbd.dc.ufscar.br/~pablofmatos/files/QualiPabloFreire.pdf · UNIVERSIDADE FEDERAL DE SÃO CARLOS CENTRO DE CIÊNCIAS EXATAS

81

papel desempenhado por tumores invasivos. Natarajan e Berrar et al. (2006) concluíram que a

extração automática de informações a partir de literatura biológica promete desempenhar um

papel cada vez mais importante na descoberta de conhecimento biológico.

Figura 23 – Processo de extração de padrão e data warehouse.

Fonte: Adaptado de Natarajan e Berrar et al. (2006).

4.4 Pharmspresso

O sistema Pharmspresso (http://pharmspresso.stanford.edu) extrai informação sobre

genes, drogas e polimorfismos de artigos completos da literatura pertinente à área da

farmacogenômica, a partir da consulta determinada pelo usuário. Portanto, é um sistema de

recuperação de informação que utiliza da extração de informação para recuperar as

informações de acordo com a necessidade do usuário (GARTEN; ALTMAN, 2009).

Pharmspresso tem o objetivo de processar artigos completos (formato PDF) utilizando

expressões regulares e indexar o conteúdo com base em uma ontologia de conceitos. O

Pharmspresso é baseado no sistema Textpresso desenvolvido por Müller, Kenny e Sternberg

(2004 apud GARTEN; ALTMAN, 2009).

Textpresso é um sistema de pesquisa baseado em um conjunto de expressões regulares

para encontrar informação a partir da consulta do usuário em artigos fornecidos no formato

PDF; a ontologia foi construída com ajuda de especialista e contém categorias de frases e

palavras de interesse biológico como gene humano, droga, polimorfismo e categorias de

doença.

Na Figura 24 é mostrado o processo de recuperação e extração de informação

realizado pelo sistema. Artigos PDF são baixados, convertidos em formato textual e

toquenizado em palavras e sentenças individuais. Em seguida, o texto é analisado para

identificar palavras ou frases que são membros de categorias específicas de uma ontologia.

Page 83: UNIVERSIDADE FEDERAL DE SÃO CARLOS CENTRO DE CIÊNCIAS ...gbd.dc.ufscar.br/~pablofmatos/files/QualiPabloFreire.pdf · UNIVERSIDADE FEDERAL DE SÃO CARLOS CENTRO DE CIÊNCIAS EXATAS

82

Essas palavras ou frases identificadas são marcadas e indexadas para serem utilizadas em

pesquisas futuras realizadas por palavras-chave definidas pelo usuário.

Figura 24 – Processo para recuperar e extrair informação do Pharmspresso.

Fonte: Adaptado de Garten e Altman (2009).

A ferramenta open source xpdf (http://www.foolabs.com/xpdf) foi utilizada para

converter arquivos PDF para texto. Scripts em Perl foram adaptados do sistema Textpresso

para toquenizar as sentenças e palavras. A linguagem de programação Perl também foi

utilizada para colocar as etiquetas no formato XML.

Avaliação do sistema Pharmspresso foi realizada em 45 artigos, onde 11 avaliadores

(cientistas familiarizados com a literatura farmacogenética) encontraram 178 genes, 191

drogas e 204 polimorfismos. O sistema encontrou, respectivamente, (139),

(142) e (124). Caso a consulta seja encontrar a relação de gene e droga, a percentagem

é somente de (Tabela 16). Os valores dessas medidas correspondem a revocação

obtida.

Problemas com variações de nomes de gene foram encontrados, causando falsos

positivos. Algumas das limitações do sistema são: o limite de 1.025 artigos completos

predefinidos de 343 revistas diferentes; não há um mecanismo para pontuar as associações

mais frequentemente mencionadas; e impossibilidade de extrair informação de uma tabela

convertida no formato de imagem.

4.5 Considerações Finais

A maioria dos sistemas apresentados neste capítulo extrai informação sobre gene ou

proteína, utilizando a combinação das abordagens comumente utilizadas no domínio

biomédico: dicionário, regras e aprendizado de máquina. Também se encontra trabalhos que

optam em utilizar um etiquetador POS ou não. Em relação ao resultado gerado a partir da

extração de informação, cada trabalho tem objetivos diferentes que podem ser sintetizados

em: recuperar informação destacando as sentenças de acordo com a consulta definida pelo

usuário; extrair informação para dar suporte à análise dos dados. As informações extraídas

geralmente são armazenadas em um banco de dados para posteriormente identificar padrões e

relacionamentos interessantes (Tabela 16).

Page 84: UNIVERSIDADE FEDERAL DE SÃO CARLOS CENTRO DE CIÊNCIAS ...gbd.dc.ufscar.br/~pablofmatos/files/QualiPabloFreire.pdf · UNIVERSIDADE FEDERAL DE SÃO CARLOS CENTRO DE CIÊNCIAS EXATAS

83

No próximo capítulo será apresentada a proposta de trabalho deste projeto de pesquisa

em nível de mestrado que utilizará a abordagem híbrida: aprendizado de máquina, regras e

dicionário. A primeira será utilizada para classificar as sentenças relacionadas à doença

Anemia Falciforme em complicação, benefício ou outros (não é complicação nem benefício);

a segunda, para extrair termos (complicação e benefício) das sentenças classificadas

utilizando a terceira abordagem para auxiliar na identificação desses termos.

Será apresentada uma metodologia para extração de informação em dados não-

estruturados com o objetivo de armazenar as relevantes informações em um banco de dados

para que posteriormente possam ser extraídos padrões interessantes. O foco deste trabalho é

na segunda etapa (pré-processamento) do processo de Mineração de Textos (apresentado em

2.3), onde serão utilizadas dessas abordagens comumente desenvolvidas na literatura

biomédica para extrair informação.

Page 85: UNIVERSIDADE FEDERAL DE SÃO CARLOS CENTRO DE CIÊNCIAS ...gbd.dc.ufscar.br/~pablofmatos/files/QualiPabloFreire.pdf · UNIVERSIDADE FEDERAL DE SÃO CARLOS CENTRO DE CIÊNCIAS EXATAS

84

5 PROPOSTA DE DISSERTAÇÃO DE MESTRADO

Este trabalho de pesquisa em nível de mestrado está inserido em um projeto mais

amplo, o qual tem o objetivo de desenvolver um ambiente para a análise de dados da doença

Anemia Falciforme. Este ambiente é composto por dois sistemas principais: DORS-SCA

(Data Organizing and Recovering System for Sickle Cell Anemia) e DSS-SCA (Decision

Support System for Sickle Cell Anemia). O primeiro tem como objetivo extrair informações de

artigos científicos escritos em inglês sobre a doença Anemia Falciforme e armazená-las em

um banco de dados. Já o segundo objetiva identificar padrões ou permitir a predição de fatos

futuros por meio da aplicação de técnicas de data warehouse e mineração de dados.

Esta proposta de dissertação de mestrado está inserida no sistema DORS-SCA. Para

tanto, na seção 5.1 será apresentada a arquitetura geral deste sistema, onde serão discutidas

duas ferramentas: SCAtRanslator e SCAeXtractor. Na seção 5.2 é apresentada uma

metodologia para extração de informação. Em 5.3 são discutidas algumas questões

relacionadas ao desenvolvimento do projeto. E por fim, na seção 5.4 é apresentado o

cronograma de atividades.

5.1 Sistema DORS-SCA

O DORS-SCA tem como primeiro desafio converter documentos do formato PDF, que

é o formato no qual os artigos médicos sobre a doença Anemia Falciforme encontram-se

eletronicamente disponíveis, para o formato XML, que é o formato interno manipulado pelo

sistema de extração de informação. Outro desafio é extrair informações relevantes dos

arquivos em formato XML que possam significar informação imprescindível para os médicos.

A arquitetura geral do sistema DORS-SCA é apresentada na Figura 25.

Page 86: UNIVERSIDADE FEDERAL DE SÃO CARLOS CENTRO DE CIÊNCIAS ...gbd.dc.ufscar.br/~pablofmatos/files/QualiPabloFreire.pdf · UNIVERSIDADE FEDERAL DE SÃO CARLOS CENTRO DE CIÊNCIAS EXATAS

85

Figura 25 – Arquitetura do sistema DORS-SCA.

Os documentos são os artigos científicos sobre a doença Anemia Falciforme em

formato PDF (não-estruturado) (a). Estes artigos são selecionados e fornecidos por médicos

pesquisadores da doença. Em (b), a ferramenta SCAtRanslator converte os documentos do

formato original PDF para o formato XML. Em (c), a ferramenta SCAeXtractor extrai

informações relevantes dos documentos XML gerados pela ferramenta SCAtRanslator.

O processo de extração é guiado por um banco de dados auxiliar, o DBeXtractor (d),

que contém termos sinônimos da AF que são utilizados para ajudar na identificação de

informações relacionadas à essa doença. As informações extraídas são armazenadas pela

ferramenta SCAeXtractor no banco de dados SCA Database (e), o qual é projetado de acordo

com o modelo relacional (APÊNDICE B – MODELO RELACIONAL) desenvolvido a partir

do modelo de Entidade Relacionamento Estendido (APÊNDICE A – MODELO EER). Esse

banco contém dados da AF como tratamentos, sintomas, efeitos, fatores de risco e pacientes.

Na seção 5.1.1 é apresentado o sistema de conversão PDF→XML denominado

SCAtRanslator que está sendo desenvolvido por um aluno de iniciação científica da

USP/ICMC, Arthur Emanuel de Oliveira Carosia, sob a supervisão da professora Drª. Cristina

Dutra de Aguiar Ciferri, docente que participa do projeto mais amplo citado anteriormente.

Em seguida, na seção 5.1.2 é discutida o objetivo da ferramenta SCAeXtractor e qual a

abordagem utilizada para extração de informação.

5.1.1 SCAtRanslator

Segundo Arthur Emanuel de Oliveira Carosia, existem várias ferramentas disponíveis

atualmente para a conversão de documentos entre diferentes formatos, entretanto encontram-

Page 87: UNIVERSIDADE FEDERAL DE SÃO CARLOS CENTRO DE CIÊNCIAS ...gbd.dc.ufscar.br/~pablofmatos/files/QualiPabloFreire.pdf · UNIVERSIDADE FEDERAL DE SÃO CARLOS CENTRO DE CIÊNCIAS EXATAS

86

se vários problemas na conversão de PDF para outros formatos como TXT (arquivo de texto

comum) e HTML. As ferramentas apresentam diversas limitações, as quais introduzem erros

de conversão de artigos em duas ou mais colunas, de anotações em subscrito e sobrescrito, de

figuras e de tabelas, dentre outros.

A solução encontrada foi desenvolver uma ferramenta que suprisse as limitações

apresentadas pelas ferramentas existentes, principalmente porque artigos científicos sobre a

doença Anemia Falciforme são usualmente divididos em duas colunas e possuem diversas

observações em subscrito e sobrescrito, além de apresentarem características de formatação

particulares.

A ferramenta SCAtRanslator (Sickle Cell Anemia tRanslator) é uma proposta nesse

sentido. Tem como entrada artigos científicos no formato PDF (não-estruturado). O objetivo é

converter esses arquivos PDF em documentos XML para que possam ser utilizados pela

ferramenta de extração de informação (SCAeXtractor).

Para alcançar esse objetivo foram realizados três passos (Figura 26):

1. API do Gmail, ferramenta de e-mail desenvolvida pela Google, foi utilizada

para converter PDF para HTML sem perda de informação. Esta API foi a

melhor ferramenta encontrada para realização desta tarefa. O arquivo

convertido possui informações textuais com etiquetas HTML;

2. Neste passo utiliza-se do arquivo intermediário TXT para gerar o texto sem

etiquetas HTML e facilitar a leitura e o processamento textual. Este arquivo é

utilizado para substituir as etiquetas HTML por XML;

3. O arquivo TXT contém os dados fornecidos pelo arquivo HTML (passo 1).

Com a elaboração de simples heurísticas (alguns exemplos de heurísticas são

apresentados a seguir) é gerado o documento XML com as seguintes etiquetas:

nome da revista, título, subtítulos, autores do artigo, parágrafos e sentenças de

uma determinada página.

Exemplos de algumas heurísticas desenvolvidas:

A maior fonte do texto identifica o título do artigo;

Palavras em negrito ou totalmente em letras maiúsculas sem ponto final e que

ocupam apenas uma linha são identificadas como subtítulo;

Para identificar parágrafo são analisadas três linhas do arquivo HTML: a

linha atual , linha anterior e próxima linha . Caso o atributo

Page 88: UNIVERSIDADE FEDERAL DE SÃO CARLOS CENTRO DE CIÊNCIAS ...gbd.dc.ufscar.br/~pablofmatos/files/QualiPabloFreire.pdf · UNIVERSIDADE FEDERAL DE SÃO CARLOS CENTRO DE CIÊNCIAS EXATAS

87

da linha seja maior que a linha e , então a linha inicia um

parágrafo;

Palavra terminada com letra minúscula e seguida de ponto (.) é identificada

como sentença.

Figura 26 – Passos do sistema SCAtRanslator para conversão de arquivo PDF → XML.

A linguagem de programação Perl foi utilizada para geração dos scripts. Cada

documento XML gerado pela ferramenta deve manter o mesmo conteúdo textual do

documento PDF original, permitindo inclusive a identificação de uma sentença de um

parágrafo de uma página. Um exemplo de documento XML gerado pela ferramenta

SCAtRanslator é mostrado na Figura 27.

Figura 27 – Exemplo de documento XML gerado pela ferramenta SCAtRanslator.

Page 89: UNIVERSIDADE FEDERAL DE SÃO CARLOS CENTRO DE CIÊNCIAS ...gbd.dc.ufscar.br/~pablofmatos/files/QualiPabloFreire.pdf · UNIVERSIDADE FEDERAL DE SÃO CARLOS CENTRO DE CIÊNCIAS EXATAS

88

5.1.2 SCAeXtractor

SCAeXtractor tem o objetivo de extrair informação de artigos científicos sobre a

doença Anemia Falciforme. Para alcançar esse denominador comum, a extração de

informação foi separada em módulos de acordo com as cinco características relacionadas à

AF explicadas em 1.1.2: paciente, sintoma, fator de risco, tratamento e efeitos (positivo e

negativo). Este trabalho de pesquisa em nível de mestrado intenciona extrair informação sobre

efeitos positivo e negativo (os termos benefício e complicação às vezes são usados em

substituição a efeitos positivo e negativo, respectivamente). A extração de informação sobre

paciente está sendo desenvolvida pelo aluno de mestrado, Leonardo de Oliveira Lombardi,

orientado pela professora Drª. Marina Teresa Pires Vieira que também participa do projeto

mais amplo.

Em relação às abordagens utilizadas para extrair informação, cada abordagem tem

vantagens e desvantagens como foi discutido no capítulo 3. Os sistemas de extração de

informação geralmente utilizam a combinação de duas ou mais técnicas para aumentar a

precisão e revocação das informações a serem extraídas. Sabendo-se das vantagens que cada

uma dessas abordagens pode contribuir em um sistema de extração, o sistema proposto neste

trabalho de pesquisa em nível de mestrado, denominado SCAeXtractor (Sickle Cell Anemia

eXtractor), propõe extrair informação com o objetivo de obter as vantagens de cada uma

dessas abordagens.

Este trabalho de pesquisa intenciona extrair informação sobre termos da doença

Anemia Falciforme mais especificamente sobre efeitos positivo e negativo, utilizando a

combinação de três técnicas utilizadas na literatura:

1. Aprendizado de máquina: utilizado para classificação de textos;

2. Regras: padrões são utilizados para extrair informação das sentenças

classificadas no passo anterior;

3. Dicionário: armazena informações relacionadas à AF no intuito de auxiliar na

construção de regras, aumentando a precisão e revocação na identificação

dessas informações. A construção do dicionário será manual, a partir da

identificação de termos em artigos científicos.

5.2 Metodologia de Extração de Informação

A metodologia de extração de informação consiste na utilização das três abordagens

explicadas anteriormente (aprendizado de máquina, regras e dicionário) e que estão inseridas

na fase de pré-processamento do processo de Mineração de Textos discutido na seção 2.3. As

Page 90: UNIVERSIDADE FEDERAL DE SÃO CARLOS CENTRO DE CIÊNCIAS ...gbd.dc.ufscar.br/~pablofmatos/files/QualiPabloFreire.pdf · UNIVERSIDADE FEDERAL DE SÃO CARLOS CENTRO DE CIÊNCIAS EXATAS

89

etapas do processo são mostradas na Figura 28: coleta de documentos, pré-processamento,

extração de padrões, e análise e avaliação dos resultados.

Figura 28 – Processo de Mineração de Textos.

O objetivo deste trabalho de pesquisa em nível de mestrado é: Coletar os documentos

fornecidos pelo pesquisador, os quais serão a entrada para o pré-processamento textual (a);

Na fase de pré-processamento o documento será convertido do formato PDF para o formato

XML. A partir do documento XML serão utilizadas as três abordagens (aprendizado de

máquina, regras e dicionário) para extrair informações relevantes; Em seguida, em (c) essas

informações serão medidas para avaliar a qualidade da extração. Essas informações também

serão armazenadas em um banco de dados, onde futuramente poderá ser aplicados algoritmos

de Mineração de Dados, a fim de descobrir padrões interessantes (b); A descoberta desses

padrões deverá ser avaliada com o intuito de conhecer a confiabilidade dos mesmos (d).

A etapa de extração de padrões não será realizada neste trabalho e consequentemente

não será avaliada a qualidade dessa extração (objetos pontilhados na Figura 28). Portanto, a

seguir as três etapas utilizadas neste trabalho, coleta de documentos, pré-processamento e

análise e avaliação dos resultados, serão explicadas, respectivamente, em 5.2.1, 5.2.2 e 5.2.3.

A contribuição deste trabalho está na etapa de pré-processamento. Na seção 5.2.4 são feitas as

considerações finais do processo de extração, detalhando e explicando a participação do

especialista do domínio.

5.2.1 Coleta de Documentos

A seleção de documentos que corresponde a entrada do sistema SCAeXtractor possui

as seguintes características:

Artigos científicos completos (full articles) sobre a doença Anemia

Falciforme; Selecionados por especialistas do domínio da doença mencionada,

geralmente pesquisadores da área de saúde (médicos e biólogos);

Page 91: UNIVERSIDADE FEDERAL DE SÃO CARLOS CENTRO DE CIÊNCIAS ...gbd.dc.ufscar.br/~pablofmatos/files/QualiPabloFreire.pdf · UNIVERSIDADE FEDERAL DE SÃO CARLOS CENTRO DE CIÊNCIAS EXATAS

90

Artigos consultados em revistas científicas como Haematologica, Blood, The

New England Journal of Medicine e British Journal of Haematology;

Fornecidos no formato PDF.

5.2.2 Pré-processamento

Esta etapa irá preparar os dados em um formato que possa ser processado pela

ferramenta SCAeXtractor. Para isso, a ferramenta SCAtRanslator está sendo desenvolvida

para converter formato não-estruturado PDF para o formato semi-estruturado XML. A partir

do documento XML disponível, o próximo passo é classificar as sentenças (5.2.2.1) e em

seguida, extrair informação dessas sentenças (5.2.2.2).

5.2.2.1 Categorização

O classificador Mover (explicado em 3.2.3.5) é utilizado para classificar as sentenças

em três classes (Figura 29): complicação, benefício e outros.

Figura 29 – Treinamento e teste na ferramenta Mover.

O processo de classificação é dividido em duas fases: treinamento e teste. Na primeira

fase é necessário identificar as sentenças de alguns artigos (pretende-se selecionar de 500 a

1.500 sentenças). Este processo é realizado de forma manual e contará com a ajuda de

médicos especialistas da doença para validar se as sentenças foram classificadas corretamente.

Na etapa de Análise dos Resultados (seção 5.2.3) é discutida a forma de avaliar o quanto os

médicos e leigos concordam na classificação das sentenças.

Após identificar as sentenças nos artigos, o classificador Mover será treinado com a

quantidade de sentenças identificadas nos artigos. Este treinamento requer uma determinada

Page 92: UNIVERSIDADE FEDERAL DE SÃO CARLOS CENTRO DE CIÊNCIAS ...gbd.dc.ufscar.br/~pablofmatos/files/QualiPabloFreire.pdf · UNIVERSIDADE FEDERAL DE SÃO CARLOS CENTRO DE CIÊNCIAS EXATAS

91

quantidade de tempo de processamento dos humanos em selecionarem as sentenças e do

computador em analisar e classificar as sentenças.

Depois do treinamento, artigos com novas sentenças são selecionados para serem

classificados pelo Mover. As sentenças selecionadas dos artigos serão extraídas da etiqueta

do documento XML (Figura 27) por um processo automático. Essa etiqueta é

gerada pela ferramenta SCAtRanslator. Na Figura 30 é apresentado um exemplo utilizando a

ferramenta Mover que classifica dois artigos da doença Anemia Falciforme. As sentenças

desses artigos são classificadas em complicação, benefício ou outros.

Figura 30 – Exemplo do Mover na classificação de sentenças da AF.

Para qualquer classificador realizar bem a tarefa de classificação adequada é

imprescindível haver um bom treinamento e isso significa que as sentenças selecionadas

como complicação, benefício ou outros devem estar bem definidas nas classes adequadas.

5.2.2.2 Extração de Informação

Após a classificação das sentenças, intenciona extrair as informações relevantes dos

artigos, mais especificamente das sentenças classificadas. Para isso será desenvolvido um

módulo de efeitos da doença Anemia Falciforme que faz parte da ferramenta SCAeXtractor.

Este módulo utilizará as abordagens baseada em regras e dicionário. A primeira

abordagem ajudará na identificação de alguns padrões com o auxílio da segunda. Para a

identificação dos padrões são utilizadas expressões regulares (ER). Tem-se pensado em

algumas estratégias para:

Page 93: UNIVERSIDADE FEDERAL DE SÃO CARLOS CENTRO DE CIÊNCIAS ...gbd.dc.ufscar.br/~pablofmatos/files/QualiPabloFreire.pdf · UNIVERSIDADE FEDERAL DE SÃO CARLOS CENTRO DE CIÊNCIAS EXATAS

92

1. Identificar verdadeiro positivo: algumas palavras correspondentes a

complicação e benefício são armazenadas no banco de dados auxiliar, a fim de

confirmar as sentenças que foram realmente classificadas na devida classe;

2. Eliminar falso positivo: palavras relacionadas a fator de risco também são

armazenadas para auxiliar na identificação de sentenças que foram

classificadas erroneamente;

3. Elaborar outras estratégias.

A partir de alguns testes preliminares na ferramenta Mover, algumas sentenças foram

classificadas como sendo da classe benefício (Tabela 19). Algumas palavras-chave como

, e podem ratificar que as três primeiras sentenças são

mesmo da classe benefício (estratégia 1). Já a palavra-chave

na quarta sentença, pode identificar um falso positivo, não sendo assim inserido no banco de

dados equivocadamente (estratégia 2).

Tabela 19 – Sentenças classificadas pelo Mover como sendo da classe benefício.

1 reductions in the frequency of chest syndrome and the number of transfusions strengthen the

conclusion that hydroxyurea is a useful agent in sickle cell anemia

2 in scd children hydroxyurea has been shown to decrease the rate and the intensity of painful events

and the number of days of hospitalization

3 hydroxyurea therapy can ameliorate the clinical course of sickle cell anemia in some adults with

three or more painful crises per year

4 treatment was also stopped in another patient because of the first occurrence of pathological tcd

velocities

5.2.3 Análise e Avaliação dos Resultados

Para avaliação dos resultados obtidos serão utilizadas as medidas de precisão,

revocação e - . Essas medidas serão utilizadas tanto para avaliar o classificador

(Mover) quanto o extrator (SCAeXtractor). Testes serão realizados com as três medidas de

utilidade (frequência do documento, qui-quadrado e ganho de informação) implementadas no

Mover. Com este teste pretende-se obter melhores resultados com o ganho de informação, o

mesmo resultado obtido por Anthony e Lashkia (2003). O método de particionamento

stratified 10-fold cross-validation será utilizado para calcular a taxa de erro do classificador.

Esta taxa será comparada com a medida . O erro majoritário do classificador também

será calculado.

A medida de concordância será utilizada para avaliar quão bem definida está a

tarefa de classificação, em outras palavras, avaliará como a classificação é realizada por

humanos. Neste trabalho de pesquisa são considerados dois grupos de anotadores/juízes:

Page 94: UNIVERSIDADE FEDERAL DE SÃO CARLOS CENTRO DE CIÊNCIAS ...gbd.dc.ufscar.br/~pablofmatos/files/QualiPabloFreire.pdf · UNIVERSIDADE FEDERAL DE SÃO CARLOS CENTRO DE CIÊNCIAS EXATAS

93

médico especialista em Anemia Falciforme e leigo (não-médico). Serão considerados para

cada grupo três anotadores que são incumbidos de classificar algumas sentenças (de 50 a 100

sentenças) em três classes: complicação, benefício e outros. Esta última classe é necessária

para caso o anotador considerar que a sentença não seja de nenhuma das outras duas classes.

No domínio biomédico, Hatzivassiloglou, Duboue e Rzhetsky (2001 apud

SCHUEMIE et al., 2007) relataram que anotadores humanos só concordaram em das

ocorrências na tarefa de classificar se a informação no texto é um gene, proteína ou RNAm

(mensageiro). Na tarefa de classificar sentenças da Anemia Falciforme espera-se que os

anotadores médicos concordem mais que esse percentual.

De forma geral, as medidas de precisão, revocação e - serão utilizadas para

avaliar a extração de informação, sendo assim uma avaliação quantitativa; a medida

será utilizada para avaliar a concordância dos especialistas e leigos, sendo uma avaliação

qualitativa.

A partir das três abordagens utilizadas no pré-processamento, intenciona a realização

de quatro experimentos, a saber: 1) Aprendizado de máquina; 2) Regras geradas com

expressão regular; 3) Aprendizado de máquina e regras geradas com expressão regular; 4)

Aprendizado de máquina e regras geradas com expressão regular com auxílio do dicionário. A

precisão, revocação e - também serão as medidas utilizadas para avaliar e comparar

os quatros experimentos.

5.2.4 Considerações Finais

Na Figura 31 é resumido o processo de extração de informação destacando a

participação do médico na extração.

O especialista do domínio tem papel importante durante a conversão PDF→XML e

extração de informação. Na primeira, o especialista pode opinar sobre a conversão

informando a qualidade do documento gerado e sugerindo adaptações; na segunda, o

especialista pode validar a lista de termos identificados na sentença antes da mesma ser

armazenada no banco de dados. Além disso, na primeira etapa (coleta de documentos) o

especialista é incumbido de selecionar os artigos científicos no formato PDF, iniciando assim

a conversão e, por conseguinte a extração. Este processo é semiautomático devido à

participação do especialista do domínio tanto na seleção do documento quanto na extração de

informação.

Page 95: UNIVERSIDADE FEDERAL DE SÃO CARLOS CENTRO DE CIÊNCIAS ...gbd.dc.ufscar.br/~pablofmatos/files/QualiPabloFreire.pdf · UNIVERSIDADE FEDERAL DE SÃO CARLOS CENTRO DE CIÊNCIAS EXATAS

94

Figura 31 – Processo geral de extração de informação.

Existem vários sistemas que extraem informação utilizando a combinação das três

abordagens. As informações geralmente são extraídas de resumos do MEDLINE e são

frequentemente sobre genes ou proteínas. Como o objetivo deste trabalho de pesquisa é

extrair informação de artigos completos e sobre o domínio da doença Anemia Falciforme, não

é possível realizar uma comparação direta com esses sistemas.

5.3 Questões relacionadas ao desenvolvimento

Para o desenvolvimento do sistema será utilizado a linguagem de programação Java no

ambiente de desenvolvimento integrado NetBeans IDE. O banco de dados será implementado

usando o sistema gerenciador de banco de dados PostgreSQL 8.3. A ferramenta Jude

Community 5.4.1 será utilizada para modelagem do diagrama de classes do sistema (uma

versão inicial pode se encontrada no APÊNDICE C – DIAGRAMA DE CLASSES). O

programa de análise estatística SPSS Statistics 17.0 (Statistical Package for the Social

Sciences) será utilizado para calcular a medida . Exceto a ferramenta da SPSS, todas as

outras são open source.

Para converter arquivos PDF→XML na ferramenta SCAtRanslator está sendo

utilizada a linguagem de programação Perl. Todavia, o módulo de extração da ferramenta

SCAeXtractor está sendo desenvolvido em Java. A dúvida em qual das duas linguagens

utilizar no desenvolvimento do módulo da ferramenta SCAeXtractor, surgiu devido ao

Page 96: UNIVERSIDADE FEDERAL DE SÃO CARLOS CENTRO DE CIÊNCIAS ...gbd.dc.ufscar.br/~pablofmatos/files/QualiPabloFreire.pdf · UNIVERSIDADE FEDERAL DE SÃO CARLOS CENTRO DE CIÊNCIAS EXATAS

95

conhecido poder de Perl de gerar expressões regulares robustas e por outro lado, de Java

oferecer bons recursos para o desenvolvimento de interface gráfica e leitura de documento

XML.

Perl é conhecida como sendo apropriada para geração de scripts utilizando ER, porém

deixa a desejar no aspecto de interface gráfica e leitura de documento XML. No entanto, além

dos recursos conhecidos da linguagem Java, a partir da versão 1.4 (SUN MICROSYSTEMS),

oferece acesso para desenvolver ER. Assim, por causa desses motivos optou-se em

desenvolver a ferramenta SCAeXtractor em Java. Porém, caso seja necessário o

desenvolvimento de ER em Perl devido à impossibilidade de (ou ao trabalho para) ser

codificada em Java, sabe-se da viabilidade de utilizar uma chamada externa em Java para

scripts Perl.

5.4 Cronograma de Atividades

As atividades propostas para o desenvolvimento deste trabalho de pesquisa em nível

de mestrado são descritas a seguir:

1. Defesa do exame de qualificação;

2. Classificação manual em três classes (complicação, benefício e outros) de 100

sentenças extraídas de artigos científicos sobre a doença Anemia Falciforme

realizada por três anotadores médicos e por três anotadores leigos e, por

conseguinte, cálculo da medida de concordância ;

3. Treinamento e teste no classificador Mover das sentenças de efeitos (positivo e

negativo) da Anemia Falciforme identificadas manualmente nos artigos. A taxa

de precisão do classificador é comparada com o resultado da medida

calculada na atividade anterior. Pretende-se treinar o classificador com 500 a

1.500 sentenças;

4. Desenvolvimento do módulo de extração de efeitos da Anemia Falciforme,

utilizando a abordagem baseada em regras e dicionário;

5. Avaliar o classificador e o extrator com as medidas de precisão, revocação e

- ;

6. Redação e submissão de artigo aos encontros qualificados de Ciência da

Computação;

7. Concepção e projeto da ferramenta SCAeXtractor, integrando o classificador

Mover e o módulo de extração nesta ferramenta para o processo de extração de

informação ser realizado de forma transparente e automática;

Page 97: UNIVERSIDADE FEDERAL DE SÃO CARLOS CENTRO DE CIÊNCIAS ...gbd.dc.ufscar.br/~pablofmatos/files/QualiPabloFreire.pdf · UNIVERSIDADE FEDERAL DE SÃO CARLOS CENTRO DE CIÊNCIAS EXATAS

96

8. Realização dos quatros testes propostos na análise dos resultados (seção 5.2.3);

9. Possibilitar ao especialista do domínio visualizar e validar o resultado da

extração de informação;

10. Redação da dissertação de mestrado;

11. Preparação e defesa da dissertação.

Tabela 20 – Cronograma de atividades.

Atividade 2009 2010

Abr Mai Jun Jul Ago Set Out Nov Dez Jan Fev Mar Abr

1

2

3

4

5

6

7

8

9

10

11

Page 98: UNIVERSIDADE FEDERAL DE SÃO CARLOS CENTRO DE CIÊNCIAS ...gbd.dc.ufscar.br/~pablofmatos/files/QualiPabloFreire.pdf · UNIVERSIDADE FEDERAL DE SÃO CARLOS CENTRO DE CIÊNCIAS EXATAS

97

REFERÊNCIAS

AFANTENOS, S.; KARKALETSIS, V.; STAMATOPOULOS, P. Summarization from

medical documents: a survey. Artificial Intelligence in Medicine, v. 33, n. 2, p. 157-177,

2005. Disponível em: <http://dx.doi.org/10.1016/j.artmed.2004.07.017>. Acesso em: 25 fev.

2009.

AGATONOVIC, M. et al. Large-scale, parallel automatic patent annotation. In: ACM

WORKSHOP ON PATENT INFORMATION RETRIEVAL, 2008, Napa Valley, California.

Proceedings... New York: ACM, 2008. p. 1-8. Disponível em:

<http://doi.acm.org/10.1145/1458572.1458574>. Acesso em: 10 mar. 2009.

ANANIADOU, S.; FRIEDMAN, C.; TSUJII, J. I. (Ed.). Introduction: named entity

recognition in biomedicine. Journal of Biomedical Informatics, v. 37, n. 6, p. 393-395,

2004. Disponível em: <http://dx.doi.org/10.1016/j.jbi.2004.08.011>. Acesso em: 12 mar.

2009.

ANANIADOU, S.; MCNAUGHT, J. (Ed.). Text mining for biology and biomedicine.

Norwood, MA: Artech House, 2006. 302 p.

ANANIADOU, S.; NENADIC, G. Automatic terminology management in biomedicine. In:

ANANIADOU, S.; MCNAUGHT, J. (Ed.). Text mining for biology and biomedicine.

Norwood, MA: Artech House, 2006. p. 67-98.

ANTHONY, L. Writing research article introductions in software engineering: how accurate

is a standard model? IEEE Transactions on Professional Communication, v. 42, n. 1, p.

38-46, 1999. Disponível em: <http://ieeexplore.ieee.org/xpls/abs_all.jsp?arnumber=749366>.

Acesso em: 20 fev. 2009.

______. AntMover 1.0. 2009. Disponível em:

<http://www.antlab.sci.waseda.ac.jp/software/antmover1.0.exe>. Acesso em: 09 mar. 2009.

ANTHONY, L.; LASHKIA, G. V. Mover: a machine learning tool to assist in the reading and

writing of technical papers. IEEE Transactions on Professional Communication, v. 46, n.

3, p. 185-193, 2003. Disponível em:

<http://ieeexplore.ieee.org/xpls/abs_all.jsp?arnumber=1227591>. Acesso em: 23 out. 2008.

ARANHA, C. N. Uma abordagem de pré-processamento automático para mineração de

textos em português: sob o enfoque da inteligência computacional. 144 f. Tese (Doutorado

em Engenharia Elétrica) – Departamento de Engenharia Elétrica, Pontifícia Universidade

Católica do Rio de Janeiro, Rio de Janeiro, 2007. Disponível em:

<http://www.maxwell.lambda.ele.puc-

rio.br/Busca_etds.php?strSecao=resultado&nrSeq=10081@1>. Acesso em: 18 set. 2008.

ARANHA, C. N.; PASSOS, E. P. L. A tecnologia de mineração de textos. Revista

Eletrônica de Sistemas de Informação (RESI), v.8, n. 2, p. 1-8, 2006. Disponível em:

<http://www.facecla.com.br/revistas/resi/edicoes/ed8tut01.pdf>. Acesso em: 27 ago. 2008.

ASSAF, A. V. et al. Comparação entre medidas de reprodutibilidade para a calibração em

levantamentos epidemiológicos da cárie dentária. Cadernos de Saúde Pública, v. 22, n. 9, p.

Page 99: UNIVERSIDADE FEDERAL DE SÃO CARLOS CENTRO DE CIÊNCIAS ...gbd.dc.ufscar.br/~pablofmatos/files/QualiPabloFreire.pdf · UNIVERSIDADE FEDERAL DE SÃO CARLOS CENTRO DE CIÊNCIAS EXATAS

98

1901-1907, 2006. Disponível em: <http://dx.doi.org/10.1590/S0102-311X2006000900021>.

Acesso em: 09 mar. 2009.

BADER-MEUNIER, B. et al. Effect of transfusion therapy on cerebral vasculopathy in

children with sickle-cell anemia. Haematologica, v. 94, n. 1, p. 123-126, 2009. Disponível

em: <http://dx.doi.org/10.3324/haematol.13610>. Acesso em: 26 jan. 2009.

BATISTA, A.; ANDRADE, T. C. Anemia falciforme: um problema de saúde pública no

Brasil. Universitas: Ciências da Saúde, v. 3, n. 1, p. 83-99, 2005. Disponível em:

<http://www.publicacoesacademicas.uniceub.br/index.php/cienciasaude/article/viewFile/547/

367>. Acesso em: 29 jan. 2009.

BATISTA, G. E. A. P. A.; MONARD, M. C. Utilizando métodos estatísticos de resampling

para estimar a performance de sistemas de aprendizado. In: WORKSHOP DE

DISSERTAÇÕES DEFENDIDAS, 1998, São Carlos. Proceedings... Instituto de Ciências

Matemáticas e de Computação, 1998. p. 173-184. Disponível em:

<http://www.icmc.usp.br/~mcmonard/public/icmcwshG1998.pdf>. Acesso em: 17 fev. 2009.

BEKHUIS, T. Conceptual biology, hypothesis discovery, and text mining: Swanson's legacy.

Biomedical Digital Libraries, v. 3, n. 1, p. 2, 2006. Disponível em:

<http://dx.doi.org/10.1186/1742-5581-3-2>. Acesso em: 22 ago. 2008.

BLAKE, C.; PRATT, W. Automatically identifying candidate treatments from existing

medical literature. In: MINING ANSWERS FROM TEXTS AND KNOWLEDGE BASES,

2002. Proceedings... Menlo Park, CA: AAAI Press, 2002. p. 9-13. Disponível em:

<http://www.aaai.org/Papers/Symposia/Spring/2002/SS-02-06/SS02-06-003.pdf>. Acesso

em: 22 ago. 2008.

BRASIL. Ministério da Saúde. Protocolo clínico e diretrizes terapêuticas - Portaria

SAS/MS nº 872. 2002. 5 p. Disponível em:

<http://portal.saude.gov.br/portal/arquivos/pdf/falciforme_pcdt.pdf>. Acesso em: 23 jan.

2009.

______. Ministério da Saúde. Manual da anemia falciforme para a população. Brasília -

DF, 2007. 20 p. Disponível em:

<http://bvsms.saude.gov.br/bvs/publicacoes/07_0206_M.pdf>. Acesso em: 30 out. 2008.

______. Ministério da Saúde. Agência Nacional de Vigilância Sanitária. Doença falciforme:

manual do agente de saúde. 2009. 10 p. Disponível em:

<http://bvsms.saude.gov.br/bvs/publicacoes/anvisa/agente.pdf>. Acesso em: 23 jan. 2009.

BREMER, E. G. et al. Text mining of full text articles and creation of a knowledge base for

analysis of microarray data. In: KNOWLEDGE EXPLORATION IN LIFE SCIENCE

INFORMATICS (KELSI), 2004, Milan, Italy. Proceedings... 2004. p. 84-95. Disponível em:

<http://dx.doi.org/10.1007/b103729>. Acesso em: 27 mar. 2009.

CANÇADO, R. D.; JESUS, J. A. A doença falciforme no Brasil. Revista Brasileira de

Hematologia e Hemoterapia, v. 29, n. 3, p. 204-206, 2007. Disponível em:

<http://dx.doi.org/10.1590/S1516-84842007000300002>. Acesso em: 29 jan. 2009.

Page 100: UNIVERSIDADE FEDERAL DE SÃO CARLOS CENTRO DE CIÊNCIAS ...gbd.dc.ufscar.br/~pablofmatos/files/QualiPabloFreire.pdf · UNIVERSIDADE FEDERAL DE SÃO CARLOS CENTRO DE CIÊNCIAS EXATAS

99

CARLETTA, J. Assessing agreement on classification tasks: the kappa statistic.

Computational Linguistics, v. 22, n. 2, p. 249-254, 1996. Disponível em:

<http://www.aclweb.org/anthology-new/J/J96/J96-2004.pdf>. Acesso em: 24 out. 2008.

CARRILHO JUNIOR, J. R. Desenvolvimento de uma metodologia para mineração de

textos. 96 f. Dissertação (Mestrado em Engenharia Elétrica) – Departamento de Engenharia

Elétrica do Centro Técnico Científico, Pontifícia Universidade Católica do Rio de Janeiro,

Rio de Janeiro, 2007. Disponível em: <http://www.maxwell.lambda.ele.puc-

rio.br/Busca_etds.php?strSecao=resultado&nrSeq=11675@1>. Acesso em: 18 set. 2008.

CHAAR, V. et al. ET-1 and ecNOS gene polymorphisms and susceptibility to acute chest

syndrome and painful vaso-occlusive crises in children with sickle cell anemia.

Haematologica v. 91, n. 9, p. 1277-1278, 2006. Disponível em:

<http://www.haematologica.org/cgi/content/abstract/91/9/1277>. Acesso em: 25 ago. 2008.

CHANG, C.-H. et al. A survey of web information extraction systems. IEEE Transactions

on Knowledge and Data Engineering, v. 18, n. 10, p. 1411-1428, 2006. Disponível em:

<http://dx.doi.org/10.1109/TKDE.2006.152>. Acesso em: 06 nov. 2008.

CHARACHE, S. et al. Effect of hydroxyurea on the frequency of painful crises in sickle cell

anemia. The New England Journal of Medicine, v. 332, n. 20, p. 1317-1322, 1995.

Disponível em: <http://content.nejm.org/cgi/reprint/332/20/1317.pdf>. Acesso em: 25 ago.

2008.

CHEN, H. Knowledge management systems: a text mining perspective. Tucson, AZ:

University of Arizona, 2001. 50 p. Disponível em:

<http://ai.bpa.arizona.edu/go/download/chenKMSi.pdf>. Acesso em: 23 out. 2008.

CHEN, H. et al. Medical informatics: knowledge management and data mining in

biomedicine. Berlin: Springer, 2005. 624 p. Disponível em:

<http://ai.arizona.edu/hchen/chencourse/MedBook/>. Acesso em: 23 out. 2008.

CHEUNG, C. F.; LEE, W. B.; WANG, Y. A multi-facet taxonomy system with applications

in unstructured knowledge management. Journal of Knowledge Management, v. 9, n. 6, p.

76-91, 2005. Disponível em: <http://dx.doi.org/10.1108/13673270510629972>. Acesso em:

23 out. 2008.

CHUN, H.-W. et al. Extraction of gene-disease relations from medline using domain

dictionaries and machine learning. In: PACIFIC SYMPOSIUM ON BIOCOMPUTING

(PSB), 11th, 2006, Hawaii. Proceedings... 2006. p. 4-15. Disponível em:

<http://psb.stanford.edu/psb-online/proceedings/psb06/chun.pdf>. Acesso em: 11 fev. 2009.

COHEN, A. M.; HERSH, W. R. A survey of current work in biomedical text mining.

Briefings in Bioinformatics, v. 6, n. 1, p. 57-71, 2005. Disponível em:

<http://dx.doi.org/10.1093/bib/6.1.57>. Acesso em: 11 fev. 2009.

COHEN, J. A coefficient of agreement for nominal scales. Educational and Psychological

Measurement, v. 20, n. 1, p. 37-46, 1960.

Page 101: UNIVERSIDADE FEDERAL DE SÃO CARLOS CENTRO DE CIÊNCIAS ...gbd.dc.ufscar.br/~pablofmatos/files/QualiPabloFreire.pdf · UNIVERSIDADE FEDERAL DE SÃO CARLOS CENTRO DE CIÊNCIAS EXATAS

100

COHEN, K. B.; HUNTER, L. Getting started in text mining. PLoS Computational Biology,

v. 4, n. 1, p. 1-3, 2008. Disponível em: <http://dx.doi.org/10.1371%2Fjournal.pcbi.0040020>.

Acesso em: 15 dez. 2008.

COLLIER, N.; NOBATA, C.; TSUJII, J.-I. Extracting the names of genes and gene products

with a hidden Markov model. In: CONFERENCE ON COMPUTATIONAL LINGUISTICS -

VOLUME 1, 18th, 2000, Saarbrücken, Germany. Proceedings... Morristown, NJ: Association

for Computational Linguistics, 2000. p. 201-207. Disponível em:

<http://dx.doi.org/10.3115/990820.990850>. Acesso em: 11 mar. 2009.

CONSELHO MUNICIPAL DE DEFESA DOS DIREITOS DO NEGRO. Anemia

Falciforme. 2008. Disponível em: <http://www.rio.rj.gov.br/smas/comdedine/saude.htm>.

Acesso em: 28 jan. 2009.

CORNEY, D. P. A. et al. BioRAT: extracting biological information from full-length papers.

Bioinformatics, v. 20, n. 17, p. 3206-3213, 2004. Disponível em:

<http://dx.doi.org/10.1093/bioinformatics/bth386>. Acesso em: 27 fev. 2009.

COVAS, D. T. et al. Effects of hydroxyurea on the membrane of erythrocytes and platelets in

sickle cell anemia. Haematologica, v. 89, n. 3, p. 273-280, 2004. Disponível em:

<http://www.haematologica.org/cgi/content/abstract/89/3/273>. Acesso em: 25 ago. 2008.

CUNNINGHAM, H. Information extraction, automatic. In: KEITH, B. (Ed.). Encyclopedia

of language & linguistics. 2nd. Oxford: Elsevier, 2006. p. 665-677. v. 5. Disponível em:

<http://dx.doi.org/10.1016/B0-08-044854-2/00960-3>. Acesso em: 10 mar. 2009.

DÖRRE, J.; GERSTL, P.; SEIFFERT, R. Text mining: finding nuggets in mountains of

textual data. In: ACM SIGKDD INTERNATIONAL CONFERENCE ON KNOWLEDGE

DISCOVERY AND DATA MINING, 5th, 1999, San Diego, California. Proceedings... New

York: ACM, 1999. p. 398-401. Disponível em: <http://doi.acm.org/10.1145/312129.312299>.

Acesso em: 10 fev. 2009.

EBECKEN, N. F. F.; LOPES, M. C. S.; COSTA, M. C. D. A. Mineração de textos. In:

REZENDE, S. O. (Ed.). Sistemas inteligentes: fundamentos e aplicações. São Carlos:

Manole, 2003. p. 337-370. cap. 13.

EGOROV, S.; YURYEV, A.; DARASELIA, N. A simple and practical dictionary-based

approach for identification of proteins in MEDLINE abstracts. Journal American Medical

Informatics Association (JAMIA), v. 11, n. 3, p. 174-178, 2004. Disponível em:

<http://dx.doi.org/10.1197/jamia.M1453>. Acesso em: 25 fev. 2009.

FAN, W. et al. Tapping the power of text mining. Communications of the ACM, v. 49, n. 9,

p. 76-82, 2006. Disponível em: <http://doi.acm.org/10.1145/1151030.1151032>. Acesso em:

15 dez. 2008.

FAYYAD, U.; PIATETSKY-SHAPIRO, G.; SMYTH, P. From data mining to knowledge

discovery in databases. AI Magazine, v. 17, n. 3, p. 37-54, 1996. Disponível em:

<http://www.aaai.org/AITopics/assets/PDF/AIMag17-03-2-article.pdf>. Acesso em: 20 nov.

2008.

Page 102: UNIVERSIDADE FEDERAL DE SÃO CARLOS CENTRO DE CIÊNCIAS ...gbd.dc.ufscar.br/~pablofmatos/files/QualiPabloFreire.pdf · UNIVERSIDADE FEDERAL DE SÃO CARLOS CENTRO DE CIÊNCIAS EXATAS

101

FELDMAN, R.; DAGAN, I. Knowledge discovery in textual databases (KDT). In:

INTERNATIONAL CONFERENCE ON KNOWLEDGE DISCOVERY AND DATA

MINING (KDD), 1995, Montréal, Québec. Proceedings... Menlo Park, CA: AAAI Press,

1995. p. 112-117. Disponível em: <http://www.aaai.org/Papers/KDD/1995/KDD95-012.pdf>.

Acesso em: 23 out. 2008.

FELDMAN, R.; SANGER, J. The text mining handbook: advanced approaches in analyzing

unstructured data. New York: Cambridge University Press, 2007. 391 p.

FIOL, G. D.; HAUG, P. J. Classification models for the prediction of clinicians' information

needs. Journal of Biomedical Informatics, v. 42, n. 1, p. 82-89, 2009. Disponível em:

<http://dx.doi.org/10.1016/j.jbi.2008.07.001>. Acesso em: 13 mar. 2009.

FORMAN, G. An extensive empirical study of feature selection metrics for text classification.

The Journal of Machine Learning Research, v. 3, p. 1289-1305, Mar., 2003. Disponível

em: <http://portal.acm.org/citation.cfm?id=944974>. Acesso em: 16 fev. 2009.

FRANZÉN, K. et al. Protein names and how to find them. International Journal of Medical

Informatics, v. 67, n. 1-3, p. 49-61, 2002. Disponível em: <http://dx.doi.org/10.1016/S1386-

5056(02)00052-7>. Acesso em: 12 mar. 2009.

FUKUDA, K. et al. Toward information extraction: identifying protein names from biological

papers. In: PACIFIC SYMPOSIUM ON BIOCOMPUTING (PSB), 3th, 1998, Hawaii.

Proceedings... 1998. p. 705-716. Disponível em: <http://psb.stanford.edu/psb-

online/proceedings/psb98/fukuda.pdf>. Acesso em: 24 fev. 2009.

GALIZA NETO, G. C. D.; PITOMBEIRA, M. D. S. Aspectos moleculares da anemia

falciforme. Jornal Brasileiro de Patologia e Medicina Laboratorial, v. 39, n. 1, p. 51-56,

2003. Disponível em: <http://dx.doi.org/10.1590/S1676-24442003000100011>. Acesso em:

18 fev. 2009.

GANTZ, J. F. et al. The expanding digital universe: a forecast of worldwide information

growth through 2010. IDC Whitepaper, 2007. Disponível em:

<http://www.emc.com/collateral/analyst-reports/expanding-digital-idc-white-paper.pdf>.

Acesso em: 14 maio 2009.

GARTEN, Y.; ALTMAN, R. Pharmspresso: a text mining tool for extraction of

pharmacogenomic concepts and relationships from full text. BMC Bioinformatics, v. 10, p.

S6, 2009. Suppl. 2. Disponível em: <http://dx.doi.org/10.1186/1471-2105-10-S2-S6>. Acesso

em: 12 mar. 2009.

GENETICS HOME REFERENCE. What is sickle cell disease? 2007. Disponível em:

<http://ghr.nlm.nih.gov/condition=sicklecelldisease>. Acesso em: 16 mar. 2009.

GHANEM, M. M. et al. Automatic scientific text classification using local patterns: KDD

CUP 2002 (task 1). ACM SIGKDD Explorations Newsletter, v. 4, n. 2, p. 95-96, 2002.

Disponível em: <http://doi.acm.org/10.1145/772862.772876>. Acesso em: 11 fev. 2009.

Page 103: UNIVERSIDADE FEDERAL DE SÃO CARLOS CENTRO DE CIÊNCIAS ...gbd.dc.ufscar.br/~pablofmatos/files/QualiPabloFreire.pdf · UNIVERSIDADE FEDERAL DE SÃO CARLOS CENTRO DE CIÊNCIAS EXATAS

102

GULBIS, B. et al. Hydroxyurea for sickle cell disease in children and for prevention of

cerebrovascular events: the Belgian experience. Blood, v. 105, n. 7, p. 2685-2690, 2005.

Disponível em: <http://dx.doi.org/10.1182/blood-2004-07-2704>. Acesso em: 25 ago. 2008.

GUYON, I. et al. Gene selection for cancer classification using support vector machines.

Machine Learning, v. 46, n. 1-3, p. 389-422, 2002. Disponível em:

<http://dx.doi.org/10.1023/A:1012487302797>. Acesso em: 17 fev. 2009.

HAN, J.; KAMBER, M. Data mining: concepts and techniques. 2nd ed. San Francisco, CA:

Morgan Kaufmann, 2006. 743 p.

HANISCH, D. et al. ProMiner: rule-based protein and gene entity recognition. BMC

Bioinformatics, v. 6, p. S14, 2005. Suppl. 1. Disponível em:

<http://dx.doi.org/10.1186/1471-2105-6-S1-S14>. Acesso em: 26 fev. 2009.

HEARST, M. A. Untangling text data mining. In: ANNUAL MEETING OF THE

ASSOCIATION OF COMPUTATIONAL LINGUISTICS, 37th, 1999, College Park,

Maryland. Proceedings... Morristown, NJ: Association for Computational Linguistics, 1999.

p. 3-10. Disponível em: <http://dx.doi.org/10.3115/1034678.1034679>. Acesso em: 23 out.

2008.

______. What is text mining? 2003. Disponível em:

<http://people.ischool.berkeley.edu/~hearst/text-mining.html>. Acesso em: 23 out. 2008.

HEMORIO. Manual do paciente: anemia hemolítica hereditária I (Doença Falciforme). Rio

de Janeiro, RJ, 2005. 16 p. Disponível em:

<http://www.hemorio.rj.gov.br/Html/pdf/Manuais/Anemia_hemolitica_hereditaria_I.pdf>.

Acesso em: 30 out. 2008.

HIRSCHMAN, L. The evolution of evaluation: lessons from the Message Understanding

Conferences. Computer Speech & Language, v. 12, n. 4, p. 281-305, 1998. Disponível em:

<http://dx.doi.org/10.1006/csla.1998.0102>. Acesso em: 16 mar. 2009.

HIRSCHMAN, L.; MORGAN, A. A.; YEH, A. S. Rutabaga by any other name: extracting

biological names. Journal of Biomedical Informatics, v. 35, n. 4, p. 247-259, 2002.

Disponível em: <http://dx.doi.org/10.1016/S1532-0464(03)00014-5>. Acesso em: 13 mar.

2009.

HOTHO, A.; NÜRNBERGER, A.; PAASS, G. A brief survey of text mining. LDV Forum -

GLDV Journal for Computational Linguistics and Language Technology, v. 20, n. 1, p.

19-62, 2005. Disponível em: <http://www.kde.cs.uni-

kassel.de/hotho/pub/2005/hotho05TextMining.pdf>. Acesso em: 23 out. 2008.

HRISTOVSKI, D. et al. Exploiting semantic relations for literature-based discovery. In:

AMERICAN MEDICAL INFORMATICS ASSOCIATION (AMIA), 30th, 2006, Anchorage,

Alaska. Proceedings... 2006. p. 349-353. Disponível em:

<http://www.pubmedcentral.nih.gov/articlerender.fcgi?artid=1839258>. Acesso em: 06 fev.

2009.

Page 104: UNIVERSIDADE FEDERAL DE SÃO CARLOS CENTRO DE CIÊNCIAS ...gbd.dc.ufscar.br/~pablofmatos/files/QualiPabloFreire.pdf · UNIVERSIDADE FEDERAL DE SÃO CARLOS CENTRO DE CIÊNCIAS EXATAS

103

HU, Z. Z. et al. Literature mining and database annotation of protein phosphorylation using a

rule-based system. Bioinformatics, v. 21, n. 11, p. 2759-2765, 2005. Disponível em:

<http://dx.doi.org/10.1093/bioinformatics/bti390>. Acesso em: 23 fev. 2009.

IKONOMAKIS, M.; KOTSIANTIS, S.; TAMPAKAS, V. Text classification using machine

learning techniques. WSEAS Transactions on Computers, v. 4, n. 8, p. 966-974, 2005.

Disponível em:

<http://www.math.upatras.gr/~esdlab/en/members/kotsiantis/Text%20Classification%20final

%20journal.pdf>. Acesso em: 13 fev. 2009.

IMAMURA, C. Y.-M. Pré-processamento para extração de conhecimento de bases

textuais. 103 f. Dissertação (Mestrado em Ciência de Computação e Matemática

Computacional) – Instituto de Ciências Matemáticas e de Computação, Universidade de São

Paulo, São Carlos, 2001.

JACKSON, P.; MOULINIER, I. Natural language processing for online applications: text

retrieval, extraction and categorization. John Benjamins, 2002. 223 p.

JENSEN, L. J.; SARIC, J.; BORK, P. Literature mining for the biologist: from information

retrieval to biological discovery. Nature Reviews Genetics, v. 7, n. 2, p. 119-129, 2006.

Disponível em: <http://dx.doi.org/10.1038/nrg1768>. Acesso em: 24 fev. 2009.

JURAFSKY, D.; MARTIN, J. H. Speech and language processing: an introduction to

natural language processing, computational linguistics and speech recognition. Englewood

Cliffs, New Jersey: Prentice Hall, 2000. 950 p.

KANYA, N.; GEETHA, S. Information extraction - a text mining approach. In: IET-UK

INTERNATIONAL CONFERENCE ON INFORMATION AND COMMUNICATION

TECHNOLOGY IN ELECTRICAL SCIENCES (ICTES), 2007, Chennai, Tamilnadu, India.

Proceedings... 2007. p. 1111-1118. Disponível em:

<http://ieeexplore.ieee.org/xpls/abs_all.jsp?arnumber=4735960>. Acesso em: 10 mar. 2009.

KARANIKAS, H.; TJORTJIS, C.; THEODOULIDIS, B. An approach to text mining using

information extraction. In: EUROPEAN CONFERENCE ON PRINCIPLES AND

PRACTICE OF KNOWLEDGE DISCOVERY IN DATABASES (PKDD), 4th, 2000, Lyon,

France. Proceedings... 2000. p. 1-14. Disponível em: <http://eric.univ-

lyon2.fr/~pkdd2000/Download/WS5_13.pdf>. Acesso em: 22 set. 2008.

KATZ, B.; LIN, J. J.; FELSHIN, S. The START multimedia information system: current

technology and future directions. In: INTERNATIONAL WORKSHOP ON MULTIMEDIA

INFORMATION SYSTEMS (MIS), 2002, Tempe, Arizona. Proceedings... 2002. p. 117-123.

Disponível em:

<http://www.umiacs.umd.edu/~jimmylin/publications/Katz_etal_MIS2002.pdf>. Acesso em:

16 mar. 2009.

KAZAMA, J. I. et al. Tuning support vector machines for biomedical named entity

recognition. In: WORKSHOP ON NATURAL LANGUAGE PROCESSING IN THE

BIOMEDICAL DOMAIN, 2002, Phildadelphia, Pennsylvania. Proceedings... Morristown,

NJ: Association for Computational Linguistics, 2002. p. 1-8. Disponível em:

<http://dx.doi.org/10.3115/1118149.1118150>. Acesso em: 24 mar. 2009.

Page 105: UNIVERSIDADE FEDERAL DE SÃO CARLOS CENTRO DE CIÊNCIAS ...gbd.dc.ufscar.br/~pablofmatos/files/QualiPabloFreire.pdf · UNIVERSIDADE FEDERAL DE SÃO CARLOS CENTRO DE CIÊNCIAS EXATAS

104

KIMBALL, R.; ROSS, M. The data warehouse toolkit. 2nd ed. New York: Wiley Computer

Publishing, 2002. 464 p.

KOHAVI, R. A study of cross-validation and bootstrap for accuracy estimation and model

selection. In: INTERNATIONAL JOINT CONFERENCES ON ARTIFICIAL

INTELLIGENCE (IJCAI), 14th, 1995, Montréal, Québec. Proceedings... Morgan Kaufmann,

1995. p. 1137-1145. Disponível em:

<http://citeseerx.ist.psu.edu/viewdoc/summary?doi=10.1.1.48.529>. Acesso em: 13 fev. 2009.

KOU, Z.; COHEN, W. W.; MURPHY, R. F. High-recall protein entity recognition using a

dictionary. Bioinformatics, v. 21, p. i266-273, 2005. Suppl. 1. Disponível em:

<http://dx.doi.org/10.1093/bioinformatics/bti1006>. Acesso em: 23 mar. 2009.

KRAUTHAMMER, M.; NENADIC, G. Term identification in the biomedical literature.

Journal of Biomedical Informatics, v. 37, n. 6, p. 512-526, 2004. Disponível em:

<http://dx.doi.org/10.1016/j.jbi.2004.08.004>. Acesso em: 25 fev. 2009.

KRAUTHAMMER, M. et al. Using BLAST for identifying gene and protein names in journal

articles. Gene, v. 259, n. 1-2, p. 245-252, 2000. Disponível em:

<http://dx.doi.org/10.1016/S0378-1119(00)00431-5>. Acesso em: 24 mar. 2009.

LEFÈVRE, N. et al. Use of hydroxyurea in prevention of stroke in children with sickle cell

disease. Blood, v. 111, n. 2, p. 963-964, 2008. Disponível em:

<http://dx.doi.org/10.1182/blood-2007-08-102244>. Acesso em: 26 jan. 2009.

LEONARD, J. E.; COLOMBE, J. B.; LEVY, J. L. Finding relevant references to genes and

proteins in Medline using a Bayesian approach. Bioinformatics, v. 18, n. 11, p. 1515-1522,

Nov., 2002. Disponível em: <http://dx.doi.org/10.1093/bioinformatics/18.11.1515>. Acesso

em: 24 fev. 2009.

LING, X. et al. Automatically generating gene summaries from biomedical literature. In:

PACIFIC SYMPOSIUM ON BIOCOMPUTING (PSB), 11th, 2006, Hawaii. Proceedings...

2006. p. 40-51. Disponível em: <http://psb.stanford.edu/psb-

online/proceedings/psb06/ling.pdf>. Acesso em: 11 fev. 2009.

LUO, Q. Advancing knowledge discovery and data mining. In: INTERNATIONAL

WORKSHOP ON KNOWLEDGE DISCOVERY AND DATA MINING, 2008, Adelaide,

Australia. Proceedings... IEEE Computer Society, 2008. p. 3-5. Disponível em:

<http://dx.doi.org/10.1109/WKDD.2008.153>. Acesso em: 10 dez. 2008.

MANNING, C. D.; RAGHAVAN, P.; SCHÜTZE, H. Introduction to information

retrieval. Cambridge: Cambridge University Press, 2008. 482 p. Disponível em:

<http://www-csli.stanford.edu/~hinrich/information-retrieval-book.html>. Acesso em: 28 nov.

2008.

MANNING, C. D.; SCHÜTZE, H. Foundations of statistical natural language processing.

London, England: MIT Press, 1999. 680 p.

Page 106: UNIVERSIDADE FEDERAL DE SÃO CARLOS CENTRO DE CIÊNCIAS ...gbd.dc.ufscar.br/~pablofmatos/files/QualiPabloFreire.pdf · UNIVERSIDADE FEDERAL DE SÃO CARLOS CENTRO DE CIÊNCIAS EXATAS

105

MARTINS, C. A. Uma abordagem para pré-processamento de dados textuais em

algoritmos de aprendizado. 174 f. Tese (Doutorado em Ciência de Computação e

Matemática Computacional) – Instituto de Ciências Matemáticas e de Computação,

Universidade de São Paulo, São Carlos, 2003. Disponível em:

<http://www.teses.usp.br/teses/disponiveis/55/55134/tde-08032004-164855/>. Acesso em: 09

fev. 2009.

MATHIAK, B.; ECKSTEIN, S. Five steps to text mining in biomedical literature. In:

EUROPEAN WORKSHOP ON DATA MINING AND TEXT MINING IN

BIOINFORMATICS, 2nd, 2004. Proceedings... 2004. p. 47-50. Disponível em:

<http://www2.informatik.hu-berlin.de/Forschung_Lehre/wm/ws04/7.pdf>. Acesso em: 13

mar. 2009.

MCDONALD, R.; PEREIRA, F. Identifying gene and protein mentions in text using

conditional random fields. BMC Bioinformatics, v. 6, p. S6, 2005. Suppl. 1. Disponível em:

<http://dx.doi.org/10.1186/1471-2105-6-S1-S6>. Acesso em: 11 mar. 2009.

MCNAUGHT, J.; BLACK, W. J. Information extraction. In: ANANIADOU, S.;

MCNAUGHT, J. (Ed.). Text mining for biology and biomedicine. Norwood, MA: Artech

House, 2006. p. 143-178.

MEDICAL ENCYCLOPEDIA. Formed elements of blood. 2008. Disponível em:

<http://www.nlm.nih.gov/medlineplus/ency/imagepages/19192.htm>. Acesso em: 16 mar.

2009.

MHAMDI, F.; ELLOUMI, M. A new survey on knowledge discovery and data mining. In:

IEEE INTERNATIONAL RESEARCH CHALLENGES IN INFORMATION SCIENCE

(RCIS), 2nd, 2008, Marrakech, Morocco. Proceedings... 2008. p. 427-432. Disponível em:

<http://dx.doi.org/10.1109/RCIS.2008.4632134 >. Acesso em: 10 dez. 2008.

MIKA, S.; ROST, B. NLProt: extracting protein names and sequences from papers. Nucleic

Acids Research, v. 32, p. 634-637, 2004a. Suppl. 2. Disponível em:

<http://dx.doi.org/10.1093/nar/gkh427>. Acesso em: 25 fev. 2009.

______. Protein names precisely peeled off free text. Bioinformatics, v. 20, p. i241-247,

2004b. Suppl. 1. Disponível em: <http://dx.doi.org/10.1093/bioinformatics/bth904>. Acesso

em: 27 fev. 2009.

MINISTÉRIO DA SAÚDE. Anemia. 2004. Disponível em:

<http://bvsms.saude.gov.br/html/pt/dicas/69anemia.html>. Acesso em: 13 fev. 2009.

______. Doença falciforme e outras hemoglobinopatias: anemia falciforme. 2008.

Disponível em:

<http://portal.saude.gov.br/portal/saude/visualizar_texto.cfm?idtxt=27777&janela=1>.

Acesso em: 30 out. 2008.

MITCHELL, T. M. Machine learning. Boston: McGraw-Hill, 1997. 414 p.

MLADENIC, D.; GROBELNIK, M. Feature selection for unbalanced class distribution and

Naive Bayes. In: INTERNATIONAL CONFERENCE ON MACHINE LEARNING (ICML),

Page 107: UNIVERSIDADE FEDERAL DE SÃO CARLOS CENTRO DE CIÊNCIAS ...gbd.dc.ufscar.br/~pablofmatos/files/QualiPabloFreire.pdf · UNIVERSIDADE FEDERAL DE SÃO CARLOS CENTRO DE CIÊNCIAS EXATAS

106

16th, 1999, Bled, Slovenia. Proceedings... Morgan Kaufmann, 1999. p. 258-267. Disponível

em: <http://citeseerx.ist.psu.edu/viewdoc/summary?doi=10.1.1.31.2544>. Acesso em: 16 fev.

2009.

MOLLÁ, D.; VICEDO, J. L. Question answering in restricted domains: an overview.

Computational Linguistics, v. 33, n. 1, p. 41-61, 2007. Disponível em:

<http://www.ics.mq.edu.au/~diego/answerfinder/rdqa/CLQA07.pdf>. Acesso em: 16 mar.

2009.

MONARD, M. C.; BARANAUSKAS, J. A. Conceitos sobre aprendizado de máquina. In:

REZENDE, S. O. (Ed.). Sistemas inteligentes: fundamentos e aplicações. São Carlos:

Manole, 2003. p. 89-114. cap. 4.

MONTALEMBERT, M. D. et al. Long-term hydroxyurea treatment in children with sickle

cell disease: tolerance and clinical outcomes. Haematologica, v. 91, n. 1, p. 125-128, 2006.

Disponível em: <http://www.haematologica.org/cgi/content/abstract/91/1/125>. Acesso em:

25 ago. 2008.

NADEAU, D.; SEKINE, S. A survey of named entity recognition and classification.

Linguisticae Investigationes, v. 30, n. 1, p. 3-26, 2007. Disponível em:

<http://nlp.cs.nyu.edu/sekine/papers/li07.pdf>. Acesso em: 24 fev. 2009.

NATARAJAN, J. et al. Text mining of full-text journal articles combined with gene

expression analysis reveals a relationship between sphingosine-1-phosphate and invasiveness

of a glioblastoma cell line. BMC Bioinformatics, v. 7, n. 1, p. 373, 2006. Disponível em:

<http://dx.doi.org/10.1186/1471-2105-7-373>. Acesso em: 16 mar. 2009.

______. GetItFull - a tool for downloading and pre-processing full-text journal articles. In:

KNOWLEDGE DISCOVERY IN LIFE SCIENCE LITERATURE (KDLL), 2006, Singapore.

Proceedings... Springer-Verlag, 2006. p. 139-145. Disponível em:

<http://dx.doi.org/10.1007/11683568_12>. Acesso em: 27 mar. 2009.

NATIONAL CENTER FOR BIOTECHNOLOGY INFORMATION. Entrez, the life

sciences search engine. 2009a. Disponível em: <http://www.ncbi.nlm.nih.gov/Entrez/>.

Acesso em: 26 mar. 2009.

______. PubMed. 2009b. Disponível em: <http://www.ncbi.nlm.nih.gov/pubmed/>. Acesso

em: 16 mar. 2009.

NATIONAL INSTITUTE OF HEALTH. What is sickle cell anemia? 2008. Disponível em:

<http://www.nhlbi.nih.gov/health/dci/Diseases/Sca/SCA_WhatIs.html>. Acesso em: 06 fev.

2009.

NATIONAL LIBRARY OF MEDICINE. Fact Sheet: MEDLINE. 2008. Disponível em:

<http://www.nlm.nih.gov/pubs/factsheets/medline.html>. Acesso em: 16 mar. 2009.

NOBATA, C.; COLLIER, N.; TSUJII, J.-I. Automatic term identification and classification in

biology texts In: NATURAL LANGUAGE PACIFIC RIM SYMPOSIUM (NLPRS), 4th,

1999, Beijing, China. Proceedings... 1999. p. 369-374. Disponível em:

Page 108: UNIVERSIDADE FEDERAL DE SÃO CARLOS CENTRO DE CIÊNCIAS ...gbd.dc.ufscar.br/~pablofmatos/files/QualiPabloFreire.pdf · UNIVERSIDADE FEDERAL DE SÃO CARLOS CENTRO DE CIÊNCIAS EXATAS

107

<http://citeseerx.ist.psu.edu/viewdoc/summary?doi=10.1.1.28.8384>. Acesso em: 26 fev.

2009.

ONO, T. et al. Automated extraction of information on protein-protein interactions from the

biological literature. Bioinformatics, v. 17, n. 2, p. 155-161, 2001. Disponível em:

<http://dx.doi.org/10.1093/bioinformatics/17.2.155>. Acesso em: 23 mar. 2009.

PARDO, T. A. S. DMSumm: um gerador automático de sumários. 103 f. Dissertação

(Mestrado em Ciência da Computação) – Departamento de Ciência da Computação,

Universidade Federal de São Carlos, São Carlos, 2002. Disponível em:

<http://www.icmc.usp.br/~taspardo/DISSERTATION-Pardo.pdf>. Acesso em: 17 mar. 2009.

PARDO, T. A. S.; RINO, L. H. M.; NUNES, M. D. G. V. GistSumm: a summarization tool

based on a new extractive method. In: MAMEDE, N. J. et al. (Ed.). Computational

processing of the portuguese language. 6th. Faro, Portugal: Springer, 2003. p. 210-218.

(Lecture Notes in Computer Science; v. 2721). Disponível em: <http://dx.doi.org/10.1007/3-

540-45011-4_34>. Acesso em: 17 mar. 2009.

PARK, J. C.; KIM, J.-J. Named entity recognition. In: ANANIADOU, S.; MCNAUGHT, J.

(Ed.). Text mining for biology and biomedicine. Norwood, MA: Artech House, 2006. p.

121-142.

PENDAR, N.; COTOS, E. Automatic identification of discourse moves in scientific article

introductions. In: INNOVATIVE USE OF NLP FOR BUILDING EDUCATIONAL

APPLICATIONS, 3th, 2008. Proceedings... Morristown, NJ: Association for Computational

Linguistics, 2008. p. 62-70. Disponível em: <http://www.aclweb.org/anthology-

new/W/W08/W08-0908.pdf>. Acesso em: 23 out. 2008.

RADEV, D. R.; HOVY, E.; MCKEOWN, K. Introduction to the special issue on

summarization. Computational Linguistics, v. 28, n. 4, p. 399-408, 2002. Disponível em:

<http://dx.doi.org/10.1162/089120102762671927>. Acesso em: 16 mar. 2009.

REBHOLZ-SCHUHMANN, D.; KIRSCH, H.; COUTO, F. Facts from text - is text mining

ready to deliver? PLoS Biology, v. 3, n. 2, p. e65, 2005. Disponível em:

<http://dx.doi.org/10.1371%2Fjournal.pbio.0030065>. Acesso em: 16 mar. 2009.

RODRIGUES, C. M. Hemopatias na gestação. 2008. Disponível em:

<http://www.paulomargotto.com.br/documentos/Hemopatias%20na%20Gesta%C3%A7%C3

%A3o.ppt>. Acesso em: 30 out. 2008.

RUIZ, M. A. Anemia falciforme: objetivos e resultados no tratamento de uma doença de

saúde pública no Brasil. Revista Brasileira de Hematologia e Hemoterapia, v. 29, n. 3, p.

203-204, 2007. Disponível em: <http://dx.doi.org/10.1590/S1516-84842007000300001>.

Acesso em: 29 jan. 2009.

SAYERS, E. W. et al. Database resources of the National Center for Biotechnology

Information. Nucleic Acids Research, v. 37, p. D5-15, 2009. Suppl. 1. Disponível em:

<http://dx.doi.org/10.1093/nar/gkn741>. Acesso em: 13 mar. 2009.

Page 109: UNIVERSIDADE FEDERAL DE SÃO CARLOS CENTRO DE CIÊNCIAS ...gbd.dc.ufscar.br/~pablofmatos/files/QualiPabloFreire.pdf · UNIVERSIDADE FEDERAL DE SÃO CARLOS CENTRO DE CIÊNCIAS EXATAS

108

SCHUEMIE, M. J. et al. Evaluation of techniques for increasing recall in a dictionary

approach to gene and protein name identification. Journal of Biomedical Informatics, v. 40,

n. 3, p. 316-324, 2007. Disponível em: <http://dx.doi.org/10.1016/j.jbi.2006.09.002>. Acesso

em: 25 fev. 2009.

______. Distribution of information in biomedical abstracts and full-text publications.

Bioinformatics, v. 20, n. 16, p. 2597-2604, 2004. Disponível em:

<http://dx.doi.org/10.1093/bioinformatics/bth291>. Acesso em: 09 mar. 2009.

SEBASTIANI, F. Machine learning in automated text categorization. ACM Computing

Surveys, v. 34, n. 1, p. 1-47, 2002. Disponível em:

<http://doi.acm.org/10.1145/505282.505283>. Acesso em: 17 fev. 2009.

SEGAL, J. B. et al. Hydroxyurea for the treatment of sickle cell disease. Rockville, MD:

Agency for Healthcare Research and Quality, 2008, p. 1-298. (Evidence Report/Technology

Assessment, n. 165). Disponível em:

<http://www.ahrq.gov/downloads/pub/evidence/pdf/hydroxyurea/hydroxscd.pdf>. Acesso em:

26 jan. 2009.

SEKI, K.; MOSTAFA, J. An approach to protein name extraction using heuristics and a

dictionary. In: ANNUAL CONFERENCE OF THE AMERICAN SOCIETY FOR

INFORMATION SCIENCE AND TECHNOLOGY (ASIST), 2003, Long Beach, CA.

Proceedings... 2003. p. 1-7. Disponível em: <http://www.ai.cs.kobe-

u.ac.jp/~kseki/myarticles/seki2003asis.pdf>. Acesso em: 25 mar. 2009.

______. A hybrid approach to protein name identification in biomedical texts. Information

Processing & Management, v. 41, n. 4, p. 723-743, 2005. Disponível em:

<http://dx.doi.org/10.1016/j.ipm.2004.02.006>. Acesso em: 24 mar. 2009.

______. Discovering implicit association between genes and hereditary diseases. In: PACIFIC

SYMPOSIUM ON BIOCOMPUTING (PSB), 12th, 2007, Hawaii. Proceedings... 2007. p.

316-327. Disponível em: <http://psb.stanford.edu/psb-online/proceedings/psb07/seki.pdf>.

Acesso em: 11 fev. 2009.

SEKINE, S. Named entity: history and future. 2004. 5 p. Disponível em:

<http://cs.nyu.edu/~sekine/papers/NEsurvey200402.pdf>. Acesso em: 23 mar. 2009.

SILVA, P. P. ExtraWeb: um sumarizador de documentos Web baseado em etiquetas HTML

e ontologia. 158 f. Dissertação (Mestrado em Ciência de Computação) – Departamento de

Ciência da Computação, Universidade Federal de São Carlos, São Carlos, 2006. Disponível

em: <http://www.bdtd.ufscar.br/tde_busca/arquivo.php?codArquivo=1170>. Acesso em: 10

nov. 2008.

SILVA, R. B. P.; RAMALHO, A. S.; CASSORLA, R. M. S. A anemia falciforme como

problema de saúde pública no Brasil. Revista de Saúde Pública, v. 27, n. 1, p. 54-58, 1993.

Disponível em: <http://dx.doi.org/10.1590/S0034-89101993000100009>. Acesso em: 29 jan.

2009.

Page 110: UNIVERSIDADE FEDERAL DE SÃO CARLOS CENTRO DE CIÊNCIAS ...gbd.dc.ufscar.br/~pablofmatos/files/QualiPabloFreire.pdf · UNIVERSIDADE FEDERAL DE SÃO CARLOS CENTRO DE CIÊNCIAS EXATAS

109

SPASIC, I. et al. Text mining and ontologies in biomedicine: making sense of raw text.

Briefings in Bioinformatics, v. 6, n. 3, p. 239-251, 2005. Disponível em:

<http://dx.doi.org/10.1093/bib/6.3.239>. Acesso em: 13 fev. 2009.

SRINIVASAN, P. Text mining: generating hypotheses from MEDLINE. Journal of the

American Society for Information Science and Technology, v. 55, n. 5, p. 396-413, 2004.

Disponível em: <http://citeseerx.ist.psu.edu/viewdoc/summary?doi=10.1.1.10.4798>. Acesso

em: 22 ago. 2008.

STAVRIANOU, A.; ANDRITSOS, P.; NICOLOYANNIS, N. Overview and semantic issues

of text mining. SIGMOD Record, v. 36, n. 3, p. 23-34, 2007. Disponível em:

<http://doi.acm.org/10.1145/1324185.1324190>. Acesso em: 23 out. 2008.

STRANIERI, A.; ZELEZNIKOW, J. Knowledge discovery from legal databases.

Dordrecht, Netherlands: Springer, 2005. 294 p. (Law and Philosophy Library; v. 69).

STYLES, L. A. et al. Transfusion prevents acute chest syndrome predicted by elevated

secretory phospholipase A2. British Journal of Haematology, v. 136, n. 2, p. 343-344, 2007.

Disponível em: <http://dx.doi.org/10.1111/j.1365-2141.2006.06409.x>. Acesso em: 25 ago.

2008.

SUN MICROSYSTEMS. JavaTM

2 Platform: standard edition, v 1.4.2 API specification.

Disponível em: <http://java.sun.com/j2se/1.4.2/docs/api/>. Acesso em: 25 mar. 2009.

SWANSON, D.; SMALHEISER, N. An interactive system for finding complementary

literatures: a stimulus to scientific discovery. Artificial Intelligence, v. 91, p. 183-203, 1997.

Disponível em: <http://www.cs.cmu.edu/~sci-disc/Elsewhere/swanson.html>. Acesso em: 22

ago. 2008.

SWANSON, D. R. Fish oil, Raynaud's syndrome, and undiscovered public knowledge.

Perspectives in Biology and Medicine, v. 30, n. 1, p. 7-18, 1986.

______. Complementary structures in disjoint science literatures. In: ANNUAL

INTERNATIONAL ACM SIGIR CONFERENCE, 14th, 1991, Chicago, Illinois.

Proceedings... New York: ACM, 1991. p. 280-289. Disponível em:

<http://doi.acm.org/10.1145/122860.122889>. Acesso em: 06 out. 2008.

TAN, A.-H. Text mining: the state of the art and the challenges. In: KNOWLEDGE

DISCOVERY FROM ADVANCED DATABASES (KDAD), 1999, Beijing, China.

Proceedings... PAKDD, 1999. p. 71-76. Disponível em:

<http://www3.ntu.edu.sg/home/asahtan/Papers/tm_pakdd99.pdf>. Acesso em: 23 out. 2008.

TANABE, L.; WILBUR, W. J. Tagging gene and protein names in biomedical text.

Bioinformatics, v. 18, n. 8, p. 1124-1132, 2002a. Disponível em:

<http://dx.doi.org/10.1093/bioinformatics/18.8.1124>. Acesso em: 11 fev. 2009.

______. Tagging gene and protein names in full text articles. In: WORKSHOP ON

NATURAL LANGUAGE PROCESSING IN THE BIOMEDICAL DOMAIN, 2002b,

Phildadelphia, Pennsylvania. Proceedings... Morristown, NJ: Association for Computational

Page 111: UNIVERSIDADE FEDERAL DE SÃO CARLOS CENTRO DE CIÊNCIAS ...gbd.dc.ufscar.br/~pablofmatos/files/QualiPabloFreire.pdf · UNIVERSIDADE FEDERAL DE SÃO CARLOS CENTRO DE CIÊNCIAS EXATAS

110

Linguistics, 2002b. p. 9-13. Disponível em: <http://dx.doi.org/10.3115/1118149.1118151>.

Acesso em: 25 fev. 2009.

TSURUOKA, Y.; TSUJII, J. I. Improving the performance of dictionary-based approaches in

protein name recognition. Journal of Biomedical Informatics, v. 37, n. 6, p. 461-470, 2004.

Disponível em: <http://dx.doi.org/10.1016/j.jbi.2004.08.003>. Acesso em: 25 fev. 2009.

VAN RIJSBERGEN, C. J. Information retrieval. 2nd ed. Butterworth-Heinemann, 1979.

224 p. Disponível em: <http://www.dcs.gla.ac.uk/Keith/Preface.html>. Acesso em: 10 nov.

2008.

WEEBER, M. et al. Text-based discovery in biomedicine: the architecture of the DAD-

system. In: AMERICAN MEDICAL INFORMATICS ASSOCIATION (AMIA), 24th, 2000, Los

Angeles, CA. Proceedings... 2000. p. 903-907. Disponível em:

<http://www2.amia.org/pubs/symposia/D200133.PDF>. Acesso em: 22 ago. 2008.

______. Generating hypotheses by discovering implicit associations in the literature: a case

report of a search for new potential therapeutic uses for Thalidomide. Journal of the

American Medical Informatics Association, v. 10, n. 3, p. 252-259, 2003. Disponível em:

<http://dx.doi.org/10.1197/jamia.M1158>. Acesso em: 22 ago. 2008.

WITTEN, I. H.; FRANK, E. Data mining: pratical machine learning tools and techniques

with Java implementations. 2nd ed. San Francisco, CA: Morgan Kaufmann, 2005. 525 p.

WU, J.-C. et al. Computational analysis of move structures in academic abstracts. In:

COLING/ACL ON INTERACTIVE PRESENTATION SESSIONS, 2006, Sydney, Australia.

Proceedings... Morristown, NJ: Association for Computational Linguistics, 2006. p. 41-44.

Disponível em: <http://dx.doi.org/10.3115/1225403.1225414>. Acesso em: 23 out. 2008.

WU, X. et al. Top 10 algorithms in data mining. Knowledge and Information Systems, v.

14, n. 1, p. 1-37, 2007. Disponível em: <http://dx.doi.org/10.1007/s10115-007-0114-2>.

Acesso em: 19 fev. 2009.

YANG, Y.; PEDERSEN, J. O. A comparative study on feature selection in text

categorization. In: INTERNATIONAL CONFERENCE ON MACHINE LEARNING

(ICML), 14th, 1997, San Francisco, CA. Proceedings... Morgan Kaufmann, 1997. p. 412-

420. Disponível em: <http://citeseerx.ist.psu.edu/viewdoc/summary?doi=10.1.1.32.9956>.

Acesso em: 16 fev. 2009.

YU, H. et al. Development, implementation, and a cognitive evaluation of a definitional

question answering system for physicians. Journal of Biomedical Informatics, v. 40, n. 3, p.

236-251, 2007. Disponível em: <http://dx.doi.org/10.1016/j.jbi.2007.03.002>. Acesso em: 16

mar. 2009.

ZAGO, M. A. Anemia falciforme e doenças falciformes. In: HAMANN, E.; TAUIL, P. (Ed.).

Manual de doenças mais importantes, por razões étnicas, na população brasileira afro-

descendente. Brasília: Ministério da Saúde, 2001. p. 13-35. Disponível em:

<http://bvsms.saude.gov.br/bvs/publicacoes/cd06_09.pdf>. Acesso em: 29 jan. 2009.

Page 112: UNIVERSIDADE FEDERAL DE SÃO CARLOS CENTRO DE CIÊNCIAS ...gbd.dc.ufscar.br/~pablofmatos/files/QualiPabloFreire.pdf · UNIVERSIDADE FEDERAL DE SÃO CARLOS CENTRO DE CIÊNCIAS EXATAS

111

ZHANG, H. The optimality of Naive Bayes. In: INTERNATIONAL FLAIRS

CONFERENCE, 17th, 2004, Miami Beach, Florida. Proceedings... Menlo Park, CA: AAAI

Press, 2004. p. 562-567. Disponível em:

<http://www.cs.unb.ca/profs/hzhang/publications/FLAIRS04ZhangH.pdf>. Acesso em: 16

fev. 2009.

ZHOU, G. et al. Recognition of protein/gene names from text using an ensemble of

classifiers. BMC Bioinformatics, v. 6, p. S7, 2005. Suppl. 1. Disponível em:

<http://dx.doi.org/10.1186/1471-2105-6-S1-S7>. Acesso em: 11 mar. 2009.

______. Recognizing names in biomedical texts: a machine learning approach.

Bioinformatics, v. 20, n. 7, p. 1178-1190, 2004. Disponível em:

<http://dx.doi.org/10.1093/bioinformatics/bth060>. Acesso em: 25 fev. 2009.

ZWEIGENBAUM, P. et al. Frontiers of biomedical text mining: current progress. Briefings

in Bioinformatics, v. 8, n. 5, p. 358-375, 2007. Disponível em:

<http://dx.doi.org/doi:10.1093/bib/bbm045>. Acesso em: 13 fev. 2009.

Page 113: UNIVERSIDADE FEDERAL DE SÃO CARLOS CENTRO DE CIÊNCIAS ...gbd.dc.ufscar.br/~pablofmatos/files/QualiPabloFreire.pdf · UNIVERSIDADE FEDERAL DE SÃO CARLOS CENTRO DE CIÊNCIAS EXATAS

112

GLOSSÁRIO

API: É uma interface de programação de aplicativos que oferece um conjunto de rotinas e

padrões estabelecidos.

Apositivo: Frase que altera e completa a palavra ou frase.

Baseline: É um ponto de partida que serve como limite inferior de referência.

Biomédico: O termo biomédico refere-se ao estudo da ligação entre a química e o

funcionamento do corpo humano. A ciência da biomedicina conduz estudos nas áreas da

medicina e biologia que são direcionadas a pesquisa das doenças humanas, com intuito de

encontrar causa, prevenção, diagnóstico e tratamento.

Farmacogenética: É o estudo das variações hereditárias em resposta a drogas e/ ou alterações

metabólicas.

Farmacogenômica: Pode ser caracterizada como um estudo generalista de todos os genes

que podem afetar o comportamento das drogas.

Gazetteers: Lista de lugar com nomes associados à localização geográfica.

Medical Subject Headings (MeSH): Amplo vocabulário controlado para publicações de

artigos e livros na ciência.

Ruído e Silêncio: É a informação desnecessária selecionada para treinamento que aumenta o

erro do classificador, diferentemente de Silêncio que é a característica importante que não foi

selecionada para treinamento.

Sentença e Frase: Sentença é uma palavra ou conjunto de palavras que constituem um

enunciado de sentido completo. O ponto final delimita uma sentença. Frase é uma unidade

bem menor do que a sentença. Pode ser sintagma (nominal, verbal, adverbial, etc.).

Variância: Medida que avalia o quanto os dados estão dispersos em relação à média

aritmética.

Page 114: UNIVERSIDADE FEDERAL DE SÃO CARLOS CENTRO DE CIÊNCIAS ...gbd.dc.ufscar.br/~pablofmatos/files/QualiPabloFreire.pdf · UNIVERSIDADE FEDERAL DE SÃO CARLOS CENTRO DE CIÊNCIAS EXATAS

113

APÊNDICE A – MODELO EER

Page 115: UNIVERSIDADE FEDERAL DE SÃO CARLOS CENTRO DE CIÊNCIAS ...gbd.dc.ufscar.br/~pablofmatos/files/QualiPabloFreire.pdf · UNIVERSIDADE FEDERAL DE SÃO CARLOS CENTRO DE CIÊNCIAS EXATAS

114

APÊNDICE B – MODELO RELACIONAL

PAPER Paper_ID, Paper_Title, Paper_Journal, Paper_Year, Authors, PDF, HTML, XML, Total_Patient, Concluded_Patient)

Paper_ID é auto_increment

Verificar inserção única de artigos (Paper_Title, Paper_Journal, Paper_Year)

SYMPTOM (Symptom_ID, Symptom_Name, Symptom_Acronym, Symptom_Desc)

Symptom_ID é auto_increment e SymptomName é unique

PAPER_SYMPTOM (Paper_ID, Symptom_ID, Page, Paragraph, Sentence, Patient_Number)

EFFECT (Effect_ID, Effect_Name, Effect_Acronym, Effect_Desc, Effect_Type)

Effect_ID é auto_increment, Effect_Name é unique e Effect_Type: Positive (Complication), Negative (Benefit)

PAPER_EFFECT (Paper_ID, Effect_ID, Page, Paragraph, Sentence, Patient_Number)

TREATMENT (Treatment_ID, Treatment_Name, Treatment_Acronym, Treatment_Desc, Treatment_Type)

Treatment_ID é auto_increment, Treatment_Name é unique e Treatment_Type: Drug, Therapy

PAPER_TREATMENT (Paper_ID, Treatment_ID, Page, Paragraph, Sentence, Patient_Number)

RISK_FACTOR (Risk_ID, Risk_Name, Risk_Acronym, Risk_Desc)

Risk_ID é auto_increment e Risk_Name é unique

Page 116: UNIVERSIDADE FEDERAL DE SÃO CARLOS CENTRO DE CIÊNCIAS ...gbd.dc.ufscar.br/~pablofmatos/files/QualiPabloFreire.pdf · UNIVERSIDADE FEDERAL DE SÃO CARLOS CENTRO DE CIÊNCIAS EXATAS

115

APÊNDICE C – DIAGRAMA DE CLASSES